من أكثر الأخطاء التي يقع فيها أغلب من يعمل في مجال البيانات وتحليلها عدم التفرقة بين مصطلحي overfitt

من أكثر الأخطاء التي يقع فيها أغلب من يعمل في مجال البيانات وتحليلها عدم التفرقة بين مصطلحي overfitting و underfitting فما هو تعريف هذة المصطلحات ؟

من أكثر الأخطاء التي يقع فيها أغلب من يعمل في مجال البيانات وتحليلها عدم التفرقة بين مصطلحي overfitting و underfitting

فما هو تعريف هذة المصطلحات ؟ بل وما هو سبب الوقوع فيها ؟ ?

في سلسة تغريدات سأتحدث عن هذا الموضوع.

#data #DataScientist #DataAnalytics

ولنبدأ مع overfitting

و يُشار إليه ايضا باسم

التباين العالي ( High Variance )

التعريف:

لنفترض أنك تريد توقع ما اذا كانت الطالبة ستحصل على وظيفة بناء على سيرتها الذاتيه.

بناء على ذلك قمنا بتدريب نموذج من مجموعة بيانات من الف سيرة ذاتية. عند تشغيل النموذج حصلنا على دقة 99% أمر مذهل. ولكن عندما قمنا بتشغيل النموذج على بيانات جديدة  ( test data ) حصلنا على دقة  50% فقط.

هنا نكون وقعنا فيما يسمى ب overfitting

يعرف overfitting بأنه النموذج الذي لديه درجة عالية من الدقة في بيانات التدريب ودرجة دقة منخفضة في بيانات الاختبار.

أو يمكننا القول أيضا عندما يأخذ النموذج أو الخوارزمية نمط معين مثل الصورة الموجودة أدناه. https://t.co/qUvXRgYTr0

السبب في حدوث ال overfitting:

  1. زيادة البيانات ( الصفوف أو الأعمدة ) بشكل غير مفيد.
  2. اختيار خوارزمية غير مناسبة.


عبلة القروي

6 Blog bài viết

Bình luận