تحجيم بيانات التعلم الآلي: التوازن بين الدقة والفعالية

تعتبر عملية تحجيم البيانات خطوة حيوية في تطوير نماذج التعلم الآلي. الهدف الرئيسي منها هو ضمان دقة وكفاءة النموذج خلال مرحلة التدريب والاستخدام الفعلي.

  • صاحب المنشور: سعدية المنصوري

    ملخص النقاش:
    تعتبر عملية تحجيم البيانات خطوة حيوية في تطوير نماذج التعلم الآلي. الهدف الرئيسي منها هو ضمان دقة وكفاءة النموذج خلال مرحلة التدريب والاستخدام الفعلي. يمكن تقسيم هذه العملية إلى جزأين رئيسيين: تحجيم البيانات وتنظيفها.

**1. تحجيم البيانات**

يُشار عادة إلى هذا النوع من التحجيم باسم "Normalization" أو "Standardization". الغرض منه هو إعادة مقياس المتغيرات المستمرة لكي تتراوح كل متغير ضمن نفس المدى، مما يساعد على منع تأثير بعض المتغيرات الأقوى على الآخرين أثناء تدريب الشبكة العصبية. هناك طريقتان شائعتان لتحقيق ذلك:

**أ- المعايرة (Min-Max Scaling)**

في طريقة المعايرة، يتم تعديل القيمة الأصلية للمتغير بناءً على الحد الأدنى والأقصى للقيم الموجودة فيه. الصيغة المستخدمة هي كالآتي:

```html

x_scaled = (x - min)/(max - min)

```

حيث `x` هي القيمة الأصلية و`min` و`max` هما أقل وأكبر قيمة موجودة في مجموعة البيانات لهذه الخاصية على التوالي.

**ب- المعيارization (Z-Score Normalization)**

تقوم هذه الطريقة بتغيير الموقع والتباعد لمجموعة البيانات بطريقة تجعل متوسطها يساوي صفر وانحراف معياري قدره واحد. الصيغة المستخدمة هنا هي كما يلي:

```html

z = (x - mean)/std

```

حيث `mean` هي القيمة المتوسطة (`average`) لجميع القيم الخاصة بالمتغير و`std` هو الانحراف المعياري لتلك القيم نفسها.

**2. تنظيف البيانات**

يتضمن جانب آخر مهم من جوانب تحجيم البيانات جهودًا لإزالة الضوضاء غير المرغوب فيها والعناصر الشاذة ("outliers") واختبار سلامة وقابلية استخدام البيانات. قد يشمل ذلك الخطوات التالية:

* الفحص البصري والميكانيكي: تقييم جودة وملاءمة البيانات المرئية باستخدام الرسوم البيانية والإحصاءات الأساسية مثل الرسم البياني للتشتت وغيره.

* إزالة القيم الناقصة أو المشبوهة: تحديد واغفال أي نقاط بيانات تحتوي على معلومات مفقودة أو مشكوك بها والتي قد تؤثر سلبيًا على أداء النموذج.

* التطبيع الإحصائي: تطبيق عمليات استثنائية للخطوط المميزة باحتوائها على شاذات كبيرة جدًا لحذفها لأن وجودها يؤدي غالبًا لتشويه الجودة الإحصائية للداتا وبالتالي نتائج النماذج المرتبطة بهذه الأخيرة بشكل مباشر.

بشكل عام، فإن كلا عمليهِ التحجيم والتنظيف ضروريتين للغاية عند تشكيل مجموعات بيانات التعلم الآلي ومن ثم توليد واستخلاص المعلومات المفيدة المبنية عليها أيضًا؛ نظرًا لكلتا العمليتين دور كبير وفعال جدّاً فيما يتعلق بضمان فعالية وتحسين اداء نموذج تعلم آلي شامل ومتكامل!


الهادي الدرقاوي

5 مدونة المشاركات

التعليقات