?ما أهمية تنظيف البيانات data cleaning وكيف نعمله؟ #إحصاء ?
من المعروف ان قوة الدراسات بقوة بياناتها ومدى دقتها
من أهم الإجراءات التي تساعد الباحث في زيادة جودة البيانات هي مرحلة التنظيف التي تتم قبل البدء بالتحليل https://t.co/qMrcN8gulV
? تنظيف البيانات هو عملية إصلاح أو إزالة البيانات غير الصحيحة أو التالفة أو المنسقة بشكل غير صحيح أو المكررة أو غير المكتملة ضمن مجموعة البيانات.
تكون عملية التنظيف أهم عند الجمع بين مصادر بيانات متعددة https://t.co/zx7ciOe2J8
?كيف تنظف البيانات ؟
١- إزالة القيم المكررة او الغير ملائمة لنوع المتغير - validity
٢- تصحيح الأخطاء في كتابة المتغيرات الأسمية unify spelling
٣- تنظيم وحدة المتغير او صيغة كتابته ، مثال: قيم الوزن كلها ب كغ ، التواريخ كلها تكون بصيغة يوم/ شهر/سنه
? ٤- مراجعة القيم الشاذة outliers ، ممكن تكون مكتوبة خطأ ، حيث وجودها يؤثر على توزيع البيانات
٥- مراجعة القيم المفقودة missing data ، هل هناك مجال لإكمالها ؟ماذا عن قيم NA ؟ هل نزيل الحالات ذات القيم المفقودة؟
?٦- المتغيرات نوعية ذات الملاحظات الخطية يجب مراجعتها ومحاولة تقسيمها الى مجموعات اذا كان ممكنا
أخيرا يظن بعض الباحثين ان هذه الخطوة من مهام الإحصائي ولكن الصح ان افضل من يقوم بتنظيف البيانات هو الباحث
نفسه لأنه ادرى بمعنى كل متغير وكيفية وصفه او تصنيفه