هل سمعت بـالـ Busines rules؟ ما علاقتها بجودة البيانات؟
كيف نٌعرف هذه القواعد؟ وكيف نطبقها؟ ?
أسفل هذه التغريدة سأحاول باختصار التطرق لهذه القواعد ودورها في مشاريع #علم_البيانات مع طرح بعض الأمثلة التوضيحية https://t.co/zh5rZvzvs4
تنظيف البيانات (Data Cleaning) وتجهيزها تأخذ وقت كبير في مشاريع #علم_البيانات قد يصل إلى 80%، وهي مهمة متعبة ومملة، لكنها تستحق كل جهد نقوم به، فالنتائج التي تُبنى على بيانات ضعيفة ستكون نتائج ضعيفة ومضللة وربما كارثية! (قاعدة مابني على باطل فهو باطل ?)
https://t.co/59RdDxXnHD
لا يقتصر تنظيف البيانات على المشاكل المشهورة مثل بيانات مفقودة (missing values) او سجلات مكررة (duplicated records)، أو قيم متطرفة (outlier values)، بل تتجاوزها إلى بعض المشاكل التي تعتمد على بيئة العمل نفسها، وهذه المشاكل تختلف من بيئة إلى أخرى حسب حجم البيئة وتعقيداتها
لكل بيئة عمل قواعدها الخاصة والتي تتحكم في سير عملها، مثلاً هوياتنا تبدأ برقم 1 وتتكون من 10 خانات، بينما هويات الأجانب تبدأ بالرقم 2، الأرقام الجامعية تبدأ بثلاث خانات تمثل سنة القبول، في المجال الطبي أكواد وترميزات تشير إلى معاني ودلالات يفهمها العاملين كالأطباء والممرضين
كذلك بعض القواعد يمكن تعريفها على أنها قواعد عامة "مسلمات" تُطبق في كل بيئات العمل، مثلاً الجنس يأخذ قيمة ثنائية (ذكر أو أنثى)، أيضاً علاقة العمر بالشهادة لايمكن يكون الشخص عمره 11 سنة وحاصل على البكالوريوس، كذلك من غير المنطقي ان تكون درجة الحرارة في ديسمبر في بريطانيا 43 درجة!