عندما لا يكون لديك بيانات
مخزنة لمتغيرات أو مشاركين معينين، فإنه يكون لديك بيانات مفقودة في البحث العلمي، والتي تُعرف
أيضًا بالقيم المفقودة. يمكن أن يحدث فقدان للبيانات لعدة أسباب، بما في ذلك
الإدخال غير الصحيح للبيانات، وأعطال الجهاز، والملفات المفقودة. تحتوي كل مجموعة
بيانات عادةً على بعض البيانات المفقودة. في البحث الكمي، تمثل الخلايا الفارغة في
جدول البيانات قيمًا مفقودة.
أنواع البيانات المفقودة في البحث
إن البيانات المفقودة هي
أخطاء، لأنها لا تعكس بدقة قيم المتغيرات الحقيقية، التي كنت تنوي قياسها. يجب أن
يؤخذ سبب البيانات المفقودة في الاعتبار؛ لأنه قد يساعدك في تحديد نوع البيانات
المفقودة وما عليك القيام به حيال ذلك.
توجد ثلاث فئات أساسية من
البيانات المفقودة في البحث العلمي:
• مفقود تمامًا بشكل عشوائي
(MCAR): يتم توزيع القيم المفقودة عشوائيًا عبر
المتغير وليس لها علاقة بالمتغيرات الأخرى.
• مفقود عشوائيًا (MAR): لا يتم توزيع البيانات المفقودة بشكل
عشوائي، لكن يتم احتسابها بواسطة متغيرات أخرى ملحوظة.
• مفقود ولكن ليس عشوائيًا
(MNAR): تختلف البيانات المفقودة بشكل منهجي عن
القيم التي تم قياسها.
مثال
على مشروع بحثي
تقوم بجمع البيانات عن
اتجاهات الإنفاق في عطلة نهاية العام. تستطلع آراء الأشخاص البالغين حول مقدار
الأموال، التي ينفقونها سنويًا على الهدايا لعائلاتهم وأصدقائهم بعملة الدولار.
بيانات
مفقودة تمامًا بشكل عشوائي
عندما تكون البيانات مفقودة
تمامًا بشكل عشوائي (MCAR)، فلا يوجد ارتباط بين احتمال فقدان أي قيمة
معينة من مجموعة البيانات الخاصة بك وأي قيمة أخرى. يتم توزيع القيم المفقودة
عشوائيًا، لذا يمكن العثور عليها في أي مكان في نطاق القيم الخاصة بك. المتغيرات
الأخرى غير المرصودة هي بالمثل ليست ذات صلة ببيانات MCAR هذه.
مثال
على بيانات MCAR
لقد لاحظت أن هناك بعض
القيم المفقودة في مجموعة البيانات الخاصة بنفقات العطلات. بدأ بعض المستجيبين
استطلاع الرأي الخاص بك، لكنهم توقفوا عن استكماله أو تخطوا سؤالًا. أنت تلاحظ
بالفعل أن نقاط البيانات الخاصة بك هي من توزيع واسع، وتتراوح قيمتها من الأقل إلى
الأعلى. نتيجةً لذلك، تستنتج أن القيم المفقودة لا علاقة لها بأي نطاق معين من
مبلغ الإنفاق خلال العطلات.
إذا بدت البيانات غير
مرتبطة بقيم معينة أو متغيرات أخرى، فغالبًا ما يُنظر إليها على أنها بيانات من
النوع MCAR. نظرًا لأن "العشوائية الحقيقية"
غير شائعة، فقد يكون من الصعب مطابقة هذا الافتراض في الممارسة العملية. يشار إلى
البيانات المفقودة باسم MCAR؛ بسبب الأعطال في الآلات أو العينات في غير
محلها.
البيانات
المفقودة عشوائيًا
إن مصطلح "البيانات
المفقودة عشوائيًا" (MAR) خاطئ إلى حد ما؛ لأن البيانات ليست مفقودة
فعليًا بشكل عشوائي. يختلف هذا النوع من البيانات المفقودة بشكل منهجي عن البيانات
التي جمعتها، ولكن يمكن تفسيرها بالكامل من خلال المتغيرات المرصودة الأخرى. يعتمد
احتمال فقدان نقطة البيانات على متغير آخر يمكن ملاحظته، وليس على القيمة المحددة
لنقطة البيانات نفسها.
مثال
على البيانات المفقودة MAR
تكرر عملية جمع البيانات مع
مجموعة جديدة. لقد لاحظت أنه مقارنة بالفئات العمرية الأخرى، فإن البالغين الذين
تتراوح أعمارهم بين 18 - 25 لديهم عددًا أكبر من القيم المفقودة. ومع ذلك، تلاحظ
أن الأرقام منتشرة على نطاق واسع، عندما تنظر إلى البيانات المرصودة للبالغين
الذين تتراوح أعمارهم بين 18 و 25 عامًا. من غير المحتمل أن تكون القيم المحددة
نفسها هي سبب البيانات المفقودة
بدلًا من ذلك، فقد يكون
الأشخاص الأصغر سنًا أقل عرضة للإفصاح عن مستويات إنفاقهم في عطلة نهاية السنة
لأسباب أخرى غير ذات صلة (مثل أن يكونوا أكثر خصوصية).
البيانات
المفقودة ليست عشوائية
إن البيانات المفقودة ليست
عشوائية (MNAR) مفقودة لأسباب تتعلق بالقيم نفسها.
مثال
على البيانات المفقودة MNAR
من الواضح أيضًا قلة عدد
القيم المنخفضة في مجموعة البيانات الجديدة. نظرًا لأن إنفاقهم على العطلات ضئيل
للغاية، فإن بعض الأشخاص ذوي الدخل المنخفض يختارون عدم الإبلاغ عن ذلك. نظرًا
لأنه قد لا يكون لديك بيانات من مجموعات فرعية مهمة في عينتك، فإن هذا النوع من
البيانات المفقودة أمر بالغ الأهمية للتحقق منه. من المحتمل ألا تكون عينتك في
نهاية المطاف ممثلة لمجتمع البحث.
تحيز
الاستنزاف
قد يكون تحيز الاستنزاف
شكلًا من أشكال بيانات MNAR في الدراسات الطولية. يعني هذا التحيز ميل
بعض المشاركين أكثر من غيرهم إلى التوقف عن مشاركتهم. على سبيل المثال، قد ينسحب
بعض المتطوعين في الدراسة من التجارب الطبية المطولة؛ إذا تدهورت صحتهم بمرور وقت
الدراسة. على اعتبار النتائج الصحية قد أصبحت أسوأ، فإن بياناتهم هي من النوع MNAR، مما يعني أنه من المحتمل أن تفقد بيانات
مهمة، إذا كانت مجموعة البيانات النهائية الخاصة بك تحتوي فقط على أشخاص أصحاء.
هل تشكل البيانات المفقودة مشكلة؟
في الواقع، إن البيانات
المفقودة هي مشكلة، حيث يمكن أن تؤدي أحيانًا إلى تحيز العينة، اعتمادًا على
نوعها. هذا يعني أنه نظرًا لأن بياناتك جاءت من عينة غير تمثيلية، فإن نتائجك لا
يمكن أن تكون قابلة للتعميم على مواقف خارج دراستك.
نظرًا لحقيقة أن نوعي
البيانات المفقودة لا يختلفان بشكل منهجي عن القيم المرصودة، فيمكنك في كثير من
الأحيان التفكير في كلا النوعين من البيانات المفقودة على أنهما يمكن تجاهلهما في
الممارسة العملية. إن احتمال فقدان نقطة بيانات لهذين النوعين من البيانات لا
علاقة له بالقيمة نفسها. لذلك، من غير المرجح أن القيم المفقودة تختلف اختلافًا
كبيرًا عن القيم التي تمت ملاحظتها.
من ناحية أخرى، إذا كانت
البيانات المفقودة تختلف بشكل منهجي عن البيانات التي تمت ملاحظتها، فإن مجموعة
البيانات الخاصة بك تكون متحيزة. يُقال أن البيانات MNAR لا يمكن تجاهلها لهذا السبب.
كيفية منع فقدان البيانات
غالبًا ما تكون البيانات
المفقودة ناتجة عن تحيز الاستنزاف، أو عدم الاستجابة أو تصميم بروتوكول البحث
الرديء. يُعد تسهيل تقديم البيانات للمشاركين ممارسة موصى بها عند تصميم دراستك.
ستساعدك النصائح التالية
على تقليل البيانات المفقودة:
- الحد من عدد المتابعات.
- تقليل كمية البيانات التي
تم جمعها.
- إنشاء نماذج سهلة
الاستخدام لجمع البيانات.
- استخدام طرق التحقق من
صحة البيانات.
- تقديم الحوافز على
المشاركة.
من المهم الحفاظ على
البيانات بأمان بعد جمعها، والحصول على العديد من النسخ الاحتياطية.
طرق التعامل مع القيم المفقودة
غالبًا ما يكون قبول
البيانات المفقودة أو إزالتها أو إعادة إنشائها من الخيارات المتاحة عند محاولة
تنظيف بياناتك وترتيبها. بناءً على تقييمك لسبب فقدان البيانات، فيجب أن تفكر في
كيفية التعامل مع كل حالة من حالات البيانات المفقودة.
- هل هذه البيانات مفقودة
لأسباب عشوائية أم غير عشوائية؟
- هل البيانات المفقودة
قيمًا فارغة أم صفرية؟
- هل تم إجراء الاختبار أو
القياس بشكل سيئ؟
إذا كانت بياناتك MCAR أو MAR، فيمكن قبولها أو تركها كما هي تمامًا. ومع ذلك، يمكن أن تتطلب
بيانات MNAR معالجة أكثر تعقيدًا.
قبول
البيانات المفقودة
إن الإجراء الأكثر تحفظًا
هو قبول البيانات المفقودة وترك هذه الخلايا فارغة. من الأفضل القيام بذلك عندما
تعتقد أنك تتعامل مع قيم MCAR أو MAR. يجب أن تحتفظ بأكبر قدر ممكن من البيانات، عندما يكون حجم عينتك
صغيرًا؛ لأن أي تقليل للبيانات يمكن أن يؤثر على قوتها الإحصائية.
لضمان الاتساق عبر مجموعة
البيانات الخاصة بك، يمكنك أيضًا إعادة ترميز جميع القيم المفقودة، باستخدام
تسميات "N /
A"
(اختصار لـ "غير قابل للتطبيق"). تساعدك هذه الإجراءات على الاحتفاظ
بالبيانات من أكبر عدد ممكن من موضوعات الدراسة مع القليل من التغييرات أو بدون
تغييرات.
إزالة
البيانات المفقودة
يمكن استخدام الحذف بطريقة
قائمة أو مزدوجة لإزالة البيانات المفقودة من التحليل الإحصائي.
إزالة
بطريقة القوائم
يتم حذف البيانات من جميع
الحالات (المشاركين)، الذين لديهم بيانات مفقودة لأي متغير في مجموعة البيانات
الخاصة بك. سيتم تمثيل جميع المشاركين في مجموعة البيانات بشكل كامل.
عيب هذه الطريقة هو أنه
يمكن أن يكون لديك عينة أصغر و / أو متحيزة للعمل بها. قد يختلف المشاركون الذين
يقدمون هذه البيانات بشكل كبير عن أولئك الذين لا يفعلون ذلك؛ إذا كانت هناك كميات
كبيرة من البيانات المفقودة لبعض المتغيرات أو المقاييس على وجه الخصوص. نظرًا
لتمثيلها غير الكافي للسكان، فقد تكون عينتك متحيزة.
مثال
على الإزالة بطريقة القوائم
أنت تقوم باختيار استبعاد
كل شخص لديه بيانات مفقودة من مجموعة الاستبيان الخاصة بك. عينتك الآن أقل أصبحت
77 شخصًا بعد أن كانت 114. سترى أن غالبية المشاركين الذين كانت بياناتهم مفقودة
لم يردوا على سؤال محدد يتعلق بمعتقداتهم. معظم هؤلاء الأشخاص في عينتك هم الآن من
الرجال؛ لأن العديد منهم كانوا من الإناث أيضًا.
الإزالة
المزدوجة
بمجرد إزالة نقاط البيانات
المفقودة عن أي تحليلات، تتيح لك الإزالة المزدوجة الاحتفاظ بالمزيد من بياناتك.
نظرًا لإدراج جميع بيانات الحالة ذات الصلة، فإن هذه الطريقة تحفظ المزيد من
بياناتك المتاحة. بالإضافة إلى ذلك، فإنها تشير إلى أن أحجام العينة لكل من
المتغيرات الخاصة بك غير متساوية.
ومع ذلك، تكون مفيدة عندما
يكون لديك حجم عينة صغير أو نسبة عالية من القيم المفقودة لبعض المتغيرات. يتم
تضمين الحالات (المشاركين) التي تحتوي على بيانات كاملة لكل متغير، فقط عند إجراء
التحليلات ذات المتغيرات المتعددة، مثل الارتباطات.
مثال
على الإزالة المزدوجة
لقد اخترت الاحتفاظ بنقاط
البيانات الأخرى لهؤلاء المشاركين أثناء إزالة البيانات المفقودة فقط. هذا ليس له
تأثير على حجم عينتك الكلي الخاص بك. لقد اختار 12 شخصًا من المشاركين عدم الإجابة
على سؤال حول جنسهم، مما أدى إلى تقليل حجم العينة لمتغير "الجنس" من
114 إلى 102.
في حين تقلص حجم العينة
لمتغير "العمر" من 114 إلى 111 مشاركًا؛ نتيجةً لعدم إجابة 3 أشخاص على
سؤال حول أعمارهم. يتيح لك هذا الاحتفاظ بمزيد من القيم بهذه الطريقة، لكن حجم
العينة يختلف الآن حسب المتغيرات.
استبدال
البيانات المفقودة
إعادة الإنشاء هي عملية
استبدال قيمة مفقودة بقيمة أخرى بناءً على تقدير معقول. للحصول على مجموعة بيانات
أكثر شمولًا، يمكنك استبدال القيمة المفقودة باستخدام بيانات إضافية. هناك العديد
من تقنيات التضمين المتاحة. إن استبدال القيم المفقودة بالقيمة المتوسطة أو المتوسطة
لهذا المتغير هي أبسط طريقة لحساب البيانات المفقودة.
الاستبدال
المباشر
باستخدام احتساب المجموعة
الفعالة، يتم استبدال كل قيمة مفقودة في مجموعة البيانات بقيمة موجودة من حالة أو
مشارك مشابه. يتم استبدال كل حالة قيمة مفقودة بقيمة مما يسمى بحالة
"المتبرع"، والتي يمكن مقارنتها بتلك الحالة بناءً على بيانات لمتغيرات
أخرى.
مثال
على الاستبدال المباشر
يمكنك أن تطلب من
المستجيبين في استطلاع الرأي الإجابة عن أسئلة حول كيفية تقييمهم لتطبيقات التسوق
الجديدة على مقياس من 1 إلى 5. قد تلاحظ أن هذه الخلايا فارغة لأن اثنين من
المشاركين تجاهلوا هذا السؤال.
تقوم بفرز البيانات بناءً
على متغيرات أخرى، وتبحث عن المشاركين الذين أجابوا بالمثل على أسئلة أخرى مقارنة
بالمشاركين بقيم مفقودة. يمكنك استخدام إجابة السؤال 3 من متبرع؛ لإدخال القيم
المفقودة في كل خلية فارغة.
الاستبدال
غير المباشر
بدلًا من ذلك في التضمين
غير المباشر، يمكنك استبدال القيم المفقودة بالقيم الموجودة من الحالات ذات
النتيجة المماثلة في مجموعات البيانات الأخرى. تنشأ القيم الجديدة من عينة منفصلة.
مثال
على الاستبدال غير المباشر
تفتح مجموعة بيانات مختلفة
من زميل في العمل، بدلًا من ملء القيم المفقودة باستجابات الأفراد في نفس العينة.
لقد أجروا مسحًا مشابهًا لكنهم استخدموا عينة مختلفة. على عكس المشاركين ذوي القيم
المفقودة، فأنت تبحث عن مشاركين أجابوا على أسئلة أخرى بالمثل. لملء الخلية
الفارغة لكل قيمة مفقودة، يمكنك استخدام إجابة السؤال 3 من مجموعة البيانات
الأخرى.
استخدم
الاستبدال بحذر
تعتبر عملية استبدال البيانات المفقودة عملية صعبة، حيث يجب أن توازن بين المزايا والعيوب. على الرغم من قيامك بالاحتفاظ بجميع بياناتك، فقد يؤدي هذا النهج إلى التحيز في البحث، ويؤدي إلى نتائج غير موثوقة ودقيقة. لا تفترض أبدًا أن استبدال القيمة بشكل صحيح يمثل ما يمكن رؤيته أو الإجابة عليه. لذلك من الأفضل استخدامه بحذر.