العربية  

books evaluation of a logistic regression model

If you do not find what you're looking for, you can use more accurate words.

View more

تقييم نموذج الانحدار اللوجستي (Info)


على غرار طرق النمذجة المنحدرة من الانحدار الخطي، يستلزم نموذج الانحدار القيام بمجموعة من عمليات التقييم باستعمال تقنيات الاستدلال الإحصائي لضمان نجاعة النمذجة ولضمان مصداقيتها وضبط قوتها التوقعية. علاوة على المقاربة الإحصائية، يفرض استعمال الانحدار اللوجستي في التعلم الآلي المراقب القيام بطرق تقييم إضافية، تهدف بالأساس إلى ضمان استمرارية النموذج وقابليته للتطور والتغير حسب تطور المعرفة بالمتغيرات المفسرة.

على العموم، تنقسم طرق التقييم إلى صنفين:

  • طرق التقييم الذاتي أو الداخلي (Internal Evaluation) والمرتبطة بطريقة النموذج في حد ذاتها (الانحدار اللوجستي).
  • طرق التقييم الخارجي (External Evaluation) المميزة لطرق التعلم الآلي المراقب والتي لا علاقة لها بماهية الطريقة المستعملة.

التصديق على النموذج يجب أن يستند على تحكيم عقلاني بين مخرجات طرق التقييم.

التقييم الذاتي

يجب أن يكون التقييم مرافقا لعملية النمذجة منذ بدايتها، بدءا من التعريف الأولي للمسألة المراد نمذجتها إلى غاية حساب المعاملات وهوامش الخطأ. على العموم، تشمل عملية التقييم المراحل التالية:

  1. حصر المتغيرات المفسرة: هذه المرحلة تفرض إلماما وحدا أدنى من الخبرة في المجال الذي تطبق فيه النمذجة. اقتراح المتغيرات يجب أن يكون مسندا بحد أدنى من التأصيل النظري الذي يسمح بترشيحها كعوامل محتملة لتفسير المتغير .
  2. تقدير المعاملات انطلاقا من عينة إحصائية  : يشمل التقييم هنا مدى احترام العينة للمنهج العلمي في عملية الاعتيان وهل تم تفادي (أو تقليل) التحيزات المعرفية أثناء عملية السبر، خصوصا في حالة المتغيرات النوعية الواصفة للأراء الشخصية.
  3. تقييم دقة تقدير المعاملات: بوضع مجالات ثقة للمعاملات ومستوى دلالتها الإحصائية.
  4. تقدير قوة النموذج التفسيرية : بمعنى هل يمكن النموذج من توقع مقبول لقيم في العينة.
  5. التصديق على وجود حد أدنى من الارتباط بين والمتغيرات المفسرة .
  6. ترتيب المتغيرات المفسرة حسب مساهمتها في تفسير .
  7. تقدير تأثير مكونات العينة على نجاعة النموذج : يجب أن يشمل هذا التقييم حساسية النموذج لتغيرات قيم العينة ومدى تأثير القيم القصوى (الغير اعتيادية) على معاملات النموذج وقوته التفسيرية.

التقييم حسب المصنف المرجعي

يندرج الانحدار اللوجستي ضمن طرق التعلم الآلي المراقب، ومن أهم طرق التقييم في هذا المجال أن تتم مقارنة قوة النموذج الناتج مع نموذج مرجعي يسمى المصنف المرجعي أو البديهي (Default Classifier). النموذج المرجعي هو بكل بساطة نموذج بديهي (Trivial) يفسر دون معرفة بقيم المتغيرات ، ويعتبر بذلك نموذجا بدئيا (Null Model) يقتصر فقط على المعامل الثابت .

انطلاقا من مبدأ التقتير، أحد المبادئ الأساسية لعلم الإحصاء، يجب أن يكون أي نموذج انحدار مقترح على الأقل أحسن من النموذج المرجعي. يتم التقييم عبر المراحل التالية:

  1. تقدير قيمة المعمل الثابت للنموذج المرجعي : .
  2. حساب الانحراف الراسب .
  3. حساب الشبه - معاملات تحديد (Pseudo-R²) والتي تمثل مقاييسا لجودة النموذج (كلما اقتربت قيمتها من 1، كان النموذج ذا قوة تفسيرية معتبرة) وتكون دائما بدلالة الانحرافين الراسبين و .

شبه معاملات التحديد يمكن قراءتها أيضا كتقدير لنسبة مساهمة المتغيرات في تفسير المتغير . مثلا معامل بقيمة 0.2 يعني أن 80% من الظواهر المفسرة أو المؤثرة في هي مضمرة وأن النموذج المقترح لا يفسر إلا 20 بالمائة من الظاهرة المدروسة. من المهم التأكيد على أن هذا المؤشر لا يحتمل قراءات معاملات التحديد في نموذج الانحدار الخطي (التي يفترض فيها تجاوز مستويات قبول معينة، 0.5 مثلا)، في هذا السياق، يكفي أن يكون غير منعدم (مثلا أكبر من 0.1) لكي يكون النموذج المقترح له قابلية التصديق، بمعنى أنه يفسر المتغير أحسن من النموذج البديهي. في ما يلي أكثر المعاملات استعمالا مع صيغها الرياضية:

التقييم الخارجي

  • مقالات مفصلة: مصفوفات الإرباك
  • تصديق متقاطع

التقييم الخارجي لا يرتبط بالطريقة بحد ذاتها، فالتقنيات التالية تستعمل في تقييم طرق تعلم آلي مراقب أخرى وتتمثل في تطبيق النموذج المراد تقييمه على عينات البيانات الأصلية أو أخرى مختلفة، ويتم التصديق على النموذج حسب قوته التوقعية لقيم المتغير المراد تفسيره.

مصفوفة الإرباك

مصفوفة الإرباك هي جدول يواجه القيم الحقيقية ل بالقيم المتوقعة ، خيث يتم حساب مؤشرات لجودة التوقع ونسبة الخطأ، وأيضا بنية الخطأ الإحصائي للنموذج المقترح. تكون مصفوفة الإرباك على الشكل التالي:

بحيث:

  • : عدد أفراد العينة الذين صح توقع قيمتهم الحقيقية 1 وفق النموذج. يصطلح عليهم بالقيم الإيجابية الصحيحة.
  • : عدد أفراد العينة الذين خاب توقع قيمتهم الحقيقية 1 وفق النموذج. يصطلح عليهم بالقيم السلبية الخاطئة.
  • : عدد أفراد العينة الذين صح توقع قيمتهم الحقيقية 0 وفق النموذج. يصطلح عليهم بالقيم السلبية الصحيحة.
  • : عدد أفراد العينة الذين خاب توقع قيمتهم الحقيقية 0 وفق النموذج. يصطلح عليهم بالقيم الإيجابية الخاطئة.

نسبة خطأ النموذج هي نسبة التصنيفات الخاطئة بين أفراد العينة: وتقابلها نسبة النجاح: .

يلاحظ بأن المؤشرين محايدان بالنسبة للقيم الإيجابية والسلبية. في بعض السياقات، يكون من المهم تقييم النموذج وفق قدرته التوقعية لقيم محددة (مثلا، الإيجابية فقط)، لذلك تم تطوير مؤشرات أخرى لتقييم النماذج حسب دقتها أو حساسيتها أو بتوليف المعيارين معا:

  • حساسية النموذج هي نسبة التوقعات الإيجابية الصحيحة:
  • دقة النموذج هي نسبة التوقعات الإيجابية الصحيحة ضمن التوقعات الإيجابية : ويصطلح عليه في بعض المراجع بالقيمة التوقعية الإيجابية.
  • خصوصية النموذج هي نسبة التوقعات السلبية الصحيحة: وتقابلها نسبة القيم الإيجابية الخاطئة: .
  • مقياس فيشر (F-mesure) وهو مؤشر يأخذ بعين الاعتبار الدقة والحساسية في آن واحد، ويمكن عبر وزن متغير من ترقية معيار الدقة على حساب الحساسية أو العكس، فأحيانا، في سياقات يكون فيها تحقق القيمة الإيجابية ذا تأثير جسيم ومهم على الفرد الإحصائي، يستحسن تقييم النموذج أساسا حسب قدرته على توقع القيم الإيجابية. بالمقابل، عندما تكون للقيمتين الإيجابية والسلبية نفس الأهمية، يفضل تحقيق التوازن بين الدقة والحساسية:
    • مقياس فيشر لوزن محدد :
    • قيمة هي القيمة الموازنة بين معياري الحساسية والدقة.
    • تمنح امتيازا للدقة على حساب الحساسية.
    • تمنح امتيازا للحساسية على حساب الدقة.

للإشارة، فمقياس فيشر هو متوسط توافقي للدقة والحساسية، فباعتبار بحيث  :

معايير النموذج الأمثل

تحليل مصفوفة إرباك النموذج اللوجستي المقترح لا يجب أن يقتصر فقط على حساب نسبة الخطأ، بل يجب أن يعتمد أولا على الفهم الجيد لطبيعة القيم الإيجابة والسلبية ولوقعها وجسامتها لدى الأفراد الإحصائيين موضوع الدراسة. من صيغ المؤشرات، يلاحظ بأن نسبة الخطأ مؤشر تناظري (يعامل القيمة الإيجابية والسلبية بنفس الطريقة) بينما يميل مؤشرا الحساسية والدقة لتقييم النموذج حسب دقته في توقع القيم الإيجابية، وبالتالي إذا تم تفضيل النماذج حسب معيار الحساسية يتم تقويض معياري الدقة والخصوصية، مما يستلزم دراسة متأنية للمؤشرات تضمن التوازن الأمثل بين مجمل هذه المعايير:

  • نسبتا الخطأ ونسبة القيم الإيجابية الخاطئة يجب أن تؤول إلى .
  • الحساسية والدقة والخصوصية يجب أن تؤول إلى 1.

المعيار الأخير يشكل تحديا خاصا مقارنة بالأول، لأن و يتغيران بطريقة متعارضة. إلا أن هذين المؤشرين لديهما ميزة مهمة، من منظور الاستدلال الإحصائي: هما أقل حساسية لطريقة الاعتيان مقارنة بنسبة الخطأ، ولا يفقدان وجاهتهما الإحصائية حتى في حالة العينات الصغيرة أو تلك التي تكون فيها القيم الإيجابية قليلة. بفضل هذه الخاصية، يتستعملان في تعريف مؤشري تقييم مهمين وجامعين هما مؤشر يودن (Youden Index) ومؤشر نسبة الإمكان (Likelihood Ratio):

  • مؤشر يودن: ويؤول ل 1 بالنسبة للنماذج المثلى.
  • مؤشر نسبة الإمكان : ويجب أن يكون بالنسبة للنماذج الجيدة.
Source: wikipedia.org