اذا لم تجد ما تبحث عنه يمكنك استخدام كلمات أكثر دقة.
الانحدار اللوجستي (بالإنجليزية Logistic regression) هو نموذج إحصائي ينتمي لنماذج الانحدار الخطي يمكن من نمذجة متغير ثنائي الحد بدلالة مجموعة من المتغيرات العشوائية المتوقعة، رقمية كانت أو فئوية. يستخدم الانحدار اللوجستي للتنبؤ باحتمالية وقوع حدث ما بمعرفة إضافية لقيم متغيرات يمكن أن تكون مفسرة أو مرتبطة بهذا الحدث. يستخدم الانحدارُ اللوجستي عدة متغيرات مُتوقَّعة والتي يمكن أن تكون رقمية أو فئوية. يشتهر الانحدار اللوجستي أيضا بتسميات نموذج لوجيت (Logit) أو المصنف العام للأنتروبية. تستعمل هذه النمذجة بشكل واسع في العديد من التطبيقات العلمية والتجارية وهي من طرق النمذجة الأكثر تطبيقا في مجال التعلم الآلي، حيث تصنف ضمن طرق التعلم الآلي المراقب .
الانحدار اللوجستي هو حالة خاصة لمجموعة النماذج الخطية العامة، رغم أنه تاريخيا، تعتبر الأخيرة تعميما لتقنية الانحدار اللوجستي.
يعتبر الطبيب والإحصائي جوزيف بيركسون أول من عرف مفهوم الانحدار اللوجستي وطبقه في مجال الإحصاء الحيوي سنة 1944 ونشرت أول ورقة بحثية يذكر فيها الانحدار اللوجستي باسمه في مجلة الجمعية الإحصائية الأمريكية.
في ما يلي عينة من مجالات تطبيق الانحدار اللوجستي مع الأمثلة:
نموذج الانحدار اللوجستي يحاول تفسير دالة لوجيت المتغير المراد تفسيره بدلالة توليف خطي للمتغيرات المفسرة :
، بحيث ( من 0 إلى هي معاملات النموذج التي يجب تقديرها).
وهو ما يمكن من تقدير الاحتمال الشرطي حسب الصيغة التالية:
تقدير معاملات النموذج يتم حسب طريقة الإمكانية القصوى (Maximum likelihood estimation):
المقدر الذي يحقق القيمة القصوى ل و أن يمتلك الخصائص التالية:
في المراجع الرياضية للانحدار اللوجستي، وأيضا في البرامج الإحصائية، يستعمل أيضا ما يعرف بالانحراف الراسب (Residual Deviance) : وباعتبار هذا المؤشر، يكون المقدر هو الذي يحقق القيمة الدنيا ل .
دالة محدبة وبذلك تحتمل حلا وحيدا . بخلاف نموذج الانحدار الخطي، لا يمكن إيجاد حل للمقدر بطريقة تحليلية: الحلول المتوفرة هي فقط تجريبية (Heuristic) وأهم الخوارزميات المستعملة في إيجاد المقدر هي خوارزمية نيوتن رافسون (Newton-Raphson).
هناك ثلاثة معايير لضبط مآل الخوارزمية (وهي وسائط يمكن ضبطها في البرامج الإحصائية) :
مصفوفة هيسية، حيزها وتكمن أهميتها في كون معكوستها تساوي مصفوفة تغاير المعاملات، وهي بذلك حاسمة في مرحلة اختبارات الدلالة الإحصائية للمعاملات. يمكن أيضا كتابتها (باستعمال المصفوفات) على الشكل التالي:
مع و هي المصفوفة القطرية المشكلة من القيم .
يمكن التعبير عن خوارزمية تقدير المعاملات عبر الكتابة المصفوفاتية حسب الشكل التالي:
يمكن تطبيق تقنية الانحدار اللوجستي في إكسل يدويا (أي بدون استعمال وظائف معرفة قبليا) فقط عبر توليف الأدوات الحسابية المتوفرة واستعمال البرنامج المساعد Solver لإيجاد المقدرات المثلى للنموذج، وذلك عبر اتباع الخطوات التالية:
توفر بيئة آر العديد من المكتبات لتطبيق الانحدار اللوجستي:
glm المتوفرة في مكتبة statslrm المتوفرة في مكتبة rmsgm_logistic المتوفرة في مكتبة Rfastعلى غرار طرق النمذجة المنحدرة من الانحدار الخطي، يستلزم نموذج الانحدار القيام بمجموعة من عمليات التقييم باستعمال تقنيات الاستدلال الإحصائي لضمان نجاعة النمذجة ولضمان مصداقيتها وضبط قوتها التوقعية. علاوة على المقاربة الإحصائية، يفرض استعمال الانحدار اللوجستي في التعلم الآلي المراقب القيام بطرق تقييم إضافية، تهدف بالأساس إلى ضمان استمرارية النموذج وقابليته للتطور والتغير حسب تطور المعرفة بالمتغيرات المفسرة.
على العموم، تنقسم طرق التقييم إلى صنفين:
التصديق على النموذج يجب أن يستند على تحكيم عقلاني بين مخرجات طرق التقييم.
يجب أن يكون التقييم مرافقا لعملية النمذجة منذ بدايتها، بدءا من التعريف الأولي للمسألة المراد نمذجتها إلى غاية حساب المعاملات وهوامش الخطأ. على العموم، تشمل عملية التقييم المراحل التالية:
يندرج الانحدار اللوجستي ضمن طرق التعلم الآلي المراقب، ومن أهم طرق التقييم في هذا المجال أن تتم مقارنة قوة النموذج الناتج مع نموذج مرجعي يسمى المصنف المرجعي أو البديهي (Default Classifier). النموذج المرجعي هو بكل بساطة نموذج بديهي (Trivial) يفسر دون معرفة بقيم المتغيرات ، ويعتبر بذلك نموذجا بدئيا (Null Model) يقتصر فقط على المعامل الثابت .
انطلاقا من مبدأ التقتير، أحد المبادئ الأساسية لعلم الإحصاء، يجب أن يكون أي نموذج انحدار مقترح على الأقل أحسن من النموذج المرجعي. يتم التقييم عبر المراحل التالية:
شبه معاملات التحديد يمكن قراءتها أيضا كتقدير لنسبة مساهمة المتغيرات في تفسير المتغير . مثلا معامل بقيمة 0.2 يعني أن 80% من الظواهر المفسرة أو المؤثرة في هي مضمرة وأن النموذج المقترح لا يفسر إلا 20 بالمائة من الظاهرة المدروسة. من المهم التأكيد على أن هذا المؤشر لا يحتمل قراءات معاملات التحديد في نموذج الانحدار الخطي (التي يفترض فيها تجاوز مستويات قبول معينة، 0.5 مثلا)، في هذا السياق، يكفي أن يكون غير منعدم (مثلا أكبر من 0.1) لكي يكون النموذج المقترح له قابلية التصديق، بمعنى أنه يفسر المتغير أحسن من النموذج البديهي. في ما يلي أكثر المعاملات استعمالا مع صيغها الرياضية:
التقييم الخارجي لا يرتبط بالطريقة بحد ذاتها، فالتقنيات التالية تستعمل في تقييم طرق تعلم آلي مراقب أخرى وتتمثل في تطبيق النموذج المراد تقييمه على عينات البيانات الأصلية أو أخرى مختلفة، ويتم التصديق على النموذج حسب قوته التوقعية لقيم المتغير المراد تفسيره.
مصفوفة الإرباك هي جدول يواجه القيم الحقيقية ل بالقيم المتوقعة ، خيث يتم حساب مؤشرات لجودة التوقع ونسبة الخطأ، وأيضا بنية الخطأ الإحصائي للنموذج المقترح. تكون مصفوفة الإرباك على الشكل التالي:
بحيث:
نسبة خطأ النموذج هي نسبة التصنيفات الخاطئة بين أفراد العينة: وتقابلها نسبة النجاح: .
يلاحظ بأن المؤشرين محايدان بالنسبة للقيم الإيجابية والسلبية. في بعض السياقات، يكون من المهم تقييم النموذج وفق قدرته التوقعية لقيم محددة (مثلا، الإيجابية فقط)، لذلك تم تطوير مؤشرات أخرى لتقييم النماذج حسب دقتها أو حساسيتها أو بتوليف المعيارين معا:
للإشارة، فمقياس فيشر هو متوسط توافقي للدقة والحساسية، فباعتبار بحيث :
تحليل مصفوفة إرباك النموذج اللوجستي المقترح لا يجب أن يقتصر فقط على حساب نسبة الخطأ، بل يجب أن يعتمد أولا على الفهم الجيد لطبيعة القيم الإيجابة والسلبية ولوقعها وجسامتها لدى الأفراد الإحصائيين موضوع الدراسة. من صيغ المؤشرات، يلاحظ بأن نسبة الخطأ مؤشر تناظري (يعامل القيمة الإيجابية والسلبية بنفس الطريقة) بينما يميل مؤشرا الحساسية والدقة لتقييم النموذج حسب دقته في توقع القيم الإيجابية، وبالتالي إذا تم تفضيل النماذج حسب معيار الحساسية يتم تقويض معياري الدقة والخصوصية، مما يستلزم دراسة متأنية للمؤشرات تضمن التوازن الأمثل بين مجمل هذه المعايير:
المعيار الأخير يشكل تحديا خاصا مقارنة بالأول، لأن و يتغيران بطريقة متعارضة. إلا أن هذين المؤشرين لديهما ميزة مهمة، من منظور الاستدلال الإحصائي: هما أقل حساسية لطريقة الاعتيان مقارنة بنسبة الخطأ، ولا يفقدان وجاهتهما الإحصائية حتى في حالة العينات الصغيرة أو تلك التي تكون فيها القيم الإيجابية قليلة. بفضل هذه الخاصية، يتستعملان في تعريف مؤشري تقييم مهمين وجامعين هما مؤشر يودن (Youden Index) ومؤشر نسبة الإمكان (Likelihood Ratio):
تعريف الانحدار اللوجستي يبدأ بتعريف الدالة اللوجستية، و هي مثل نظرية الاحتمالات تأخذ قيم بين صفر وواحد.
الدالة اللوجستية مهمة لأنها تأخذ مدخلات من سالب اللانهاية إلى موجب اللانهاية، لكن المخرجات تكون دائما بين الصفر وواحد. المتغير z يمثل المتغيرات المستقلة حيث (ƒ(z تمثل الاحتمال لمخرج معين لمجموعة من المتغيرات المستقلة. المتغير z يقيس مجموع مساهمة جميع المتغيرات المستقلة المستخدمة في هذا النموذج والتي تعرف باللوجت. المتغير z يعرف كالتالي:
هنا هي نقطة قطع محور العينات، و ، ، ، تسمى معاملات الانحدار. نقطة قطع محور العينات تساوي z عندما تكون جميع المتغيرات المستقلة تساوي صفر (z لشخص بدون عوامل الخطورة ). كل معامل من معاملات الانحدار يمثل حجم عوامل الخطورة. العامل الانحداري الموجب يعني أن المتغير المستقل يزيد احتمال المخرج، وعلى العكس فإن العامل الانحداري السالب يعني أن المتغير المستقل ينقص احتمال المخرج. والعامل الانحداري ذو القيمة الكبيرة يعني أن عامل الخطر يؤثر بشكل كبير على نسبة الاحتمال لهذا المخرج.
الانحدار اللوجستي هي طريقة مفيدة لتوضيح العلاقة بين المتغيرات المستقلة ( العمر، الجنس، إلخ.) ومتغير الإجابة أو الاحتمال، وهو يأخذ قيمتين مختلفتين. مثال لشخص شُخص بمرض السرطان فإن القيمتين لمتغير الإجابة تكون إما "سرطان" أو "بدون سرطان".
|CitationClass= تم تجاهله (مساعدة) |CitationClass= تم تجاهله (مساعدة) |CitationClass= تم تجاهله (مساعدة)