If you do not find what you're looking for, you can use more accurate words.
التعلم بالإشراف أو التعلم الاستقرائي هو منهج في تعلم الآلة يقوم باستنتاج تابع من مجموعة بيانات تدريبية موسومة labeled training data. تتكون بيانات التدريب من مجموعة من الأمثلة الواقعية (مثل بيانات مريض في المستشفى، قيمة الأسهم في البورصة إلخ). في التعلم تحت إشراف كل عينة تمثل شيء على أرض الواقع و تتكون زوج بيانات دخل و خرج تكون مدخلات (عادة متجه) و المطلوب التنبوء بقيمة الخرج (يسمى أيضا العلامة الإشرافية).خوارزمية التعلم بالاشراف تحلل بيانات التدريب و و ينتج تابع الاستدلال الذي يستخدم في تعيين الأمثلة الجديدة . السيناريو الأمثل تسمح خوارزمية لتحديد فئات العينات الغير مرئية (الجديدة تماما و التي لم تستخدم في مرحلة التدريب) بشكل صحيح. وهذا يتطلب تعميم خوارزمية التعلم باستخدام بيانات التدريب على العينات الجديدة حالات بطريقة "مقبولة" (انظر الاستقرائي التحيز).
الوظيفة الموازية في علم نفس الإنسان و الحيوان غالبا ما يشار إليها بمفهوم التعلم.
لحل مشكلة معينة من التعلم تحت الاإشراف يجب إتباع الخطوات التالية:
مجموعة واسعة من خوارزميات التعلم تحت إشراف متوفرة، مع كل نقاط القوة والضعف فيها. لا يوجد خوارزمية تعلم واحدة تعمل بشكل أفضل من الخوارزميات الأخرى على جميع مسائل التعلم بالأشراف انظر لا يوجد غداء مجاني نظرية).
هناك أربع قضايا رئيسية تأخذ بعين الاعتبار في التعلم تحت الإشراف:
أول مسألة هي إيجاى مصالحة بين الانحياز و الانحراف . تخيل أنه تتوفر لدينا عدد من بيانات التدريب المختلفة ولكن بنفس الجودة. تنحاز خوارزمية التعلم لمدخل معين إذا تدربت باستخدام مجموعات البيانات بشكل خاطئ بحيث تتنبأ بقيمة الخرج للمدخل بشكل صحيح ولكن الأسلوب خاطئ (يقصد بهذه المشكلة الحفظ المباشر لبيانات الدخل و ما يقابلها من الخرج بدون أي تعميم). يكون لخوارزمية التعلم انحراف معال مرتفع معين الإدخال إذا كانت تتنبأ بقيم خرج مختلفة عند استخدام بيانات تدريب مختلفة. خطأ التنبؤ للمصنف المدرب هو وثيق الصلة بمجموع الانحياز و الانحراف لخوارزمية التعلم. عموما، هناك علاقة تبادلية بين الانحياز و الانحراف. خوارزمية التعلم ذات انحياز منخفض و يجب أن تكون "مرنة" بحيث تناسب البيانات المدخلة. ولكن إذا كانت خوارزمية التعلم أيضا مرنة تناسب كل مجموعات بيانات التدريب المختلفة، تكون عالية التباين. التوجه الرئيسي في طرق التعليم بالاشراق هو أن تكون قادرة على ضبط هذه المقايضة بين الانحياز و الانحراف ( إما تلقائيا أو من خلال توفير كمية متغيرة-بارامتر- يمكّن المستخدم من ضبط الانحياز/ الانحراف )
المسألة الثانية هي كمية بيانات التدريب المتاحة بالنسبة إلى تعقيد التابع "الصحيح" (المصنف أو تابع الانحدار - المقصود بالتابع الصحيح أن بعد تشغيل خوارزمية التدريب لمرات عديد يتم اختيار أنسب تابع تعلم و يكون صاحب الدقة الأكبر و يطلق عليه التابع الصحيح). إذا كان التابع الصحيح بسيطا، عندها سوف نكون بحاجة إلى خوارزمية تعلم "غير مرنة" فيها انحياز مرتفع وانخفاض في الانحراف و سنكون قادرين على تحقيق ذلك باستخدام كمية صغيرة من البيانات. و لكن إذا كان التابع الصحيح معقد للغاية (على سبيل المثال، لأنه يعتمد على التفاعلات المعقدة بين العديد من المدخلات و الخصائص المختلفة و يتصرف بطريقة مختلفة وفقا لكل فضاء فرعي من فضاء المدخلات) ، عندها سنكون بحاجة إلى كمية كبيرة من بيانات التدريب و خوارزمية تدريب تتمتع "بمرونة" عالية مع انخفاض في التحيز و اختلاف كبير في الانحراف.
المسألة الثالثة هي أبعاد فضاء المدخلات. إذا كان عدد خصائص متجه الدخل كبير جدا تصبح مسألة التعلم صعبة الحل جدا حتى لو أن تابع التعلم الصحيح يعتمد على عدد قليل من تلك المدخلات. وذلك لأن العديد من الأبعاد "إضافية" يمكن أن تشوش خوارزمية التعلم و تؤدي إلى انحراف عالي في أداء الخوارزمية. من هنا ارتفاع أبعاد المدخلات عادة ما يتطلب ضبط المصنف ليتمكن من الوصول انحراف منخفض و انحياز عالي. في الواقع، إذا كان هناك مهندس يستطيع إزالة الخصائص عديمة الصلة من فضاء الدخل يدويا، ومن المرجح أن تؤدي هذه الإزالة إلى تحسين دقة التابع المكتسب بالتعلم. وبالإضافة إلى ذلك، هناك العديد من خوارزميات اختيار الميزات التي تسعى إلى تحديد الخصائص (الميزات) ذات الصلة والتخلص من الميزات عديمة الصلة. بشكل مبسط تسعى إستراتيجية تخفيض الأبعاد إلى تبديل (إسقاط هندسي) فضاء البيانات المدخلة إلى فضاء أقل أبعاد قبل تشغيل خوارزمية التعلم بالإشراف.
والمسألة الرابعة هي درجه الضوضاء في قیم الخرج المطلوبة (مقاىير تابع الهدف الإشرافية ). إذا كانت مجموعة التدريب تحتوي قيم غير صحيحة في خانة الخرج (بسبب الخطأ البشري أو الأخطاء في أجهزة القياس)، في هذه الحالة تقوم خوارزمية التعلم باكتساب تابع يعطي قيم لا تتطابق مع أمثلة التدريب الواقعية. السعي إلى تكييف البيانات بشكل دقيق جدا يؤدي إلى الإفراط في التناسب. بالإمكان الوصول إلى الإفراط في التناسب حتى عندما لا يكون هناك أخطاء في القياس (الضوضاء العشوائية) إذا كنت تحاول تعلم تابع (دالة) معقدة جدا بالنسبة نموذج التعلم. في مثل هذه الحالة ذلك الجزء من تابع الهدف لا يستطيع تمثيل بيانات التدريب "المعطوبة" و تدعى هذه الظاهرة باسم الضوضاء القطعية. عندما يكون أي نوع من الضوضاء في مجموعة بياناتك الحالية، فمن الأفضل المضي باستخدام مخمن لأعلى أنحياز و أقل مقدار انحراف.
في الواقع، هناك عدة طرق للتخفيف من حدة الضوضاء في قيم الخرج مثل التوقف المبكر لمنع الإفراط في لتناسب وكذلك الكشف عن وإزالة أمثلة التدريب المشابة بالضوضاء قبل تشغيل خوارزمية التعلم بالاشراف. هناك العديد من الخوارزميات التي تحدد و تزيل الأمثلة التدريبية التي يشتبه بأنها مشوشة بالضجيج قبل البدء بالتدريب و هذا يؤدي إلى انخفاض خطأ التعميم مع دلالة إحصائية .
عوامل أخرى في الاعتبار عند اختيار و تطبيق خوارزمية التعلم ما يلي:
لنفترض أنه لدينا مجموعة أمثلة تدريبة تشمل N عنصر تتوزع بالشکل التالي حيث أن هو متجه الخصائص للمثال التدريبي رقم i و المتغير هو الوسم المقابل له (أي التصنيف أو قيمة الخرج المطلوبة). خوارزمية التعليم تبحث عن تابع (علاقة رياضية) حيث أن X هو فضاء الدخل و Y هو فضاء الخرج. التابع g هو عنصر من مجموعة التوابع الممكنة G الممكن وجودها بين فضائي الدخل و الخرج. هذه المجموعة تسمى بالغالب فضاء الفرضية. في بعض الأحيان يكون من المناسب إعادة تبيان التابع g باستخدام تابع إحراز النقاط بشكل مشابه للتابع g بحيث أنه عوضا عن مقدار الوسم يقوم بارجاع مقدار y الذي يملك أكبر مقدار من النقاط. دعنا نستخدم F لترميز فضاء النقاط.
على الرغم من أن و يمكن أن يكون أي فضاء من التوابع. إلا أن العديد من خوارزميات التعلم تعتمد النماذج الاحتمالية حيث يأخذ شكل نموذج الاحتمال الشرطي أو يأخذ شكل نموذج الاحتمالات المشتركة . على سبيل المثال، بايز البسيط و تحليل التمايز الخطي نماذج تعتمد الاحتمالات المشتركة، بينما الانحدار اللوجستي هو نموذج يعتمد الاحتمال الشرطي.
هناك نهجين أساسيين اختيار أو : تقليل المخاطر التجريبية و تقليل المخاطر الهيكلية. يقوم نهج تقليل المخاطر التجريبية بالبحث عن التابع الذي يناسب بيانات التدريب بشكل أفضل. في حين أن تقليل المخاطر الهيكلية تتضمن تابع ضريبة التي تتحكم بشكل مقايض (متوازن ) الانحياز/الانحراف.
في كلتا الحالتين، فمن المفترض أن تتكون مجموعة التدريب من عينة مستقلة و مثالية التوزيع, . من أجل قياس مدى تناسب التابع مع بيانات التدريب، يتم تعريف تابع الخسارة . للتدريب على سبيل المثال قيمة الخسارة الناتجة من التنبؤ بالمقدار هو .
الخطر للتابع و يعرف بالخسارة المتوقعة ل . هذا يمكن أن يتم تقديره من بيانات التدريب كما في العلاقة التالية
في تقليل المخاطر التجريبية، تقوم خوارزمية التعلم بالإشراف بالبحث عن تابع بحيث يقلل من . وبالتالي فإن خوارزمية التعلم بالإشراف يمكن بناؤها من خلال تطبيق خوارزميات الاستمثال للعثور على .
عندما يكون بالاعتماد احتمال ذو توزيع شرطي و تابع الخسارة سالب لوغاريتم تقدير الاحتمال: عندها تقليل المخاطر التجريبية هو ما يعادل أقصى تقدير الاحتمالات.
عندما يحتوي على العديد من التوابع المرشحة أو مجموعة تدريب غير كبيرة بما فيه الكفاية، يؤدي تقليل المخاطر التجريبية إلى ارتفاع في الانحراف (المعياري) و ضعف في التعميم. خوارزمية التعلم تقوم بحفظ الأمثلة التدريبية دون تعميم. وهذا ما يسمى أيضا الافراط في التناسب.
يهدف تقليل المخاطر الهيكلية إلى منع الافراط في التناسب عن طريق دمج تنظيم الضريبة في التحسين. تنظيم الضريبة يمكن أن يعرض على أنه تنفيذ شكل من أشكال أوكام الذي يفضل استخدام توابع بسيطة على الأكثر تعقيدا.
مجموعة واسعة من الضرائب وظفت بشكل يتوافق مع تعريفات مختلفة للتعقيد. على سبيل المثال في الحالة التي يكون فيها وظيفة هو دالة خطية من شكل
هو تابع تنظيم عقوبة شائع الذي يطلق عليه أيضا القاعدة الإقليدية المربعة من الأوزان المعروفة أيضا باسم المبدأ . المبادئئ الأخرى تشمل المبدأ ، ، المبدأ ، حيت أن عدد غير-صفري. تابع العقوبة يمثل عادة ب .
مشكلة تحسين (تمثيل) التعليم بالإشراف هي العثور على تابع يقلل من
يضبط المقايضة (التوازع) الانحياز-الانحراف . عندما هذا يؤدي إلى تقليل المخاطر التجريبية مع انخفاض التحيز و ارتفاع الاتحراف. عندما يكون مقدار كبير، سوف يكون خوارزمية التعلم ارتفاع الانحياز وانخفاض الانحراف. قيمة يمكن اختيار تجريبيا عبر التصديق المتقطع.
لدى تعقيد الضريبة تفسير بيزياني, في هذه الحالة هو الاحتمال اللاحق للتابع .
أساليب التدريب المذكورة أعلاه هي أساليب تدريبية تمييزية لأنها تسعى إلى إيجاد تابع لكي يميز جيدا بين قيم الإخراج المختلفة (انظر النموذج التمييزي). لأجل حالة خاصة حيث هو توزيع احتمالي مشترك و تابع الخسارة هو سالب لغواريتم تقدير الاحتمال خوارزمية تقليل الأخطار تقوم بالتدريب التوالدي ، لأن التابع يمكن اعتباره نموذج توالدي يقوم بتفسير كيف تم إنشاء بيانات التدريب. خوارزميات التدريب توالدي غالبا ما تكون أبسط وأكثر كفاءة حسابيا من خوارزميات التدريب التمييزية . في بعض الحالات يمكن أن يكون الحل حسابها في شكل قريب من حلول خوارزميات بايز البسيط و تحليل التمايز الخطي.
هناك العديد من طرق تساعد على تعميم مشكلة التعلم تحت الإشراف: