عوامل أخرى في الاعتبار عند اختيار و تطبيق خوارزمية التعلم ما يلي:
- عدم تجانس البيانات. إذا كان متجه الخصائص تتضمن أنواع مختلفة من الخصائص (متقطعة، متقطعة مرتبة، عددي, قيم مستمرة ) ، بعض الخوارزميات هي أسهل لتطبيق أكثر من غيرها. العديد من الخوارزميات، بما في ذلك شعاع الدعم الآلي, الانحدار الخطي, الانحدار اللوجستي, الشبكات العصبية و خوارزمية الجار الأقرب تطلب إدخال خصائص بمقادير عددية و في مقاييس بنطاقات متشابهة (على سبيل المثال، الفاصلة بين [-1,1] ). الطرق التي تستخدم دوال الفاصلة، مثل خوارزمية الجار الأقرب و شعاع الدعم الآلي مع نواة جاوس, تتطلب وجود البيانات متجانسة و بمقاييس عددية متناسبة. بالمقابل ميزة طريقة أشجار القرار هو أنها تتعامل بسهولة مع البيانات غير المتجانسة.
- الإطناب (التكرار) في البيانات. إذا كان خصائص الدخل تحتوي على معلومات زائدة عن الحاجة (على سبيل المثال، خصائص بينها ترابط إلى حد كبير- تواجد مجموعة مقادير بالإضافة إلى المتوسط الحاسبي لها في فضاء الإدخال) بعض خوارزميات التعلم (مثل الانحدار الخطي, الانحدار اللوجستيو المسافة على أساس أساليب) تعمل بشكل سيئ عند وجود عدم الاستقرار العددي في بيانات الدخل (مثلا خصيصة الطول تتراوح بين 1.2 و 2.1 متر، في حين خصيصة الوزن تتراوح بين 30 و 110 كيلو جرام). هذه المشاكل يمكن حلها في كثير من الأحيان من خلال استخدام بعض أشكال التنظيم الرياضي.
- وجود تفاعلات و لاخطية في قيم خصائص الدخل. إذا كان كل من الميزات يساهم بشكل مستقل في قيم الخرج، عندها تقوم الخوارزميات الخطية (مثل الانحدار الخطي, الانحدار اللوجستي, دعم آلات ناقلات, ساذجة Bayes) و دوال المسافة (على سبيل المثال، خوارزمية الجار الأقرب، شعاع الدعم الآلي مع نواة جاوس) بأداء جيد عموما. ولكن، إذا كان هناك تفاعلات معقدة بين خصائص الدخل، عندها تقوم خوارزميات من قبيل أشجار القرار و الشبكات العصبية بالعمل بشكل أفضل لأنها مصممة خصيصا لاكتشاف هذه التفاعلات. يمكن تطبيق الطرق الخطية في هذه الحالة أيضا، و لكن يجب أن يقوم المهندس بتحديد التفاعلات يدويا عند استخدامها.
المصدر: wikipedia.org