اذا لم تجد ما تبحث عنه يمكنك استخدام كلمات أكثر دقة.
في معالجة اللغة الطبيعية ، يعد الإرباك وسيلة لتقييم قوالب اللغة. نموذج اللغة هو توزيع احتمالي للكلمات على جمل أو نصوص بأكملها.
باستخدام تعريف الإرباك لنموذج الاحتمال، قد نجد أن الجملة x i مثلاً في عينة الاختبار يمكن أن تكون مشفرة في 190 بت (أي أن جمل الاختبار كان لها متوسط احتمال لوغارتمي يبلغ -190). هذا من شأنه أن يعطي الإرباك نموذجاً كبيراً يعادل 2 190 لكل جملة. ومع ذلك، من الشائع أكثر أن يتم اجراء التطبيع لطول الجملة والنظر في عدد البتات لكل كلمة فقط. وبالتالي، إذا تضمنت جمل عينة الاختبار ما مجموعه 1000 كلمة، ويمكن ترميزها باستخدام إجمالي 7.95 بت لكل كلمة، فيمكن الحصول على قيمة إرباك نموذجية تبلغ 7.9 = 247 لكل كلمة. بمعنى آخر، فإن النموذج مرتبك في بيانات الاختبار كما لو كان عليه أن يختار بشكل موحد ومستقل بين 247 الاحتمالات لكل كلمة.
أدنى قيمة إرباك تم نشرها في متن براون (Brown Corpus) (مليون كلمة من اللغة الإنجليزية الأمريكية ذات مواضيع وأنواع مختلفة) اعتبارًا من عام 1992 هي في الواقع حوالي 247 لكل كلمة، وهي تقابل إنتروبيا لوغارتمية 247 = 7.95 بت لكل كلمة أو 1.75 بت لكل حرف باستخدام نموذج ثلاثي الكلمات (trigram). غالبًا ما يكون من الممكن تحقيق إرباك أقل على الأصول النصية المتخصصة، لأنها أسهل في التنبؤ.