العربية  

books basic functions of computer vision

If you do not find what you're looking for, you can use more accurate words.

View more

المهام الأساسية للرؤية الحاسوبية (Info)


كل واحد من التطبيقات المذكورة آنفاً يتضم العديد من مهام الرؤية الحاسوبية، بعضها مهام للقياس، وبعضها مهام حسابية تستخدم لحل العديد من المسائل. هذه بعض المهام الأساسية لعلم الرؤية الحاسوبية.

التعرف

هي المهمة التقليدية في الرؤية الحاسوبية، وهي القيام بتحديد ما إذا كانت الصورة تحتوي أو لا تحتوي جسماً، معلماً، أو نشاطاً معيناً. هذه المهمة من الممكن حلها بباسطة وبدون أي جهد يذكر بواسطة الإنسان، لكن لا تزال هذه المسألة غير محلولة بشكل فعال ونهائي من قبل الحاسوب في شكلها العام. جميع الطرق الموجودة لحل هذه المسألة تقوم بإيجاد أفضل الحلول من أجل إيجاد أشكال معينة كالأشكال الهندسية، وجوه الأشخاص، الأحرف المطبوعة أو المكتوبة، أو السيارات، وفي حالات معينة فقط محددة على الغالب بظروف إضاءة محددة، خلفية ووضعية معينة للجسم بالنسبة للكاميرا. هناك أنواع مختلفة لمشكلة التعرف مشروحة في المراجع العلمية:

  • التعرف Recognition : يتم التعرف على واحد أو البعض من الأجسام التي تم تعليمها مسبقاً للحاسوب، غالباً بأوضاعها المختلفة أو بزاويا مختلفة للكاميرا.
  • التحديد: تحديد مطابق وحيد للجسم المعرف. مثلاً: تحديد وجه شخص معين أو التعرف على بصمة شخص معين أو سيارة من نوع معين.
  • التحري: يتم البحث في بيانات الصورة لإيجاد جسم معين. مثال: تحري وجود خلايا مريضة في صورة طبية، التحري عن وجود سيارة على طريق سريع.
  • استرجاع الصورة بناء على المضمون: یتم استراجاع الصور المخزنة في قاعدة بيانات معينة، بناء على المحتوى والمفاهيم المشابهة للإستعلام من داخل قاعدة البيانات، من أشهر طرق الإستعلام في أنظمة ال CBIR هو الإستعلام بالصورة Query Image حيث يتم ادخال صورة ويكون الخرج مجموعة الصور المشابهة.

الحركة

يوجد العديد من المهام التي تتعلق بتقدير الحركة حيث تعالج فيها سلسلة من الصور المتعاقبة زمنياً من أجل حساب السرعة إما عند كل نقطة في الصورة أو في المشهد الثلاثي الأبعاد. بعض الأمثلة على هذه المهام هي:

  • حركة الكاميرا Egomotion: تحديد الحركة الصلبة للكاميرا في الفضاء الثلاثي الأبعاد.
  • التتبع Tracking: تتبع حركة الأجسام في الصورة المتعاقبة زمنياً (فيديو) مثل تتبع الأشخاص أو السيارات.
  • التدفق البصري : يحدد نمط الحركة الظاهرية لكل نقطة في المشهد المرئي.

إعادة بناء المشهد

بإعطاء صورة واحدة (بشكل عام أكثر من واحدة) لجسم معين أو صور متعاقبة، تهدف عملية بناء المشهد إلى حساب الموديل الثلاثي البعد للمشهد. وفي أبسط الحالات من الممكن إعادة بناء الجسم على شكل مجموعة من النقاط الثلاثية الأبعاد. وهناك طرق معقدة أكثر تقوم ببناء النموذج السطحي الكامل للأجسام. هناك عدة تقنيات لتركيب المشهد منها:

  • Photometric Stereo: وتتم عن طريق القاء الضوء على الجسم مرتين (أو ثلاث مرات لإزالة التشويش) من مكانين مختلفين. عن طريق معادلات رياضية ممكن معرفة العلاقة بين سطح الجسم ومقدار الضوء المرتد من السطح.
  • Stereo Correspondence: وتتم عن طريق الأخذ بصورتين ثنائيتي الأبعاد من المشهد الذي يراد اظهاره في ثلاثة ابعاد. الصورتين لابد ان تكون من مكانين مختلفين من المشهد (الأفضل ان تكونا على نفس الخط الأفقي ولكن هناك اختلاف بسيط في الخط العمودي).

ترميم الصورة

تهدف عملية ترميم الصور إلى إزالة التشويش (تشويش المستشعرات، تشويش الحركة وغيرهما) من الصور. تعتبر عمليات الفلترة (فلتر المتوسط - فلتر الوسيط..الخ) من أبسط عمليات إزالة التشويش من الصور. وهناك عمليات معقدة أكثر تفترض الشكل الذي تبدو عليه الصور مما يسمح لها بالتمييز بين الصورة والتشويش. يتم بشكل مبدئي التعرف على مكونات الصورة كالخطوط والمستقيمات ومن ثم التحكم بالفلتر بناء على المعلومات المحلية في جزء الصورة حيث يتم الحصول على نتائج أفضل من استخدام الفلاتر البسيطة.

Source: wikipedia.org
 
(5)
Basic Grammar

Basic Grammar