مدلهای بینایی ماشین: Classification، Detection و Segmentation
بینایی ماشین (Computer Vision) شاخهای از هوش مصنوعی است که هدف آن آموزش کامپیوتر برای درک محتوای تصاویر و ویدئو هاست. برای رسیدن به این هدف، بسته به نوع مسئله و نیاز خروجی، مدلهای مختلفی طراحی میشوند.
سه دستهی اصلی مدلها در این حوزه عبارتاند از:
- مدلهای طبقهبندی (Classification)
- مدلهای تشخیص اشیاء (Detection)
- مدلهای بخشبندی (Segmentation)
هر کدام از این مدلها درک متفاوتی از تصویر ارائه میدهند و سطح جزئیات خروجی آنها با دیگری فرق دارد. در ادامه، به معرفی کامل هر کدام از این مدلها و نقش آنها در بینایی ماشین میپردازیم.
۱. مدلهای طبقهبندی (Classification Models)
هدف مدلهای Classification شناسایی یک تصویر و تخصیص به یک کلاس مشخص از مجموعه کلاسهای تعریف شده میباشد. در مدلهای Classification، ورودی سیستم معمولاً یک تصویر کامل است و خروجی آن یک برچسب (Label) میباشد که نشان میدهد محتوای تصویر چیست. بهعنوان مثال، اگر تصویر یک سگ را به مدل بدهیم، خروجی آن «Dog» خواهد بود. این مدلها معمولا از شبکههای عصبی پیچشی (Convolutional Neural Networks – CNNs) بهره میبرند که توانایی استخراج ویژگیهای بصری از پیکسلها را دارند.
مراحل کلی در بکارگیری مدلهای Classification
- پیشپردازش تصویر (تغییر اندازه، نرمالسازی و افزایش داده)
- استخراج ویژگیها با استفاده از لایههای CNN
- تجمیع ویژگیها در لایههای Fully Connected
- پیشبینی نهایی بر اساس احتمال هر کلاس
نمونه مدلهای معروف
| سال | مدل | توضیحات |
| 2012 | AlexNet | آغازگر موج شبکههای عمیق |
| 2014 | VGGNet | ساختار ساده و عمیق |
| 2015 | ResNet | استفاده از Residual Connections |
| 2019 | EfficientNet | مدل بهینه بین دقت و سرعت |
کاربردها
- تشخیص نوع محصول در خطوط تولید
- تشخیص سالم یا معیوب بودن محصول
- تشخیص کیفیت کالا در صنایع غذایی یا بستهبندی

اما محدودیت اصلی مدلهای Classification این است که محل دقیق اشیاء را در تصویر نشان نمیدهد. به عبارتی فقط میگوید یک عکس به چه کلاسی تعلق دارد ولی نمیتواند اشیا را در تصویر بیابد. برای حل این مسئله، مدلهای Detection معرفی شدند.
مدلهای تشخیص اشیاء (Object Detection Models)
هدف مدلهای Detection شناسایی نوع و موقعیت دقیق اشیاء در تصویر است. در این مدلها، خروجی فقط یک برچسب نیست، بلکه شامل مختصات اشیا پیدا شده در تصویر نیز میباشد.به این ترتیب، مدل میتواند در یک تصویر چندین شیء را همزمان شناسایی کند و موقعیت هر کدام را روی تصویر مشخص نماید.
مراحل کلی در بکارگیری مدلهای Detection
- استخراج ویژگیهای تصویر
- پیشنهاد ناحیههای احتمالی (Region Proposals)
- پیشبینی کلاس و موقعیت هر ناحیه
- فیلتر نواحی و تشخیصهای تکراری
دستهبندی مدلهای Detection
- دومرحلهای (Two-Stage): ابتدا نواحی پیشنهادی استخراج میشوند، سپس در مرحلهی دوم هر ناحیه طبقهبندی میشود. مثالها: R-CNN, Fast R-CNN, Faster R-CNN. این مدلها دقت بسیار بالا دارند اما سرعت آنها کمتر است.
- تکمرحلهای (One-Stage): کل تصویر بهصورت یکجا پردازش میشود و مکان و کلاس اشیاء مستقیماً پیشبینی میگردد. مثالها: YOLO, SSD
کاربردها
- تشخیص اشیاء و بررسی حضور آنها مانند وجود درب و لیبل روی محصول
- تشخیص محل اشیا و بررسی معیوببودن آنها مانند تشخیص قرصها روی بلیستر و یافتن محل قرصهای معیوب


در واقع، مدلهای Detection سطح درک تصویر را از «چه چیزی در تصویر هست؟» به «چه چیزی در کجا است؟» ارتقا میدهند. اما گاهی لازم است حتی از این هم فراتر برویم و شکل دقیق هر شیء را بدانیم. در چنین حالتی از مدلهای Segmentation استفاده میشود.
۳. مدلهای بخشبندی تصویر (Segmentation Models)
هدف مدلهای Segmentation تقسیم پیکسلها در تصویر به گروههای معنادار میباشد. در مدلهای Segmentation خروجی در سطح پیکسلها تولید میشود. به عبارت دیگر، مدل یاد میگیرد که هر پیکسل به چه کلاس یا شیئی تعلق دارد.
دو نوع اصلی Segmentation:
- Semantic Segmentation: همهی پیکسلهای مربوط به یک کلاس (مثلاً همهی پیکسلهای درب محصول یا لیبل محصول) با یک رنگ مشخص میشوند. این روش اشیاء همکلاس را از هم تفکیک نمیکند. این روش در مواقعی کاربرد دارد که تفکیک کلاسها اهمیت نداشته باشد. مانند تشخیص پارگی روی پارچه که اهمیت ندارد پارگیها از هم تفکیک شوند، پارگی در هر جای تصویر باید بطور یکسان برخورد شود و از خط خارج شود. مدلهای معروف این دسته: FCN, U-Net DeepLab, SegFormer
- Instance Segmentation: در این دسته علاوه بر تعیین کلاس، هر نمونهی مجزا از آن کلاس هم جدا میشود. این روش در مواقعی کاربرد دارد که تفکیک بین نمونههای یک کلاس اهمیت داشته باشد. بطور مثال زمانی که میخواهیم سیبهای روی دستگاه سورتینگ را تشخیص دهیم، هر کدام باید جداگانه تشخیص داده شوند و شناسه منحصر به فرد خود را داشته باشند تا بتوان آنها را در زمان مناسب از خط خارج کرد. مدلهای معروف این دسته: Mask R-CNN, SAM, Detectron2


کاربردها
- شناسایی دقیق نواحی معیوب در تصاویر صنعتی (مثل خراش، ترک، لکه)
- یافتن شکل دقیق اشیا و اجزای آن در تصویر مانند شکل لیبل در تصویر و نحوه
در بینایی ماشین صنعتی، مدلهای Segmentation بالاترین دقت در تحلیل تصویر را ارائه میدهند، زیرا خروجی آنها دقیقاً مرز و شکل هر ناحیه را نشان میدهد.