توانایی تشخیص اشیاء در دنیای بصری برای بینایی رایانه و هوش ماشینی بسیار مهم است و برنامههایی مانند عوامل مستقل تطبیقی و سیستمهای خرید همهکاره را ممکن میسازد. با این حال، آشکارسازهای شیء مدرن با حاشیهنویسی دستی دادههای آموزشی خود محدود میشوند و در نتیجه اندازه واژگانی بهطور قابلتوجهی کوچکتر از مجموعه وسیعی از اشیاء در واقعیت میشوند. برای غلبه بر این، وظیفه تشخیص واژگان باز (OVD) پدیدار شده است، که از جفت های تصویر-متن برای آموزش استفاده می کند و نام دسته های جدید را در زمان آزمون با مرتبط کردن آنها با محتوای تصویر ترکیب می کند. با در نظر گرفتن مقولهها بهعنوان جاسازیهای متن، آشکارسازهای واژگان باز میتوانند طیف وسیعی از اشیاء نادیده را پیشبینی کنند. تکنیکهای مختلفی مانند پیشآموزش تصویر-متن، تقطیر دانش، برچسبگذاری شبه، و مدلهای منجمد، که اغلب از ستون فقرات شبکه عصبی کانولوشنال (CNN) استفاده میکنند، پیشنهاد شدهاند. با محبوبیت فزاینده ترانسفورماتورهای بینایی (ViTs)، بررسی پتانسیل آنها برای ساخت آشکارسازهای واژگان باز ماهر مهم است.
رویکردهای موجود، در دسترس بودن مدلهای زبان بینایی (VLM) از پیش آموزشدیده را فرض میکنند و بر تنظیم دقیق یا تقطیر از این مدلها تمرکز میکنند تا تفاوت بین پیشآموزش سطح تصویر و تنظیم دقیق سطح شی را برطرف کنند. با این حال، از آنجایی که VLM ها اصولاً برای کارهای سطح تصویر مانند طبقه بندی و بازیابی طراحی شده اند، از مفهوم اشیا یا مناطق در مرحله قبل از آموزش به طور کامل استفاده نمی کنند. بنابراین، اگر اطلاعات محلی را در پیشآموزش تصویر-متن بسازیم، میتواند برای تشخیص واژگان باز مفید باشد.
در «RO-ViT: پیشآموزشی منطقهای آگاه برای تشخیص اشیاء با واژگان باز با ترانسفورماتورهای بینایی» که در CVPR 2023 ارائه شد، ما یک روش ساده برای پیشآموزش ترانسفورماتورهای بینایی به روشی آگاه از منطقه برای بهبود تشخیص واژگان باز معرفی میکنیم. در ترانسفورماتورهای بینایی، تعبیههای موقعیتی به وصلههای تصویر اضافه میشوند تا اطلاعات مربوط به موقعیت مکانی هر وصله درون تصویر را رمزگذاری کنند. پیشآموزش استاندارد معمولاً از جاسازیهای موقعیتی کامل تصویر استفاده میکند که به خوبی به وظایف تشخیص تعمیم نمییابد. بنابراین، ما یک طرح جاسازی موقعیتی جدید را پیشنهاد میکنیم، به نام «جاسازی موقعیتی برش خورده» که بهتر با استفاده از محصولات منطقه در تنظیم دقیق تشخیص همسو میشود. علاوه بر این، در یادگیری متن-تضاد متناظر، افت آنتروپی متقاطع softmax را با از دست دادن کانونی جایگزین میکنیم، که به ما امکان میدهد از مثالهای چالشبرانگیزتر و آموزندهتر یاد بگیریم. در نهایت، ما از پیشرفتهای اخیر در پیشنهادات شی جدید برای بهبود تنظیم دقیق تشخیص واژگان باز استفاده میکنیم، که با مشاهده اینکه روشهای موجود اغلب اشیاء جدید را در مرحله پیشنهاد به دلیل تطبیق بیش از حد با دستههای پیشزمینه از دست میدهند، ایجاد میشود. ما همچنین کد را در اینجا منتشر می کنیم.
پیش آموزش تصویر-متن آگاه از منطقه
VLM های موجود برای تطبیق یک تصویر به عنوان یک کل با توضیحات متنی آموزش دیده اند. با این حال، مشاهده میکنیم که بین نحوه استفاده از تعبیههای موقعیتی در رویکردهای پیشآموزشی متضاد موجود و تشخیص واژگان باز ناهماهنگی وجود دارد. تعبیههای موقعیتی برای ترانسفورماتورها مهم هستند زیرا اطلاعاتی را ارائه میدهند که هر عنصر در مجموعه از کجا آمده است. این اطلاعات اغلب برای کارهای شناسایی پایین دست و محلی سازی مفید است. رویکردهای قبل از تمرین معمولاً جاسازیهای موقعیتی کامل تصویر را در طول تمرین اعمال میکنند، و از همان جاسازیهای موقعیتی برای کارهای پایین دستی، به عنوان مثال، تشخیص ضربه صفر استفاده میکنند. با این حال، تشخیص در سطح منطقه برای تنظیم دقیق تشخیص واژگان باز اتفاق میافتد، که مستلزم تعمیم جاسازیهای موقعیتی تصویر کامل به مناطقی است که هرگز در طول دوره پیشآموزشی نمیبینند.
برای پرداختن به این موضوع، پیشنهاد می کنیم جاسازی های موضعی برش خورده (CPE). با CPE، جاسازیهای موقعیتی را از اندازه تصویر معمولی برای قبل از آموزش، به عنوان مثال، 224×224 پیکسل، تا اندازه معمولی برای کارهای تشخیص، به عنوان مثال، 1024×1024 پیکسل، نمونهبرداری میکنیم. سپس به طور تصادفی یک منطقه را برش داده و اندازه آن را تغییر می دهیم، و از آن به عنوان جاسازی های موقعیتی در سطح تصویر در طول قبل از آموزش استفاده می کنیم. موقعیت، مقیاس و نسبت ابعاد محصول به صورت تصادفی نمونه برداری می شود. به طور شهودی، این باعث میشود که مدل یک تصویر را نه بهعنوان یک تصویر کامل، بلکه بهعنوان یک برش منطقه از یک تصویر ناشناخته بزرگتر مشاهده کند. این بهتر با مورد استفاده پایین دستی از تشخیص مطابقت دارد که در آن تشخیص در سطح منطقه رخ می دهد نه در سطح تصویر.
برای پیش آموزش، پیشنهاد می کنیم تعبیه موضعی برش خورده (CPE) که بهجای استفاده از جاسازی موقعیتی کل تصویر (PE) بهطور تصادفی ناحیهای از جاسازیهای موقعیتی را برش داده و اندازه آن را تغییر میدهد. علاوه بر این، ما از افت کانونی به جای افت آنتروپی متقاطع softmax برای یادگیری متضاد استفاده می کنیم. |
همچنین یادگرفتن از مثالهای سخت با فقدان کانونی مفید است. از دست دادن کانونی کنترل دقیقتری بر وزن نمونههای سخت نسبت به آنچه که افت آنتروپی متقاطع softmax میتواند فراهم کند، امکانپذیر میسازد. ما تلفات کانونی را اتخاذ کرده و آن را با افت آنتروپی متقاطع softmax در هر دو تلفات تصویر به متن و متن به تصویر جایگزین می کنیم. هم CPE و هم از دست دادن کانونی هیچ پارامتر اضافی و حداقل هزینه های محاسباتی را معرفی نمی کنند.
تنظیم دقیق آشکارساز واژگان باز
یک آشکارساز واژگان باز با برچسبهای تشخیص دستههای «پایه» آموزش داده شده است، اما باید در زمان آزمون، اتحاد دستههای «پایه» و «جدید» (بدون برچسب) را تشخیص دهد. علیرغم ویژگی های ستون فقرات که از پیش آموزش داده شده از داده های گسترده واژگان باز، لایه های آشکارساز اضافه شده (گردن و سر) به تازگی با مجموعه داده تشخیص پایین دست آموزش داده شده اند. رویکردهای موجود اغلب اشیاء جدید/بدون برچسب را در مرحله پیشنهاد شیء از دست می دهند، زیرا پیشنهادها تمایل دارند آنها را به عنوان پس زمینه طبقه بندی کنند. برای رفع این مشکل، از پیشرفتهای اخیر در یک روش پیشنهادی شی جدید استفاده میکنیم و شیء مبتنی بر کیفیت محلیسازی (یعنی امتیاز مرکزیت) را به جای امتیاز طبقهبندی شی یا نه باینری، که با امتیاز تشخیص ترکیب میشود، اتخاذ میکنیم. در طول آموزش، امتیازهای تشخیص را برای هر ناحیه شناسایی شده به عنوان شباهت کسینوس بین جاسازی منطقه (محاسبه شده از طریق عملیات RoI-Align) و جاسازیهای متنی دستههای پایه محاسبه میکنیم. در زمان آزمون، جاسازیهای متنی دستههای جدید را اضافه میکنیم و امتیاز تشخیص اکنون با اتحاد دستههای پایه و جدید محاسبه میشود.
ستون فقرات ViT از قبل آموزش دیده با جایگزینی میانگین جهانی با سرهای آشکارساز به تشخیص واژگان باز پایین دست منتقل می شود. تعبیههای RoI-Align با جاسازیهای دستهبندی ذخیرهشده مطابقت داده میشوند تا امتیاز VLM به دست آید، که با امتیاز تشخیص در امتیاز تشخیص واژگان باز ترکیب میشود. |
نتایج
ما RO-ViT را در معیار تشخیص واژگان باز LVIS ارزیابی می کنیم. در سطح سیستم، بهترین مدل ما به 33.6 جعبه دقت متوسط در دستههای نادر دست مییابد (APr) و 32.1 mask APr، که از بهترین رویکرد مبتنی بر ViT موجود OWL-ViT با 8.0 AP بهتر عمل می کند.r و بهترین رویکرد مبتنی بر CNN ViLD-Ens توسط 5.8 mask APr. همچنین از عملکرد بسیاری از رویکردهای دیگر مبتنی بر تقطیر دانش، پیش آموزش یا آموزش مشترک با نظارت ضعیف فراتر می رود.
RO-ViT در معیار تشخیص واژگان باز LVIS از روشهای مبتنی بر ViT و روشهای مبتنی بر CNN برتری دارد. ما AP ماسک را در دستههای نادر نشان میدهیم (APr) ، به جز SOTA ViT-based (OwL-ViT) که در آن کادر AP را نشان می دهیم. |
جدا از ارزیابی نمایش سطح منطقه از طریق تشخیص واژگان باز، ما نمایش سطح تصویر RO-ViT را در بازیابی متن تصویر از طریق معیارهای MS-COCO و Flickr30K ارزیابی می کنیم. مدل ما با 303M ViT بهتر از مدل پیشرفته CoCa با 1B ViT در MS COCO عمل می کند و با Flickr30K برابری می کند. این نشان میدهد که روش پیشآموزشی ما نه تنها نمایش سطح منطقه را بهبود میبخشد، بلکه نمایش سطح تصویر جهانی را نیز برای بازیابی بهبود میبخشد.
ما بازیابی تصویر-متن صفر شات را در معیارهای MS COCO و Flickr30K نشان میدهیم و با روشهای رمزگذار دوگانه مقایسه میکنیم. ما recall@1 (یادآوری اول) را در وظایف بازیابی تصویر به متن (I2T) و متن به تصویر (T2I) گزارش میکنیم. RO-ViT با همان ستون فقرات از پیشرفته ترین CoCa بهتر عمل می کند. |
تشخیص واژگان باز RO-ViT در LVIS. ما فقط دسته بندی های جدید را برای وضوح نشان می دهیم. RO-ViT دستههای جدید بسیاری را شناسایی میکند که هرگز در طول آموزش تشخیص ندیده است: «کاسه ماهی»، «سومبررو»، «خرمالو»، «گارگویل». |
تجسم تعبیههای موقعیتی
ما تعبیههای موقعیتی آموختهشده RO-ViT را با خط پایه تجسم و مقایسه میکنیم. هر کاشی شباهت کسینوس بین تعبیههای موقعیتی یک پچ و همه تکههای دیگر است. برای مثال، کاشی در گوشه سمت چپ بالا (که با رنگ قرمز مشخص شده است) شباهت بین جاسازی موقعیتی مکان (ردیف=1، ستون=1) و آن جاسازیهای موقعیتی همه مکانهای دیگر را به صورت دوبعدی به تصویر میکشد. روشنایی پچ نشان میدهد که تعبیههای موقعیتی آموختهشده مکانهای مختلف چقدر نزدیک است. RO-ViT خوشه های متمایز تری را در مکان های مختلف پچ تشکیل می دهد که الگوهای متقارن جهانی را در اطراف پچ مرکزی نشان می دهد.
هر کاشی شباهت کسینوس بین تعبیه موقعیتی وصله (در موقعیت ردیف-ستون مشخص شده) و جاسازیهای موقعیتی همه وصلههای دیگر را نشان میدهد. ستون فقرات ViT-B/16 استفاده می شود. |
نتیجه
ما RO-ViT را ارائه میدهیم، یک چارچوب تصویر-متن متضاد پیشآموزشی برای پر کردن شکاف بین پیشآموزش سطح تصویر و تنظیم دقیق تشخیص واژگان باز. روشهای ما ساده، مقیاسپذیر، و به آسانی برای هر ستون فقرات متضاد با حداقل هزینه محاسباتی و بدون افزایش در پارامترها اعمال میشوند. RO-ViT در معیار تشخیص واژگان باز LVIS و معیارهای بازیابی تصویر-متن به آخرین هنر دست می یابد، که نشان می دهد نمایش آموخته شده نه تنها در سطح منطقه مفید است، بلکه در سطح تصویر نیز بسیار موثر است. ما امیدواریم که این مطالعه بتواند به تحقیق در مورد تشخیص واژگان باز از منظر پیش آموزش تصویر-متن کمک کند که می تواند برای وظایف سطح منطقه و سطح تصویر مفید باشد.
سپاسگزاریها
Dahun Kim، Anelia Angelova و Weicheng Kuo این کار را انجام دادند و اکنون در Google DeepMind هستند. مایلیم از همکاران خود در Google Research برای مشاوره و بحث های مفیدشان تشکر کنیم.