پیش‌آموزش منطقه‌ای برای تشخیص اشیا با واژگان باز با ترانسفورماتورهای بینایی – وبلاگ تحقیقاتی گوگل


پیش‌آموزش منطقه‌ای برای تشخیص اشیا با واژگان باز با ترانسفورماتورهای بینایی – وبلاگ تحقیقاتی گوگل

توانایی تشخیص اشیاء در دنیای بصری برای بینایی رایانه و هوش ماشینی بسیار مهم است و برنامه‌هایی مانند عوامل مستقل تطبیقی ​​و سیستم‌های خرید همه‌کاره را ممکن می‌سازد. با این حال، آشکارسازهای شیء مدرن با حاشیه‌نویسی دستی داده‌های آموزشی خود محدود می‌شوند و در نتیجه اندازه واژگانی به‌طور قابل‌توجهی کوچک‌تر از مجموعه وسیعی از اشیاء در واقعیت می‌شوند. برای غلبه بر این، وظیفه تشخیص واژگان باز (OVD) پدیدار شده است، که از جفت های تصویر-متن برای آموزش استفاده می کند و نام دسته های جدید را در زمان آزمون با مرتبط کردن آنها با محتوای تصویر ترکیب می کند. با در نظر گرفتن مقوله‌ها به‌عنوان جاسازی‌های متن، آشکارسازهای واژگان باز می‌توانند طیف وسیعی از اشیاء نادیده را پیش‌بینی کنند. تکنیک‌های مختلفی مانند پیش‌آموزش تصویر-متن، تقطیر دانش، برچسب‌گذاری شبه، و مدل‌های منجمد، که اغلب از ستون فقرات شبکه عصبی کانولوشنال (CNN) استفاده می‌کنند، پیشنهاد شده‌اند. با محبوبیت فزاینده ترانسفورماتورهای بینایی (ViTs)، بررسی پتانسیل آنها برای ساخت آشکارسازهای واژگان باز ماهر مهم است.

رویکردهای موجود، در دسترس بودن مدل‌های زبان بینایی (VLM) از پیش آموزش‌دیده را فرض می‌کنند و بر تنظیم دقیق یا تقطیر از این مدل‌ها تمرکز می‌کنند تا تفاوت بین پیش‌آموزش سطح تصویر و تنظیم دقیق سطح شی را برطرف کنند. با این حال، از آنجایی که VLM ها اصولاً برای کارهای سطح تصویر مانند طبقه بندی و بازیابی طراحی شده اند، از مفهوم اشیا یا مناطق در مرحله قبل از آموزش به طور کامل استفاده نمی کنند. بنابراین، اگر اطلاعات محلی را در پیش‌آموزش تصویر-متن بسازیم، می‌تواند برای تشخیص واژگان باز مفید باشد.

در «RO-ViT: پیش‌آموزشی منطقه‌ای آگاه برای تشخیص اشیاء با واژگان باز با ترانسفورماتورهای بینایی» که در CVPR 2023 ارائه شد، ما یک روش ساده برای پیش‌آموزش ترانسفورماتورهای بینایی به روشی آگاه از منطقه برای بهبود تشخیص واژگان باز معرفی می‌کنیم. در ترانسفورماتورهای بینایی، تعبیه‌های موقعیتی به وصله‌های تصویر اضافه می‌شوند تا اطلاعات مربوط به موقعیت مکانی هر وصله درون تصویر را رمزگذاری کنند. پیش‌آموزش استاندارد معمولاً از جاسازی‌های موقعیتی کامل تصویر استفاده می‌کند که به خوبی به وظایف تشخیص تعمیم نمی‌یابد. بنابراین، ما یک طرح جاسازی موقعیتی جدید را پیشنهاد می‌کنیم، به نام «جاسازی موقعیتی برش خورده» که بهتر با استفاده از محصولات منطقه در تنظیم دقیق تشخیص همسو می‌شود. علاوه بر این، در یادگیری متن-تضاد متناظر، افت آنتروپی متقاطع softmax را با از دست دادن کانونی جایگزین می‌کنیم، که به ما امکان می‌دهد از مثال‌های چالش‌برانگیزتر و آموزنده‌تر یاد بگیریم. در نهایت، ما از پیشرفت‌های اخیر در پیشنهادات شی جدید برای بهبود تنظیم دقیق تشخیص واژگان باز استفاده می‌کنیم، که با مشاهده اینکه روش‌های موجود اغلب اشیاء جدید را در مرحله پیشنهاد به دلیل تطبیق بیش از حد با دسته‌های پیش‌زمینه از دست می‌دهند، ایجاد می‌شود. ما همچنین کد را در اینجا منتشر می کنیم.

پیش آموزش تصویر-متن آگاه از منطقه

VLM های موجود برای تطبیق یک تصویر به عنوان یک کل با توضیحات متنی آموزش دیده اند. با این حال، مشاهده می‌کنیم که بین نحوه استفاده از تعبیه‌های موقعیتی در رویکردهای پیش‌آموزشی متضاد موجود و تشخیص واژگان باز ناهماهنگی وجود دارد. تعبیه‌های موقعیتی برای ترانسفورماتورها مهم هستند زیرا اطلاعاتی را ارائه می‌دهند که هر عنصر در مجموعه از کجا آمده است. این اطلاعات اغلب برای کارهای شناسایی پایین دست و محلی سازی مفید است. رویکردهای قبل از تمرین معمولاً جاسازی‌های موقعیتی کامل تصویر را در طول تمرین اعمال می‌کنند، و از همان جاسازی‌های موقعیتی برای کارهای پایین دستی، به عنوان مثال، تشخیص ضربه صفر استفاده می‌کنند. با این حال، تشخیص در سطح منطقه برای تنظیم دقیق تشخیص واژگان باز اتفاق می‌افتد، که مستلزم تعمیم جاسازی‌های موقعیتی تصویر کامل به مناطقی است که هرگز در طول دوره پیش‌آموزشی نمی‌بینند.

برای پرداختن به این موضوع، پیشنهاد می کنیم جاسازی های موضعی برش خورده (CPE). با CPE، جاسازی‌های موقعیتی را از اندازه تصویر معمولی برای قبل از آموزش، به عنوان مثال، 224×224 پیکسل، تا اندازه معمولی برای کارهای تشخیص، به عنوان مثال، 1024×1024 پیکسل، نمونه‌برداری می‌کنیم. سپس به طور تصادفی یک منطقه را برش داده و اندازه آن را تغییر می دهیم، و از آن به عنوان جاسازی های موقعیتی در سطح تصویر در طول قبل از آموزش استفاده می کنیم. موقعیت، مقیاس و نسبت ابعاد محصول به صورت تصادفی نمونه برداری می شود. به طور شهودی، این باعث می‌شود که مدل یک تصویر را نه به‌عنوان یک تصویر کامل، بلکه به‌عنوان یک برش منطقه از یک تصویر ناشناخته بزرگ‌تر مشاهده کند. این بهتر با مورد استفاده پایین دستی از تشخیص مطابقت دارد که در آن تشخیص در سطح منطقه رخ می دهد نه در سطح تصویر.

برای پیش آموزش، پیشنهاد می کنیم تعبیه موضعی برش خورده (CPE) که به‌جای استفاده از جاسازی موقعیتی کل تصویر (PE) به‌طور تصادفی ناحیه‌ای از جاسازی‌های موقعیتی را برش داده و اندازه آن را تغییر می‌دهد. علاوه بر این، ما از افت کانونی به جای افت آنتروپی متقاطع softmax برای یادگیری متضاد استفاده می کنیم.

همچنین یادگرفتن از مثال‌های سخت با فقدان کانونی مفید است. از دست دادن کانونی کنترل دقیق‌تری بر وزن نمونه‌های سخت نسبت به آنچه که افت آنتروپی متقاطع softmax می‌تواند فراهم کند، امکان‌پذیر می‌سازد. ما تلفات کانونی را اتخاذ کرده و آن را با افت آنتروپی متقاطع softmax در هر دو تلفات تصویر به متن و متن به تصویر جایگزین می کنیم. هم CPE و هم از دست دادن کانونی هیچ پارامتر اضافی و حداقل هزینه های محاسباتی را معرفی نمی کنند.

تنظیم دقیق آشکارساز واژگان باز

یک آشکارساز واژگان باز با برچسب‌های تشخیص دسته‌های «پایه» آموزش داده شده است، اما باید در زمان آزمون، اتحاد دسته‌های «پایه» و «جدید» (بدون برچسب) را تشخیص دهد. علیرغم ویژگی های ستون فقرات که از پیش آموزش داده شده از داده های گسترده واژگان باز، لایه های آشکارساز اضافه شده (گردن و سر) به تازگی با مجموعه داده تشخیص پایین دست آموزش داده شده اند. رویکردهای موجود اغلب اشیاء جدید/بدون برچسب را در مرحله پیشنهاد شیء از دست می دهند، زیرا پیشنهادها تمایل دارند آنها را به عنوان پس زمینه طبقه بندی کنند. برای رفع این مشکل، از پیشرفت‌های اخیر در یک روش پیشنهادی شی جدید استفاده می‌کنیم و شیء مبتنی بر کیفیت محلی‌سازی (یعنی امتیاز مرکزیت) را به جای امتیاز طبقه‌بندی شی یا نه باینری، که با امتیاز تشخیص ترکیب می‌شود، اتخاذ می‌کنیم. در طول آموزش، امتیازهای تشخیص را برای هر ناحیه شناسایی شده به عنوان شباهت کسینوس بین جاسازی منطقه (محاسبه شده از طریق عملیات RoI-Align) و جاسازی‌های متنی دسته‌های پایه محاسبه می‌کنیم. در زمان آزمون، جاسازی‌های متنی دسته‌های جدید را اضافه می‌کنیم و امتیاز تشخیص اکنون با اتحاد دسته‌های پایه و جدید محاسبه می‌شود.

ستون فقرات ViT از قبل آموزش دیده با جایگزینی میانگین جهانی با سرهای آشکارساز به تشخیص واژگان باز پایین دست منتقل می شود. تعبیه‌های RoI-Align با جاسازی‌های دسته‌بندی ذخیره‌شده مطابقت داده می‌شوند تا امتیاز VLM به دست آید، که با امتیاز تشخیص در امتیاز تشخیص واژگان باز ترکیب می‌شود.

نتایج

ما RO-ViT را در معیار تشخیص واژگان باز LVIS ارزیابی می کنیم. در سطح سیستم، بهترین مدل ما به 33.6 جعبه دقت متوسط ​​در دسته‌های نادر دست می‌یابد (APr) و 32.1 mask APr، که از بهترین رویکرد مبتنی بر ViT موجود OWL-ViT با 8.0 AP بهتر عمل می کند.r و بهترین رویکرد مبتنی بر CNN ViLD-Ens توسط 5.8 mask APr. همچنین از عملکرد بسیاری از رویکردهای دیگر مبتنی بر تقطیر دانش، پیش آموزش یا آموزش مشترک با نظارت ضعیف فراتر می رود.

RO-ViT در معیار تشخیص واژگان باز LVIS از روش‌های مبتنی بر ViT و روش‌های مبتنی بر CNN برتری دارد. ما AP ماسک را در دسته‌های نادر نشان می‌دهیم (APr) ، به جز SOTA ViT-based (OwL-ViT) که در آن کادر AP را نشان می دهیم.

جدا از ارزیابی نمایش سطح منطقه از طریق تشخیص واژگان باز، ما نمایش سطح تصویر RO-ViT را در بازیابی متن تصویر از طریق معیارهای MS-COCO و Flickr30K ارزیابی می کنیم. مدل ما با 303M ViT بهتر از مدل پیشرفته CoCa با 1B ViT در MS COCO عمل می کند و با Flickr30K برابری می کند. این نشان می‌دهد که روش پیش‌آموزشی ما نه تنها نمایش سطح منطقه را بهبود می‌بخشد، بلکه نمایش سطح تصویر جهانی را نیز برای بازیابی بهبود می‌بخشد.

ما بازیابی تصویر-متن صفر شات را در معیارهای MS COCO و Flickr30K نشان می‌دهیم و با روش‌های رمزگذار دوگانه مقایسه می‌کنیم. ما recall@1 (یادآوری اول) را در وظایف بازیابی تصویر به متن (I2T) و متن به تصویر (T2I) گزارش می‌کنیم. RO-ViT با همان ستون فقرات از پیشرفته ترین CoCa بهتر عمل می کند.
تشخیص واژگان باز RO-ViT در LVIS. ما فقط دسته بندی های جدید را برای وضوح نشان می دهیم. RO-ViT دسته‌های جدید بسیاری را شناسایی می‌کند که هرگز در طول آموزش تشخیص ندیده است: «کاسه ماهی»، «سومبررو»، «خرمالو»، «گارگویل».

تجسم تعبیه‌های موقعیتی

ما تعبیه‌های موقعیتی آموخته‌شده RO-ViT را با خط پایه تجسم و مقایسه می‌کنیم. هر کاشی شباهت کسینوس بین تعبیه‌های موقعیتی یک پچ و همه تکه‌های دیگر است. برای مثال، کاشی در گوشه سمت چپ بالا (که با رنگ قرمز مشخص شده است) شباهت بین جاسازی موقعیتی مکان (ردیف=1، ستون=1) و آن جاسازی‌های موقعیتی همه مکان‌های دیگر را به صورت دوبعدی به تصویر می‌کشد. روشنایی پچ نشان می‌دهد که تعبیه‌های موقعیتی آموخته‌شده مکان‌های مختلف چقدر نزدیک است. RO-ViT خوشه های متمایز تری را در مکان های مختلف پچ تشکیل می دهد که الگوهای متقارن جهانی را در اطراف پچ مرکزی نشان می دهد.

هر کاشی شباهت کسینوس بین تعبیه موقعیتی وصله (در موقعیت ردیف-ستون مشخص شده) و جاسازی‌های موقعیتی همه وصله‌های دیگر را نشان می‌دهد. ستون فقرات ViT-B/16 استفاده می شود.

نتیجه

ما RO-ViT را ارائه می‌دهیم، یک چارچوب تصویر-متن متضاد پیش‌آموزشی برای پر کردن شکاف بین پیش‌آموزش سطح تصویر و تنظیم دقیق تشخیص واژگان باز. روش‌های ما ساده، مقیاس‌پذیر، و به آسانی برای هر ستون فقرات متضاد با حداقل هزینه محاسباتی و بدون افزایش در پارامترها اعمال می‌شوند. RO-ViT در معیار تشخیص واژگان باز LVIS و معیارهای بازیابی تصویر-متن به آخرین هنر دست می یابد، که نشان می دهد نمایش آموخته شده نه تنها در سطح منطقه مفید است، بلکه در سطح تصویر نیز بسیار موثر است. ما امیدواریم که این مطالعه بتواند به تحقیق در مورد تشخیص واژگان باز از منظر پیش آموزش تصویر-متن کمک کند که می تواند برای وظایف سطح منطقه و سطح تصویر مفید باشد.

سپاسگزاریها

Dahun Kim، Anelia Angelova و Weicheng Kuo این کار را انجام دادند و اکنون در Google DeepMind هستند. مایلیم از همکاران خود در Google Research برای مشاوره و بحث های مفیدشان تشکر کنیم.