بازنویسی زیرنویس‌های تصویر برای پاسخ‌گویی به سؤالات تصویری ایجاد داده

پاسخگویی به سوال بصری (VQA) یک کار مفید یادگیری ماشینی (ML) است که به یک مدل برای پاسخ به یک سوال بصری در مورد یک تصویر نیاز دارد. چیزی که آن را چالش برانگیز می کند، ماهیت چند وظیفه ای و باز بودن آن است. این شامل حل چندین سؤال تحقیقات فنی در بینایی کامپیوتر و درک زبان طبیعی به طور همزمان است. با این حال، پیشرفت در این کار طیف گسترده‌ای از برنامه‌ها، از کمک به نابینایان و افراد کم بینا یا برقراری ارتباط با روبات‌ها تا افزایش تجربه بصری کاربر با دانش خارجی را ممکن می‌سازد.

سیستم‌های VQA موثر و قوی بدون داده‌های آموزشی در مقیاس بزرگ با کیفیت بالا، از نظر معنایی و سبک‌شناختی سه‌گانه تصویر-سوال-پاسخ نمی‌توانند وجود داشته باشند. اما، ایجاد چنین داده‌هایی زمان‌بر و طاقت‌فرسا است. شاید جای تعجب نباشد که جامعه VQA به جای ایجاد داده های مقیاس پذیر بر توسعه مدل های پیچیده تمرکز کرده است.

در «تمام چیزی که ممکن است برای VQA نیاز داشته باشید زیرنویس‌های تصویر هستند» منتشر شده در NAACL 2022، تولید داده‌های VQA را با پیشنهاد «تولید سؤالات بصری با اعتبارسنجی پاسخ به سؤال» (VQ) بررسی می‌کنیم.2الف)، خط لوله ای که با بازنویسی یک عنوان توضیحی در چندین جفت پرسش و پاسخ پرسشی کار می کند. به طور خاص، ما از دو دارایی موجود – (i) داده های متن تصویری در مقیاس بزرگ و (ب) مدل های متن به متن عصبی با ظرفیت بالا – برای دستیابی به تولید خودکار داده VQA استفاده می کنیم. با پیشرفت این زمینه، جامعه پژوهشی این دارایی ها را به صورت مجزا بزرگتر و قوی تر می کند (برای اهداف کلی مانند یادگیری نمایش فقط متن یا تصویر-متن). با هم، آنها می توانند دستاوردهای بیشتری داشته باشند و ما آنها را برای اهداف ایجاد داده های VQA تطبیق می دهیم. ما دریافتیم که رویکرد ما می‌تواند جفت‌های پرسش-پاسخ را با دقت بالا ایجاد کند و این داده‌ها می‌توانند با موفقیت برای آموزش مدل‌های VQA برای بهبود عملکرد استفاده شوند.

VQ2یک تکنیک با بازنویسی هر عنوان در چندین جفت پرسش و پاسخ، تولید داده های VQA را در مقیاس از زیرنویس های تصویر امکان پذیر می کند.

VQ2یک مرور کلی
مرحله اول VQ2یک رویکرد، اعمال اکتشافی مبتنی بر تشخیص موجودیت نام‌گذاری‌شده، برچسب‌گذاری بخشی از گفتار و قوانین دستی تعریف‌شده برای تولید نامزدهای پاسخ از عنوان تصویر است. این نامزدهای تولید شده قطعات کوچکی از اطلاعات هستند که ممکن است موضوعات مرتبطی باشند که در مورد آنها سؤال بپرسند. ما همچنین به این لیست دو پاسخ پیش‌فرض «بله» و «خیر» اضافه می‌کنیم که به ما امکان می‌دهد سؤالات بولی ایجاد کنیم.

سپس، ما از یک مدل T5 استفاده می‌کنیم که به‌خوبی تنظیم شده بود تا سؤالاتی را برای داوطلب ایجاد کند، که نتیجه آن این بود [question, candidate answer] جفت سپس با استفاده از مدل T5 دیگر (که برای پاسخگویی به سؤالات به‌خوبی تنظیم شده است) جفت‌های با بالاترین کیفیت را فیلتر می‌کنیم و از آن می‌خواهیم بر اساس عنوان به سؤال پاسخ دهد. بود . یعنی پاسخ کاندید را با خروجی این مدل مقایسه می کنیم و در صورت شباهت کافی دو پاسخ، این سوال را با کیفیت بالا تعریف می کنیم و آن را حفظ می کنیم. در غیر این صورت آن را فیلتر می کنیم.

ایده استفاده از هر دو مدل پاسخگویی به سؤال و ایجاد سؤال برای بررسی سازگاری رفت و برگشت آنها قبلاً در زمینه های دیگر مورد بررسی قرار گرفته است. به عنوان مثال، Q2 از این ایده برای ارزیابی سازگاری واقعی در گفتگوهای مبتنی بر دانش استفاده می کند. در پایان، VQ2آ رویکرد، همانطور که در زیر نشان داده شده است، می تواند تعداد زیادی از [image, question, answer] سه قلوهایی که به اندازه کافی با کیفیت هستند تا به عنوان داده های آموزشی VQA مورد استفاده قرار گیرند.

VQ2A از سه مرحله اصلی تشکیل شده است: (1) استخراج پاسخ داوطلب، (ب) ایجاد سؤال، (iii) پاسخ به سؤال و اعتبارسنجی پاسخ.

نتایج
دو نمونه از داده‌های VQA تولید شده ما در زیر نشان داده شده است، یکی بر اساس شرح‌های COCO نوشته شده توسط انسان (COCO) و دیگری بر اساس شرح‌های مفهومی جمع‌آوری‌شده خودکار (CC3M)، که ما آن را VQ می‌نامیم.2A-COCO و VQ2به ترتیب A-CC3M. ما انواع مختلف سؤالات و سبک‌ها را که برای VQA حیاتی هستند، برجسته می‌کنیم. به طور کلی، هرچه شرح‌ها تمیزتر باشند (یعنی هرچه بیشتر با تصویر جفتی مرتبط باشند)، سه‌قلوهای ایجاد شده دقیق‌تر هستند. بر اساس 800 نمونه، 87.3 درصد از VQ2A-COCO و 66.0% VQ2ارزیابی‌کنندگان انسانی A-CC3M را معتبر می‌دانند، که نشان می‌دهد رویکرد ما می‌تواند جفت‌های پرسش-پاسخ را با دقت بالا ایجاد کند.

جفت‌های پرسش و پاسخ بر اساس شرح‌های COCO (بالا) و زیرنویس های مفهومی (پایین). برجسته کردن خاکستری نشان دهنده سؤالاتی است که انجام می دهند نه در VQAv2 ظاهر می شود، در حالی که هایلایت سبز نشان دهنده مواردی است که انجام دادن، نشان می دهد که رویکرد ما قادر به ایجاد سؤالات جدیدی است که مجموعه داده های VQA موجود ندارد.

در نهایت، ما داده های تولید شده خود را با استفاده از آن برای آموزش مدل های VQA ارزیابی می کنیم (برترین های نشان داده شده در زیر). مشاهده می‌کنیم که داده‌های VQA تولید شده به‌طور خودکار ما با حاشیه‌نویسی دستی رقابتی است هدف داده های VQA اولاً، مدل‌های VQA ما در معیارهای هدف «خارج از جعبه» به کارایی بالایی دست می‌یابند، زمانی که فقط بر روی داده‌های تولید شده ما آموزش ببینند (آبی روشن و قرمز روشن در مقابل زرد). پس از تنظیم دقیق داده‌های هدف، مدل‌های VQA ما در معیارهای مقیاس بزرگ مانند VQAv2 و GQA کمی بهتر از آموزش فقط هدف عمل می‌کنند، اما به طور قابل توجهی در OK-VQA کوچک و دانش‌جو (آبی تیره/قرمز در مقابل آبی روشن/قرمز) ).

دقت VQA در مجموعه داده‌های معیار محبوب.

نتیجه
تنها چیزی که ممکن است برای VQA نیاز داشته باشیم، شرح تصاویر است! این کار نشان می‌دهد که امکان تولید خودکار داده‌های VQA با کیفیت بالا در مقیاس وجود دارد که به‌عنوان یک بلوک اساسی برای VQA و مدل‌های بینایی و زبان به طور کلی (مانند ALIGN، CoCa) عمل می‌کند. ما امیدواریم که کار ما الهام بخش کارهای دیگر در زمینه VQA داده محور باشد.

قدردانی ها
از Roee Aharoni، Idan Szpektor، و Radu Soricut برای بازخوردشان در مورد این وبلاگ تشکر می کنیم. ما همچنین از نویسندگان همکارمان تشکر می کنیم: شی چن، نان دینگ، ایدان شپکتور و رادو سوریکوت. ما مشارکت‌های Or Honovich، Hagai Taitelbaum، Roee Aharoni، Sebastian Goodman، Piyush Sharma، Nassim Oufattole، Gal Elidan، Sasha Goldshtein، و Avinatan Hassidim را تایید می‌کنیم. در پایان از نویسندگان مقاله تشکر می کنیم س2، که خط لوله آن به شدت بر این کار تأثیر می گذارد.