محلی سازی شی تعمیم یافته با پرس و جوهای زبان طبیعی

زبان طبیعی پرس و جوهای توصیفی انعطاف پذیر در مورد تصاویر را امکان پذیر می کند. تعامل بین پرس و جوهای متنی و تصاویر، معنای زبانی را در دنیای بصری پایه‌گذاری می‌کند و درک بهتر روابط شی، نیات انسان نسبت به اشیا و تعامل با محیط را تسهیل می‌کند. جامعه پژوهشی زمین‌سازی بصری در سطح شی را از طریق طیف وسیعی از وظایف، از جمله ارجاع درک بیان، محلی‌سازی مبتنی بر متن، و به‌طور گسترده‌تر تشخیص اشیا مورد مطالعه قرار داده است، که هر کدام به مهارت‌های متفاوتی در یک مدل نیاز دارند. به عنوان مثال، تشخیص شی به دنبال یافتن تمام اشیاء از یک مجموعه از پیش تعریف‌شده از کلاس‌ها است، که نیاز به محلی‌سازی و طبقه‌بندی دقیق دارد، در حالی که درک عبارات ارجاع، یک شی را از متن ارجاع‌دهنده بومی‌سازی می‌کند و اغلب به استدلال پیچیده روی اشیاء برجسته نیاز دارد. در تقاطع این دو، محلی‌سازی مبتنی بر متن قرار دارد که در آن یک پرس‌وجو متنی مبتنی بر دسته‌بندی ساده، مدل را وادار می‌کند تا اشیاء مورد علاقه را شناسایی کند.

به دلیل ویژگی‌های کار غیرمشابه، درک عبارات ارجاع، تشخیص، و محلی‌سازی مبتنی بر متن عمدتاً از طریق معیارهای جداگانه مورد مطالعه قرار می‌گیرند و اکثر مدل‌ها فقط به یک کار اختصاص داده شده‌اند. در نتیجه، مدل‌های موجود به اندازه کافی اطلاعات را از سه وظیفه ترکیب نکرده‌اند تا به درک بصری و زبانی جامع‌تری دست یابند. برای مثال، مدل‌های درک عبارات ارجاع‌دهنده، برای پیش‌بینی یک شی در هر تصویر آموزش داده می‌شوند، و اغلب برای بومی‌سازی چندین شی، رد درخواست‌های منفی، یا تشخیص دسته‌های بدیع تلاش می‌کنند. علاوه بر این، مدل‌های شناسایی قادر به پردازش ورودی‌های متن نیستند، و مدل‌های محلی‌سازی مبتنی بر متن اغلب برای پردازش پرس‌و‌جوهای پیچیده که به یک نمونه شی اشاره می‌کنند، مانند «نیمه‌ی چپ ساندویچ» با مشکل مواجه هستند. در نهایت، هیچ یک از مدل ها نمی توانند به اندازه کافی فراتر از داده ها و دسته های آموزشی خود تعمیم دهند.

برای رفع این محدودیت‌ها، «FindIt: محلی‌سازی تعمیم‌یافته با جستارهای زبان طبیعی» را در ECCV 2022 ارائه می‌کنیم. در اینجا ما یک مدل زمین‌سازی بصری یکپارچه، همه‌منظوره و چند کاره به نام FindI را پیشنهاد می‌کنیم که می‌تواند به طور انعطاف‌پذیر به انواع مختلف زمین‌گذاری و تشخیص پاسخ دهد. پرس و جوها کلید این معماری یک ماژول ترکیبی چند سطحی است که می تواند استدلال پیچیده را برای ارجاع درک عبارات انجام دهد و به طور همزمان اشیاء کوچک و چالش برانگیز را برای محلی سازی و تشخیص مبتنی بر متن تشخیص دهد. علاوه بر این، ما متوجه شدیم که یک آشکارساز شی استاندارد و تلفات تشخیص برای هر سه کار بدون نیاز به طراحی خاص و تلفات رایج در کارهای موجود، کافی و شگفت‌آور است. FindI ساده، کارآمد است و در معیارهای درک عبارات ارجاع و محلی‌سازی مبتنی بر متن از مدل‌های پیشرفته برتر عمل می‌کند، در حالی که در معیار تشخیص رقابتی است.

FindI یک مدل یکپارچه برای ارجاع درک عبارات (شکل 1)، محلی سازی مبتنی بر متن (شکل 2)، و وظیفه تشخیص شی (شکل 3) است. FindI می‌تواند به دقت پاسخ دهد وقتی روی انواع شی/کلاس‌هایی که در طول آموزش شناخته نشده‌اند، به عنوان مثال «میز را بیابید» (شکل 4) آزمایش شود. در مقایسه با خطوط پایه موجود (MattNet و GPV)، FindI می تواند این وظایف را به خوبی و در یک مدل واحد انجام دهد.

ترکیب تصویر-متن چند سطحی
وظایف محلی سازی مختلف با اهداف درک معنایی متفاوت ایجاد می شود. به عنوان مثال، از آنجایی که وظیفه بیان ارجاع در درجه اول به اشیاء برجسته در تصویر ارجاع می دهد تا اشیاء کوچک، مسدود یا دور، تصاویر با وضوح پایین به طور کلی کافی هستند. در مقابل، وظیفه تشخیص با هدف شناسایی اجسام با اندازه‌های مختلف و سطوح انسداد در تصاویر با وضوح بالاتر است. جدا از این معیارها، مشکل زمین‌سازی بصری کلی ذاتاً چند مقیاسی است، زیرا پرس‌و‌جوهای طبیعی می‌توانند به اشیا با هر اندازه‌ای اشاره کنند. این امر نیاز به یک مدل ترکیبی متن-تصویر چند سطحی را برای پردازش کارآمد تصاویر با وضوح بالاتر بر روی وظایف محلی سازی مختلف ایجاد می کند.

فرض FindI این است که ویژگی‌های معنایی سطح بالاتر را با استفاده از لایه‌های ترانسفورماتور گویاتر ترکیب کند، که می‌تواند تعاملات جفتی بین تصویر و متن را ثبت کند. برای ویژگی‌های سطح پایین‌تر و وضوح بالاتر، ما از ترکیب محصول نقطه‌ای ارزان‌تر برای صرفه‌جویی در هزینه‌های محاسباتی و حافظه استفاده می‌کنیم. ما یک سر آشکارساز (به عنوان مثال، سریعتر R-CNN) را در بالای نقشه های ویژگی ذوب شده وصل می کنیم تا جعبه ها و کلاس های آنها را پیش بینی کنیم.

FindI یک تصویر و یک متن پرس و جو را به عنوان ورودی می پذیرد و قبل از اعمال ترکیب چند سطحی، آنها را به طور جداگانه در ستون فقرات تصویر/متن پردازش می کند. ما ویژگی‌های ترکیب شده را به Faster R-CNN می‌دهیم تا جعبه‌هایی را که متن به آنها اشاره می‌کند، پیش‌بینی کند. فیوژن ویژگی از ترانسفورماتورهای رسا بیشتری در سطوح بالاتر و محصول نقطه ای ارزان تر در سطوح پایین تر استفاده می کند.

یادگیری چند وظیفه ای
جدای از ادغام چند سطحی که در بالا توضیح داده شد، وظایف تشخیص و محلی‌سازی مبتنی بر متن را برای دریافت همان ورودی‌ها به عنوان وظیفه درک عبارت ارجاع‌کننده تطبیق می‌دهیم. برای وظیفه محلی سازی مبتنی بر متن، مجموعه ای از پرس و جوها را روی دسته بندی های موجود در تصویر ایجاد می کنیم. برای هر دسته بندی فعلی، پرس و جو متن به شکل «پیدا کردن [object]،” جایی که [object] نام دسته است. اشیاء مربوط به آن دسته به عنوان پیش زمینه و سایر اشیاء به عنوان پس زمینه برچسب گذاری می شوند. به جای استفاده از اعلان فوق، از یک اعلان ایستا برای کار تشخیص استفاده می کنیم، مانند «یافتن همه اشیا». ما دریافتیم که انتخاب خاص اعلان‌ها برای وظایف محلی‌سازی و شناسایی مبتنی بر متن مهم نیست.

پس از انطباق، همه وظایف در نظر گرفته شده ورودی ها و خروجی های یکسانی دارند – یک ورودی تصویر، یک پرس و جو متن، و مجموعه ای از جعبه ها و کلاس های مرزبندی خروجی. سپس مجموعه داده ها را با هم ترکیب کرده و روی مخلوط آموزش می دهیم. در نهایت، ما از تلفات تشخیص اشیاء استاندارد برای همه کارها استفاده می کنیم که به طور شگفت انگیزی ساده و موثر هستند.

ارزیابی
ما FindIt را به معیار محبوب RefCOCO برای ارجاع وظایف درک عبارات اعمال می کنیم. هنگامی که فقط مجموعه داده COCO و RefCOCO در دسترس است، FindIt در همه کارها از مدل پیشرفته برتری دارد. در تنظیماتی که مجموعه داده‌های خارجی مجاز هستند، FindIt با استفاده از COCO و همه RefCOCO با هم تقسیم می‌شود (بدون مجموعه داده دیگری). در تقسیم‌بندی چالش‌برانگیز Google و UMD، FindI با 10 درصد حاشیه از وضعیت هنر پیشی می‌گیرد که در مجموع، مزایای یادگیری چندکاره را نشان می‌دهد.

مقایسه با وضعیت هنر در معیار بیان ارجاع محبوب. FindI در هر دو تنظیمات COCO و بدون محدودیت برتر است (داده های آموزشی اضافی مجاز است).

در معیار محلی‌سازی مبتنی بر متن، FindI به 79.7 درصد، بالاتر از GPV (73.0 درصد) و سریع‌تر R-CNN (75.2 درصد) دست می‌یابد. لطفاً برای ارزیابی کمی بیشتر به مقاله مراجعه کنید.

همچنین مشاهده می‌کنیم که FindI به مقوله‌ها و فوق‌رده‌های جدید در وظیفه محلی‌سازی مبتنی بر متن در مقایسه با خطوط پایه تک وظیفه‌ای رقابتی در مجموعه‌های داده محبوب COCO و Objects365، که در شکل زیر نشان داده شده‌اند، بهتر تعمیم می‌دهد.

Find It را در دسته بندی های جدید و فوق العاده پیدا کنید. ترک کرد: FindI از خطوط پایه تک وظیفه ای به ویژه در دسته بندی های جدید بهتر عمل می کند. درست: FindI از خطوط پایه تک وظیفه ای در دسته های فوق العاده دیده نشده بهتر عمل می کند. “Rec-Single” مدل تکلیف درک عبارت ارجاعی است و “Loc-Single” مدل تک کار محلی سازی مبتنی بر متن است.

بهره وری
ما همچنین زمان‌های استنتاج را روی تکلیف درک عبارت ارجاع‌کننده محک می‌زنیم (جدول زیر را ببینید). FindI کارآمد و قابل مقایسه با رویکردهای یک مرحله ای موجود در عین دستیابی به دقت بالاتر است. برای مقایسه منصفانه، تمام زمان‌های اجرا بر روی یک پردازنده گرافیکی GTX 1080Ti اندازه‌گیری می‌شوند.

مدل اندازه تصویر ستون فقرات زمان اجرا (ms)
مت نت 1000 R101 378
تباه کننده 256 DarkNet53 39
MCN 416 DarkNet53 56
TransVG 640 R50 62
Find It (مال ما) 640 R50 107
Find It (مال ما) 384 R50 57

نتیجه
ما Findit را ارائه می‌کنیم که درک عبارات ارجاعی، محلی‌سازی مبتنی بر متن و وظایف تشخیص شی را یکپارچه می‌کند. ما توجه متقابل چند مقیاسی را برای یکسان کردن الزامات محلی سازی متنوع این وظایف پیشنهاد می کنیم. بدون طراحی خاص، FindIt در ارجاع بیان و بومی‌سازی مبتنی بر متن از وضعیت هنر پیشی می‌گیرد، عملکرد رقابتی را در تشخیص نشان می‌دهد، و بهتر به داده‌های خارج از توزیع و کلاس‌های جدید تعمیم می‌دهد. همه اینها در یک مدل واحد، یکپارچه و کارآمد انجام می شود.

سپاسگزاریها
این اثر توسط Weicheng Kuo، Fred Bertsch، Wei Li، AJ Piergiovanni، Mohammad Saffar و Anelia Angelova انجام شده است. مایلیم از Ashish Vaswani، Prajit Ramachandran، Niki Parmar، David Luan، Tsung-Yi Lin و سایر همکاران در Google Research به خاطر مشاوره و بحث های مفیدشان تشکر کنیم. از تام اسمال برای تهیه انیمیشن تشکر می کنیم.