نگاشت تصاویر به کلمات برای بازیابی تصویر ترکیبی صفر شات – وبلاگ تحقیقاتی گوگل

نگاشت تصاویر به کلمات برای بازیابی تصویر ترکیبی صفر شات – وبلاگ تحقیقاتی گوگل

بازیابی تصویر نقش مهمی در موتورهای جستجو دارد. به طور معمول، کاربران آنها برای بازیابی تصویر مورد نظر به تصویر یا متن به عنوان پرس و جو تکیه می کنند. با این حال، بازیابی مبتنی بر متن محدودیت‌های خود را دارد، زیرا توصیف دقیق تصویر هدف با استفاده از کلمات می‌تواند چالش برانگیز باشد. به عنوان مثال، هنگام جستجوی یک کالای مد، کاربران ممکن است آیتمی را بخواهند که ویژگی خاص آن، به عنوان مثال، رنگ یک لوگو یا خود لوگو، با آنچه در یک وب سایت پیدا می‌کنند متفاوت باشد. با این حال، جستجو برای آیتم در یک موتور جستجوی موجود بی اهمیت نیست زیرا توصیف دقیق آیتم مد با متن می تواند چالش برانگیز باشد. برای پرداختن به این واقعیت، بازیابی تصویر ترکیبی (CIR) تصاویر را بر اساس یک پرس و جو که هم یک تصویر و هم یک نمونه متن را ترکیب می‌کند، بازیابی می‌کند که دستورالعمل‌هایی را در مورد نحوه تغییر تصویر برای مطابقت با هدف بازیابی مورد نظر ارائه می‌دهد. بنابراین، CIR امکان بازیابی دقیق تصویر مورد نظر را با ترکیب تصویر و متن فراهم می کند.

با این حال، روش‌های CIR به مقادیر زیادی از داده‌های برچسب‌گذاری‌شده نیاز دارند، به‌عنوان مثال، سه‌گانه 1) تصویر پرس و جو، 2) توضیحات، و 3) تصویر هدف. جمع‌آوری چنین داده‌های برچسب‌گذاری‌شده پرهزینه است، و مدل‌های آموزش‌دیده شده بر روی این داده‌ها اغلب برای یک مورد خاص طراحی می‌شوند و توانایی آن‌ها را برای تعمیم به مجموعه داده‌های مختلف محدود می‌کند.

برای رسیدگی به این چالش‌ها، در «Pic2Word: نگاشت تصاویر به کلمات برای بازیابی تصویر ترکیبی صفر شات»، وظیفه‌ای به نام CIR شات صفر (ZS-CIR) پیشنهاد می‌کنیم. در ZS-CIR، ما قصد داریم یک مدل CIR واحد بسازیم که انواع مختلفی از وظایف CIR، مانند ترکیب شی، ویرایش ویژگی، یا تبدیل دامنه را بدون نیاز به داده‌های سه‌گانه برچسب‌گذاری شده انجام می‌دهد. در عوض، ما پیشنهاد می‌کنیم که یک مدل بازیابی را با استفاده از جفت‌های تصویر-شرح در مقیاس بزرگ و تصاویر بدون برچسب آموزش دهیم، که جمع‌آوری آن‌ها به طور قابل‌توجهی آسان‌تر از مجموعه داده‌های CIR نظارت‌شده در مقیاس است. برای تشویق تکرارپذیری و پیشرفت بیشتر این فضا، کد را نیز منتشر می کنیم.

شرح مدل بازیابی تصویر ترکیبی موجود.
ما یک مدل بازیابی تصویر ترکیبی را با استفاده از داده‌های تصویر-کپشن آموزش می‌دهیم. مدل ما تصاویری را که با ترکیب تصویر پرس و جو و متن تراز شده اند بازیابی می کند.

مروری بر روش

ما پیشنهاد می‌کنیم که از قابلیت‌های زبانی رمزگذار زبان در مدل پیش‌آموزش‌شده زبان-تصویر متضاد (CLIP) استفاده کنیم، که در ایجاد تعبیه‌های زبان معنادار معنایی برای طیف گسترده‌ای از مفاهیم و ویژگی‌های متنی برتری دارد. برای این منظور، ما از یک زیرماژول نقشه برداری سبک در CLIP استفاده می کنیم که برای نگاشت یک تصویر ورودی (مثلاً عکس یک گربه) از فضای جاسازی تصویر به یک نشانه کلمه (مثلاً “cat”) در متن طراحی شده است. فضای ورودی کل شبکه با از دست دادن کنتراست زبان بینایی بهینه شده است تا دوباره اطمینان حاصل شود که فضاهای بصری و جاسازی متن با توجه به یک جفت تصویر و توضیحات متنی آن تا حد ممکن نزدیک هستند. سپس، می توان با تصویر پرس و جو طوری رفتار کرد که انگار یک کلمه است. این امکان ترکیب منعطف و بدون درز ویژگی های تصویر پرس و جو و توضیحات متن توسط رمزگذار زبان را فراهم می کند. ما روش خود را Pic2Word می نامیم و در شکل زیر یک نمای کلی از روند آموزش آن ارائه می دهیم. ما توکن نگاشت شده را می خواهیم س برای نشان دادن تصویر ورودی به شکل نشانه کلمه. سپس، شبکه نقشه‌برداری را آموزش می‌دهیم تا جاسازی تصویر را در جاسازی زبان بازسازی کند. پ. به طور خاص، ما افت کنتراست ارائه شده در CLIP محاسبه شده بین جاسازی بصری را بهینه می کنیم. v و تعبیه متن پ.

آموزش شبکه نقشه برداری (fم) فقط از تصاویر بدون برچسب استفاده کنید. ما فقط شبکه نقشه برداری را با رمزگذار بصری و متنی منجمد بهینه می کنیم.

با توجه به شبکه نگاشت آموزش‌دیده، می‌توانیم یک تصویر را به‌عنوان یک نشانه کلمه در نظر بگیریم و آن را با توضیحات متن جفت کنیم تا به‌طور انعطاف‌پذیر درخواست مشترک تصویر-متن را مطابق شکل زیر بنویسیم.

با شبکه نگاشت آموزش‌دیده، تصویر را به عنوان یک نشانه کلمه در نظر می‌گیریم و آن را با توضیحات متن جفت می‌کنیم تا به‌طور انعطاف‌پذیر درخواست مشترک تصویر-متن را بنویسیم.

ارزیابی

ما آزمایش‌های مختلفی را برای ارزیابی عملکرد Pic2Word بر روی انواع وظایف CIR انجام می‌دهیم.

تبدیل دامنه

ما ابتدا قابلیت ترکیب بندی روش پیشنهادی را در تبدیل دامنه ارزیابی می کنیم – با توجه به یک تصویر و دامنه تصویر جدید مورد نظر (به عنوان مثال، مجسمه، اوریگامی، کارتون، اسباب بازی)، خروجی سیستم باید تصویری با محتوای مشابه باشد اما در دامنه یا سبک تصویر دلخواه جدید. همانطور که در زیر نشان داده شده است، ما توانایی نوشتن اطلاعات دسته و توضیحات دامنه را به ترتیب به عنوان تصویر و متن ارزیابی می کنیم. ما تبدیل از تصاویر واقعی به چهار دامنه را با استفاده از ImageNet و ImageNet-R ارزیابی می کنیم.

برای مقایسه با رویکردهایی که به داده های آموزشی نظارت شده نیاز ندارند، ما سه رویکرد را انتخاب می کنیم: (i) فقط تصویر بازیابی را فقط با جاسازی بصری انجام می دهد، (ii) فقط متن فقط از جاسازی متن استفاده می کند، و (iii) تصویر + متن میانگین جاسازی بصری و متن را برای نوشتن پرس و جو می کند. مقایسه با (iii) اهمیت نوشتن تصویر و متن با استفاده از رمزگذار زبان را نشان می دهد. ما همچنین با Combiner مقایسه می کنیم که مدل CIR را بر روی Fashion-IQ یا CIRR آموزش می دهد.

هدف ما این است که دامنه تصویر پرس و جو ورودی را به دامنه ای که با متن توضیح داده شده است تبدیل کنیم، به عنوان مثال، اوریگامی.

همانطور که در شکل زیر نشان داده شده است، رویکرد پیشنهادی ما با یک حاشیه بزرگ بهتر از خطوط پایه است.

نتایج (Recal@10، به عنوان مثال، درصد موارد مربوطه در 10 تصویر اول بازیابی شده.) در مورد بازیابی تصویر ترکیبی برای تبدیل دامنه.

ترکیب ویژگی مد

سپس، ترکیب ویژگی‌های مد، مانند رنگ پارچه، لوگو و طول آستین را با استفاده از مجموعه داده Fashion-IQ ارزیابی می‌کنیم. شکل زیر خروجی مورد نظر با توجه به پرس و جو را نشان می دهد.

مروری بر CIR برای ویژگی های مد.

در شکل زیر، مقایسه ای با خطوط پایه، از جمله خطوط پایه نظارت شده ارائه می کنیم که از سه قلوها برای آموزش مدل CIR استفاده می کنند: (i) CB از معماری مشابه رویکرد ما استفاده می کند، (ii) CIRPLANT، ALTEMIS، MAAF از ستون فقرات کوچکتری استفاده می کنند، مانند به عنوان ResNet50. مقایسه با این رویکردها به ما این درک را می دهد که رویکرد صفر شات ما در این کار چقدر خوب عمل می کند.

اگرچه CB از رویکرد ما بهتر عمل می کند، روش ما بهتر از خطوط پایه نظارت شده با ستون فقرات کوچکتر عمل می کند. این نتیجه نشان می‌دهد که با استفاده از یک مدل CLIP قوی، می‌توانیم یک مدل CIR بسیار مؤثر را بدون نیاز به سه‌قلوهای حاشیه‌نویسی آموزش دهیم.

نتایج (Recal@10، به عنوان مثال، درصد موارد مرتبط در 10 تصویر اول بازیابی شده.) در بازیابی تصویر ترکیبی برای مجموعه داده Fashion-IQ (بالاتر بهتر است). نوارهای آبی روشن مدل را با استفاده از سه قلو آموزش می دهند. توجه داشته باشید که رویکرد ما با این خطوط پایه نظارت شده با ستون فقرات کم عمق (کوچکتر) عمل می کند.

نتایج کیفی

چندین نمونه را در شکل زیر نشان می دهیم. در مقایسه با یک روش پایه که به داده‌های آموزشی نظارت شده (میانگین کردن ویژگی متن + تصویر) نیاز ندارد، رویکرد ما کار بهتری برای بازیابی صحیح تصویر هدف انجام می‌دهد.

نتایج کیفی بر روی تصاویر پرس و جوی متنوع و توضیحات متن.

نتیجه گیری و کار آینده

در این مقاله به معرفی Pic2Word، روشی برای نگاشت تصاویر به کلمات برای ZS-CIR می پردازیم. ما پیشنهاد می کنیم که تصویر را به یک نشانه کلمه تبدیل کنیم تا به یک مدل CIR فقط با استفاده از مجموعه داده تصویر-کپشن دست یابیم. از طریق انواع آزمایش‌ها، ما اثربخشی مدل آموزش‌دیده را بر وظایف مختلف CIR تأیید می‌کنیم، که نشان می‌دهد آموزش روی یک مجموعه داده تصویری می‌تواند یک مدل CIR قدرتمند بسازد. یکی از جهت‌گیری‌های بالقوه تحقیقات آینده، استفاده از داده‌های عنوان برای آموزش شبکه نقشه‌برداری است، اگرچه ما فقط از داده‌های تصویری در کار حاضر استفاده می‌کنیم.

سپاسگزاریها

این تحقیق توسط Kuniaki Saito، Kihyuk Sohn، Xiang Zhang، Chun-Liang Li، Chen-Yu Lee، Kate Saenko و Tomas Pfister انجام شد. همچنین از Zizhao Zhang و Sergey Ioffe برای بازخورد ارزشمندشان تشکر می کنم.