بازیابی تصویر نقش مهمی در موتورهای جستجو دارد. به طور معمول، کاربران آنها برای بازیابی تصویر مورد نظر به تصویر یا متن به عنوان پرس و جو تکیه می کنند. با این حال، بازیابی مبتنی بر متن محدودیتهای خود را دارد، زیرا توصیف دقیق تصویر هدف با استفاده از کلمات میتواند چالش برانگیز باشد. به عنوان مثال، هنگام جستجوی یک کالای مد، کاربران ممکن است آیتمی را بخواهند که ویژگی خاص آن، به عنوان مثال، رنگ یک لوگو یا خود لوگو، با آنچه در یک وب سایت پیدا میکنند متفاوت باشد. با این حال، جستجو برای آیتم در یک موتور جستجوی موجود بی اهمیت نیست زیرا توصیف دقیق آیتم مد با متن می تواند چالش برانگیز باشد. برای پرداختن به این واقعیت، بازیابی تصویر ترکیبی (CIR) تصاویر را بر اساس یک پرس و جو که هم یک تصویر و هم یک نمونه متن را ترکیب میکند، بازیابی میکند که دستورالعملهایی را در مورد نحوه تغییر تصویر برای مطابقت با هدف بازیابی مورد نظر ارائه میدهد. بنابراین، CIR امکان بازیابی دقیق تصویر مورد نظر را با ترکیب تصویر و متن فراهم می کند.
با این حال، روشهای CIR به مقادیر زیادی از دادههای برچسبگذاریشده نیاز دارند، بهعنوان مثال، سهگانه 1) تصویر پرس و جو، 2) توضیحات، و 3) تصویر هدف. جمعآوری چنین دادههای برچسبگذاریشده پرهزینه است، و مدلهای آموزشدیده شده بر روی این دادهها اغلب برای یک مورد خاص طراحی میشوند و توانایی آنها را برای تعمیم به مجموعه دادههای مختلف محدود میکند.
برای رسیدگی به این چالشها، در «Pic2Word: نگاشت تصاویر به کلمات برای بازیابی تصویر ترکیبی صفر شات»، وظیفهای به نام CIR شات صفر (ZS-CIR) پیشنهاد میکنیم. در ZS-CIR، ما قصد داریم یک مدل CIR واحد بسازیم که انواع مختلفی از وظایف CIR، مانند ترکیب شی، ویرایش ویژگی، یا تبدیل دامنه را بدون نیاز به دادههای سهگانه برچسبگذاری شده انجام میدهد. در عوض، ما پیشنهاد میکنیم که یک مدل بازیابی را با استفاده از جفتهای تصویر-شرح در مقیاس بزرگ و تصاویر بدون برچسب آموزش دهیم، که جمعآوری آنها به طور قابلتوجهی آسانتر از مجموعه دادههای CIR نظارتشده در مقیاس است. برای تشویق تکرارپذیری و پیشرفت بیشتر این فضا، کد را نیز منتشر می کنیم.
شرح مدل بازیابی تصویر ترکیبی موجود. |
ما یک مدل بازیابی تصویر ترکیبی را با استفاده از دادههای تصویر-کپشن آموزش میدهیم. مدل ما تصاویری را که با ترکیب تصویر پرس و جو و متن تراز شده اند بازیابی می کند. |
مروری بر روش
ما پیشنهاد میکنیم که از قابلیتهای زبانی رمزگذار زبان در مدل پیشآموزششده زبان-تصویر متضاد (CLIP) استفاده کنیم، که در ایجاد تعبیههای زبان معنادار معنایی برای طیف گستردهای از مفاهیم و ویژگیهای متنی برتری دارد. برای این منظور، ما از یک زیرماژول نقشه برداری سبک در CLIP استفاده می کنیم که برای نگاشت یک تصویر ورودی (مثلاً عکس یک گربه) از فضای جاسازی تصویر به یک نشانه کلمه (مثلاً “cat”) در متن طراحی شده است. فضای ورودی کل شبکه با از دست دادن کنتراست زبان بینایی بهینه شده است تا دوباره اطمینان حاصل شود که فضاهای بصری و جاسازی متن با توجه به یک جفت تصویر و توضیحات متنی آن تا حد ممکن نزدیک هستند. سپس، می توان با تصویر پرس و جو طوری رفتار کرد که انگار یک کلمه است. این امکان ترکیب منعطف و بدون درز ویژگی های تصویر پرس و جو و توضیحات متن توسط رمزگذار زبان را فراهم می کند. ما روش خود را Pic2Word می نامیم و در شکل زیر یک نمای کلی از روند آموزش آن ارائه می دهیم. ما توکن نگاشت شده را می خواهیم س برای نشان دادن تصویر ورودی به شکل نشانه کلمه. سپس، شبکه نقشهبرداری را آموزش میدهیم تا جاسازی تصویر را در جاسازی زبان بازسازی کند. پ. به طور خاص، ما افت کنتراست ارائه شده در CLIP محاسبه شده بین جاسازی بصری را بهینه می کنیم. v و تعبیه متن پ.
آموزش شبکه نقشه برداری (fم) فقط از تصاویر بدون برچسب استفاده کنید. ما فقط شبکه نقشه برداری را با رمزگذار بصری و متنی منجمد بهینه می کنیم. |
با توجه به شبکه نگاشت آموزشدیده، میتوانیم یک تصویر را بهعنوان یک نشانه کلمه در نظر بگیریم و آن را با توضیحات متن جفت کنیم تا بهطور انعطافپذیر درخواست مشترک تصویر-متن را مطابق شکل زیر بنویسیم.
با شبکه نگاشت آموزشدیده، تصویر را به عنوان یک نشانه کلمه در نظر میگیریم و آن را با توضیحات متن جفت میکنیم تا بهطور انعطافپذیر درخواست مشترک تصویر-متن را بنویسیم. |
ارزیابی
ما آزمایشهای مختلفی را برای ارزیابی عملکرد Pic2Word بر روی انواع وظایف CIR انجام میدهیم.
تبدیل دامنه
ما ابتدا قابلیت ترکیب بندی روش پیشنهادی را در تبدیل دامنه ارزیابی می کنیم – با توجه به یک تصویر و دامنه تصویر جدید مورد نظر (به عنوان مثال، مجسمه، اوریگامی، کارتون، اسباب بازی)، خروجی سیستم باید تصویری با محتوای مشابه باشد اما در دامنه یا سبک تصویر دلخواه جدید. همانطور که در زیر نشان داده شده است، ما توانایی نوشتن اطلاعات دسته و توضیحات دامنه را به ترتیب به عنوان تصویر و متن ارزیابی می کنیم. ما تبدیل از تصاویر واقعی به چهار دامنه را با استفاده از ImageNet و ImageNet-R ارزیابی می کنیم.
برای مقایسه با رویکردهایی که به داده های آموزشی نظارت شده نیاز ندارند، ما سه رویکرد را انتخاب می کنیم: (i) فقط تصویر بازیابی را فقط با جاسازی بصری انجام می دهد، (ii) فقط متن فقط از جاسازی متن استفاده می کند، و (iii) تصویر + متن میانگین جاسازی بصری و متن را برای نوشتن پرس و جو می کند. مقایسه با (iii) اهمیت نوشتن تصویر و متن با استفاده از رمزگذار زبان را نشان می دهد. ما همچنین با Combiner مقایسه می کنیم که مدل CIR را بر روی Fashion-IQ یا CIRR آموزش می دهد.
هدف ما این است که دامنه تصویر پرس و جو ورودی را به دامنه ای که با متن توضیح داده شده است تبدیل کنیم، به عنوان مثال، اوریگامی. |
همانطور که در شکل زیر نشان داده شده است، رویکرد پیشنهادی ما با یک حاشیه بزرگ بهتر از خطوط پایه است.
نتایج (Recal@10، به عنوان مثال، درصد موارد مربوطه در 10 تصویر اول بازیابی شده.) در مورد بازیابی تصویر ترکیبی برای تبدیل دامنه. |
ترکیب ویژگی مد
سپس، ترکیب ویژگیهای مد، مانند رنگ پارچه، لوگو و طول آستین را با استفاده از مجموعه داده Fashion-IQ ارزیابی میکنیم. شکل زیر خروجی مورد نظر با توجه به پرس و جو را نشان می دهد.
مروری بر CIR برای ویژگی های مد. |
در شکل زیر، مقایسه ای با خطوط پایه، از جمله خطوط پایه نظارت شده ارائه می کنیم که از سه قلوها برای آموزش مدل CIR استفاده می کنند: (i) CB از معماری مشابه رویکرد ما استفاده می کند، (ii) CIRPLANT، ALTEMIS، MAAF از ستون فقرات کوچکتری استفاده می کنند، مانند به عنوان ResNet50. مقایسه با این رویکردها به ما این درک را می دهد که رویکرد صفر شات ما در این کار چقدر خوب عمل می کند.
اگرچه CB از رویکرد ما بهتر عمل می کند، روش ما بهتر از خطوط پایه نظارت شده با ستون فقرات کوچکتر عمل می کند. این نتیجه نشان میدهد که با استفاده از یک مدل CLIP قوی، میتوانیم یک مدل CIR بسیار مؤثر را بدون نیاز به سهقلوهای حاشیهنویسی آموزش دهیم.
نتایج (Recal@10، به عنوان مثال، درصد موارد مرتبط در 10 تصویر اول بازیابی شده.) در بازیابی تصویر ترکیبی برای مجموعه داده Fashion-IQ (بالاتر بهتر است). نوارهای آبی روشن مدل را با استفاده از سه قلو آموزش می دهند. توجه داشته باشید که رویکرد ما با این خطوط پایه نظارت شده با ستون فقرات کم عمق (کوچکتر) عمل می کند. |
نتایج کیفی
چندین نمونه را در شکل زیر نشان می دهیم. در مقایسه با یک روش پایه که به دادههای آموزشی نظارت شده (میانگین کردن ویژگی متن + تصویر) نیاز ندارد، رویکرد ما کار بهتری برای بازیابی صحیح تصویر هدف انجام میدهد.
نتایج کیفی بر روی تصاویر پرس و جوی متنوع و توضیحات متن. |
نتیجه گیری و کار آینده
در این مقاله به معرفی Pic2Word، روشی برای نگاشت تصاویر به کلمات برای ZS-CIR می پردازیم. ما پیشنهاد می کنیم که تصویر را به یک نشانه کلمه تبدیل کنیم تا به یک مدل CIR فقط با استفاده از مجموعه داده تصویر-کپشن دست یابیم. از طریق انواع آزمایشها، ما اثربخشی مدل آموزشدیده را بر وظایف مختلف CIR تأیید میکنیم، که نشان میدهد آموزش روی یک مجموعه داده تصویری میتواند یک مدل CIR قدرتمند بسازد. یکی از جهتگیریهای بالقوه تحقیقات آینده، استفاده از دادههای عنوان برای آموزش شبکه نقشهبرداری است، اگرچه ما فقط از دادههای تصویری در کار حاضر استفاده میکنیم.
سپاسگزاریها
این تحقیق توسط Kuniaki Saito، Kihyuk Sohn، Xiang Zhang، Chun-Liang Li، Chen-Yu Lee، Kate Saenko و Tomas Pfister انجام شد. همچنین از Zizhao Zhang و Sergey Ioffe برای بازخورد ارزشمندشان تشکر می کنم.