معرفی چالش جاسازی تصویر جهانی گوگل

مدل‌های بینایی رایانه‌ای کاربردهای روزانه‌ای را برای طیف گسترده‌ای از وظایف، از تشخیص اشیا تا بازسازی اشیاء سه‌بعدی مبتنی بر تصویر، مشاهده می‌کنند. یک نوع چالش برانگیز مشکل بینایی کامپیوتری، تشخیص سطح نمونه (ILR) است – با توجه به تصویری از یک شی، وظیفه نه تنها تعیین دسته عمومی یک شی (به عنوان مثال، یک قوس)، بلکه همچنین تعیین نمونه خاص از یک شی است. شی (“Arc de Triomphe de l’Étoile, Paris, France”).

پیش از این، ILR با استفاده از رویکردهای یادگیری عمیق مقابله می شد. ابتدا مجموعه بزرگی از تصاویر جمع آوری شد. سپس یک مدل عمیق آموزش داده شد تا هر تصویر را در فضایی با ابعاد بالا جاسازی کند که در آن تصاویر مشابه نمایش های مشابهی دارند. در نهایت، نمایش برای حل وظایف ILR مربوط به طبقه‌بندی (مثلاً با یک طبقه‌بندی کم عمق آموزش‌دیده در بالای جاسازی) یا بازیابی (مثلاً با جستجوی نزدیک‌ترین همسایه در فضای جاسازی) استفاده شد.

از آنجایی که دامنه‌های شی متفاوت زیادی در جهان وجود دارد، به عنوان مثال، نشانه‌ها، محصولات یا آثار هنری، ثبت همه آنها در یک مجموعه داده واحد و آموزش مدلی که بتواند بین آنها تمایز قائل شود، کار بسیار چالش برانگیزی است. برای کاهش پیچیدگی مشکل به سطح قابل مدیریت، تمرکز تحقیقات تاکنون بر حل ILR برای یک دامنه واحد در یک زمان بوده است. برای پیشبرد تحقیقات در این زمینه، ما میزبان مسابقات متعدد Kaggle با تمرکز بر شناسایی و بازیابی تصاویر شاخص بودیم. در سال 2020، آمازون به این تلاش پیوست و ما فراتر از دامنه شاخص حرکت کردیم و به حوزه‌های شناسایی آثار هنری و نمونه محصول گسترش یافتیم. مرحله بعدی تعمیم وظیفه ILR به چندین دامنه است.

برای این منظور، ما بسیار هیجان‌زده هستیم که چالش جاسازی تصویر جهانی Google را که توسط Kaggle با همکاری Google Research و Google Lens برگزار می‌شود، اعلام کنیم. در این چالش، از شرکت‌کنندگان می‌خواهیم که یک مدل جاسازی تصویر جهانی واحد بسازند که بتواند اشیا را از چندین دامنه در سطح نمونه نمایش دهد. ما معتقدیم که این کلید برای برنامه‌های جستجوی بصری در دنیای واقعی است، مانند افزایش نمایشگاه‌های فرهنگی در موزه، سازمان‌دهی مجموعه‌های عکس، تجارت بصری و موارد دیگر.

تصاویر1 نمونه‌های شی از برخی حوزه‌های نشان‌داده‌شده در مجموعه داده‌ها: پوشاک و لوازم جانبی، مبلمان و کالاهای خانگی، اسباب‌بازی‌ها، اتومبیل‌ها، نشانه‌ها، ظروف، آثار هنری و تصاویر.

درجات تنوع در دامنه های مختلف
برای نشان دادن اشیاء از تعداد زیادی دامنه، ما به یک مدل نیاز داریم تا بسیاری از وظایف فرعی خاص دامنه را بیاموزد (مثلاً فیلتر کردن انواع مختلف نویز یا تمرکز بر یک جزئیات خاص)، که فقط از یک مجموعه متنوع معنایی و بصری قابل یادگیری است. تصاویر. پرداختن به هر درجه از تنوع چالش جدیدی را هم برای مجموعه تصاویر و هم برای آموزش مدل پیشنهاد می کند.

اولین نوع تغییر از این واقعیت ناشی می شود که در حالی که برخی از دامنه ها حاوی اشیاء منحصر به فرد در جهان هستند (نمادهای دیدنی، آثار هنری و غیره)، برخی دیگر حاوی اشیایی هستند که ممکن است کپی های زیادی داشته باشند (لباس، مبلمان، کالاهای بسته بندی شده، غذا و غیره). از آنجا که یک نشانه همیشه در یک مکان قرار می گیرد، زمینه اطراف ممکن است برای تشخیص مفید باشد. در مقابل، یک محصول، مثلاً یک تلفن، حتی با یک مدل و رنگ خاص، ممکن است میلیون‌ها نمونه فیزیکی داشته باشد و بنابراین در بسیاری از زمینه‌های اطراف ظاهر شود.

چالش دیگر از این واقعیت ناشی می شود که ممکن است یک شی منفرد بسته به دیدگاه، شرایط نور، بسته شدن یا تغییر شکل متفاوت به نظر برسد (به عنوان مثال، لباسی که بر روی یک فرد پوشیده می شود ممکن است بسیار متفاوت از رخت آویز به نظر برسد). برای اینکه یک مدل تغییر ناپذیری را به همه این حالت‌های بصری بیاموزد، همه آنها باید توسط داده‌های آموزشی ثبت شوند.

علاوه بر این، شباهت های بین اشیا در دامنه ها متفاوت است. به عنوان مثال، برای اینکه یک نمایندگی در حوزه محصول مفید باشد، باید بتواند جزئیات بسیار ریز را بین محصولات مشابه و متعلق به دو برند مختلف تشخیص دهد. با این حال، در حوزه غذا، همان غذا (مثلاً اسپاگتی بولونیز) که توسط دو سرآشپز پخته می شود، ممکن است کاملاً متفاوت به نظر برسد، اما توانایی مدل در تشخیص اسپاگتی بولونیز از سایر غذاها ممکن است برای مفید بودن مدل کافی باشد. علاوه بر این، یک مدل بینایی با کیفیت بالا باید بازنمایی های مشابهی را به نمایش های مشابه بصری یک ظرف اختصاص دهد.

دامنه نقطه عطف پوشاک
تصویر
نام نمونه ساختمان امپایر استیت2 پیراهن دوچرخه سواری با آرم اندروید3
کدام اشیاء فیزیکی به کلاس نمونه تعلق دارند؟ یک نمونه در دنیا بسیاری از موارد فیزیکی؛ ممکن است در اندازه یا الگوی متفاوت باشد (به عنوان مثال، پارچه طرح دار به طور متفاوت بریده می شود)
نماهای ممکن از شی چیست؟ تغییرات ظاهری فقط بر اساس شرایط عکسبرداری (به عنوان مثال، نور یا دیدگاه). تعداد محدودی از نمای خارجی رایج؛ امکان بسیاری از دیدگاه های داخلی ظاهر تغییر شکل (به عنوان مثال، فرسوده یا نه)؛ تعداد محدودی از نماهای رایج: جلو، پشت، جانبی
محیط اطراف چیست و آیا برای شناخت مفید است؟ بافت اطراف به جز چرخه های روزانه و سالانه تفاوت چندانی ندارد. ممکن است برای تأیید موضوع مورد علاقه مفید باشد بافت اطراف به دلیل تفاوت در محیط، تکه های اضافی لباس، یا لوازم جانبی که تا حدی لباس مورد علاقه را مسدود می کنند (مانند ژاکت یا روسری) می تواند به شدت تغییر کند.
چه مواردی ممکن است پیچیده باشد که به کلاس نمونه تعلق ندارد؟ کپی از مکان های دیدنی (مانند برج ایفل در لاس وگاس)، سوغاتی یک تکه لباس از مواد مختلف یا رنگ های مختلف؛ قطعات بسیار مشابه بصری با جزئیات متمایز کوچک (مثلاً یک لوگوی برند کوچک). لباس های مختلف که توسط یک مدل پوشیده شده اند
تنوع بین دامنه‌ها برای نمونه‌های شاخص و پوشاک.

آموزش بازنمایی های چند دامنه ای
پس از ایجاد مجموعه ای از تصاویر که دامنه های مختلف را پوشش می دهد، چالش بعدی آموزش یک مدل واحد و جهانی است. برخی از ویژگی‌ها و وظایف، مانند نمایش رنگ، در بسیاری از دامنه‌ها مفید هستند، و بنابراین افزودن داده‌های آموزشی از هر دامنه احتمالاً به بهبود مدل در تشخیص رنگ‌ها کمک می‌کند. سایر ویژگی‌ها ممکن است مختص دامنه‌های انتخاب‌شده باشند، بنابراین افزودن داده‌های آموزشی بیشتر از سایر حوزه‌ها ممکن است عملکرد مدل را بدتر کند. برای مثال، در حالی که برای آثار هنری دوبعدی ممکن است برای مدل بسیار مفید باشد که مدل‌های مشابه را بیاموزد، این ممکن است عملکرد لباس را بدتر کند، جایی که نمونه‌های تغییر شکل یافته و مسدود شده باید شناسایی شوند.

طیف وسیعی از اشیاء ورودی ممکن و وظایفی که نیاز به یادگیری دارند، نیازمند رویکردهای جدید برای انتخاب، تقویت، تمیز کردن و وزن کردن داده های آموزشی هستند. رویکردهای جدید برای آموزش و تنظیم مدل و حتی معماری های جدید ممکن است مورد نیاز باشد.

چالش جاسازی تصویر جهانی
برای کمک به ایجاد انگیزه در جامعه تحقیقاتی برای رسیدگی به این چالش‌ها، ما میزبان چالش جاسازی تصویر جهانی Google هستیم. این چالش در ماه جولای در Kaggle راه اندازی شد و تا اکتبر باز خواهد بود و جوایز نقدی آن در مجموع 50 هزار دلار است. از تیم های برنده دعوت می شود تا روش های خود را در کارگاه تشخیص سطح نمونه در ECCV 2022 ارائه کنند.

شرکت‌کنندگان در یک کار بازیابی بر روی مجموعه داده‌ای متشکل از 5000 تصویر پرس و جو آزمایشی و 200000 تصویر شاخص ارزیابی می‌شوند که تصاویر مشابه از آن‌ها بازیابی می‌شوند. برخلاف ImageNet که شامل برچسب‌های طبقه‌بندی می‌شود، تصاویر در این مجموعه داده در سطح نمونه برچسب‌گذاری می‌شوند.

داده های ارزیابی برای چالش از تصاویر حوزه های زیر تشکیل شده است: پوشاک و لوازم جانبی، کالاهای بسته بندی شده، مبلمان و کالاهای خانگی، اسباب بازی، اتومبیل، مکان های دیدنی، ویترین فروشگاه ها، ظروف، آثار هنری، میم ها و تصاویر.

توزیع دامنه های تصاویر پرس و جو.

ما از محققان و علاقه مندان به یادگیری ماشین دعوت می کنیم در چالش جاسازی تصویر جهانی گوگل شرکت کنند و به کارگاه تشخیص سطح نمونه در ECCV 2022 بپیوندند. امیدواریم این چالش و کارگاه تکنیک های پیشرفته را در بازنمایی های چند دامنه ای ارتقا دهند. .

تصدیق
مشارکت کنندگان اصلی این پروژه آندره آرائوخو، بوریس بلونچلی، بینگی کائو، کایفنگ چن، ماریو لیپوفسکی، گرزگورز ماکوسا، مجتبی سیدحسینی و پلین دوگان شونبرگر هستند. مایلیم از Sohier Dane، Will Cukierski و Maggie Demkin برای کمک به سازماندهی چالش Kaggle، و همچنین Tobias Weyand، Bohyung Han، Shih-Fu Chang، Ondrej Chum، Torsten Sattler، Giorgos Tolias از کارگاه ECCV تشکر کنیم. زو ژانگ، نوآ گارسیا، گوانگ شینگ هان، پرادیپ ناتاراجان و سانچیانگ ژائو. علاوه بر این، از ایگور بوناچی، تام دوریگ، ویتوریو فراری، ویکتور گومز، فوتانگ پنگ و هوارد ژو که در نقاط مختلف این پروژه به ما بازخورد، ایده و حمایت دادند، سپاسگزاریم.


1 اعتبار تصویر: کریس شریر، CC-BY; پتری کرون، مجوز مستندات رایگان گنو؛ درازن نسیک، CC0; عکاس حرفه ای مارکو ورچ، CCBY; گرندلخان، CCBY; بابی میکول، CC0; ونسان ون گوگ، CC0; pxhere.com، CC0; خانه هوشمند کامل شده، CC-BY.
2 اعتبار تصویر: بابی میکول، CC0.
3 اعتبار تصویر: کریس شریر، CC-BY.