مقیاس بندی زبان-آموزش تصویر در بیش از 100 زبان

مدل‌های زبان پیشرفته (به عنوان مثال، GPT، GLaM، PaLM و T5) قابلیت‌های متنوعی را نشان داده‌اند و با افزایش تعداد پارامترهای خود، به نتایج چشمگیری در سراسر وظایف و زبان‌ها دست یافته‌اند. مدل‌های زبان بینایی (VL) می‌توانند از مقیاس‌بندی مشابه برای رسیدگی به بسیاری از وظایف، مانند نوشتن شرح تصاویر، پاسخ‌گویی به سؤالات بصری (VQA)، تشخیص اشیا، و تشخیص نویسه‌های نوری در متن (OCR) بهره ببرند. افزایش نرخ موفقیت برای این وظایف عملی برای تعاملات و کاربردهای روزمره مهم است. علاوه بر این، برای یک سیستم واقعاً جهانی، مدل‌های زبان بینایی باید بتوانند در بسیاری از زبان‌ها کار کنند، نه فقط یک زبان.

در “PaLI: یک مدل زبان-تصویر چند زبانه با مقیاس مشترک”، ما یک مدل تصویر- زبان یکپارچه را معرفی می کنیم که برای انجام بسیاری از وظایف و در بیش از 100 زبان آموزش دیده است. این کارها بینایی، زبان و تصویر و زبان چندوجهی را شامل می‌شود، مانند پاسخ‌گویی به سؤالات بصری، شرح تصاویر، تشخیص اشیا، طبقه‌بندی تصویر، OCR، استدلال متن و موارد دیگر. علاوه بر این، ما از مجموعه‌ای از تصاویر عمومی استفاده می‌کنیم که شامل حاشیه‌نویسی‌های جمع‌آوری‌شده خودکار به ۱۰۹ زبان است که آن را مجموعه داده WebLI می‌نامیم. مدل PaLI که در WebLI از قبل آموزش داده شده است، به عملکردی پیشرفته در معیارهای چالش برانگیز تصویر و زبان، مانند COCO-Captions، CC3M، nocaps، TextCaps، VQAv2، OK-VQA، TextVQA و غیره دست می یابد. همچنین از معیارهای زیرنویس بصری چند زبانه و معیارهای پاسخگویی به سوالات بصری مدل های قبلی بهتر عمل می کند.

بررسی اجمالی
یکی از اهداف این پروژه بررسی نحوه تعامل مدل های زبان و بینایی در مقیاس و به طور خاص مقیاس پذیری مدل های تصویر- زبان است. ما هم مقیاس بندی هر روش و هم برهمکنش های متقابل مقیاس بندی حاصل را بررسی می کنیم. ما بزرگترین مدل خود را با 17 میلیارد (17B) پارامتر آموزش می دهیم، که در آن مولفه بصری تا پارامترهای 4B و مدل زبان تا 13B مقیاس شده است.

معماری مدل PaLI ساده، قابل استفاده مجدد و مقیاس پذیر است. این شامل یک رمزگذار ترانسفورماتور است که متن ورودی را پردازش می کند، و یک رمزگشای ترانسفورماتور رگرسیون خودکار که متن خروجی را تولید می کند. برای پردازش تصاویر، ورودی رمزگذار Transformer همچنین شامل “کلمات بصری” است که تصویر پردازش شده توسط Vision Transformer (ViT) را نشان می دهد. یکی از مؤلفه‌های کلیدی مدل PaLI استفاده مجدد است، که در آن مدل را با وزن‌هایی از بینش و مدل‌های زبانی که قبلاً آموزش دیده‌اند، مانند mT5-XXL و ViT‌های بزرگ می‌دانیم. این استفاده مجدد نه تنها انتقال قابلیت ها را از آموزش تک وجهی امکان پذیر می کند، بلکه در هزینه محاسباتی نیز صرفه جویی می کند.

مدل PaLI طیف وسیعی از وظایف را در حوزه زبان-تصویر، زبان فقط و فقط تصویر با استفاده از API یکسان (مثلاً پاسخگویی به سؤالات تصویری، شرح تصویر، درک صحنه-متن، و غیره) مورد بررسی قرار می‌دهد. این مدل برای پشتیبانی از بیش از 100 زبان آموزش دیده است و برای انجام وظایف چند زبانه-تصویر به صورت چند زبانه تنظیم شده است.

مجموعه داده: درک زبان-تصویر در بیش از 100 زبان
مطالعات مقیاس‌بندی برای یادگیری عمیق نشان می‌دهد که مدل‌های بزرگتر برای آموزش مؤثر به مجموعه داده‌های بزرگ‌تری نیاز دارند. برای باز کردن پتانسیل پیش‌آموزش زبان-تصویر، WebLI را ایجاد می‌کنیم، یک مجموعه داده تصویری چند زبانه که از تصاویر و متن موجود در وب عمومی ساخته شده است.

WebLI زبان متن را از مجموعه داده‌های فقط انگلیسی به 109 زبان افزایش می‌دهد، که به ما امکان می‌دهد کارهای پایین‌دستی را در بسیاری از زبان‌ها انجام دهیم. فرآیند جمع‌آوری داده‌ها شبیه به آنچه در سایر مجموعه‌های داده به کار می‌رود، مانند ALIGN و LiT است، و ما را قادر می‌سازد مجموعه داده WebLI را به 10 میلیارد تصویر و 12 میلیارد متن جایگزین مقیاس کنیم.

علاوه بر حاشیه نویسی با متن وب، ما از Cloud Vision API برای انجام OCR روی تصاویر استفاده می کنیم که منجر به 29 میلیارد جفت تصویر-OCR می شود. ما تقریباً تکراری تصاویر را در برابر قطار انجام می‌دهیم، اعتبارسنجی و تقسیم‌بندی آزمایشی 68 مجموعه داده مشترک بینایی و زبان بینایی را انجام می‌دهیم تا از نشت داده‌ها از وظایف ارزیابی پایین‌دست، همانطور که در ادبیات استاندارد است، جلوگیری کنیم. برای بهبود بیشتر کیفیت داده‌ها، جفت‌های تصویر و متن جایگزین را بر اساس شباهت متقاطع آنها امتیاز می‌دهیم و آستانه را طوری تنظیم می‌کنیم که تنها 10٪ از تصاویر را حفظ کند، در مجموع 1 میلیارد تصویر برای آموزش PaLI استفاده می‌شود.

تصاویر نمونه از WebLI مرتبط با متن جایگزین چند زبانه و OCR. تصویر دوم توسط jopradier (اصلی) است که تحت مجوز CC BY-NC-SA 2.0 استفاده شده است. از تصاویر باقی مانده نیز با اجازه استفاده می شود.
آمار زبان های شناخته شده از متن جایگزین و OCR در WebLI.
تعداد جفت تصویر-متن WebLI و سایر مجموعه داده های زبان بینایی در مقیاس بزرگ، CLIP، ALIGN و LiT.

آموزش مدل های بزرگ زبان-تصویر
وظایف زبان بینایی به قابلیت های متفاوتی نیاز دارند و گاهی اوقات اهداف متفاوتی دارند. برخی از وظایف ذاتاً به محلی سازی اشیا برای حل دقیق کار نیاز دارند، در حالی که برخی از وظایف دیگر ممکن است به نمای کلی تری نیاز داشته باشند. به طور مشابه، وظایف مختلف ممکن است به پاسخ های طولانی یا فشرده نیاز داشته باشند. برای پرداختن به همه این اهداف، ما از غنای داده‌های پیش‌آموزشی WebLI استفاده می‌کنیم و ترکیبی از وظایف پیش‌آموزشی را معرفی می‌کنیم که مدل را برای انواع برنامه‌های پایین دستی آماده می‌کند. برای دستیابی به هدف حل طیف گسترده ای از وظایف، ما اشتراک دانش بین چندین تصویر و وظایف زبان را با ریختن همه کارها در یک API تعمیم یافته (ورودی: تصویر + متن؛ خروجی: متن) که با تنظیم پیش تمرین اهدافی که برای پیش‌آموزش استفاده می‌شوند، در همان API به‌عنوان یک مخلوط وزن‌دار با هدف حفظ توانایی اجزای مدل استفاده‌شده مجدد و آموزش مدل برای انجام وظایف جدید (مثلاً تقسیم‌نویسی برای توصیف تصویر، پیش‌بینی OCR برای صحنه) ریخته می‌شوند. -درک متن، پیش بینی VQG و VQA).

این مدل در JAX با Flax با استفاده از چارچوب متن باز T5X و Flaxformer آموزش داده شده است. برای بخش بصری، ما یک معماری بزرگ ViT، به نام ViT-e، با پارامترهای 4B را با استفاده از چارچوب منبع باز BigVision معرفی و آموزش می‌دهیم. ViT-e از همان دستور معماری ViT-G پیروی می کند (که دارای پارامترهای 2B است). برای مؤلفه زبان، جاسازی‌های توکن متراکم را با تعبیه‌های پچ تولید شده توسط مؤلفه بصری، به عنوان ورودی رمزگذار-رمزگشا چندوجهی، که از mT5-XXL مقداردهی اولیه می‌شود، به هم پیوند می‌دهیم. در طول تمرین PaLI، وزن‌های این جزء بصری منجمد می‌شوند و فقط وزن‌های رمزگشا-رمزگر چندوجهی به‌روز می‌شوند.

نتایج
ما PaLI را در معیارهای رایج زبان بینایی که متنوع و چالش برانگیز هستند مقایسه می کنیم. مدل PaLI به نتایج پیشرفته‌ای در این وظایف دست می‌یابد، حتی بهتر از مدل‌های بسیار بزرگ در ادبیات. به عنوان مثال، در چندین کار VQA و زیرنویس تصویر از مدل فلامینگو که چندین برابر بزرگتر است (پارامترهای 80B) عملکرد بهتری دارد و همچنین عملکرد چالش برانگیز فقط زبان و فقط بینایی را که آموزش اصلی نبودند، حفظ می کند. هدف، واقعگرایانه.

PaLI (پارامترهای 17B) از روش‌های پیشرفته (از جمله SimVLM، CoCa، GIT2، Flamingo، BEiT3) در چندین وظایف بینایی و زبانی بهتر عمل می‌کند. در این نمودار تفاوت امتیاز مطلق را در مقایسه با بهترین مدل قبلی نشان می‌دهیم تا پیشرفت‌های نسبی PaLI را برجسته کنیم. در صورت وجود، مقایسه در تقسیمات آزمایشی رسمی انجام می شود. امتیاز CIDEr برای ارزیابی وظایف زیرنویس تصویر استفاده می شود، در حالی که وظایف VQA با دقت VQA ارزیابی می شود.

نتایج مقیاس بندی مدل
ما بررسی می‌کنیم که چگونه اجزای مدل تصویر و زبان با یکدیگر با توجه به مقیاس‌بندی مدل و جایی که مدل بیشترین سود را به همراه دارد، تعامل دارند. نتیجه می گیریم که مقیاس بندی هر دو جزء به طور مشترک بهترین عملکرد را به همراه دارد، و به طور خاص، مقیاس بندی جزء بصری، که به پارامترهای نسبتا کمی نیاز دارد، بسیار ضروری است. مقیاس بندی نیز برای عملکرد بهتر در کارهای چند زبانه حیاتی است.

مقیاس بندی هر دو زبان و اجزای بصری مدل PaLI به بهبود عملکرد کمک می کند. نمودار تفاوت امتیازات را در مقایسه با مدل PaLI-3B نشان می دهد: امتیاز CIDEr برای ارزیابی وظایف شرح تصویر استفاده می شود، در حالی که وظایف VQA با دقت VQA ارزیابی می شود.
زیرنویس چند زبانه از مقیاس بندی مدل های PaLI بسیار سود می برد. ما PaLI را بر روی یک معیار 35 زبانی Crossmodal-3600 ارزیابی می کنیم. در اینجا میانگین امتیاز هر 35 زبان و نمره فردی هفت زبان مختلف را ارائه می کنیم.

درون نگری مدل: انصاف مدل، تعصبات، و سایر مسائل بالقوه
برای جلوگیری از ایجاد یا تقویت تعصب ناعادلانه در مدل‌های بزرگ زبان و تصویر، اولین گام‌های مهم عبارتند از: (1) شفاف بودن در مورد داده‌های استفاده‌شده و نحوه استفاده مدل از آن داده‌ها، و (2) آزمایش برای عادلانه بودن مدل و انجام داده‌های مسئولانه. تجزیه و تحلیل برای آدرس (1)، مقاله ما شامل یک کارت داده و کارت مدل است. برای پرداختن به (2)، این مقاله شامل نتایج تجزیه و تحلیل جمعیت شناختی مجموعه داده است. ما این را اولین گام می‌دانیم و می‌دانیم که همچنان که مدل خود را برای کارهای جدید و در راستای اصول هوش مصنوعی خود اعمال می‌کنیم، همچنان به اندازه‌گیری و کاهش تعصبات بالقوه اهمیت دارد.

نتیجه
ما PaLI را ارائه کردیم، یک مدل چند وجهی و چند زبانه مقیاس‌پذیر که برای حل انواع وظایف بینایی-زبان طراحی شده است. ما عملکرد بهبود یافته را در بین وظایف بصری، زبانی و زبان بینایی نشان می دهیم. کار ما اهمیت مقیاس را در بخش بصری و زبانی مدل و تعامل بین این دو را نشان می‌دهد. ما می بینیم که انجام وظایف بینایی و زبان، به ویژه در چندین زبان، در واقع به مدل ها و داده های مقیاس بزرگ نیاز دارد و به طور بالقوه از مقیاس بندی بیشتر سود خواهد برد. امیدواریم این کار الهام‌بخش تحقیقات بیشتر در مدل‌های چند وجهی و چند زبانه باشد.

سپاسگزاریها
ما از همه نویسندگانی که این تحقیق را انجام دادند: Soravit (Beer) Changpinyo، AJ Piergiovanni، Piotr Padlewski، Daniel Salz، Sebastian Goodman، Adam Grycner، Basil Mustafa، Lucas Beyer، Alexander Kolesnikov، Joan Puigcerver، Nan Ding، Keran Rong، Hassan سپاسگزاریم. اکبری گاوراو میشرا، لینتینگ ژو، آشیش تاپلیال، جیمز بردبری، ویچنگ کو، مجتبی سیدحسینی، چائو جیا، بورکو کاراگول آیان، کارلوس ریکلمه، آندریاس اشتاینر، آنلیا آنجلوا، شیائوهوا ژای، نیل هولزبی، رادو سوریچوت. همچنین از کلر کوی، اسلاو پتروف، تانیا بدراکس ویس، جوئل بارال، تام دوریگ، پل ناتسف، فرناندو پریرا، جف دین، جرمیا هارمسن، زوبین قهرمانی، اریکا موریرا، ویکتور گومز، سارا لازلو، کتی مایر هلسترن، سوسان تشکر می کنیم. ریکو، ریچ لی، آستین تارانگو، امیلی دنتون، بو پانگ، وی لی، جیهیونگ کیل، تومر لوینبویم، جولین آملوت، ژنهای ژو، ژیانگینگ چن، لیانگ چن، فیلیپ پاوتیک، دانیل کیزرز، ماتیاس میندرر، جوسیپ جولابادولنگا دهقانی، یی تای، الیزابت ادکیسون، جیمز کاکریل، اریک نی، آنا دیویس و میثم مسلم برای پیشنهادات، بهبودها و حمایت هایشان. ما از تام اسمال برای ارائه تصاویری برای پست وبلاگ تشکر می کنیم.