مدلهای زبان پیشرفته (به عنوان مثال، GPT، GLaM، PaLM و T5) قابلیتهای متنوعی را نشان دادهاند و با افزایش تعداد پارامترهای خود، به نتایج چشمگیری در سراسر وظایف و زبانها دست یافتهاند. مدلهای زبان بینایی (VL) میتوانند از مقیاسبندی مشابه برای رسیدگی به بسیاری از وظایف، مانند نوشتن شرح تصاویر، پاسخگویی به سؤالات بصری (VQA)، تشخیص اشیا، و تشخیص نویسههای نوری در متن (OCR) بهره ببرند. افزایش نرخ موفقیت برای این وظایف عملی برای تعاملات و کاربردهای روزمره مهم است. علاوه بر این، برای یک سیستم واقعاً جهانی، مدلهای زبان بینایی باید بتوانند در بسیاری از زبانها کار کنند، نه فقط یک زبان.
در “PaLI: یک مدل زبان-تصویر چند زبانه با مقیاس مشترک”، ما یک مدل تصویر- زبان یکپارچه را معرفی می کنیم که برای انجام بسیاری از وظایف و در بیش از 100 زبان آموزش دیده است. این کارها بینایی، زبان و تصویر و زبان چندوجهی را شامل میشود، مانند پاسخگویی به سؤالات بصری، شرح تصاویر، تشخیص اشیا، طبقهبندی تصویر، OCR، استدلال متن و موارد دیگر. علاوه بر این، ما از مجموعهای از تصاویر عمومی استفاده میکنیم که شامل حاشیهنویسیهای جمعآوریشده خودکار به ۱۰۹ زبان است که آن را مجموعه داده WebLI مینامیم. مدل PaLI که در WebLI از قبل آموزش داده شده است، به عملکردی پیشرفته در معیارهای چالش برانگیز تصویر و زبان، مانند COCO-Captions، CC3M، nocaps، TextCaps، VQAv2، OK-VQA، TextVQA و غیره دست می یابد. همچنین از معیارهای زیرنویس بصری چند زبانه و معیارهای پاسخگویی به سوالات بصری مدل های قبلی بهتر عمل می کند.
بررسی اجمالی
یکی از اهداف این پروژه بررسی نحوه تعامل مدل های زبان و بینایی در مقیاس و به طور خاص مقیاس پذیری مدل های تصویر- زبان است. ما هم مقیاس بندی هر روش و هم برهمکنش های متقابل مقیاس بندی حاصل را بررسی می کنیم. ما بزرگترین مدل خود را با 17 میلیارد (17B) پارامتر آموزش می دهیم، که در آن مولفه بصری تا پارامترهای 4B و مدل زبان تا 13B مقیاس شده است.
معماری مدل PaLI ساده، قابل استفاده مجدد و مقیاس پذیر است. این شامل یک رمزگذار ترانسفورماتور است که متن ورودی را پردازش می کند، و یک رمزگشای ترانسفورماتور رگرسیون خودکار که متن خروجی را تولید می کند. برای پردازش تصاویر، ورودی رمزگذار Transformer همچنین شامل “کلمات بصری” است که تصویر پردازش شده توسط Vision Transformer (ViT) را نشان می دهد. یکی از مؤلفههای کلیدی مدل PaLI استفاده مجدد است، که در آن مدل را با وزنهایی از بینش و مدلهای زبانی که قبلاً آموزش دیدهاند، مانند mT5-XXL و ViTهای بزرگ میدانیم. این استفاده مجدد نه تنها انتقال قابلیت ها را از آموزش تک وجهی امکان پذیر می کند، بلکه در هزینه محاسباتی نیز صرفه جویی می کند.
![]() |
مدل PaLI طیف وسیعی از وظایف را در حوزه زبان-تصویر، زبان فقط و فقط تصویر با استفاده از API یکسان (مثلاً پاسخگویی به سؤالات تصویری، شرح تصویر، درک صحنه-متن، و غیره) مورد بررسی قرار میدهد. این مدل برای پشتیبانی از بیش از 100 زبان آموزش دیده است و برای انجام وظایف چند زبانه-تصویر به صورت چند زبانه تنظیم شده است. |
مجموعه داده: درک زبان-تصویر در بیش از 100 زبان
مطالعات مقیاسبندی برای یادگیری عمیق نشان میدهد که مدلهای بزرگتر برای آموزش مؤثر به مجموعه دادههای بزرگتری نیاز دارند. برای باز کردن پتانسیل پیشآموزش زبان-تصویر، WebLI را ایجاد میکنیم، یک مجموعه داده تصویری چند زبانه که از تصاویر و متن موجود در وب عمومی ساخته شده است.
WebLI زبان متن را از مجموعه دادههای فقط انگلیسی به 109 زبان افزایش میدهد، که به ما امکان میدهد کارهای پاییندستی را در بسیاری از زبانها انجام دهیم. فرآیند جمعآوری دادهها شبیه به آنچه در سایر مجموعههای داده به کار میرود، مانند ALIGN و LiT است، و ما را قادر میسازد مجموعه داده WebLI را به 10 میلیارد تصویر و 12 میلیارد متن جایگزین مقیاس کنیم.
علاوه بر حاشیه نویسی با متن وب، ما از Cloud Vision API برای انجام OCR روی تصاویر استفاده می کنیم که منجر به 29 میلیارد جفت تصویر-OCR می شود. ما تقریباً تکراری تصاویر را در برابر قطار انجام میدهیم، اعتبارسنجی و تقسیمبندی آزمایشی 68 مجموعه داده مشترک بینایی و زبان بینایی را انجام میدهیم تا از نشت دادهها از وظایف ارزیابی پاییندست، همانطور که در ادبیات استاندارد است، جلوگیری کنیم. برای بهبود بیشتر کیفیت دادهها، جفتهای تصویر و متن جایگزین را بر اساس شباهت متقاطع آنها امتیاز میدهیم و آستانه را طوری تنظیم میکنیم که تنها 10٪ از تصاویر را حفظ کند، در مجموع 1 میلیارد تصویر برای آموزش PaLI استفاده میشود.
![]() |
تصاویر نمونه از WebLI مرتبط با متن جایگزین چند زبانه و OCR. تصویر دوم توسط jopradier (اصلی) است که تحت مجوز CC BY-NC-SA 2.0 استفاده شده است. از تصاویر باقی مانده نیز با اجازه استفاده می شود. |
![]() |
آمار زبان های شناخته شده از متن جایگزین و OCR در WebLI. |
![]() |
تعداد جفت تصویر-متن WebLI و سایر مجموعه داده های زبان بینایی در مقیاس بزرگ، CLIP، ALIGN و LiT. |
آموزش مدل های بزرگ زبان-تصویر
وظایف زبان بینایی به قابلیت های متفاوتی نیاز دارند و گاهی اوقات اهداف متفاوتی دارند. برخی از وظایف ذاتاً به محلی سازی اشیا برای حل دقیق کار نیاز دارند، در حالی که برخی از وظایف دیگر ممکن است به نمای کلی تری نیاز داشته باشند. به طور مشابه، وظایف مختلف ممکن است به پاسخ های طولانی یا فشرده نیاز داشته باشند. برای پرداختن به همه این اهداف، ما از غنای دادههای پیشآموزشی WebLI استفاده میکنیم و ترکیبی از وظایف پیشآموزشی را معرفی میکنیم که مدل را برای انواع برنامههای پایین دستی آماده میکند. برای دستیابی به هدف حل طیف گسترده ای از وظایف، ما اشتراک دانش بین چندین تصویر و وظایف زبان را با ریختن همه کارها در یک API تعمیم یافته (ورودی: تصویر + متن؛ خروجی: متن) که با تنظیم پیش تمرین اهدافی که برای پیشآموزش استفاده میشوند، در همان API بهعنوان یک مخلوط وزندار با هدف حفظ توانایی اجزای مدل استفادهشده مجدد و آموزش مدل برای انجام وظایف جدید (مثلاً تقسیمنویسی برای توصیف تصویر، پیشبینی OCR برای صحنه) ریخته میشوند. -درک متن، پیش بینی VQG و VQA).
این مدل در JAX با Flax با استفاده از چارچوب متن باز T5X و Flaxformer آموزش داده شده است. برای بخش بصری، ما یک معماری بزرگ ViT، به نام ViT-e، با پارامترهای 4B را با استفاده از چارچوب منبع باز BigVision معرفی و آموزش میدهیم. ViT-e از همان دستور معماری ViT-G پیروی می کند (که دارای پارامترهای 2B است). برای مؤلفه زبان، جاسازیهای توکن متراکم را با تعبیههای پچ تولید شده توسط مؤلفه بصری، به عنوان ورودی رمزگذار-رمزگشا چندوجهی، که از mT5-XXL مقداردهی اولیه میشود، به هم پیوند میدهیم. در طول تمرین PaLI، وزنهای این جزء بصری منجمد میشوند و فقط وزنهای رمزگشا-رمزگر چندوجهی بهروز میشوند.
نتایج
ما PaLI را در معیارهای رایج زبان بینایی که متنوع و چالش برانگیز هستند مقایسه می کنیم. مدل PaLI به نتایج پیشرفتهای در این وظایف دست مییابد، حتی بهتر از مدلهای بسیار بزرگ در ادبیات. به عنوان مثال، در چندین کار VQA و زیرنویس تصویر از مدل فلامینگو که چندین برابر بزرگتر است (پارامترهای 80B) عملکرد بهتری دارد و همچنین عملکرد چالش برانگیز فقط زبان و فقط بینایی را که آموزش اصلی نبودند، حفظ می کند. هدف، واقعگرایانه.
![]() |
PaLI (پارامترهای 17B) از روشهای پیشرفته (از جمله SimVLM، CoCa، GIT2، Flamingo، BEiT3) در چندین وظایف بینایی و زبانی بهتر عمل میکند. در این نمودار تفاوت امتیاز مطلق را در مقایسه با بهترین مدل قبلی نشان میدهیم تا پیشرفتهای نسبی PaLI را برجسته کنیم. در صورت وجود، مقایسه در تقسیمات آزمایشی رسمی انجام می شود. امتیاز CIDEr برای ارزیابی وظایف زیرنویس تصویر استفاده می شود، در حالی که وظایف VQA با دقت VQA ارزیابی می شود. |
نتایج مقیاس بندی مدل
ما بررسی میکنیم که چگونه اجزای مدل تصویر و زبان با یکدیگر با توجه به مقیاسبندی مدل و جایی که مدل بیشترین سود را به همراه دارد، تعامل دارند. نتیجه می گیریم که مقیاس بندی هر دو جزء به طور مشترک بهترین عملکرد را به همراه دارد، و به طور خاص، مقیاس بندی جزء بصری، که به پارامترهای نسبتا کمی نیاز دارد، بسیار ضروری است. مقیاس بندی نیز برای عملکرد بهتر در کارهای چند زبانه حیاتی است.
![]() |
مقیاس بندی هر دو زبان و اجزای بصری مدل PaLI به بهبود عملکرد کمک می کند. نمودار تفاوت امتیازات را در مقایسه با مدل PaLI-3B نشان می دهد: امتیاز CIDEr برای ارزیابی وظایف شرح تصویر استفاده می شود، در حالی که وظایف VQA با دقت VQA ارزیابی می شود. |
![]() |
زیرنویس چند زبانه از مقیاس بندی مدل های PaLI بسیار سود می برد. ما PaLI را بر روی یک معیار 35 زبانی Crossmodal-3600 ارزیابی می کنیم. در اینجا میانگین امتیاز هر 35 زبان و نمره فردی هفت زبان مختلف را ارائه می کنیم. |
درون نگری مدل: انصاف مدل، تعصبات، و سایر مسائل بالقوه
برای جلوگیری از ایجاد یا تقویت تعصب ناعادلانه در مدلهای بزرگ زبان و تصویر، اولین گامهای مهم عبارتند از: (1) شفاف بودن در مورد دادههای استفادهشده و نحوه استفاده مدل از آن دادهها، و (2) آزمایش برای عادلانه بودن مدل و انجام دادههای مسئولانه. تجزیه و تحلیل برای آدرس (1)، مقاله ما شامل یک کارت داده و کارت مدل است. برای پرداختن به (2)، این مقاله شامل نتایج تجزیه و تحلیل جمعیت شناختی مجموعه داده است. ما این را اولین گام میدانیم و میدانیم که همچنان که مدل خود را برای کارهای جدید و در راستای اصول هوش مصنوعی خود اعمال میکنیم، همچنان به اندازهگیری و کاهش تعصبات بالقوه اهمیت دارد.
نتیجه
ما PaLI را ارائه کردیم، یک مدل چند وجهی و چند زبانه مقیاسپذیر که برای حل انواع وظایف بینایی-زبان طراحی شده است. ما عملکرد بهبود یافته را در بین وظایف بصری، زبانی و زبان بینایی نشان می دهیم. کار ما اهمیت مقیاس را در بخش بصری و زبانی مدل و تعامل بین این دو را نشان میدهد. ما می بینیم که انجام وظایف بینایی و زبان، به ویژه در چندین زبان، در واقع به مدل ها و داده های مقیاس بزرگ نیاز دارد و به طور بالقوه از مقیاس بندی بیشتر سود خواهد برد. امیدواریم این کار الهامبخش تحقیقات بیشتر در مدلهای چند وجهی و چند زبانه باشد.
سپاسگزاریها
ما از همه نویسندگانی که این تحقیق را انجام دادند: Soravit (Beer) Changpinyo، AJ Piergiovanni، Piotr Padlewski، Daniel Salz، Sebastian Goodman، Adam Grycner، Basil Mustafa، Lucas Beyer، Alexander Kolesnikov، Joan Puigcerver، Nan Ding، Keran Rong، Hassan سپاسگزاریم. اکبری گاوراو میشرا، لینتینگ ژو، آشیش تاپلیال، جیمز بردبری، ویچنگ کو، مجتبی سیدحسینی، چائو جیا، بورکو کاراگول آیان، کارلوس ریکلمه، آندریاس اشتاینر، آنلیا آنجلوا، شیائوهوا ژای، نیل هولزبی، رادو سوریچوت. همچنین از کلر کوی، اسلاو پتروف، تانیا بدراکس ویس، جوئل بارال، تام دوریگ، پل ناتسف، فرناندو پریرا، جف دین، جرمیا هارمسن، زوبین قهرمانی، اریکا موریرا، ویکتور گومز، سارا لازلو، کتی مایر هلسترن، سوسان تشکر می کنیم. ریکو، ریچ لی، آستین تارانگو، امیلی دنتون، بو پانگ، وی لی، جیهیونگ کیل، تومر لوینبویم، جولین آملوت، ژنهای ژو، ژیانگینگ چن، لیانگ چن، فیلیپ پاوتیک، دانیل کیزرز، ماتیاس میندرر، جوسیپ جولابادولنگا دهقانی، یی تای، الیزابت ادکیسون، جیمز کاکریل، اریک نی، آنا دیویس و میثم مسلم برای پیشنهادات، بهبودها و حمایت هایشان. ما از تام اسمال برای ارائه تصاویری برای پست وبلاگ تشکر می کنیم.