پیش آموزش زبان بصری تقویت شده بازیابی – وبلاگ هوش مصنوعی گوگل

مدل‌های مقیاس بزرگ، مانند T5، GPT-3، PaLM، Flamingo و PaLI، توانایی ذخیره مقادیر قابل‌توجهی از دانش را در مقیاس ده‌ها میلیارد پارامتر و آموزش بر روی مجموعه داده‌های متنی و تصویری بزرگ نشان داده‌اند. این مدل‌ها به نتایج پیشرفته‌ای در کارهای پایین دستی، مانند نوشتن شرح تصاویر، پاسخ‌گویی به سؤالات بصری و تشخیص واژگان باز دست می‌یابند. علی‌رغم چنین دستاوردهایی، این مدل‌ها به حجم عظیمی از داده‌ها برای آموزش نیاز دارند و در نهایت با تعداد زیادی پارامتر (میلیاردها در بسیاری از موارد)، در نتیجه نیازمندی‌های محاسباتی قابل توجهی هستند. علاوه بر این، داده‌های مورد استفاده برای آموزش این مدل‌ها ممکن است قدیمی شوند و هر بار که دانش جهان به‌روزرسانی می‌شود، نیاز به آموزش مجدد است. به عنوان مثال، مدلی که فقط دو سال پیش آموزش دیده است ممکن است اطلاعات قدیمی درباره رئیس جمهور فعلی ایالات متحده به دست دهد.

در زمینه‌های پردازش زبان طبیعی (RETRO، REALM) و بینایی کامپیوتری (KAT)، محققان تلاش کرده‌اند با استفاده از مدل‌های تقویت‌شده بازیابی به این چالش‌ها بپردازند. به طور معمول، این مدل‌ها از یک ستون فقرات استفاده می‌کنند که قادر به پردازش یک مدالیت واحد در یک زمان است، به عنوان مثال، فقط متن یا فقط تصاویر، برای رمزگذاری و بازیابی اطلاعات از یک مجموعه دانش. با این حال، این مدل‌های تقویت‌شده با بازیابی نمی‌توانند از تمام روش‌های موجود در مجموعه‌های پرس و جو و دانش استفاده کنند و ممکن است اطلاعاتی را که برای تولید خروجی مدل مفیدتر است، پیدا نکنند.

برای پرداختن به این مسائل، در “REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory” که در CVPR 2023 ظاهر می شود، یک مدل زبان بصری را معرفی می کنیم که یاد می گیرد از یک چند منبع چند منبعی استفاده کند. “حافظه” معین برای پاسخگویی به سوالات دانش فشرده. REVEAL از یادگیری بازنمایی عصبی برای رمزگذاری و تبدیل منابع دانش متنوع به یک ساختار حافظه متشکل از جفت‌های کلید-مقدار استفاده می‌کند. کلیدها به عنوان شاخص برای آیتم های حافظه عمل می کنند، در حالی که مقادیر مربوطه اطلاعات مربوط به آن موارد را ذخیره می کنند. در طول آموزش، REVEAL جاسازی‌های کلیدی، نشانه‌های ارزش، و توانایی بازیابی اطلاعات از این حافظه را برای رسیدگی به پرسش‌های دانش‌برانگیز می‌آموزد. این رویکرد به پارامترهای مدل اجازه می دهد تا بر استدلال در مورد پرس و جو تمرکز کنند، نه اینکه به حفظ کردن اختصاص داده شوند.

ما یک مدل زبان بصری را با توانایی بازیابی چندین ورودی دانش از مجموعه متنوعی از منابع دانش، که به تولید کمک می‌کند، تقویت می‌کنیم.

ساخت حافظه از مجموعه دانش چندوجهی

رویکرد ما شبیه به REALM است که در آن جاسازی‌های کلید و ارزش آیتم‌های دانش را از منابع مختلف از قبل محاسبه می‌کنیم و آنها را در یک حافظه دانش یکپارچه فهرست‌بندی می‌کنیم، جایی که هر آیتم دانش در یک جفت کلید-مقدار کدگذاری می‌شود. هر کلید یک است د-بردار تعبیه بعدی، در حالی که هر مقدار دنباله ای از جاسازی های نشانه است که آیتم دانش را با جزئیات بیشتری نشان می دهد. برخلاف کارهای قبلی، REVEAL از مجموعه متنوعی از مجموعه‌های دانش چندوجهی، از جمله نمودار دانش ویکی داده، متن‌ها و تصاویر ویکی‌پدیا، جفت‌های تصویر-متن وب و داده‌های پاسخ‌دهی به سؤالات بصری استفاده می‌کند. هر آیتم دانش می تواند متن، یک تصویر، ترکیبی از هر دو (مثلاً صفحات در ویکی پدیا) یا یک رابطه یا ویژگی از یک نمودار دانش باشد (به عنوان مثال، قد باراک اوباما 6′ 2 اینچ است). در طول آموزش، ما به طور مداوم کلید حافظه و مقدار جاسازی شده را با به روز شدن پارامترهای مدل دوباره محاسبه می کنیم. ما حافظه را به صورت ناهمزمان در هر هزار مرحله آموزشی به روز می کنیم.

مقیاس بندی حافظه با استفاده از فشرده سازی

یک راه حل ساده برای رمزگذاری یک مقدار حافظه این است که کل دنباله توکن ها را برای هر آیتم دانش حفظ کنیم. سپس، مدل می‌تواند پرس و جوی ورودی و مقادیر حافظه top-k بازیابی شده را با الحاق تمام نشانه‌های آن‌ها به یکدیگر و تغذیه آن‌ها به خط لوله رمزگذار-رمزگشای ترانسفورماتور ترکیب کند. این رویکرد دارای دو موضوع است: (1) ذخیره صدها میلیون آیتم دانش در حافظه غیرعملی است اگر هر مقدار حافظه متشکل از صدها نشانه باشد و (2) رمزگذار ترانسفورماتور دارای پیچیدگی درجه دوم نسبت به تعداد کل توکن‌ها است. ک برای توجه به خود بنابراین، ما پیشنهاد می کنیم از معماری Perceiver برای رمزگذاری و فشرده سازی آیتم های دانش استفاده کنیم. مدل Perceiver از رمزگشای ترانسفورماتور استفاده می کند تا توالی توکن کامل را به طول دلخواه فشرده کند. این به ما امکان می دهد تا بالا را بازیابی کنیمک ورودی های حافظه برای ک به اندازه صد

شکل زیر روند ساخت جفت های کلید-مقدار حافظه را نشان می دهد. هر آیتم دانشی از طریق یک رمزگذار زبان بصری چند وجهی پردازش می‌شود، که در نتیجه دنباله‌ای از نشانه‌های تصویر و متن ایجاد می‌شود. سپس سر کلید این توکن ها را به یک بردار جاسازی فشرده تبدیل می کند. سر ارزش (درک کننده) این نشانه ها را به تعداد کمتری متراکم می کند و اطلاعات مربوط به مورد دانش را در آنها حفظ می کند.

ما ورودی‌های دانش از مجموعه‌های مختلف را در جفت‌های یکپارچه تعبیه‌کننده کلید و ارزش رمزگذاری می‌کنیم، جایی که کلیدها برای فهرست کردن حافظه استفاده می‌شوند و مقادیر حاوی اطلاعاتی درباره ورودی‌ها هستند.

پیش آموزش در مقیاس بزرگ در جفت تصویر-متن

برای آموزش مدل REVEAL، ما با مجموعه ای در مقیاس بزرگ، جمع آوری شده از وب عمومی با سه میلیارد جفت عنوان متن جایگزین تصویر، که در LiT معرفی شده اند، شروع می کنیم. از آنجایی که مجموعه داده پر سر و صدا است، فیلتری برای حذف نقاط داده با زیرنویس‌های کوتاه‌تر از 50 کاراکتر اضافه می‌کنیم که تقریباً 1.3 میلیارد جفت شرح تصویر به دست می‌دهد. سپس این جفت ها را با هدف تولید متن مورد استفاده در SimVLM ترکیب می کنیم تا REVEAL را آموزش دهیم. با توجه به یک مثال تصویر-متن، به طور تصادفی از یک پیشوند حاوی چند نشانه اول متن نمونه برداری می کنیم. پیشوند متن و تصویر را به عنوان ورودی با هدف تولید بقیه متن به عنوان خروجی به مدل می‌دهیم. هدف آموزش، شرطی کردن پیشوند و تولید خودکار توالی متن باقی مانده است.

برای آموزش تمام اجزای مدل REVEAL از انتها به انتها، باید مدل را به حالت خوب گرم کنیم (مقادیر اولیه را برای پارامترهای مدل تنظیم کنیم). در غیر این صورت، اگر بخواهیم با وزنه‌های تصادفی (شروع سرد) شروع کنیم، بازیابی اغلب موارد حافظه نامربوط را که هرگز سیگنال‌های آموزشی مفیدی تولید نمی‌کنند، برمی‌گرداند. برای جلوگیری از این مشکل شروع سرد، ما یک مجموعه داده بازیابی اولیه با دانش شبه-واقعی درست می‌کنیم تا به پیش‌آموزش یک شروع منطقی بدهیم.

ما یک نسخه اصلاح شده از مجموعه داده WIT را برای این منظور ایجاد می کنیم. هر جفت تصویر-کپشن در WIT همچنین با یک متن مربوط به ویکی‌پدیا (کلمات پیرامون متن) همراه است. ما قسمت اطراف را با تصویر پرس و جو کنار هم می گذاریم و از آن به عنوان دانش شبه حقیقت پایه که با پرس و جو ورودی مطابقت دارد استفاده می کنیم. این قسمت اطلاعات غنی در مورد تصویر و عنوان ارائه می دهد که برای مقداردهی اولیه مدل مفید است.

برای جلوگیری از اتکای مدل به ویژگی‌های تصویر سطح پایین برای بازیابی، افزایش تصادفی داده‌ها را به تصویر درخواست ورودی اعمال می‌کنیم. با توجه به این مجموعه داده اصلاح شده که حاوی حقیقت پایه شبه بازیابی است، جاسازی‌های کلید پرس و جو و حافظه را برای شروع گرم کردن مدل آموزش می‌دهیم.

REVEAL گردش کار

گردش کار کلی REVEAL از چهار مرحله اولیه تشکیل شده است. اول، REVEAL یک ورودی چندوجهی را به دنباله ای از جاسازی های نشانه همراه با یک پرس و جو فشرده کدگذاری می کند. سپس، مدل هر ورودی دانش چند منبعی را به جفت‌های یکپارچه از جاسازی‌های کلید و ارزش ترجمه می‌کند، با کلید برای نمایه‌سازی حافظه و مقداری که کل اطلاعات مربوط به ورودی را در بر می‌گیرد. در مرحله بعد، REVEAL بالا را بازیابی می کندک بیشتر قطعات دانش مرتبط از چندین منبع دانش، جاسازی های ارزش از پیش پردازش شده ذخیره شده در حافظه را برمی گرداند و مقادیر را مجدداً رمزگذاری می کند. در نهایت، REVEAL بالا را فیوز می کندک قطعات دانش از طریق یک لایه آمیختگی دانش دقیق با تزریق امتیاز بازیابی (محصول نقطه‌ای بین پرس و جو و جاسازی‌های کلید) به عنوان پیش از محاسبه توجه. این ساختار در توانمندسازی حافظه، رمزگذار، رتریور و ژنراتور برای آموزش همزمان به صورت سرتاسر بسیار مفید است.

گردش کار کلی REVEAL.

نتایج

ما REVEAL را با استفاده از مجموعه داده‌های OK-VQA و A-OKVQA بر روی وظایف پاسخ‌گویی به سؤالات بصری مبتنی بر دانش ارزیابی می‌کنیم. ما مدل از پیش آموزش‌دیده خود را روی وظایف VQA با استفاده از همان هدف مولد تنظیم می‌کنیم که در آن مدل یک جفت تصویر-سوال را به عنوان ورودی می‌گیرد و پاسخ متن را به عنوان خروجی تولید می‌کند. ما نشان می‌دهیم که REVEAL نتایج بهتری را در مجموعه داده‌های A-OKVQA نسبت به تلاش‌های قبلی که دانش ثابت یا آثاری را که از مدل‌های زبان بزرگ (مثلا GPT-3) به عنوان منبع ضمنی دانش استفاده می‌کنند، به دست می‌آورد.

نتایج پاسخگویی به سوال تصویری در A-OKVQA. REVEAL در مقایسه با کارهای قبلی از جمله ViLBERT، LXMERT، ClipCap، KRISP و GPV-2 به دقت بالاتری دست می یابد.

ما همچنین REVEAL را با استفاده از مجموعه داده‌های MSCOCO و NoCaps بر روی معیارهای شرح تصویر ارزیابی می‌کنیم. ما مستقیماً REVEAL را بر روی تقسیم آموزشی MSCOCO از طریق هدف مولد متقابل آنتروپی تنظیم می کنیم. ما عملکرد خود را در تقسیم آزمون MSCOCO و مجموعه ارزیابی NoCaps با استفاده از متریک CIDER اندازه‌گیری می‌کنیم، که مبتنی بر این ایده است که شرح‌های خوب باید از نظر انتخاب کلمه، دستور زبان، معنا و محتوا شبیه به شرح‌های مرجع باشند. نتایج ما در مورد مجموعه داده‌های عنوان MSCOCO و NoCaps در زیر نشان داده شده است.

نتایج زیرنویس تصویر در MSCOCO و NoCaps با استفاده از متریک CIDER. REVEAL در مقایسه با Flamingo، VinVL، SimVLM و CoCa به امتیاز بالاتری دست می یابد.

در زیر چند نمونه کیفی از نحوه بازیابی اسناد مرتبط با REVEAL برای پاسخ به سؤالات بصری را نشان می دهیم.

REVEAL می تواند از دانش منابع مختلف برای پاسخ صحیح به سؤال استفاده کند.

نتیجه

ما یک مدل زبان بصری تقویت‌شده با بازیابی سرتاسر (REVEAL) ارائه می‌کنیم که حاوی یک بازیابی دانش است که یاد می‌گیرد از مجموعه متنوعی از منابع دانش با روش‌های مختلف استفاده کند. ما REVEAL را بر روی یک مجموعه تصویر-متن عظیم با چهار مجموعه دانش متنوع آموزش می‌دهیم و به نتایج پیشرفته‌ای در پاسخگویی به سؤالات بصری دانش فشرده و وظایف شرح تصویر دست می‌یابیم. در آینده می‌خواهیم توانایی این مدل برای اسناد را بررسی کنیم و آن را برای کلاس وسیع‌تری از وظایف چندوجهی به کار ببریم.

سپاسگزاریها

این تحقیق توسط Ziniu Hu، Ahmet Iscen، Chen Sun، Zirui Wang، Kai-Wei Chang، Yizhou Sun، Cordelia Schmid، David A. Ross و علیرضا فتحی انجام شده است.

سئو PBN | خبر های جدید سئو و هک و سرور