مدلهای مقیاس بزرگ، مانند T5، GPT-3، PaLM، Flamingo و PaLI، توانایی ذخیره مقادیر قابلتوجهی از دانش را در مقیاس دهها میلیارد پارامتر و آموزش بر روی مجموعه دادههای متنی و تصویری بزرگ نشان دادهاند. این مدلها به نتایج پیشرفتهای در کارهای پایین دستی، مانند نوشتن شرح تصاویر، پاسخگویی به سؤالات بصری و تشخیص واژگان باز دست مییابند. علیرغم چنین دستاوردهایی، این مدلها به حجم عظیمی از دادهها برای آموزش نیاز دارند و در نهایت با تعداد زیادی پارامتر (میلیاردها در بسیاری از موارد)، در نتیجه نیازمندیهای محاسباتی قابل توجهی هستند. علاوه بر این، دادههای مورد استفاده برای آموزش این مدلها ممکن است قدیمی شوند و هر بار که دانش جهان بهروزرسانی میشود، نیاز به آموزش مجدد است. به عنوان مثال، مدلی که فقط دو سال پیش آموزش دیده است ممکن است اطلاعات قدیمی درباره رئیس جمهور فعلی ایالات متحده به دست دهد.
در زمینههای پردازش زبان طبیعی (RETRO، REALM) و بینایی کامپیوتری (KAT)، محققان تلاش کردهاند با استفاده از مدلهای تقویتشده بازیابی به این چالشها بپردازند. به طور معمول، این مدلها از یک ستون فقرات استفاده میکنند که قادر به پردازش یک مدالیت واحد در یک زمان است، به عنوان مثال، فقط متن یا فقط تصاویر، برای رمزگذاری و بازیابی اطلاعات از یک مجموعه دانش. با این حال، این مدلهای تقویتشده با بازیابی نمیتوانند از تمام روشهای موجود در مجموعههای پرس و جو و دانش استفاده کنند و ممکن است اطلاعاتی را که برای تولید خروجی مدل مفیدتر است، پیدا نکنند.
برای پرداختن به این مسائل، در “REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory” که در CVPR 2023 ظاهر می شود، یک مدل زبان بصری را معرفی می کنیم که یاد می گیرد از یک چند منبع چند منبعی استفاده کند. “حافظه” معین برای پاسخگویی به سوالات دانش فشرده. REVEAL از یادگیری بازنمایی عصبی برای رمزگذاری و تبدیل منابع دانش متنوع به یک ساختار حافظه متشکل از جفتهای کلید-مقدار استفاده میکند. کلیدها به عنوان شاخص برای آیتم های حافظه عمل می کنند، در حالی که مقادیر مربوطه اطلاعات مربوط به آن موارد را ذخیره می کنند. در طول آموزش، REVEAL جاسازیهای کلیدی، نشانههای ارزش، و توانایی بازیابی اطلاعات از این حافظه را برای رسیدگی به پرسشهای دانشبرانگیز میآموزد. این رویکرد به پارامترهای مدل اجازه می دهد تا بر استدلال در مورد پرس و جو تمرکز کنند، نه اینکه به حفظ کردن اختصاص داده شوند.
![]() |
ما یک مدل زبان بصری را با توانایی بازیابی چندین ورودی دانش از مجموعه متنوعی از منابع دانش، که به تولید کمک میکند، تقویت میکنیم. |
ساخت حافظه از مجموعه دانش چندوجهی
رویکرد ما شبیه به REALM است که در آن جاسازیهای کلید و ارزش آیتمهای دانش را از منابع مختلف از قبل محاسبه میکنیم و آنها را در یک حافظه دانش یکپارچه فهرستبندی میکنیم، جایی که هر آیتم دانش در یک جفت کلید-مقدار کدگذاری میشود. هر کلید یک است د-بردار تعبیه بعدی، در حالی که هر مقدار دنباله ای از جاسازی های نشانه است که آیتم دانش را با جزئیات بیشتری نشان می دهد. برخلاف کارهای قبلی، REVEAL از مجموعه متنوعی از مجموعههای دانش چندوجهی، از جمله نمودار دانش ویکی داده، متنها و تصاویر ویکیپدیا، جفتهای تصویر-متن وب و دادههای پاسخدهی به سؤالات بصری استفاده میکند. هر آیتم دانش می تواند متن، یک تصویر، ترکیبی از هر دو (مثلاً صفحات در ویکی پدیا) یا یک رابطه یا ویژگی از یک نمودار دانش باشد (به عنوان مثال، قد باراک اوباما 6′ 2 اینچ است). در طول آموزش، ما به طور مداوم کلید حافظه و مقدار جاسازی شده را با به روز شدن پارامترهای مدل دوباره محاسبه می کنیم. ما حافظه را به صورت ناهمزمان در هر هزار مرحله آموزشی به روز می کنیم.
مقیاس بندی حافظه با استفاده از فشرده سازی
یک راه حل ساده برای رمزگذاری یک مقدار حافظه این است که کل دنباله توکن ها را برای هر آیتم دانش حفظ کنیم. سپس، مدل میتواند پرس و جوی ورودی و مقادیر حافظه top-k بازیابی شده را با الحاق تمام نشانههای آنها به یکدیگر و تغذیه آنها به خط لوله رمزگذار-رمزگشای ترانسفورماتور ترکیب کند. این رویکرد دارای دو موضوع است: (1) ذخیره صدها میلیون آیتم دانش در حافظه غیرعملی است اگر هر مقدار حافظه متشکل از صدها نشانه باشد و (2) رمزگذار ترانسفورماتور دارای پیچیدگی درجه دوم نسبت به تعداد کل توکنها است. ک برای توجه به خود بنابراین، ما پیشنهاد می کنیم از معماری Perceiver برای رمزگذاری و فشرده سازی آیتم های دانش استفاده کنیم. مدل Perceiver از رمزگشای ترانسفورماتور استفاده می کند تا توالی توکن کامل را به طول دلخواه فشرده کند. این به ما امکان می دهد تا بالا را بازیابی کنیمک ورودی های حافظه برای ک به اندازه صد
شکل زیر روند ساخت جفت های کلید-مقدار حافظه را نشان می دهد. هر آیتم دانشی از طریق یک رمزگذار زبان بصری چند وجهی پردازش میشود، که در نتیجه دنبالهای از نشانههای تصویر و متن ایجاد میشود. سپس سر کلید این توکن ها را به یک بردار جاسازی فشرده تبدیل می کند. سر ارزش (درک کننده) این نشانه ها را به تعداد کمتری متراکم می کند و اطلاعات مربوط به مورد دانش را در آنها حفظ می کند.
![]() |
ما ورودیهای دانش از مجموعههای مختلف را در جفتهای یکپارچه تعبیهکننده کلید و ارزش رمزگذاری میکنیم، جایی که کلیدها برای فهرست کردن حافظه استفاده میشوند و مقادیر حاوی اطلاعاتی درباره ورودیها هستند. |
پیش آموزش در مقیاس بزرگ در جفت تصویر-متن
برای آموزش مدل REVEAL، ما با مجموعه ای در مقیاس بزرگ، جمع آوری شده از وب عمومی با سه میلیارد جفت عنوان متن جایگزین تصویر، که در LiT معرفی شده اند، شروع می کنیم. از آنجایی که مجموعه داده پر سر و صدا است، فیلتری برای حذف نقاط داده با زیرنویسهای کوتاهتر از 50 کاراکتر اضافه میکنیم که تقریباً 1.3 میلیارد جفت شرح تصویر به دست میدهد. سپس این جفت ها را با هدف تولید متن مورد استفاده در SimVLM ترکیب می کنیم تا REVEAL را آموزش دهیم. با توجه به یک مثال تصویر-متن، به طور تصادفی از یک پیشوند حاوی چند نشانه اول متن نمونه برداری می کنیم. پیشوند متن و تصویر را به عنوان ورودی با هدف تولید بقیه متن به عنوان خروجی به مدل میدهیم. هدف آموزش، شرطی کردن پیشوند و تولید خودکار توالی متن باقی مانده است.
برای آموزش تمام اجزای مدل REVEAL از انتها به انتها، باید مدل را به حالت خوب گرم کنیم (مقادیر اولیه را برای پارامترهای مدل تنظیم کنیم). در غیر این صورت، اگر بخواهیم با وزنههای تصادفی (شروع سرد) شروع کنیم، بازیابی اغلب موارد حافظه نامربوط را که هرگز سیگنالهای آموزشی مفیدی تولید نمیکنند، برمیگرداند. برای جلوگیری از این مشکل شروع سرد، ما یک مجموعه داده بازیابی اولیه با دانش شبه-واقعی درست میکنیم تا به پیشآموزش یک شروع منطقی بدهیم.
ما یک نسخه اصلاح شده از مجموعه داده WIT را برای این منظور ایجاد می کنیم. هر جفت تصویر-کپشن در WIT همچنین با یک متن مربوط به ویکیپدیا (کلمات پیرامون متن) همراه است. ما قسمت اطراف را با تصویر پرس و جو کنار هم می گذاریم و از آن به عنوان دانش شبه حقیقت پایه که با پرس و جو ورودی مطابقت دارد استفاده می کنیم. این قسمت اطلاعات غنی در مورد تصویر و عنوان ارائه می دهد که برای مقداردهی اولیه مدل مفید است.
برای جلوگیری از اتکای مدل به ویژگیهای تصویر سطح پایین برای بازیابی، افزایش تصادفی دادهها را به تصویر درخواست ورودی اعمال میکنیم. با توجه به این مجموعه داده اصلاح شده که حاوی حقیقت پایه شبه بازیابی است، جاسازیهای کلید پرس و جو و حافظه را برای شروع گرم کردن مدل آموزش میدهیم.
REVEAL گردش کار
گردش کار کلی REVEAL از چهار مرحله اولیه تشکیل شده است. اول، REVEAL یک ورودی چندوجهی را به دنباله ای از جاسازی های نشانه همراه با یک پرس و جو فشرده کدگذاری می کند. سپس، مدل هر ورودی دانش چند منبعی را به جفتهای یکپارچه از جاسازیهای کلید و ارزش ترجمه میکند، با کلید برای نمایهسازی حافظه و مقداری که کل اطلاعات مربوط به ورودی را در بر میگیرد. در مرحله بعد، REVEAL بالا را بازیابی می کندک بیشتر قطعات دانش مرتبط از چندین منبع دانش، جاسازی های ارزش از پیش پردازش شده ذخیره شده در حافظه را برمی گرداند و مقادیر را مجدداً رمزگذاری می کند. در نهایت، REVEAL بالا را فیوز می کندک قطعات دانش از طریق یک لایه آمیختگی دانش دقیق با تزریق امتیاز بازیابی (محصول نقطهای بین پرس و جو و جاسازیهای کلید) به عنوان پیش از محاسبه توجه. این ساختار در توانمندسازی حافظه، رمزگذار، رتریور و ژنراتور برای آموزش همزمان به صورت سرتاسر بسیار مفید است.
![]() |
گردش کار کلی REVEAL. |
نتایج
ما REVEAL را با استفاده از مجموعه دادههای OK-VQA و A-OKVQA بر روی وظایف پاسخگویی به سؤالات بصری مبتنی بر دانش ارزیابی میکنیم. ما مدل از پیش آموزشدیده خود را روی وظایف VQA با استفاده از همان هدف مولد تنظیم میکنیم که در آن مدل یک جفت تصویر-سوال را به عنوان ورودی میگیرد و پاسخ متن را به عنوان خروجی تولید میکند. ما نشان میدهیم که REVEAL نتایج بهتری را در مجموعه دادههای A-OKVQA نسبت به تلاشهای قبلی که دانش ثابت یا آثاری را که از مدلهای زبان بزرگ (مثلا GPT-3) به عنوان منبع ضمنی دانش استفاده میکنند، به دست میآورد.
![]() |
نتایج پاسخگویی به سوال تصویری در A-OKVQA. REVEAL در مقایسه با کارهای قبلی از جمله ViLBERT، LXMERT، ClipCap، KRISP و GPV-2 به دقت بالاتری دست می یابد. |
ما همچنین REVEAL را با استفاده از مجموعه دادههای MSCOCO و NoCaps بر روی معیارهای شرح تصویر ارزیابی میکنیم. ما مستقیماً REVEAL را بر روی تقسیم آموزشی MSCOCO از طریق هدف مولد متقابل آنتروپی تنظیم می کنیم. ما عملکرد خود را در تقسیم آزمون MSCOCO و مجموعه ارزیابی NoCaps با استفاده از متریک CIDER اندازهگیری میکنیم، که مبتنی بر این ایده است که شرحهای خوب باید از نظر انتخاب کلمه، دستور زبان، معنا و محتوا شبیه به شرحهای مرجع باشند. نتایج ما در مورد مجموعه دادههای عنوان MSCOCO و NoCaps در زیر نشان داده شده است.
![]() |
نتایج زیرنویس تصویر در MSCOCO و NoCaps با استفاده از متریک CIDER. REVEAL در مقایسه با Flamingo، VinVL، SimVLM و CoCa به امتیاز بالاتری دست می یابد. |
در زیر چند نمونه کیفی از نحوه بازیابی اسناد مرتبط با REVEAL برای پاسخ به سؤالات بصری را نشان می دهیم.
![]() |
REVEAL می تواند از دانش منابع مختلف برای پاسخ صحیح به سؤال استفاده کند. |
نتیجه
ما یک مدل زبان بصری تقویتشده با بازیابی سرتاسر (REVEAL) ارائه میکنیم که حاوی یک بازیابی دانش است که یاد میگیرد از مجموعه متنوعی از منابع دانش با روشهای مختلف استفاده کند. ما REVEAL را بر روی یک مجموعه تصویر-متن عظیم با چهار مجموعه دانش متنوع آموزش میدهیم و به نتایج پیشرفتهای در پاسخگویی به سؤالات بصری دانش فشرده و وظایف شرح تصویر دست مییابیم. در آینده میخواهیم توانایی این مدل برای اسناد را بررسی کنیم و آن را برای کلاس وسیعتری از وظایف چندوجهی به کار ببریم.
سپاسگزاریها
این تحقیق توسط Ziniu Hu، Ahmet Iscen، Chen Sun، Zirui Wang، Kai-Wei Chang، Yizhou Sun، Cordelia Schmid، David A. Ross و علیرضا فتحی انجام شده است.