جدول پیوندها
چکیده و 1 مقدمه
2 پیشینه و بیان مسئله
2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟
3 DreamLLM
3.1 پیشآموزش مولد میانلایهای انتها به انتها (I-GPT)
3.2 آموزش مدل
4 آزمایش و 4.1 درک چندوجهی
4.2 سنتز تصویر مشروط متن
4.3 ایجاد و درک مشترک چندوجهی
5 بحث
5.1 هم افزایی بین خلق و درک؟
5. 2 چه چیزی توسط DreamLLM آموخته شده است؟
6 آثار مرتبط
7 نتیجه گیری و مراجع
آزمایش های اضافی
ب مثالهای کیفی اضافی
ج جزئیات پیاده سازی
D آثار مرتبط اضافی
E محدودیت ها، موارد شکست و کارهای آینده
چکیده
این مقاله DREAMLLM را ارائه میکند، یک چارچوب یادگیری که برای اولین بار به مدلهای زبان بزرگ چندوجهی (MLLM) که با هم افزایی اغلب نادیده گرفته شده بین درک چندوجهی و ایجاد قدرت میرسد، دست مییابد. DREAMLLM بر اساس دو اصل اساسی عمل می کند.
اولین مورد بر مدلسازی مولد زبان و تصویر پسین با نمونهبرداری مستقیم در فضای چندوجهی خام متمرکز است. این رویکرد محدودیتها و از دست دادن اطلاعات ذاتی استخراجکنندههای ویژگی خارجی مانند CLIP را دور میزند و درک چندوجهی کاملتری به دست میآید.
دوم، DREAMLLM تولید محصولات خام،…