جدول پیوندها
چکیده و 1 مقدمه
2 پیشینه و بیان مسئله
2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟
3 DreamLLM
3.1 پیشآموزش مولد میانلایهای انتها به انتها (I-GPT)
3.2 آموزش مدل
4 آزمایش و 4.1 درک چندوجهی
4.2 سنتز تصویر مشروط متن
4.3 ایجاد و درک مشترک چندوجهی
5 بحث
5.1 هم افزایی بین خلق و درک؟
5. 2 چه چیزی توسط DreamLLM آموخته شده است؟
6 آثار مرتبط
7 نتیجه گیری و مراجع
آزمایش های اضافی
ب مثالهای کیفی اضافی
ج جزئیات پیاده سازی
D آثار مرتبط اضافی
E محدودیت ها، موارد شکست و کارهای آینده
پیشرفت های سریعی در گسترش LLM ها مانند LLaMA (Touvron et al., 2023a) به درک چندوجهی که تعامل انسان را با کلمات و محتوای بصری امکان پذیر می کند، مشاهده شده است. یک خط کار با یکپارچهسازی سیستمهای LLM با عوامل مختلف کارکردی ایجاد میشود که در آن زبان به عنوان رابط عمومی عمل میکند (Wu et al., 2023؛ Gupta & Kembhavi, 2023; Yang et al., 2023b; Liang et al., 2023; Shen. و همکاران، 2023؛ یانگ و همکاران، 2023 a و همکاران، 2023)، و موفقیت قابل توجهی در چنین چارچوب هایی به سبک پلاگین نشان داده شده است. خط دیگری از کار در عوض به بررسی آموزش LLM ها برای مصرف و درک ورودی های چندوجهی می پردازد (Hao et al., 2022; Huang et…