جدول پیوندها
چکیده و 1 مقدمه
2 پیشینه و بیان مسئله
2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟
3 DreamLLM
3.1 پیشآموزش مولد میانلایهای انتها به انتها (I-GPT)
3.2 آموزش مدل
4 آزمایش و 4.1 درک چندوجهی
4.2 سنتز تصویر مشروط متن
4.3 ایجاد و درک مشترک چندوجهی
5 بحث
5.1 هم افزایی بین خلق و درک؟
5. 2 چه چیزی توسط DreamLLM آموخته شده است؟
6 آثار مرتبط
7 نتیجه گیری و مراجع
آزمایش های اضافی
ب مثالهای کیفی اضافی
ج جزئیات پیاده سازی
D آثار مرتبط اضافی
E محدودیت ها، موارد شکست و کارهای آینده
5 بحث
5.1 هم افزایی بین ایجاد و درک؟
برای روشن کردن هم افزایی بین ایجاد چندوجهی و درک مطلب، ما بین سه روش با معماری DREAMLLM مقایسه میکنیم، که هر کدام از دادههای آموزشی یکسان استفاده میکنند و در عین حال در اهداف یادگیری خود متفاوت هستند: الف) خط پایه فقط ایجاد، که صرفاً بر روی متن / تصویر مشروط سند متمرکز است. سنتز ب) خط پایه فقط درک مطلب که منحصراً به تولید کلمه اختصاص داده شده است. ج) روش یادگیری مشترک، که تنظیمات پیشفرض DREAMLLM برای یادگیری مدلسازی تصویر و زبان است.
تحلیل کیفی در شکل 4، ما پاسخ ها را با برخی از … مقایسه می کنیم.