جدول پیوندها
چکیده و 1 مقدمه
2 پیشینه و بیان مسئله
2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟
3 DreamLLM
3.1 پیشآموزش مولد میانلایهای انتها به انتها (I-GPT)
3.2 آموزش مدل
4 آزمایش و 4.1 درک چندوجهی
4.2 سنتز تصویر مشروط متن
4.3 ایجاد و درک مشترک چندوجهی
5 بحث
5.1 هم افزایی بین خلق و درک؟
5. 2 چه چیزی توسط DreamLLM آموخته شده است؟
6 آثار مرتبط
7 نتیجه گیری و مراجع
آزمایش های اضافی
ب مثالهای کیفی اضافی
ج جزئیات پیاده سازی
D آثار مرتبط اضافی
E محدودیت ها، موارد شکست و کارهای آینده
ب مثالهای کیفی اضافی
سنتز تصویر با شرایط متن در شکل 10 و شکل 11، نمونه های تصویر DREAMLLM را با استفاده از همان دستورات کارهای قبلی برای ارجاع و مقایسه متقابل نشان می دهیم، از جمله DALL-E (رامش و همکاران، 2021)، DALL-E 2 (یعنی، unCLIP) (رامش و همکاران، 2022)، گلاید (نیکول و همکاران، 2022)، ایمیجن (سحاریا) و همکاران، 2022)، و Parti (Yu et al., 2022b). مشابه Parti، ما برخی از دستورات را با اعلانهای فرعی جدید برای ساختن نمونههای بیشتر از اعلانهای مختلف گسترش دادهایم.
گفتگوی چندوجهی در جداول 9 و 10، ما یک تجزیه و تحلیل مقایسه ای از نتایج پاسخگویی به سوالات بصری بین …