نویسندگان:
(1) Runpei Dong، دانشگاه Xi’an Jiaotong و کارآموزی در MEGVII.
(2) چونروی هان، فناوری MEGVII.
(3) یوانگ پنگ، دانشگاه Tsinghua و کارآموزی در MEGVII.
(4) زکون چی، دانشگاه شیان جیائوتنگ و کارآموزی در MEGVII.
(5) ژنگ جنرال الکتریک، فناوری MEGVII.
(6) Jinrong Yang، HUST و کارآموزی در MEGVII.
(7) لیانگ ژائو، فناوری MEGVII.
(8) Jianjian Sun، فناوری MEGVII.
(9) هونگیو ژو، فناوری MEGVII.
(10) هاوران وی، فناوری MEGVII.
(11) Xiangwen Kong، MEGVII Technology;
(12) Xiangyu Zhang، فناوری MEGVII و رهبر پروژه.
(13) Kaisheng Ma، دانشگاه Tsinghua و نویسنده مسئول.
(14) لی یی، دانشگاه Tsinghua، نویسنده مسئول و رهبر پروژه.
جدول پیوندها
چکیده و 1 مقدمه
2 پیشینه و بیان مسئله
2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟
3 DreamLLM
3.1 پیشآموزش مولد میانلایهای انتها به انتها (I-GPT)
3.2 آموزش مدل
4 آزمایش و 4.1 درک چندوجهی
4.2 سنتز تصویر مشروط متن
4.3 ایجاد و درک مشترک چندوجهی
5 بحث
5.1 هم افزایی بین خلق و درک؟
5. 2 چه چیزی توسط DreamLLM آموخته شده است؟
6 آثار مرتبط
7 نتیجه گیری و مراجع
آزمایش های اضافی
ب مثالهای کیفی اضافی
سی…