جدول پیوندها
چکیده و 1 مقدمه
2 پیشینه و بیان مسئله
2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟
3 DreamLLM
3.1 پیشآموزش مولد میانلایهای انتها به انتها (I-GPT)
3.2 آموزش مدل
4 آزمایش و 4.1 درک چندوجهی
4.2 سنتز تصویر مشروط متن
4.3 ایجاد و درک مشترک چندوجهی
5 بحث
5.1 هم افزایی بین خلق و درک؟
5. 2 چه چیزی توسط DreamLLM آموخته شده است؟
6 آثار مرتبط
7 نتیجه گیری و مراجع
\ A آزمایش های اضافی
B مثالهای کیفی اضافی
ج جزئیات پیاده سازی
D آثار مرتبط اضافی
E محدودیت ها، موارد شکست و کارهای آینده
2 پیشینه و بیان مشکل
\
:::info این مقاله در arxiv تحت مجوز CC BY-NC-ND 4.0 DEED موجود است.
:::
:::اطلاعات
نویسندگان:
(1) Runpei Dong، دانشگاه Xi’an Jiaotong و کارآموزی در MEGVII.
(2) چونروی هان، فناوری MEGVII.
(3) یوانگ پنگ، دانشگاه Tsinghua و کارآموزی در MEGVII.
(4) زکون چی، دانشگاه شیان جیائوتنگ و کارآموزی در MEGVII.
(5) ژنگ جنرال الکتریک، فناوری MEGVII.
(6) Jinrong Yang، HUST و کارآموزی در MEGVII.
(7) لیانگ ژائو، فناوری MEGVII.
(8) Jianjian Sun، فناوری MEGVII.
(9) هونگیو ژو، فناوری MEGVII.
(10) هاوران وی، فناوری MEGVII.
(11) Xiangwen Kong، MEGVII…