The Model Training DreamLLM Underwen: Its Origin Story

نویسندگان:

(1) Runpei Dong، دانشگاه Xi’an Jiaotong و کارآموزی در MEGVII.

(2) چونروی هان، فناوری MEGVII.

(3) یوانگ پنگ، دانشگاه Tsinghua و کارآموزی در MEGVII.

(4) زکون چی، دانشگاه شیان جیائوتنگ و کارآموزی در MEGVII.

(5) ژنگ جنرال الکتریک، فناوری MEGVII.

(6) Jinrong Yang، HUST و کارآموزی در MEGVII.

(7) لیانگ ژائو، فناوری MEGVII.

(8) Jianjian Sun، فناوری MEGVII.

(9) هونگیو ژو، فناوری MEGVII.

(10) هاوران وی، فناوری MEGVII.

(11) Xiangwen Kong، MEGVII Technology;

(12) Xiangyu Zhang، فناوری MEGVII و رهبر پروژه.

(13) Kaisheng Ma، دانشگاه Tsinghua و نویسنده مسئول.

(14) لی یی، دانشگاه Tsinghua، نویسنده مسئول و رهبر پروژه.

چکیده و 1 مقدمه

2 پیشینه و بیان مسئله

2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟

3 DreamLLM

3.1 پیش‌آموزش مولد میان‌لایه‌ای انتها به انتها (I-GPT)

3.2 آموزش مدل

4 آزمایش و 4.1 درک چندوجهی

4.2 سنتز تصویر مشروط متن

4.3 ایجاد و درک مشترک چندوجهی

5 بحث

5.1 هم افزایی بین خلق و درک؟

5. 2 چه چیزی توسط DreamLLM آموخته شده است؟

6 آثار مرتبط

7 نتیجه گیری و مراجع

آزمایش های اضافی

ب مثالهای کیفی اضافی

سی…

Source link