DreamLLM: از این چارچوب جامع چه نتیجه ای می توانیم بگیریم؟

چکیده و 1 مقدمه

2 پیشینه و بیان مسئله

2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟

3 DreamLLM

3.1 پیش‌آموزش مولد میان‌لایه‌ای انتها به انتها (I-GPT)

3.2 آموزش مدل

4 آزمایش و 4.1 درک چندوجهی

4.2 سنتز تصویر مشروط متن

4.3 ایجاد و درک مشترک چندوجهی

5 بحث

5.1 هم افزایی بین خلق و درک؟

5. 2 چه چیزی توسط DreamLLM آموخته شده است؟

6 آثار مرتبط

7 نتیجه گیری و مراجع

آزمایش های اضافی

ب مثالهای کیفی اضافی

ج جزئیات پیاده سازی

D آثار مرتبط اضافی

E محدودیت ها، موارد شکست و کارهای آینده

7 نتیجه گیری

چگونه می توان هم افزایی یادگیری بین درک محتوای چندوجهی و ایجاد پدید آمد؟ در این مقاله، DREAMLLM را ارائه می‌کنیم، چارچوبی جامع برای توسعه MLLM که نه تنها محتوای چندوجهی را از طریق مدل‌های انتشار ایجاد می‌کند. از طریق تقطیر امتیاز توزیع‌های سنتز تصویر مشروط، از نیاز به اهداف بازنمایی میانی اجتناب می‌کنیم.

استفاده از اسناد به هم پیوسته، توزیع های چندوجهی را غنی تر می کند و یادگیری رمزگذاری و رمزگشایی چندوجهی را تقویت می کند. ارزیابی‌های تجربی گسترده ما در معیارهای مختلف VL نشان می‌دهد…

Source link