DreamLLM چیست؟ هر آنچه که باید در مورد چارچوب یادگیری بدانید

چکیده و 1 مقدمه

2 پیشینه و بیان مسئله

2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟

3 DreamLLM

3.1 پیش‌آموزش مولد میان‌لایه‌ای انتها به انتها (I-GPT)

3.2 آموزش مدل

4 آزمایش و 4.1 درک چندوجهی

4.2 سنتز تصویر مشروط متن

4.3 ایجاد و درک مشترک چندوجهی

5 بحث

5.1 هم افزایی بین خلق و درک؟

5. 2 چه چیزی توسط DreamLLM آموخته شده است؟

6 آثار مرتبط

7 نتیجه گیری و مراجع

آزمایش های اضافی

ب مثالهای کیفی اضافی

ج جزئیات پیاده سازی

D آثار مرتبط اضافی

E محدودیت ها، موارد شکست و کارهای آینده

چکیده

این مقاله DREAMLLM را ارائه می‌کند، یک چارچوب یادگیری که برای اولین بار به مدل‌های زبان بزرگ چندوجهی (MLLM) که با هم افزایی اغلب نادیده گرفته شده بین درک چندوجهی و ایجاد قدرت می‌رسد، دست می‌یابد. DREAMLLM بر اساس دو اصل اساسی عمل می کند.

اولین مورد بر مدل‌سازی مولد زبان و تصویر پسین با نمونه‌برداری مستقیم در فضای چندوجهی خام متمرکز است. این رویکرد محدودیت‌ها و از دست دادن اطلاعات ذاتی استخراج‌کننده‌های ویژگی خارجی مانند CLIP را دور می‌زند و درک چندوجهی کامل‌تری به دست می‌آید.

دوم، DREAMLLM تولید محصولات خام،…

Source link