چگونه DreamLLM یک تصویر را با “اراده آزاد” خود تولید می کند

چکیده و 1 مقدمه

2 پیشینه و بیان مسئله

2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟

3 DreamLLM

3.1 پیش‌آموزش مولد میان‌لایه‌ای انتها به انتها (I-GPT)

3.2 آموزش مدل

4 آزمایش و 4.1 درک چندوجهی

4.2 سنتز تصویر مشروط متن

4.3 ایجاد و درک مشترک چندوجهی

5 بحث

5.1 هم افزایی بین خلق و درک؟

5. 2 چه چیزی توسط DreamLLM آموخته شده است؟

6 آثار مرتبط

7 نتیجه گیری و مراجع

آزمایش های اضافی

ب مثالهای کیفی اضافی

ج جزئیات پیاده سازی

D آثار مرتبط اضافی

E محدودیت ها، موارد شکست و کارهای آینده

3.1 پیش‌آموزش مولد انتها به انتها (I-GPT)

تمام اسناد طبیعی را می توان به عنوان حامل اطلاعات متن-تصویر درهم آمیخته در نظر گرفت. از سوی دیگر، داده‌های جفت فقط متن، فقط تصاویر و متن-تصویر را می‌توان به‌عنوان موارد خاصی از پیکره‌های درهم‌پیچیده با ترکیب‌بندی‌های مدالیته متفاوت مشاهده کرد. بنابراین، توانمندسازی مدل با قابلیت یادگیری و تولید اسناد در هم آمیخته با فرم آزاد که همه توزیع‌های ممکن را تشکیل می‌دهند، بسیار مهم است.

یادگیری ساختاری بهم پیوسته برای مدل‌سازی ساختار درهم، توالی درهم با گسترش یک نشانه ویژه جدید قبل از تصاویر عمل می‌کند. در حین تمرین، …

Source link