DreamLLM: درک و خلق چندوجهی هم افزایی: سنتز تصویر مشروط متن

چکیده و 1 مقدمه

2 پیشینه و بیان مسئله

2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟

3 DreamLLM

3.1 پیش‌آموزش مولد میان‌لایه‌ای انتها به انتها (I-GPT)

3.2 آموزش مدل

4 آزمایش و 4.1 درک چندوجهی

4.2 سنتز تصویر مشروط متن

4.3 ایجاد و درک مشترک چندوجهی

5 بحث

5.1 هم افزایی بین خلق و درک؟

5. 2 چه چیزی توسط DreamLLM آموخته شده است؟

6 آثار مرتبط

7 نتیجه گیری و مراجع

آزمایش های اضافی

ب مثالهای کیفی اضافی

ج جزئیات پیاده سازی

D آثار مرتبط اضافی

E محدودیت ها، موارد شکست و کارهای آینده

4.2 سنتز تصویر مشروط متن

سنتز تصویر مشروط متن یکی از متداول‌ترین تکنیک‌های مورد استفاده برای تولید محتوای خلاقانه است که تخیل شگفت‌انگیز انسان را از طریق زبان‌های آزاد دنبال می‌کند.

ما سنتز تصویر مشروط متن را بر روی مجموعه اعتبارسنجی MS-COCO (Lin et al., 2014) و LN-COCO، زیرمجموعه COCO از روایت های محلی (PontTuset et al., 2020)، به دنبال کارهای قبلی (Xu et al.) ارزیابی می کنیم. ، 2018؛ یو و همکاران، 2022b).

مجموعه داده MS-COCO عمدتاً شامل انتزاعات تصویری سطح بالا با زیرنویس‌های کوتاه‌تر است، در حالی که LN-COCO توضیحات تصویر جامع‌تری ارائه می‌دهد (Yu et al., 2022b). DREAMLLM…

Source link