جدول پیوندها
چکیده و 1 مقدمه
2 پیشینه و بیان مسئله
2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟
3 DreamLLM
3.1 پیشآموزش مولد میانلایهای انتها به انتها (I-GPT)
3.2 آموزش مدل
4 آزمایش و 4.1 درک چندوجهی
4.2 سنتز تصویر مشروط متن
4.3 ایجاد و درک مشترک چندوجهی
5 بحث
5.1 هم افزایی بین خلق و درک؟
5. 2 چه چیزی توسط DreamLLM آموخته شده است؟
6 آثار مرتبط
7 نتیجه گیری و مراجع
آزمایش های اضافی
ب مثالهای کیفی اضافی
ج جزئیات پیاده سازی
D آثار مرتبط اضافی
E محدودیت ها، موارد شکست و کارهای آینده
4.2 سنتز تصویر مشروط متن
سنتز تصویر مشروط متن یکی از متداولترین تکنیکهای مورد استفاده برای تولید محتوای خلاقانه است که تخیل شگفتانگیز انسان را از طریق زبانهای آزاد دنبال میکند.
ما سنتز تصویر مشروط متن را بر روی مجموعه اعتبارسنجی MS-COCO (Lin et al., 2014) و LN-COCO، زیرمجموعه COCO از روایت های محلی (PontTuset et al., 2020)، به دنبال کارهای قبلی (Xu et al.) ارزیابی می کنیم. ، 2018؛ یو و همکاران، 2022b).
مجموعه داده MS-COCO عمدتاً شامل انتزاعات تصویری سطح بالا با زیرنویسهای کوتاهتر است، در حالی که LN-COCO توضیحات تصویر جامعتری ارائه میدهد (Yu et al., 2022b). DREAMLLM…