جدول پیوندها
چکیده و 1 مقدمه
2 پیشینه و بیان مسئله
2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟
3 DreamLLM
3.1 پیشآموزش مولد میانلایهای انتها به انتها (I-GPT)
3.2 آموزش مدل
4 آزمایش و 4.1 درک چندوجهی
4.2 سنتز تصویر مشروط متن
4.3 ایجاد و درک مشترک چندوجهی
5 بحث
5.1 هم افزایی بین خلق و درک؟
5. 2 چه چیزی توسط DreamLLM آموخته شده است؟
6 آثار مرتبط
7 نتیجه گیری و مراجع
آزمایش های اضافی
ب مثالهای کیفی اضافی
ج جزئیات پیاده سازی
D آثار مرتبط اضافی
E محدودیت ها، موارد شکست و کارهای آینده
5.2 چه چیزی توسط DREAMLLM آموخته می شود؟
پرس و جو رویا توجه در DREAMLLM، تعبیه شرطی از MLLM با برخی پرس و جوهای رویایی آموخته شده مشتق شده است. شکل 6 تجسمی از مکانیسم توجه متقاطع آموخته شده بین این پرس و جوها و پنهان انتشار را نشان می دهد. مشابه (هرتز و همکاران، 2023)، ما نقشه توجه را به طور میانگین در تمام مهرهای زمانی تجسم می کنیم. مشاهده می شود که: i) توجه پرس و جو ساختار یافته، از هم گسیخته و معناگرا است.
این با این واقعیت مشهود است که پرس و جوهای متمایز به طرز ماهرانه ای معنای موضوعات مختلف و پس زمینه را به تصویر می کشند. 2) با وجود درخواست های مختلف، الگوهای توجه …