چه چیزی توسط DreamLLM آموخته می شود؟ پرس و جو رویا توجه

چکیده و 1 مقدمه

2 پیشینه و بیان مسئله

2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟

3 DreamLLM

3.1 پیش‌آموزش مولد میان‌لایه‌ای انتها به انتها (I-GPT)

3.2 آموزش مدل

4 آزمایش و 4.1 درک چندوجهی

4.2 سنتز تصویر مشروط متن

4.3 ایجاد و درک مشترک چندوجهی

5 بحث

5.1 هم افزایی بین خلق و درک؟

5. 2 چه چیزی توسط DreamLLM آموخته شده است؟

6 آثار مرتبط

7 نتیجه گیری و مراجع

آزمایش های اضافی

ب مثالهای کیفی اضافی

ج جزئیات پیاده سازی

D آثار مرتبط اضافی

E محدودیت ها، موارد شکست و کارهای آینده

5.2 چه چیزی توسط DREAMLLM آموخته می شود؟

پرس و جو رویا توجه در DREAMLLM، تعبیه شرطی از MLLM با برخی پرس و جوهای رویایی آموخته شده مشتق شده است. شکل 6 تجسمی از مکانیسم توجه متقاطع آموخته شده بین این پرس و جوها و پنهان انتشار را نشان می دهد. مشابه (هرتز و همکاران، 2023)، ما نقشه توجه را به طور میانگین در تمام مهرهای زمانی تجسم می کنیم. مشاهده می شود که: i) توجه پرس و جو ساختار یافته، از هم گسیخته و معناگرا است.

این با این واقعیت مشهود است که پرس و جوهای متمایز به طرز ماهرانه ای معنای موضوعات مختلف و پس زمینه را به تصویر می کشند. 2) با وجود درخواست های مختلف، الگوهای توجه …

Source link