استفاده از MLLM برای سنتز انتشار که هر دو طرف را هم افزایی می کند: این چگونه ممکن است؟

چکیده و 1 مقدمه

2 پیشینه و بیان مسئله

2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟

3 DreamLLM

3.1 پیش‌آموزش مولد میان‌لایه‌ای انتها به انتها (I-GPT)

3.2 آموزش مدل

4 آزمایش و 4.1 درک چندوجهی

4.2 سنتز تصویر مشروط متن

4.3 ایجاد و درک مشترک چندوجهی

5 بحث

5.1 هم افزایی بین خلق و درک؟

5. 2 چه چیزی توسط DreamLLM آموخته شده است؟

6 آثار مرتبط

7 نتیجه گیری و مراجع

آزمایش های اضافی

ب مثالهای کیفی اضافی

ج جزئیات پیاده سازی

D آثار مرتبط اضافی

E محدودیت ها، موارد شکست و کارهای آینده

2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟

سیگنال‌های چندوجهی معمولاً اطلاعات خاص مدالیته را نشان می‌دهند که ساختار متمایز اما معنایی مکمل دارند (دونگ و همکاران، 2023). این ویژگی مکمل به ما اجازه می دهد تا از درک عمیق زبان برای بهبود تولید تصویر متقابل استفاده کنیم (سحاریا و همکاران، 2022). با این حال، پتانسیل ایجاد چندوجهی برای بهبود درک، تا حد زیادی ناشناخته باقی مانده است.

هدف یادگیری هدف ما استفاده از MLLM ها برای مدل سازی توزیع ها از طریق نمونه برداری از فضای پیکسلی مستقیم است. در اینجا، SD از پیش آموزش دیده به عنوان یک معیار امتیاز عمل می کند، و تقطیر …

Source link