جدول پیوندها
چکیده و 1 مقدمه
2 پیشینه و بیان مسئله
2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟
3 DreamLLM
3.1 پیشآموزش مولد میانلایهای انتها به انتها (I-GPT)
3.2 آموزش مدل
4 آزمایش و 4.1 درک چندوجهی
4.2 سنتز تصویر مشروط متن
4.3 ایجاد و درک مشترک چندوجهی
5 بحث
5.1 هم افزایی بین خلق و درک؟
5. 2 چه چیزی توسط DreamLLM آموخته شده است؟
6 آثار مرتبط
7 نتیجه گیری و مراجع
آزمایش های اضافی
ب مثالهای کیفی اضافی
ج جزئیات پیاده سازی
D آثار مرتبط اضافی
E محدودیت ها، موارد شکست و کارهای آینده
C جزئیات پیاده سازی
C.1 داده های آموزشی و هایپرپارامترها
در جدول 11، استفاده از مجموعه داده آموزشی و پارامترهای فوق را فهرست می کنیم. داده های آموزشی بر اساس مجموعه داده های زیر ساخته شده اند: الف) LAION400M (Schuhmann و همکاران، 2021)، ب) LAIONCOCO (Schuhmann و همکاران، 2023)، ج) MMC4 (Zhu و همکاران، 2023b)، د) BLIP -LAION (Li et al., 2022) که توسط BLIP فیلتر شده و زیرنویس شده است (لی و همکاران، 2022)، ه) LLaVAPretrain (لیو و همکاران، 2023a) که
حاوی 558 هزار جفت تصویر-متن از CC3M با عنوان BLIP (Sharma et al., 2018)، SBU (Ordonez et al., 2011) و LAION400M فیلتر شده توسط LLaVA، f) LLaVAInstruct (Liu et al., 2023a)، که. ..