DreamLLM: جزئیات اجرای حیاتی | HackerNoon

چکیده و 1 مقدمه

2 پیشینه و بیان مسئله

2.1 چگونه می توانیم از MLLM برای سنتز انتشار استفاده کنیم که هر دو طرف را هم افزایی می کند؟

3 DreamLLM

3.1 پیش‌آموزش مولد میان‌لایه‌ای انتها به انتها (I-GPT)

3.2 آموزش مدل

4 آزمایش و 4.1 درک چندوجهی

4.2 سنتز تصویر مشروط متن

4.3 ایجاد و درک مشترک چندوجهی

5 بحث

5.1 هم افزایی بین خلق و درک؟

5. 2 چه چیزی توسط DreamLLM آموخته شده است؟

6 آثار مرتبط

7 نتیجه گیری و مراجع

آزمایش های اضافی

ب مثالهای کیفی اضافی

ج جزئیات پیاده سازی

D آثار مرتبط اضافی

E محدودیت ها، موارد شکست و کارهای آینده

C جزئیات پیاده سازی

C.1 داده های آموزشی و هایپرپارامترها

در جدول 11، استفاده از مجموعه داده آموزشی و پارامترهای فوق را فهرست می کنیم. داده های آموزشی بر اساس مجموعه داده های زیر ساخته شده اند: الف) LAION400M (Schuhmann و همکاران، 2021)، ب) LAIONCOCO (Schuhmann و همکاران، 2023)، ج) MMC4 (Zhu و همکاران، 2023b)، د) BLIP -LAION (Li et al., 2022) که توسط BLIP فیلتر شده و زیرنویس شده است (لی و همکاران، 2022)، ه) LLaVAPretrain (لیو و همکاران، 2023a) که

جدول 9: پرسش تصویری پاسخگویی به عنوان مثال مقایسه DREAMLLM با LLaVA (Liu et al., 2023a)، GPT-4 (OpenAI, 2023)، BLIP-2 (Li et al., 2023b)، و OpenFlamingo (Awadalla et al., 2023b). این قالب جدول از OpenAI (2023) پیروی می کند.جدول 9: پرسش تصویری پاسخگویی به عنوان مثال مقایسه DREAMLLM با LLaVA (Liu et al., 2023a)، GPT-4 (OpenAI, 2023)، BLIP-2 (Li et al., 2023b)، و OpenFlamingo (Awadalla et al., 2023b). این قالب جدول از OpenAI (2023) پیروی می کند.

جدول 10: پرسش تصویری پاسخگویی به عنوان مثال مقایسه DREAMLLM با LLaVA (Liu و همکاران، 2023a)، GPT-4 (OpenAI، 2023)، BLIP-2 (Li و همکاران، 2023b)، و OpenFlamingo (Awadalla و همکاران، 2023b). این قالب جدول از OpenAI (2023) پیروی می کند.جدول 10: پرسش تصویری پاسخگویی به عنوان مثال مقایسه DREAMLLM با LLaVA (Liu و همکاران، 2023a)، GPT-4 (OpenAI، 2023)، BLIP-2 (Li و همکاران، 2023b)، و OpenFlamingo (Awadalla و همکاران، 2023b). این قالب جدول از OpenAI (2023) پیروی می کند.

جدول 11: دستور العمل های آموزشی برای DREAMLLM. سه مرحله آموزش در بخش 3.2 معرفی شده است. مرحله I: آموزش هم ترازی، مرحله دوم: پیش تمرین I-GPT، مرحله III: تنظیم دقیق تحت نظارت.جدول 11: دستور العمل های آموزشی برای DREAMLLM. سه مرحله آموزش در بخش 3.2 معرفی شده است. مرحله I: آموزش هم ترازی، مرحله دوم: پیش تمرین I-GPT، مرحله III: تنظیم دقیق تحت نظارت.

حاوی 558 هزار جفت تصویر-متن از CC3M با عنوان BLIP (Sharma et al., 2018)، SBU (Ordonez et al., 2011) و LAION400M فیلتر شده توسط LLaVA، f) LLaVAInstruct (Liu et al., 2023a)، که. ..

Source link