مجموعه داده ها، انتشار و واقع گرایی: تکامل تولید تصویر انسانی

نویسندگان:

(1) Xian Liu، Snap Inc.، CUHK با کارهای انجام شده در طول دوره کارآموزی در Snap Inc.

(2) جیان رن، شرکت اسنپ با نویسنده مسئول: [email protected];

(3) Aliaksandr Siarohin، Snap Inc.

(4) ایوان اسکوروخودوف، شرکت اسنپ؛

(5) Yanyu Li، Snap Inc.

(6) داهوا لین، CUHK؛

(7) Xihui Liu، HKU;

(8) Ziwei Liu، NTU;

(9) سرگئی تولیاکوف، شرکت اسنپ.

چکیده و 1 مقدمه

2 کارهای مرتبط

3 رویکرد ما و 3.1 مقدمات و تنظیم مشکل

3.2 مدل نفوذ ساختاری پنهان

3.3 پالایشگر هدایت شده ساختار

4 مجموعه داده انسان آیه

5 آزمایش

5.1 نتایج اصلی

5.2 مطالعه فرسایش

6 بحث و مراجع

یک ضمیمه و A.1 نتایج کمی اضافی

A.2 جزئیات بیشتر پیاده سازی و A.3 نتایج بیشتر مطالعه Ablation

A.4 جزئیات بیشتر مطالعه کاربر

الف.5 تأثیر استحکام بذر و مدل تصادفی و تأثیر مرزی الف.6 و ملاحظات اخلاقی

A.7 نتایج مقایسه بیشتر و A.8 نتایج کیفی اضافی

A.9 مجوزها

مدل های انتشار متن به تصویر تولید متن به تصویر (T2I)، تلاش برای ترکیب تصاویر با کیفیت بالا از توصیفات زبان طبیعی، در سال‌های اخیر پیشرفت‌های چشمگیری داشته است. مدل‌های T2I مبتنی بر انتشار با مقیاس‌پذیری عالی و آموزش پایدار متمایز شده‌اند، GAN‌های معمولی را از نظر عملکرد تحت الشعاع قرار داده‌اند.

Source link