نویسندگان:
(1) Xian Liu، Snap Inc.، CUHK با کارهای انجام شده در طول دوره کارآموزی در Snap Inc.
(2) جیان رن، شرکت اسنپ با نویسنده مسئول: [email protected];
(3) Aliaksandr Siarohin، Snap Inc.
(4) ایوان اسکوروخودوف، شرکت اسنپ؛
(5) Yanyu Li، Snap Inc.
(6) داهوا لین، CUHK؛
(7) Xihui Liu، HKU;
(8) Ziwei Liu، NTU;
(9) سرگئی تولیاکوف، شرکت اسنپ.
جدول پیوندها
چکیده و 1 مقدمه
2 کارهای مرتبط
3 رویکرد ما و 3.1 مقدمات و تنظیم مشکل
3.2 مدل نفوذ ساختاری پنهان
3.3 پالایشگر هدایت شده ساختار
4 مجموعه داده انسان آیه
5 آزمایش
5.1 نتایج اصلی
5.2 مطالعه فرسایش
6 بحث و مراجع
یک ضمیمه و A.1 نتایج کمی اضافی
A.2 جزئیات بیشتر پیاده سازی و A.3 نتایج بیشتر مطالعه Ablation
A.4 جزئیات بیشتر مطالعه کاربر
الف.5 تأثیر استحکام بذر و مدل تصادفی و تأثیر مرزی الف.6 و ملاحظات اخلاقی
A.7 نتایج مقایسه بیشتر و A.8 نتایج کیفی اضافی
A.9 مجوزها
مدل های انتشار متن به تصویر تولید متن به تصویر (T2I)، تلاش برای ترکیب تصاویر با کیفیت بالا از توصیفات زبان طبیعی، در سالهای اخیر پیشرفتهای چشمگیری داشته است. مدلهای T2I مبتنی بر انتشار با مقیاسپذیری عالی و آموزش پایدار متمایز شدهاند، GANهای معمولی را از نظر عملکرد تحت الشعاع قرار دادهاند.