جدول پیوندها
چکیده و 1 مقدمه
2. کارهای مرتبط
3. روش و 3.1. استراتژی هدایت ترکیبی
3.2. رسیدگی به هویت های چندگانه
3.3. آموزش
4. آزمایشات
4.1. جزئیات پیاده سازی
4.2. نتایج
5. نتیجه گیری و مراجع
4. آزمایشات
4.1. جزئیات پیاده سازی
رمزگذار بینایی مورد استفاده در شاخه مشروط تصویر مدل ما، سه مدل CLIP را ترکیب می کند [40] انواع با ستون فقرات مختلف اینها عبارتند از: CLIP-ViT-L/14، CLIP-RN101، و CLIP-ViT-B/32. خروجیهای این مدلها برای تولید خروجی نهایی رمزگذار بینایی ما به هم متصل میشوند. رویکرد ما در درجه اول از پیکربندی DDPM استفاده می کند [20] همانطور که در StableDiffusion توضیح داده شده است [42] برای آموزش به طور خاص، ما در مجموع 1000 مرحله حذف نویز را وارد کردیم. برای مرحله استنتاج، از نمونهگر EulerA استفاده میکنیم [2] و تنظیم کنید تا بیش از 25 مرحله زمانی کار کند. برای هماهنگی با روش آموزشی راهنمایی بدون طبقهبندی [19]، ما تنوع را با حذف تصادفی جاسازی های شرطی مربوط به تصاویر سبک و تصاویر چهره معرفی کردیم. به طور خاص، احتمال حذف این تعبیهها برای تصاویر سبک 0.64 و برای تصاویر چهره 0.1 تعیین شد.
مجموعه داده اولیه مورد استفاده برای آموزش FFHQ بود [25]، که مجموعه داده تصویر چهره شامل 70000 تصویر است. برای افزایش …