FaceStudio: صورت خود را در همه جا در چند ثانیه قرار دهید: جزئیات پیاده سازی.

چکیده و 1 مقدمه

2. کارهای مرتبط

3. روش و 3.1. استراتژی هدایت ترکیبی

3.2. رسیدگی به هویت های چندگانه

3.3. آموزش

4. آزمایشات

4.1. جزئیات پیاده سازی

4.2. نتایج

5. نتیجه گیری و مراجع

4. آزمایشات

4.1. جزئیات پیاده سازی

رمزگذار بینایی مورد استفاده در شاخه مشروط تصویر مدل ما، سه مدل CLIP را ترکیب می کند [40] انواع با ستون فقرات مختلف اینها عبارتند از: CLIP-ViT-L/14، CLIP-RN101، و CLIP-ViT-B/32. خروجی‌های این مدل‌ها برای تولید خروجی نهایی رمزگذار بینایی ما به هم متصل می‌شوند. رویکرد ما در درجه اول از پیکربندی DDPM استفاده می کند [20] همانطور که در StableDiffusion توضیح داده شده است [42] برای آموزش به طور خاص، ما در مجموع 1000 مرحله حذف نویز را وارد کردیم. برای مرحله استنتاج، از نمونه‌گر EulerA استفاده می‌کنیم [2] و تنظیم کنید تا بیش از 25 مرحله زمانی کار کند. برای هماهنگی با روش آموزشی راهنمایی بدون طبقه‌بندی [19]، ما تنوع را با حذف تصادفی جاسازی های شرطی مربوط به تصاویر سبک و تصاویر چهره معرفی کردیم. به طور خاص، احتمال حذف این تعبیه‌ها برای تصاویر سبک 0.64 و برای تصاویر چهره 0.1 تعیین شد.

شکل 6. آزمایش های هدایت ترکیبی. در این آزمایش، ما از رویکردی استفاده می‌کنیم که اعلان‌های متنی و تصاویر مرجع را برای ترکیب تصویر ترکیب می‌کند، و اعلان متنی که در اینجا استفاده می‌شود به سبک کارتونی مربوط می‌شود.شکل 6. آزمایش های هدایت ترکیبی. در این آزمایش، ما از رویکردی استفاده می‌کنیم که اعلان‌های متنی و تصاویر مرجع را برای ترکیب تصویر ترکیب می‌کند، و اعلان متنی که در اینجا استفاده می‌شود به سبک کارتونی مربوط می‌شود.

شکل 7. آزمایش اختلاط هویت. ما تصاویری از چهره تولید می‌کنیم که هویت‌های متعددی را با استفاده از یک نسبت اختلاط ترکیب می‌کنند تا تأثیر شناسه‌های مختلف را کنترل کنند.شکل 7. آزمایش اختلاط هویت. ما تصاویری از چهره تولید می‌کنیم که هویت‌های متعددی را با استفاده از یک نسبت اختلاط ترکیب می‌کنند تا تأثیر شناسه‌های مختلف را کنترل کنند.

مجموعه داده اولیه مورد استفاده برای آموزش FFHQ بود [25]، که مجموعه داده تصویر چهره شامل 70000 تصویر است. برای افزایش …

Source link