مدل های متن به تصویر آموزش داده شده بر روی حجم زیادی از جفت های تصویر-متن، ایجاد تصاویر غنی و متنوعی را که ژانرها و مضامین زیادی را در بر می گیرد، امکان پذیر کرده است. علاوه بر این، سبک های محبوب مانند “انیمه” یا “steampunk”، زمانی که به متن ورودی اضافه می شوند، ممکن است به خروجی های بصری خاصی ترجمه شوند. در حالی که تلاشهای زیادی برای مهندسی سریع انجام شده است، به دلیل تفاوتهای ظریف طرحهای رنگی، روشنایی و سایر ویژگیها، توصیف طیف گستردهای از سبکها در قالب متن سخت است. به عنوان مثال، “نقاشی با آبرنگ” ممکن است به سبک های مختلفی اشاره داشته باشد، و استفاده از یک پیام متنی که به سادگی می گوید “سبک نقاشی با آبرنگ” ممکن است منجر به یک سبک خاص یا ترکیبی غیرقابل پیش بینی از چندین شود.
وقتی به «سبک نقاشی با آبرنگ» اشاره می کنیم، منظورمان کدام است؟ به جای تعیین سبک به زبان طبیعی، StyleDrop با ارجاع به یک تصویر مرجع سبک، اجازه تولید تصاویری را می دهد که از نظر سبک سازگار هستند.*. |
در این وبلاگ “StyleDrop: تولید متن به تصویر در هر سبک” را معرفی می کنیم، ابزاری که سطح قابل توجهی بالاتر از ترکیب متن به تصویر استایل شده را امکان پذیر می کند. StyleDrop به جای جستجوی اعلان های متنی برای توصیف سبک، از یک یا چند سبک استفاده می کند تصاویر مرجع که سبک تولید متن به تصویر را توصیف می کند. با انجام این کار، StyleDrop تولید تصاویر را در سبکی مطابق با مرجع امکانپذیر میسازد، در حالی که به طور موثری بار مهندسی سریع متن را دور میزند. این کار با تنظیم دقیق مدل های تولید متن به تصویر از پیش آموزش دیده از طریق تنظیم آداپتور بر روی چند تصویر مرجع سبک انجام می شود. علاوه بر این، با تنظیم مکرر StyleDrop روی مجموعهای از تصاویری که تولید میکند، به تولید تصویر سازگار با سبک از اعلانهای متنی دست مییابد.
مروری بر روش
StyleDrop یک مدل تولید متن به تصویر است که اجازه تولید تصاویری را می دهد که سبک های بصری آنها با تصاویر مرجع سبک ارائه شده توسط کاربر مطابقت دارد. این با چند تکرار از تنظیم دقیق پارامترهای کارآمد مدل های از پیش آموزش داده شده تولید متن به تصویر به دست می آید. به طور خاص، ما StyleDrop را بر روی Muse، یک ترانسفورماتور بینایی مولد متن به تصویر میسازیم.
Muse: ترانسفورماتور بینایی مولد متن به تصویر
Muse یک مدل پیشرفته تولید متن به تصویر است که بر اساس ترانسفورماتور تصویر مولد نقاب دار (MaskGIT) است. برخلاف مدلهای انتشار، مانند Imagen یا Stable Diffusion، Muse یک تصویر را بهعنوان دنبالهای از نشانههای گسسته نشان میدهد و توزیع آنها را با استفاده از معماری ترانسفورماتور مدل میکند. در مقایسه با مدلهای انتشار، Muse سریعتر در حین دستیابی به کیفیت تولید رقابتی شناخته شده است.
تنظیم آداپتور با پارامتر کارآمد
StyleDrop با تنظیم دقیق مدل Muse از پیش آموزشدیده بر روی چند تصویر مرجع سبک و اعلانهای متنی مربوط به آنها ساخته شده است. کارهای زیادی در مورد تنظیم دقیق ترانسفورماتورها از نظر پارامتر کارآمد، از جمله تنظیم سریع و سازگاری با رتبه پایین (LoRA) مدل های زبان بزرگ انجام شده است. در میان آنها، ما تنظیم آداپتور را انتخاب میکنیم، که نشان داده شده است که در تنظیم دقیق شبکه ترانسفورماتور بزرگ برای وظایف زبان و تولید تصویر به روشی کارآمد از نظر پارامتر مؤثر است. به عنوان مثال، کمتر از یک میلیون پارامتر قابل آموزش را برای تنظیم دقیق یک مدل Muse از پارامترهای 3B معرفی می کند، و برای همگرایی تنها به 1000 مرحله آموزشی نیاز دارد.
تنظیم آداپتور با پارامتر کارآمد Muse. |
آموزش تکراری با بازخورد
در حالی که StyleDrop در یادگیری سبک ها از چند تصویر مرجع سبک مؤثر است، یادگیری از یک تصویر مرجع سبک هنوز چالش برانگیز است. این به این دلیل است که مدل ممکن است به طور مؤثری از هم جدا نشود محتوا (یعنی آنچه در تصویر است) و سبک (یعنی نحوه ارائه آن) منجر به کاهش می شود قابلیت کنترل متن در نسل به عنوان مثال، همانطور که در مرحله 1 و 2 در زیر نشان داده شده است، یک تصویر ایجاد شده از یک چیهواهوا از StyleDrop که از یک تصویر مرجع تک سبک آموزش داده شده است، نشت محتوا (یعنی خانه) را از تصویر مرجع سبک نشان می دهد. علاوه بر این، تصویر ایجاد شده از یک معبد بسیار شبیه به خانه در تصویر مرجع (فروپاشی مفهوم) به نظر می رسد.
ما با آموزش یک مدل StyleDrop جدید بر روی زیرمجموعه ای از تصاویر مصنوعی، انتخاب شده توسط کاربر یا توسط مدل های تراز تصویر-متن (به عنوان مثال، CLIP)، که تصاویر آن توسط دور اول مدل StyleDrop که بر روی یک آموزش داده شده است، به این موضوع می پردازیم. تصویر با آموزش چند تصویر ترکیبی تراز شده تصویر-متن، مدل می تواند به راحتی سبک را از محتوا جدا کند، بنابراین به تراز تصویر-متن بهبود یافته دست می یابد.
آموزش تکراری با بازخورد*. دور اول StyleDrop ممکن است منجر به کاهش قابلیت کنترل متن، مانند نشت محتوا یا فروپاشی مفهوم، به دلیل دشواری از هم گسیختگی به سبک محتوا شود. آموزش تکراری با استفاده از تصاویر مصنوعی، که توسط دورهای قبلی مدلهای StyleDrop تولید شده و توسط مدلهای همترازی انسان یا تصویر-متن انتخاب شدهاند، پایبندی متن را در تولید متن به تصویر تلطیفشده بهبود میبخشد. |
آزمایش
گالری StyleDrop
ما اثربخشی StyleDrop را با اجرای آزمایشها بر روی 24 تصویر مرجع سبک متمایز نشان میدهیم. همانطور که در زیر نشان داده شده است، تصاویر تولید شده توسط StyleDrop از نظر سبک با یکدیگر و با تصویر مرجع سبک بسیار سازگار هستند، در حالی که زمینه های مختلفی مانند یک بچه پنگوئن، موز، پیانو و غیره را به تصویر می کشند. علاوه بر این، این مدل می تواند تصاویر الفبای را با یک سبک ثابت
تولید متن به تصویر تلطیف شده تصاویر مرجع سبک* در سمت چپ داخل کادر زرد قرار دارند. پیام های متنی مورد استفاده عبارتند از: ردیف اول: یک بچه پنگوئن، یک موز، یک نیمکت. ردیف دوم: یک پروانه، یک ماشین مسابقه F1، یک درخت کریسمس. ردیف سوم: قهوه ساز، کلاه، گوزن. ردیف چهارم: ربات، حوله، کابین چوبی. |
تولید شخصیت بصری تلطیف شده تصاویر مرجع سبک* در سمت چپ داخل کادر زرد قرار دارند. پیام های متنی مورد استفاده عبارتند از: (ردیف اول) حرف “A”، حرف “B”، حرف “C”، (ردیف دوم) حرف “E”، حرف “F”، حرف “G”. |
ایجاد تصاویری از شی من به سبک من
در زیر تصاویر تولید شده را با نمونه برداری از دو توزیع شخصی سازی شده، یکی برای یک شی و دیگری برای سبک، نشان می دهیم.
تصاویر در بالای حاشیه آبی، تصاویر مرجع شی از مجموعه داده DreamBooth (قوری، گلدان، سگ و گربه) هستند و تصویر سمت چپ در پایین در حاشیه قرمز، تصویر مرجع سبک* است. تصاویر در حاشیه بنفش (یعنی چهار تصویر پایین سمت راست) از تصویر سبک شی خاص تولید می شوند. |
نتایج کمی
برای ارزیابی کمی، تصاویر را از زیر مجموعهای از اعلانهای Parti ترکیب میکنیم و امتیاز CLIP تصویر به تصویر را برای سازگاری سبک و امتیاز CLIP تصویر به متن را برای سازگاری متن اندازهگیری میکنیم. ما مدلهای تنظیم نشده Muse و Imagen را مطالعه میکنیم. در میان مدلهای تنظیمشده، ما مقایسهای با DreamBooth در Imagen انجام میدهیم که پیشرفتهترین روش شخصیسازی شده متن به تصویر برای سوژهها است. ما دو نسخه از StyleDrop را نشان میدهیم، یکی از یک تصویر مرجع سبک و دیگری، “StyleDrop (HF)”، که به صورت تکراری با استفاده از تصاویر مصنوعی با بازخورد انسانی همانطور که در بالا توضیح داده شد آموزش داده شده است. همانطور که در زیر نشان داده شده است، StyleDrop (HF) به طور قابل توجهی امتیاز سازگاری سبک را نسبت به همتای تنظیم نشده خود (0.694 در مقابل 0.556)، و همچنین DreamBooth در Imagen (0.694 در مقابل 0.644) بهبود یافته است. ما یک امتیاز سازگاری متن بهبود یافته را با StyleDrop (HF) نسبت به StyleDrop (0.322 در مقابل 0.313) مشاهده کردیم. علاوه بر این، در یک مطالعه ترجیحی انسانی بین DreamBooth در Imagen و StyleDrop در Muse، دریافتیم که 86٪ از ارزیابیکنندگان انسانی StyleDrop on Muse را از نظر سازگاری با تصویر مرجع سبک به DreamBooth در Imagen ترجیح میدهند.
نتیجه
StyleDrop با استفاده از چند تصویر مرجع سبک در تولید متن به تصویر به ثبات سبک دست می یابد. اصول هوش مصنوعی گوگل توسعه Style Drop ما را هدایت کرد و ما به استفاده مسئولانه از این فناوری توصیه می کنیم. StyleDrop برای ایجاد یک مدل سبک سفارشی در Vertex AI اقتباس شده است، و ما معتقدیم که میتواند ابزار مفیدی برای مدیران هنری و طراحان گرافیک باشد – کسانی که ممکن است بخواهند داراییهای بصری را به سبک خود ایدهپردازی کنند یا نمونهسازی اولیه کنند تا بهرهوری خود را بهبود بخشند و خود را تقویت کنند. خلاقیت – یا کسبوکارهایی که میخواهند داراییهای رسانهای جدیدی تولید کنند که نشاندهنده یک برند خاص باشد. مانند سایر قابلیتهای هوش مصنوعی مولد، توصیه میکنیم که پزشکان اطمینان حاصل کنند که با حق نسخهبرداری هر دارایی رسانهای که استفاده میکنند همسو هستند. نتایج بیشتر در وب سایت پروژه و ویدیوی YouTube ما یافت می شود.
سپاسگزاریها
این تحقیق توسط Kihyuk Sohn، Nataniel Ruiz، Kimin Lee، Daniel Castro Chin، Irina Blok، Huiwen Chang، Jarred Barber، Lu Jiang، Glenn Entis، Yuanzhen Li، Yuan Hao، Irfan Essa، Michael Rubinstein و Dilip Krishnan انجام شد. از صاحبان تصاویر مورد استفاده در آزمایشهای ما (پیوندهای مربوط به ذکر منبع) برای به اشتراک گذاشتن داراییهای ارزشمندشان تشکر میکنیم.
*منابع تصویر را ببینید ↩