تولید متن به تصویر در هر سبکی - وبلاگ تحقیق گوگل - سئو PBN

ارسال شده توسط کیهوک سون و دیلیپ کریشنان، دانشمندان پژوهشی، تحقیقات گوگل

مدل های متن به تصویر آموزش داده شده بر روی حجم زیادی از جفت های تصویر-متن، ایجاد تصاویر غنی و متنوعی را که ژانرها و مضامین زیادی را در بر می گیرد، امکان پذیر کرده است. علاوه بر این، سبک های محبوب مانند “انیمه” یا “steampunk”، زمانی که به متن ورودی اضافه می شوند، ممکن است به خروجی های بصری خاصی ترجمه شوند. در حالی که تلاش‌های زیادی برای مهندسی سریع انجام شده است، به دلیل تفاوت‌های ظریف طرح‌های رنگی، روشنایی و سایر ویژگی‌ها، توصیف طیف گسترده‌ای از سبک‌ها در قالب متن سخت است. به عنوان مثال، “نقاشی با آبرنگ” ممکن است به سبک های مختلفی اشاره داشته باشد، و استفاده از یک پیام متنی که به سادگی می گوید “سبک نقاشی با آبرنگ” ممکن است منجر به یک سبک خاص یا ترکیبی غیرقابل پیش بینی از چندین شود.

وقتی به «سبک نقاشی با آبرنگ» اشاره می کنیم، منظورمان کدام است؟ به جای تعیین سبک به زبان طبیعی، StyleDrop با ارجاع به یک تصویر مرجع سبک، اجازه تولید تصاویری را می دهد که از نظر سبک سازگار هستند.^*.

در این وبلاگ “StyleDrop: تولید متن به تصویر در هر سبک” را معرفی می کنیم، ابزاری که سطح قابل توجهی بالاتر از ترکیب متن به تصویر استایل شده را امکان پذیر می کند. StyleDrop به جای جستجوی اعلان های متنی برای توصیف سبک، از یک یا چند سبک استفاده می کند تصاویر مرجع که سبک تولید متن به تصویر را توصیف می کند. با انجام این کار، StyleDrop تولید تصاویر را در سبکی مطابق با مرجع امکان‌پذیر می‌سازد، در حالی که به طور موثری بار مهندسی سریع متن را دور می‌زند. این کار با تنظیم دقیق مدل های تولید متن به تصویر از پیش آموزش دیده از طریق تنظیم آداپتور بر روی چند تصویر مرجع سبک انجام می شود. علاوه بر این، با تنظیم مکرر StyleDrop روی مجموعه‌ای از تصاویری که تولید می‌کند، به تولید تصویر سازگار با سبک از اعلان‌های متنی دست می‌یابد.

مروری بر روش

StyleDrop یک مدل تولید متن به تصویر است که اجازه تولید تصاویری را می دهد که سبک های بصری آنها با تصاویر مرجع سبک ارائه شده توسط کاربر مطابقت دارد. این با چند تکرار از تنظیم دقیق پارامترهای کارآمد مدل های از پیش آموزش داده شده تولید متن به تصویر به دست می آید. به طور خاص، ما StyleDrop را بر روی Muse، یک ترانسفورماتور بینایی مولد متن به تصویر می‌سازیم.

Muse: ترانسفورماتور بینایی مولد متن به تصویر

Muse یک مدل پیشرفته تولید متن به تصویر است که بر اساس ترانسفورماتور تصویر مولد نقاب دار (MaskGIT) است. برخلاف مدل‌های انتشار، مانند Imagen یا Stable Diffusion، Muse یک تصویر را به‌عنوان دنباله‌ای از نشانه‌های گسسته نشان می‌دهد و توزیع آنها را با استفاده از معماری ترانسفورماتور مدل می‌کند. در مقایسه با مدل‌های انتشار، Muse سریع‌تر در حین دستیابی به کیفیت تولید رقابتی شناخته شده است.

تنظیم آداپتور با پارامتر کارآمد

StyleDrop با تنظیم دقیق مدل Muse از پیش آموزش‌دیده بر روی چند تصویر مرجع سبک و اعلان‌های متنی مربوط به آنها ساخته شده است. کارهای زیادی در مورد تنظیم دقیق ترانسفورماتورها از نظر پارامتر کارآمد، از جمله تنظیم سریع و سازگاری با رتبه پایین (LoRA) مدل های زبان بزرگ انجام شده است. در میان آن‌ها، ما تنظیم آداپتور را انتخاب می‌کنیم، که نشان داده شده است که در تنظیم دقیق شبکه ترانسفورماتور بزرگ برای وظایف زبان و تولید تصویر به روشی کارآمد از نظر پارامتر مؤثر است. به عنوان مثال، کمتر از یک میلیون پارامتر قابل آموزش را برای تنظیم دقیق یک مدل Muse از پارامترهای 3B معرفی می کند، و برای همگرایی تنها به 1000 مرحله آموزشی نیاز دارد.

تنظیم آداپتور با پارامتر کارآمد Muse.

آموزش تکراری با بازخورد

در حالی که StyleDrop در یادگیری سبک ها از چند تصویر مرجع سبک مؤثر است، یادگیری از یک تصویر مرجع سبک هنوز چالش برانگیز است. این به این دلیل است که مدل ممکن است به طور مؤثری از هم جدا نشود محتوا (یعنی آنچه در تصویر است) و سبک (یعنی نحوه ارائه آن) منجر به کاهش می شود قابلیت کنترل متن در نسل به عنوان مثال، همانطور که در مرحله 1 و 2 در زیر نشان داده شده است، یک تصویر ایجاد شده از یک چیهواهوا از StyleDrop که از یک تصویر مرجع تک سبک آموزش داده شده است، نشت محتوا (یعنی خانه) را از تصویر مرجع سبک نشان می دهد. علاوه بر این، تصویر ایجاد شده از یک معبد بسیار شبیه به خانه در تصویر مرجع (فروپاشی مفهوم) به نظر می رسد.

ما با آموزش یک مدل StyleDrop جدید بر روی زیرمجموعه ای از تصاویر مصنوعی، انتخاب شده توسط کاربر یا توسط مدل های تراز تصویر-متن (به عنوان مثال، CLIP)، که تصاویر آن توسط دور اول مدل StyleDrop که بر روی یک آموزش داده شده است، به این موضوع می پردازیم. تصویر با آموزش چند تصویر ترکیبی تراز شده تصویر-متن، مدل می تواند به راحتی سبک را از محتوا جدا کند، بنابراین به تراز تصویر-متن بهبود یافته دست می یابد.

آموزش تکراری با بازخورد^*. دور اول StyleDrop ممکن است منجر به کاهش قابلیت کنترل متن، مانند نشت محتوا یا فروپاشی مفهوم، به دلیل دشواری از هم گسیختگی به سبک محتوا شود. آموزش تکراری با استفاده از تصاویر مصنوعی، که توسط دورهای قبلی مدل‌های StyleDrop تولید شده و توسط مدل‌های هم‌ترازی انسان یا تصویر-متن انتخاب شده‌اند، پایبندی متن را در تولید متن به تصویر تلطیف‌شده بهبود می‌بخشد.

آزمایش

گالری StyleDrop

ما اثربخشی StyleDrop را با اجرای آزمایش‌ها بر روی 24 تصویر مرجع سبک متمایز نشان می‌دهیم. همانطور که در زیر نشان داده شده است، تصاویر تولید شده توسط StyleDrop از نظر سبک با یکدیگر و با تصویر مرجع سبک بسیار سازگار هستند، در حالی که زمینه های مختلفی مانند یک بچه پنگوئن، موز، پیانو و غیره را به تصویر می کشند. علاوه بر این، این مدل می تواند تصاویر الفبای را با یک سبک ثابت

تولید متن به تصویر تلطیف شده تصاویر مرجع سبک^* در سمت چپ داخل کادر زرد قرار دارند. پیام های متنی مورد استفاده عبارتند از:
ردیف اول: یک بچه پنگوئن، یک موز، یک نیمکت.
ردیف دوم: یک پروانه، یک ماشین مسابقه F1، یک درخت کریسمس.
ردیف سوم: قهوه ساز، کلاه، گوزن.
ردیف چهارم: ربات، حوله، کابین چوبی.

تولید شخصیت بصری تلطیف شده تصاویر مرجع سبک^* در سمت چپ داخل کادر زرد قرار دارند. پیام های متنی مورد استفاده عبارتند از: (ردیف اول) حرف “A”، حرف “B”، حرف “C”، (ردیف دوم) حرف “E”، حرف “F”، حرف “G”.

ایجاد تصاویری از شی من به سبک من

در زیر تصاویر تولید شده را با نمونه برداری از دو توزیع شخصی سازی شده، یکی برای یک شی و دیگری برای سبک، نشان می دهیم.

تصاویر در بالای حاشیه آبی، تصاویر مرجع شی از مجموعه داده DreamBooth (قوری، گلدان، سگ و گربه) هستند و تصویر سمت چپ در پایین در حاشیه قرمز، تصویر مرجع سبک* است. تصاویر در حاشیه بنفش (یعنی چهار تصویر پایین سمت راست) از تصویر سبک شی خاص تولید می شوند.

نتایج کمی

برای ارزیابی کمی، تصاویر را از زیر مجموعه‌ای از اعلان‌های Parti ترکیب می‌کنیم و امتیاز CLIP تصویر به تصویر را برای سازگاری سبک و امتیاز CLIP تصویر به متن را برای سازگاری متن اندازه‌گیری می‌کنیم. ما مدل‌های تنظیم نشده Muse و Imagen را مطالعه می‌کنیم. در میان مدل‌های تنظیم‌شده، ما مقایسه‌ای با DreamBooth در Imagen انجام می‌دهیم که پیشرفته‌ترین روش شخصی‌سازی شده متن به تصویر برای سوژه‌ها است. ما دو نسخه از StyleDrop را نشان می‌دهیم، یکی از یک تصویر مرجع سبک و دیگری، “StyleDrop (HF)”، که به صورت تکراری با استفاده از تصاویر مصنوعی با بازخورد انسانی همانطور که در بالا توضیح داده شد آموزش داده شده است. همانطور که در زیر نشان داده شده است، StyleDrop (HF) به طور قابل توجهی امتیاز سازگاری سبک را نسبت به همتای تنظیم نشده خود (0.694 در مقابل 0.556)، و همچنین DreamBooth در Imagen (0.694 در مقابل 0.644) بهبود یافته است. ما یک امتیاز سازگاری متن بهبود یافته را با StyleDrop (HF) نسبت به StyleDrop (0.322 در مقابل 0.313) مشاهده کردیم. علاوه بر این، در یک مطالعه ترجیحی انسانی بین DreamBooth در Imagen و StyleDrop در Muse، دریافتیم که 86٪ از ارزیابی‌کنندگان انسانی StyleDrop on Muse را از نظر سازگاری با تصویر مرجع سبک به DreamBooth در Imagen ترجیح می‌دهند.

نتیجه

StyleDrop با استفاده از چند تصویر مرجع سبک در تولید متن به تصویر به ثبات سبک دست می یابد. اصول هوش مصنوعی گوگل توسعه Style Drop ما را هدایت کرد و ما به استفاده مسئولانه از این فناوری توصیه می کنیم. StyleDrop برای ایجاد یک مدل سبک سفارشی در Vertex AI اقتباس شده است، و ما معتقدیم که می‌تواند ابزار مفیدی برای مدیران هنری و طراحان گرافیک باشد – کسانی که ممکن است بخواهند دارایی‌های بصری را به سبک خود ایده‌پردازی کنند یا نمونه‌سازی اولیه کنند تا بهره‌وری خود را بهبود بخشند و خود را تقویت کنند. خلاقیت – یا کسب‌وکارهایی که می‌خواهند دارایی‌های رسانه‌ای جدیدی تولید کنند که نشان‌دهنده یک برند خاص باشد. مانند سایر قابلیت‌های هوش مصنوعی مولد، توصیه می‌کنیم که پزشکان اطمینان حاصل کنند که با حق نسخه‌برداری هر دارایی رسانه‌ای که استفاده می‌کنند همسو هستند. نتایج بیشتر در وب سایت پروژه و ویدیوی YouTube ما یافت می شود.

سپاسگزاریها

این تحقیق توسط Kihyuk Sohn، Nataniel Ruiz، Kimin Lee، Daniel Castro Chin، Irina Blok، Huiwen Chang، Jarred Barber، Lu Jiang، Glenn Entis، Yuanzhen Li، Yuan Hao، Irfan Essa، Michael Rubinstein و Dilip Krishnan انجام شد. از صاحبان تصاویر مورد استفاده در آزمایش‌های ما (پیوندهای مربوط به ذکر منبع) برای به اشتراک گذاشتن دارایی‌های ارزشمندشان تشکر می‌کنیم.

^*منابع تصویر را ببینید ^↩

سئو PBN | خبر های جدید سئو و هک و سرور