پیشبرد و ارزیابی نقاشی تصویری هدایت‌شده با متن – وبلاگ هوش مصنوعی گوگل

پیشبرد و ارزیابی نقاشی تصویری هدایت‌شده با متن – وبلاگ هوش مصنوعی گوگل

در چند سال اخیر، تحقیقات تولید متن به تصویر شاهد انفجاری از پیشرفت‌ها (به ویژه Imagen، Parti، DALL-E 2، و غیره) بوده است که به طور طبیعی در موضوعات مرتبط نفوذ کرده‌اند. به طور خاص، ویرایش تصویر با هدایت متن (TGIE) یک کار عملی است که شامل ویرایش تصاویر تولید شده و عکس‌برداری شده به جای انجام مجدد کامل آن‌ها است. ویرایش سریع، خودکار و قابل کنترل یک راه حل راحت است که بازآفرینی تصاویر زمان‌بر یا غیرممکن باشد (مثلاً تغییر دادن اشیا در عکس‌های تعطیلات یا تکمیل جزئیات ریز روی یک توله سگ بامزه که از ابتدا ایجاد شده است). علاوه بر این، TGIE یک فرصت قابل توجه برای بهبود آموزش خود مدل های بنیادی است. مدل‌های چندوجهی برای آموزش صحیح به داده‌های متنوعی نیاز دارند، و ویرایش TGIE می‌تواند تولید و ترکیب مجدد داده‌های مصنوعی با کیفیت بالا و مقیاس‌پذیر را امکان‌پذیر کند که شاید مهم‌تر از همه، می‌تواند روش‌هایی را برای بهینه‌سازی توزیع داده‌های آموزشی در امتداد هر محور ارائه دهد.

در «ویرایشگر تصویر و EditBench: پیشرفت و ارزیابی نقاشی تصویر هدایت‌شده با متن»، که در CVPR 2023 ارائه می‌شود، ما Imagen Editor را معرفی می‌کنیم، یک راه‌حل پیشرفته برای کار نقاشی پنهان شده – به عنوان مثال، زمانی که کاربر دستورالعمل‌های متنی را در کنار یک پوشش یا «ماسک» (معمولاً در یک رابط نوع طراحی ایجاد می‌شود) ارائه می‌کند که ناحیه تصویری را که می‌خواهند تغییر دهند، نشان می‌دهد. همچنین EditBench را معرفی می کنیم، روشی که کیفیت مدل های ویرایش تصویر را اندازه گیری می کند. EditBench فراتر از روش‌های رایج درشت دانه «آیا این تصویر با متن مطابقت دارد» می‌رود و انواع مختلفی از ویژگی‌ها، اشیا و صحنه‌ها را برای درک دقیق‌تری از عملکرد مدل بررسی می‌کند. به ویژه، تاکید زیادی بر وفاداری تراز تصویر-متن بدون از دست دادن کیفیت تصویر دارد.

با توجه به یک تصویر، یک ماسک تعریف شده توسط کاربر، و یک پیام متنی، Imagen Editor ویرایش های محلی را در مناطق تعیین شده انجام می دهد. این مدل به طور معناداری هدف کاربر را در بر می گیرد و ویرایش های واقعی واقعی را انجام می دهد.

ویرایشگر تصویر

Imagen Editor یک مدل مبتنی بر انتشار است که برای ویرایش روی Imagen به خوبی تنظیم شده است. این نمایش‌های بهبودیافته ورودی‌های زبانی، کنترل دقیق و خروجی‌های با وفاداری بالا را هدف قرار می‌دهد. Imagen Editor سه ورودی را از کاربر می گیرد: 1) تصویری که باید ویرایش شود، 2) یک ماسک باینری برای تعیین منطقه ویرایش، و 3) یک اعلان متن – هر سه ورودی نمونه های خروجی را هدایت می کنند.

ویرایشگر Imagen به سه تکنیک اصلی برای نقاشی تصویر با هدایت متنی با کیفیت بالا بستگی دارد. اول، بر خلاف مدل‌های نقاشی قبلی (مانند پالت، توجه زمینه، پیچیدگی دروازه‌ای) که ماسک‌های جعبه تصادفی و ضربه‌ای را اعمال می‌کنند، ویرایشگر Imagen یک خط‌مشی پوشاندن آشکارساز شی با ماژول آشکارساز شی را به کار می‌گیرد که ماسک‌های شی را در طول آموزش تولید می‌کند. ماسک‌های آبجکت بر اساس اشیاء شناسایی‌شده به‌جای وصله‌های تصادفی هستند و امکان تراز اصولی‌تر بین دستورهای ویرایش متن و مناطق پوشانده شده را فراهم می‌کنند. از نظر تجربی، این روش به مدل کمک می کند تا از مشکل رایج نادیده گرفته شدن پیام متنی در زمانی که مناطق پوشانده شده کوچک هستند یا فقط تا حدی یک شی را پوشش می دهند (به عنوان مثال، CogView2) جلوگیری کند.

ماسک های تصادفی (ترک کرد) اغلب پس‌زمینه را ثبت می‌کنند یا مرزهای اشیاء را قطع می‌کنند، و مناطقی را که می‌توان به‌طور قابل قبولی تنها از بافت تصویر نقاشی کرد، تعریف کرد. ماسک های اشیا (درست) تنها از روی زمینه تصویر، رنگ آمیزی سخت تر است، و مدل ها را تشویق می کند که در طول آموزش بیشتر به ورودی های متن تکیه کنند.

سپس، در طول آموزش و استنتاج، ویرایشگر Imagen ویرایش با وضوح بالا را با شرطی کردن وضوح کامل (1024×1024 در این کار)، الحاق کانال تصویر ورودی و ماسک (شبیه به SR3، پالت، و GLIDE) بهبود می‌بخشد. برای مدل انتشار پایه 64 × 64 و مدل های 64 × 64 → 256 × 256 با وضوح فوق العاده، ما یک پیچش نمونه برداری پایین پارامتری را اعمال می کنیم (به عنوان مثال، پیچش با یک گام)، که ما به طور تجربی دریافتیم که برای وفاداری بالا حیاتی است.

Imagen برای ویرایش تصویر به خوبی تنظیم شده است. همه مدل‌های انتشار، یعنی مدل پایه و مدل‌های با وضوح فوق‌العاده (SR)، مشروط به ورودی‌های تصویر و ماسک با وضوح بالا ۱۰۲۴×۱۰۲۴ هستند. برای این منظور، رمزگذارهای تصویر کانولوشنال جدید معرفی شده اند.

در نهایت، در استنباط، هدایت بدون طبقه‌بندی (CFG) را برای نمونه‌های سوگیری به یک شرطی‌سازی خاص، در این مورد، درخواست‌های متنی اعمال می‌کنیم. CFG بین پیش‌بینی‌های مدل مشروط متن و غیرشرطی میان‌یابی می‌کند تا از هم‌ترازی قوی بین تصویر تولید شده و متن ورودی برای نقاشی تصویر هدایت‌شده با متن اطمینان حاصل کند. ما از Imagen Video پیروی می کنیم و از وزنه های هدایت بالا با نوسان هدایت استفاده می کنیم (برنامه هدایتی که در محدوده ارزشی وزن های هدایت نوسان می کند). در مدل پایه (سطح 1 انتشار 64x)، جایی که اطمینان از همسویی قوی با متن بسیار مهم است، از یک برنامه وزن راهنمایی استفاده می کنیم که بین 1 تا 30 نوسان دارد. مشاهده می کنیم که وزن های هدایت بالا همراه با هدایت نوسانی بهترین نتیجه را دارند. مبادله بین وفاداری نمونه و تراز متن-تصویر.

EditBench

مجموعه داده EditBench برای ارزیابی نقاشی تصویر هدایت‌شده با متن شامل 240 تصویر، با 120 تصویر تولید شده و 120 تصویر طبیعی است. تصاویر تولید شده توسط Parti سنتز می شوند و تصاویر طبیعی از مجموعه داده های Visual Genome و Open Images استخراج می شوند. EditBench طیف گسترده ای از زبان، انواع تصویر، و سطوح ویژه متن (به عنوان مثال، زیرنویس ساده، غنی و کامل) را ضبط می کند. هر مثال شامل (1) یک تصویر ورودی پوشانده شده، (2) یک پیام متنی ورودی، و (3) یک تصویر خروجی با کیفیت بالا است که به عنوان مرجع برای معیارهای خودکار استفاده می شود. برای ارائه بینشی نسبت به نقاط قوت و ضعف نسبی مدل‌های مختلف، دستورات EditBench برای آزمایش جزئیات دقیق در سه دسته طراحی شده‌اند: (1) ویژگی‌ها (مانند مواد، رنگ، شکل، اندازه، تعداد). (2) انواع شی (به عنوان مثال، رایج، نادر، رندر متن). و (3) صحنه ها (به عنوان مثال، داخل خانه، خارج از منزل، واقع گرایانه، یا نقاشی). برای درک اینکه چگونه مشخصات مختلف اعلان‌ها بر عملکرد مدل تأثیر می‌گذارند، ما سه نوع اعلان متنی ارائه می‌کنیم: یک ویژگی تک‌ویژگی (Mask Simple) یا یک توصیف چند ویژگی از شی ماسک‌شده (Mask Rich) – یا یک توضیح کامل تصویر (تصویر کامل) . Mask Rich، به ویژه، توانایی مدل‌ها را برای مدیریت اتصال و گنجاندن ویژگی‌های پیچیده بررسی می‌کند.

تصویر کامل به عنوان مرجعی برای نقاشی موفق استفاده می شود. ماسک شی مورد نظر را با شکلی آزاد و بدون اشاره می پوشاند. ما اعلان‌های Mask Simple، Mask Rich و Full Image را مطابق با مدل‌های معمولی متن به تصویر ارزیابی می‌کنیم.

با توجه به ضعف های ذاتی در معیارهای ارزیابی خودکار موجود (CLIPScore و CLIP-R-Precision) برای TGIE، ما ارزیابی انسانی را به عنوان استاندارد طلایی برای EditBench در نظر می گیریم. در بخش زیر، نحوه اعمال EditBench برای ارزیابی مدل را نشان می‌دهیم.

ارزیابی

ما مدل ویرایشگر Imagen – با پوشش شی (IM) و با پوشش تصادفی (IM-RM) – در برابر مدل‌های قابل مقایسه، انتشار پایدار (SD) و DALL-E 2 (DL2) ارزیابی می‌کنیم. Imagen Editor با حواشی قابل توجهی در تمام دسته های ارزیابی EditBench از این مدل ها بهتر عمل می کند.

برای درخواست تصویر کامل، ارزیابی انسانی تک تصویری پاسخ های دودویی را برای تأیید اینکه آیا تصویر با عنوان مطابقت دارد ارائه می دهد. برای درخواست‌های Mask Simple، ارزیابی انسان تک تصویری تأیید می‌کند که آیا شیء و ویژگی به درستی رندر شده‌اند یا خیر (مثلاً برای یک گربه قرمز، یک گربه سفید روی میز قرمز یک اتصال نادرست است). ارزیابی انسان در کنار هم از دستورات Mask Rich فقط برای مقایسه کنار هم بین IM و هر یک از سه مدل دیگر (IM-RM، DL2 و SD) استفاده می‌کند و نشان می‌دهد که کدام تصویر با عنوان برای تراز کردن متن و تصویر بهتر مطابقت دارد، و کدام تصویر. واقع بینانه ترین است

ارزیابی انسانی تصویر کامل باعث می شود برداشت کلی حاشیه نویسان از تراز متن-تصویر ایجاد شود. Mask Simple و Mask Rich برای درج صحیح ویژگی‌های خاص، اشیاء و اتصال ویژگی بررسی می‌شوند.

برای ارزیابی انسان تک تصویری، IM بالاترین رتبه‌بندی را در سراسر جهان دریافت می‌کند (10 تا 13 درصد بالاتر از مدل دوم با بالاترین عملکرد). برای بقیه، ترتیب عملکرد IM-RM > DL2 > SD (با 3-6٪ اختلاف) است به جز با Mask Simple که IM-RM 4-8٪ عقب است. از آنجایی که محتوای معنایی نسبتاً بیشتری در Full و Mask Rich درگیر می شود، حدس می زنیم IM-RM و IM از کدگذار متنی T5 XXL با عملکرد بالاتر بهره مند شوند.

ارزیابی‌های انسانی تک‌تصویری از نقاشی تصویر هدایت‌شده با متن در EditBench با نوع سریع. برای اعلان‌های Mask Simple و Mask Rich، تراز متن-تصویر درست است اگر تصویر ویرایش شده به طور دقیق شامل هر ویژگی و شی مشخص شده در اعلان، از جمله صحافی ویژگی صحیح باشد. توجه داشته باشید که به دلیل طراحی‌های مختلف ارزیابی، درخواست‌های کامل در مقابل ماسک، نتایج کمتر مستقیماً قابل مقایسه هستند.

EditBench بر حاشیه نویسی ریز تمرکز دارد، بنابراین ما مدل ها را برای انواع شی و ویژگی ارزیابی می کنیم. برای انواع شی‌ها، IM در همه دسته‌ها پیشتاز است، که 10 تا 11 درصد بهتر از مدل دوم با بالاترین عملکرد در مشترک، کمیاب و رندر متن عمل می‌کند.

ارزیابی های انسانی تک تصویری در EditBench Mask Simple بر اساس نوع شی. به عنوان یک گروه، مدل ها در رندر شی بهتر از رندر متن هستند.

برای انواع ویژگی، IM بسیار بالاتر (13-16٪) از دومین مدل با بالاترین عملکرد رتبه بندی شده است، به جز در تعداد، که در آن DL2 فقط 1٪ عقب است.

ارزیابی های انسانی تک تصویری در EditBench Mask Simple بر اساس نوع ویژگی. پوشاندن شیء باعث بهبود پایبندی به ویژگی های سریع در سراسر صفحه (IM در مقابل IM-RM) می شود.

در مقایسه با مدل‌های دیگر یک در مقابل یک، IM در تراز متن با حاشیه قابل توجهی پیشتاز است، که توسط حاشیه‌نویس‌ها در مقایسه با SD، DL2 و IM-RM ترجیح داده می‌شود.

ارزیابی کنار به پهلوی انسان از واقع گرایی تصویر و تراز متن-تصویر در دستورات EditBench Mask Rich. برای تراز متن-تصویر، ویرایشگر Imagen در همه مقایسه ها ترجیح داده می شود.

در نهایت، ما یک مقایسه‌ای در کنار هم برای همه مدل‌ها را نشان می‌دهیم. برای نمونه های بیشتر به مقاله مراجعه کنید.

نمونه خروجی های مدل برای دستورهای Mask Simple در مقابل Mask Rich. پوشاندن اشیا در مقایسه با مدل مشابهی که با پوشش تصادفی آموزش داده شده است، پایبندی دقیق ویرایشگر Imagen به دستور را بهبود می بخشد.

نتیجه

ما Imagen Editor و EditBench را ارائه کردیم، که پیشرفت های قابل توجهی در نقاشی تصویر هدایت شده با متن و ارزیابی آن ایجاد کرد. Imagen Editor یک تصویر هدایت شده با متن است که به خوبی از Imagen تنظیم شده است. EditBench یک معیار سیستماتیک جامع برای نقاشی تصویر با هدایت متنی است که عملکرد را در ابعاد مختلف ارزیابی می کند: ویژگی ها، اشیا و صحنه ها. توجه داشته باشید که به دلیل نگرانی در رابطه با هوش مصنوعی مسئول، ویرایشگر Imagen را برای عموم منتشر نمی کنیم. از طرف دیگر EditBench به طور کامل به نفع جامعه تحقیقاتی منتشر شده است.

قدردانی ها

از گونجان باید، نیکول بریشتووا، سارا مهدوی، کتی مایر-هلسترن، زارانا پرخ، آنوشا رامش، تریس وارکنتین، آستین واترز، و ویجی واسودوان برای حمایت سخاوتمندانه‌شان تشکر می‌کنیم. ما از ایگور کارپوف، ایزابل کراوس-لیانگ، راگاوا رام پامیدیگانتام، ماهش مدینالا، و همه حاشیه نویسان ناشناس انسانی برای هماهنگی آنها برای تکمیل وظایف ارزیابی انسانی تشکر می کنیم. ما از Huiwen Chang، Austin Tarango و Douglas Eck برای ارائه بازخورد کاغذی سپاسگزاریم. با تشکر از اریکا موریرا و ویکتور گومز برای کمک در هماهنگی منابع. در نهایت، از نویسندگان DALL-E 2 که به ما اجازه دادند تا از خروجی های مدل خود برای اهداف تحقیقاتی استفاده کنیم، تشکر می کنیم.