در چند سال اخیر، تحقیقات تولید متن به تصویر شاهد انفجاری از پیشرفتها (به ویژه Imagen، Parti، DALL-E 2، و غیره) بوده است که به طور طبیعی در موضوعات مرتبط نفوذ کردهاند. به طور خاص، ویرایش تصویر با هدایت متن (TGIE) یک کار عملی است که شامل ویرایش تصاویر تولید شده و عکسبرداری شده به جای انجام مجدد کامل آنها است. ویرایش سریع، خودکار و قابل کنترل یک راه حل راحت است که بازآفرینی تصاویر زمانبر یا غیرممکن باشد (مثلاً تغییر دادن اشیا در عکسهای تعطیلات یا تکمیل جزئیات ریز روی یک توله سگ بامزه که از ابتدا ایجاد شده است). علاوه بر این، TGIE یک فرصت قابل توجه برای بهبود آموزش خود مدل های بنیادی است. مدلهای چندوجهی برای آموزش صحیح به دادههای متنوعی نیاز دارند، و ویرایش TGIE میتواند تولید و ترکیب مجدد دادههای مصنوعی با کیفیت بالا و مقیاسپذیر را امکانپذیر کند که شاید مهمتر از همه، میتواند روشهایی را برای بهینهسازی توزیع دادههای آموزشی در امتداد هر محور ارائه دهد.
در «ویرایشگر تصویر و EditBench: پیشرفت و ارزیابی نقاشی تصویر هدایتشده با متن»، که در CVPR 2023 ارائه میشود، ما Imagen Editor را معرفی میکنیم، یک راهحل پیشرفته برای کار نقاشی پنهان شده – به عنوان مثال، زمانی که کاربر دستورالعملهای متنی را در کنار یک پوشش یا «ماسک» (معمولاً در یک رابط نوع طراحی ایجاد میشود) ارائه میکند که ناحیه تصویری را که میخواهند تغییر دهند، نشان میدهد. همچنین EditBench را معرفی می کنیم، روشی که کیفیت مدل های ویرایش تصویر را اندازه گیری می کند. EditBench فراتر از روشهای رایج درشت دانه «آیا این تصویر با متن مطابقت دارد» میرود و انواع مختلفی از ویژگیها، اشیا و صحنهها را برای درک دقیقتری از عملکرد مدل بررسی میکند. به ویژه، تاکید زیادی بر وفاداری تراز تصویر-متن بدون از دست دادن کیفیت تصویر دارد.
![]() |
با توجه به یک تصویر، یک ماسک تعریف شده توسط کاربر، و یک پیام متنی، Imagen Editor ویرایش های محلی را در مناطق تعیین شده انجام می دهد. این مدل به طور معناداری هدف کاربر را در بر می گیرد و ویرایش های واقعی واقعی را انجام می دهد. |
ویرایشگر تصویر
Imagen Editor یک مدل مبتنی بر انتشار است که برای ویرایش روی Imagen به خوبی تنظیم شده است. این نمایشهای بهبودیافته ورودیهای زبانی، کنترل دقیق و خروجیهای با وفاداری بالا را هدف قرار میدهد. Imagen Editor سه ورودی را از کاربر می گیرد: 1) تصویری که باید ویرایش شود، 2) یک ماسک باینری برای تعیین منطقه ویرایش، و 3) یک اعلان متن – هر سه ورودی نمونه های خروجی را هدایت می کنند.
ویرایشگر Imagen به سه تکنیک اصلی برای نقاشی تصویر با هدایت متنی با کیفیت بالا بستگی دارد. اول، بر خلاف مدلهای نقاشی قبلی (مانند پالت، توجه زمینه، پیچیدگی دروازهای) که ماسکهای جعبه تصادفی و ضربهای را اعمال میکنند، ویرایشگر Imagen یک خطمشی پوشاندن آشکارساز شی با ماژول آشکارساز شی را به کار میگیرد که ماسکهای شی را در طول آموزش تولید میکند. ماسکهای آبجکت بر اساس اشیاء شناساییشده بهجای وصلههای تصادفی هستند و امکان تراز اصولیتر بین دستورهای ویرایش متن و مناطق پوشانده شده را فراهم میکنند. از نظر تجربی، این روش به مدل کمک می کند تا از مشکل رایج نادیده گرفته شدن پیام متنی در زمانی که مناطق پوشانده شده کوچک هستند یا فقط تا حدی یک شی را پوشش می دهند (به عنوان مثال، CogView2) جلوگیری کند.
![]() |
ماسک های تصادفی (ترک کرد) اغلب پسزمینه را ثبت میکنند یا مرزهای اشیاء را قطع میکنند، و مناطقی را که میتوان بهطور قابل قبولی تنها از بافت تصویر نقاشی کرد، تعریف کرد. ماسک های اشیا (درست) تنها از روی زمینه تصویر، رنگ آمیزی سخت تر است، و مدل ها را تشویق می کند که در طول آموزش بیشتر به ورودی های متن تکیه کنند. |
سپس، در طول آموزش و استنتاج، ویرایشگر Imagen ویرایش با وضوح بالا را با شرطی کردن وضوح کامل (1024×1024 در این کار)، الحاق کانال تصویر ورودی و ماسک (شبیه به SR3، پالت، و GLIDE) بهبود میبخشد. برای مدل انتشار پایه 64 × 64 و مدل های 64 × 64 → 256 × 256 با وضوح فوق العاده، ما یک پیچش نمونه برداری پایین پارامتری را اعمال می کنیم (به عنوان مثال، پیچش با یک گام)، که ما به طور تجربی دریافتیم که برای وفاداری بالا حیاتی است.
![]() |
Imagen برای ویرایش تصویر به خوبی تنظیم شده است. همه مدلهای انتشار، یعنی مدل پایه و مدلهای با وضوح فوقالعاده (SR)، مشروط به ورودیهای تصویر و ماسک با وضوح بالا ۱۰۲۴×۱۰۲۴ هستند. برای این منظور، رمزگذارهای تصویر کانولوشنال جدید معرفی شده اند. |
در نهایت، در استنباط، هدایت بدون طبقهبندی (CFG) را برای نمونههای سوگیری به یک شرطیسازی خاص، در این مورد، درخواستهای متنی اعمال میکنیم. CFG بین پیشبینیهای مدل مشروط متن و غیرشرطی میانیابی میکند تا از همترازی قوی بین تصویر تولید شده و متن ورودی برای نقاشی تصویر هدایتشده با متن اطمینان حاصل کند. ما از Imagen Video پیروی می کنیم و از وزنه های هدایت بالا با نوسان هدایت استفاده می کنیم (برنامه هدایتی که در محدوده ارزشی وزن های هدایت نوسان می کند). در مدل پایه (سطح 1 انتشار 64x)، جایی که اطمینان از همسویی قوی با متن بسیار مهم است، از یک برنامه وزن راهنمایی استفاده می کنیم که بین 1 تا 30 نوسان دارد. مشاهده می کنیم که وزن های هدایت بالا همراه با هدایت نوسانی بهترین نتیجه را دارند. مبادله بین وفاداری نمونه و تراز متن-تصویر.
EditBench
مجموعه داده EditBench برای ارزیابی نقاشی تصویر هدایتشده با متن شامل 240 تصویر، با 120 تصویر تولید شده و 120 تصویر طبیعی است. تصاویر تولید شده توسط Parti سنتز می شوند و تصاویر طبیعی از مجموعه داده های Visual Genome و Open Images استخراج می شوند. EditBench طیف گسترده ای از زبان، انواع تصویر، و سطوح ویژه متن (به عنوان مثال، زیرنویس ساده، غنی و کامل) را ضبط می کند. هر مثال شامل (1) یک تصویر ورودی پوشانده شده، (2) یک پیام متنی ورودی، و (3) یک تصویر خروجی با کیفیت بالا است که به عنوان مرجع برای معیارهای خودکار استفاده می شود. برای ارائه بینشی نسبت به نقاط قوت و ضعف نسبی مدلهای مختلف، دستورات EditBench برای آزمایش جزئیات دقیق در سه دسته طراحی شدهاند: (1) ویژگیها (مانند مواد، رنگ، شکل، اندازه، تعداد). (2) انواع شی (به عنوان مثال، رایج، نادر، رندر متن). و (3) صحنه ها (به عنوان مثال، داخل خانه، خارج از منزل، واقع گرایانه، یا نقاشی). برای درک اینکه چگونه مشخصات مختلف اعلانها بر عملکرد مدل تأثیر میگذارند، ما سه نوع اعلان متنی ارائه میکنیم: یک ویژگی تکویژگی (Mask Simple) یا یک توصیف چند ویژگی از شی ماسکشده (Mask Rich) – یا یک توضیح کامل تصویر (تصویر کامل) . Mask Rich، به ویژه، توانایی مدلها را برای مدیریت اتصال و گنجاندن ویژگیهای پیچیده بررسی میکند.
![]() |
تصویر کامل به عنوان مرجعی برای نقاشی موفق استفاده می شود. ماسک شی مورد نظر را با شکلی آزاد و بدون اشاره می پوشاند. ما اعلانهای Mask Simple، Mask Rich و Full Image را مطابق با مدلهای معمولی متن به تصویر ارزیابی میکنیم. |
با توجه به ضعف های ذاتی در معیارهای ارزیابی خودکار موجود (CLIPScore و CLIP-R-Precision) برای TGIE، ما ارزیابی انسانی را به عنوان استاندارد طلایی برای EditBench در نظر می گیریم. در بخش زیر، نحوه اعمال EditBench برای ارزیابی مدل را نشان میدهیم.
ارزیابی
ما مدل ویرایشگر Imagen – با پوشش شی (IM) و با پوشش تصادفی (IM-RM) – در برابر مدلهای قابل مقایسه، انتشار پایدار (SD) و DALL-E 2 (DL2) ارزیابی میکنیم. Imagen Editor با حواشی قابل توجهی در تمام دسته های ارزیابی EditBench از این مدل ها بهتر عمل می کند.
برای درخواست تصویر کامل، ارزیابی انسانی تک تصویری پاسخ های دودویی را برای تأیید اینکه آیا تصویر با عنوان مطابقت دارد ارائه می دهد. برای درخواستهای Mask Simple، ارزیابی انسان تک تصویری تأیید میکند که آیا شیء و ویژگی به درستی رندر شدهاند یا خیر (مثلاً برای یک گربه قرمز، یک گربه سفید روی میز قرمز یک اتصال نادرست است). ارزیابی انسان در کنار هم از دستورات Mask Rich فقط برای مقایسه کنار هم بین IM و هر یک از سه مدل دیگر (IM-RM، DL2 و SD) استفاده میکند و نشان میدهد که کدام تصویر با عنوان برای تراز کردن متن و تصویر بهتر مطابقت دارد، و کدام تصویر. واقع بینانه ترین است
![]() |
ارزیابی انسانی تصویر کامل باعث می شود برداشت کلی حاشیه نویسان از تراز متن-تصویر ایجاد شود. Mask Simple و Mask Rich برای درج صحیح ویژگیهای خاص، اشیاء و اتصال ویژگی بررسی میشوند. |
برای ارزیابی انسان تک تصویری، IM بالاترین رتبهبندی را در سراسر جهان دریافت میکند (10 تا 13 درصد بالاتر از مدل دوم با بالاترین عملکرد). برای بقیه، ترتیب عملکرد IM-RM > DL2 > SD (با 3-6٪ اختلاف) است به جز با Mask Simple که IM-RM 4-8٪ عقب است. از آنجایی که محتوای معنایی نسبتاً بیشتری در Full و Mask Rich درگیر می شود، حدس می زنیم IM-RM و IM از کدگذار متنی T5 XXL با عملکرد بالاتر بهره مند شوند.
![]() |
ارزیابیهای انسانی تکتصویری از نقاشی تصویر هدایتشده با متن در EditBench با نوع سریع. برای اعلانهای Mask Simple و Mask Rich، تراز متن-تصویر درست است اگر تصویر ویرایش شده به طور دقیق شامل هر ویژگی و شی مشخص شده در اعلان، از جمله صحافی ویژگی صحیح باشد. توجه داشته باشید که به دلیل طراحیهای مختلف ارزیابی، درخواستهای کامل در مقابل ماسک، نتایج کمتر مستقیماً قابل مقایسه هستند. |
EditBench بر حاشیه نویسی ریز تمرکز دارد، بنابراین ما مدل ها را برای انواع شی و ویژگی ارزیابی می کنیم. برای انواع شیها، IM در همه دستهها پیشتاز است، که 10 تا 11 درصد بهتر از مدل دوم با بالاترین عملکرد در مشترک، کمیاب و رندر متن عمل میکند.
![]() |
ارزیابی های انسانی تک تصویری در EditBench Mask Simple بر اساس نوع شی. به عنوان یک گروه، مدل ها در رندر شی بهتر از رندر متن هستند. |
برای انواع ویژگی، IM بسیار بالاتر (13-16٪) از دومین مدل با بالاترین عملکرد رتبه بندی شده است، به جز در تعداد، که در آن DL2 فقط 1٪ عقب است.
![]() |
ارزیابی های انسانی تک تصویری در EditBench Mask Simple بر اساس نوع ویژگی. پوشاندن شیء باعث بهبود پایبندی به ویژگی های سریع در سراسر صفحه (IM در مقابل IM-RM) می شود. |
در مقایسه با مدلهای دیگر یک در مقابل یک، IM در تراز متن با حاشیه قابل توجهی پیشتاز است، که توسط حاشیهنویسها در مقایسه با SD، DL2 و IM-RM ترجیح داده میشود.
![]() |
ارزیابی کنار به پهلوی انسان از واقع گرایی تصویر و تراز متن-تصویر در دستورات EditBench Mask Rich. برای تراز متن-تصویر، ویرایشگر Imagen در همه مقایسه ها ترجیح داده می شود. |
در نهایت، ما یک مقایسهای در کنار هم برای همه مدلها را نشان میدهیم. برای نمونه های بیشتر به مقاله مراجعه کنید.
![]() |
نمونه خروجی های مدل برای دستورهای Mask Simple در مقابل Mask Rich. پوشاندن اشیا در مقایسه با مدل مشابهی که با پوشش تصادفی آموزش داده شده است، پایبندی دقیق ویرایشگر Imagen به دستور را بهبود می بخشد. |
نتیجه
ما Imagen Editor و EditBench را ارائه کردیم، که پیشرفت های قابل توجهی در نقاشی تصویر هدایت شده با متن و ارزیابی آن ایجاد کرد. Imagen Editor یک تصویر هدایت شده با متن است که به خوبی از Imagen تنظیم شده است. EditBench یک معیار سیستماتیک جامع برای نقاشی تصویر با هدایت متنی است که عملکرد را در ابعاد مختلف ارزیابی می کند: ویژگی ها، اشیا و صحنه ها. توجه داشته باشید که به دلیل نگرانی در رابطه با هوش مصنوعی مسئول، ویرایشگر Imagen را برای عموم منتشر نمی کنیم. از طرف دیگر EditBench به طور کامل به نفع جامعه تحقیقاتی منتشر شده است.
قدردانی ها
از گونجان باید، نیکول بریشتووا، سارا مهدوی، کتی مایر-هلسترن، زارانا پرخ، آنوشا رامش، تریس وارکنتین، آستین واترز، و ویجی واسودوان برای حمایت سخاوتمندانهشان تشکر میکنیم. ما از ایگور کارپوف، ایزابل کراوس-لیانگ، راگاوا رام پامیدیگانتام، ماهش مدینالا، و همه حاشیه نویسان ناشناس انسانی برای هماهنگی آنها برای تکمیل وظایف ارزیابی انسانی تشکر می کنیم. ما از Huiwen Chang، Austin Tarango و Douglas Eck برای ارائه بازخورد کاغذی سپاسگزاریم. با تشکر از اریکا موریرا و ویکتور گومز برای کمک در هماهنگی منابع. در نهایت، از نویسندگان DALL-E 2 که به ما اجازه دادند تا از خروجی های مدل خود برای اهداف تحقیقاتی استفاده کنیم، تشکر می کنیم.