علاوه بر Imagen، گوگل یک مولد متن به تصویر دیگر به نام Parti نیز دارد که برای فوتورئالیسم اما با استفاده از خانواده متفاوتی از مدلهای مولد تلاش میکند.
Pathways Autoregressive Text-to-Image (Parti) از یک مدل خود رگرسیون استفاده می کند که می تواند از پیشرفت در مدل های زبان بزرگ بهره مند شود. برای مقایسه، Imagen از Diffusion استفاده میکند، جایی که مدل یاد میگیرد الگوی نقاط تصادفی را به تصاویر تبدیل کند.
رویکرد Parti ابتدا مجموعه ای از تصاویر را به دنباله ای از ورودی های کد، شبیه به قطعات پازل تبدیل می کند. سپس یک اعلان متنی به این ورودی های کد ترجمه می شود و یک تصویر جدید ایجاد می شود. این رویکرد از تحقیقات و زیرساختهای موجود برای مدلهای زبان بزرگ مانند PalM بهره میبرد و برای مدیریت پیامهای متنی طولانی و پیچیده و تولید تصاویر با کیفیت بسیار مهم است.
گوگل متوجه شد که Parti میتواند پیامهای طولانی و پیچیده را مدیریت کند که:
- منعکس کننده دقیق دانش جهان
- از تعداد زیادی شرکت کننده و اشیاء، با جزئیات و تعاملات دقیق تشکیل شده است
- به یک قالب و سبک تصویر خاص پایبند باشید
مانند Imagen، گوگل تصمیم گرفته است که «مدلها، کدها یا دادههای Parti» را برای استفاده عمومی و بدون وجود حفاظتهای بیشتر منتشر نکند. تمام تصاویر در گوشه پایین سمت راست واترمارک شده اند.
مدلهای کنونی مانند Parti بر روی مجموعه دادههای متنی تصویری بزرگ، اغلب پر سر و صدا، آموزش داده میشوند که حاوی سوگیریهایی در مورد افراد با پیشینههای مختلف هستند. این امر باعث میشود که چنین مدلهایی، از جمله پارتی، بازنماییهای کلیشهای از افرادی تولید کنند که به عنوان مثال وکیل، مهماندار هواپیما، خانهدار و غیره توصیف میشوند و تعصبات غربی را برای رویدادهایی مانند عروسی منعکس کنند.
گوگل در حال کاوش در این زمینه است و فکر می کند ابزارهایی مانند این “می توانند خلاقیت مشترک انسان و کامپیوتر را باز کنند.” مقاله تحقیقاتی کامل برای Parti در اینجا موجود است، در حالی که وب سایت تعاملی به شما امکان می دهد تا درخواست های کلمه را تغییر دهید.
هدف ما ارائه تجربیات کاربر مبتنی بر این مدل ها به جهان به روشی ایمن و مسئولانه است که خلاقیت را برانگیزد.
FTC: ما از پیوندهای وابسته خودکار برای کسب درآمد استفاده می کنیم. بیشتر.
برای اخبار بیشتر، 9to5Google را در YouTube بررسی کنید: