یک مدل زبان بزرگ برای تولید ویدیو بدون شات – وبلاگ تحقیقاتی گوگل

یک مدل زبان بزرگ برای تولید ویدیو بدون شات – وبلاگ تحقیقاتی گوگل

موجی از مدل‌های تولید ویدیو اخیراً به صحنه آمده است و در بسیاری از موارد کیفیت خیره‌کننده‌ای را به نمایش می‌گذارد. یکی از تنگناهای فعلی در تولید ویدئو، توانایی تولید حرکات بزرگ منسجم است. در بسیاری از موارد، حتی مدل‌های پیشرو فعلی یا حرکت کوچک ایجاد می‌کنند یا هنگام تولید حرکات بزرگ‌تر، مصنوعات قابل توجهی را به نمایش می‌گذارند.

برای بررسی کاربرد مدل‌های زبان در تولید ویدیو، VideoPoet را معرفی می‌کنیم، یک مدل زبان بزرگ (LLM) که قادر به انجام کارهای مختلف تولید ویدیو از جمله متن به ویدیو، تصویر به ویدیو، سبک‌سازی ویدیو، نقاشی درونی و بیرونی و تصویری به صدا. یکی از مشاهدات قابل توجه این است که مدل های تولید ویدیوی پیشرو تقریباً منحصراً مبتنی بر انتشار هستند (برای مثال، Imagen Video را ببینید). از سوی دیگر، LLM به طور گسترده ای به عنوان شناخته شده است در حقیقت استاندارد به دلیل قابلیت های یادگیری استثنایی آنها در روش های مختلف، از جمله زبان، کد، و صدا (به عنوان مثال، AudioPaLM). برخلاف مدل‌های جایگزین در این فضا، رویکرد ما به‌جای تکیه بر مؤلفه‌های آموزش‌دیده جداگانه‌ای که در هر کار تخصص دارند، بسیاری از قابلیت‌های تولید ویدیو را در یک LLM یکپارچه ادغام می‌کند.

برای مشاهده نمونه های بیشتر با کیفیت اصلی به دمو وب سایت مراجعه کنید.

بررسی اجمالی

نمودار زیر قابلیت های VideoPoet را نشان می دهد. تصاویر ورودی را می توان برای تولید حرکت متحرک کرد، و ویدیو (به صورت اختیاری برش یا ماسک) را می توان برای نقاشی داخلی یا خارج از آن ویرایش کرد. برای سبک‌سازی، این مدل ویدئویی را می‌گیرد که عمق و جریان نوری را نشان می‌دهد، که نشان‌دهنده حرکت است، و محتواها را در بالا برای تولید سبک هدایت‌شده متنی رنگ می‌کند.

مروری بر VideoPoet، قادر به انجام چند کار بر روی انواع ورودی ها و خروجی های ویدئو محور است. LLM به صورت اختیاری می‌تواند متن را به عنوان ورودی برای هدایت تولید برای کارهای تبدیل متن به ویدیو، تصویر به ویدیو، تبدیل ویدیو به صدا، سبک‌سازی و نقاشی بیرونی دریافت کند. منابع مورد استفاده: Wikimedia Commons و DAVIS.

مدل های زبان به عنوان تولید کننده ویدیو

یکی از مزیت‌های کلیدی استفاده از LLM برای آموزش این است که می‌توان از بسیاری از بهبودهای کارایی مقیاس‌پذیری که در زیرساخت‌های آموزشی LLM موجود معرفی شده‌اند، دوباره استفاده کرد. با این حال، LLM ها بر روی توکن های گسسته عمل می کنند، که می تواند تولید ویدئو را چالش برانگیز کند. خوشبختانه، توکن سازهای ویدیویی و صوتی وجود دارد که برای رمزگذاری کلیپ های ویدیویی و صوتی به عنوان دنباله ای از نشانه های گسسته (به عنوان مثال، شاخص های اعداد صحیح) عمل می کنند، و همچنین می توانند به نمایش اصلی تبدیل شوند.

VideoPoet یک مدل زبان اتورگرسیو را آموزش می دهد تا از طریق استفاده از توکنایزرهای متعدد (MAGVIT V2 برای ویدیو و تصویر و SoundStream برای صدا) در بین روش های ویدئو، تصویر، صدا و متن بیاموزد. هنگامی که مدل توکن‌هایی را با شرایطی ایجاد می‌کند، می‌توان آن‌ها را به یک نمایش قابل مشاهده با رمزگشاهای توکنایزر تبدیل کرد.

نگاهی دقیق به طراحی وظیفه VideoPoet، آموزش و استنتاج ورودی ها و خروجی های وظایف مختلف را نشان می دهد. مدالیته ها با استفاده از رمزگذار رمزگذار و رمزگشا به توکن ها و از آنها تبدیل می شوند. هر مدالیته توسط نشانه های مرزی احاطه شده است و یک نشانه وظیفه نشان دهنده نوع کار برای انجام است.

نمونه های تولید شده توسط VideoPoet

برخی از نمونه های تولید شده توسط مدل ما در زیر نشان داده شده است.

ویدیوهای تولید شده توسط VideoPoet از اعلان های متنی مختلف. برای پیام های متنی خاص به وب سایت مراجعه کنید.

برای تبدیل متن به ویدئو، خروجی‌های ویدئو دارای طول متغیر هستند و می‌توانند طیف وسیعی از حرکات و سبک‌ها را بسته به محتوای متن اعمال کنند. برای اطمینان از اقدامات مسئولانه، به آثار هنری و سبک‌های موجود در حوزه عمومی اشاره می‌کنیم، مانند «شب پرستاره» ون گوگ.

ورودی متن “رقص راکون در میدان تایمز” «اسبی که در «شب پر ستاره» ون گوگ تاخت می‌زند» “دو پاندا در حال ورق بازی” “یک حباب بزرگ از رنگین کمان در حال انفجار، با یک سیب در حال ظهور، 8k”
خروجی تصویری

برای تبدیل تصویر به ویدئو، VideoPoet می تواند تصویر ورودی را بگیرد و با یک اعلان متحرک کند.

نمونه ای از تصویر به ویدیو با متن دستور می دهد تا حرکت را هدایت کند. هر ویدیو با یک تصویر در سمت چپ خود جفت می شود. ترک کرد: “کشتی در حال حرکت در دریاهای مواج، رعد و برق و رعد و برق، انیمیشن روغن روی بوم”. وسط: “پرواز در میان سحابی با ستاره های چشمک زن”. درست: «سرگردانی روی صخره‌ای با عصا به مه چرخان دریا در یک روز بادخیز نگاه می‌کند». مرجع: Wikimedia Commons، مالکیت عمومی**.

برای سبک‌سازی ویدیو، جریان نوری و اطلاعات عمق را قبل از وارد کردن به VideoPoet با مقداری متن ورودی اضافی پیش‌بینی می‌کنیم.

نمونه‌هایی از سبک‌سازی ویدیو در بالای ویدیوهای VideoPoet که از متن به ویدیو تولید می‌شوند با اعلان‌های متنی، عمق و جریان نوری که به عنوان شرطی‌سازی استفاده می‌شوند. ویدیوی سمت چپ در هر جفت ویدیوی ورودی است، سمت راست خروجی سبک است. ترک کرد: “وومبات با عینک آفتابی در حالی که یک توپ ساحلی را در ساحل آفتابی نگه داشته است.” وسط: “خرس های عروسکی در حال اسکیت روی یخ روی یک دریاچه یخ زده شفاف.” درست: «شیر فلزی که در پرتو آهنگری غرش می کند».

VideoPoet همچنین قادر به تولید صدا است. در اینجا ابتدا کلیپ های 2 ثانیه ای از مدل تولید می کنیم و سپس سعی می کنیم صدا را بدون هیچ گونه راهنمایی متنی پیش بینی کنیم. این امکان تولید ویدئو و صدا از یک مدل را فراهم می کند.

نمونه‌ای از ویدیو به صدا، تولید صدا از یک مثال ویدیویی بدون هیچ ورودی متنی.

به‌طور پیش‌فرض، مدل VideoPoet ویدیوها را در جهت عمودی تولید می‌کند تا خروجی‌های خود را به سمت محتوای کوتاه‌مطالب تنظیم کند. برای نشان دادن توانایی های آن، فیلم کوتاهی متشکل از بسیاری از کلیپ های کوتاه تولید شده توسط VideoPoet تولید کرده ایم. برای فیلمنامه، از بارد خواستیم که داستان کوتاهی در مورد یک راکون مسافرتی با تفکیک صحنه به صحنه و فهرستی از اعلان‌های همراه بنویسد. سپس برای هر درخواست کلیپ های ویدیویی تولید کردیم و همه کلیپ های به دست آمده را برای تولید ویدیوی نهایی زیر به هم چسباندیم.

هنگامی که VideoPoet را توسعه دادیم، متوجه برخی ویژگی های خوب از قابلیت های این مدل شدیم که در زیر به آنها اشاره می کنیم.

ویدیوی طولانی

ما می‌توانیم با شرطی کردن ۱ ثانیه آخر ویدیو و پیش‌بینی ۱ ثانیه بعدی، ویدیوهای طولانی‌تری تولید کنیم. با زنجیر کردن این موارد به طور مکرر، نشان می‌دهیم که این مدل نه تنها می‌تواند ویدیو را به خوبی گسترش دهد، بلکه ظاهر همه اشیا را حتی در چندین تکرار نیز صادقانه حفظ می‌کند.

در اینجا دو نمونه از VideoPoet که ویدیوی طولانی را از ورودی متن تولید می کند آورده شده است:

ورودی متن “یک فضانورد شروع به رقصیدن در مریخ می کند. سپس آتش بازی های رنگارنگ در پس زمینه منفجر می شوند.” فیلم FPV از یک شهر سنگی بسیار تیز الف در جنگل با رودخانه آبی درخشان، آبشار، و صخره های عمودی شیب دار بزرگ.
خروجی تصویری

همچنین امکان ویرایش تعاملی کلیپ های ویدیویی موجود تولید شده توسط VideoPoet وجود دارد. اگر یک ویدیوی ورودی ارائه کنیم، می‌توانیم حرکت اجسام را برای انجام اعمال مختلف تغییر دهیم. دستکاری شی را می توان در فریم اول یا فریم های میانی متمرکز کرد که امکان کنترل درجه بالایی از ویرایش را فراهم می کند.

به عنوان مثال، می‌توانیم به‌طور تصادفی چند کلیپ از ویدیوی ورودی تولید کنیم و کلیپ بعدی مورد نظر را انتخاب کنیم.

یک ویدیوی ورودی در سمت چپ به‌عنوان تهویه برای ایجاد چهار انتخاب با توجه به درخواست اولیه استفاده می‌شود: «نمای نزدیک از یک ربات استیمپانک شکسته و زنگ‌زده دوست‌داشتنی پوشیده از خزه‌ای مرطوب و گیاهی جوانه زده، احاطه شده با علف‌های بلند». برای سه خروجی اول نشان می‌دهیم که برای حرکات بی‌نتیجه چه اتفاقی می‌افتد. برای آخرین ویدیو در لیست زیر، برای هدایت عمل به دستور «روشن کردن با دود در پس‌زمینه» اضافه می‌کنیم.

کنترل تصویر به ویدئو

به طور مشابه، می‌توانیم حرکت را روی یک تصویر ورودی اعمال کنیم تا محتویات آن را به حالت دلخواه، مشروط به یک اعلان متن، ویرایش کنیم.

متحرک سازی یک نقاشی با اعلان های مختلف. ترک کرد: “زنی که برمی گردد تا به دوربین نگاه کند.” درست: “زنی در حال خمیازه کشیدن.” **

حرکت دوربین

همچنین می‌توانیم با افزودن نوع حرکت دوربین مورد نظر به پیام متنی، حرکات دوربین را به دقت کنترل کنیم. به عنوان مثال، ما یک تصویر توسط مدل خود با اعلان ایجاد کردیم، “هنر مفهومی بازی ماجراجویی طلوع خورشید بر فراز یک کوه برفی در کنار رودخانه ای شفاف”. مثال های زیر پسوند متن داده شده را برای اعمال حرکت مورد نظر اضافه می کنند.

درخواست‌ها از چپ به راست: «بزرگ‌نمایی»، «بزرگ‌نمایی دالی»، «جنبش به چپ»، «شات قوس»، «شات جرثقیل»، «عکس از هواپیمای بدون سرنشین FPV».

نتایج ارزیابی

ما VideoPoet را بر روی تولید متن به ویدئو با معیارهای مختلفی ارزیابی می کنیم تا نتایج را با رویکردهای دیگر مقایسه کنیم. برای اطمینان از ارزیابی خنثی، ما همه مدل‌ها را بر اساس تنوع گسترده‌ای از اعلان‌ها بدون نمونه‌های گیلاس‌چینی اجرا کردیم و از مردم خواستیم اولویت‌های خود را ارزیابی کنند. شکل زیر درصد زمانی را که VideoPoet به عنوان گزینه ترجیحی سبز برای سوالات زیر انتخاب شده است، نشان می دهد.

وفاداری متن

رتبه‌بندی‌های ترجیحی کاربر برای وفاداری متن، به‌عنوان مثال، چند درصد از ویدیوها از نظر دنبال کردن دقیق یک درخواست ترجیح داده می‌شوند.

جذابیت حرکت

رتبه‌بندی ترجیحی کاربر برای جذابیت حرکت، یعنی چند درصد از ویدیوها از نظر تولید حرکت جالب ترجیح داده می‌شوند.

بر اساس موارد فوق، افراد به طور متوسط ​​24 تا 35 درصد از نمونه ها را از VideoPoet به عنوان اعلان های زیر بهتر از مدل های رقیب در مقابل 8 تا 11 درصد برای مدل های رقیب انتخاب کردند. ارزیابان همچنین 41 تا 54 درصد از نمونه های VideoPoet را برای حرکت جالب تر از 11 تا 21 درصد برای سایر مدل ها ترجیح می دهند.

نتیجه

از طریق VideoPoet، ما کیفیت بسیار رقابتی تولید ویدیوی LLM را در طیف گسترده ای از وظایف، به ویژه در تولید حرکات جالب و با کیفیت بالا در داخل ویدیوها نشان داده ایم. نتایج ما پتانسیل امیدوارکننده LLM ها را در زمینه تولید ویدیو نشان می دهد. برای مسیرهای آتی، چارچوب ما باید بتواند از نسل «هر به هر» پشتیبانی کند، به عنوان مثال، گسترش متن به صدا، صوتی به تصویر، و زیرنویس ویدیویی، در میان بسیاری دیگر، ممکن است.

برای مشاهده نمونه های بیشتر با کیفیت اصلی به دمو وب سایت مراجعه کنید.

سپاسگزاریها

این تحقیق توسط تعداد زیادی از مشارکت کنندگان از جمله دن کوندراتیوک، لیجون یو، ژیویه گو، خوزه لزاما، جاناتان هوانگ، راشل هورنونگ، هارتویگ آدام، حسن اکبری، یایر آلون، ویگنش بیرودکار، یونگ چنگ، مینگ چانگ چیو حمایت شده است. جاش دیلون، عرفان ایسا، آگریم گوپتا، میرا هان، آنیا هاوث، دیوید هندون، آلونسو مارتینز، دیوید مینن، دیوید راس، گرانت شیندلر، میخائیل سیروتنکو، کیهیوک سون، کریشنا سوماندپالی، هوی‌شنگ وانگ، جیمی‌وان یان، مینگ-اچ ژوان یانگ، برایان سیبولد و لو جیانگ.

ما از الکس سیگمن و ویکتور گومز برای مدیریت منابع محاسباتی تشکر ویژه ای داریم. همچنین از آرن یانسن، مارکو تالیاساکی، نیل زگیدور، جان هرشی برای توکن‌سازی و پردازش صدا، آنگاد سینگ برای استوری‌برد در «راکون تازه کار»، کوردلیا اشمید برای بحث‌های پژوهشی، آلونسو مارتینز برای طراحی گرافیک، دیوید سالسین، توماس ایزو تشکر می‌کنیم. و راهول سوکتانکار برای حمایتشان و جی یاگنیک به عنوان معمار کانسپت اولیه.

**

(الف) طوفان در دریای گالیله، اثر رامبراند 1633، مالکیت عمومی.

(ب) Pillars of Creation، توسط ناسا 2014، مالکیت عمومی.

(ج) سرگردان بر فراز دریای مه، اثر کاسپار دیوید فردریش، 1818، مالکیت عمومی

(د) مونالیزا، اثر لئوناردو داوینچی، 1503، مالکیت عمومی.