موجی از مدلهای تولید ویدیو اخیراً به صحنه آمده است و در بسیاری از موارد کیفیت خیرهکنندهای را به نمایش میگذارد. یکی از تنگناهای فعلی در تولید ویدئو، توانایی تولید حرکات بزرگ منسجم است. در بسیاری از موارد، حتی مدلهای پیشرو فعلی یا حرکت کوچک ایجاد میکنند یا هنگام تولید حرکات بزرگتر، مصنوعات قابل توجهی را به نمایش میگذارند.
برای بررسی کاربرد مدلهای زبان در تولید ویدیو، VideoPoet را معرفی میکنیم، یک مدل زبان بزرگ (LLM) که قادر به انجام کارهای مختلف تولید ویدیو از جمله متن به ویدیو، تصویر به ویدیو، سبکسازی ویدیو، نقاشی درونی و بیرونی و تصویری به صدا. یکی از مشاهدات قابل توجه این است که مدل های تولید ویدیوی پیشرو تقریباً منحصراً مبتنی بر انتشار هستند (برای مثال، Imagen Video را ببینید). از سوی دیگر، LLM به طور گسترده ای به عنوان شناخته شده است در حقیقت استاندارد به دلیل قابلیت های یادگیری استثنایی آنها در روش های مختلف، از جمله زبان، کد، و صدا (به عنوان مثال، AudioPaLM). برخلاف مدلهای جایگزین در این فضا، رویکرد ما بهجای تکیه بر مؤلفههای آموزشدیده جداگانهای که در هر کار تخصص دارند، بسیاری از قابلیتهای تولید ویدیو را در یک LLM یکپارچه ادغام میکند.
برای مشاهده نمونه های بیشتر با کیفیت اصلی به دمو وب سایت مراجعه کنید.
بررسی اجمالی
نمودار زیر قابلیت های VideoPoet را نشان می دهد. تصاویر ورودی را می توان برای تولید حرکت متحرک کرد، و ویدیو (به صورت اختیاری برش یا ماسک) را می توان برای نقاشی داخلی یا خارج از آن ویرایش کرد. برای سبکسازی، این مدل ویدئویی را میگیرد که عمق و جریان نوری را نشان میدهد، که نشاندهنده حرکت است، و محتواها را در بالا برای تولید سبک هدایتشده متنی رنگ میکند.
مروری بر VideoPoet، قادر به انجام چند کار بر روی انواع ورودی ها و خروجی های ویدئو محور است. LLM به صورت اختیاری میتواند متن را به عنوان ورودی برای هدایت تولید برای کارهای تبدیل متن به ویدیو، تصویر به ویدیو، تبدیل ویدیو به صدا، سبکسازی و نقاشی بیرونی دریافت کند. منابع مورد استفاده: Wikimedia Commons و DAVIS. |
مدل های زبان به عنوان تولید کننده ویدیو
یکی از مزیتهای کلیدی استفاده از LLM برای آموزش این است که میتوان از بسیاری از بهبودهای کارایی مقیاسپذیری که در زیرساختهای آموزشی LLM موجود معرفی شدهاند، دوباره استفاده کرد. با این حال، LLM ها بر روی توکن های گسسته عمل می کنند، که می تواند تولید ویدئو را چالش برانگیز کند. خوشبختانه، توکن سازهای ویدیویی و صوتی وجود دارد که برای رمزگذاری کلیپ های ویدیویی و صوتی به عنوان دنباله ای از نشانه های گسسته (به عنوان مثال، شاخص های اعداد صحیح) عمل می کنند، و همچنین می توانند به نمایش اصلی تبدیل شوند.
VideoPoet یک مدل زبان اتورگرسیو را آموزش می دهد تا از طریق استفاده از توکنایزرهای متعدد (MAGVIT V2 برای ویدیو و تصویر و SoundStream برای صدا) در بین روش های ویدئو، تصویر، صدا و متن بیاموزد. هنگامی که مدل توکنهایی را با شرایطی ایجاد میکند، میتوان آنها را به یک نمایش قابل مشاهده با رمزگشاهای توکنایزر تبدیل کرد.
نگاهی دقیق به طراحی وظیفه VideoPoet، آموزش و استنتاج ورودی ها و خروجی های وظایف مختلف را نشان می دهد. مدالیته ها با استفاده از رمزگذار رمزگذار و رمزگشا به توکن ها و از آنها تبدیل می شوند. هر مدالیته توسط نشانه های مرزی احاطه شده است و یک نشانه وظیفه نشان دهنده نوع کار برای انجام است. |
نمونه های تولید شده توسط VideoPoet
برخی از نمونه های تولید شده توسط مدل ما در زیر نشان داده شده است.
ویدیوهای تولید شده توسط VideoPoet از اعلان های متنی مختلف. برای پیام های متنی خاص به وب سایت مراجعه کنید. |
برای تبدیل متن به ویدئو، خروجیهای ویدئو دارای طول متغیر هستند و میتوانند طیف وسیعی از حرکات و سبکها را بسته به محتوای متن اعمال کنند. برای اطمینان از اقدامات مسئولانه، به آثار هنری و سبکهای موجود در حوزه عمومی اشاره میکنیم، مانند «شب پرستاره» ون گوگ.
ورودی متن | “رقص راکون در میدان تایمز” | «اسبی که در «شب پر ستاره» ون گوگ تاخت میزند» | “دو پاندا در حال ورق بازی” | “یک حباب بزرگ از رنگین کمان در حال انفجار، با یک سیب در حال ظهور، 8k” | ||||
خروجی تصویری |
برای تبدیل تصویر به ویدئو، VideoPoet می تواند تصویر ورودی را بگیرد و با یک اعلان متحرک کند.
نمونه ای از تصویر به ویدیو با متن دستور می دهد تا حرکت را هدایت کند. هر ویدیو با یک تصویر در سمت چپ خود جفت می شود. ترک کرد: “کشتی در حال حرکت در دریاهای مواج، رعد و برق و رعد و برق، انیمیشن روغن روی بوم”. وسط: “پرواز در میان سحابی با ستاره های چشمک زن”. درست: «سرگردانی روی صخرهای با عصا به مه چرخان دریا در یک روز بادخیز نگاه میکند». مرجع: Wikimedia Commons، مالکیت عمومی**. |
برای سبکسازی ویدیو، جریان نوری و اطلاعات عمق را قبل از وارد کردن به VideoPoet با مقداری متن ورودی اضافی پیشبینی میکنیم.
نمونههایی از سبکسازی ویدیو در بالای ویدیوهای VideoPoet که از متن به ویدیو تولید میشوند با اعلانهای متنی، عمق و جریان نوری که به عنوان شرطیسازی استفاده میشوند. ویدیوی سمت چپ در هر جفت ویدیوی ورودی است، سمت راست خروجی سبک است. ترک کرد: “وومبات با عینک آفتابی در حالی که یک توپ ساحلی را در ساحل آفتابی نگه داشته است.” وسط: “خرس های عروسکی در حال اسکیت روی یخ روی یک دریاچه یخ زده شفاف.” درست: «شیر فلزی که در پرتو آهنگری غرش می کند». |
VideoPoet همچنین قادر به تولید صدا است. در اینجا ابتدا کلیپ های 2 ثانیه ای از مدل تولید می کنیم و سپس سعی می کنیم صدا را بدون هیچ گونه راهنمایی متنی پیش بینی کنیم. این امکان تولید ویدئو و صدا از یک مدل را فراهم می کند.
نمونهای از ویدیو به صدا، تولید صدا از یک مثال ویدیویی بدون هیچ ورودی متنی. |
بهطور پیشفرض، مدل VideoPoet ویدیوها را در جهت عمودی تولید میکند تا خروجیهای خود را به سمت محتوای کوتاهمطالب تنظیم کند. برای نشان دادن توانایی های آن، فیلم کوتاهی متشکل از بسیاری از کلیپ های کوتاه تولید شده توسط VideoPoet تولید کرده ایم. برای فیلمنامه، از بارد خواستیم که داستان کوتاهی در مورد یک راکون مسافرتی با تفکیک صحنه به صحنه و فهرستی از اعلانهای همراه بنویسد. سپس برای هر درخواست کلیپ های ویدیویی تولید کردیم و همه کلیپ های به دست آمده را برای تولید ویدیوی نهایی زیر به هم چسباندیم.
هنگامی که VideoPoet را توسعه دادیم، متوجه برخی ویژگی های خوب از قابلیت های این مدل شدیم که در زیر به آنها اشاره می کنیم.
ویدیوی طولانی
ما میتوانیم با شرطی کردن ۱ ثانیه آخر ویدیو و پیشبینی ۱ ثانیه بعدی، ویدیوهای طولانیتری تولید کنیم. با زنجیر کردن این موارد به طور مکرر، نشان میدهیم که این مدل نه تنها میتواند ویدیو را به خوبی گسترش دهد، بلکه ظاهر همه اشیا را حتی در چندین تکرار نیز صادقانه حفظ میکند.
در اینجا دو نمونه از VideoPoet که ویدیوی طولانی را از ورودی متن تولید می کند آورده شده است:
ورودی متن | “یک فضانورد شروع به رقصیدن در مریخ می کند. سپس آتش بازی های رنگارنگ در پس زمینه منفجر می شوند.” | فیلم FPV از یک شهر سنگی بسیار تیز الف در جنگل با رودخانه آبی درخشان، آبشار، و صخره های عمودی شیب دار بزرگ. | |||
خروجی تصویری |
همچنین امکان ویرایش تعاملی کلیپ های ویدیویی موجود تولید شده توسط VideoPoet وجود دارد. اگر یک ویدیوی ورودی ارائه کنیم، میتوانیم حرکت اجسام را برای انجام اعمال مختلف تغییر دهیم. دستکاری شی را می توان در فریم اول یا فریم های میانی متمرکز کرد که امکان کنترل درجه بالایی از ویرایش را فراهم می کند.
به عنوان مثال، میتوانیم بهطور تصادفی چند کلیپ از ویدیوی ورودی تولید کنیم و کلیپ بعدی مورد نظر را انتخاب کنیم.
یک ویدیوی ورودی در سمت چپ بهعنوان تهویه برای ایجاد چهار انتخاب با توجه به درخواست اولیه استفاده میشود: «نمای نزدیک از یک ربات استیمپانک شکسته و زنگزده دوستداشتنی پوشیده از خزهای مرطوب و گیاهی جوانه زده، احاطه شده با علفهای بلند». برای سه خروجی اول نشان میدهیم که برای حرکات بینتیجه چه اتفاقی میافتد. برای آخرین ویدیو در لیست زیر، برای هدایت عمل به دستور «روشن کردن با دود در پسزمینه» اضافه میکنیم. |
کنترل تصویر به ویدئو
به طور مشابه، میتوانیم حرکت را روی یک تصویر ورودی اعمال کنیم تا محتویات آن را به حالت دلخواه، مشروط به یک اعلان متن، ویرایش کنیم.
متحرک سازی یک نقاشی با اعلان های مختلف. ترک کرد: “زنی که برمی گردد تا به دوربین نگاه کند.” درست: “زنی در حال خمیازه کشیدن.” ** |
حرکت دوربین
همچنین میتوانیم با افزودن نوع حرکت دوربین مورد نظر به پیام متنی، حرکات دوربین را به دقت کنترل کنیم. به عنوان مثال، ما یک تصویر توسط مدل خود با اعلان ایجاد کردیم، “هنر مفهومی بازی ماجراجویی طلوع خورشید بر فراز یک کوه برفی در کنار رودخانه ای شفاف”. مثال های زیر پسوند متن داده شده را برای اعمال حرکت مورد نظر اضافه می کنند.
درخواستها از چپ به راست: «بزرگنمایی»، «بزرگنمایی دالی»، «جنبش به چپ»، «شات قوس»، «شات جرثقیل»، «عکس از هواپیمای بدون سرنشین FPV». |
نتایج ارزیابی
ما VideoPoet را بر روی تولید متن به ویدئو با معیارهای مختلفی ارزیابی می کنیم تا نتایج را با رویکردهای دیگر مقایسه کنیم. برای اطمینان از ارزیابی خنثی، ما همه مدلها را بر اساس تنوع گستردهای از اعلانها بدون نمونههای گیلاسچینی اجرا کردیم و از مردم خواستیم اولویتهای خود را ارزیابی کنند. شکل زیر درصد زمانی را که VideoPoet به عنوان گزینه ترجیحی سبز برای سوالات زیر انتخاب شده است، نشان می دهد.
وفاداری متن
رتبهبندیهای ترجیحی کاربر برای وفاداری متن، بهعنوان مثال، چند درصد از ویدیوها از نظر دنبال کردن دقیق یک درخواست ترجیح داده میشوند. |
جذابیت حرکت
رتبهبندی ترجیحی کاربر برای جذابیت حرکت، یعنی چند درصد از ویدیوها از نظر تولید حرکت جالب ترجیح داده میشوند. |
بر اساس موارد فوق، افراد به طور متوسط 24 تا 35 درصد از نمونه ها را از VideoPoet به عنوان اعلان های زیر بهتر از مدل های رقیب در مقابل 8 تا 11 درصد برای مدل های رقیب انتخاب کردند. ارزیابان همچنین 41 تا 54 درصد از نمونه های VideoPoet را برای حرکت جالب تر از 11 تا 21 درصد برای سایر مدل ها ترجیح می دهند.
نتیجه
از طریق VideoPoet، ما کیفیت بسیار رقابتی تولید ویدیوی LLM را در طیف گسترده ای از وظایف، به ویژه در تولید حرکات جالب و با کیفیت بالا در داخل ویدیوها نشان داده ایم. نتایج ما پتانسیل امیدوارکننده LLM ها را در زمینه تولید ویدیو نشان می دهد. برای مسیرهای آتی، چارچوب ما باید بتواند از نسل «هر به هر» پشتیبانی کند، به عنوان مثال، گسترش متن به صدا، صوتی به تصویر، و زیرنویس ویدیویی، در میان بسیاری دیگر، ممکن است.
برای مشاهده نمونه های بیشتر با کیفیت اصلی به دمو وب سایت مراجعه کنید.
سپاسگزاریها
این تحقیق توسط تعداد زیادی از مشارکت کنندگان از جمله دن کوندراتیوک، لیجون یو، ژیویه گو، خوزه لزاما، جاناتان هوانگ، راشل هورنونگ، هارتویگ آدام، حسن اکبری، یایر آلون، ویگنش بیرودکار، یونگ چنگ، مینگ چانگ چیو حمایت شده است. جاش دیلون، عرفان ایسا، آگریم گوپتا، میرا هان، آنیا هاوث، دیوید هندون، آلونسو مارتینز، دیوید مینن، دیوید راس، گرانت شیندلر، میخائیل سیروتنکو، کیهیوک سون، کریشنا سوماندپالی، هویشنگ وانگ، جیمیوان یان، مینگ-اچ ژوان یانگ، برایان سیبولد و لو جیانگ.
ما از الکس سیگمن و ویکتور گومز برای مدیریت منابع محاسباتی تشکر ویژه ای داریم. همچنین از آرن یانسن، مارکو تالیاساکی، نیل زگیدور، جان هرشی برای توکنسازی و پردازش صدا، آنگاد سینگ برای استوریبرد در «راکون تازه کار»، کوردلیا اشمید برای بحثهای پژوهشی، آلونسو مارتینز برای طراحی گرافیک، دیوید سالسین، توماس ایزو تشکر میکنیم. و راهول سوکتانکار برای حمایتشان و جی یاگنیک به عنوان معمار کانسپت اولیه.
**
(الف) طوفان در دریای گالیله، اثر رامبراند 1633، مالکیت عمومی.
(ب) Pillars of Creation، توسط ناسا 2014، مالکیت عمومی.
(ج) سرگردان بر فراز دریای مه، اثر کاسپار دیوید فردریش، 1818، مالکیت عمومی
(د) مونالیزا، اثر لئوناردو داوینچی، 1503، مالکیت عمومی.