تعداد شگفت انگیزی از ویدیوها در وب در دسترس است، که محتوای متنوعی از لحظات روزمره به اشتراک گذاشتن افراد گرفته تا لحظات تاریخی تا مشاهدات علمی را پوشش می دهد، که هر یک حاوی رکورد منحصر به فردی از جهان است. ابزار مناسب می تواند به محققان کمک کند تا این ویدئوها را تجزیه و تحلیل کنند و نحوه درک ما از جهان اطراف را تغییر دهند.
ویدئوها محتوای بصری پویا بسیار غنیتر از تصاویر ثابت، ثبت حرکت، تغییرات و روابط پویا بین موجودیتها ارائه میدهند. تجزیه و تحلیل این پیچیدگی، همراه با تنوع بسیار زیاد داده های ویدئویی در دسترس عموم، مدل هایی را می طلبد که فراتر از درک تصویر سنتی است. در نتیجه، بسیاری از رویکردهایی که در درک ویدیویی بهترین عملکرد را دارند، همچنان به مدلهای تخصصی که برای کارهای خاص ساخته شدهاند، متکی هستند. اخیراً با استفاده از مدلهای پایه ویدیویی (ViFM) مانند VideoCLIP، InternVideo، VideoCoCa و UMT، پیشرفتهای جالبی در این زمینه صورت گرفته است. با این حال، ساخت یک ViFM که تنوع بسیار زیاد دادههای ویدیویی را مدیریت میکند همچنان یک چالش است.
با هدف ایجاد یک مدل واحد برای درک ویدیوی همه منظوره، ما “VideoPrism: یک رمزگذار بصری اساسی برای درک ویدیو” را معرفی می کنیم. VideoPrism یک ViFM است که برای انجام طیف گسترده ای از وظایف درک ویدیو، از جمله طبقه بندی، محلی سازی، بازیابی، زیرنویس و پاسخ به سؤال (QA) طراحی شده است. ما نوآوریهایی را هم در دادههای قبل از آموزش و هم در استراتژی مدلسازی پیشنهاد میکنیم. ما VideoPrism را روی یک مجموعه داده عظیم و متنوع از قبل آموزش می دهیم: 36 میلیون جفت متن ویدیویی با کیفیت بالا و 582 میلیون کلیپ ویدیویی با متن موازی نویزدار یا تولید شده توسط ماشین. رویکرد پیشآموزشی ما برای این دادههای ترکیبی طراحی شده است، تا هم از جفتهای ویدئو-متن و هم از خود ویدئوها یاد بگیرد. انطباق با چالشهای جدید درک ویدیوی VideoPrism فوقالعاده آسان است و با استفاده از یک مدل منجمد، به عملکردی پیشرفته دست مییابد.
VideoPrism یک رمزگذار ویدیوی همه منظوره است که با تولید نمایش های ویدیویی از یک مدل ثابت شده، نتایج پیشرفته را در طیف گسترده ای از وظایف درک ویدیو، از جمله طبقه بندی، بومی سازی، بازیابی، زیرنویس، و پاسخ به سؤال، امکان پذیر می کند. |
داده های قبل از آموزش
یک ViFM قدرتمند به مجموعه بسیار وسیعی از ویدیوها نیاز دارد که در آن آموزش ببیند – شبیه به سایر مدلهای پایه (FM)، مانند مدلهای زبان بزرگ (LLM). در حالت ایدهآل، ما میخواهیم دادههای پیشآموزشی نمونهای نماینده از همه ویدیوهای جهان باشد. در حالی که به طور طبیعی اکثر این ویدیوها شرح یا توضیحات کاملی ندارند، حتی متن ناقص نیز می تواند اطلاعات مفیدی در مورد محتوای معنایی ویدیو ارائه دهد.
برای ارائه بهترین نقطه شروع ممکن به مدل خود، مجموعه عظیمی از قبل از آموزش شامل چندین مجموعه داده عمومی و خصوصی، از جمله YT-Temporal-180M، InternVid، VideoCC، WTS-70M، و غیره را گردآوری کردیم. این شامل 36 میلیون مورد با دقت انتخاب شده است. ویدیوهایی با شرحهای با کیفیت بالا، همراه با ۵۸۲ میلیون کلیپ اضافی با سطوح مختلف متن پر سر و صدا (مانند رونوشتهای تولید شده خودکار). طبق دانش ما، این بزرگترین و متنوع ترین مجموعه آموزشی ویدئویی در نوع خود است.
آمار مربوط به داده های پیش از آموزش متن ویدئویی. تغییرات زیاد نمرات شباهت CLIP (هرچه بیشتر، بهتر) کیفیت زیرنویس متنوع دادههای قبل از آموزش ما را نشان میدهد، که محصول جانبی روشهای مختلف مورد استفاده برای برداشت متن است. |
آموزش دو مرحله ای
معماری مدل VideoPrism از ترانسفورماتور بینایی استاندارد (ViT) با طراحی فاکتوری گرفته شده که بهطور متوالی اطلاعات مکانی و زمانی را پس از ViViT رمزگذاری میکند، نشات میگیرد. رویکرد آموزشی ما هم از دادههای متنی ویدیویی با کیفیت بالا و هم از دادههای ویدیویی با متن پر سر و صدا که در بالا ذکر شد، استفاده میکند. برای شروع، ما از یادگیری متضاد (رویکردی که فاصله بین جفتهای ویدیو-متن مثبت را به حداقل میرساند در حالی که فاصله بین جفتهای متن-ویدئوی منفی را به حداکثر میرساند) استفاده میکنیم تا به مدل خود بیاموزیم که ویدیوها را با توضیحات متنی خود، از جمله موارد ناقص، مطابقت دهد. این پایه ای برای تطبیق محتوای زبان معنایی با محتوای بصری ایجاد می کند.
پس از آموزش متضاد متن ویدئویی، مجموعه فیلمها را بدون توضیحات متنی مورد استفاده قرار میدهیم. در اینجا، چارچوب مدلسازی ویدیوی ماسکشده را برای پیشبینی وصلههای ماسکدار در یک ویدیو، با چند پیشرفت، ایجاد میکنیم. ما این مدل را آموزش میدهیم تا هم جاسازی جهانی در سطح ویدیو و هم جاسازیهای توکن را از مدل مرحله اول پیشبینی کند تا به طور مؤثر از دانش به دست آمده در آن مرحله استفاده کند. سپس بهطور تصادفی توکنهای پیشبینیشده را به هم میزنیم تا مدل از یادگیری میانبرها جلوگیری کند.
چیزی که در مورد راه اندازی VideoPrism منحصر به فرد است این است که ما از دو سیگنال تکمیلی قبل از آموزش استفاده می کنیم: توضیحات متنی و محتوای بصری در یک ویدیو. توضیحات متن اغلب بر شکل ظاهری چیزها متمرکز است، در حالی که محتوای ویدیویی اطلاعاتی در مورد حرکت و پویایی بصری ارائه می دهد. این امر VideoPrism را قادر میسازد تا در کارهایی که نیاز به درک ظاهر و حرکت دارند، برتر باشد.
نتایج
ما ارزیابی گستردهای را روی VideoPrism در چهار دسته کلی از وظایف درک ویدیو انجام میدهیم، از جمله طبقهبندی و محلیسازی ویدیو، بازیابی متن ویدیویی، زیرنویسگذاری ویدیو، پاسخ به سؤال و درک ویدیوی علمی. VideoPrism در 30 معیار از 33 معیار درک ویدیو به عملکردی پیشرفته دست می یابد – همه با حداقل انطباق با یک مدل واحد و ثابت.
VideoPrism در مقایسه با FM های قبلی با بهترین عملکرد. |
طبقه بندی و بومی سازی
ما VideoPrism را بر روی یک معیار درک ویدیویی در مقیاس بزرگ (VideoGLUE) ارزیابی میکنیم که وظایف طبقهبندی و محلیسازی را پوشش میدهد. ما متوجه شدیم که (1) VideoPrism از سایر FM های پیشرفته برتری دارد و (2) هیچ مدل واحد دیگری به طور مداوم در رتبه دوم قرار نگرفت. این به ما می گوید که VideoPrism یاد گرفته است که به طور مؤثر انواع سیگنال های ویدئویی را در یک رمزگذار بسته بندی کند – از معنایی در جزئیات مختلف گرفته تا نشانه های ظاهری و حرکتی – و در منابع مختلف ویدئویی به خوبی کار می کند.
ترکیب با LLM
ما بیشتر ترکیب VideoPrism با LLM ها را بررسی می کنیم تا توانایی آن برای انجام وظایف مختلف به زبان ویدیویی را باز کنیم. به طور خاص، هنگامی که با یک رمزگذار متن (به دنبال LiT) یا یک رمزگشای زبان (مانند PaLM-2) جفت میشود، VideoPrism میتواند برای بازیابی متن ویدئویی، زیرنویسگذاری ویدئو، و وظایف QA ویدئو استفاده شود. ما مدلهای ترکیبی را در مجموعهای گسترده و چالش برانگیز از معیارهای زبان بینایی مقایسه میکنیم. VideoPrism وضعیت جدید هنر را در اکثر معیارها تنظیم می کند. از نتایج بصری، متوجه میشویم که VideoPrism قادر به درک حرکات و ظواهر پیچیده در ویدیوها است (به عنوان مثال، مدل میتواند رنگهای مختلف اجسام در حال چرخش روی پنجره را در مثالهای تصویری زیر تشخیص دهد). این نتایج نشان می دهد که VideoPrism به شدت با مدل های زبان سازگار است.
ما نتایج کیفی را با استفاده از VideoPrism با یک رمزگذار متن برای بازیابی متن ویدیویی (ردیف اول) و سازگار با رمزگشای زبان برای QA ویدیو (ردیف دوم و سوم) نشان میدهیم. برای مثالهای بازیابی متن ویدئویی، نوارهای آبی شباهتهای جاسازی شده بین ویدئوها و درخواستهای متن را نشان میدهند. |
کاربردهای علمی
در نهایت، ما VideoPrism را بر روی مجموعه دادههای مورد استفاده دانشمندان در سراسر حوزهها، از جمله زمینههایی مانند اخلاقشناسی، علوم اعصاب رفتاری، و بومشناسی آزمایش میکنیم. این مجموعه دادهها معمولاً برای حاشیهنویسی به تخصص دامنه نیاز دارند، که برای آن از مجموعه دادههای علمی موجود که توسط جامعه منبع باز هستند، از جمله Fly vs. Fly، CalMS21، ChimpACT و KABR استفاده میکنیم. VideoPrism نه تنها عملکرد فوق العاده ای دارد، بلکه در واقع از مدل هایی که به طور خاص برای آن کارها طراحی شده اند، پیشی می گیرد. این نشان می دهد که ابزارهایی مانند VideoPrism پتانسیل تغییر نحوه تجزیه و تحلیل داده های ویدئویی توسط دانشمندان در زمینه های مختلف را دارند.
VideoPrism در معیارهای مختلف علمی از متخصصان حوزه برتری دارد. ما تفاوت امتیاز مطلق را نشان می دهیم تا پیشرفت های نسبی VideoPrism را برجسته کنیم. ما میانگین دقت متوسط (mAP) را برای همه مجموعههای داده گزارش میکنیم، به جز KABR که از دقت بالای 1 متوسط کلاس استفاده میکند. |
نتیجه
با VideoPrism، ما یک رمزگذار ویدئویی قدرتمند و همه کاره را معرفی می کنیم که استاندارد جدیدی را برای درک ویدیوی همه منظوره تعیین می کند. تاکید ما بر ساخت یک مجموعه داده گسترده و متنوع قبل از آموزش و تکنیک های مدل سازی نوآورانه از طریق ارزیابی های گسترده ما تأیید شده است. VideoPrism نه تنها به طور مداوم از خطوط پایه قوی بهتر عمل می کند، بلکه توانایی منحصر به فرد آن در تعمیم آن را برای مقابله با مجموعه ای از برنامه های کاربردی در دنیای واقعی به خوبی موقعیت می دهد. به دلیل استفاده گسترده بالقوه آن، ما متعهد به ادامه تحقیقات مسئولانه بیشتر در این فضا، با هدایت اصول هوش مصنوعی خود هستیم. امیدواریم VideoPrism راه را برای پیشرفتهای آینده در تقاطع هوش مصنوعی و تجزیه و تحلیل ویدیو هموار کند و به درک پتانسیلهای ViFM در حوزههایی مانند کشف علمی، آموزش و مراقبتهای بهداشتی کمک کند.
سپاسگزاریها
این پست وبلاگ از طرف همه نویسندگان VideoPrism ساخته شده است: لانگ ژائو، نیتش ب. فلوریان شروف، مینگ هسوان یانگ، دیوید ای. راس، هویشنگ وانگ، هارتویگ آدام، میخائیل سیروتنکو، تینگ لیو و بوکینگ گونگ. ما صمیمانه از دیوید هندون برای تلاشهای مدیریت محصول و الکس سیگمن، رامیا گانشان و ویکتور گومز برای برنامهها و تلاشهای مدیریت منابعشان تشکر میکنیم. همچنین از حسن اکبری، شری بن، یونی بن مشولام، چون ته چو، سام کلیرواتر، یین کوی، ایلیا فیگوتین، آنجا هاوث، سرگئی یوفه، خوهوی جیا، یکینگ لی، لو جیانگ، زو کیم، دن کوندراتیوک، بیل تشکر می کنیم. مارک، آرشا ناگرانی، کارولین پانتوفارو، سوشانت پراکاش، کوردلیا اشمید، برایان سیبولد، مجتبی سیدحسینی، آماندا سادلر، ریف آ. سائوروس، راشل استیگلر، پل وویگتلندر، پینگمی ژو، چائوچائو، ژوان یانگ برای گفتگوی یوکان زو پشتیبانی، و بازخوردی که کمک زیادی به این کار کرد. ما از Jay Yagnik، Rahul Sukthankar و Tomas Izo برای حمایت مشتاقانه آنها از این پروژه سپاسگزاریم. در آخر، از تام اسمال، جنیفر جی. سان، هائو ژو، نیتش بی. گوندواراپو، لوک فریدمن و میخائیل سیروتنکو برای کمک فوق العاده در ساخت این پست وبلاگ تشکر می کنیم.