یک رمزگذار بصری اساسی برای درک ویدیو – وبلاگ تحقیق گوگل

تعداد شگفت انگیزی از ویدیوها در وب در دسترس است، که محتوای متنوعی از لحظات روزمره به اشتراک گذاشتن افراد گرفته تا لحظات تاریخی تا مشاهدات علمی را پوشش می دهد، که هر یک حاوی رکورد منحصر به فردی از جهان است. ابزار مناسب می تواند به محققان کمک کند تا این ویدئوها را تجزیه و تحلیل کنند و نحوه درک ما از جهان اطراف را تغییر دهند.

ویدئوها محتوای بصری پویا بسیار غنی‌تر از تصاویر ثابت، ثبت حرکت، تغییرات و روابط پویا بین موجودیت‌ها ارائه می‌دهند. تجزیه و تحلیل این پیچیدگی، همراه با تنوع بسیار زیاد داده های ویدئویی در دسترس عموم، مدل هایی را می طلبد که فراتر از درک تصویر سنتی است. در نتیجه، بسیاری از رویکردهایی که در درک ویدیویی بهترین عملکرد را دارند، همچنان به مدل‌های تخصصی که برای کارهای خاص ساخته شده‌اند، متکی هستند. اخیراً با استفاده از مدل‌های پایه ویدیویی (ViFM) مانند VideoCLIP، InternVideo، VideoCoCa و UMT، پیشرفت‌های جالبی در این زمینه صورت گرفته است. با این حال، ساخت یک ViFM که تنوع بسیار زیاد داده‌های ویدیویی را مدیریت می‌کند همچنان یک چالش است.

با هدف ایجاد یک مدل واحد برای درک ویدیوی همه منظوره، ما “VideoPrism: یک رمزگذار بصری اساسی برای درک ویدیو” را معرفی می کنیم. VideoPrism یک ViFM است که برای انجام طیف گسترده ای از وظایف درک ویدیو، از جمله طبقه بندی، محلی سازی، بازیابی، زیرنویس و پاسخ به سؤال (QA) طراحی شده است. ما نوآوری‌هایی را هم در داده‌های قبل از آموزش و هم در استراتژی مدل‌سازی پیشنهاد می‌کنیم. ما VideoPrism را روی یک مجموعه داده عظیم و متنوع از قبل آموزش می دهیم: 36 میلیون جفت متن ویدیویی با کیفیت بالا و 582 میلیون کلیپ ویدیویی با متن موازی نویزدار یا تولید شده توسط ماشین. رویکرد پیش‌آموزشی ما برای این داده‌های ترکیبی طراحی شده است، تا هم از جفت‌های ویدئو-متن و هم از خود ویدئوها یاد بگیرد. انطباق با چالش‌های جدید درک ویدیوی VideoPrism فوق‌العاده آسان است و با استفاده از یک مدل منجمد، به عملکردی پیشرفته دست می‌یابد.

VideoPrism یک رمزگذار ویدیوی همه منظوره است که با تولید نمایش های ویدیویی از یک مدل ثابت شده، نتایج پیشرفته را در طیف گسترده ای از وظایف درک ویدیو، از جمله طبقه بندی، بومی سازی، بازیابی، زیرنویس، و پاسخ به سؤال، امکان پذیر می کند.

داده های قبل از آموزش

یک ViFM قدرتمند به مجموعه بسیار وسیعی از ویدیوها نیاز دارد که در آن آموزش ببیند – شبیه به سایر مدل‌های پایه (FM)، مانند مدل‌های زبان بزرگ (LLM). در حالت ایده‌آل، ما می‌خواهیم داده‌های پیش‌آموزشی نمونه‌ای نماینده از همه ویدیوهای جهان باشد. در حالی که به طور طبیعی اکثر این ویدیوها شرح یا توضیحات کاملی ندارند، حتی متن ناقص نیز می تواند اطلاعات مفیدی در مورد محتوای معنایی ویدیو ارائه دهد.

برای ارائه بهترین نقطه شروع ممکن به مدل خود، مجموعه عظیمی از قبل از آموزش شامل چندین مجموعه داده عمومی و خصوصی، از جمله YT-Temporal-180M، InternVid، VideoCC، WTS-70M، و غیره را گردآوری کردیم. این شامل 36 میلیون مورد با دقت انتخاب شده است. ویدیوهایی با شرح‌های با کیفیت بالا، همراه با ۵۸۲ میلیون کلیپ اضافی با سطوح مختلف متن پر سر و صدا (مانند رونوشت‌های تولید شده خودکار). طبق دانش ما، این بزرگترین و متنوع ترین مجموعه آموزشی ویدئویی در نوع خود است.

آمار مربوط به داده های پیش از آموزش متن ویدئویی. تغییرات زیاد نمرات شباهت CLIP (هرچه بیشتر، بهتر) کیفیت زیرنویس متنوع داده‌های قبل از آموزش ما را نشان می‌دهد، که محصول جانبی روش‌های مختلف مورد استفاده برای برداشت متن است.

آموزش دو مرحله ای

معماری مدل VideoPrism از ترانسفورماتور بینایی استاندارد (ViT) با طراحی فاکتوری گرفته شده که به‌طور متوالی اطلاعات مکانی و زمانی را پس از ViViT رمزگذاری می‌کند، نشات می‌گیرد. رویکرد آموزشی ما هم از داده‌های متنی ویدیویی با کیفیت بالا و هم از داده‌های ویدیویی با متن پر سر و صدا که در بالا ذکر شد، استفاده می‌کند. برای شروع، ما از یادگیری متضاد (رویکردی که فاصله بین جفت‌های ویدیو-متن مثبت را به حداقل می‌رساند در حالی که فاصله بین جفت‌های متن-ویدئوی منفی را به حداکثر می‌رساند) استفاده می‌کنیم تا به مدل خود بیاموزیم که ویدیوها را با توضیحات متنی خود، از جمله موارد ناقص، مطابقت دهد. این پایه ای برای تطبیق محتوای زبان معنایی با محتوای بصری ایجاد می کند.

پس از آموزش متضاد متن ویدئویی، مجموعه فیلم‌ها را بدون توضیحات متنی مورد استفاده قرار می‌دهیم. در اینجا، چارچوب مدل‌سازی ویدیوی ماسک‌شده را برای پیش‌بینی وصله‌های ماسک‌دار در یک ویدیو، با چند پیشرفت، ایجاد می‌کنیم. ما این مدل را آموزش می‌دهیم تا هم جاسازی جهانی در سطح ویدیو و هم جاسازی‌های توکن را از مدل مرحله اول پیش‌بینی کند تا به طور مؤثر از دانش به دست آمده در آن مرحله استفاده کند. سپس به‌طور تصادفی توکن‌های پیش‌بینی‌شده را به هم می‌زنیم تا مدل از یادگیری میان‌برها جلوگیری کند.

چیزی که در مورد راه اندازی VideoPrism منحصر به فرد است این است که ما از دو سیگنال تکمیلی قبل از آموزش استفاده می کنیم: توضیحات متنی و محتوای بصری در یک ویدیو. توضیحات متن اغلب بر شکل ظاهری چیزها متمرکز است، در حالی که محتوای ویدیویی اطلاعاتی در مورد حرکت و پویایی بصری ارائه می دهد. این امر VideoPrism را قادر می‌سازد تا در کارهایی که نیاز به درک ظاهر و حرکت دارند، برتر باشد.

نتایج

ما ارزیابی گسترده‌ای را روی VideoPrism در چهار دسته کلی از وظایف درک ویدیو انجام می‌دهیم، از جمله طبقه‌بندی و محلی‌سازی ویدیو، بازیابی متن ویدیویی، زیرنویس‌گذاری ویدیو، پاسخ به سؤال و درک ویدیوی علمی. VideoPrism در 30 معیار از 33 معیار درک ویدیو به عملکردی پیشرفته دست می یابد – همه با حداقل انطباق با یک مدل واحد و ثابت.

VideoPrism در مقایسه با FM های قبلی با بهترین عملکرد.

طبقه بندی و بومی سازی

ما VideoPrism را بر روی یک معیار درک ویدیویی در مقیاس بزرگ (VideoGLUE) ارزیابی می‌کنیم که وظایف طبقه‌بندی و محلی‌سازی را پوشش می‌دهد. ما متوجه شدیم که (1) VideoPrism از سایر FM های پیشرفته برتری دارد و (2) هیچ مدل واحد دیگری به طور مداوم در رتبه دوم قرار نگرفت. این به ما می گوید که VideoPrism یاد گرفته است که به طور مؤثر انواع سیگنال های ویدئویی را در یک رمزگذار بسته بندی کند – از معنایی در جزئیات مختلف گرفته تا نشانه های ظاهری و حرکتی – و در منابع مختلف ویدئویی به خوبی کار می کند.

ترکیب با LLM

ما بیشتر ترکیب VideoPrism با LLM ها را بررسی می کنیم تا توانایی آن برای انجام وظایف مختلف به زبان ویدیویی را باز کنیم. به طور خاص، هنگامی که با یک رمزگذار متن (به دنبال LiT) یا یک رمزگشای زبان (مانند PaLM-2) جفت می‌شود، VideoPrism می‌تواند برای بازیابی متن ویدئویی، زیرنویس‌گذاری ویدئو، و وظایف QA ویدئو استفاده شود. ما مدل‌های ترکیبی را در مجموعه‌ای گسترده و چالش برانگیز از معیارهای زبان بینایی مقایسه می‌کنیم. VideoPrism وضعیت جدید هنر را در اکثر معیارها تنظیم می کند. از نتایج بصری، متوجه می‌شویم که VideoPrism قادر به درک حرکات و ظواهر پیچیده در ویدیوها است (به عنوان مثال، مدل می‌تواند رنگ‌های مختلف اجسام در حال چرخش روی پنجره را در مثال‌های تصویری زیر تشخیص دهد). این نتایج نشان می دهد که VideoPrism به شدت با مدل های زبان سازگار است.



ما نتایج کیفی را با استفاده از VideoPrism با یک رمزگذار متن برای بازیابی متن ویدیویی (ردیف اول) و سازگار با رمزگشای زبان برای QA ویدیو (ردیف دوم و سوم) نشان می‌دهیم. برای مثال‌های بازیابی متن ویدئویی، نوارهای آبی شباهت‌های جاسازی شده بین ویدئوها و درخواست‌های متن را نشان می‌دهند.

کاربردهای علمی

در نهایت، ما VideoPrism را بر روی مجموعه داده‌های مورد استفاده دانشمندان در سراسر حوزه‌ها، از جمله زمینه‌هایی مانند اخلاق‌شناسی، علوم اعصاب رفتاری، و بوم‌شناسی آزمایش می‌کنیم. این مجموعه داده‌ها معمولاً برای حاشیه‌نویسی به تخصص دامنه نیاز دارند، که برای آن از مجموعه داده‌های علمی موجود که توسط جامعه منبع باز هستند، از جمله Fly vs. Fly، CalMS21، ChimpACT و KABR استفاده می‌کنیم. VideoPrism نه تنها عملکرد فوق العاده ای دارد، بلکه در واقع از مدل هایی که به طور خاص برای آن کارها طراحی شده اند، پیشی می گیرد. این نشان می دهد که ابزارهایی مانند VideoPrism پتانسیل تغییر نحوه تجزیه و تحلیل داده های ویدئویی توسط دانشمندان در زمینه های مختلف را دارند.

VideoPrism در معیارهای مختلف علمی از متخصصان حوزه برتری دارد. ما تفاوت امتیاز مطلق را نشان می دهیم تا پیشرفت های نسبی VideoPrism را برجسته کنیم. ما میانگین دقت متوسط ​​(mAP) را برای همه مجموعه‌های داده گزارش می‌کنیم، به جز KABR که از دقت بالای 1 متوسط ​​کلاس استفاده می‌کند.

نتیجه

با VideoPrism، ​​ما یک رمزگذار ویدئویی قدرتمند و همه کاره را معرفی می کنیم که استاندارد جدیدی را برای درک ویدیوی همه منظوره تعیین می کند. تاکید ما بر ساخت یک مجموعه داده گسترده و متنوع قبل از آموزش و تکنیک های مدل سازی نوآورانه از طریق ارزیابی های گسترده ما تأیید شده است. VideoPrism نه تنها به طور مداوم از خطوط پایه قوی بهتر عمل می کند، بلکه توانایی منحصر به فرد آن در تعمیم آن را برای مقابله با مجموعه ای از برنامه های کاربردی در دنیای واقعی به خوبی موقعیت می دهد. به دلیل استفاده گسترده بالقوه آن، ما متعهد به ادامه تحقیقات مسئولانه بیشتر در این فضا، با هدایت اصول هوش مصنوعی خود هستیم. امیدواریم VideoPrism راه را برای پیشرفت‌های آینده در تقاطع هوش مصنوعی و تجزیه و تحلیل ویدیو هموار کند و به درک پتانسیل‌های ViFM در حوزه‌هایی مانند کشف علمی، آموزش و مراقبت‌های بهداشتی کمک کند.

سپاسگزاریها

این پست وبلاگ از طرف همه نویسندگان VideoPrism ساخته شده است: لانگ ژائو، نیتش ب. فلوریان شروف، مینگ هسوان یانگ، دیوید ای. راس، هوی‌شنگ وانگ، هارتویگ آدام، میخائیل سیروتنکو، تینگ لیو و بوکینگ گونگ. ما صمیمانه از دیوید هندون برای تلاش‌های مدیریت محصول و الکس سیگمن، رامیا گانشان و ویکتور گومز برای برنامه‌ها و تلاش‌های مدیریت منابعشان تشکر می‌کنیم. همچنین از حسن اکبری، شری بن، یونی بن مشولام، چون ته چو، سام کلیرواتر، یین کوی، ایلیا فیگوتین، آنجا هاوث، سرگئی یوفه، خوهوی جیا، یکینگ لی، لو جیانگ، زو کیم، دن کوندراتیوک، بیل تشکر می کنیم. مارک، آرشا ناگرانی، کارولین پانتوفارو، سوشانت پراکاش، کوردلیا اشمید، برایان سیبولد، مجتبی سیدحسینی، آماندا سادلر، ریف آ. سائوروس، راشل استیگلر، پل وویگتلندر، پینگمی ژو، چائوچائو، ژوان یانگ برای گفتگوی یوکان زو پشتیبانی، و بازخوردی که کمک زیادی به این کار کرد. ما از Jay Yagnik، Rahul Sukthankar و Tomas Izo برای حمایت مشتاقانه آنها از این پروژه سپاسگزاریم. در آخر، از تام اسمال، جنیفر جی. سان، هائو ژو، نیتش بی. گوندواراپو، لوک فریدمن و میخائیل سیروتنکو برای کمک فوق العاده در ساخت این پست وبلاگ تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور