یادگیری متن ویدئویی کارآمد با توکن‌سازی تکراری

ویدئو منبعی فراگیر از محتوای رسانه‌ای است که بسیاری از جنبه‌های زندگی روزمره مردم را تحت تأثیر قرار می‌دهد. به طور فزاینده‌ای، برنامه‌های ویدیویی دنیای واقعی، مانند زیرنویس‌گذاری ویدیو، تجزیه و تحلیل محتوای ویدیویی، و پاسخ‌گویی به سؤالات ویدیویی (VideoQA)، به مدل‌هایی متکی هستند که می‌توانند محتوای ویدیویی را با متن یا زبان طبیعی مرتبط کنند. با این حال، VideoQA به ویژه چالش برانگیز است، زیرا نیاز به درک اطلاعات معنایی، مانند اشیاء در یک صحنه، و همچنین اطلاعات زمانی دارد، به عنوان مثال، نحوه حرکت و تعامل اشیا، که هر دو باید در زمینه یک زبان طبیعی در نظر گرفته شوند. سوالی که قصد خاصی دارد علاوه بر این، از آنجایی که ویدیوها فریم های زیادی دارند، پردازش همه آنها برای یادگیری اطلاعات مکانی-زمانی می تواند از نظر محاسباتی گران باشد. با این وجود، درک همه این اطلاعات مدل‌ها را قادر می‌سازد تا به سؤالات پیچیده پاسخ دهند – به عنوان مثال، در ویدیوی زیر، سؤالی درباره ماده دوم ریخته‌شده در کاسه نیاز به شناسایی اشیا (مواد تشکیل دهنده)، اقدامات (ریختن) و ترتیب زمانی (دوم) دارد. .

یک نمونه سوال ورودی برای وظیفه VideoQA “دومین ماده ای که در کاسه ریخته می شود چیست؟” که نیاز به درک عمیق تری از ورودی های بصری و متنی دارد. این ویدیو نمونه ای از مجموعه داده 50 سالاد است که تحت مجوز Creative Commons استفاده می شود.

برای پرداختن به این موضوع، در «پاسخگویی به سؤالات ویدیویی با توکن‌سازی تکراری ویدیو-متن»، رویکرد جدیدی را برای یادگیری متن ویدیویی معرفی می‌کنیم که به آن می‌گویند. توکن سازی تکراری، که قادر است اطلاعات مکانی، زمانی و زبانی را به طور موثر برای VideoQA ترکیب کند. این رویکرد چند جریانی است و فیلم‌ها در مقیاس‌های مختلف را با مدل‌های ستون فقرات مستقل برای هر کدام پردازش می‌کند تا نمایش‌های ویدیویی تولید کند که ویژگی‌های متفاوتی را به تصویر بکشد، به عنوان مثال، آنهایی که وضوح فضایی بالا یا مدت زمانی طولانی دارند. سپس این مدل ماژول co-tokenization را برای یادگیری بازنمایی های کارآمد از ترکیب جریان های ویدئویی با متن اعمال می کند. این مدل بسیار کارآمد است و تنها از 67 گیگا فلاپ (GFLOP) استفاده می‌کند که حداقل 50 درصد کمتر از روش‌های قبلی است، در حالی که عملکرد بهتری نسبت به مدل‌های پیشرفته دارد.

توکن‌سازی تکراری ویدئو-متن
هدف اصلی این مدل تولید ویژگی‌هایی از هر دو ویدیو و متن (یعنی سؤال کاربر) است که به طور مشترک اجازه می‌دهد ورودی‌های مربوطه آن‌ها با هم تعامل داشته باشند. هدف دوم انجام این کار به شیوه ای کارآمد است که برای ویدیوها بسیار مهم است زیرا حاوی ده ها تا صدها فریم به عنوان ورودی است.

این مدل یاد می‌گیرد که ورودی‌های زبان ویدیویی مشترک را در مجموعه کوچک‌تری از نشانه‌ها که به طور مشترک و کارآمد هر دو روش را نشان می‌دهند، نشانه‌گذاری کند. هنگام توکن کردن، ما از هر دو روش برای تولید یک نمایش فشرده مشترک استفاده می کنیم که برای تولید نمایش سطح بعدی به یک لایه ترانسفورماتور تغذیه می شود. یک چالش در اینجا، که در یادگیری چند وجهی نیز معمول است، این است که اغلب فریم ویدیو مستقیماً با متن مرتبط مطابقت ندارد. ما با افزودن دو لایه خطی قابل یادگیری که ابعاد تصویری و متنی را قبل از توکن‌سازی یکی می‌کنند، به این موضوع می‌پردازیم. به این ترتیب هم ویدیو و هم متن را فعال می کنیم تا نحوه یادگیری توکن های ویدیویی را شرط کنیم.

علاوه بر این، یک مرحله توکنیزاسیون تنها اجازه تعامل بیشتر بین دو روش را نمی دهد. برای آن، ما از این نمایش ویژگی جدید برای تعامل با ویژگی‌های ورودی ویدیو و تولید مجموعه دیگری از ویژگی‌های نشانه‌گذاری شده استفاده می‌کنیم، که سپس به لایه ترانسفورماتور بعدی وارد می‌شوند. این فرآیند تکراری امکان ایجاد ویژگی‌ها یا نشانه‌های جدید را می‌دهد که نشان‌دهنده اصلاح مداوم نمایش مشترک از هر دو روش است. در مرحله آخر، ویژگی ها به یک رمزگشا وارد می شوند که خروجی متن را تولید می کند.

همانطور که معمولاً برای VideoQA انجام می‌شود، قبل از تنظیم دقیق آن در مجموعه داده‌های VideoQA، مدل را از قبل آموزش می‌دهیم. در این کار ما از ویدیوهایی که به طور خودکار با متن بر اساس تشخیص گفتار حاشیه‌نویسی می‌شوند، استفاده می‌کنیم و از مجموعه داده HowTo100M به‌جای پیش‌آموزش روی یک مجموعه داده بزرگ VideoQA استفاده می‌کنیم. این داده‌های پیش‌آموزشی ضعیف‌تر همچنان به مدل ما امکان می‌دهد ویژگی‌های متن ویدئویی را بیاموزد.

تجسم رویکرد هم نشان سازی تکراری متن ویدئویی. ورودی‌های ویدیوی چند جریانی، که نسخه‌هایی از همان ورودی ویدیو هستند (مثلاً یک ویدیو با وضوح بالا، با نرخ فریم پایین و یک ویدیو با وضوح پایین، با نرخ فریم بالا)، به طور موثر با ورودی متن ترکیب می‌شوند تا یک متن تولید کنند. پاسخ مبتنی بر رمزگشا. به جای پردازش مستقیم ورودی‌ها، مدل توکن‌سازی تکراری ویدئو-متن تعداد کمتری از نشانه‌های مفید را از ورودی‌های زبان ویدئویی ترکیب شده می‌آموزد. این فرآیند به صورت تکراری انجام می‌شود و به توکن‌سازی ویژگی فعلی اجازه می‌دهد بر انتخاب نشانه‌ها در تکرار بعدی تأثیر بگذارد، بنابراین انتخاب را اصلاح می‌کند.

پرسش و پاسخ ویدئویی کارآمد
ما الگوریتم توکن‌سازی تکراری زبان ویدیویی را در سه معیار اصلی VideoQA، MSRVTT-QA، MSVD-QA و IVQA اعمال می‌کنیم و نشان می‌دهیم که این رویکرد نتایج بهتری را نسبت به سایر مدل‌های پیشرفته به دست می‌آورد، در حالی که دارای یک معیار متوسط ​​است. اندازه. علاوه بر این، یادگیری تکراری توکن سازی مشترک باعث صرفه جویی قابل توجهی در محاسبات برای وظایف یادگیری متنی ویدئویی می شود. این روش تنها از 67 گیگا فلاپ (GFLOPS) استفاده می کند که یک ششم 360 GFLOPS مورد نیاز هنگام استفاده از مدل ویدیویی محبوب 3D-ResNet به همراه متن است و بیش از دو برابر مدل X3D کارآمدتر است. این در حالی است که نتایج بسیار دقیقی را تولید می کند و از روش های پیشرفته پیشی می گیرد.

مقایسه رویکرد توکن‌سازی تکراری ما با روش‌های قبلی مانند MERLOT و VQA-T، و همچنین خطوط پایه با استفاده از ResNet-3D یا X3D-XL.

ورودی های ویدیوی چند جریانی
برای VideoQA، یا هر یک از تعدادی از کارهای دیگر که شامل ورودی‌های ویدیویی است، متوجه شدیم که ورودی چند جریانی برای پاسخ دقیق‌تر به سؤالات مربوط به روابط مکانی و زمانی مهم است. رویکرد ما از سه جریان ویدیویی با رزولوشن‌ها و نرخ‌های فریم مختلف استفاده می‌کند: یک جریان ویدیوی ورودی با نرخ فریم بالا با وضوح پایین (با 32 فریم در ثانیه و وضوح فضایی 64×64، که ما آن را به عنوان 32x64x64 نشان می‌دهیم). یک ویدیو با وضوح بالا و نرخ فریم پایین (8x224x224)؛ و یکی در میان (16x112x112). علیرغم اطلاعات ظاهراً حجیم‌تر برای پردازش با سه جریان، ما مدل‌های بسیار کارآمدی را به دلیل رویکرد هم‌توکن‌سازی تکراری به‌دست می‌آوریم. در عین حال، این جریان‌های اضافی امکان استخراج مرتبط‌ترین اطلاعات را فراهم می‌کنند. به عنوان مثال، همانطور که در شکل زیر نشان داده شده است، سؤالات مربوط به یک فعالیت خاص در زمان، فعال سازی های بالاتری را در ورودی ویدیو با وضوح کمتر اما با نرخ فریم بالا ایجاد می کند، در حالی که سؤالات مربوط به فعالیت عمومی را می توان از ورودی با وضوح بالا پاسخ داد. فریم های بسیار کمی یکی دیگر از مزایای این الگوریتم این است که توکنیزاسیون بسته به سوالات پرسیده شده تغییر می کند.

تجسم نقشه‌های توجهی که در هر لایه در طول توکن‌سازی مشترک ویدئو-متن آموخته شده‌اند. نقشه های توجه بسته به سوال پرسیده شده برای یک ویدیو متفاوت است. به عنوان مثال، اگر سؤال مربوط به فعالیت کلی باشد (مثلاً گشت و گذار در شکل بالا)، نقشه های توجه ورودی های نرخ فریم پایین با وضوح بالاتر فعال تر هستند و به نظر می رسد اطلاعات جهانی بیشتری را در نظر می گیرند. در حالی که اگر سوال مشخص‌تر باشد، به عنوان مثال، پرسیدن در مورد آنچه پس از یک رویداد اتفاق می‌افتد، نقشه‌های ویژگی محلی‌تر هستند و تمایل دارند در ورودی ویدیویی با نرخ فریم بالا فعال باشند. علاوه بر این، می بینیم که ورودی های ویدیویی با وضوح پایین و نرخ فریم بالا اطلاعات بیشتری در رابطه با فعالیت های ویدیو ارائه می دهند.

نتیجه
ما یک رویکرد جدید برای یادگیری زبان ویدئویی ارائه می‌کنیم که بر یادگیری مشترک در روش‌های متن ویدئویی تمرکز دارد. ما به وظیفه مهم و چالش برانگیز پرسش و پاسخ ویدیویی می پردازیم. رویکرد ما هم بسیار کارآمد و هم دقیق است و علیرغم کارآمدتر بودن، از مدل‌های پیشرفته فعلی بهتر عمل می‌کند. رویکرد ما به اندازه‌های مدل متوسطی منجر می‌شود و می‌تواند با مدل‌ها و داده‌های بزرگ‌تر پیشرفت‌های بیشتری کسب کند. ما امیدواریم که این کار تحقیقات بیشتری را در یادگیری زبان بینایی تحریک کند تا تعامل یکپارچه‌تر با رسانه‌های مبتنی بر بینایی را فراهم کند.

سپاسگزاریها
این اثر توسط AJ Pierviovanni، Kairo Morton، Weicheng Kuo، Michael Ryoo و Anelia Angelova هدایت می شود. ما از همکاران خود در این تحقیق و Soravit Changpinyo برای نظرات و پیشنهادات ارزشمند و Claire Cui برای پیشنهادات و پشتیبانی تشکر می کنیم. ما همچنین از تام اسمال برای تجسم ها تشکر می کنیم.