مقیاس کردن درک چندوجهی به ویدیوهای طولانی - وبلاگ تحقیقاتی Google - سئو PBN

ارسال شده توسط Isaac Noble، مهندس نرم افزار، Google Research، و Anelia Angelova، دانشمند پژوهشی، Google DeepMind

هنگام ساخت مدل‌های یادگیری ماشین برای برنامه‌های کاربردی واقعی، باید ورودی‌های چند روش را در نظر بگیریم تا بتوانیم جنبه‌های مختلف دنیای اطراف خود را به تصویر بکشیم. به عنوان مثال، صدا، ویدئو و متن همگی اطلاعات متنوع و مکملی را در مورد یک ورودی بصری ارائه می دهند. با این حال، ساخت مدل‌های چندوجهی به دلیل ناهمگونی روش‌ها چالش برانگیز است. برخی از روش ها ممکن است به خوبی در زمان همگام شوند (مثلاً صدا، ویدیو) اما با متن هماهنگ نباشند. علاوه بر این، حجم زیاد داده در سیگنال‌های ویدئویی و صوتی بسیار بیشتر از متن است، بنابراین هنگام ترکیب آنها در مدل‌های چندوجهی، ویدئو و صدا اغلب نمی‌توانند به طور کامل مصرف شوند و نیاز به فشرده‌سازی نامتناسب دارند. این مشکل برای ورودی های ویدیویی طولانی تر تشدید می شود.

در “Mirasol3B: یک مدل خودرگرسیون چندوجهی برای مدالیته‌های همسو با زمان و زمینه‌ای”، ما یک مدل خودرگرسیون چندوجهی (Mirasol3B) را برای یادگیری در روش‌های صوتی، تصویری و متنی معرفی می‌کنیم. ایده اصلی این است که مدل‌سازی چندوجهی را به مدل‌های خودرگرسیون متمرکز جداگانه جدا کنیم و ورودی‌ها را بر اساس ویژگی‌های روش‌ها پردازش کنیم. مدل ما متشکل از یک مؤلفه اتورگرسیو برای مدالیته‌های همگام‌سازی زمانی (صوتی و ویدیویی) و یک مؤلفه اتورگرسیو جداگانه برای مدالیته‌هایی است که لزوماً هم‌تراز با زمان نیستند، اما همچنان متوالی هستند، به عنوان مثال، ورودی‌های متن، مانند عنوان یا توضیحات. علاوه بر این، روش‌های همسو با زمان در زمان تقسیم می‌شوند که ویژگی‌های محلی را می‌توان به طور مشترک یاد گرفت. به این ترتیب ورودی های صوتی-تصویری به موقع مدل می شوند و پارامترهای نسبتاً بیشتری نسبت به کارهای قبلی به آنها اختصاص می یابد. با این رویکرد، می‌توانیم بدون زحمت ویدیوهای بسیار طولانی‌تری (مثلاً 128-512 فریم) در مقایسه با سایر مدل‌های چندوجهی مدیریت کنیم. در پارامترهای 3B، Mirasol3B در مقایسه با مدل‌های قبلی فلامینگو (80B) و PaLI-X (55B) فشرده است. در نهایت، Mirasol3B از رویکردهای پیشرفته در پاسخگویی به سؤالات ویدیویی (ویدئو QA)، کیفیت کیفیت ویدیوی طولانی، و معیارهای صوتی-تصویری-متن بهتر عمل می کند.

معماری Mirasol3B متشکل از یک مدل اتورگرسیو برای مدالیته‌های همتراز با زمان (صوتی و تصویری)، که به صورت تکه‌ای تقسیم‌بندی شده‌اند، و یک مدل اتورگرسیو جداگانه برای مدالیته‌های زمینه بدون تراز (مثلاً متن) است. یادگیری ویژگی های مشترک توسط Combiner انجام می شود، که ویژگی های فشرده اما به اندازه کافی آموزنده را یاد می گیرد و امکان پردازش ورودی های ویدیویی/صوتی طولانی را فراهم می کند.

هماهنگی روشهای همسو با زمان و زمینه

ویدئو، صوت و متن روش های متنوعی با ویژگی های متمایز هستند. برای مثال، ویدئو یک سیگنال بصری مکانی-زمانی با 30-100 فریم در ثانیه است، اما به دلیل حجم زیاد داده، معمولاً فقط 32-64 فریم است. در هر ویدیو توسط مدل های فعلی مصرف می شوند. صدا یک سیگنال زمانی یک بعدی است که با فرکانس بسیار بالاتر از ویدئو (مثلاً 16 هرتز) به دست می‌آید، در حالی که ورودی‌های متنی که برای کل ویدیو اعمال می‌شود، معمولاً 200 تا 300 توالی کلمه هستند و به عنوان زمینه‌ای برای صدا عمل می‌کنند. ورودی های ویدئویی برای این منظور، ما مدلی متشکل از یک مؤلفه اتورگرسیو را پیشنهاد می‌کنیم که سیگنال‌های همسو با زمان را که در فرکانس‌های بالا رخ می‌دهند و تقریباً همگام‌سازی می‌شوند، ترکیب می‌کند و به طور مشترک یاد می‌گیرد، و یک مؤلفه خودرگرسیون دیگر برای پردازش سیگنال‌های غیر تراز. یادگیری بین مؤلفه‌ها برای روش‌های همسو با زمانی و زمینه‌ای از طریق مکانیسم‌های توجه متقابل هماهنگ می‌شود که به این دو اجازه می‌دهد در حین یادگیری در یک دنباله اطلاعات را بدون نیاز به همگام‌سازی در زمان، تبادل کنند.

مدل‌سازی خودرگرسیون هم‌تراز با زمان ویدئو و صدا

ویدئوهای طولانی می‌توانند اطلاعات و فعالیت‌های غنی را که به صورت متوالی اتفاق می‌افتند، منتقل کنند. با این حال، مدل‌های کنونی با استخراج همه اطلاعات به صورت یکجا، بدون اطلاعات زمانی کافی، به مدل‌سازی ویدیویی نزدیک می‌شوند. برای پرداختن به این موضوع، ما یک استراتژی مدل‌سازی خودرگرسیون را اعمال می‌کنیم که در آن بازنمایی‌های ویدیویی و صوتی مشترکی را برای یک بازه زمانی در بازنمایی ویژگی‌های بازه‌های زمانی قبلی شرطی می‌کنیم. این اطلاعات زمانی را حفظ می کند.

ویدئو ابتدا به تکه های ویدئویی کوچکتر تقسیم می شود. هر قطعه خود می تواند 4 تا 64 فریم باشد. سپس ویژگی‌های مربوط به هر قطعه توسط یک ماژول یادگیری به نام Combiner پردازش می‌شود (که در زیر توضیح داده شده است)، که یک نمایش ویژگی صوتی و تصویری مشترک در مرحله فعلی ایجاد می‌کند – این مرحله مهم‌ترین اطلاعات را در هر قطعه استخراج و فشرده می‌کند. در مرحله بعد، این نمایش ویژگی مشترک را با یک ترانسفورماتور اتورگرسیو پردازش می کنیم، که توجه را به نمایش ویژگی قبلی اعمال می کند و نمایش ویژگی مشترک را برای مرحله بعدی ایجاد می کند. در نتیجه، مدل یاد می‌گیرد که چگونه نه تنها تک تک تکه‌ها را نشان دهد، بلکه می‌آموزد که چگونه تکه‌ها به صورت زمانی ارتباط دارند.

ما از یک مدل‌سازی اتورگرسیو ورودی‌های صوتی و تصویری استفاده می‌کنیم، آنها را در زمان پارتیشن بندی می‌کنیم و نمایش ویژگی‌های مشترک را یاد می‌گیریم، که سپس به‌طور خودرگرسیون به ترتیب یاد می‌گیریم.

مدل سازی ویدیوهای طولانی با ترکیب کننده مدالیته

برای ترکیب سیگنال‌ها از اطلاعات ویدیویی و صوتی در هر قطعه ویدیو، ما یک ماژول یادگیری به نام Combiner را پیشنهاد می‌کنیم. سیگنال‌های صوتی و تصویری با گرفتن ورودی‌های صوتی که با یک بازه زمانی خاص ویدیو مطابقت دارند، تراز می‌شوند. سپس ورودی‌های صوتی و تصویری را به‌صورت مکانی-زمانی پردازش می‌کنیم و اطلاعات مربوط به آن را استخراج می‌کنیم تغییرات در ورودی ها (برای ویدیوها از لوله‌های ویدیویی پراکنده استفاده می‌کنیم و برای صدا از نمایش طیف‌نگاری استفاده می‌کنیم که هر دو توسط یک Vision Transformer پردازش می‌شوند). ما این ویژگی‌ها را به Combiner متصل کرده و وارد می‌کنیم، که برای یادگیری یک نمایش ویژگی جدید طراحی شده است که هر دو این ورودی‌ها را ثبت می‌کند. برای رفع چالش حجم زیاد داده در سیگنال‌های ویدیویی و صوتی، هدف دیگر Combiner کاهش ابعاد ورودی‌های مشترک تصویر/صوت است که با انتخاب تعداد کمتری از ویژگی‌های خروجی برای تولید انجام می‌شود. Combiner را می توان به سادگی به عنوان یک ترانسفورماتور علّی پیاده سازی کرد، که ورودی ها را در جهت زمان پردازش می کند، یعنی فقط با استفاده از ورودی های مراحل قبلی یا فعلی. از طرف دیگر، Combiner می تواند حافظه قابل یادگیری داشته باشد که در زیر توضیح داده شده است.

سبک های ترکیبی

یک نسخه ساده از Combiner معماری Transformer را تطبیق می دهد. به طور خاص، تمام ویژگی‌های صوتی و تصویری از قطعه فعلی (و به صورت اختیاری تکه‌های قبلی) به یک ترانسفورماتور وارد می‌شوند و به ابعاد کمتری پیش‌بینی می‌شوند، یعنی تعداد کمتری از ویژگی‌ها به عنوان ویژگی‌های «ترکیب» خروجی انتخاب می‌شوند. در حالی که ترانسفورماتورها معمولاً در این زمینه استفاده نمی شوند، ما آن را برای کاهش ابعاد ویژگی های ورودی، با انتخاب آخرین مورد موثر می دانیم. متر خروجی ترانسفورماتور، اگر متر بعد خروجی مورد نظر است (در زیر نشان داده شده است). از طرف دیگر، Combiner می تواند یک جزء حافظه داشته باشد. به عنوان مثال، ما از ماشین تورینگ توکن (TTM) استفاده می کنیم که از یک واحد حافظه قابل تفکیک پشتیبانی می کند و ویژگی های تمام مراحل قبلی را جمع آوری و فشرده می کند. استفاده از یک حافظه ثابت به مدل این امکان را می‌دهد که در هر مرحله با مجموعه‌ای از ویژگی‌های فشرده‌تر کار کند، نه اینکه تمام ویژگی‌های مراحل قبلی را پردازش کند، که محاسبات را کاهش می‌دهد.

ما از یک Combiner ساده مبتنی بر ترانسفورماتور (ترک کرد) و یک ترکیب کننده حافظه (درستبر اساس ماشین تورینگ توکن (TTM)، که از حافظه برای فشرده‌سازی تاریخچه قبلی ویژگی‌ها استفاده می‌کند.

نتایج

ما رویکرد خود را بر روی چندین معیار، MSRVTT-QA، ActivityNet-QA و NeXT-QA، برای تکلیف QA ویدیو، که در آن یک سؤال مبتنی بر متن در مورد یک ویدیو صادر می‌شود و مدل باید به آن پاسخ دهد، ارزیابی می‌کنیم. این توانایی مدل را برای درک هر دو سؤال مبتنی بر متن و محتوای ویدیویی و ایجاد پاسخ، با تمرکز تنها بر اطلاعات مرتبط ارزیابی می کند. از بین این معیارها، دو مورد آخر ورودی‌های ویدیویی طولانی را هدف قرار می‌دهند و سوالات پیچیده‌تری دارند.

ما همچنین رویکرد خود را در محیط چالش‌برانگیزتر تولید متن با پایان باز ارزیابی می‌کنیم، که در آن مدل پاسخ‌ها را به شکلی نامحدود به صورت متن آزاد تولید می‌کند، که نیاز به تطابق دقیق با پاسخ حقیقت پایه دارد. در حالی که این ارزیابی دقیق تر مترادف ها را نادرست به حساب می آورد، ممکن است توانایی یک مدل را برای تعمیم بهتر منعکس کند.

نتایج ما نشان‌دهنده عملکرد بهبود یافته نسبت به رویکردهای پیشرفته برای اکثر معیارها، از جمله همه با ارزیابی نسل باز است – قابل توجه با توجه به اینکه مدل ما فقط پارامترهای 3B است، به طور قابل‌توجهی کوچکتر از رویکردهای قبلی، به عنوان مثال، Flamingo 80B. ما فقط از ورودی های ویدئو و متن استفاده کردیم تا با کارهای دیگر قابل مقایسه باشد. نکته مهم این است که مدل ما می‌تواند 512 فریم را بدون نیاز به افزایش پارامترهای مدل پردازش کند، که برای مدیریت ویدیوهای طولانی‌تر بسیار مهم است. در نهایت با TTM Combiner، ما شاهد عملکرد بهتر یا قابل مقایسه با کاهش 18 درصدی محاسبه هستیم.

نتایج در معیار NeXT-QA، که دارای ویدیوهای طولانی برای وظیفه QA ویدیویی است.

نتایج در مورد معیارهای صوتی و تصویری

نتایج مجموعه داده‌های صوتی-تصویری محبوب VGG-Sound و EPIC-SOUNDS در زیر نشان داده شده است. از آنجایی که این معیارها فقط طبقه بندی هستند، ما آنها را به عنوان یک تنظیم متن باز تولید می کنیم که در آن مدل ما متن کلاس مورد نظر را تولید می کند. به عنوان مثال، برای شناسه کلاس مربوط به فعالیت “درام نواختن”، انتظار داریم که مدل متن “درام نواختن” را تولید کند. در برخی موارد، رویکرد ما با حاشیه‌های زیادی از وضعیت قبلی پیشی می‌گیرد، حتی اگر مدل ما نتایج را در یک محیط باز تولیدی خروجی می‌دهد.

نتایج مربوط به مجموعه داده VGG-Sound (کیفیت صوتی و تصویری).

مزایای مدل سازی اتورگرسیو

ما یک مطالعه فرسایشی انجام می‌دهیم که رویکرد خود را با مجموعه‌ای از خطوط پایه مقایسه می‌کند که از اطلاعات ورودی یکسان اما با روش‌های استاندارد (یعنی بدون خودرگرسیون و ترکیب‌کننده) استفاده می‌کنند. ما همچنین اثرات قبل از تمرین را با هم مقایسه می کنیم. از آنجایی که روش‌های استاندارد برای پردازش ویدیوی طولانی‌تر مناسب نیستند، این آزمایش فقط برای 32 فریم و چهار تکه، در همه تنظیمات برای مقایسه منصفانه انجام می‌شود. می بینیم که پیشرفت های Mirasol3B هنوز برای ویدیوهای نسبتاً کوتاه معتبر است.

آزمایش‌های فرسایشی با مقایسه اجزای اصلی مدل ما. استفاده از Combiner، مدل‌سازی اتورگرسیو و پیش‌آموزش همگی عملکرد را بهبود می‌بخشند.

نتیجه

ما یک مدل خودرگرسیون چندوجهی را ارائه می‌دهیم که چالش‌های مرتبط با ناهمگونی داده‌های چندوجهی را با هماهنگ کردن یادگیری بین روش‌های هم‌تراز با زمان و ناهمسو با زمان بررسی می‌کند. مدالیته‌های هم‌تراز با زمان، به‌طور خودکار در زمان با یک Combiner پردازش می‌شوند و طول توالی را کنترل می‌کنند و نمایش‌های قدرتمندی تولید می‌کنند. ما نشان می‌دهیم که یک مدل نسبتاً کوچک می‌تواند ویدیوی طولانی را با موفقیت نشان دهد و به طور مؤثر با سایر روش‌ها ترکیب شود. ما از روش‌های پیشرفته (از جمله برخی مدل‌های بسیار بزرگ‌تر) در پاسخ‌گویی به سؤالات ویدیویی و صوتی و تصویری بهتر عمل می‌کنیم.

سپاسگزاریها

این تحقیق توسط AJ Piergiovanni، Isaac Noble، Dahun Kim، Michael Ryoo، Victor Gomes و Anelia Angelova نوشته شده است. از کلر کوی، تانیا بدراکس-وایس، ابهیجیت اوگال، یون سوان سونگ، چینگ چونگ چانگ، ماروین ریتر، کریستینا توتانوا، مینگ وی چانگ، آشیش تاپلیال، ژیانگ لو، وایچنگ کو، آرن جانسن، برایان سیبولد، ابراهیمسین آلاب، سپاسگزاریم. جیالین وو، لوک فریدمن، ترور واکر، کیرتانا گوپالاکریشنان، جیسون بالدریج، رادو سوریکوت، مجتبی سیدحسینی، الکساندر دامور، الیور وانگ، پل ناتسف، تام دوریگ، یونگهوی وو، اسلاو پتروف، زوبین قهرمانی و حمایت از آنها. همچنین از تام اسمال برای تهیه انیمیشن تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور