تزریق بینایی به مدل‌های گفتار منجمد برای AV-ASR صفر شات – وبلاگ هوش مصنوعی گوگل

تشخیص خودکار گفتار (ASR) یک فناوری به خوبی تثبیت شده است که به طور گسترده برای کاربردهای مختلف مانند تماس‌های کنفرانسی، رونویسی ویدیوی جریانی و دستورات صوتی مورد استفاده قرار می‌گیرد. در حالی که چالش های این فناوری حول محور نویز است سمعی ورودی ها، دیداری جریان در ویدیوهای چندوجهی (مثلاً تلویزیون، ویدیوهای ویرایش شده آنلاین) می‌تواند نشانه‌های قوی برای بهبود استحکام سیستم‌های ASR ارائه دهد – این ASR سمعی و بصری (AV-ASR) نامیده می‌شود.

اگرچه حرکت لب می‌تواند سیگنال‌های قوی برای تشخیص گفتار ارائه دهد و رایج‌ترین ناحیه تمرکز برای AV-ASR است، دهان اغلب مستقیماً قابل مشاهده نیست. ویدیوها در طبیعت (به عنوان مثال، به دلیل دیدگاه های خودمحورانه، پوشش صورت، و وضوح کم) و بنابراین، یک حوزه تحقیقاتی جدید در حال ظهور است. بدون محدودیت AV-ASR (به عنوان مثال، AVATAR)، که سهم کل فریم های بصری را بررسی می کند، و نه فقط ناحیه دهان.

با این حال، ساخت مجموعه داده های سمعی و بصری برای آموزش مدل های AV-ASR چالش برانگیز است. مجموعه داده هایی مانند How2 و VisSpeech از ویدیوهای آموزشی آنلاین ایجاد شده اند، اما اندازه کوچکی دارند. در مقابل، خود مدل‌ها معمولاً بزرگ هستند و از رمزگذارهای بصری و صوتی تشکیل شده‌اند و بنابراین تمایل دارند روی این مجموعه داده‌های کوچک بیش از حد قرار بگیرند. با این وجود، اخیراً تعدادی از مدل‌های فقط صوتی در مقیاس بزرگ منتشر شده‌اند که به شدت از طریق آموزش در مقیاس بزرگ در مقیاس بزرگ بهینه‌سازی شده‌اند. فقط صدا داده های به دست آمده از کتاب های صوتی، مانند LibriLight و LibriSpeech. این مدل ها حاوی میلیاردها پارامتر هستند، به آسانی در دسترس هستند و تعمیم قوی در سراسر حوزه ها نشان می دهند.

با در نظر گرفتن چالش‌های فوق، در «AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR»، ما یک روش ساده برای تقویت مدل‌های صوتی در مقیاس بزرگ با اطلاعات بصری و در عین حال ارائه می‌کنیم. سازگاری دامنه سبک AVFormer تعبیه‌های بصری را به یک مدل ASR منجمد تزریق می‌کند (شبیه به نحوه تزریق اطلاعات بصری به مدل‌های زبان بزرگ برای کارهای بینایی-متن) با استفاده از آداپتورهای سبک وزن که می‌توانند بر روی مقدار کمی از داده‌های ویدیویی با برچسب ضعیف با حداقل زمان آموزشی اضافی آموزش داده شوند. مولفه های. ما همچنین یک طرح برنامه درسی ساده را در طول آموزش معرفی می‌کنیم، که نشان می‌دهیم برای فعال کردن مدل برای پردازش مشترک اطلاعات صوتی و بصری به طور موثر بسیار مهم است. مدل AVFormer به‌دست‌آمده در سه بنچمارک مختلف AV-ASR (How2، VisSpeech و Ego4D) به عملکرد پیشرفته‌ای دست می‌یابد، در حالی که عملکرد مناسب را در معیارهای سنتی تشخیص گفتار فقط صوتی (یعنی LibriSpeech) حفظ می‌کند. .

تشخیص گفتار سمعی و بصری بدون محدودیت ما بینایی را به یک مدل گفتار منجمد (BEST-RQ، به رنگ خاکستری) برای ASR سمعی و بصری صفر شات از طریق ماژول‌های سبک تزریق می‌کنیم تا مدلی با پارامتر و داده کارآمد به نام AVFormer (آبی) ایجاد کنیم. بافت بصری می‌تواند سرنخ‌های مفیدی برای تشخیص قوی گفتار ارائه دهد، به‌ویژه زمانی که سیگنال صوتی پر سر و صدا باشد (نان بصری به تصحیح اشتباه صوتی «میخک» به «نان» در رونوشت تولید شده کمک می‌کند).

تزریق بینایی با استفاده از ماژول های سبک وزن

هدف ما افزودن قابلیت‌های درک بصری به یک مدل ASR فقط صوتی و در عین حال حفظ عملکرد تعمیم آن به حوزه‌های مختلف (هم حوزه‌های AV و هم حوزه‌های فقط صوتی) است.

برای دستیابی به این هدف، ما یک مدل پیشرفته ASR موجود (Best-RQ) را با دو جزء زیر تقویت می کنیم: (i) پروژکتور بصری خطی و (ii) آداپتورهای سبک وزن. اولی ویژگی های بصری را در فضای تعبیه نشانه های صوتی پروژه می دهد. این فرآیند به مدل اجازه می‌دهد تا به‌طور مناسب ویژگی‌های بصری از قبل آموزش‌دیده‌شده و نمایش‌های نشانه ورودی صوتی را به درستی متصل کند. سپس مدل دوم حداقل مدل را تغییر می دهد تا درک ورودی های چندوجهی از ویدیوها را اضافه کند. سپس این ماژول‌های اضافی را بر روی ویدیوهای وب بدون برچسب از مجموعه داده HowTo100M، همراه با خروجی‌های یک مدل ASR به‌عنوان شبه حقیقت پایه، آموزش می‌دهیم، در حالی که بقیه مدل Best-RQ را ثابت نگه می‌داریم. چنین ماژول های سبک وزن، کارایی داده و تعمیم قوی عملکرد را ممکن می کند.

ما مدل توسعه یافته خود را بر روی معیارهای AV-ASR در یک تنظیمات صفر شات ارزیابی کردیم، جایی که مدل هرگز بر روی مجموعه داده AV-ASR مشروح دستی آموزش داده نمی شود.

یادگیری برنامه درسی برای تزریق بینایی

پس از ارزیابی اولیه، ما به طور تجربی دریافتیم که با یک دور ساده و ساده از آموزش مشترک، مدل برای یادگیری آداپتورها و پروژکتورهای بصری در یک حرکت تلاش می کند. برای کاهش این مشکل، ما یک استراتژی یادگیری برنامه درسی دو مرحله ای را معرفی کردیم که این دو عامل – انطباق دامنه و ادغام ویژگی های بصری – را از هم جدا می کند و شبکه را به روشی متوالی آموزش می دهد. در مرحله اول، پارامترهای آداپتور بدون تغذیه توکن های بصری بهینه می شوند. هنگامی که آداپتورها آموزش داده شدند، نشانه‌های بصری را اضافه می‌کنیم و لایه‌های نمایش تصویری را به تنهایی در مرحله دوم آموزش می‌دهیم در حالی که آداپتورهای آموزش‌دیده منجمد نگه داشته می‌شوند.

مرحله اول بر روی تطبیق دامنه صوتی تمرکز دارد. در مرحله دوم، آداپتورها کاملاً منجمد شده‌اند و پروژکتور بصری باید به سادگی یاد بگیرد که اعلان‌های بصری ایجاد کند که نشانه‌های بصری را در فضای صوتی پخش می‌کند. به این ترتیب، استراتژی یادگیری برنامه درسی ما به مدل اجازه می دهد تا ورودی های بصری را ترکیب کند و همچنین با حوزه های صوتی جدید در معیارهای AV-ASR سازگار شود. ما هر فاز را فقط یک بار اعمال می کنیم، زیرا استفاده تکراری از فازهای متناوب منجر به کاهش عملکرد می شود.

روش کلی معماری و آموزش برای AVFormer. این معماری از یک مدل رمزگذار-رمزگشای منجمد Conformer و یک رمزگذار CLIP منجمد (لایه‌های منجمد شده به رنگ خاکستری با نماد قفل نشان داده شده‌اند)، در ارتباط با دو ماژول سبک وزن قابل آموزش – (i) لایه نمایش تصویری (نارنجی) و آداپتورهای تنگنا ( آبی) برای فعال کردن تطبیق دامنه چندوجهی. ما یک استراتژی یادگیری برنامه درسی دو مرحله‌ای را پیشنهاد می‌کنیم: آداپتورها (آبی) ابتدا بدون هیچ نشانه بصری آموزش داده می‌شوند، پس از آن لایه نمایش تصویری (نارنجی) تنظیم می‌شود در حالی که تمام قسمت‌های دیگر منجمد می‌شوند.

نمودارهای زیر نشان می‌دهند که بدون یادگیری برنامه درسی، مدل AV-ASR ما بدتر از خط پایه فقط صوتی در تمام مجموعه‌های داده است، و با اضافه شدن نشانه‌های بصری بیشتر، شکاف افزایش می‌یابد. در مقابل، هنگامی که برنامه درسی دو مرحله ای پیشنهادی اعمال می شود، مدل AV-ASR ما به طور قابل توجهی بهتر از مدل پایه فقط صوتی عمل می کند.

اثرات یادگیری برنامه درسی. خطوط قرمز و آبی برای مدل های سمعی و بصری هستند و در 3 مجموعه داده در تنظیمات صفر شات نشان داده شده اند (% WER کمتر بهتر است). استفاده از برنامه درسی به هر 3 مجموعه داده کمک می کند (برای How2 (a) و Ego4D (c) برای عملکرد بهتر از عملکرد صوتی بسیار مهم است). عملکرد تا 4 نشانه بصری بهبود می‌یابد که در آن مرحله اشباع می‌شود.

نتایج در صفر شات AV-ASR

ما AVFormer را با BEST-RQ، نسخه صوتی مدل خود، و AVATAR، وضعیت هنر در AV-ASR، برای عملکرد صفر شات در سه معیار AV-ASR مقایسه می‌کنیم: How2، VisSpeech و Ego4D. AVFormer از AVATAR و BEST-RQ در همه عملکرد بهتری دارد، حتی زمانی که آنها در LibriSpeech و مجموعه کامل HowTo100M آموزش می بینند، از هر دو AVATAR و BEST-RQ بهتر عمل می کند. این قابل توجه است زیرا برای BEST-RQ، این شامل آموزش 600M پارامتر است، در حالی که AVFormer فقط 4M پارامتر را آموزش می دهد و بنابراین تنها به بخش کوچکی از مجموعه داده آموزشی (5٪ از HowTo100M) نیاز دارد. علاوه بر این، عملکرد LibriSpeech را نیز ارزیابی می‌کنیم که فقط صوتی است و AVFormer از هر دو خط پایه بهتر عمل می‌کند.

مقایسه با روش های پیشرفته برای عملکرد صفر شات در مجموعه داده های مختلف AV-ASR. ما همچنین اجراهایی را در LibriSpeech که فقط صوتی است نشان می‌دهیم. نتایج به عنوان % WER گزارش می شود (کمتر بهتر است). AVATAR و BEST-RQ در HowTo100M یکپارچه به انتها (همه پارامترها) تنظیم می شوند، در حالی که AVFormer به لطف مجموعه کوچکی از پارامترهای تنظیم شده حتی با 5٪ از مجموعه داده به طور موثر کار می کند.

نتیجه

ما AVFormer را معرفی می‌کنیم، روشی سبک وزن برای تطبیق مدل‌های ASR پیشرفته و منجمد برای AV-ASR. رویکرد ما عملی و کارآمد است و به عملکرد چشمگیر ضربه صفر دست می یابد. همانطور که مدل‌های ASR بزرگ‌تر و بزرگ‌تر می‌شوند، تنظیم کل مجموعه پارامترهای مدل‌های از پیش آموزش‌دیده شده غیرعملی می‌شود (حتی بیشتر برای حوزه‌های مختلف). روش ما به طور یکپارچه امکان انتقال دامنه و اختلاط ورودی بصری را در یک مدل کارآمد پارامتر می دهد.

سپاسگزاریها

این تحقیق توسط Paul Hongsuck Seo، Arsha Nagrani و Cordelia Schmid انجام شده است.

سئو PBN | خبر های جدید سئو و هک و سرور