نوامبر گذشته، ابتکار 1000 زبان را اعلام کردیم، تعهدی بلندپروازانه برای ساختن یک مدل یادگیری ماشینی (ML) که از هزار زبان پرتکلم دنیا پشتیبانی میکند و مشارکت بیشتری را برای میلیاردها نفر در سراسر جهان به ارمغان میآورد. با این حال، برخی از این زبانها توسط کمتر از بیست میلیون نفر صحبت میشوند، بنابراین یک چالش اصلی نحوه پشتیبانی از زبانهایی است که گویشوران نسبتاً کمی یا دادههای موجود محدودی برای آنها وجود دارد.
امروز، ما مشتاق هستیم که اطلاعات بیشتری را در مورد مدل گفتار جهانی (USM) به اشتراک بگذاریم، اولین گام حیاتی برای پشتیبانی از 1000 زبان. USM خانواده ای از پیشرفته ترین مدل های گفتار با پارامترهای 2B است که بر روی 12 میلیون ساعت گفتار و 28 میلیارد جمله متن آموزش داده شده است که بیش از 300 زبان را در بر می گیرد. USM، که برای استفاده در YouTube (مثلاً برای زیرنویسهای بسته) است، میتواند تشخیص خودکار گفتار (ASR) را نه تنها در زبانهای پرمخاطب مانند انگلیسی و ماندارین، بلکه در زبانهای فاقد منابع مانند آمهری، سبوانو، آسامی، انجام دهد. و آذربایجانی به نام چند. در «Google USM: مقیاس تشخیص خودکار گفتار فراتر از 100 زبان»، نشان میدهیم که استفاده از مجموعه دادههای چندزبانه بدون برچسب بزرگ برای آموزش از قبل رمزگذار مدل و تنظیم دقیق روی مجموعه کوچکتری از دادههای برچسبگذاری شده، ما را قادر میسازد تا موارد زیر را تشخیص دهیم. زبان ها. علاوه بر این، فرآیند آموزش مدل ما در سازگاری با زبانها و دادههای جدید مؤثر است.
نمونه ای از زبان هایی که USM پشتیبانی می کند. |
چالش های موجود در ASR فعلی
برای دستیابی به این هدف بلندپروازانه، باید به دو چالش مهم در ASR بپردازیم.
اول، عدم مقیاس پذیری با رویکردهای یادگیری نظارت شده مرسوم وجود دارد. یکی از چالشهای اساسی مقیاسبندی فناوریهای گفتاری به بسیاری از زبانها، دستیابی به دادههای کافی برای آموزش مدلهای با کیفیت بالا است. با روشهای مرسوم، دادههای صوتی باید یا به صورت دستی برچسبگذاری شوند، که زمانبر و پرهزینه است، یا از منابعی با رونویسیهای از پیش موجود جمعآوری شوند، که یافتن آنها برای زبانهایی که بازنمایی گستردهای ندارند، دشوارتر است. در مقابل، یادگیری خود نظارتی میتواند از دادههای فقط صوتی استفاده کند، که در مقادیر بسیار بیشتری در زبانها موجود است. این امر خود نظارتی را به رویکرد بهتری برای دستیابی به هدف ما در مقیاس دهی در صدها زبان تبدیل می کند.
چالش دیگر این است که مدل ها باید به شیوه ای محاسباتی کارآمد بهبود یابند در حالی که ما پوشش و کیفیت زبان را گسترش می دهیم. این امر مستلزم آن است که الگوریتم یادگیری انعطاف پذیر، کارآمد و قابل تعمیم باشد. به طور خاص، چنین الگوریتمی باید بتواند از مقادیر زیادی داده از منابع مختلف استفاده کند، به روز رسانی مدل را بدون نیاز به بازآموزی کامل فعال کند، و به زبان های جدید و موارد استفاده تعمیم دهد.
رویکرد ما: یادگیری خود نظارتی با تنظیم دقیق
USM از معماری رمزگذار-رمزگشای استاندارد استفاده می کند، جایی که رمزگشا می تواند CTC، RNN-T یا LAS باشد. برای رمزگذار، USM از Conformer یا ترانسفورماتور کانولوشن افزوده استفاده می کند. جزء کلیدی Conformer بلوک Conformer است که از ماژول های توجه، پیشخور و کانولوشن تشکیل شده است. طیفنگار log-mel سیگنال گفتار را به عنوان ورودی میگیرد و یک نمونهگیری فرعی کانولوشن انجام میدهد، پس از آن یک سری بلوک Conformer و یک لایه طرحریزی برای به دست آوردن جاسازیهای نهایی اعمال میشود.
خط لوله آموزشی ما با اولین گام یادگیری خود نظارتی بر روی صدای گفتاری که صدها زبان را پوشش می دهد شروع می شود. در مرحله دوم اختیاری، کیفیت و پوشش زبان مدل را می توان از طریق یک مرحله قبل از آموزش اضافی با داده های متنی بهبود بخشید. تصمیم برای ترکیب مرحله دوم بستگی به در دسترس بودن داده های متنی دارد. USM با این مرحله دوم اختیاری بهترین عملکرد را دارد. آخرین مرحله خط لوله آموزشی، تنظیم دقیق وظایف پایین دستی (مانند ASR یا ترجمه خودکار گفتار) با مقدار کمی از داده های نظارت شده است.
برای اولین قدم، ما از BEST-RQ استفاده میکنیم، که قبلاً نتایج پیشرفتهای را در کارهای چند زبانه نشان داده است و ثابت کرده است که هنگام استفاده از مقادیر بسیار زیاد دادههای صوتی بدون نظارت، کارآمد است.
در مرحله دوم (اختیاری)، از پیش آموزش نظارت شده چند هدفه برای ترکیب دانش از داده های متنی اضافی استفاده کردیم. این مدل یک ماژول رمزگذار اضافی را برای دریافت متن به عنوان ورودی و لایههای اضافی برای ترکیب خروجی رمزگذار گفتار و رمزگذار متن معرفی میکند و مدل را به طور مشترک روی گفتار بدون برچسب، گفتار برچسبگذاری شده و دادههای متن آموزش میدهد.
در آخرین مرحله، USM بر روی وظایف پایین دستی تنظیم شده است. خط لوله آموزشی کلی در زیر نشان داده شده است. با دانش به دست آمده در طول آموزش، مدل های USM تنها با مقدار کمی از داده های نظارت شده از وظایف پایین دستی به کیفیت خوبی دست می یابند.
خط لوله آموزشی کلی USM. |
نتایج کلیدی
عملکرد در چندین زبان در زیرنویسهای YouTube
رمزگذار ما بیش از 300 زبان را از طریق قبل از آموزش ترکیب می کند. ما کارآمدی رمزگذار از پیش آموزشدیده را از طریق تنظیم دقیق دادههای گفتاری چند زبانه YouTube Caption نشان میدهیم. داده های YouTube تحت نظارت شامل 73 زبان است و به طور متوسط کمتر از سه هزار ساعت داده در هر زبان دارد. با وجود دادههای محدود نظارت شده، این مدل به طور متوسط در 73 زبان به کمتر از 30 درصد نرخ خطای کلمه (WER؛ کمتر بهتر است) دست مییابد، نقطه عطفی که قبلاً هرگز به آن دست نیافتهایم. برای en-US، USM دارای 6 درصد WER نسبی کمتر در مقایسه با مدل فعلی داخلی است. در نهایت، ما با مدل بزرگ اخیرا منتشر شده، Whisper (large-v2) مقایسه میکنیم که با بیش از 400 هزار ساعت داده برچسبگذاری شده آموزش داده شده است. برای مقایسه، ما فقط از 18 زبانی استفاده می کنیم که Whisper می تواند با موفقیت کمتر از 40٪ WER رمزگشایی کند. مدل ما به طور متوسط 32.7% WER کمتری نسبت به Whisper برای این 18 زبان دارد.
USM از همه 73 زبان موجود در مجموعه آزمایشی شرحهای YouTube پشتیبانی میکند و از Whisper در زبانهایی که میتواند با کمتر از 40٪ WER پشتیبانی کند، بهتر است. WER پایین تر بهتر است. |
تعمیم به وظایف ASR پایین دست
در مجموعه دادههای در دسترس عموم، مدل ما WER کمتری را در مقایسه با Whisper on CORAAL (انگلیسی بومی آفریقایی آمریکایی)، SpeechStew (en-US) و FLEURS (102 زبان) نشان میدهد. مدل ما WER کمتری را با و بدون آموزش روی دادههای درون دامنه به دست میآورد. مقایسه در FLEURS زیرمجموعه زبانها (62) را گزارش میکند که با زبانهای پشتیبانی شده توسط مدل Whisper همپوشانی دارند. برای FLEURS، USM بدون دادههای درون دامنه دارای 65.8 درصد WER نسبی کمتر در مقایسه با Whisper است و دارای 67.8 درصد WER نسبی کمتر با دادههای درون دامنه است.
مقایسه USM (با یا بدون داده های درون دامنه) و نتایج Whisper در معیارهای ASR. WER پایین تر بهتر است. |
عملکرد ترجمه خودکار گفتار (AST)
برای ترجمه گفتار، USM را روی مجموعه داده CoVoST تنظیم می کنیم. مدل ما، که شامل متن از طریق مرحله دوم خط لوله ما است، با داده های نظارت محدود به کیفیتی پیشرفته دست می یابد. برای ارزیابی وسعت عملکرد مدل، زبانها را از مجموعه داده CoVoST به بالا، متوسط و پایین بر اساس در دسترس بودن منابع تقسیم میکنیم و امتیاز BLEU (بالاتر بهتر) را برای هر بخش محاسبه میکنیم. همانطور که در زیر نشان داده شده است، USM از Whisper برای همه بخش ها بهتر است.
امتیاز CoVoST BLEU. BLEU بالاتر بهتر است. |
به سوی 1000 زبان
توسعه USM تلاشی حیاتی در جهت تحقق مأموریت Google برای سازماندهی اطلاعات جهان و در دسترس قرار دادن آن در سطح جهانی است. ما بر این باوریم که معماری مدل پایه و خط لوله آموزشی USM پایهای را تشکیل میدهد که میتوانیم براساس آن مدلسازی گفتار را به 1000 زبان بعدی گسترش دهیم.
بیشتر بدانید
مقاله ما را اینجا بررسی کنید. محققان میتوانند از اینجا درخواست دسترسی به USM API کنند.
سپاسگزاریها
ما از همه نویسندگان برای همکاری در پروژه و مقاله، از جمله اندرو روزنبرگ، انکور باپنا تشکر می کنیم.، بووانا رامابهادران، بو لی، چونگ چنگ چیو، دانیل پارک، فرانسیس بیوفیس، هاگن سولتاو، گری وانگ، جینجر پرنگ، جیمز کین، جیسون ریسا، یوهان شالکویک، که هو، نانشین چن، پریسا هاگانی، پدرو مورنو منگیبار، روهیت پرابهاوالکار ، تارا سایناث، تروور استروهمن، ورا اکسلرود، وی هان، یونگهوی وو، یونگ کیانگ وانگ، یو ژانگ، ژهوای چن، و ژونگ منگ.
همچنین از الکسیس کونیو، مین ما، شیخار بهارادواج، سید دالمیا، جیاهوی یو، جیان چنگ، پل روبنشتاین، یه جیا، جاستین اسنایدر، وینسنت تسانگ، یوانژونگ ژو، تائو وانگ برای بحث های مفید تشکر می کنیم.
ما از بازخورد و حمایت ارزشمند الی کالینز، جف دین، سیسی هسیائو، زوبین قهرمانی قدردانی می کنیم. با تشکر ویژه از آستین تارانگو، لارا تومه، آمنا لطیف و جیسون پورتا برای راهنماییهایشان در مورد تمرینهای هوش مصنوعی مسئول. از الیزابت ادکیسون، جیمز کوکریل برای کمک به نامگذاری مدل، تام اسمال برای گرافیک متحرک، آبیشک باپنا برای پشتیبانی ویرایشی و اریکا موریرا برای مدیریت منابع تشکر میکنیم. ما از انوشا رامش برای بازخورد، راهنمایی و کمک در مورد استراتژی انتشار، و Calum Barnes و Salem Haykal برای همکاری ارزشمندشان تشکر می کنیم.