ارزیابی سنتز گفتار در بسیاری از زبان‌ها با SQuId – Google AI Blog

ارزیابی سنتز گفتار در بسیاری از زبان‌ها با SQuId – Google AI Blog

پیش از این، طرح 1000 زبان و مدل جهانی گفتار را با هدف در دسترس قرار دادن فناوری‌های گفتار و زبان برای میلیاردها کاربر در سراسر جهان ارائه کردیم. بخشی از این تعهد شامل توسعه فناوری‌های سنتز گفتار با کیفیت بالا است که بر اساس پروژه‌هایی مانند VDTTS و AudioLM برای کاربرانی که به زبان‌های مختلف صحبت می‌کنند، ساخته می‌شود.

پس از توسعه یک مدل جدید، باید ارزیابی کرد که آیا گفتاری که تولید می‌کند دقیق و طبیعی است: محتوا باید با کار مرتبط باشد، تلفظ صحیح، لحن مناسب باشد، و نباید هیچ گونه مصنوعات صوتی مانند ترک یا سیگنال مرتبط باشد. سر و صدا. چنین ارزیابی یک گلوگاه بزرگ در توسعه سیستم های گفتار چند زبانه است.

محبوب‌ترین روش برای ارزیابی کیفیت مدل‌های سنتز گفتار، ارزیابی انسانی است: یک مهندس تبدیل متن به گفتار (TTS) چند هزار گفته از آخرین مدل تولید می‌کند، آنها را برای ارزیابی انسانی ارسال می‌کند و چند روز بعد نتایج را دریافت می‌کند. این مرحله ارزیابی معمولاً شامل تست های شنیداری، که طی آن ده ها حاشیه نویس یکی پس از دیگری به جملات گوش می دهند تا بفهمند چقدر طبیعی به نظر می رسند. در حالی که انسان ها هنوز در تشخیص طبیعی به نظر رسیدن یک متن شکست نخورده اند، این فرآیند می تواند غیرعملی باشد – به خصوص در مراحل اولیه پروژه های تحقیقاتی، زمانی که مهندسان برای آزمایش و استراتژی مجدد رویکرد خود به بازخورد سریع نیاز دارند. ارزیابی انسانی پرهزینه، زمان‌بر است و ممکن است به دلیل در دسترس بودن رتبه‌دهنده‌ها برای زبان‌های مورد علاقه محدود شود.

مانع دیگر پیشرفت این است که پروژه‌ها و مؤسسات مختلف معمولاً از رتبه‌بندی‌ها، پلتفرم‌ها و پروتکل‌های مختلفی استفاده می‌کنند که مقایسه سیب به سیب را غیرممکن می‌کند. در این راستا، فناوری‌های سنتز گفتار از تولید متن عقب هستند، جایی که محققان مدت‌هاست ارزیابی انسانی را با معیارهای خودکار مانند BLEU یا اخیراً BLEURT تکمیل کرده‌اند.

در “SQuId: اندازه گیری طبیعی بودن گفتار در بسیاری از زبان ها” که در ICASSP 2023 ارائه می شود، SQuId (شناسایی کیفیت گفتار) را معرفی می کنیم، یک مدل رگرسیون پارامتر 600M که توصیف می کند تا چه حد یک قطعه گفتار طبیعی به نظر می رسد. SQuId بر اساس mSLAM (یک مدل گفتار-متن از پیش آموزش‌دیده توسعه‌یافته توسط Google) است که روی بیش از یک میلیون رتبه‌بندی کیفیت در ۴۲ زبان تنظیم شده و در ۶۵ زبان آزمایش شده است. ما نشان می‌دهیم که چگونه می‌توان از SQuId برای تکمیل رتبه‌بندی‌های انسانی برای ارزیابی استفاده کرد. زبانهای بسیار. این بزرگترین تلاش منتشر شده از این نوع تا به امروز است.

ارزیابی TTS با SQuId

فرضیه اصلی پشت SQuId این است که آموزش یک مدل رگرسیون بر روی رتبه‌بندی‌های قبلاً جمع‌آوری‌شده می‌تواند روشی کم‌هزینه برای ارزیابی کیفیت یک مدل TTS در اختیار ما قرار دهد. بنابراین، این مدل می‌تواند افزوده‌ای ارزشمند به جعبه ابزار ارزیابی محقق TTS باشد و جایگزینی تقریباً فوری و البته کمتر دقیق برای ارزیابی انسانی ارائه دهد.

SQuId یک گفته را به عنوان ورودی و یک برچسب محلی اختیاری می گیرد (یعنی یک نوع محلی از یک زبان، مانند “پرتغالی برزیل” یا “انگلیسی بریتانیایی”). نمره ای بین 1 تا 5 برمی گرداند که نشان می دهد شکل موج چقدر طبیعی به نظر می رسد، با مقدار بالاتر نشان دهنده شکل موج طبیعی تر است.

در داخل، مدل شامل سه جزء است: (1) یک رمزگذار، (2) یک لایه ادغام / رگرسیون، و (3) یک لایه کاملا متصل. اول، رمزگذار یک طیف‌گرام را به‌عنوان ورودی می‌گیرد و آن را در یک ماتریس دو بعدی کوچک‌تر که شامل 3200 بردار با اندازه 1024 است، جاسازی می‌کند، جایی که هر بردار یک مرحله زمانی را رمزگذاری می‌کند. لایه ادغام / رگرسیون بردارها را جمع می کند، تگ محلی را اضافه می کند و نتیجه را در یک لایه کاملاً متصل تغذیه می کند که یک امتیاز را برمی گرداند. در نهایت، ما از پس پردازش ویژه برنامه استفاده می کنیم که امتیاز را مجدداً مقیاس یا عادی می کند تا در محدوده [1, 5] محدوده، که برای طبیعی بودن رتبه بندی های انسانی رایج است. ما کل مدل را از انتها به انتها با از دست دادن رگرسیون آموزش می دهیم.

رمزگذار تا حد زیادی بزرگترین و مهمترین قطعه مدل است. ما از mSLAM استفاده کردیم، یک Conformer با پارامتر 600M که از قبل در گفتار (51 زبان) و متن (101 زبان) آموزش دیده بود.

مدل SQuId.

برای آموزش و ارزیابی مدل، مجموعه SQuId را ایجاد کردیم: مجموعه‌ای از 1.9 میلیون بیان رتبه‌بندی شده در 66 زبان، که برای بیش از 2000 پروژه TTS تحقیق و محصول جمع‌آوری شده است. مجموعه SQuId مجموعه‌ای از سیستم‌ها، از جمله مدل‌های متصل و عصبی را برای طیف وسیعی از موارد استفاده، مانند مسیرهای رانندگی و دستیارهای مجازی، پوشش می‌دهد. بازرسی دستی نشان می‌دهد که SQuId در معرض طیف گسترده‌ای از خطاهای TTS، مانند مصنوعات صوتی (به عنوان مثال، ترک‌ها و پاپ‌ها)، عروض نادرست (مثلاً سؤالات بدون آهنگ‌های افزایش‌یافته در انگلیسی)، خطاهای عادی سازی متن (مثلاً، شفاهی کردن “7 است. /7 به‌عنوان «هفت تقسیم بر هفت» به جای «هفتم ژوئیه»)، یا اشتباهات تلفظی (به عنوان مثال، تلفظ «سخت» به عنوان «انگشت پا»).

یک مسئله رایج که هنگام آموزش سیستم های چند زبانه مطرح می شود این است که داده های آموزشی ممکن است به طور یکسان برای همه زبان های مورد علاقه در دسترس نباشد. SQuId نیز از این قاعده مستثنی نبود. شکل زیر اندازه بدنه هر منطقه را نشان می دهد. می بینیم که توزیع عمدتاً تحت سلطه انگلیسی ایالات متحده است.

توزیع محلی در مجموعه داده SQuId.

چگونه می‌توانیم عملکرد خوبی برای همه زبان‌ها ارائه دهیم، در حالی که چنین تغییراتی وجود دارد؟ با الهام از کارهای قبلی در زمینه ترجمه ماشینی، و همچنین کارهای گذشته از ادبیات گفتار، تصمیم گرفتیم به جای استفاده از مدل های جداگانه برای هر زبان، یک مدل را برای همه زبان ها آموزش دهیم. فرضیه این است که اگر مدل به اندازه کافی بزرگ باشد، پس انتقال متقابل محلی می تواند رخ دهد: دقت مدل در هر منطقه در نتیجه آموزش مشترک بر روی سایر مکان ها بهبود می یابد. همانطور که آزمایش‌های ما نشان می‌دهد، مکان متقابل ثابت می‌کند که محرک قدرتمندی برای عملکرد است.

نتایج تجربی

برای درک عملکرد کلی SQuId، ما آن را با یک مدل سفارشی Big-SSL-MOS (شرح شده در مقاله)، یک خط پایه رقابتی با الهام از MOS-SSL، یک سیستم ارزیابی TTS پیشرفته مقایسه می کنیم. Big-SSL-MOS مبتنی بر w2v-BERT است و بر روی مجموعه داده چالش VoiceMOS’22، محبوب ترین مجموعه داده در زمان ارزیابی آموزش دیده است. ما با انواع مختلفی از مدل آزمایش کردیم و متوجه شدیم که SQuId تا 50.0٪ دقیق تر است.

SQuId در مقابل خطوط پایه پیشرفته. ما توافق را با رتبه‌بندی‌های انسانی با استفاده از کندال تاو اندازه‌گیری می‌کنیم، جایی که مقدار بالاتر نشان‌دهنده دقت بهتر است.

برای درک تأثیر انتقال متقاطع محلی، ما یک سری مطالعات فرسایشی انجام می دهیم. ما مقدار محلی‌های معرفی‌شده در مجموعه آموزشی را تغییر می‌دهیم و تأثیر آن را بر دقت SQuId اندازه‌گیری می‌کنیم. در انگلیسی، که در حال حاضر بیش از حد در مجموعه داده نشان داده شده است، تأثیر افزودن مناطق ناچیز است.

عملکرد SQuId در انگلیسی ایالات متحده، با استفاده از 1، 8، و 42 زبان در هنگام تنظیم دقیق.

با این حال، انتقال متقابل محلی برای بسیاری از مناطق دیگر بسیار مؤثرتر است:

عملکرد SQuId در چهار منطقه منتخب (کره ای، فرانسوی، تایلندی و تامیل)، با استفاده از 1، 8، و 42 محلی در طول تنظیم دقیق. برای هر محلی، اندازه مجموعه آموزشی را نیز ارائه می دهیم.

برای اینکه انتقال را به حد خود برسانیم، ما 24 لوکال را در طول آموزش نگه داشتیم و از آنها به طور انحصاری برای آزمایش استفاده کردیم. بنابراین، اندازه‌گیری می‌کنیم که SQuId تا چه حد می‌تواند با زبان‌هایی برخورد کند که قبلاً هرگز ندیده است. نمودار زیر نشان می دهد که اگرچه اثر یکنواخت نیست، انتقال متقاطع محلی کار می کند.

عملکرد SQuId در چهار مکان “صفر شات”. با استفاده از 1، 8، و 42 محلی در هنگام تنظیم دقیق.

چه زمانی cross-locale عمل می کند و چگونه؟ ما ابطال‌های بیشتری را در این مقاله ارائه می‌کنیم و نشان می‌دهیم که در حالی که شباهت زبانی نقش دارد (به عنوان مثال، آموزش پرتغالی برزیلی به پرتغالی اروپایی کمک می‌کند) اما به‌طور شگفت‌انگیزی فاصله زیادی با این موضوع دارد که تنها عامل مهم باشد.

نتیجه گیری و کار آینده

ما SQuId را معرفی می‌کنیم، یک مدل رگرسیون پارامتر 600M که از مجموعه داده SQuId و یادگیری محلی برای ارزیابی کیفیت گفتار و توصیف طبیعی بودن آن استفاده می‌کند. ما نشان می‌دهیم که SQuId می‌تواند در ارزیابی بسیاری از زبان‌ها مکمل ارزیاب‌های انسانی باشد. کارهای آینده شامل بهبود دقت، گسترش دامنه زبان های تحت پوشش، و مقابله با انواع خطاهای جدید است.

سپاسگزاریها

نویسنده این پست اکنون بخشی از Google DeepMind است. با تشکر فراوان از همه نویسندگان مقاله: آنکور باپنا، جاشوا کمپ، دیانا مکینون، آنکور پی پاریک و جیسون ریسا.