ترجمه گفتار به گفتار (S2ST) نوعی ترجمه ماشینی است که زبان گفتاری را از یک زبان به زبان دیگر تبدیل می کند. این فناوری این پتانسیل را دارد که موانع زبانی را از بین ببرد و ارتباط بین افراد با فرهنگ ها و پیشینه های مختلف را تسهیل کند.
پیش از این، Translatotron 1 و Translatotron 2 را معرفی کردیم، اولین مدل هایی که قادر به ترجمه مستقیم گفتار بین دو زبان بودند. با این حال آنها در تنظیمات نظارت شده با داده های گفتاری موازی آموزش دیدند. کمبود داده های گفتاری موازی یک چالش بزرگ در این زمینه است، به طوری که بیشتر مجموعه داده های عمومی از متن به صورت نیمه یا کامل ترکیب می شوند. این موانع اضافی را برای یادگیری ترجمه و بازسازی ویژگیهای گفتار اضافه میکند که در متن نشان داده نمیشوند و بنابراین در دادههای آموزشی ترکیبی منعکس نمیشوند.
در اینجا Translatotron 3 را ارائه می کنیم، یک معماری جدید ترجمه گفتار به گفتار بدون نظارت. در Translatotron 3، نشان میدهیم که میتوان کار ترجمه گفتار به گفتار را تنها از دادههای تک زبانه یاد گرفت. این روش نه تنها دری را برای ترجمه بین جفتهای زبان بیشتر، بلکه به سمت ترجمه ویژگیهای گفتاری غیر متنی مانند مکث، نرخ گفتار و هویت گوینده باز میکند. روش ما شامل هیچ نظارت مستقیمی بر زبانهای مقصد نمیشود و بنابراین معتقدیم که جهت درستی برای حفظ ویژگیهای فرازبانی (مانند لحن، احساسات) گفتار مبدأ در سراسر ترجمه است. برای فعال کردن ترجمه گفتار به گفتار، از ترجمه برگشتی استفاده میکنیم، که تکنیکی از ترجمه ماشینی بدون نظارت (UMT) است که در آن از ترجمه مصنوعی زبان مبدأ برای ترجمه متون بدون مجموعه دادههای متنی دو زبانه استفاده میشود. نتایج تجربی در کارهای ترجمه گفتار به گفتار بین اسپانیایی و انگلیسی نشان میدهد که Translatotron 3 از یک سیستم آبشاری پایه بهتر عمل میکند.
Translatotron 3
Translatotron 3 به مشکل S2ST بدون نظارت می پردازد، که می تواند نیاز به مجموعه داده های گفتار دو زبانه را حذف کند. برای انجام این کار، طراحی Translatotron 3 شامل سه جنبه کلیدی است:
- پیشآموزش کل مدل بهعنوان یک رمزگذار خودکار ماسکدار با SpecAugment، یک روش ساده تقویت داده برای تشخیص گفتار که بر روی طیفنگار لگاریتمی مل صدای ورودی (بهجای خود صدای خام) عمل میکند و نشان داده شده است که به طور موثر قابلیتهای تعمیم را بهبود میبخشد. رمزگذار
- نقشهبرداری تعبیهشده بدون نظارت بر اساس جاسازیهای بدون نظارت چند زبانه (MUSE)، که بر روی زبانهای جفتنشده آموزش داده شده است، اما به مدل اجازه میدهد فضای جاسازی را که بین زبانهای مبدأ و مقصد مشترک است، یاد بگیرد.
- از دست دادن بازسازی بر اساس ترجمه برگشتی، برای آموزش مدل S2ST مستقیم رمزگذار-رمزگشا به روشی کاملاً بدون نظارت.
این مدل با استفاده از ترکیبی از فقدان تعبیهشده MUSE بدون نظارت، از دست دادن بازسازی، و از دست دادن ترجمه برگشتی S2S آموزش داده میشود. در طول استنتاج، رمزگذار مشترک برای رمزگذاری ورودی به فضای تعبیه چند زبانه استفاده میشود، که متعاقباً توسط رمزگشای زبان مقصد رمزگشایی میشود.
معماری
Translatotron 3 از یک رمزگذار مشترک برای رمزگذاری هر دو زبان مبدا و مقصد استفاده می کند. رمزگشا از یک رمزگشای زبانی، یک سینت سایزر صوتی (مسئول تولید آکوستیک گفتار ترجمه) و یک ماژول توجه منحصر به فرد، مانند Translatotron 2 تشکیل شده است. با این حال، برای Translatotron 3 دو رمزگشا وجود دارد، یکی برای زبان مبدا و دیگری برای زبان مبدا. برای زبان مقصد در طول آموزش، ما از مجموعه دادههای گفتار-متن تک زبانه استفاده میکنیم (یعنی این دادهها از جفتهای گفتار-متن تشکیل شدهاند. نه ترجمه ها).
رمزگذار
رمزگذار دارای معماری مشابه رمزگذار گفتار در Translatotron 2 است. خروجی رمزگذار به دو بخش تقسیم می شود: بخش اول شامل اطلاعات معنایی است در حالی که قسمت دوم اطلاعات صوتی را در خود جای می دهد. با استفاده از تلفات MUSE، نیمه اول خروجی به گونه ای آموزش داده می شود که جاسازی های MUSE متن طیف نگار گفتار ورودی باشد. نیمه دوم بدون از دست دادن MUSE به روز می شود. توجه به این نکته مهم است که رمزگذار یکسان بین زبان مبدأ و مقصد مشترک است. علاوه بر این، تعبیه MUSE ماهیت چند زبانه دارد. در نتیجه، رمزگذار قادر به یادگیری یک فضای تعبیه چند زبانه در بین زبان های مبدأ و مقصد است. این امکان رمزگذاری کارآمدتر و موثرتر ورودی را فراهم میکند، زیرا رمزگذار قادر است گفتار را از هر دو زبان در یک فضای جاسازی مشترک رمزگذاری کند، نه اینکه فضای جاسازی جداگانه برای هر زبان حفظ کند.
رمزگشا
مانند Translatotron 2، رمزگشا از سه جزء مجزا تشکیل شده است، یعنی رمزگشای زبانی، سینت سایزر صوتی و ماژول توجه. با این حال، Translatotron 3 برای کنترل مؤثر ویژگیهای مختلف زبان مبدأ و مقصد، دو رمزگشا برای زبان مبدأ و مقصد دارد.
آموزش دو قسمتی
متدولوژی آموزشی شامل دو بخش است: (1) رمزگذاری خودکار با بازسازی و (2) یک اصطلاح ترجمه برگشتی. در بخش اول، شبکه آموزش داده میشود تا ورودی را به یک فضای تعبیه چند زبانه با استفاده از از دست دادن MUSE و از دست دادن بازسازی رمزگذاری خودکار کند. هدف این مرحله تضمین این است که شبکه نمایش های چندزبانه معناداری تولید می کند. در بخش دوم، شبکه برای ترجمه طیفنگار ورودی با استفاده از از دست دادن ترجمه برگشتی آموزش داده میشود. برای کاهش موضوع فراموشی فاجعه بار و اجباری کردن فضای پنهان به چند زبانه بودن، از دست دادن MUSE و فقدان بازسازی نیز در این بخش دوم آموزش اعمال می شود. برای اطمینان از اینکه رمزگذار خصوصیات معنیدار ورودی را یاد میگیرد، به جای بازسازی ساده ورودی، SpecAugment را برای ورودی رمزگذار در هر دو فاز اعمال میکنیم. نشان داده شده است که به طور موثر قابلیت های تعمیم رمزگذار را با افزایش داده های ورودی بهبود می بخشد.
هدف آموزشی
در طول مرحله آموزش ترجمه برگشتی (نشان داده شده در بخش زیر)، شبکه آموزش داده می شود تا طیف نگار ورودی را به زبان مقصد و سپس به زبان مبدأ ترجمه کند. هدف ترجمه پشت سر هم این است که فضای پنهان را چند زبانه کند. برای دستیابی به این، ضررهای زیر اعمال می شود:
- از دست دادن MUSE: از دست دادن MUSE شباهت بین تعبیه چند زبانه طیفنگار ورودی و تعبیه چند زبانه طیفنگار ترجمهشده به عقب را اندازهگیری میکند.
- تلفات بازسازی: تلفات بازسازی شباهت بین طیفنگار ورودی و طیفنگار ترجمه شده را اندازهگیری میکند.
علاوه بر این تلفات، SpecAugment به ورودی رمزگذار در هر دو فاز اعمال می شود. قبل از مرحله آموزش ترجمه برگشتی، شبکه آموزش داده می شود تا ورودی را به یک فضای تعبیه چند زبانه با استفاده از از دست دادن و بازسازی MUSE رمزگذاری خودکار کند.
از دست دادن MUSE
برای اطمینان از اینکه رمزگذار بازنمایی های چندزبانه ای را تولید می کند که برای هر دو رمزگشا معنادار است، از MUSE از دست دادن در طول آموزش استفاده می کنیم. از دست دادن MUSE رمزگذار را مجبور می کند تا با استفاده از جاسازی های MUSE از پیش آموزش دیده، چنین نمایشی را ایجاد کند. در طول فرآیند آموزش، با توجه به متن ورودی، جاسازیهای MUSE مربوطه را از جاسازیهای زبان ورودی استخراج میکنیم. سپس خطای بین تعبیههای MUSE و بردارهای خروجی رمزگذار به حداقل میرسد. توجه داشته باشید که رمزگذار در طول استنتاج به دلیل ماهیت چند زبانه بودن تعبیهها نسبت به زبان ورودی بیتفاوت است.
آموزش و استنتاج در Translatotron 3. آموزش شامل از دست دادن بازسازی از طریق مسیر رمزگذاری خودکار و از دست دادن بازسازی از طریق ترجمه برگشتی است. |
نمونه های صوتی
در زیر نمونه هایی از ترجمه مستقیم گفتار به گفتار از Translatotron 3 آورده شده است:
اسپانیایی به انگلیسی (در مجموعه داده مکالمه)
ورودی (اسپانیایی) | |
مرجع سنتز شده با TTS (انگلیسی) | |
Translatotron 3 (انگلیسی) |
اسپانیایی به انگلیسی (در مجموعه داده های ترکیبی CommonVoice11)
ورودی (اسپانیایی) | |
مرجع سنتز شده با TTS (انگلیسی) | |
Translatotron 3 (انگلیسی) |
اسپانیایی به انگلیسی (در مجموعه داده CommonVoice11)
ورودی (اسپانیایی) | |
مرجع TTS (انگلیسی) | |
Translatotron 3 (انگلیسی) |
کارایی
برای ارزیابی تجربی عملکرد رویکرد پیشنهادی، آزمایشهایی را روی انگلیسی و اسپانیایی با استفاده از مجموعه دادههای مختلف، از جمله مجموعه دادههای Common Voice 11، و همچنین دو مجموعه داده سنتز شده مشتق شده از مجموعه دادههای Conversational و Common Voice 11 انجام دادیم.
کیفیت ترجمه توسط BLEU (بالاتر بهتر) در رونوشتهای ASR (تشخیص خودکار گفتار) از گفتار ترجمه شده در مقایسه با متن ترجمه مرجع مربوطه اندازهگیری شد. در حالی که کیفیت گفتار با امتیاز MOS اندازه گیری می شود (بالاتر بهتر است). علاوه بر این، شباهت بلندگو با شباهت کسینوس میانگین اندازه گیری می شود (بالاتر بهتر است).
زیرا Translatotron 3 یک است نظارت نشده روش، به عنوان خط پایه، ما از یک سیستم S2ST آبشاری استفاده کردیم که از ASR، ترجمه ماشینی بدون نظارت (UMT) و TTS (متن به گفتار) ترکیب شده است. به طور خاص، ما از UMT استفاده می کنیم که از نزدیکترین همسایه در فضای جاسازی برای ایجاد ترجمه استفاده می کند.
Translatotron 3 در هر جنبهای که اندازهگیری کردیم: کیفیت ترجمه، شباهت گوینده و کیفیت گفتار، با حاشیههای زیادی از خط پایه بهتر عمل میکند. به ویژه در مجموعه محاوره ای عالی بود. علاوه بر این، Translatotron 3 به طبیعی بودن گفتار مشابه نمونههای صوتی حقیقت زمینی دست مییابد (اندازهگیری شده با MOS، بالاتر بهتر است).
کیفیت ترجمه (اندازه گیری شده با BLEU، جایی که بالاتر بهتر است) در سه مجموعه اسپانیایی-انگلیسی ارزیابی شد. |
شباهت گفتار (که با شباهت میانگین کسینوس بین بلندگوی ورودی و خروجی اندازهگیری میشود، جایی که بالاتر بهتر است) در سه مجموعه اسپانیایی-انگلیسی ارزیابی شد. |
امتیاز میانگین نظر (اندازه گیری شده با میانگین متریک MOS، جایی که بالاتر بهتر است) در سه مجموعه اسپانیایی-انگلیسی ارزیابی شد. |
کار آینده
به عنوان کار آینده، ما می خواهیم کار را به زبان های بیشتری گسترش دهیم و بررسی کنیم که آیا S2ST صفر شات را می توان با تکنیک ترجمه برگشتی اعمال کرد یا خیر. همچنین میخواهیم استفاده از ترجمه پشتیبان را با انواع مختلف دادههای گفتاری، مانند گفتار پر سر و صدا و زبانهای کم منبع، بررسی کنیم.
قدردانی ها
مشارکت کنندگان مستقیم این اثر عبارتند از الیجا ناچمانی، آلون لوکوویچ، یفان دینگ، چولایوتش آسوارونگچای، هیگا ژن و میشل تدمر رامانوویچ. همچنین از یو ژانگ، یوما کویزومی، سروش ماریوریاد، آر جی اسکری رایان، نیل زگیدور، کریستین فرانک، مارکو تاگلیاساچی، ناداو بار، بنی شلزینگر و یونگهوی وو تشکر می کنیم.