ترجمه گفتار به گفتار بدون نظارت از داده های تک زبانه - وبلاگ تحقیقاتی Google - سئو PBN

ارسال شده توسط Eliya Nachmani، پژوهشگر، و Michelle Tadmor Ramanovich، مهندس نرم افزار، Google Research

ترجمه گفتار به گفتار (S2ST) نوعی ترجمه ماشینی است که زبان گفتاری را از یک زبان به زبان دیگر تبدیل می کند. این فناوری این پتانسیل را دارد که موانع زبانی را از بین ببرد و ارتباط بین افراد با فرهنگ ها و پیشینه های مختلف را تسهیل کند.

پیش از این، Translatotron 1 و Translatotron 2 را معرفی کردیم، اولین مدل هایی که قادر به ترجمه مستقیم گفتار بین دو زبان بودند. با این حال آنها در تنظیمات نظارت شده با داده های گفتاری موازی آموزش دیدند. کمبود داده های گفتاری موازی یک چالش بزرگ در این زمینه است، به طوری که بیشتر مجموعه داده های عمومی از متن به صورت نیمه یا کامل ترکیب می شوند. این موانع اضافی را برای یادگیری ترجمه و بازسازی ویژگی‌های گفتار اضافه می‌کند که در متن نشان داده نمی‌شوند و بنابراین در داده‌های آموزشی ترکیبی منعکس نمی‌شوند.

در اینجا Translatotron 3 را ارائه می کنیم، یک معماری جدید ترجمه گفتار به گفتار بدون نظارت. در Translatotron 3، نشان می‌دهیم که می‌توان کار ترجمه گفتار به گفتار را تنها از داده‌های تک زبانه یاد گرفت. این روش نه تنها دری را برای ترجمه بین جفت‌های زبان بیشتر، بلکه به سمت ترجمه ویژگی‌های گفتاری غیر متنی مانند مکث، نرخ گفتار و هویت گوینده باز می‌کند. روش ما شامل هیچ نظارت مستقیمی بر زبان‌های مقصد نمی‌شود و بنابراین معتقدیم که جهت درستی برای حفظ ویژگی‌های فرازبانی (مانند لحن، احساسات) گفتار مبدأ در سراسر ترجمه است. برای فعال کردن ترجمه گفتار به گفتار، از ترجمه برگشتی استفاده می‌کنیم، که تکنیکی از ترجمه ماشینی بدون نظارت (UMT) است که در آن از ترجمه مصنوعی زبان مبدأ برای ترجمه متون بدون مجموعه داده‌های متنی دو زبانه استفاده می‌شود. نتایج تجربی در کارهای ترجمه گفتار به گفتار بین اسپانیایی و انگلیسی نشان می‌دهد که Translatotron 3 از یک سیستم آبشاری پایه بهتر عمل می‌کند.

Translatotron 3

Translatotron 3 به مشکل S2ST بدون نظارت می پردازد، که می تواند نیاز به مجموعه داده های گفتار دو زبانه را حذف کند. برای انجام این کار، طراحی Translatotron 3 شامل سه جنبه کلیدی است:

پیش‌آموزش کل مدل به‌عنوان یک رمزگذار خودکار ماسک‌دار با SpecAugment، یک روش ساده تقویت داده برای تشخیص گفتار که بر روی طیف‌نگار لگاریتمی مل صدای ورودی (به‌جای خود صدای خام) عمل می‌کند و نشان داده شده است که به طور موثر قابلیت‌های تعمیم را بهبود می‌بخشد. رمزگذار
نقشه‌برداری تعبیه‌شده بدون نظارت بر اساس جاسازی‌های بدون نظارت چند زبانه (MUSE)، که بر روی زبان‌های جفت‌نشده آموزش داده شده است، اما به مدل اجازه می‌دهد فضای جاسازی را که بین زبان‌های مبدأ و مقصد مشترک است، یاد بگیرد.
از دست دادن بازسازی بر اساس ترجمه برگشتی، برای آموزش مدل S2ST مستقیم رمزگذار-رمزگشا به روشی کاملاً بدون نظارت.

این مدل با استفاده از ترکیبی از فقدان تعبیه‌شده MUSE بدون نظارت، از دست دادن بازسازی، و از دست دادن ترجمه برگشتی S2S آموزش داده می‌شود. در طول استنتاج، رمزگذار مشترک برای رمزگذاری ورودی به فضای تعبیه چند زبانه استفاده می‌شود، که متعاقباً توسط رمزگشای زبان مقصد رمزگشایی می‌شود.

معماری

Translatotron 3 از یک رمزگذار مشترک برای رمزگذاری هر دو زبان مبدا و مقصد استفاده می کند. رمزگشا از یک رمزگشای زبانی، یک سینت سایزر صوتی (مسئول تولید آکوستیک گفتار ترجمه) و یک ماژول توجه منحصر به فرد، مانند Translatotron 2 تشکیل شده است. با این حال، برای Translatotron 3 دو رمزگشا وجود دارد، یکی برای زبان مبدا و دیگری برای زبان مبدا. برای زبان مقصد در طول آموزش، ما از مجموعه داده‌های گفتار-متن تک زبانه استفاده می‌کنیم (یعنی این داده‌ها از جفت‌های گفتار-متن تشکیل شده‌اند. نه ترجمه ها).

رمزگذار

رمزگذار دارای معماری مشابه رمزگذار گفتار در Translatotron 2 است. خروجی رمزگذار به دو بخش تقسیم می شود: بخش اول شامل اطلاعات معنایی است در حالی که قسمت دوم اطلاعات صوتی را در خود جای می دهد. با استفاده از تلفات MUSE، نیمه اول خروجی به گونه ای آموزش داده می شود که جاسازی های MUSE متن طیف نگار گفتار ورودی باشد. نیمه دوم بدون از دست دادن MUSE به روز می شود. توجه به این نکته مهم است که رمزگذار یکسان بین زبان مبدأ و مقصد مشترک است. علاوه بر این، تعبیه MUSE ماهیت چند زبانه دارد. در نتیجه، رمزگذار قادر به یادگیری یک فضای تعبیه چند زبانه در بین زبان های مبدأ و مقصد است. این امکان رمزگذاری کارآمدتر و موثرتر ورودی را فراهم می‌کند، زیرا رمزگذار قادر است گفتار را از هر دو زبان در یک فضای جاسازی مشترک رمزگذاری کند، نه اینکه فضای جاسازی جداگانه برای هر زبان حفظ کند.

رمزگشا

مانند Translatotron 2، رمزگشا از سه جزء مجزا تشکیل شده است، یعنی رمزگشای زبانی، سینت سایزر صوتی و ماژول توجه. با این حال، Translatotron 3 برای کنترل مؤثر ویژگی‌های مختلف زبان مبدأ و مقصد، دو رمزگشا برای زبان مبدأ و مقصد دارد.

آموزش دو قسمتی

متدولوژی آموزشی شامل دو بخش است: (1) رمزگذاری خودکار با بازسازی و (2) یک اصطلاح ترجمه برگشتی. در بخش اول، شبکه آموزش داده می‌شود تا ورودی را به یک فضای تعبیه چند زبانه با استفاده از از دست دادن MUSE و از دست دادن بازسازی رمزگذاری خودکار کند. هدف این مرحله تضمین این است که شبکه نمایش های چندزبانه معناداری تولید می کند. در بخش دوم، شبکه برای ترجمه طیف‌نگار ورودی با استفاده از از دست دادن ترجمه برگشتی آموزش داده می‌شود. برای کاهش موضوع فراموشی فاجعه بار و اجباری کردن فضای پنهان به چند زبانه بودن، از دست دادن MUSE و فقدان بازسازی نیز در این بخش دوم آموزش اعمال می شود. برای اطمینان از اینکه رمزگذار خصوصیات معنی‌دار ورودی را یاد می‌گیرد، به جای بازسازی ساده ورودی، SpecAugment را برای ورودی رمزگذار در هر دو فاز اعمال می‌کنیم. نشان داده شده است که به طور موثر قابلیت های تعمیم رمزگذار را با افزایش داده های ورودی بهبود می بخشد.

هدف آموزشی

در طول مرحله آموزش ترجمه برگشتی (نشان داده شده در بخش زیر)، شبکه آموزش داده می شود تا طیف نگار ورودی را به زبان مقصد و سپس به زبان مبدأ ترجمه کند. هدف ترجمه پشت سر هم این است که فضای پنهان را چند زبانه کند. برای دستیابی به این، ضررهای زیر اعمال می شود:

از دست دادن MUSE: از دست دادن MUSE شباهت بین تعبیه چند زبانه طیف‌نگار ورودی و تعبیه چند زبانه طیف‌نگار ترجمه‌شده به عقب را اندازه‌گیری می‌کند.
تلفات بازسازی: تلفات بازسازی شباهت بین طیف‌نگار ورودی و طیف‌نگار ترجمه شده را اندازه‌گیری می‌کند.

علاوه بر این تلفات، SpecAugment به ورودی رمزگذار در هر دو فاز اعمال می شود. قبل از مرحله آموزش ترجمه برگشتی، شبکه آموزش داده می شود تا ورودی را به یک فضای تعبیه چند زبانه با استفاده از از دست دادن و بازسازی MUSE رمزگذاری خودکار کند.

از دست دادن MUSE

برای اطمینان از اینکه رمزگذار بازنمایی های چندزبانه ای را تولید می کند که برای هر دو رمزگشا معنادار است، از MUSE از دست دادن در طول آموزش استفاده می کنیم. از دست دادن MUSE رمزگذار را مجبور می کند تا با استفاده از جاسازی های MUSE از پیش آموزش دیده، چنین نمایشی را ایجاد کند. در طول فرآیند آموزش، با توجه به متن ورودی، جاسازی‌های MUSE مربوطه را از جاسازی‌های زبان ورودی استخراج می‌کنیم. سپس خطای بین تعبیه‌های MUSE و بردارهای خروجی رمزگذار به حداقل می‌رسد. توجه داشته باشید که رمزگذار در طول استنتاج به دلیل ماهیت چند زبانه بودن تعبیه‌ها نسبت به زبان ورودی بی‌تفاوت است.

آموزش و استنتاج در Translatotron 3. آموزش شامل از دست دادن بازسازی از طریق مسیر رمزگذاری خودکار و از دست دادن بازسازی از طریق ترجمه برگشتی است.

نمونه های صوتی

در زیر نمونه هایی از ترجمه مستقیم گفتار به گفتار از Translatotron 3 آورده شده است:

اسپانیایی به انگلیسی (در مجموعه داده مکالمه)

ورودی (اسپانیایی)
مرجع سنتز شده با TTS (انگلیسی)
Translatotron 3 (انگلیسی)

اسپانیایی به انگلیسی (در مجموعه داده های ترکیبی CommonVoice11)

ورودی (اسپانیایی)
مرجع سنتز شده با TTS (انگلیسی)
Translatotron 3 (انگلیسی)

اسپانیایی به انگلیسی (در مجموعه داده CommonVoice11)

ورودی (اسپانیایی)
مرجع TTS (انگلیسی)
Translatotron 3 (انگلیسی)

کارایی

برای ارزیابی تجربی عملکرد رویکرد پیشنهادی، آزمایش‌هایی را روی انگلیسی و اسپانیایی با استفاده از مجموعه داده‌های مختلف، از جمله مجموعه داده‌های Common Voice 11، و همچنین دو مجموعه داده سنتز شده مشتق شده از مجموعه داده‌های Conversational و Common Voice 11 انجام دادیم.

کیفیت ترجمه توسط BLEU (بالاتر بهتر) در رونوشت‌های ASR (تشخیص خودکار گفتار) از گفتار ترجمه شده در مقایسه با متن ترجمه مرجع مربوطه اندازه‌گیری شد. در حالی که کیفیت گفتار با امتیاز MOS اندازه گیری می شود (بالاتر بهتر است). علاوه بر این، شباهت بلندگو با شباهت کسینوس میانگین اندازه گیری می شود (بالاتر بهتر است).

زیرا Translatotron 3 یک است نظارت نشده روش، به عنوان خط پایه، ما از یک سیستم S2ST آبشاری استفاده کردیم که از ASR، ترجمه ماشینی بدون نظارت (UMT) و TTS (متن به گفتار) ترکیب شده است. به طور خاص، ما از UMT استفاده می کنیم که از نزدیکترین همسایه در فضای جاسازی برای ایجاد ترجمه استفاده می کند.

Translatotron 3 در هر جنبه‌ای که اندازه‌گیری کردیم: کیفیت ترجمه، شباهت گوینده و کیفیت گفتار، با حاشیه‌های زیادی از خط پایه بهتر عمل می‌کند. به ویژه در مجموعه محاوره ای عالی بود. علاوه بر این، Translatotron 3 به طبیعی بودن گفتار مشابه نمونه‌های صوتی حقیقت زمینی دست می‌یابد (اندازه‌گیری شده با MOS، بالاتر بهتر است).

کیفیت ترجمه (اندازه گیری شده با BLEU، جایی که بالاتر بهتر است) در سه مجموعه اسپانیایی-انگلیسی ارزیابی شد.

شباهت گفتار (که با شباهت میانگین کسینوس بین بلندگوی ورودی و خروجی اندازه‌گیری می‌شود، جایی که بالاتر بهتر است) در سه مجموعه اسپانیایی-انگلیسی ارزیابی شد.

امتیاز میانگین نظر (اندازه گیری شده با میانگین متریک MOS، جایی که بالاتر بهتر است) در سه مجموعه اسپانیایی-انگلیسی ارزیابی شد.

کار آینده

به عنوان کار آینده، ما می خواهیم کار را به زبان های بیشتری گسترش دهیم و بررسی کنیم که آیا S2ST صفر شات را می توان با تکنیک ترجمه برگشتی اعمال کرد یا خیر. همچنین می‌خواهیم استفاده از ترجمه پشتیبان را با انواع مختلف داده‌های گفتاری، مانند گفتار پر سر و صدا و زبان‌های کم منبع، بررسی کنیم.

قدردانی ها

مشارکت کنندگان مستقیم این اثر عبارتند از الیجا ناچمانی، آلون لوکوویچ، یفان دینگ، چولایوتش آسوارونگچای، هیگا ژن و میشل تدمر رامانوویچ. همچنین از یو ژانگ، یوما کویزومی، سروش ماریوریاد، آر جی اسکری رایان، نیل زگیدور، کریستین فرانک، مارکو تاگلیاساچی، ناداو بار، بنی شلزینگر و یونگهوی وو تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور