جدول پیوندها
چکیده و 1 مقدمه
- کار مرتبط
- مدل
- آزمایشات
- مطالعه اتساع
- نتیجه گیری ، محدودیت ها و خطرات
S2stبشر مجموعه ای از مدل های Translatotron دارای معماری رمزگذار رمزگذار برای ترجمه گفتار منبع به طیف سنجی هدف است که می تواند به عنوان شکل موج با یک واژگان آموزش دیده جداگانه سنتز شود. Translatotron از یک رمزگذار بلندگو برای فعال کردن تبدیل صدا در گفتار ترجمه شده استفاده می کند (جیا و همکاران ، 2019). Translatotron 2 رمزگذار بلندگو را از طراحی مدل به منظور ضد انعطاف پذیری حذف می کند ، و داده های تنظیم شده بلندگو را با یک مدل TTS متقابل زبانه برای آموزش مدل ایجاد می کند (Jia et al. ، 2022). بنابراین مدل ترجمه یاد می گیرد که سبک صوتی را با یک رویکرد داده محور منتقل کند. مدل های Translatotron همچنین با استفاده از واج در کار کمکی وظیفه تشخیص گفتار ، نظارت متنی را به کار می برند.
با وجود واحدهای معنایی که به عنوان یک نمایش معنایی کارآمد از گفتار ظاهر می شوند ، مدل های ترجمه مبتنی بر واحد توسعه می یابد. مدل S2ST بدون متن یاد می گیرد که گفتار منبع را برای هدف قرار دادن واحدها بدون تکیه بر داده های متنی مانند واج ها (لی و همکاران ، 2022) ترسیم کند ، و گفتار هدف را می توان از واحدهای معنایی با آواز Hifi-gan سنتز کرد (گونگ و همکاران ، 2023). با وجود کیفیت خوب معنایی ، واحدهای معنایی آواز بلندگو را ضبط نمی کنند …