OpenVoice: کلونینگ صدای فوری همه کاره – بحث و مراجع

نویسندگان:

(1) Zengyi Qin، MIT و MyShell.ai و (ایمیل: [email protected])

(2) Wenliang Zhao، دانشگاه Tsinghua;

(3) Xumin Yu، دانشگاه Tsinghua;

(4) Xin Sun، MyShell.ai;

چکیده و مقدمه

رویکرد
آزمایش کنید

بحث و مراجع

4. بحث

OpenVoice قابلیت‌های شبیه‌سازی صوتی قابل توجهی را نشان می‌دهد و از نظر سبک‌ها و زبان‌ها نسبت به رویکردهای قبلی انعطاف‌پذیرتر است. شهود پشت این رویکرد این است که آموزش یک مدل TTS بلندگوی پایه برای کنترل سبک‌ها و زبان‌های صوتی نسبتاً آسان است، تا زمانی که ما نیازی به این مدل نداشته باشیم که توانایی شبیه‌سازی رنگ صدای بلندگوی مرجع را داشته باشد. بنابراین، ما پیشنهاد کردیم که شبیه‌سازی رنگ تن را از سبک‌های صوتی باقی‌مانده و زبان جدا کنیم، که معتقدیم این اصل اصلی طراحی OpenVoice است. به منظور تسهیل تحقیقات آینده، کد منبع و وزن مدل را در دسترس عموم قرار می دهیم.

منابع

[1] انجمن IP. کتاب راهنمای انجمن بین المللی آوایی: راهنمای استفاده از الفبای آوایی بین المللی. انتشارات دانشگاه کمبریج، 1999.

[2] E. Casanova، J. Weber، CD Shulby، AC Junior، E. Gölge، و MA Ponti. Yourtts: به سمت صفر شات چند بلندگو tts و صدای صفر شات…

Source link