OpenVoice: شبیه سازی فوری صدای همه کاره – رویکرد

نویسندگان:

(1) Zengyi Qin، MIT و MyShell.ai و (ایمیل: [email protected])

(2) Wenliang Zhao، دانشگاه Tsinghua;

(3) Xumin Yu، دانشگاه Tsinghua;

(4 ) Xin Sun، MyShell.ai;

چکیده و مقدمه

رویکرد
آزمایش کنید

بحث و مراجع

2 رویکرد

روش فنی برای پیاده سازی ساده است اما به طرز شگفت آوری موثر است. ما ابتدا شهود پشت OpenVoice را ارائه می کنیم، سپس ساختار مدل و آموزش را توضیح می دهیم.

2.1 شهود

سخت. بدیهی است که شبیه سازی همزمان رنگ تن برای هر گوینده، امکان کنترل انعطاف پذیر همه سبک های دیگر و افزودن زبان جدید با تلاش اندک می تواند بسیار چالش برانگیز باشد. این نیاز به حجم عظیمی از مجموعه داده‌های ترکیبی دارد که در آن پارامترهای کنترل‌شده تلاقی می‌کنند، و جفت‌هایی از داده‌هایی که فقط در یک ویژگی متفاوت هستند، و به خوبی برچسب‌گذاری شده‌اند، و همچنین یک مدل با ظرفیت نسبتاً زیاد برای تناسب با مجموعه داده‌ها.

آسان. همچنین متوجه شده ایم که در TTS تک بلندگوی معمولی، تا زمانی که نیازی به شبیه سازی صدا نباشد، اضافه کردن کنترل روی پارامترهای سبک و افزودن یک زبان جدید نسبتاً آسان است. به عنوان مثال، ضبط یک مجموعه داده تک بلندگو با 10 هزار نمونه صوتی کوتاه با احساسات و لحن برچسب‌گذاری شده برای آموزش یک مدل TTS تک بلندگو کافی است که کنترل احساسات و…

Source link