HierSpeech++: همه کارهای شگفت انگیزی که می توانست انجام دهد

چکیده و 1 مقدمه

2 کارهای مرتبط

2.1 مدل های زبان کدک عصبی و 2.2 مدل های غیر خودرگرسیون

2.3 مدل های انتشار و 2.4 شبیه سازی صدای صفر شات

3 Hierspeech++ و 3.1 Speech Representations

3.2 سینت سایزر گفتار سلسله مراتبی

3.3 متن به Vec

3.4 وضوح فوق العاده گفتار

3.5 معماری مدل

4 وظیفه سنتز گفتار

4.1 تبدیل صدا و 4.2 تبدیل متن به گفتار

4.3 Style Prompt Replication

5 آزمایش و نتیجه و مجموعه داده

5.2 پیش پردازش و 5.3 آموزش

5.4 معیارهای ارزیابی

5.5 مطالعه فرسایش

5.6 تبدیل صدای صفر شات

5.7 سنتز گفتار با تنوع بالا اما با وفاداری بالا

5.8 تبدیل متن به گفتار صفر شات

5.9 تبدیل متن به گفتار صفر شات با اعلان 1 ثانیه

5.10 گفتار با وضوح فوق العاده

5.11 آزمایش های اضافی با سایر خطوط پایه

6 محدودیت و رفع سریع

7 نتیجه گیری، تصدیق و مراجع

7 نتیجه گیری

در این کار، HierSpeech++ را پیشنهاد می‌کنیم که به عملکرد ترکیبی گفتار صفر شات با کیفیت بالا در سطح انسانی دست می‌یابد. ما یک چارچوب ترکیبی گفتار کارآمد و قدرتمند را با جدا کردن مدل‌سازی معنایی، ترکیب‌کننده گفتار و وضوح فوق‌العاده گفتار معرفی می‌کنیم. ما اجزای مدل خود را به طور کامل تجزیه و تحلیل می کنیم تا نشان دهیم که چگونه می توان به عملکرد سنتز گفتار در سطح انسانی حتی در سناریوهای صفر شات دست یافت. علاوه بر این، ما …

Source link