تبدیل متن به گفتار صفر شات با درخواست های 1s، 3s، 5s و 10s

چکیده و 1 مقدمه

2 کارهای مرتبط

2.1 مدل های زبان کدک عصبی و 2.2 مدل های غیر خودرگرسیون

2.3 مدل های انتشار و 2.4 شبیه سازی صدای صفر شات

3 Hierspeech++ و 3.1 Speech Representations

3.2 سینت سایزر گفتار سلسله مراتبی

3.3 متن به Vec

3.4 وضوح فوق العاده گفتار

3.5 معماری مدل

4 وظیفه سنتز گفتار

4.1 تبدیل صدا و 4.2 تبدیل متن به گفتار

4.3 Style Prompt Replication

5 آزمایش و نتیجه و مجموعه داده

5.2 پیش پردازش و 5.3 آموزش

5.4 معیارهای ارزیابی

5.5 مطالعه فرسایش

5.6 تبدیل صدای صفر شات

5.7 سنتز گفتار با تنوع بالا اما با وفاداری بالا

5.8 تبدیل متن به گفتار صفر شات

5.9 تبدیل متن به گفتار صفر شات با اعلان 1 ثانیه

5.10 گفتار با وضوح فوق العاده

5.11 آزمایش های اضافی با سایر خطوط پایه

6 محدودیت و رفع سریع

7 نتیجه گیری، تصدیق و مراجع

5.9 تبدیل متن به گفتار صفر شات با اعلان 1 ثانیه

ما عملکرد TTS صفر شات را با توجه به طول های مختلف اعلان 1s، 3s، 5s و 10s مقایسه می کنیم. برای ارزیابی، ما از همه نمونه‌های بالای 10 ثانیه از زیرمجموعه تست پاک LibriTTS (1002 نمونه) استفاده می‌کنیم و به‌طور تصادفی یک گفتار را برای هر طول اعلان برش می‌دهیم. جدول 9 نشان می دهد که مدل ما با استفاده از دستورات 3s، 5s و 10s عملکرد انتقال سبک قوی دارد. با این حال، با استفاده از اعلان 1s نمی‌توان…

Source link