جدول پیوندها
چکیده و 1 مقدمه
2 کارهای مرتبط
2.1 مدل های زبان کدک عصبی و 2.2 مدل های غیر خودرگرسیون
2.3 مدل های انتشار و 2.4 شبیه سازی صدای صفر شات
3 Hierspeech++ و 3.1 Speech Representations
3.2 سینت سایزر گفتار سلسله مراتبی
3.3 متن به Vec
3.4 وضوح فوق العاده گفتار
3.5 معماری مدل
4 وظیفه سنتز گفتار
4.1 تبدیل صدا و 4.2 تبدیل متن به گفتار
4.3 Style Prompt Replication
5 آزمایش و نتیجه و مجموعه داده
5.2 پیش پردازش و 5.3 آموزش
5.4 معیارهای ارزیابی
5.5 مطالعه فرسایش
5.6 تبدیل صدای صفر شات
5.7 سنتز گفتار با تنوع بالا اما با وفاداری بالا
5.8 تبدیل متن به گفتار صفر شات
5.9 تبدیل متن به گفتار صفر شات با اعلان 1 ثانیه
5.10 گفتار با وضوح فوق العاده
5.11 آزمایش های اضافی با سایر خطوط پایه
6 محدودیت و رفع سریع
7 نتیجه گیری، تصدیق و مراجع
5.10 گفتار با وضوح فوق العاده
ما SpeechSR را برای یک وضوح فوق العاده گفتاری ساده و کارآمد برای کاربرد عملی در دنیای واقعی معرفی کردیم [73]. از آنجایی که ما یک SpeechSR خاص هدف را آموزش می دهیم که می تواند 16 کیلوهرتز تا 48 کیلوهرتز نمونه برداری کند، مدل ما بهترین عملکرد را حتی با یک معماری ساده نشان داده شده در جدول 10 نشان می دهد. برای مقایسه منصفانه، ما مدل را با مجموعه داده VCTK آموزش دادیم و برخی را به صورت عمومی مقایسه کردیم. – مدل های با وضوح فوق العاده موجود ….