SeplesseExpressivelm مدل سازی معنایی و آکوستیک را برای ترجمه گفتار کارآمد متحد می کند

چکیده و 1 مقدمه

  1. کار مرتبط
  2. مدل
  3. آزمایشات
  4. مطالعه اتساع
  5. نتیجه گیری ، محدودیت ها و خطرات

مدل 3

در این بخش SeeplessExpressivelm ، یک مدل زبان فقط رمزگذار برای ترجمه گفتار به گفتار به سبک منتقل شده است.

3.1 نشان دهنده گفتار

نشانه های گفتار شکل موج گفتار مداوم را به دنباله ای از واحدهای گسسته تبدیل می کنند. هوبرت برای به دست آوردن واحدهای معنایی گفتار که عمدتاً اطلاعات معنایی را حفظ می کند استفاده می شود (Hsu et al. ، 2021). Encodec واحدهای چند کد کتاب را برای حمل اطلاعات صوتی ریز تر در گفتار مانند سبک آواز بلندگو و Intonation استخراج می کند (Défossez و همکاران ، 2022). فرض کنید Encodec دارای کتابهای C و C = 8 در آزمایشات ما است. هر دو واحد هوبرت و رمزگذاری در مدل سازی ما همانطور که در زیر شرح داده شده است ، اعمال می شوند.

3.2 معماری

همانطور که در شکل 1 نشان داده شده است ، دنباله ورودی نشان دهنده زنجیره افکار در فرآیند ترجمه است. این مدل از ترجمه معنایی شروع می شود ، به انتقال سبک از واحدهای آکوستیک سریع به اولین جریان آکوستیک می پردازد و در آخر نقشه برداری را به جریان های صوتی باقیمانده می آموزد.

لایه تعبیه ما جداول تعبیه شده را برای واحدهای معنایی و آکوستیک می سازیم تا قبل از انتقال آنها به مدل زبان گفتار ، نشانه های گفتار را برداشت کنیم. برای واحدهای معنایی و …

Source link