هدف پردازش زبان طبیعی (NLP) توسعه مدلهای محاسباتی است که بتواند زبان طبیعی را درک و تولید کند. با گرفتن الگوها و ساختارهای آماری زبان طبیعی مبتنی بر متن، مدلهای زبانی میتوانند توالیهای منسجم و معنیداری از کلمات را پیشبینی و تولید کنند. با استفاده روزافزون از معماری مدل بسیار موفق ترانسفورماتور و با آموزش در مقادیر زیاد متن (با محاسبات و اندازه مدل متناسب)، مدلهای زبان بزرگ (LLM) موفقیت چشمگیری در وظایف NLP نشان دادهاند.
با این حال، الگوبرداری از زبان گفتاری انسان همچنان یک مرز چالش برانگیز است. سیستمهای گفتاری گفتاری معمولاً بهعنوان آبشاری از سیستمهای تشخیص خودکار گفتار (ASR)، درک زبان طبیعی (NLU)، تولید پاسخ و سیستمهای تبدیل متن به گفتار (TTS) ساخته میشوند. با این حال، تا به امروز تعداد کمی از سیستمهای سرتاسر توانمند برای مدلسازی زبان گفتاری وجود داشته است: به عنوان مثال، مدلهای منفرد که میتوانند ورودیهای گفتاری را دریافت کنند و ادامه آن را به عنوان خروجی گفتار تولید کنند.
امروز ما یک رویکرد جدید برای مدلسازی زبان گفتاری به نام Spectron ارائه میکنیم که در «پاسخگویی به سؤالات گفتاری و ادامه گفتار با استفاده از LLM با قدرت طیفنگاری» منتشر شده است. Spectron اولین مدل زبان گفتاری است که بهجای یادگیری بازنماییهای گفتاری گسسته، بهصورت سرتاسر آموزش داده شده است تا بهطور مستقیم طیفنگارها را بهعنوان ورودی و خروجی پردازش کند. تنها با استفاده از یک مدل زبان متنی از قبل آموزش دیده، می توان آن را برای تولید زبان گفتاری با کیفیت بالا و از نظر معنایی دقیق تنظیم کرد. علاوه بر این، مدل پیشنهادی با مقداردهی اولیه مستقیم در حفظ دانش LLM اصلی همانطور که از طریق مجموعه دادههای پاسخگویی به پرسش گفتاری نشان داده شده است، بهبود مییابد.
ما نشان میدهیم که یک رمزگذار گفتار از پیش آموزشدیده و یک رمزگشای مدل زبان، آموزش انتها به انتها و عملکرد پیشرفته را بدون به خطر انداختن وفاداری نمایشی امکانپذیر میسازد. کلید این هدف یک هدف آموزشی بدیع است که به طور ضمنی بر تشخیص گفتار، ادامه متن و سنتز گفتار شرطی به شیوه ای مشترک نظارت می کند. یک تلفات رگرسیون طیفگرام جدید نیز بر مدل نظارت میکند تا با مشتقات مرتبه بالاتر طیفنگار در حوزه زمان و فرکانس مطابقت داشته باشد. این مشتقات اطلاعات جمع آوری شده از چندین فریم را به طور همزمان بیان می کنند. بنابراین، آنها اطلاعات غنی و دوربردتر در مورد شکل سیگنال را بیان می کنند. طرح کلی ما در شکل زیر خلاصه شده است:
![]() |
مدل Spectron رمزگذار یک مدل تشخیص گفتار را با یک مدل زبان رمزگشا مبتنی بر ترانسفورماتور از پیش آموزش دیده متصل می کند. در آموزش، گفته های گفتاری به یک اعلان و ادامه آن تقسیم می شود. سپس رونوشت کامل (سریع و ادامه) همراه با ویژگی های گفتار ادامه بازسازی می شود. در استنتاج، فقط یک اعلان ارائه می شود. رونویسی فرمان، ادامه متن و ادامه گفتار همگی توسط مدل ایجاد میشوند. |
معماری طیف
این معماری با یک رمزگذار گفتار از قبل آموزش دیده و یک مدل زبان رمزگشای از پیش آموزش داده شده اولیه می شود. رمزگذار با یک گفتار به عنوان ورودی درخواست میشود که آن را به ویژگیهای زبانی پیوسته رمزگذاری میکند. این ویژگیها بهعنوان پیشوند به رمزگشا وارد میشوند و کل رمزگذار-رمزگشا بهطور مشترک به حداقل رساندن افت آنتروپی متقابل (برای تشخیص گفتار و ادامه متن) و افت بازسازی جدید (برای ادامه گفتار) بهینه شده است. در طول استنتاج، یک اعلان گفتاری ارائه میشود که کدگذاری میشود و سپس رمزگشایی میشود تا هم متن و هم ادامه گفتار ارائه شود.
رمزگذار گفتار
رمزگذار گفتار یک رمزگذار کنفورمر با پارامتر 600M است که از قبل بر روی داده های مقیاس بزرگ (12 میلیون ساعت) آموزش دیده است. طیفنگار گفتار منبع را به عنوان ورودی میگیرد و نمایشی پنهان ایجاد میکند که هم اطلاعات زبانی و هم اطلاعات صوتی را در بر میگیرد. طیفنگار ورودی ابتدا با استفاده از یک لایه کانولوشن زیر نمونهبرداری میشود و سپس توسط مجموعهای از بلوکهای conformer پردازش میشود. هر بلوک conformer از یک لایه پیشخور، یک لایه خود توجه، یک لایه پیچیدگی و یک لایه دوم پیشخور تشکیل شده است. خروجی ها از طریق یک لایه طرح ریزی منتقل می شوند تا نمایش های پنهان را با بعد تعبیه شده مدل زبان مطابقت دهند.
مدل زبان
ما از یک مدل زبان رمزگشای پارامتر 350M یا 1B (به ترتیب برای کارهای ادامه و پاسخگویی به سوال) استفاده می کنیم که به روش PalM 2 آموزش داده شده است. مدل ویژگی های کدگذاری شده اعلان را به عنوان پیشوند دریافت می کند. توجه داشته باشید که این تنها ارتباط بین رمزگذار گفتار و رمزگشای LM است. یعنی هیچ توجه متقابلی بین رمزگذار و رمزگشا وجود ندارد. برخلاف اکثر مدلهای زبان گفتاری، در طول آموزش، رمزگشا توسط معلم مجبور میشود تا رونویسی متن، ادامه متن و جاسازیهای گفتار را پیشبینی کند. برای تبدیل جاسازیهای گفتاری به و از طیفنگارها، ماژولهای سبک وزن قبل و بعد از شبکه را معرفی میکنیم.
با رمزگشایی یکسان از متن میانی و طیفنگارها، دو فایده به دست میآوریم. اول، پیش آموزش LM در حوزه متن اجازه می دهد تا قبل از ترکیب گفتار، اعلان را در حوزه متن ادامه دهید. ثانیاً، متن پیشبینیشده بهعنوان استدلال میانی عمل میکند، کیفیت گفتار ترکیبشده را بهبود میبخشد، مشابه با بهبود مدلهای زبان مبتنی بر متن در هنگام استفاده از خراشهای میانی یا استدلال زنجیرهای از فکر (CoT).
لایه های پیش بینی آکوستیک
برای فعال کردن رمزگشای مدل زبان برای مدلسازی فریمهای طیفگرام، از یک پرسپترون چند لایه “پیش شبکه” برای نمایش ادامه گفتار طیفنگار حقیقت زمینی به بعد مدل زبان استفاده میکنیم. این پیش شبکه ورودی طیفگرام را در ابعاد پایینتری فشرده میکند و یک گلوگاه ایجاد میکند که به فرآیند رمزگشایی کمک میکند. این مکانیسم تنگنا از ایجاد مکرر پیشبینی مشابه در فرآیند رمزگشایی توسط مدل جلوگیری میکند. برای نمایش خروجی LM از بعد مدل زبان به بعد طیفگرام، مدل از یک “پست شبکه” استفاده میکند که همچنین یک پرسپترون چند لایه است. هر دو شبکه پیش و پس از آن، پرسپترون های چند لایه دو لایه هستند.
هدف آموزشی
روش آموزشی اسپکترون از دو تابع از دست دادن متمایز استفاده می کند: (1) از دست دادن آنتروپی متقابل، که هم برای تشخیص گفتار و هم برای ادامه متن استفاده می شود، و (2) از دست دادن رگرسیون، که برای ادامه گفتار به کار می رود. در طول آموزش، تمام پارامترها به روز می شوند (رمزگذار گفتار، لایه طرح، LM، پیش شبکه و پس شبکه).
نمونه های صوتی
در زیر نمونه هایی از ادامه گفتار و پاسخ به سوال از Spectron آورده شده است:
ادامه سخنرانی |
|
سریع: | |
ادامه: | |
سریع: | |
ادامه: | |
سریع: | |
ادامه: | |
سریع: | |
ادامه: | |
جواب سوال |
|
سوال: | |
پاسخ: | |
سوال: | |
پاسخ: | |
کارایی
برای ارزیابی تجربی عملکرد رویکرد پیشنهادی، آزمایشهایی را روی مجموعه داده Libri-Light انجام دادیم. Libri-Light یک مجموعه داده انگلیسی 60 هزار ساعته است که از خواندن گفتار بدون برچسب از کتابهای صوتی LibriVox تشکیل شده است. ما از یک صداگذار عصبی منجمد به نام WaveFit برای تبدیل طیفنگارهای پیشبینیشده به صدای خام استفاده کردیم. ما با دو کار آزمایش می کنیم، ادامه گفتار و پاسخ به سؤال گفتاری (QA). کیفیت ادامه گفتار بر روی مجموعه تست LibriSpeech آزمایش می شود. QA گفتاری روی مجموعه دادههای Spoken WebQuestions و یک مجموعه آزمایشی جدید به نام سوالات LLama که ما ایجاد کردیم، آزمایش میشود. برای همه آزمایشها، از یک فرمان صوتی 3 ثانیهای به عنوان ورودی استفاده میکنیم. ما روش خود را با مدلهای زبان گفتاری موجود مقایسه میکنیم: AudioLM، GSLM، TWIST و SpeechGPT. برای کار ادامه گفتار، از نسخه پارامتر 350M LM و نسخه 1B برای وظیفه QA گفتاری استفاده میکنیم.
برای کار ادامه گفتار، روش خود را با استفاده از سه معیار ارزیابی می کنیم. اولین مورد، log-perplexity است که از یک LM برای ارزیابی انسجام و کیفیت معنایی گفتار تولید شده استفاده می کند. دومی میانگین امتیاز نظر (MOS) است که میزان طبیعی بودن گفتار برای ارزیابهای انسانی را اندازهگیری میکند. سومین شباهت بلندگو، از رمزگذار بلندگو برای اندازه گیری شباهت بلندگو در خروجی به بلندگوی ورودی استفاده می کند. عملکرد در هر 3 معیار در نمودارهای زیر قابل مشاهده است.
![]() |
گیج شدن ورود به سیستم برای تکمیل گفته های LibriSpeech با یک اعلان 3 ثانیه ای. پایین تر بهتر است |
![]() |
شباهت گوینده بین گفتار سریع و گفتار تولید شده با استفاده از رمزگذار بلندگو. بالاتر بهتر است |
![]() |
MOS ارائه شده توسط کاربران انسانی در مورد طبیعی بودن گفتار. ارزیابها میانگین امتیاز نظر ذهنی (MOS) را در مقیاس 5 ارزیابی میکنند که بین 0 تا 5 در طبیعی بودن یک گفتار است. بالاتر بهتر است |
همانطور که در نمودار اول مشاهده می شود، روش ما به طور قابل توجهی از GSLM و TWIST در متریک log-perplexity بهتر عمل می کند و کمی بهتر از روش های پیشرفته AudioLM و SpeechGPT عمل می کند. از نظر MOS، Spectron از عملکرد همه روشهای دیگر به جز AudioLM فراتر میرود. از نظر شباهت بلندگو، روش ما از همه روش های دیگر بهتر است.
برای ارزیابی توانایی مدلها در انجام پاسخگویی به سؤال، از دو مجموعه داده پاسخگویی به سؤال گفتاری استفاده میکنیم. اولین مورد، مجموعه داده LLama Questions است که از سوالات دانش عمومی در حوزه های مختلف تولید شده با استفاده از LLama2 70B LLM استفاده می کند. مجموعه داده دوم مجموعه داده WebQuestions است که یک مجموعه داده پاسخ به سؤال عمومی است. برای ارزیابی ما فقط از سؤالاتی استفاده می کنیم که در طول اعلان 3 ثانیه قرار می گیرند. برای محاسبه دقت، پاسخها رونویسی میشوند و با پاسخهای حقیقت پایه به صورت متن مقایسه میشوند.
![]() |
دقت برای پاسخ به سؤال در مجموعه دادههای سؤالات LLama و سؤالات وب گفتاری. دقت با استفاده از رونوشتهای ASR پاسخهای گفتاری محاسبه میشود. |
اول، مشاهده میکنیم که همه روشها در پاسخ به سؤالات از مجموعه دادههای Spoken WebQuestions نسبت به مجموعه سؤالات LLama مشکل بیشتری دارند. دوم، مشاهده میکنیم که روشهایی که حول مدلسازی زبان گفتاری متمرکز شدهاند، مانند GSLM، AudioLM و TWIST، به جای پاسخدهی مستقیم به سؤال، رفتاری کاملمحور دارند که مانع از توانایی آنها در انجام QA میشود. در مجموعه داده سوالات LLama روش ما از همه روشهای دیگر بهتر عمل میکند، در حالی که SpeechGPT از نظر عملکرد بسیار نزدیک است. در مجموعه داده Speken WebQuestions، روش ما از همه متدهای دیگر به جز SpeechGPT که به طور جزئی بهتر عمل می کند، بهتر عمل می کند.
سپاسگزاریها
مشارکت کنندگان مستقیم این اثر عبارتند از الیجا ناچمانی، آلون لوکوویچ، جولیان سالازار، چولایوتش آسوارونگچای، سروش ماریوریاد، آر جی اسکری رایان و میشل تدمر رامانوویچ. ما همچنین از هیگا ژن، یفان دینگ، یو ژانگ، یوما کویزومی، نیل زگیدور، کریستین فرانک، مارکو تاگلیاساچی، ناداو بار، بنی شلزینگر و بلز آگوئرا آرکاس تشکر می کنیم.