پاسخگویی به سؤالات گفتاری و ادامه گفتار با استفاده از LLM مبتنی بر طیف گرا – وبلاگ تحقیقاتی Google

هدف پردازش زبان طبیعی (NLP) توسعه مدل‌های محاسباتی است که بتواند زبان طبیعی را درک و تولید کند. با گرفتن الگوها و ساختارهای آماری زبان طبیعی مبتنی بر متن، مدل‌های زبانی می‌توانند توالی‌های منسجم و معنی‌داری از کلمات را پیش‌بینی و تولید کنند. با استفاده روزافزون از معماری مدل بسیار موفق ترانسفورماتور و با آموزش در مقادیر زیاد متن (با محاسبات و اندازه مدل متناسب)، مدل‌های زبان بزرگ (LLM) موفقیت چشمگیری در وظایف NLP نشان داده‌اند.

با این حال، الگوبرداری از زبان گفتاری انسان همچنان یک مرز چالش برانگیز است. سیستم‌های گفتاری گفتاری معمولاً به‌عنوان آبشاری از سیستم‌های تشخیص خودکار گفتار (ASR)، درک زبان طبیعی (NLU)، تولید پاسخ و سیستم‌های تبدیل متن به گفتار (TTS) ساخته می‌شوند. با این حال، تا به امروز تعداد کمی از سیستم‌های سرتاسر توانمند برای مدل‌سازی زبان گفتاری وجود داشته است: به عنوان مثال، مدل‌های منفرد که می‌توانند ورودی‌های گفتاری را دریافت کنند و ادامه آن را به عنوان خروجی گفتار تولید کنند.

امروز ما یک رویکرد جدید برای مدل‌سازی زبان گفتاری به نام Spectron ارائه می‌کنیم که در «پاسخ‌گویی به سؤالات گفتاری و ادامه گفتار با استفاده از LLM با قدرت طیف‌نگاری» منتشر شده است. Spectron اولین مدل زبان گفتاری است که به‌جای یادگیری بازنمایی‌های گفتاری گسسته، به‌صورت سرتاسر آموزش داده شده است تا به‌طور مستقیم طیف‌نگارها را به‌عنوان ورودی و خروجی پردازش کند. تنها با استفاده از یک مدل زبان متنی از قبل آموزش دیده، می توان آن را برای تولید زبان گفتاری با کیفیت بالا و از نظر معنایی دقیق تنظیم کرد. علاوه بر این، مدل پیشنهادی با مقداردهی اولیه مستقیم در حفظ دانش LLM اصلی همانطور که از طریق مجموعه داده‌های پاسخگویی به پرسش گفتاری نشان داده شده است، بهبود می‌یابد.

ما نشان می‌دهیم که یک رمزگذار گفتار از پیش آموزش‌دیده و یک رمزگشای مدل زبان، آموزش انتها به انتها و عملکرد پیشرفته را بدون به خطر انداختن وفاداری نمایشی امکان‌پذیر می‌سازد. کلید این هدف یک هدف آموزشی بدیع است که به طور ضمنی بر تشخیص گفتار، ادامه متن و سنتز گفتار شرطی به شیوه ای مشترک نظارت می کند. یک تلفات رگرسیون طیف‌گرام جدید نیز بر مدل نظارت می‌کند تا با مشتقات مرتبه بالاتر طیف‌نگار در حوزه زمان و فرکانس مطابقت داشته باشد. این مشتقات اطلاعات جمع آوری شده از چندین فریم را به طور همزمان بیان می کنند. بنابراین، آنها اطلاعات غنی و دوربردتر در مورد شکل سیگنال را بیان می کنند. طرح کلی ما در شکل زیر خلاصه شده است:

مدل Spectron رمزگذار یک مدل تشخیص گفتار را با یک مدل زبان رمزگشا مبتنی بر ترانسفورماتور از پیش آموزش دیده متصل می کند. در آموزش، گفته های گفتاری به یک اعلان و ادامه آن تقسیم می شود. سپس رونوشت کامل (سریع و ادامه) همراه با ویژگی های گفتار ادامه بازسازی می شود. در استنتاج، فقط یک اعلان ارائه می شود. رونویسی فرمان، ادامه متن و ادامه گفتار همگی توسط مدل ایجاد می‌شوند.

معماری طیف

این معماری با یک رمزگذار گفتار از قبل آموزش دیده و یک مدل زبان رمزگشای از پیش آموزش داده شده اولیه می شود. رمزگذار با یک گفتار به عنوان ورودی درخواست می‌شود که آن را به ویژگی‌های زبانی پیوسته رمزگذاری می‌کند. این ویژگی‌ها به‌عنوان پیشوند به رمزگشا وارد می‌شوند و کل رمزگذار-رمزگشا به‌طور مشترک به حداقل رساندن افت آنتروپی متقابل (برای تشخیص گفتار و ادامه متن) و افت بازسازی جدید (برای ادامه گفتار) بهینه شده است. در طول استنتاج، یک اعلان گفتاری ارائه می‌شود که کدگذاری می‌شود و سپس رمزگشایی می‌شود تا هم متن و هم ادامه گفتار ارائه شود.

رمزگذار گفتار

رمزگذار گفتار یک رمزگذار کنفورمر با پارامتر 600M است که از قبل بر روی داده های مقیاس بزرگ (12 میلیون ساعت) آموزش دیده است. طیف‌نگار گفتار منبع را به عنوان ورودی می‌گیرد و نمایشی پنهان ایجاد می‌کند که هم اطلاعات زبانی و هم اطلاعات صوتی را در بر می‌گیرد. طیف‌نگار ورودی ابتدا با استفاده از یک لایه کانولوشن زیر نمونه‌برداری می‌شود و سپس توسط مجموعه‌ای از بلوک‌های conformer پردازش می‌شود. هر بلوک conformer از یک لایه پیش‌خور، یک لایه خود توجه، یک لایه پیچیدگی و یک لایه دوم پیش‌خور تشکیل شده است. خروجی ها از طریق یک لایه طرح ریزی منتقل می شوند تا نمایش های پنهان را با بعد تعبیه شده مدل زبان مطابقت دهند.

مدل زبان

ما از یک مدل زبان رمزگشای پارامتر 350M یا 1B (به ترتیب برای کارهای ادامه و پاسخگویی به سوال) استفاده می کنیم که به روش PalM 2 آموزش داده شده است. مدل ویژگی های کدگذاری شده اعلان را به عنوان پیشوند دریافت می کند. توجه داشته باشید که این تنها ارتباط بین رمزگذار گفتار و رمزگشای LM است. یعنی هیچ توجه متقابلی بین رمزگذار و رمزگشا وجود ندارد. برخلاف اکثر مدل‌های زبان گفتاری، در طول آموزش، رمزگشا توسط معلم مجبور می‌شود تا رونویسی متن، ادامه متن و جاسازی‌های گفتار را پیش‌بینی کند. برای تبدیل جاسازی‌های گفتاری به و از طیف‌نگارها، ماژول‌های سبک وزن قبل و بعد از شبکه را معرفی می‌کنیم.

با رمزگشایی یکسان از متن میانی و طیف‌نگارها، دو فایده به دست می‌آوریم. اول، پیش آموزش LM در حوزه متن اجازه می دهد تا قبل از ترکیب گفتار، اعلان را در حوزه متن ادامه دهید. ثانیاً، متن پیش‌بینی‌شده به‌عنوان استدلال میانی عمل می‌کند، کیفیت گفتار ترکیب‌شده را بهبود می‌بخشد، مشابه با بهبود مدل‌های زبان مبتنی بر متن در هنگام استفاده از خراش‌های میانی یا استدلال زنجیره‌ای از فکر (CoT).

لایه های پیش بینی آکوستیک

برای فعال کردن رمزگشای مدل زبان برای مدل‌سازی فریم‌های طیف‌گرام، از یک پرسپترون چند لایه “پیش شبکه” برای نمایش ادامه گفتار طیف‌نگار حقیقت زمینی به بعد مدل زبان استفاده می‌کنیم. این پیش شبکه ورودی طیف‌گرام را در ابعاد پایین‌تری فشرده می‌کند و یک گلوگاه ایجاد می‌کند که به فرآیند رمزگشایی کمک می‌کند. این مکانیسم تنگنا از ایجاد مکرر پیش‌بینی مشابه در فرآیند رمزگشایی توسط مدل جلوگیری می‌کند. برای نمایش خروجی LM از بعد مدل زبان به بعد طیف‌گرام، مدل از یک “پست شبکه” استفاده می‌کند که همچنین یک پرسپترون چند لایه است. هر دو شبکه پیش و پس از آن، پرسپترون های چند لایه دو لایه هستند.

هدف آموزشی

روش آموزشی اسپکترون از دو تابع از دست دادن متمایز استفاده می کند: (1) از دست دادن آنتروپی متقابل، که هم برای تشخیص گفتار و هم برای ادامه متن استفاده می شود، و (2) از دست دادن رگرسیون، که برای ادامه گفتار به کار می رود. در طول آموزش، تمام پارامترها به روز می شوند (رمزگذار گفتار، لایه طرح، LM، پیش شبکه و پس شبکه).

نمونه های صوتی

در زیر نمونه هایی از ادامه گفتار و پاسخ به سوال از Spectron آورده شده است:

ادامه سخنرانی

سریع:
ادامه:
سریع:
ادامه:
سریع:
ادامه:
سریع:
ادامه:

جواب سوال

سوال:
پاسخ:
سوال:
پاسخ:

کارایی

برای ارزیابی تجربی عملکرد رویکرد پیشنهادی، آزمایش‌هایی را روی مجموعه داده Libri-Light انجام دادیم. Libri-Light یک مجموعه داده انگلیسی 60 هزار ساعته است که از خواندن گفتار بدون برچسب از کتاب‌های صوتی LibriVox تشکیل شده است. ما از یک صداگذار عصبی منجمد به نام WaveFit برای تبدیل طیف‌نگارهای پیش‌بینی‌شده به صدای خام استفاده کردیم. ما با دو کار آزمایش می کنیم، ادامه گفتار و پاسخ به سؤال گفتاری (QA). کیفیت ادامه گفتار بر روی مجموعه تست LibriSpeech آزمایش می شود. QA گفتاری روی مجموعه داده‌های Spoken WebQuestions و یک مجموعه آزمایشی جدید به نام سوالات LLama که ما ایجاد کردیم، آزمایش می‌شود. برای همه آزمایش‌ها، از یک فرمان صوتی 3 ثانیه‌ای به عنوان ورودی استفاده می‌کنیم. ما روش خود را با مدل‌های زبان گفتاری موجود مقایسه می‌کنیم: AudioLM، GSLM، TWIST و SpeechGPT. برای کار ادامه گفتار، از نسخه پارامتر 350M LM و نسخه 1B برای وظیفه QA گفتاری استفاده می‌کنیم.

برای کار ادامه گفتار، روش خود را با استفاده از سه معیار ارزیابی می کنیم. اولین مورد، log-perplexity است که از یک LM برای ارزیابی انسجام و کیفیت معنایی گفتار تولید شده استفاده می کند. دومی میانگین امتیاز نظر (MOS) است که میزان طبیعی بودن گفتار برای ارزیاب‌های انسانی را اندازه‌گیری می‌کند. سومین شباهت بلندگو، از رمزگذار بلندگو برای اندازه گیری شباهت بلندگو در خروجی به بلندگوی ورودی استفاده می کند. عملکرد در هر 3 معیار در نمودارهای زیر قابل مشاهده است.

گیج شدن ورود به سیستم برای تکمیل گفته های LibriSpeech با یک اعلان 3 ثانیه ای. پایین تر بهتر است
شباهت گوینده بین گفتار سریع و گفتار تولید شده با استفاده از رمزگذار بلندگو. بالاتر بهتر است
MOS ارائه شده توسط کاربران انسانی در مورد طبیعی بودن گفتار. ارزیاب‌ها میانگین امتیاز نظر ذهنی (MOS) را در مقیاس 5 ارزیابی می‌کنند که بین 0 تا 5 در طبیعی بودن یک گفتار است. بالاتر بهتر است

همانطور که در نمودار اول مشاهده می شود، روش ما به طور قابل توجهی از GSLM و TWIST در متریک log-perplexity بهتر عمل می کند و کمی بهتر از روش های پیشرفته AudioLM و SpeechGPT عمل می کند. از نظر MOS، Spectron از عملکرد همه روش‌های دیگر به جز AudioLM فراتر می‌رود. از نظر شباهت بلندگو، روش ما از همه روش های دیگر بهتر است.

برای ارزیابی توانایی مدل‌ها در انجام پاسخ‌گویی به سؤال، از دو مجموعه داده پاسخگویی به سؤال گفتاری استفاده می‌کنیم. اولین مورد، مجموعه داده LLama Questions است که از سوالات دانش عمومی در حوزه های مختلف تولید شده با استفاده از LLama2 70B LLM استفاده می کند. مجموعه داده دوم مجموعه داده WebQuestions است که یک مجموعه داده پاسخ به سؤال عمومی است. برای ارزیابی ما فقط از سؤالاتی استفاده می کنیم که در طول اعلان 3 ثانیه قرار می گیرند. برای محاسبه دقت، پاسخ‌ها رونویسی می‌شوند و با پاسخ‌های حقیقت پایه به صورت متن مقایسه می‌شوند.

دقت برای پاسخ به سؤال در مجموعه داده‌های سؤالات LLama و سؤالات وب گفتاری. دقت با استفاده از رونوشت‌های ASR پاسخ‌های گفتاری محاسبه می‌شود.

اول، مشاهده می‌کنیم که همه روش‌ها در پاسخ به سؤالات از مجموعه داده‌های Spoken WebQuestions نسبت به مجموعه سؤالات LLama مشکل بیشتری دارند. دوم، مشاهده می‌کنیم که روش‌هایی که حول مدل‌سازی زبان گفتاری متمرکز شده‌اند، مانند GSLM، AudioLM و TWIST، به جای پاسخ‌دهی مستقیم به سؤال، رفتاری کامل‌محور دارند که مانع از توانایی آن‌ها در انجام QA می‌شود. در مجموعه داده سوالات LLama روش ما از همه روش‌های دیگر بهتر عمل می‌کند، در حالی که SpeechGPT از نظر عملکرد بسیار نزدیک است. در مجموعه داده Speken WebQuestions، روش ما از همه متدهای دیگر به جز SpeechGPT که به طور جزئی بهتر عمل می کند، بهتر عمل می کند.

سپاسگزاریها

مشارکت کنندگان مستقیم این اثر عبارتند از الیجا ناچمانی، آلون لوکوویچ، جولیان سالازار، چولایوتش آسوارونگچای، سروش ماریوریاد، آر جی اسکری رایان و میشل تدمر رامانوویچ. ما همچنین از هیگا ژن، یفان دینگ، یو ژانگ، یوما کویزومی، نیل زگیدور، کریستین فرانک، مارکو تاگلیاساچی، ناداو بار، بنی شلزینگر و بلز آگوئرا آرکاس تشکر می کنیم.