تیم هوش مصنوعی Google برای Social Good متشکل از محققان، مهندسان، داوطلبان و سایرین است که تمرکز مشترک بر تأثیر اجتماعی مثبت دارند. ماموریت ما نشان دادن منافع اجتماعی هوش مصنوعی با ایجاد ارزش در دنیای واقعی، با پروژههایی است که در زمینه سلامت عمومی، دسترسی، پاسخ به بحران، آب و هوا و انرژی، و طبیعت و جامعه فعالیت میکنند. ما بر این باوریم که بهترین راه برای ایجاد تغییرات مثبت در جوامع محروم، مشارکت با عوامل تغییر و سازمانهایی است که به آنها خدمت میکنند.
در این پست وبلاگ، کار انجام شده توسط Project Euphonia، تیمی در هوش مصنوعی برای Social Good، که هدف آن بهبود تشخیص خودکار گفتار (ASR) برای افراد دارای اختلال گفتار است، مورد بحث قرار میدهیم. برای افرادی که گفتار معمولی دارند، نرخ خطای کلمه مدل ASR (WER) می تواند کمتر از 10٪ باشد. اما برای افرادی که الگوهای گفتاری نامناسب دارند، مانند لکنت، دیزآرتری و آپراکسی، WER بسته به علت و شدت آن می تواند به 50٪ یا حتی 90٪ برسد. برای کمک به رفع این مشکل، ما با بیش از 1000 شرکتکننده برای جمعآوری بیش از 1000 ساعت نمونه گفتار بینظم کار کردیم و از دادهها استفاده کردیم تا نشان دهیم شخصیسازی ASR یک راه مناسب برای پر کردن شکاف عملکرد برای کاربران دارای گفتار اختلال است. ما نشان دادهایم که شخصیسازی میتواند با حداقل ۳ تا ۴ دقیقه گفتار آموزشی با استفاده از تکنیکهای انجماد لایهها موفقیتآمیز باشد.
این کار منجر به توسعه Project Relate برای هر کسی که گفتار غیرمعمولی داشت و میتوانست از یک مدل گفتار شخصیشده بهرهمند شود، شد. Project Relate که با مشارکت تیم گفتار Google ساخته شده است، به افرادی که درک آنها توسط سایر افراد و فناوری دشوار است، قادر میسازد مدلهای خود را آموزش دهند. افراد می توانند از این مدل های شخصی سازی شده برای برقراری ارتباط موثرتر و کسب استقلال بیشتر استفاده کنند. برای اینکه ASR در دسترستر و قابل استفادهتر باشد، توضیح میدهیم که چگونه مدل جهانی گفتار Google (USM) را برای درک بهتر گفتار نامنظم خارج از جعبه، بدون شخصیسازی، برای استفاده با فناوریهای دستیار دیجیتال، برنامههای دیکته، و در مکالمات بهخوبی تنظیم کردیم.
پرداختن به چالش ها
با همکاری نزدیک با کاربران Project Relate، مشخص شد که مدل های شخصی سازی شده می توانند بسیار مفید باشند، اما برای بسیاری از کاربران، ثبت ده ها یا صدها نمونه می تواند چالش برانگیز باشد. علاوه بر این، مدل های شخصی سازی شده همیشه در مکالمه آزاد عملکرد خوبی نداشتند.
برای رسیدگی به این چالش ها، تلاش های تحقیقاتی Euphonia بر روی آن متمرکز شده است بلندگو مستقل ASR (SI-ASR) برای اینکه مدلها برای افراد دارای اختلال گفتار بهتر عمل کنند تا نیازی به آموزش اضافی نباشد.
مجموعه داده گفتار درخواست شده برای SI-ASR
اولین گام در ساخت یک مدل SI-ASR قوی، ایجاد تقسیمات داده های نماینده بود. ما مجموعه داده گفتار درخواست شده را با تقسیم پیکره Euphonia به بخشهای قطار، اعتبارسنجی و آزمایش ایجاد کردیم، در حالی که اطمینان حاصل کردیم که هر تقسیم طیفی از شدت اختلال گفتار و علت اصلی را در بر میگیرد و هیچ سخنران یا عبارتی در تقسیمبندیهای متعدد ظاهر نمیشود. بخش آموزشی شامل بیش از 950 هزار گفتار از بیش از 1000 سخنران با گفتار اختلال است. مجموعه آزمایشی شامل حدود 5700 گفته از بیش از 350 سخنران است. آسیب شناسان گفتار به صورت دستی تمام گفته های موجود در مجموعه آزمایشی را برای دقت رونویسی و کیفیت صدا بررسی کردند.
مجموعه تست مکالمه واقعی
گفتار بدون درخواست یا محاوره ای از چندین جهت با گفتار تحریک شده متفاوت است. در مکالمه، مردم سریعتر صحبت می کنند و کمتر بیان می کنند. آنها کلمات را تکرار می کنند، کلمات نادرست را تعمیر می کنند و از واژگان گسترده تری استفاده می کنند که مختص خودشان و جامعه شان است. برای بهبود مدلی برای این مورد استفاده، مجموعه تست گفتگوی واقعی را برای معیار عملکرد ایجاد کردیم.
مجموعه تست مکالمه واقعی با کمک آزمایشکنندگان مورد اعتماد که صحبت کردن خود را در طول مکالمه ضبط میکردند ایجاد شد. صدا بررسی شد، هر گونه اطلاعات شناسایی شخصی (PII) حذف شد و سپس آن داده ها توسط آسیب شناسان گفتار زبان رونویسی شد. مجموعه تست گفتگوی واقعی شامل بیش از 1500 گفته از 29 سخنران است.
انطباق USM با گفتار اختلال
سپس ما USM را بر روی تقسیم آموزشی مجموعه Euphonia Prompted Speech تنظیم کردیم تا عملکرد آن در گفتار اختلال را بهبود بخشد. به جای تنظیم دقیق مدل کامل، تنظیم ما بر اساس آداپتورهای باقیمانده است، یک رویکرد تنظیم پارامتری کارآمد که لایههای گلوگاه قابل تنظیم را به عنوان باقیمانده بین لایههای ترانسفورماتور اضافه میکند. فقط این لایه ها تنظیم شده اند، در حالی که بقیه وزن های مدل دست نخورده هستند. ما قبلاً نشان دادهایم که این رویکرد برای انطباق مدلهای ASR با گفتار اختلال بسیار خوب عمل میکند. آداپتورهای باقیمانده فقط به لایههای رمزگذار اضافه شدند و بعد گلوگاه روی 64 تنظیم شد.
نتایج
برای ارزیابی USM سازگار، ما آن را با مدل های قدیمی ASR با استفاده از دو مجموعه تست که در بالا توضیح داده شد مقایسه کردیم. برای هر آزمایش، ما USM تطبیقشده را با مدل پیش از USM مقایسه میکنیم که به بهترین وجه برای آن کار مناسب است: (1) برای سخنرانی کوتاه، ما با مدل ASR تولیدی Google که برای فرم کوتاه ASR بهینه شده است مقایسه میکنیم. (2) برای گفتار مکالمه واقعی طولانی تر، ما را با یک مدل آموزش دیده برای فرم طولانی ASR مقایسه می کنیم. بهبودهای USM نسبت به مدلهای قبل از USM را میتوان با افزایش اندازه نسبی USM، پارامترهای 120M تا 2B و سایر پیشرفتهایی که در پست وبلاگ USM مورد بحث قرار گرفت توضیح داد.
![]() |
مدل نرخ خطای کلمه (WER) برای هر مجموعه تست (کمتر بهتر است). |
ما می بینیم که USM سازگار با گفتار اختلال به طور قابل توجهی بهتر از مدل های دیگر است. WER تطبیقشده USM در مکالمه واقعی 37 درصد بهتر از مدل پیش از USM است و در مجموعه آزمایشی Prompted Speech، USM سازگار 53 درصد بهتر عمل میکند.
این یافته ها نشان می دهد که USM سازگار به طور قابل توجهی برای کاربر نهایی با اختلال گفتار قابل استفاده تر است. ما میتوانیم این پیشرفت را با نگاه کردن به رونوشتهای ضبطشده مجموعه آزمایشی مکالمه واقعی از یک آزمایشکننده مورد اعتماد Euphonia و Project Relate نشان دهیم (به زیر مراجعه کنید).
سمعی1 | حقیقت زمینی | پیش از USM ASR | USM اقتباس شده | |||
من اکنون یک کنترلر تطبیقی ایکس باکس روی پایم دارم. | من الان دارم زیاد و آن مشاور روی من دهان | من الان داشته است یک ایکس باکس آداپتور کنترل کننده روی من لامپ. | ||||
الان خیلی وقته دارم حرف میزنم اجازه بدید ببینم. | الان خیلی وقته | من الان خیلی وقته دارم حرف میزنم |
نمونههای صوتی و رونویسیهای سخنرانی یک آزمایشکننده مورد اعتماد از مجموعه آزمایشی مکالمه واقعی. |
مقایسه رونوشتهای Pre-USM و USM تطبیقی چند مزیت کلیدی را نشان داد:
-
مثال اول نشان می دهد که USM سازگار در تشخیص الگوهای گفتاری نامنظم بهتر است. خط پایه کلمات کلیدی مانند “XBox” و “کنترل کننده” را که برای شنونده مهم است تا بفهمد چه می خواهد بگوید را از دست می دهد.
-
مثال دوم مثال خوبی از این است که چگونه حذفها یک مسئله اصلی در مدلهای ASR هستند که با گفتار اختلال آموزش داده نشدهاند. اگرچه مدل پایه یک بخش را به درستی رونویسی کرد، بخش بزرگی از گفته رونویسی نشد و پیام مورد نظر گوینده را از دست داد.
نتیجه
ما معتقدیم که این کار گام مهمی در جهت دسترسی بیشتر به تشخیص گفتار برای افراد مبتلا به اختلال گفتار است. ما همچنان به کار بر روی بهبود عملکرد مدل های خود ادامه می دهیم. با پیشرفت های سریع در ASR، هدف ما این است که از مزایای افراد مبتلا به اختلال گفتار نیز اطمینان حاصل کنیم.
سپاسگزاریها
مشارکت کنندگان کلیدی این پروژه عبارتند از فادی بیادسی، مایکل برنر، جولی کاتیو، ریچارد کیو، امی چونگ یو چو، دوتان امانوئل، جردن گرین، روس هیوود، پان پان جیانگ، آنتون کاست، مرلین لادویگ، باب مک دونالد، فیلیپ نلسون، کیتی سیور، جوئل شور، جیمی توبین، کاترین تومانک و سوباشینی ونوگوپالان. ما با سپاس از حمایت پروژه Euphonia از اعضای تیم تحقیقاتی USM از جمله یو ژانگ، وی هان، نانشین چن و بسیاری دیگر قدردانی می کنیم. مهمتر از همه، میخواستیم از بیش از 2200 شرکتکننده که نمونههای سخنرانی را ضبط کردند و بسیاری از گروههای حمایتی که به ما در ارتباط با این شرکتکنندگان کمک کردند تشکر کنیم.
1حجم صدا برای سهولت گوش دادن تنظیم شده است، اما فایل های اصلی با فایل های مورد استفاده در آموزش سازگارتر هستند و دارای مکث، سکوت، حجم متغیر و غیره هستند. ↩