هوش مصنوعی برای رفاه اجتماعی – وبلاگ هوش مصنوعی گوگل

تیم هوش مصنوعی Google برای Social Good متشکل از محققان، مهندسان، داوطلبان و سایرین است که تمرکز مشترک بر تأثیر اجتماعی مثبت دارند. ماموریت ما نشان دادن منافع اجتماعی هوش مصنوعی با ایجاد ارزش در دنیای واقعی، با پروژه‌هایی است که در زمینه سلامت عمومی، دسترسی، پاسخ به بحران، آب و هوا و انرژی، و طبیعت و جامعه فعالیت می‌کنند. ما بر این باوریم که بهترین راه برای ایجاد تغییرات مثبت در جوامع محروم، مشارکت با عوامل تغییر و سازمان‌هایی است که به آنها خدمت می‌کنند.

در این پست وبلاگ، کار انجام شده توسط Project Euphonia، تیمی در هوش مصنوعی برای Social Good، که هدف آن بهبود تشخیص خودکار گفتار (ASR) برای افراد دارای اختلال گفتار است، مورد بحث قرار می‌دهیم. برای افرادی که گفتار معمولی دارند، نرخ خطای کلمه مدل ASR (WER) می تواند کمتر از 10٪ باشد. اما برای افرادی که الگوهای گفتاری نامناسب دارند، مانند لکنت، دیزآرتری و آپراکسی، WER بسته به علت و شدت آن می تواند به 50٪ یا حتی 90٪ برسد. برای کمک به رفع این مشکل، ما با بیش از 1000 شرکت‌کننده برای جمع‌آوری بیش از 1000 ساعت نمونه گفتار بی‌نظم کار کردیم و از داده‌ها استفاده کردیم تا نشان دهیم شخصی‌سازی ASR یک راه مناسب برای پر کردن شکاف عملکرد برای کاربران دارای گفتار اختلال است. ما نشان داده‌ایم که شخصی‌سازی می‌تواند با حداقل ۳ تا ۴ دقیقه گفتار آموزشی با استفاده از تکنیک‌های انجماد لایه‌ها موفقیت‌آمیز باشد.

این کار منجر به توسعه Project Relate برای هر کسی که گفتار غیرمعمولی داشت و می‌توانست از یک مدل گفتار شخصی‌شده بهره‌مند شود، شد. Project Relate که با مشارکت تیم گفتار Google ساخته شده است، به افرادی که درک آنها توسط سایر افراد و فناوری دشوار است، قادر می‌سازد مدل‌های خود را آموزش دهند. افراد می توانند از این مدل های شخصی سازی شده برای برقراری ارتباط موثرتر و کسب استقلال بیشتر استفاده کنند. برای اینکه ASR در دسترس‌تر و قابل استفاده‌تر باشد، توضیح می‌دهیم که چگونه مدل جهانی گفتار Google (USM) را برای درک بهتر گفتار نامنظم خارج از جعبه، بدون شخصی‌سازی، برای استفاده با فناوری‌های دستیار دیجیتال، برنامه‌های دیکته، و در مکالمات به‌خوبی تنظیم کردیم.

مطالب پیشنهادی  اعلام اولین چالش یادگیری ماشینی – وبلاگ تحقیقاتی گوگل

پرداختن به چالش ها

با همکاری نزدیک با کاربران Project Relate، مشخص شد که مدل های شخصی سازی شده می توانند بسیار مفید باشند، اما برای بسیاری از کاربران، ثبت ده ها یا صدها نمونه می تواند چالش برانگیز باشد. علاوه بر این، مدل های شخصی سازی شده همیشه در مکالمه آزاد عملکرد خوبی نداشتند.

برای رسیدگی به این چالش ها، تلاش های تحقیقاتی Euphonia بر روی آن متمرکز شده است بلندگو مستقل ASR (SI-ASR) برای اینکه مدل‌ها برای افراد دارای اختلال گفتار بهتر عمل کنند تا نیازی به آموزش اضافی نباشد.

مجموعه داده گفتار درخواست شده برای SI-ASR

اولین گام در ساخت یک مدل SI-ASR قوی، ایجاد تقسیمات داده های نماینده بود. ما مجموعه داده گفتار درخواست شده را با تقسیم پیکره Euphonia به بخش‌های قطار، اعتبارسنجی و آزمایش ایجاد کردیم، در حالی که اطمینان حاصل کردیم که هر تقسیم طیفی از شدت اختلال گفتار و علت اصلی را در بر می‌گیرد و هیچ سخنران یا عبارتی در تقسیم‌بندی‌های متعدد ظاهر نمی‌شود. بخش آموزشی شامل بیش از 950 هزار گفتار از بیش از 1000 سخنران با گفتار اختلال است. مجموعه آزمایشی شامل حدود 5700 گفته از بیش از 350 سخنران است. آسیب شناسان گفتار به صورت دستی تمام گفته های موجود در مجموعه آزمایشی را برای دقت رونویسی و کیفیت صدا بررسی کردند.

مجموعه تست مکالمه واقعی

گفتار بدون درخواست یا محاوره ای از چندین جهت با گفتار تحریک شده متفاوت است. در مکالمه، مردم سریعتر صحبت می کنند و کمتر بیان می کنند. آنها کلمات را تکرار می کنند، کلمات نادرست را تعمیر می کنند و از واژگان گسترده تری استفاده می کنند که مختص خودشان و جامعه شان است. برای بهبود مدلی برای این مورد استفاده، مجموعه تست گفتگوی واقعی را برای معیار عملکرد ایجاد کردیم.

مجموعه تست مکالمه واقعی با کمک آزمایش‌کنندگان مورد اعتماد که صحبت کردن خود را در طول مکالمه ضبط می‌کردند ایجاد شد. صدا بررسی شد، هر گونه اطلاعات شناسایی شخصی (PII) حذف شد و سپس آن داده ها توسط آسیب شناسان گفتار زبان رونویسی شد. مجموعه تست گفتگوی واقعی شامل بیش از 1500 گفته از 29 سخنران است.

انطباق USM با گفتار اختلال

سپس ما USM را بر روی تقسیم آموزشی مجموعه Euphonia Prompted Speech تنظیم کردیم تا عملکرد آن در گفتار اختلال را بهبود بخشد. به جای تنظیم دقیق مدل کامل، تنظیم ما بر اساس آداپتورهای باقیمانده است، یک رویکرد تنظیم پارامتری کارآمد که لایه‌های گلوگاه قابل تنظیم را به عنوان باقیمانده بین لایه‌های ترانسفورماتور اضافه می‌کند. فقط این لایه ها تنظیم شده اند، در حالی که بقیه وزن های مدل دست نخورده هستند. ما قبلاً نشان داده‌ایم که این رویکرد برای انطباق مدل‌های ASR با گفتار اختلال بسیار خوب عمل می‌کند. آداپتورهای باقیمانده فقط به لایه‌های رمزگذار اضافه شدند و بعد گلوگاه روی 64 تنظیم شد.

مطالب پیشنهادی  مقیاس بندی زبان-آموزش تصویر در بیش از 100 زبان

نتایج

برای ارزیابی USM سازگار، ما آن را با مدل های قدیمی ASR با استفاده از دو مجموعه تست که در بالا توضیح داده شد مقایسه کردیم. برای هر آزمایش، ما USM تطبیق‌شده را با مدل پیش از USM مقایسه می‌کنیم که به بهترین وجه برای آن کار مناسب است: (1) برای سخنرانی کوتاه، ما با مدل ASR تولیدی Google که برای فرم کوتاه ASR بهینه شده است مقایسه می‌کنیم. (2) برای گفتار مکالمه واقعی طولانی تر، ما را با یک مدل آموزش دیده برای فرم طولانی ASR مقایسه می کنیم. بهبودهای USM نسبت به مدل‌های قبل از USM را می‌توان با افزایش اندازه نسبی USM، پارامترهای 120M تا 2B و سایر پیشرفت‌هایی که در پست وبلاگ USM مورد بحث قرار گرفت توضیح داد.

مدل نرخ خطای کلمه (WER) برای هر مجموعه تست (کمتر بهتر است).

ما می بینیم که USM سازگار با گفتار اختلال به طور قابل توجهی بهتر از مدل های دیگر است. WER تطبیق‌شده USM در مکالمه واقعی 37 درصد بهتر از مدل پیش از USM است و در مجموعه آزمایشی Prompted Speech، USM سازگار 53 درصد بهتر عمل می‌کند.

این یافته ها نشان می دهد که USM سازگار به طور قابل توجهی برای کاربر نهایی با اختلال گفتار قابل استفاده تر است. ما می‌توانیم این پیشرفت را با نگاه کردن به رونوشت‌های ضبط‌شده مجموعه آزمایشی مکالمه واقعی از یک آزمایش‌کننده مورد اعتماد Euphonia و Project Relate نشان دهیم (به زیر مراجعه کنید).

سمعی1 حقیقت زمینی پیش از USM ASR USM اقتباس شده
من اکنون یک کنترلر تطبیقی ​​ایکس باکس روی پایم دارم. من الان دارم زیاد و آن مشاور روی من دهان من الان داشته است یک ایکس باکس آداپتور کنترل کننده روی من لامپ.
الان خیلی وقته دارم حرف میزنم اجازه بدید ببینم. الان خیلی وقته من الان خیلی وقته دارم حرف میزنم
نمونه‌های صوتی و رونویسی‌های سخنرانی یک آزمایش‌کننده مورد اعتماد از مجموعه آزمایشی مکالمه واقعی.

مقایسه رونوشت‌های Pre-USM و USM تطبیقی ​​چند مزیت کلیدی را نشان داد:

  • مثال اول نشان می دهد که USM سازگار در تشخیص الگوهای گفتاری نامنظم بهتر است. خط پایه کلمات کلیدی مانند “XBox” و “کنترل کننده” را که برای شنونده مهم است تا بفهمد چه می خواهد بگوید را از دست می دهد.

  • مثال دوم مثال خوبی از این است که چگونه حذف‌ها یک مسئله اصلی در مدل‌های ASR هستند که با گفتار اختلال آموزش داده نشده‌اند. اگرچه مدل پایه یک بخش را به درستی رونویسی کرد، بخش بزرگی از گفته رونویسی نشد و پیام مورد نظر گوینده را از دست داد.

نتیجه

ما معتقدیم که این کار گام مهمی در جهت دسترسی بیشتر به تشخیص گفتار برای افراد مبتلا به اختلال گفتار است. ما همچنان به کار بر روی بهبود عملکرد مدل های خود ادامه می دهیم. با پیشرفت های سریع در ASR، هدف ما این است که از مزایای افراد مبتلا به اختلال گفتار نیز اطمینان حاصل کنیم.

سپاسگزاریها

مشارکت کنندگان کلیدی این پروژه عبارتند از فادی بیادسی، مایکل برنر، جولی کاتیو، ریچارد کیو، امی چونگ یو چو، دوتان امانوئل، جردن گرین، روس هیوود، پان پان جیانگ، آنتون کاست، مرلین لادویگ، باب مک دونالد، فیلیپ نلسون، کیتی سیور، جوئل شور، جیمی توبین، کاترین تومانک و سوباشینی ونوگوپالان. ما با سپاس از حمایت پروژه Euphonia از اعضای تیم تحقیقاتی USM از جمله یو ژانگ، وی هان، نانشین چن و بسیاری دیگر قدردانی می کنیم. مهمتر از همه، می‌خواستیم از بیش از 2200 شرکت‌کننده که نمونه‌های سخنرانی را ضبط کردند و بسیاری از گروه‌های حمایتی که به ما در ارتباط با این شرکت‌کنندگان کمک کردند تشکر کنیم.


1حجم صدا برای سهولت گوش دادن تنظیم شده است، اما فایل های اصلی با فایل های مورد استفاده در آموزش سازگارتر هستند و دارای مکث، سکوت، حجم متغیر و غیره هستند.

سئو PBN | خبر های جدید سئو و هک و سرور
مطالب پیشنهادی  شکل‌گیری حالت‌های محدود محکم فوتون‌های متقابل – وبلاگ هوش مصنوعی گوگل