دستیارهای مجازی به طور فزاینده ای در روال روزانه ما ادغام می شوند. آنها می توانند در همه چیز از تنظیم آلارم گرفته تا راهنمایی نقشه کمک کنند و حتی می توانند به افراد دارای معلولیت کمک کنند تا خانه های خود را راحت تر مدیریت کنند. همانطور که از این دستیارها استفاده می کنیم، به استفاده از زبان طبیعی برای انجام کارهایی که زمانی با دست انجام می دادیم نیز عادت می کنیم.
یکی از بزرگترین چالشها در ساخت یک دستیار مجازی قوی، شناسایی آنچه کاربر میخواهد و اطلاعات مورد نیاز برای انجام وظیفه است. در ادبیات پردازش زبان طبیعی (NLP)، این عمدتاً به عنوان یک کار تجزیه گفتگوی وظیفهمحور تعریف میشود، جایی که یک گفتگوی معین باید توسط یک سیستم تجزیه شود تا هدف کاربر را درک کند و عملیات را برای تحقق آن هدف انجام دهد. در حالی که جامعه دانشگاهی به لطف مجموعه دادههای هدف سفارشی، مانند MultiWOZ، TOP، SMCalFlow و غیره در مدیریت گفتگوی وظیفهمحور پیشرفت کرده است، پیشرفت محدود است زیرا این مجموعه دادهها فاقد پدیدههای گفتاری معمولی لازم برای آموزش مدل برای بهینهسازی عملکرد مدل زبان هستند. مدلهای حاصل اغلب ضعیف عمل میکنند، که منجر به نارضایتی از تعاملات دستیار میشود. الگوهای گفتاری مرتبط ممکن است شامل بازبینی، ناروانی، اختلاط کد، و استفاده از بافت ساختاری اطراف محیط کاربر باشد، که ممکن است شامل یادداشتهای کاربر، دستگاههای خانه هوشمند، فهرست مخاطبین و غیره باشد.
دیالوگ زیر را در نظر بگیرید که یک نمونه معمولی را نشان می دهد که کاربر نیاز به تجدید نظر در بیان خود دارد:
![]() |
مکالمه گفتگو با دستیار مجازی که شامل بازبینی کاربر است. |
دستیار مجازی درخواست را اشتباه درک می کند و سعی می کند با مخاطب نادرست تماس بگیرد. از این رو، کاربر باید گفتار خود را برای رفع اشتباه دستیار اصلاح کند. برای تجزیه و تحلیل صحیح آخرین گفته، دستیار همچنین باید زمینه خاص کاربر را تفسیر کند – در این مورد، باید بداند که کاربر یک لیست مخاطب در تلفن خود ذخیره کرده است که باید به آن ارجاع دهد.
یکی دیگر از دستههای رایج گفتهها که برای دستیاران مجازی چالش برانگیز است، مخلوط کردن کد است که زمانی اتفاق میافتد که کاربر در حین خطابکردن به دستیار از یک زبان به زبان دیگر جابجا میشود. به قول زیر توجه کنید:
![]() |
دیالوگی که نشان دهنده اختلاط کد بین انگلیسی و آلمانی است. |
در این مثال، کاربر از انگلیسی به آلمانی سوئیچ میکند، جایی که «ساعت چهار” به معنای “ساعت چهار” به زبان آلمانی.
در تلاش برای پیشبرد تحقیقات در تجزیه چنین گفته های واقع بینانه و پیچیده، ما مجموعه داده جدیدی به نام PRESTO را راه اندازی می کنیم، یک مجموعه داده چندزبانه برای تجزیه گفتگوهای واقعی کار محور که شامل تقریباً نیم میلیون مکالمه واقعی بین افراد و دستیاران مجازی است. مجموعه داده شامل شش زبان مختلف است و شامل چندین پدیده مکالمه است که کاربران ممکن است هنگام استفاده از یک دستیار با آنها مواجه شوند، از جمله بازبینی کاربر، ناروانی ها و اختلاط کد. مجموعه داده همچنین شامل بافت ساختاری اطراف است، مانند مخاطبین کاربران و لیست های مرتبط با هر مثال. برچسبگذاری صریح پدیدههای مختلف در PRESTO به ما اجازه میدهد تا مجموعههای آزمایشی مختلفی ایجاد کنیم تا به طور جداگانه عملکرد مدل را روی این پدیدههای گفتاری تجزیه و تحلیل کنیم. ما متوجه میشویم که برخی از این پدیدهها با نمونههای چند عکس سادهتر مدلسازی میشوند، در حالی که برخی دیگر به دادههای آموزشی بسیار بیشتری نیاز دارند.
ویژگی های مجموعه داده
- مکالمات توسط افراد بومی به شش زبان
همه مکالمات موجود در مجموعه داده ما توسط افراد بومی شش زبان – انگلیسی، فرانسوی، آلمانی، هندی، ژاپنی و اسپانیایی ارائه شده است. این برخلاف سایر مجموعههای داده، مانند MTOP و MASSIVE است که گفتهها را فقط از انگلیسی به زبانهای دیگر ترجمه میکنند، که لزوماً الگوهای گفتاری گویشوران بومی در زبانهای غیرانگلیسی را منعکس نمیکند. - زمینه ساختار یافته
کاربران معمولاً هنگام تعامل با دستیارهای مجازی به اطلاعات ذخیره شده در دستگاه های خود مانند یادداشت ها، مخاطبین و فهرست ها تکیه می کنند. با این حال، این زمینه اغلب برای دستیار قابل دسترسی نیست، که می تواند منجر به خطاهای تجزیه در هنگام پردازش گفته های کاربر شود. برای پرداختن به این مشکل، PRESTO شامل سه نوع زمینه ساختاریافته، یادداشتها، فهرستها و مخاطبین و همچنین گفتههای کاربر و تجزیه آنها میشود. لیست ها، یادداشت ها و مخاطبین توسط افراد بومی هر زبان در طول جمع آوری داده ها ایجاد می شوند. داشتن چنین زمینه ای به ما امکان می دهد بررسی کنیم که چگونه می توان از این اطلاعات برای بهبود عملکرد در تجزیه مدل های گفتگوی وظیفه گرا استفاده کرد.
هر نمونه در PRESTO شامل موارد زیر است: ورودی ها – وضعیت مجازی کاربر (زمینه)، یک یا چند گفته کاربر، و پاسخ های دستیار مجازی مربوطه (گفتگو). خروجی – تجزیه معنایی آخرین گفته کاربر در گفتگو (تجزیه). - بازبینی های کاربر
معمولاً یک کاربر هنگام صحبت با یک دستیار مجازی، گفته های خود را اصلاح یا اصلاح می کند. این تجدید نظرها به دلایل مختلفی انجام می شود – دستیار ممکن است در درک گفته اشتباه کرده باشد یا ممکن است کاربر هنگام گفتن نظر خود را تغییر داده باشد. یکی از این نمونه ها در شکل بالا آمده است. نمونههای دیگر تجدیدنظر شامل لغو درخواست شخص است (”چیزی اضافه نکن”) یا اصلاح خود در همان گفتار (“اضافه کردن نان – نه، بدون صبر – اضافه کردن نان گندم به لیست خرید من.”). تقریباً 27 درصد از همه نمونهها در PRESTO دارای نوعی ویرایش کاربر هستند که به صراحت در مجموعه داده برچسبگذاری شده است. - اختلاط کد
تا سال 2022، تقریباً 43 درصد از جمعیت جهان دو زبانه هستند. در نتیجه، بسیاری از کاربران هنگام صحبت با دستیارهای مجازی، زبان خود را تغییر می دهند. در ساخت PRESTO، ما از مشارکت کنندگان داده های دوزبانه خواستیم که عبارات ترکیبی کد را حاشیه نویسی کنند، که تقریباً 14٪ از تمام گفته های مجموعه داده را تشکیل می دهد.
نمونههایی از گفتههای هندی-انگلیسی، اسپانیایی-انگلیسی و آلمانی-انگلیسی با تغییر کد از PRESTO. - ناروانی ها
به دلیل ماهیت گفتاری مکالماتی که دستیاران مجازی دریافت میکنند، ناروانیها، مانند عبارات تکراری یا کلمات پرکننده، در گفتههای کاربر همهجا وجود دارند. مجموعههای دادهای مانند DISFL-QA به فقدان چنین پدیدههایی در ادبیات NLP موجود اشاره میکنند و به هدف کاهش آن شکاف کمک میکنند. در کارمان، ما مکالماتی را که این پدیده خاص را در هر شش زبان مورد هدف قرار میدهند، درج میکنیم.
نمونه هایی از گفته های انگلیسی، ژاپنی و فرانسوی با کلمات پرکننده یا تکرار.
یافته های کلیدی
ما آزمایشهای هدفمند را برای تمرکز بر روی هر یک از پدیدههای شرح داده شده در بالا انجام دادیم. ما مدلهای مبتنی بر mT5 را اجرا کردیم که با استفاده از مجموعه داده PRESTO آموزش دیدند و آنها را با استفاده از تطابق دقیق بین تجزیه پیشبینیشده و تجزیه مشروح انسانی ارزیابی کردیم. در زیر بهبودهای عملکرد نسبی را نشان میدهیم که دادههای آموزشی را بر روی هر یک از پدیدههای هدفگذاری شده مقیاسبندی میکنیم – بازبینیهای کاربر، ناروانیها و اختلاط کد.
![]() |
نتایج K-shot روی پدیدههای مختلف زبانی و مجموعه آزمون کامل در افزایش اندازه دادههای آموزشی. |
را کنتایج شات موارد زیر را به همراه دارد:
- عملکرد صفر شات در پدیده مشخص شده ضعیف است، که بر نیاز به چنین جملاتی در مجموعه داده برای بهبود عملکرد تأکید دارد.
- ناروانی ها و ترکیب کد عملکرد صفر شات بسیار بهتری نسبت به ویرایش های کاربر دارند (بیش از 40 امتیاز اختلاف در دقت تطابق دقیق).
ما همچنین تفاوت بین آموزش مدلهای یکزبانه و چند زبانه را در مجموعه قطار بررسی میکنیم و متوجه میشویم که با دادههای کمتر، مدلهای چندزبانه برتری نسبت به مدلهای تک زبانه دارند، اما با افزایش اندازه دادهها، شکاف کاهش مییابد.

جزئیات بیشتر در مورد کیفیت داده ها، روش جمع آوری داده ها، و آزمایش های مدل سازی را می توان در مقاله ما یافت.
نتیجه
ما PRESTO را ایجاد کردیم، یک مجموعه داده چندزبانه برای تجزیه گفتگوهای وظیفه محور که شامل مکالمات واقع گرایانه است که نشان دهنده انواع نقاط دردناکی است که کاربران اغلب در مکالمات روزانه خود با دستیاران مجازی که در مجموعه داده های موجود در جامعه NLP با آن مواجه هستند، مواجه می شوند. PRESTO شامل تقریباً نیم میلیون گفتار است که توسط افراد بومی شش زبان – انگلیسی، فرانسوی، آلمانی، هندی، ژاپنی و اسپانیایی ارائه شده است. ما مجموعههای آزمایشی اختصاصی ایجاد کردیم تا بر روی هر پدیده هدفگذاری شده تمرکز کنیم – بازبینیهای کاربر، ناروانیها، اختلاط کد و بافت ساختاری. نتایج ما نشان میدهد که عملکرد شلیک صفر زمانی ضعیف است که پدیده هدف در مجموعه آموزشی گنجانده نشده است، که نشاندهنده نیاز به چنین جملاتی برای بهبود عملکرد است. ما متوجه شدهایم که بازبینیها و ناروانیهای کاربر با دادههای بیشتر مدلسازی میشوند، در مقایسه با عبارات ترکیبی کد، که مدلسازی آنها، حتی با تعداد مثالهای زیاد، دشوارتر است. با انتشار این مجموعه داده، ما بیشتر از آنچه که پاسخ میدهیم، سوالاتی را باز میکنیم و امیدواریم جامعه پژوهشی در مورد گفتههایی که بیشتر با آنچه کاربران هر روز با آن مواجه میشوند، پیشرفت کند.
سپاسگزاریها
همکاری در این اثر با ولید عمار، سیذارت واشیشتا، موتوکی سانو، فیض سورانی، مکس چانگ، هیون جونگ چو، دیوید گرین، کایل هی، راتیما نیتیساروج، آنا تروخینا، شاچی پل، پاراث شاه، روشین شاه و ژو یو. ما همچنین می خواهیم از تام اسمال برای انیمیشن های موجود در این پست وبلاگ تشکر کنیم. در نهایت، از همه زبان شناسان خبره و حاشیه نویسان داده ها برای تحقق این امر تشکر می کنم.