PRESTO – یک مجموعه داده چند زبانه برای تجزیه گفتگوهای واقعی کار محور – وبلاگ هوش مصنوعی گوگل

دستیارهای مجازی به طور فزاینده ای در روال روزانه ما ادغام می شوند. آنها می توانند در همه چیز از تنظیم آلارم گرفته تا راهنمایی نقشه کمک کنند و حتی می توانند به افراد دارای معلولیت کمک کنند تا خانه های خود را راحت تر مدیریت کنند. همانطور که از این دستیارها استفاده می کنیم، به استفاده از زبان طبیعی برای انجام کارهایی که زمانی با دست انجام می دادیم نیز عادت می کنیم.

یکی از بزرگ‌ترین چالش‌ها در ساخت یک دستیار مجازی قوی، شناسایی آنچه کاربر می‌خواهد و اطلاعات مورد نیاز برای انجام وظیفه است. در ادبیات پردازش زبان طبیعی (NLP)، این عمدتاً به عنوان یک کار تجزیه گفتگوی وظیفه‌محور تعریف می‌شود، جایی که یک گفتگوی معین باید توسط یک سیستم تجزیه شود تا هدف کاربر را درک کند و عملیات را برای تحقق آن هدف انجام دهد. در حالی که جامعه دانشگاهی به لطف مجموعه داده‌های هدف سفارشی، مانند MultiWOZ، TOP، SMCalFlow و غیره در مدیریت گفتگوی وظیفه‌محور پیشرفت کرده است، پیشرفت محدود است زیرا این مجموعه داده‌ها فاقد پدیده‌های گفتاری معمولی لازم برای آموزش مدل برای بهینه‌سازی عملکرد مدل زبان هستند. مدل‌های حاصل اغلب ضعیف عمل می‌کنند، که منجر به نارضایتی از تعاملات دستیار می‌شود. الگوهای گفتاری مرتبط ممکن است شامل بازبینی، ناروانی، اختلاط کد، و استفاده از بافت ساختاری اطراف محیط کاربر باشد، که ممکن است شامل یادداشت‌های کاربر، دستگاه‌های خانه هوشمند، فهرست مخاطبین و غیره باشد.

دیالوگ زیر را در نظر بگیرید که یک نمونه معمولی را نشان می دهد که کاربر نیاز به تجدید نظر در بیان خود دارد:

مکالمه گفتگو با دستیار مجازی که شامل بازبینی کاربر است.

دستیار مجازی درخواست را اشتباه درک می کند و سعی می کند با مخاطب نادرست تماس بگیرد. از این رو، کاربر باید گفتار خود را برای رفع اشتباه دستیار اصلاح کند. برای تجزیه و تحلیل صحیح آخرین گفته، دستیار همچنین باید زمینه خاص کاربر را تفسیر کند – در این مورد، باید بداند که کاربر یک لیست مخاطب در تلفن خود ذخیره کرده است که باید به آن ارجاع دهد.

یکی دیگر از دسته‌های رایج گفته‌ها که برای دستیاران مجازی چالش برانگیز است، مخلوط کردن کد است که زمانی اتفاق می‌افتد که کاربر در حین خطاب‌کردن به دستیار از یک زبان به زبان دیگر جابجا می‌شود. به قول زیر توجه کنید:

دیالوگی که نشان دهنده اختلاط کد بین انگلیسی و آلمانی است.

در این مثال، کاربر از انگلیسی به آلمانی سوئیچ می‌کند، جایی که «ساعت چهار” به معنای “ساعت چهار” به زبان آلمانی.

در تلاش برای پیشبرد تحقیقات در تجزیه چنین گفته های واقع بینانه و پیچیده، ما مجموعه داده جدیدی به نام PRESTO را راه اندازی می کنیم، یک مجموعه داده چندزبانه برای تجزیه گفتگوهای واقعی کار محور که شامل تقریباً نیم میلیون مکالمه واقعی بین افراد و دستیاران مجازی است. مجموعه داده شامل شش زبان مختلف است و شامل چندین پدیده مکالمه است که کاربران ممکن است هنگام استفاده از یک دستیار با آنها مواجه شوند، از جمله بازبینی کاربر، ناروانی ها و اختلاط کد. مجموعه داده همچنین شامل بافت ساختاری اطراف است، مانند مخاطبین کاربران و لیست های مرتبط با هر مثال. برچسب‌گذاری صریح پدیده‌های مختلف در PRESTO به ما اجازه می‌دهد تا مجموعه‌های آزمایشی مختلفی ایجاد کنیم تا به طور جداگانه عملکرد مدل را روی این پدیده‌های گفتاری تجزیه و تحلیل کنیم. ما متوجه می‌شویم که برخی از این پدیده‌ها با نمونه‌های چند عکس ساده‌تر مدل‌سازی می‌شوند، در حالی که برخی دیگر به داده‌های آموزشی بسیار بیشتری نیاز دارند.

ویژگی های مجموعه داده

  1. مکالمات توسط افراد بومی به شش زبان
    همه مکالمات موجود در مجموعه داده ما توسط افراد بومی شش زبان – انگلیسی، فرانسوی، آلمانی، هندی، ژاپنی و اسپانیایی ارائه شده است. این برخلاف سایر مجموعه‌های داده، مانند MTOP و MASSIVE است که گفته‌ها را فقط از انگلیسی به زبان‌های دیگر ترجمه می‌کنند، که لزوماً الگوهای گفتاری گویشوران بومی در زبان‌های غیرانگلیسی را منعکس نمی‌کند.
  2. زمینه ساختار یافته
    کاربران معمولاً هنگام تعامل با دستیارهای مجازی به اطلاعات ذخیره شده در دستگاه های خود مانند یادداشت ها، مخاطبین و فهرست ها تکیه می کنند. با این حال، این زمینه اغلب برای دستیار قابل دسترسی نیست، که می تواند منجر به خطاهای تجزیه در هنگام پردازش گفته های کاربر شود. برای پرداختن به این مشکل، PRESTO شامل سه نوع زمینه ساختاریافته، یادداشت‌ها، فهرست‌ها و مخاطبین و همچنین گفته‌های کاربر و تجزیه آنها می‌شود. لیست ها، یادداشت ها و مخاطبین توسط افراد بومی هر زبان در طول جمع آوری داده ها ایجاد می شوند. داشتن چنین زمینه ای به ما امکان می دهد بررسی کنیم که چگونه می توان از این اطلاعات برای بهبود عملکرد در تجزیه مدل های گفتگوی وظیفه گرا استفاده کرد.
    هر نمونه در PRESTO شامل موارد زیر است: ورودی ها – وضعیت مجازی کاربر (زمینه)، یک یا چند گفته کاربر، و پاسخ های دستیار مجازی مربوطه (گفتگو). خروجی – تجزیه معنایی آخرین گفته کاربر در گفتگو (تجزیه).
  3. بازبینی های کاربر
    معمولاً یک کاربر هنگام صحبت با یک دستیار مجازی، گفته های خود را اصلاح یا اصلاح می کند. این تجدید نظرها به دلایل مختلفی انجام می شود – دستیار ممکن است در درک گفته اشتباه کرده باشد یا ممکن است کاربر هنگام گفتن نظر خود را تغییر داده باشد. یکی از این نمونه ها در شکل بالا آمده است. نمونه‌های دیگر تجدیدنظر شامل لغو درخواست شخص است (”چیزی اضافه نکن”) یا اصلاح خود در همان گفتار (“اضافه کردن نان – نه، بدون صبر – اضافه کردن نان گندم به لیست خرید من.”). تقریباً 27 درصد از همه نمونه‌ها در PRESTO دارای نوعی ویرایش کاربر هستند که به صراحت در مجموعه داده برچسب‌گذاری شده است.
  4. اختلاط کد
    تا سال 2022، تقریباً 43 درصد از جمعیت جهان دو زبانه هستند. در نتیجه، بسیاری از کاربران هنگام صحبت با دستیارهای مجازی، زبان خود را تغییر می دهند. در ساخت PRESTO، ما از مشارکت کنندگان داده های دوزبانه خواستیم که عبارات ترکیبی کد را حاشیه نویسی کنند، که تقریباً 14٪ از تمام گفته های مجموعه داده را تشکیل می دهد.
    نمونه‌هایی از گفته‌های هندی-انگلیسی، اسپانیایی-انگلیسی و آلمانی-انگلیسی با تغییر کد از PRESTO.
  5. ناروانی ها
    به دلیل ماهیت گفتاری مکالماتی که دستیاران مجازی دریافت می‌کنند، ناروانی‌ها، مانند عبارات تکراری یا کلمات پرکننده، در گفته‌های کاربر همه‌جا وجود دارند. مجموعه‌های داده‌ای مانند DISFL-QA به فقدان چنین پدیده‌هایی در ادبیات NLP موجود اشاره می‌کنند و به هدف کاهش آن شکاف کمک می‌کنند. در کارمان، ما مکالماتی را که این پدیده خاص را در هر شش زبان مورد هدف قرار می‌دهند، درج می‌کنیم.
    نمونه هایی از گفته های انگلیسی، ژاپنی و فرانسوی با کلمات پرکننده یا تکرار.

یافته های کلیدی

ما آزمایش‌های هدفمند را برای تمرکز بر روی هر یک از پدیده‌های شرح داده شده در بالا انجام دادیم. ما مدل‌های مبتنی بر mT5 را اجرا کردیم که با استفاده از مجموعه داده PRESTO آموزش دیدند و آنها را با استفاده از تطابق دقیق بین تجزیه پیش‌بینی‌شده و تجزیه مشروح انسانی ارزیابی کردیم. در زیر بهبودهای عملکرد نسبی را نشان می‌دهیم که داده‌های آموزشی را بر روی هر یک از پدیده‌های هدف‌گذاری شده مقیاس‌بندی می‌کنیم – بازبینی‌های کاربر، ناروانی‌ها و اختلاط کد.

نتایج K-shot روی پدیده‌های مختلف زبانی و مجموعه آزمون کامل در افزایش اندازه داده‌های آموزشی.

را کنتایج شات موارد زیر را به همراه دارد:

  1. عملکرد صفر شات در پدیده مشخص شده ضعیف است، که بر نیاز به چنین جملاتی در مجموعه داده برای بهبود عملکرد تأکید دارد.
  2. ناروانی ها و ترکیب کد عملکرد صفر شات بسیار بهتری نسبت به ویرایش های کاربر دارند (بیش از 40 امتیاز اختلاف در دقت تطابق دقیق).

ما همچنین تفاوت بین آموزش مدل‌های یک‌زبانه و چند زبانه را در مجموعه قطار بررسی می‌کنیم و متوجه می‌شویم که با داده‌های کمتر، مدل‌های چندزبانه برتری نسبت به مدل‌های تک زبانه دارند، اما با افزایش اندازه داده‌ها، شکاف کاهش می‌یابد.

جزئیات بیشتر در مورد کیفیت داده ها، روش جمع آوری داده ها، و آزمایش های مدل سازی را می توان در مقاله ما یافت.

نتیجه

ما PRESTO را ایجاد کردیم، یک مجموعه داده چندزبانه برای تجزیه گفتگوهای وظیفه محور که شامل مکالمات واقع گرایانه است که نشان دهنده انواع نقاط دردناکی است که کاربران اغلب در مکالمات روزانه خود با دستیاران مجازی که در مجموعه داده های موجود در جامعه NLP با آن مواجه هستند، مواجه می شوند. PRESTO شامل تقریباً نیم میلیون گفتار است که توسط افراد بومی شش زبان – انگلیسی، فرانسوی، آلمانی، هندی، ژاپنی و اسپانیایی ارائه شده است. ما مجموعه‌های آزمایشی اختصاصی ایجاد کردیم تا بر روی هر پدیده هدف‌گذاری شده تمرکز کنیم – بازبینی‌های کاربر، ناروانی‌ها، اختلاط کد و بافت ساختاری. نتایج ما نشان می‌دهد که عملکرد شلیک صفر زمانی ضعیف است که پدیده هدف در مجموعه آموزشی گنجانده نشده است، که نشان‌دهنده نیاز به چنین جملاتی برای بهبود عملکرد است. ما متوجه شده‌ایم که بازبینی‌ها و ناروانی‌های کاربر با داده‌های بیشتر مدل‌سازی می‌شوند، در مقایسه با عبارات ترکیبی کد، که مدل‌سازی آنها، حتی با تعداد مثال‌های زیاد، دشوارتر است. با انتشار این مجموعه داده، ما بیشتر از آنچه که پاسخ می‌دهیم، سوالاتی را باز می‌کنیم و امیدواریم جامعه پژوهشی در مورد گفته‌هایی که بیشتر با آنچه کاربران هر روز با آن مواجه می‌شوند، پیشرفت کند.

سپاسگزاریها

همکاری در این اثر با ولید عمار، سیذارت واشیشتا، موتوکی سانو، فیض سورانی، مکس چانگ، هیون جونگ چو، دیوید گرین، کایل هی، راتیما نیتیساروج، آنا تروخینا، شاچی پل، پاراث شاه، روشین شاه و ژو یو. ما همچنین می خواهیم از تام اسمال برای انیمیشن های موجود در این پست وبلاگ تشکر کنیم. در نهایت، از همه زبان شناسان خبره و حاشیه نویسان داده ها برای تحقق این امر تشکر می کنم.

سئو PBN | خبر های جدید سئو و هک و سرور