چارچوبی جدید برای ترویج آموزش – وبلاگ هوش مصنوعی گوگل

مربیان و مربیان چه یک حرفه ای باشد که مهارت های خود را تقویت کند یا یک کودک خواندن را یاد بگیرد، مربیان و مربیان نقش کلیدی در ارزیابی پاسخ یادگیرنده به یک سوال در یک زمینه خاص و هدایت آنها به سمت یک هدف دارند. این تعاملات دارای ویژگی‌های منحصربه‌فردی هستند که آن‌ها را از دیگر اشکال گفتگو متمایز می‌کند، اما زمانی که فراگیران به تنهایی در خانه تمرین می‌کنند، در دسترس نیستند. در زمینه پردازش زبان طبیعی، این نوع قابلیت چندان مورد توجه قرار نگرفته و از نظر فناوری چالش برانگیز است. ما بر آن شدیم تا بررسی کنیم که چگونه می توانیم از یادگیری ماشینی برای ارزیابی پاسخ ها به گونه ای استفاده کنیم که یادگیری را تسهیل کند.

در این وبلاگ، یک قابلیت مهم درک زبان طبیعی (NLU) به نام ارزیابی زبان طبیعی (NLA) را معرفی می کنیم و در مورد اینکه چگونه می تواند در زمینه آموزش مفید باشد، بحث می کنیم. در حالی که وظایف معمول NLU بر هدف کاربر متمرکز است، NLA امکان ارزیابی یک پاسخ از منظرهای متعدد را فراهم می کند. در موقعیت‌هایی که کاربر می‌خواهد بداند پاسخ او چقدر خوب است، NLA می‌تواند تحلیلی از نزدیک بودن پاسخ به آنچه مورد انتظار است ارائه دهد. در شرایطی که ممکن است پاسخ «درست» وجود نداشته باشد، NLA می‌تواند بینش‌های ظریفی را ارائه دهد که شامل موضوعیت، ارتباط، پرحرفی و فراتر از آن است. ما دامنه NLA را فرموله می‌کنیم، یک مدل عملی برای انجام NLA موضوعی ارائه می‌کنیم، و نشان می‌دهیم که چگونه از NLA برای کمک به جویندگان کار برای تمرین پاسخ دادن به سؤالات مصاحبه با ابزار آماده‌سازی مصاحبه جدید Google، مصاحبه Warmup، استفاده شده است.

بررسی اجمالی ارزیابی زبان طبیعی (NLA)

هدف NLA ارزیابی پاسخ کاربر در برابر مجموعه ای از انتظارات است. اجزای زیر را برای یک سیستم NLA در تعامل با دانش آموزان در نظر بگیرید:

  • یک سوال به دانش آموز ارائه شده است
  • انتظارات که آنچه را که انتظار داریم در پاسخ پیدا کنیم را مشخص می کند (مثلاً یک پاسخ متنی مشخص، مجموعه ای از موضوعاتی که انتظار داریم پاسخ پوشش دهد، مختصر بودن)
  • پاسخ توسط دانش آموز ارائه شده است
  • یک خروجی ارزیابی (به عنوان مثال، درستی، اطلاعات از دست رفته، بیش از حد خاص یا کلی، بازخورد سبک، تلفظ، و غیره)
  • [Optional] یک زمینه (به عنوان مثال، یک فصل از یک کتاب یا مقاله)

با NLA، هم انتظارات در مورد پاسخ و هم ارزیابی پاسخ می تواند بسیار گسترده باشد. این تعامل معلم و دانش آموز را قادر می سازد که گویاتر و ظریف تر باشد. در اینجا دو نمونه وجود دارد:

  1. سوالی با پاسخ صحیح مشخص: حتی در شرایطی که پاسخ صحیح واضحی وجود دارد، ارزیابی دقیق پاسخ بیشتر از صرفاً صحیح یا نادرست می تواند مفید باشد. موارد زیر را در نظر بگیرید:

    متن نوشته: هری پاتر و سنگ جادو
    سوال: “هاگوارتز چیست؟”
    انتظار: “هاگوارتز مدرسه جادوگری و جادوگری است” [expectation is given as text]
    پاسخ: “من دقیقا مطمئن نیستم، اما فکر می کنم این یک مدرسه است.”

    پاسخ ممکن است جزئیات برجسته را از دست داده باشد، اما برچسب زدن آن به عنوان نادرست برای کاربر کاملا درست یا مفید نخواهد بود. NLA می تواند درک ظریف تری را برای مثال با تشخیص اینکه پاسخ دانش آموز خیلی کلی است و همچنین نامطمئن بودن دانش آموز ارائه دهد.

    تصویری از فرآیند NLA از سؤال ورودی، پاسخ و انتظار تا ارزیابی خروجی

    این نوع ارزیابی ظریف، همراه با توجه به عدم قطعیتی که دانش‌آموز بیان می‌کند، می‌تواند در کمک به دانش‌آموزان در ایجاد مهارت در محیط‌های مکالمه مهم باشد.

  2. انتظارات موضوعی: موقعیت های زیادی وجود دارد که در آن ها انتظار پاسخ مشخصی وجود ندارد. به عنوان مثال، اگر از دانش آموزی سؤال نظری پرسیده شود، انتظار متنی مشخصی وجود ندارد. در عوض، انتظار مربوط بودن و نظر، و شاید سطحی از موجز بودن و روان بودن وجود دارد. تنظیمات تمرین مصاحبه زیر را در نظر بگیرید:

    سوال: “کمی در موردخودت به من بگو؟”
    انتظارات: { «آموزش»، «تجربه»، «علاقه‌ها» } (مجموعه‌ای از موضوعات)
    پاسخ: “اجازه بدید ببینم. من در دره سالیناس در کالیفرنیا بزرگ شدم و به استنفورد رفتم، جایی که در رشته اقتصاد تحصیل کردم، اما پس از آن در مورد فناوری هیجان‌زده شدم، بنابراین بعد…”

    در این مورد، یک خروجی ارزیابی مفید، پاسخ کاربر را به زیرمجموعه‌ای از موضوعات تحت پوشش، احتمالاً همراه با نشانه‌گذاری قسمت‌های متن مربوط به موضوع، ترسیم می‌کند. این می تواند از منظر NLP چالش برانگیز باشد زیرا پاسخ ها می توانند طولانی باشند، موضوعات می توانند مخلوط شوند و هر موضوع به تنهایی می تواند چند وجهی باشد.

یک مدل موضوعیت NLA

در اصل، موضوعیت NLA یک کار استاندارد چند کلاسه است که برای آن می توان به راحتی یک طبقه بندی کننده را با استفاده از تکنیک های استاندارد آموزش داد. با این حال، داده‌های آموزشی برای چنین سناریوهایی کمیاب است و جمع‌آوری آن برای هر سؤال و موضوع پرهزینه و زمان‌بر است. راه حل ما این است که هر موضوع را به اجزای دانه بندی تقسیم کنیم که با استفاده از مدل های زبان بزرگ (LLM) با تنظیم عمومی ساده قابل شناسایی باشند.

ما هر موضوع را به لیستی از سؤالات اساسی ترسیم می کنیم و تعریف می کنیم که اگر جمله حاوی پاسخی به یکی از آن سؤالات اساسی باشد، آن موضوع را پوشش می دهد. برای موضوع “تجربه” ممکن است سوالات زیربنایی مانند:

  • شما کجا کار میکنید؟
  • چی خوندی؟

در حالی که برای موضوع “علاقه ها” ممکن است سوالات زیربنایی مانند:

  • به چه چیزی علاقمندید؟
  • از انجام چه کاری لذت میبری؟

این سوالات اساسی از طریق یک فرآیند دستی تکراری طراحی شده اند. نکته مهم، از آنجایی که این سوالات به اندازه کافی ریز هستند، مدل‌های زبان فعلی (به جزئیات زیر مراجعه کنید) می‌توانند معنایی آن‌ها را نشان دهند. این به ما اجازه می‌دهد تا یک تنظیم صفر شات برای تکلیف موضوعیت NLA ارائه دهیم: پس از آموزش (در مورد مدل زیر)، به راحتی می‌توان سوالات و موضوعات جدید اضافه کرد، یا موضوعات موجود را با اصلاح انتظارات محتوای اساسی آنها بدون نیاز به تطبیق داد. برای جمع آوری داده های موضوعی خاص پیش‌بینی‌های مدل را برای جمله زیر ببینیدمن 3 سال در خرده فروشی کار کرده ام” برای دو موضوعی که در بالا توضیح داده شد:

نموداری از نحوه استفاده مدل از سؤالات اساسی برای پیش بینی موضوعی که احتمالاً توسط پاسخ کاربر پوشش داده می شود.

از آنجایی که یک سوال اساسی برای موضوع “تجربه” مطابقت داشت، این جمله به عنوان “تجربه” طبقه بندی می شود.

کاربرد: کمک به جویندگان کار برای آماده شدن برای مصاحبه

Interview Warmup ابزار جدیدی است که با همکاری جویندگان کار توسعه یافته است تا به آنها کمک کند برای مصاحبه در زمینه‌های استخدامی در حال رشد سریع مانند پشتیبانی IT و طراحی UX آماده شوند. این به جویندگان کار اجازه می دهد تا پاسخ دادن به سؤالات انتخاب شده توسط متخصصان صنعت را تمرین کنند و در مصاحبه با اعتماد به نفس و راحتی بیشتری روبرو شوند. همانطور که ما با جویندگان کار برای درک چالش های آنها در آماده سازی برای مصاحبه و اینکه چگونه یک ابزار تمرین مصاحبه می تواند مفیدترین باشد، کار می کردیم، این الهام بخش تحقیقات ما و کاربرد موضوعیت NLA شد.

ما مدل موضوعی NLA (یک بار برای همه سوالات و موضوعات) را به صورت زیر می سازیم: یک مدل T5 فقط رمزگذار (معماری EncT5) با 350 میلیون پارامتر بر روی داده های Question-Answers آموزش می دهیم تا سازگاری یک را پیش بینی کنیم. <underlying question, answer> جفت ما به داده های SQuAD 2.0 تکیه می کنیم که برای تولید پردازش شده است <question, answer, label> سه قلوها

در ابزار Interview Warmup، کاربران می توانند بین نقاط گفتگو جابجا شوند تا ببینند کدام یک در پاسخ آنها شناسایی شده است.

ابزار به پاسخ ها نمره نمی دهد یا قضاوت نمی کند. درعوض، کاربران را قادر می‌سازد تا به تنهایی راه‌های بهبود را تمرین و شناسایی کنند. پس از اینکه کاربر به یک سوال مصاحبه پاسخ داد، پاسخ او به صورت جمله به جمله با مدل Topicality NLA تجزیه می شود. سپس آنها می توانند بین نقاط صحبت مختلف جابجا شوند تا ببینند کدام یک در پاسخ آنها شناسایی شده است. ما می دانیم که مشکلات بالقوه زیادی در سیگنال دادن به کاربر وجود دارد که پاسخ آنها “خوب” است، به خصوص که ما فقط مجموعه محدودی از موضوعات را شناسایی می کنیم. در عوض، ما کنترل را در دست کاربر نگه می‌داریم و فقط از ML برای کمک به ساختن کاربران استفاده می‌کنیم اکتشافات خودشان در مورد چگونگی بهبود

تا کنون، این ابزار نتایج بسیار خوبی برای کمک به جویندگان کار در سراسر جهان، از جمله در ایالات متحده داشته است، و ما اخیرا آن را به آفریقا نیز گسترش داده ایم. ما قصد داریم به کار با جویندگان کار ادامه دهیم تا این ابزار را تکرار کرده و برای میلیون ها نفری که در جستجوی شغل جدید هستند مفیدتر کنیم.

یک فیلم کوتاه که نشان می‌دهد چگونه Interview Warmup و قابلیت‌های NLA آن با همکاری جویندگان کار توسعه یافته است.

نتیجه

ارزیابی زبان طبیعی (NLA) یک حوزه تحقیقاتی چالش برانگیز و جالب است. این راه را برای برنامه‌های مکالمه‌ای جدید هموار می‌کند که با امکان ارزیابی دقیق و تجزیه و تحلیل پاسخ‌ها از منظرهای متعدد، یادگیری را ارتقا می‌دهند. با همکاری با جوامع، از جویندگان کار و مشاغل گرفته تا معلمان کلاس درس و دانش‌آموزان، می‌توانیم موقعیت‌هایی را شناسایی کنیم که در آن NLA پتانسیل کمک به افراد برای یادگیری، مشارکت و توسعه مهارت‌ها در مجموعه‌ای از موضوعات را دارد و می‌توانیم برنامه‌های کاربردی را به روشی مسئولانه بسازیم. که کاربران را قادر می سازد تا توانایی های خود را ارزیابی کرده و راه هایی برای بهبود پیدا کنند.

سپاسگزاریها

این کار از طریق همکاری چند تیم در سراسر Google امکان پذیر شده است. مایلیم از کمک‌های تیم‌های Google Research Israel، Google Creative Lab، و Grow with Google در میان سایر تیم‌ها قدردانی کنیم.