ابزارهای اقدام در مقابل ابزارهای غیرعملی: ارزیابی صحت دستیار هوش مصنوعی

چکیده و مقدمه

طراحی مجموعه داده

روش ارزیابی

آزمایش ها و تجزیه و تحلیل

کار مرتبط

نتیجه گیری، تکرارپذیری و مراجع

الف. فهرست کامل ابزارها

ب. اعلان سناریو

ج. پرس و جوهای غیر واقعی

د. تفاوت های ظریف در مقایسه کار قبلی

3 روش ارزیابی

ارزیابی یک دستیار ابزار استفاده با ToolTalk شامل دو مرحله است. در مرحله اول، برای هر مکالمه، همه پیشوندهایی را می گیریم که به یک گفته کاربر ختم می شود (که می توانست قبل از آن گفته های کاربر قبلی، فراخوانی ابزار برای آن گفته ها، نتایج آن تماس ها، و پاسخ دستیار با در نظر گرفتن همه موارد باشد. از موارد فوق). ما دستیار را با این پیشوند اجرا می‌کنیم، جایی که می‌تواند یک تماس ابزار را پیش‌بینی کند یا با توجه به تماس‌هایی که قبلا انجام شده و نتایج آن‌ها پاسخ ایجاد کند. اگر دستیار فراخوانی ابزار را پیش‌بینی کند، آن را با استفاده از پیاده‌سازی ابزار شبیه‌سازی شده خود اجرا می‌کنیم و سپس نتیجه را در اختیار دستیار قرار می‌دهیم. در مرحله دوم، برای هر پیشوند مکالمه، فراخوانی ابزار پیش‌بینی‌شده برای آن پیشوند را با حقیقت زمینی متناظر آن مقایسه می‌کنیم و فراخوانی فراخوان ابزار و نرخ عمل نادرست را همانطور که در زیر توضیح داده شده محاسبه می‌کنیم.

3.1 صحت تماس ابزار

همانطور که در بخش 2.1 توضیح داده شد، برای هر ابزار اقدام، یک تابع برای مقایسه یک حقیقت پیش بینی شده و یک حقیقت پایه تعریف کردیم.

Source link