تجزیه و تحلیل عملکرد دستیار هوش مصنوعی: درس هایی از تجزیه و تحلیل ToolTalk از GPT-3.5 و GPT-4

چکیده و مقدمه

طراحی مجموعه داده

روش ارزیابی

آزمایش ها و تجزیه و تحلیل

کار مرتبط

نتیجه گیری، تکرارپذیری و مراجع

الف. فهرست کامل ابزارها

ب. اعلان سناریو

ج. پرس و جوهای غیر واقعی

د. تفاوت های ظریف در مقایسه کار قبلی

4 آزمایش و تجزیه و تحلیل

4.1 آزمایش ها

ما GPT-3.5 (gpt-3.5-turbo-0613) و GPT-4 (gpt-4-0613) را در ToolTalk با استفاده از عملکرد توابع به عنوان بخشی از API تکمیل چت OpenAI (OpenAI) ارزیابی می کنیم. این API یک پیام سیستم اختیاری، تاریخچه پیام‌ها بین کاربر و دستیار، مستندات ابزار، و هرگونه فراخوانی ابزار قبلی و پاسخ‌های آن‌ها را به عنوان ورودی می‌گیرد و به عنوان خروجی یک فراخوان ابزار یا یک پیام دستیار تولید می‌کند.

در پیام سیستم، مکان مکالمه، مهر زمانی و (در صورت وجود) نام کاربری را درج می کنیم. ما مستندات همه 28 ابزار را به طور همزمان ارائه می کنیم تا یک کاربر را با تمام 7 افزونه فعال شبیه سازی کنیم. سپس تمامی مکالمات را در زیرمجموعه های آسان و سخت ToolTalk با پیروی از الگوریتم های 1 و 2 شبیه سازی و ارزیابی می کنیم.

جدول 1 نتایج را نشان می دهد. نرخ موفقیت 85.7% و 92.8% برای GPT-3.5 و GPT-4 در نسخه آسان ToolTalk و نرخ موفقیت 26.0% و 50.0% در نسخه سخت دریافت می کنیم. GPT-4 از GPT-3.5 بهتر عمل می کند، اما همچنان به نرخ های عمل نادرست مشابهی دست می یابد. از جانب…

Source link