ToolTalk: LLM های تقویت شده با ابزار معیار در هوش مصنوعی مکالمه

چکیده و مقدمه

طراحی مجموعه داده

روش ارزیابی

آزمایش ها و تجزیه و تحلیل

کار مرتبط

نتیجه گیری، تکرارپذیری و مراجع

الف. فهرست کامل ابزارها

ب. اعلان سناریو

ج. پرس و جوهای غیر واقعی

د. تفاوت های ظریف در مقایسه کار قبلی

6. نتیجه گیری

ما ToolTalk را ارائه می کنیم، معیار جدیدی برای ارزیابی LLM های افزوده شده با ابزار در یک محیط مکالمه. معیار ما بر ارکستراسیون پیچیده ابزارهای متعدد در یک محیط مکالمه تاکید دارد. ما پیاده‌سازی‌های شبیه‌سازی شده‌ای از همه ابزارها را ارائه می‌دهیم که امکان ارزیابی کاملاً خودکار را فراهم می‌کند که در آن LLM می‌تواند تصمیم بگیرد که کدام ابزارها را بر اساس نتایج فراخوانی‌های ابزار قبلی بیشتر فراخوانی کند. در نهایت، ما همچنین یک شکل منحصربفرد از ارزیابی صحت را معرفی می‌کنیم که جنبه‌های منحصربه‌فرد ابزارهای فردی را در نظر می‌گیرد و اینکه آیا یک سیستم استفاده از ابزار اقدامات نادرستی ایجاد می‌کند یا خیر. ما GPT-3.5 و GPT-4 را با استفاده از مجموعه داده‌ها و روش‌شناسی خود ارزیابی می‌کنیم و خطاهای آن‌ها را تجزیه و تحلیل می‌کنیم، و سه دسته اصلی را پیدا می‌کنیم: فراخوانی زودهنگام ابزار، استدلال نادرست، و فراخوانی نادرست ابزار صحیح. در آینده، ما امیدواریم که دامنه این مجموعه داده را به مکالمات بیشتری گسترش دهیم و افزونه های متنوع و بیشتری را شبیه سازی کنیم. ما همچنین امیدواریم که شاهد بررسی تحقیقات آینده در مورد چگونگی طراحی بهتر رابط های API موجود برای LLM باشیم.

7 تکرارپذیری

ما…

Source link