بارگذاری مجدد معیارها: اوراکل | HackerNoon

این دومین بخش از این سه گانه است که بر زیرساخت ارزیابی عملکرد برای عوامل هوش مصنوعی مکالمه تمرکز دارد.

جمع بندی سریع

اگر قسمت اول این سه گانه را نخوانده اید، ما بر روی برخی از سوالات سطح بالا تمرکز کرده ایم چی و چرا در مورد معیارهای مورد نیاز برای اطمینان از عملکرد کاربر نهایی برای یک عامل هوش مصنوعی.

در اینجا خلاصه ای وجود دارد:

  • معیارهای درک شده توسط کاربر و معیارهای گزارش شده توسط کاربر پایه و اساس یک دستیار مکالمه بسیار قابل اعتماد را تشکیل می دهد.

  • قابلیت اطمینان و تاخیر دو جنبه مختلف برای ارزیابی عملکرد کاربر نهایی برای عوامل مکالمه هستند.

  • هرگز به یک معیار کاملاً اعتماد نکنید – همیشه حرکت منفی و مثبت را در یک متریک زیر سوال ببرید.

  • شناسایی این معیارها از مرحله اولیه توسعه برای اندازه‌گیری عینی عملکرد یک عامل هوش مصنوعی بسیار مهم است.

در این مقاله بر روی آن تمرکز خواهیم کرد چگونه می توان این معیارها را به شیوه ای آسان برای استفاده، دقیق و عملی به دست آورد.

اوراکل

ما امیدواریم که یک “اوراکل” وجود داشته باشد که بتواند معیارهای بسیار دقیق عملکرد کاربر نهایی را ارائه دهد. حدس بزن چی شده؟ وجود دارد! ما به عنوان انسان در انجام این کار بسیار خوب هستیم. با این حال این به عنوان هزینه بهره وری. مقدار نقاط داده کمتر اما بسیار مطمئن هستند. ما چند راه برای کاهش این شکاف را مورد بحث قرار خواهیم داد.

  • آزمایش انسانی: این می تواند تیم QA یا توسعه دهندگان یا PM ها باشد…