نتایج بنچمارک GPT-4-Turbo، GPT4 و GPT-3.5-Turbo چیست؟

نویسندگان:

(1) گلدیس تاین، دانشگاه کمبریج، بخش علوم و فناوری رایانه، مؤسسه ALTA، و کارهای انجام شده در طول دوره کارآموزی در Google Research (ایمیل: [email protected])

(2) حسن منصور، تحقیقات گوگل (ایمیل: [email protected])

(3) ویکتور کاربون، تحقیقات گوگل (ایمیل: [email protected])

(4) پیتر چن، Google Research و مشارکت رهبری برابر ([email protected])

(5) تونی مک، Google Research و مشارکت رهبری برابر (ایمیل: [email protected]).

چکیده و مقدمه

اشتباه بزرگ

نتایج محک

عقب نشینی

کارهای مرتبط

نتیجه گیری، محدودیت ها و مراجع

الف. جزئیات اجرایی

ب. حاشیه نویسی

C. امتیازات بنچمارک

3 نتایج محک

جدول 4 دقت GPT-4-Turbo، GPT4 و GPT-3.5-Turbo را در مجموعه داده های اشتباه یابی ما نشان می دهد. برای هر سوال، پاسخ های ممکن این است که یا اشتباهی وجود ندارد، یا در صورت وجود اشتباه، عدد N نشان دهنده مرحله ای است که اولین اشتباه در آن رخ می دهد. خروجی یک مدل تنها در صورتی صحیح در نظر گرفته می شود که مکان دقیقا مطابقت داشته باشد، یا خروجی به درستی نشان دهد که هیچ اشتباهی وجود ندارد.

به همه مدل‌ها همان اعلان‌های 3 شات داده می‌شود. ما از سه روش مختلف تحریک استفاده می کنیم:

• درخواست مستقیم سطح ردیابی شامل استفاده از کل …

Source link