راهنمای حاشیه نویسی ما برای اشتباه BIG-Bench

نویسندگان:

(1) گلدیس تاین، دانشگاه کمبریج، بخش علوم و فناوری رایانه، مؤسسه ALTA، و کارهای انجام شده در طول دوره کارآموزی در Google Research (ایمیل: [email protected])

(2) حسن منصور، تحقیقات گوگل (ایمیل: [email protected])

(3) ویکتور کاربون، تحقیقات گوگل (ایمیل: [email protected])

(4) پیتر چن، Google Research و مشارکت رهبری برابر ([email protected])

(5) تونی مک، Google Research و مشارکت رهبری برابر (ایمیل: [email protected]).

چکیده و مقدمه

اشتباه بزرگ

نتایج محک

عقب نشینی

کارهای مرتبط

نتیجه گیری، محدودیت ها و مراجع

الف. جزئیات اجرایی

ب. حاشیه نویسی

C. امتیازات بنچمارک

B حاشیه نویسی

ما دستورالعمل های حاشیه نویسی خود را در https://github.com/WHGTyen/BIG-Bench-Mistake منتشر می کنیم.

در حین حاشیه نویسی تکلیف حسابی چند مرحله ای، متوجه شدیم که اولین مرحله CoT ارائه شده در نمونه های فوری BIG-Bench Hard (سوزگون و همکاران، 2022) نادرست بود. از آنجایی که همه ردیابی‌های تولید شده شامل اولین مرحله یکسانی بودند، قبل از نمایش ردیابی‌ها به حاشیه‌نویس‌ها، آن مرحله را حذف کردیم. شکل 3 شامل یک اسکرین شات نمونه از رابط کاربری است. برای هر ردیابی، سؤال ورودی و همچنین پاسخ هدف را با یک یادداشت برای آگاهی از خطاهایی که ممکن است …

Source link