اشتباه BIG-Bench: جزئیات اجرایی که مهم هستند

نویسندگان:

(1) گلدیس تاین، دانشگاه کمبریج، بخش علوم و فناوری رایانه، مؤسسه ALTA، و کارهای انجام شده در طول دوره کارآموزی در Google Research (ایمیل: [email protected])

(2) حسن منصور، تحقیقات گوگل (ایمیل: [email protected])

(3) ویکتور کاربون، تحقیقات گوگل (ایمیل: [email protected])

(4) پیتر چن، Google Research و مشارکت رهبری برابر ([email protected])

(5) تونی مک، Google Research و مشارکت رهبری برابر (ایمیل: [email protected]).

چکیده و مقدمه

اشتباه بزرگ

نتایج محک

عقب نشینی

کارهای مرتبط

نتیجه گیری، محدودیت ها و مراجع

الف. جزئیات اجرایی

ب. حاشیه نویسی

C. امتیازات بنچمارک

A جزئیات اجرایی

A.1 CoT 3-shot که باعث ایجاد ردیابی برای اشتباه BIG-Bench می شود

ما از PalM 2 L (Unicorn) برای ایجاد ردیابی های مورد استفاده در اشتباه BIG-Bench استفاده می کنیم. همه آثار در دمای = 0 ایجاد می شوند.

درخواست‌ها و مثال‌های ما را می‌توانید در https://github.com/WHGTyen/ BIG-Bench-Mistake پیدا کنید. درخواست‌های ما بر اساس دستورهای زنجیره‌ای فکری در مجموعه داده‌های سخت BIG-Bench (Suzgun و همکاران، 2022)، با چهار تغییر اصلی است:

1. نمونه ردیابی CoT در اعلان به مراحل کوچکتر تقسیم می شود (معمولاً یک جمله در هر مرحله). این کار به گونه ای انجام می شود که اطلاعات مکان اشتباه …

Source link