اشتباه BIG-Bench: چیست؟

نویسندگان:

(1) گلدیس تاین، دانشگاه کمبریج، بخش علوم و فناوری رایانه، مؤسسه ALTA، و کارهای انجام شده در طول دوره کارآموزی در Google Research (ایمیل: [email protected])

(2) حسن منصور، تحقیقات گوگل (ایمیل: [email protected])

(3) ویکتور کاربون، تحقیقات گوگل (ایمیل: [email protected])

(4) پیتر چن، Google Research و مشارکت رهبری برابر ([email protected])

(5) تونی مک، Google Research و مشارکت رهبری برابر (ایمیل: [email protected]).

چکیده و مقدمه

اشتباه بزرگ

نتایج محک

عقب نشینی

کارهای مرتبط

نتیجه گیری، محدودیت ها و مراجع

الف. جزئیات اجرایی

ب. حاشیه نویسی

C. امتیازات بنچمارک

2 اشتباه بزرگ

BIG-Bench Mistake از 2186 مجموعه ردیابی CoTstyle تشکیل شده است. هر ردیابی توسط PaLM 2-L-Unicorn ایجاد شد و با محل اولین خطای منطقی مشروح شد. یک نمونه ردیابی در جدول 1 نشان داده شده است، جایی که محل اشتباه 3 مرحله چهارم است. ردیابی‌های ما در مجموعه‌ای از 5 کار4 از مجموعه داده‌های BIG-bench (Srivastava et al., 2023): مرتب‌سازی کلمات، ردیابی اشیاء به هم ریخته، استنتاج منطقی، حساب چند مرحله‌ای و زبان‌های Dyck را در بر می‌گیرد. درخواست CoT برای ترغیب PalM 2 برای پاسخ دادن به سؤالات هر کار استفاده می شود.

همانطور که می خواستیم آثار CoT خود را جدا کنیم …

Source link