LLM ها می توانند خطاهای استدلال را تصحیح کنند! اما نه بدون محدودیت

نویسندگان:

(1) گلدیس تاین، دانشگاه کمبریج، بخش علوم و فناوری رایانه، مؤسسه ALTA، و کارهای انجام شده در طول دوره کارآموزی در Google Research (ایمیل: [email protected])

(2) حسن منصور، تحقیقات گوگل (ایمیل: [email protected])

(3) ویکتور کاربون، تحقیقات گوگل (ایمیل: [email protected])

(4) پیتر چن، Google Research و مشارکت رهبری برابر ([email protected])

(5) تونی مک، Google Research و مشارکت رهبری برابر (ایمیل: [email protected]).

چکیده و مقدمه

اشتباه بزرگ

نتایج محک

عقب نشینی

کارهای مرتبط

نتیجه گیری، محدودیت ها و مراجع

الف. جزئیات اجرایی

ب. حاشیه نویسی

C. امتیازات بنچمارک

6. نتیجه گیری

در این مقاله، ما اشتباه BIG-Bench مجموعه داده خود را برای یافتن اشتباه توصیف و منتشر می‌کنیم، و یک روش عقبگرد برای تصحیح خطاهای منطقی در ردیابی‌های سبک CoT پیشنهاد می‌کنیم. ما نشان می‌دهیم که LLMها عموماً با یافتن خطاهای منطقی بدون بازخورد خارجی دست و پنجه نرم می‌کنند، اما استدلال می‌کنیم که این بازخورد می‌تواند در عوض از یک مدل پاداش حاصل شود. در نهایت، ما اثربخشی عقب‌نشینی را هم با برچسب‌های استاندارد طلایی و هم با مدل‌های پاداش شبیه‌سازی شده در سطوح پایین‌تر دقت نشان می‌دهیم.

محدودیت ها

یکی از محدودیت های اصلی مجموعه داده ما این است که دارای وظایفی است که …

Source link