LLM ها نمی توانند خطاهای استدلالی را پیدا کنند، اما می توانند آنها را اصلاح کنند!

نویسندگان:

(1) گلدیس تاین، دانشگاه کمبریج، بخش علوم و فناوری رایانه، مؤسسه ALTA، و کارهای انجام شده در طول دوره کارآموزی در Google Research (ایمیل: [email protected])

(2) حسن منصور، پژوهش گوگل (ایمیل: [email protected])

(3) ویکتور کاربون، تحقیقات گوگل (ایمیل: [email protected])

(4) پیتر چن، Google Research و مشارکت رهبری برابر ([email protected])

(5) تونی مک، تحقیقات گوگل و مشارکت رهبری برابر (ایمیل: [email protected]).

چکیده و مقدمه

اشتباه بزرگ

نتایج محک

عقب نشینی

کارهای مرتبط

نتیجه گیری، محدودیت ها و مراجع

الف. جزئیات اجرایی

ب. حاشیه نویسی

C. امتیازات بنچمارک

خلاصه

در حالی که خود تصحیح در بهبود خروجی های LLM از نظر سبک و کیفیت نویدبخش بوده است (مانند چن و همکاران، 2023؛ مدائن و همکاران، 2023)، تلاش های اخیر برای تصحیح خود اشتباهات منطقی یا استدلالی اغلب باعث می شود که پاسخ های صحیح تبدیل شوند. نادرست است، که منجر به عملکرد بدتر در کل می شود (هوانگ و همکاران، 2023). در این مقاله، فرآیند خود تصحیح را به دو جزء اصلی تقسیم می کنیم: اشتباه یابی و تصحیح خروجی. برای یافتن اشتباه، اشتباه BIG-Bench را منتشر می‌کنیم، مجموعه داده‌ای از اشتباهات منطقی در ردیابی استدلال زنجیره‌ای از فکر.

ما معیار ارائه می دهیم …

Source link