استفاده از LLM برای تصحیح اشتباهات استدلال: آثار مرتبطی که باید درباره آنها بدانید

نویسندگان:

(1) گلدیس تاین، دانشگاه کمبریج، بخش علوم و فناوری رایانه، مؤسسه ALTA، و کارهای انجام شده در طول دوره کارآموزی در Google Research (ایمیل: [email protected])

(2) حسن منصور، تحقیقات گوگل (ایمیل: [email protected])

(3) ویکتور کاربون، تحقیقات گوگل (ایمیل: [email protected])

(4) پیتر چن، Google Research و مشارکت رهبری برابر ([email protected])

(5) تونی مک، Google Research و مشارکت رهبری برابر (ایمیل: [email protected]).

چکیده و مقدمه

اشتباه بزرگ

نتایج محک

عقب نشینی

کارهای مرتبط

نتیجه گیری، محدودیت ها و مراجع

الف. جزئیات اجرایی

ب. حاشیه نویسی

C. امتیازات بنچمارک

مجموعه داده‌ها طبق دانش ما، تنها مجموعه داده در دسترس عموم که حاوی حاشیه‌نویسی اشتباه در خروجی‌های LLM است، PRM800K است (Lightman et al., 2023)، که مجموعه‌ای از راه‌حل‌های سؤالات ریاضی در سطح المپیاد است. مجموعه داده BIG-Bench Mistake طیف وسیع تری از وظایف را پوشش می دهد تا قابلیت های استدلالی LLM ها را با دقت بیشتری بررسی کند.

علاوه بر این، ژنراتور LLM مورد استفاده در PRM800K روی توکن های ریاضی 1.5B و همچنین مجموعه داده ای از راه حل های ریاضی گام به گام تنظیم شده است. برای این مقاله، ما می‌خواهیم روش‌های یادگیری درون متنی چند شات را بررسی کنیم که معمولاً در…

Source link