نویسندگان:
(1) ژان لینگ، UC سن دیگو و سهم برابر.
(2) Yunhao Fang، UC San Diego و سهم برابر.
(3) Xuanlin Li، UC San Diego;
(4) Zhiao Huang، UC San Diego;
(5) Mingu Lee، Qualcomm AI Research و Qualcomm AI Research
(6) Roland Memisevic، Qualcomm AI Research.
(7) هائو سو، UC سن دیگو.
جدول پیوندها
چکیده و مقدمه
کار مرتبط
انگیزه و فرمول مسئله
استدلال زنجیرهای فکری قابل تأیید قیاسی
آزمایش ها
محدودیت ها
نتیجه گیری، قدردانی و مراجع
یک تأیید قیاسی با مدلهای Vicuna
B بحث بیشتر در مورد بهبود دقت تأیید قیاسی در مقابل بهبود در مورد درستی پاسخ نهایی
C جزئیات بیشتر در مورد استخراج پاسخ
D درخواست می کند
E بیشتر نمونه های تایید قیاسی
3 انگیزه و فرمول مشکل
مشاهده میکنیم که برای همه مواردی که LLMها پاسخهای نهایی اشتباهی تولید میکنند، حداقل یک اشتباه در میان مراحل استدلال میانی S وجود دارد. علاوه بر این، حتی زمانی که پاسخ نهایی صحیح باشد، ممکن است همچنان برخی از اشتباهات در بین S وجود داشته باشد. این پدیده، همانطور که نشان داده شده است. در برگه 1، برای همه LLM هایی که ما آزمایش کردیم، از جمله مدل های پیشرفته مانند ChatGPT و GPT-4 رخ می دهد. [32]. از آنجایی که مراحل استدلال بعدی مشروط به مراحل استدلال قبلی است، این اشتباهات اغلب باعث شروع یک گلوله برفی می شود…