عقبگرد: چرا ما بازخورد خارجی را با یک طبقه بندی سبک جایگزین کردیم

نویسندگان:

(1) گلدیس تاین، دانشگاه کمبریج، بخش علوم و فناوری رایانه، مؤسسه ALTA، و کارهای انجام شده در طول دوره کارآموزی در Google Research (ایمیل: [email protected])

(2) حسن منصور، تحقیقات گوگل (ایمیل: [email protected])

(3) ویکتور کاربون، تحقیقات گوگل (ایمیل: [email protected])

(4) پیتر چن، Google Research و مشارکت رهبری برابر ([email protected])

(5) تونی مک، Google Research و مشارکت رهبری برابر (ایمیل: [email protected]).

چکیده و مقدمه

اشتباه بزرگ

نتایج محک

عقب نشینی

کارهای مرتبط

نتیجه گیری، محدودیت ها و مراجع

الف. جزئیات اجرایی

ب. حاشیه نویسی

C. امتیازات بنچمارک

4 عقبگرد

مدائن و همکاران (2023) و هوانگ و همکاران. (2023) هر دو نشان می دهند که اصلاح خود تنها با بازخورد خارجی مؤثر است – برای مثال، هر دو، Shinn و همکاران. (2023) و کیم و همکاران. (2023) برای بهبودها به برچسب های اوراکل تکیه می کنند – اما اغلب بازخورد خارجی در بسیاری از برنامه های کاربردی دنیای واقعی وجود ندارد.

به عنوان یک جایگزین، ما امکان جایگزینی بازخورد خارجی را با یک طبقه‌بندی کننده سبک وزن که بر روی مقدار کمی داده آموزش دیده است را بررسی می‌کنیم. مشابه مدل های پاداش در یادگیری تقویتی مرسوم، این طبقه بندی کننده هر گونه خطای منطقی را شناسایی می کند.

Source link