نویسندگان:
(1) چائو یو، دانشگاه Tsinghua;
(2) هنگ لو، دانشگاه Tsinghua;
(3) Jiaxuan Gao، دانشگاه Tsinghua;
(4) Qixin Tan، دانشگاه Tsinghua;
(5) Xinting Yang، دانشگاه Tsinghua;
(6) یو وانگ، با مشاوره یکسان از دانشگاه Tsinghua.
(7) یی وو، با مشاوره یکسان از دانشگاه Tsinghua و موسسه شانگهای Qi Zhi.
(8) یوجین وینیتسکی، با مشاوره مشابه از دانشگاه نیویورک ([email protected]).
جدول پیوندها
- چکیده و مقدمه
- کار مرتبط
- تعریف مشکل
- روش
- آزمایشات
- نتیجه گیری و مراجع
الف. ضمیمه
الف.1. درخواست های کامل و A.2 جزئیات ICPL
الف. 3 جزئیات پایه
الف.4 جزئیات محیطی
الف.5 اولویت انسانی پروکسی
A.6 ترجیح انسان در حلقه
چکیده
طراحی توابع پاداش یکی از اجزای اصلی یادگیری تقویتی است، اما می تواند برای رفتار واقعاً پیچیده چالش برانگیز باشد. یادگیری تقویتی از بازخورد انسانی (RLHF) برای کاهش این چالش با جایگزین کردن یک تابع پاداش کدگذاری شده با یک تابع پاداش که از ترجیحات آموخته شده است، استفاده شده است. با این حال، یادگیری این پاداشها میتواند بسیار ناکارآمد باشد، زیرا اغلب به عنوان Tabula rasa یاد میشوند. ما بررسی می کنیم که آیا مدل های زبان بزرگ (LLM) می توانند این ناکارآمدی پرس و جو را با تبدیل یک سری تکراری از اولویت های انسانی به کدی که نشان دهنده …