محققان موفق به کشف پیشرفتی در آموزش هوش مصنوعی انسان در حلقه با ICPL شدند.

نویسندگان:

(1) چائو یو، دانشگاه Tsinghua;

(2) هنگ لو، دانشگاه Tsinghua;

(3) Jiaxuan Gao، دانشگاه Tsinghua;

(4) Qixin Tan، دانشگاه Tsinghua;

(5) Xinting Yang، دانشگاه Tsinghua;

(6) یو وانگ، با مشاوره یکسان از دانشگاه Tsinghua.

(7) یی وو، با مشاوره یکسان از دانشگاه Tsinghua و موسسه شانگهای Qi Zhi.

(8) یوجین وینیتسکی، با مشاوره مشابه از دانشگاه نیویورک ([email protected]).

  1. چکیده و مقدمه
  2. کار مرتبط
  3. تعریف مشکل
  4. روش
  5. آزمایشات
  6. نتیجه گیری و مراجع

الف. ضمیمه

الف.1. درخواست های کامل و A.2 جزئیات ICPL

الف. 3 جزئیات پایه

الف.4 جزئیات محیطی

الف.5 اولویت انسانی پروکسی

A.6 ترجیح انسان در حلقه

چکیده

طراحی توابع پاداش یکی از اجزای اصلی یادگیری تقویتی است، اما می تواند برای رفتار واقعاً پیچیده چالش برانگیز باشد. یادگیری تقویتی از بازخورد انسانی (RLHF) برای کاهش این چالش با جایگزین کردن یک تابع پاداش کدگذاری شده با یک تابع پاداش که از ترجیحات آموخته شده است، استفاده شده است. با این حال، یادگیری این پاداش‌ها می‌تواند بسیار ناکارآمد باشد، زیرا اغلب به عنوان Tabula rasa یاد می‌شوند. ما بررسی می کنیم که آیا مدل های زبان بزرگ (LLM) می توانند این ناکارآمدی پرس و جو را با تبدیل یک سری تکراری از اولویت های انسانی به کدی که نشان دهنده …

Source link