چگونه ICPL به مشکل اصلی طراحی پاداش RL می پردازد

  1. چکیده و مقدمه
  2. کار مرتبط
  3. تعریف مشکل
  4. روش
  5. آزمایشات
  6. نتیجه گیری و مراجع

الف. ضمیمه

الف.1. درخواست های کامل و A.2 جزئیات ICPL

الف. 3 جزئیات پایه

الف.4 جزئیات محیطی

الف.5 اولویت انسانی پروکسی

A.6 ترجیح انسان در حلقه

4 روش

روش پیشنهادی ما، In-Context Preference Learning (ICPL)، LLM ها را با ترجیحات انسانی برای ترکیب توابع پاداش ادغام می کند. LLM زمینه محیطی و شرح وظیفه را برای تولید مجموعه اولیه از توابع پاداش اجرایی K دریافت می کند. سپس ICPL به طور مکرر این توابع را اصلاح می کند. در هر تکرار، توابع پاداش تولید شده توسط LLM برای آموزش عوامل در محیط، تولید مجموعه ای از عوامل استفاده می شود. ما از این عوامل برای تولید فیلم هایی از رفتار آنها استفاده می کنیم. یک رتبه‌بندی روی ویدیوها شکل می‌گیرد که از آن بهترین و بدترین عملکردهای پاداش مربوط به ویدیوهای بالا و پایین در رتبه‌بندی را بازیابی می‌کنیم. این انتخاب ها نمونه هایی از ترجیحات مثبت و منفی هستند. اولویت‌ها، همراه با اطلاعات زمینه‌ای اضافی، مانند آثار پاداش و تفاوت‌ها با عملکردهای پاداش خوب قبلی، به‌عنوان درخواست‌های بازخورد به LLM ارائه می‌شوند. LLM در این زمینه عمل می کند و از آن خواسته می شود مجموعه جدیدی از پاداش ها را ایجاد کند. الگو. 1 شبه کد را ارائه می دهد،…

Source link