جدول پیوندها
- چکیده و مقدمه
- کار مرتبط
- تعریف مشکل
- روش
- آزمایشات
- نتیجه گیری و مراجع
الف. ضمیمه
الف.1. درخواست های کامل و A.2 جزئیات ICPL
الف. 3 جزئیات پایه
الف.4 جزئیات محیطی
الف.5 اولویت انسانی پروکسی
A.6 ترجیح انسان در حلقه
4 روش
روش پیشنهادی ما، In-Context Preference Learning (ICPL)، LLM ها را با ترجیحات انسانی برای ترکیب توابع پاداش ادغام می کند. LLM زمینه محیطی و شرح وظیفه را برای تولید مجموعه اولیه از توابع پاداش اجرایی K دریافت می کند. سپس ICPL به طور مکرر این توابع را اصلاح می کند. در هر تکرار، توابع پاداش تولید شده توسط LLM برای آموزش عوامل در محیط، تولید مجموعه ای از عوامل استفاده می شود. ما از این عوامل برای تولید فیلم هایی از رفتار آنها استفاده می کنیم. یک رتبهبندی روی ویدیوها شکل میگیرد که از آن بهترین و بدترین عملکردهای پاداش مربوط به ویدیوهای بالا و پایین در رتبهبندی را بازیابی میکنیم. این انتخاب ها نمونه هایی از ترجیحات مثبت و منفی هستند. اولویتها، همراه با اطلاعات زمینهای اضافی، مانند آثار پاداش و تفاوتها با عملکردهای پاداش خوب قبلی، بهعنوان درخواستهای بازخورد به LLM ارائه میشوند. LLM در این زمینه عمل می کند و از آن خواسته می شود مجموعه جدیدی از پاداش ها را ایجاد کند. الگو. 1 شبه کد را ارائه می دهد،…