جدول پیوندها
- چکیده و مقدمه
- کار مرتبط
- تعریف مشکل
- روش
- آزمایشات
- نتیجه گیری و مراجع
الف. ضمیمه
الف.1. درخواست های کامل و A.2 جزئیات ICPL
الف. 3 جزئیات پایه
الف.4 جزئیات محیطی
الف.5 اولویت انسانی پروکسی
A.6 ترجیح انسان در حلقه
6 نتیجه گیری
روش پیشنهادی ما، یادگیری ترجیحی درون متنی (ICPL)، پتانسیل قابل توجهی را برای پرداختن به چالشهای وظایف یادگیری ترجیحی از طریق ادغام مدلهای زبان بزرگ نشان میدهد. ICPL با استفاده از قابلیتهای مولد LLM برای تولید مستقل توابع پاداش، و اصلاح مکرر آنها با استفاده از بازخورد انسانی، پیچیدگی و تلاش انسانی را که معمولاً با RL مبتنی بر اولویت مرتبط است کاهش میدهد. نتایج تجربی ما، هم در تنظیمات انسان پراکسی و هم در تنظیمات انسان در حلقه، نشان میدهد که ICPL نه تنها از نظر کارایی از RLHF سنتی پیشی میگیرد، بلکه به طور موثر با روشهایی که از پاداشهای حقیقت پایه به جای ترجیحات استفاده میکنند، رقابت میکند. علاوه بر این، موفقیت ICPL در کارهای پیچیده و ذهنی مانند پرش انسان نما، تطبیق پذیری آن را در گرفتن مقاصد ظریف انسانی برجسته می کند، و فرصت های جدیدی را برای کاربردهای آینده در سناریوهای پیچیده دنیای واقعی باز می کند، جایی که تعریف توابع پاداش سنتی دشوار است.
محدودیت ها. در حالی که ICPL…