چگونه ICPL کارایی عملکرد پاداش را افزایش می دهد و با وظایف پیچیده RL مقابله می کند

  1. چکیده و مقدمه
  2. کار مرتبط
  3. تعریف مشکل
  4. روش
  5. آزمایشات
  6. نتیجه گیری و مراجع

الف. ضمیمه

الف.1. درخواست های کامل و A.2 جزئیات ICPL

الف. 3 جزئیات پایه

الف.4 جزئیات محیطی

الف.5 اولویت انسانی پروکسی

A.6 ترجیح انسان در حلقه

6 نتیجه گیری

روش پیشنهادی ما، یادگیری ترجیحی درون متنی (ICPL)، پتانسیل قابل توجهی را برای پرداختن به چالش‌های وظایف یادگیری ترجیحی از طریق ادغام مدل‌های زبان بزرگ نشان می‌دهد. ICPL با استفاده از قابلیت‌های مولد LLM برای تولید مستقل توابع پاداش، و اصلاح مکرر آنها با استفاده از بازخورد انسانی، پیچیدگی و تلاش انسانی را که معمولاً با RL مبتنی بر اولویت مرتبط است کاهش می‌دهد. نتایج تجربی ما، هم در تنظیمات انسان پراکسی و هم در تنظیمات انسان در حلقه، نشان می‌دهد که ICPL نه تنها از نظر کارایی از RLHF سنتی پیشی می‌گیرد، بلکه به طور موثر با روش‌هایی که از پاداش‌های حقیقت پایه به جای ترجیحات استفاده می‌کنند، رقابت می‌کند. علاوه بر این، موفقیت ICPL در کارهای پیچیده و ذهنی مانند پرش انسان نما، تطبیق پذیری آن را در گرفتن مقاصد ظریف انسانی برجسته می کند، و فرصت های جدیدی را برای کاربردهای آینده در سناریوهای پیچیده دنیای واقعی باز می کند، جایی که تعریف توابع پاداش سنتی دشوار است.

محدودیت ها. در حالی که ICPL…

Source link