جدول پیوندها
- چکیده و مقدمه
- کار مرتبط
- تعریف مشکل
- روش
- آزمایشات
- نتیجه گیری و مراجع
الف. ضمیمه
الف.1. درخواست های کامل و A.2 جزئیات ICPL
الف. 3 جزئیات پایه
الف.4 جزئیات محیطی
الف.5 اولویت انسانی پروکسی
A.6 ترجیح انسان در حلقه
طراحی پاداش. در یادگیری تقویتی، طراحی پاداش یک چالش اصلی است، زیرا پاداش ها باید هم مجموعه ای مطلوب از رفتارها را نشان دهند و هم سیگنال کافی برای یادگیری را ارائه دهند. رایجترین رویکرد برای طراحی پاداش، دستسازی است که به تعداد زیادی آزمایش توسط متخصصان نیاز دارد (Sutton, 2018؛ Singh et al., 2009). از آنجایی که طراحی پاداش با کدگذاری دستی نیازمند تلاش مهندسی گسترده است، چندین کار قبلی مدلسازی تابع پاداش را با دادههای از پیش جمعآوریشده مطالعه کردهاند. به عنوان مثال، یادگیری تقویت معکوس (IRL) با هدف بازیابی یک تابع پاداش از داده های نمایش خبره (Arora & Doshi, 2021؛ Ng et al., 2000) است. با پیشرفت در مدل های پایه از پیش آموزش دیده، برخی از کارهای اخیر نیز با استفاده از مدل های زبان بزرگ یا مدل های زبان بینایی برای ارائه سیگنال های پاداش مورد مطالعه قرار گرفته اند (Ma et al., 2022; Fan et al., 2022; Du et al., 2023; Karamcheti et al. همکاران، 2023؛ وانگ و همکاران، 2023. 2024؛ ما و همکاران، 2024).
در میان این رویکردها، EUREKA (Ma et al., 2023) نزدیکترین رویکرد به کار ما است که به LLM دستور می دهد تا تولید و انتخاب کند…