آموزش تقویت هک با کمک کمی از انسان ها (و LLM ها)

  1. چکیده و مقدمه
  2. کار مرتبط
  3. تعریف مشکل
  4. روش
  5. آزمایشات
  6. نتیجه گیری و مراجع

الف. ضمیمه

الف.1. درخواست های کامل و A.2 جزئیات ICPL

الف. 3 جزئیات پایه

الف.4 جزئیات محیطی

الف.5 اولویت انسانی پروکسی

A.6 ترجیح انسان در حلقه

طراحی پاداش. در یادگیری تقویتی، طراحی پاداش یک چالش اصلی است، زیرا پاداش ها باید هم مجموعه ای مطلوب از رفتارها را نشان دهند و هم سیگنال کافی برای یادگیری را ارائه دهند. رایج‌ترین رویکرد برای طراحی پاداش، دست‌سازی است که به تعداد زیادی آزمایش توسط متخصصان نیاز دارد (Sutton, 2018؛ Singh et al., 2009). از آنجایی که طراحی پاداش با کدگذاری دستی نیازمند تلاش مهندسی گسترده است، چندین کار قبلی مدل‌سازی تابع پاداش را با داده‌های از پیش جمع‌آوری‌شده مطالعه کرده‌اند. به عنوان مثال، یادگیری تقویت معکوس (IRL) با هدف بازیابی یک تابع پاداش از داده های نمایش خبره (Arora & Doshi, 2021؛ Ng et al., 2000) است. با پیشرفت در مدل های پایه از پیش آموزش دیده، برخی از کارهای اخیر نیز با استفاده از مدل های زبان بزرگ یا مدل های زبان بینایی برای ارائه سیگنال های پاداش مورد مطالعه قرار گرفته اند (Ma et al., 2022; Fan et al., 2022; Du et al., 2023; Karamcheti et al. همکاران، 2023؛ وانگ و همکاران، 2023. 2024؛ ما و همکاران، 2024).

در میان این رویکردها، EUREKA (Ma et al., 2023) نزدیکترین رویکرد به کار ما است که به LLM دستور می دهد تا تولید و انتخاب کند…

Source link