روش‌های پایه ICPL: نمونه‌گیری اختلاف نظر و PrefPPO برای یادگیری پاداش

  1. چکیده و مقدمه
  2. کار مرتبط
  3. تعریف مشکل
  4. روش
  5. آزمایشات
  6. نتیجه گیری و مراجع

الف. ضمیمه

الف.1. درخواست های کامل و A.2 جزئیات ICPL

الف. 3 جزئیات پایه

الف.4 جزئیات محیطی

الف.5 اولویت انسانی پروکسی

A.6 ترجیح انسان در حلقه

الف.3 جزئیات پایه

برای نمونه‌برداری از مسیرها برای یادگیری پاداش، از طرح نمونه‌گیری عدم توافق (Lee et al., 2021b) برای بهبود فرآیند آموزش استفاده می‌کنیم. این طرح ابتدا دسته بزرگتری از جفت های مسیر را به طور یکنواخت و به صورت تصادفی تولید می کند و سپس دسته کوچکتری با واریانس بالا در میان مجموعه ای از پیش بینی کننده های ترجیحی انتخاب می کند. جفت های انتخاب شده برای به روز رسانی مدل پاداش استفاده می شوند.

برای مقایسه منصفانه، تعداد دفعاتی را که PrefPPO از شبیه‌ساز انسانی اوراکل برای مقایسه دو مسیر و به‌دست آوردن برچسب‌ها در طول فرآیند یادگیری پاداش درخواست کرد، با استفاده از این به عنوان معیاری برای تلاش انسان ثبت کردیم. در آزمایش انسان پراکسی، ما حداکثر تعداد پرسش‌های انسانی Q را به 49، 150، 1.5k و 15k تنظیم کردیم. پس از رسیدن به این حد، مدل پاداش به روز رسانی متوقف می شود و فقط مدل خط مشی از طریق PPO به روز می شود. الگو. 3 شبه کد برای یادگیری پاداش را نشان می دهد.

الگو. 4 شبه کد PrefPPO را نشان می دهد.

نویسندگان:

(1) چائو یو، دانشگاه Tsinghua;

(2) هنگ لو، تسینگ‌هوا…

Source link