جدول پیوندها
- چکیده و مقدمه
- کار مرتبط
- تعریف مشکل
- روش
- آزمایشات
- نتیجه گیری و مراجع
الف. ضمیمه
الف.1. درخواست های کامل و A.2 جزئیات ICPL
الف. 3 جزئیات پایه
الف.4 جزئیات محیطی
الف.5 اولویت انسانی پروکسی
A.6 ترجیح انسان در حلقه
الف.3 جزئیات پایه
برای نمونهبرداری از مسیرها برای یادگیری پاداش، از طرح نمونهگیری عدم توافق (Lee et al., 2021b) برای بهبود فرآیند آموزش استفاده میکنیم. این طرح ابتدا دسته بزرگتری از جفت های مسیر را به طور یکنواخت و به صورت تصادفی تولید می کند و سپس دسته کوچکتری با واریانس بالا در میان مجموعه ای از پیش بینی کننده های ترجیحی انتخاب می کند. جفت های انتخاب شده برای به روز رسانی مدل پاداش استفاده می شوند.
برای مقایسه منصفانه، تعداد دفعاتی را که PrefPPO از شبیهساز انسانی اوراکل برای مقایسه دو مسیر و بهدست آوردن برچسبها در طول فرآیند یادگیری پاداش درخواست کرد، با استفاده از این به عنوان معیاری برای تلاش انسان ثبت کردیم. در آزمایش انسان پراکسی، ما حداکثر تعداد پرسشهای انسانی Q را به 49، 150، 1.5k و 15k تنظیم کردیم. پس از رسیدن به این حد، مدل پاداش به روز رسانی متوقف می شود و فقط مدل خط مشی از طریق PPO به روز می شود. الگو. 3 شبه کد برای یادگیری پاداش را نشان می دهد.
الگو. 4 شبه کد PrefPPO را نشان می دهد.
نویسندگان:
(1) چائو یو، دانشگاه Tsinghua;
(2) هنگ لو، تسینگهوا…