جدول پیوندها
- چکیده و مقدمه
- کار مرتبط
- تعریف مشکل
- روش
- آزمایشات
- نتیجه گیری و مراجع
الف. ضمیمه
الف.1. درخواست های کامل و A.2 جزئیات ICPL
الف. 3 جزئیات پایه
الف.4 جزئیات محیطی
الف.5 اولویت انسانی پروکسی
A.6 ترجیح انسان در حلقه
الف.5 ترجیحات انسانی پروکسی
A.5.1 نتایج اضافی
با توجه به واریانس بالا در عملکرد LLMs، ما انحراف استاندارد را در 5 آزمایش به عنوان مکمل گزارش میکنیم که در جدول 5 و جدول 6 ارائه شده است. همچنین امتیاز کار نهایی PrefPPO را با استفاده از پاداشهای پراکنده به عنوان معیار ترجیحی برای شبیهسازی شده گزارش میکنیم. معلم در جدول 7.
A.5.2 تجزیه و تحلیل بهبود
ما از آزمایشی از کار انسان نما استفاده می کنیم تا نشان دهیم چگونه ICPL به تدریج عملکردهای پاداش را در تکرارهای متوالی ایجاد می کند. شرح وظیفه این است که “به کار انداختن انسان نما با بیشترین سرعت ممکن”. در طول پنج بار تکرار، تعدیلهایی در شرایط پنالتی و وزنهای پاداش انجام شد. در اولین تکرار، کل پاداش به صورت 0.5 × speed_reward + 0.25 × deviation_reward + 0.25×action_reward محاسبه شد که RTS 5.803 را به دست آورد. پاداش سرعت و پاداش انحراف انساننما را برای دویدن سریع ترغیب میکند، در حالی که پاداش عمل باعث حرکت نرمتر میشود. در تکرار دوم وزن پاداش سرعت افزایش یافت…