پیگیری بهبود عملکرد پاداش با ترجیحات انسانی پروکسی در ICPL

  1. چکیده و مقدمه
  2. کار مرتبط
  3. تعریف مشکل
  4. روش
  5. آزمایشات
  6. نتیجه گیری و مراجع

الف. ضمیمه

الف.1. درخواست های کامل و A.2 جزئیات ICPL

الف. 3 جزئیات پایه

الف.4 جزئیات محیطی

الف.5 اولویت انسانی پروکسی

A.6 ترجیح انسان در حلقه

الف.5 ترجیحات انسانی پروکسی

A.5.1 نتایج اضافی

با توجه به واریانس بالا در عملکرد LLMs، ما انحراف استاندارد را در 5 آزمایش به عنوان مکمل گزارش می‌کنیم که در جدول 5 و جدول 6 ارائه شده است. همچنین امتیاز کار نهایی PrefPPO را با استفاده از پاداش‌های پراکنده به عنوان معیار ترجیحی برای شبیه‌سازی شده گزارش می‌کنیم. معلم در جدول 7.

جدول 5: امتیاز نهایی کار همه روش ها در بین وظایف مختلف در IssacGym. مقادیر داخل پرانتز نشان دهنده انحراف معیار است.جدول 5: امتیاز نهایی کار همه روش ها در بین وظایف مختلف در IssacGym. مقادیر داخل پرانتز نشان دهنده انحراف معیار است.

جدول 6: مطالعات فرسایشی روی ماژول های ICPL. مقادیر داخل پرانتز نشان دهنده انحراف معیار است.جدول 6: مطالعات فرسایشی روی ماژول های ICPL. مقادیر داخل پرانتز نشان دهنده انحراف معیار است.

جدول 7: امتیاز نهایی کار همه روش‌ها در بین وظایف مختلف در IssacGym، که در آن PrefPPO از پاداش‌های پراکنده به عنوان معیار اولویت برای معلم شبیه‌سازی شده استفاده می‌کند. مقادیر داخل پرانتز نشان دهنده انحراف معیار است.جدول 7: امتیاز نهایی کار همه روش‌ها در بین وظایف مختلف در IssacGym، که در آن PrefPPO از پاداش‌های پراکنده به عنوان معیار اولویت برای معلم شبیه‌سازی شده استفاده می‌کند. مقادیر داخل پرانتز نشان دهنده انحراف معیار است.

A.5.2 تجزیه و تحلیل بهبود

ما از آزمایشی از کار انسان نما استفاده می کنیم تا نشان دهیم چگونه ICPL به تدریج عملکردهای پاداش را در تکرارهای متوالی ایجاد می کند. شرح وظیفه این است که “به کار انداختن انسان نما با بیشترین سرعت ممکن”. در طول پنج بار تکرار، تعدیل‌هایی در شرایط پنالتی و وزن‌های پاداش انجام شد. در اولین تکرار، کل پاداش به صورت 0.5 × speed_reward + 0.25 × deviation_reward + 0.25×action_reward محاسبه شد که RTS 5.803 را به دست آورد. پاداش سرعت و پاداش انحراف انسان‌نما را برای دویدن سریع ترغیب می‌کند، در حالی که پاداش عمل باعث حرکت نرم‌تر می‌شود. در تکرار دوم وزن پاداش سرعت افزایش یافت…

Source link