نقش ترجیحات انسان در حلقه در یادگیری عملکرد پاداش برای وظایف انسان نما

  1. چکیده و مقدمه
  2. کار مرتبط
  3. تعریف مشکل
  4. روش
  5. آزمایشات
  6. نتیجه گیری و مراجع

الف. ضمیمه

الف.1. درخواست های کامل و A.2 جزئیات ICPL

الف. 3 جزئیات پایه

الف.4 جزئیات محیطی

الف.5 اولویت انسانی پروکسی

A.6 ترجیح انسان در حلقه

A.6 ترجیح انسان در حلقه

A.6.1 وظایف ISAACGYM

ما آزمایش‌های ترجیحی انسان در حلقه را بر روی وظایف در IsaacGym، از جمله Quadcopter، Humanoid، Ant، ​​ShadowHand، و AllegroHand ارزیابی می‌کنیم. در این آزمایش‌ها، داوطلبان تنها با مقایسه ویدیوهایی که سیاست‌های نهایی حاصل از هر عملکرد پاداش را نشان می‌دهند، بازخورد ارائه کردند.

در کار کوادکوپتر، انسان با مشاهده اینکه آیا کوادکوپتر به سرعت و کارآمد حرکت می کند و اینکه آیا در موقعیت نهایی تثبیت می شود، عملکرد را ارزیابی می کند. برای وظایف انسان نما و مورچه، که در آن شرح کار این است که “مورچه/انسان نما را تا حد امکان سریع اجرا کنید”، انسان ها با مقایسه زمان صرف شده برای طی کردن مسافت مشابه و ارزیابی وضعیت حرکت، سرعت را تخمین می زنند. با این حال، به دلیل تغییر در وضعیت ها و جهت حرکت، سرعت اغلب به طور نادرست تخمین زده می شود. در وظایف ShadowHand و AllegroHand، جایی که هدف این است که «با دست، جسم را به سمت هدف بچرخانیم»، جهت هدف در نزدیکی دست ربات نمایش داده می‌شود تا…

Source link