الف. ضمیمه
هدف ما طراحی یک تابع پاداش است که می تواند برای آموزش عوامل یادگیری تقویتی که رفتارهای ترجیحی انسان را نشان می دهند، استفاده شود. معمولاً طراحی عملکردهای پاداش مناسب در یادگیری تقویتی که سیاستهایی را القاء میکند که به خوبی با ترجیحات انسان همسو میشوند، دشوار است.
نویسندگان:
(1) چائو یو، دانشگاه Tsinghua;
(2) هنگ لو، دانشگاه Tsinghua;
(3) Jiaxuan Gao، دانشگاه Tsinghua;
(4) Qixin Tan، دانشگاه Tsinghua;
(5) Xinting Yang، دانشگاه Tsinghua;
(6) یو وانگ، با مشاوره یکسان از دانشگاه Tsinghua.
(7) یی وو، با مشاوره یکسان از دانشگاه Tsinghua و موسسه شانگهای Qi Zhi.
(8) یوجین وینیتسکی، با مشاوره مشابه از دانشگاه نیویورک ([email protected]).