چگونه ترجیحات انسانی را به عوامل یادگیری تقویتی آموزش دهیم؟

الف. ضمیمه

هدف ما طراحی یک تابع پاداش است که می تواند برای آموزش عوامل یادگیری تقویتی که رفتارهای ترجیحی انسان را نشان می دهند، استفاده شود. معمولاً طراحی عملکردهای پاداش مناسب در یادگیری تقویتی که سیاست‌هایی را القاء می‌کند که به خوبی با ترجیحات انسان همسو می‌شوند، دشوار است.

نویسندگان:

(1) چائو یو، دانشگاه Tsinghua;

(2) هنگ لو، دانشگاه Tsinghua;

(3) Jiaxuan Gao، دانشگاه Tsinghua;

(4) Qixin Tan، دانشگاه Tsinghua;

(5) Xinting Yang، دانشگاه Tsinghua;

(6) یو وانگ، با مشاوره یکسان از دانشگاه Tsinghua.

(7) یی وو، با مشاوره یکسان از دانشگاه Tsinghua و موسسه شانگهای Qi Zhi.

(8) یوجین وینیتسکی، با مشاوره مشابه از دانشگاه نیویورک ([email protected]).

Source link