شکستن مفاهیم پیچیده در یادگیری تقویتی

:::اطلاعات
نویسندگان:

(1) جونگمین لی، گروه علوم ریاضی، دانشگاه ملی سئول.

(2) ارنست کی ریو، گروه علوم ریاضی، دانشگاه ملی سئول و برنامه میان رشته ای در هوش مصنوعی، دانشگاه ملی سئول.

:::

چکیده و 1 مقدمه

1.1 نمادها و مقدمات

1.2 کارهای قبلی

2 تکرار ارزش ثابت

2.1 نرخ تسریع شده برای اپراتور سازگاری بلمن

2.2 نرخ تسریع شده برای اپرای بهینه سازی بلمن

3 همگرایی زمانی که y=1 باشد

4 پیچیدگی کران پایین

5 تقریبی تکرار ارزش لنگر

6 تکرار ارزش لنگر گاوس-سیدل

7 نتیجه گیری، قدردانی و افشای منابع مالی و مراجع

مقدماتی

B شواهد حذف شده در بخش 2

ج ادله حذف شده در بخش 3

D شواهد حذف شده در بخش 4

E شواهد حذف شده در بخش 5

F شواهد حذف شده در بخش 6

G تاثیرات گسترده تر

H محدودیت ها

D شواهد حذف شده در بخش 4

ما اثبات قضیه 5 را ارائه می کنیم.

\
شکستن مفاهیم پیچیده در یادگیری تقویتی

\

\

\

:::info این مقاله در arxiv تحت مجوز CC BY 4.0 DEED موجود است.

:::

\

Source link