بازگشایی مدارک کلیدی در یادگیری تقویتی

نویسندگان:

(1) جونگمین لی، گروه علوم ریاضی، دانشگاه ملی سئول.

(2) ارنست کی ریو، گروه علوم ریاضی، دانشگاه ملی سئول و برنامه میان رشته ای در هوش مصنوعی، دانشگاه ملی سئول.

چکیده و 1 مقدمه

1.1 نمادها و مقدمات

1.2 کارهای قبلی

2 تکرار ارزش ثابت

2.1 نرخ تسریع شده برای اپراتور سازگاری بلمن

2.2 نرخ تسریع شده برای اپرای بهینه سازی بلمن

3 همگرایی زمانی که y=1 باشد

4 پیچیدگی کران پایین

5 تقریبی تکرار ارزش لنگر

6 تکرار ارزش لنگر گاوس-سیدل

7 نتیجه گیری، قدردانی و افشای منابع مالی و مراجع

مقدماتی

B شواهد حذف شده در بخش 2

ج ادله حذف شده در بخش 3

D شواهد حذف شده در بخش 4

E شواهد حذف شده در بخش 5

F شواهد حذف شده در بخش 6

G تاثیرات گسترده تر

H محدودیت ها

ج ادله حذف شده در بخش 3

ابتدا لم زیر را ارائه می کنیم.

جایی که نابرابری دوم از عدم انبساط T حاصل می شود.

اکنون، اثبات قضیه 3 را ارائه می کنیم.

در مرحله بعد، قضیه 4 را اثبات می کنیم.

این مقاله در arxiv تحت مجوز CC BY 4.0 DEED موجود است.

Source link