شکستن اثبات های القایی پشت تکرار سریعتر ارزش در RL

نویسندگان:

(1) جونگمین لی، گروه علوم ریاضی، دانشگاه ملی سئول.

(2) ارنست کی ریو، گروه علوم ریاضی، دانشگاه ملی سئول و برنامه میان رشته ای در هوش مصنوعی، دانشگاه ملی سئول.

چکیده و 1 مقدمه

1.1 نمادها و مقدمات

1.2 کارهای قبلی

2 تکرار ارزش تثبیت شده

2.1 نرخ تسریع شده برای اپراتور سازگاری بلمن

2.2 نرخ تسریع شده برای اپرای بهینه سازی بلمن

3 همگرایی زمانی که y=1 باشد

4 پیچیدگی کران پایین

5 تقریبی تکرار ارزش لنگر

6 تکرار ارزش لنگر گاوس-سیدل

7 نتیجه گیری، قدردانی و افشای منابع مالی و مراجع

مقدماتی

B شواهد حذف شده در بخش 2

ج ادله حذف شده در بخش 3

D شواهد حذف شده در بخش 4

E شواهد حذف شده در بخش 5

F شواهد حذف شده در بخش 6

G تاثیرات گسترده تر

H محدودیت ها

B شواهد حذف شده در بخش 2

ابتدا لم زیر را با استقرا اثبات می کنیم.

اکنون، لم های کلیدی خود را برای نرخ اول قضیه 2 ارائه می کنیم.

و اجازه دهید U تمام سمت راست نابرابری باشد. سپس، ما داریم

با استقرا،

و اجازه دهید U تمام سمت راست نابرابری باشد. سپس، ما داریم

اکنون، نرخ اول قضیه 2 را اثبات می کنیم.

که در آن نابرابری دوم از شرط است.

با استقرا،

و بگذار حق با تو باشد…

Source link