Anc-VI استاندارد جدیدی را برای بهینه سازی یادگیری تقویتی تعیین می کند

نویسندگان:

(1) جونگمین لی، گروه علوم ریاضی، دانشگاه ملی سئول.

(2) ارنست کی ریو، گروه علوم ریاضی، دانشگاه ملی سئول و برنامه میان رشته ای در هوش مصنوعی، دانشگاه ملی سئول.

چکیده و 1 مقدمه

1.1 نمادها و مقدمات

1.2 کارهای قبلی

2 تکرار ارزش تثبیت شده

2.1 نرخ تسریع شده برای اپراتور سازگاری بلمن

2.2 نرخ تسریع شده برای اپرای بهینه سازی بلمن

3 همگرایی زمانی که y=1 باشد

4 پیچیدگی کران پایین

5 تقریبی تکرار ارزش لنگر

6 تکرار ارزش لنگر گاوس-سیدل

7 نتیجه گیری، قدردانی و افشای منابع مالی و مراجع

مقدماتی

B شواهد حذف شده در بخش 2

ج ادله حذف شده در بخش 3

D شواهد حذف شده در بخش 4

E شواهد حذف شده در بخش 5

F شواهد حذف شده در بخش 6

G تاثیرات گسترده تر

H محدودیت ها

4 پیچیدگی کران پایین

ما اکنون یک کران پایین پیچیدگی را ارائه می کنیم که بهینه بودن Anc-VI را ایجاد می کند.

به اصطلاح “شرط دهانه” قضیه 5 مسلماً بسیار طبیعی است و با استاندارد VI و Anc-VI ارضا می شود. شرط دهانه معمولاً در ساخت کران‌های پایین‌تر پیچیدگی در روش‌های بهینه‌سازی مرتبه اول استفاده می‌شود [13, 14, 23, 25, 59, 65] و در کران پایینی پیشرفته قبلی برای استاندارد استفاده شده است…

Source link