مسیری سریعتر برای هوش مصنوعی هوشمندتر: روش جدید Anc-VI

نویسندگان:

(1) جونگمین لی، گروه علوم ریاضی، دانشگاه ملی سئول.

(2) ارنست کی ریو، گروه علوم ریاضی، دانشگاه ملی سئول و برنامه میان رشته ای در هوش مصنوعی، دانشگاه ملی سئول.

چکیده و 1 مقدمه

1.1 نمادها و مقدمات

1.2 کارهای قبلی

2 تکرار ارزش تثبیت شده

2.1 نرخ تسریع شده برای اپراتور سازگاری بلمن

2.2 نرخ تسریع شده برای اپرای بهینه سازی بلمن

3 همگرایی زمانی که y=1 باشد

4 پیچیدگی کران پایین

5 تقریبی تکرار ارزش لنگر

6 تکرار ارزش لنگر گاوس-سیدل

7 نتیجه گیری، قدردانی و افشای منابع مالی و مراجع

مقدماتی

B شواهد حذف شده در بخش 2

ج ادله حذف شده در بخش 3

D شواهد حذف شده در بخش 4

E شواهد حذف شده در بخش 5

F شواهد حذف شده در بخش 6

G تاثیرات گسترده تر

H محدودیت ها

چکیده

تکرار ارزش (VI) برای تئوری و عمل یادگیری تقویتی مدرن بنیادی است، و شناخته شده است که با نرخ O(γk) همگرا می شود، جایی که γ ضریب تخفیف است. با این حال، با کمال تعجب، نرخ بهینه از نظر خطای بلمن برای راه اندازی VI شناخته نشده بود، و یافتن یک مکانیسم شتاب کلی یک مشکل باز بوده است. در این مقاله، ما اولین شتاب VI را برای هر دو بلمن ارائه می کنیم.

Source link