نویسندگان:
(1) جونگمین لی، گروه علوم ریاضی، دانشگاه ملی سئول.
(2) ارنست کی ریو، گروه علوم ریاضی، دانشگاه ملی سئول و برنامه میان رشته ای در هوش مصنوعی، دانشگاه ملی سئول.
چکیده و 1 مقدمه
1.1 نمادها و مقدمات
1.2 کارهای قبلی
2 تکرار ارزش تثبیت شده
2.1 نرخ تسریع شده برای اپراتور سازگاری بلمن
2.2 نرخ تسریع شده برای اپرای بهینه سازی بلمن
3 همگرایی زمانی که y=1 باشد
4 پیچیدگی کران پایین
5 تقریبی تکرار ارزش لنگر
6 تکرار ارزش لنگر گاوس-سیدل
7 نتیجه گیری، قدردانی و افشای منابع مالی و مراجع
مقدماتی
B شواهد حذف شده در بخش 2
ج ادله حذف شده در بخش 3
D شواهد حذف شده در بخش 4
E شواهد حذف شده در بخش 5
F شواهد حذف شده در بخش 6
G تاثیرات گسترده تر
H محدودیت ها
چکیده
تکرار ارزش (VI) برای تئوری و عمل یادگیری تقویتی مدرن بنیادی است، و شناخته شده است که با نرخ O(γk) همگرا می شود، جایی که γ ضریب تخفیف است. با این حال، با کمال تعجب، نرخ بهینه از نظر خطای بلمن برای راه اندازی VI شناخته نشده بود، و یافتن یک مکانیسم شتاب کلی یک مشکل باز بوده است. در این مقاله، ما اولین شتاب VI را برای هر دو بلمن ارائه می کنیم.