جدول پیوندها
بخش اول: چکیده و مقدمه
بخش دوم: مفاهیم مهم
قسمت 3: توضیحات سیستم
قسمت 4: عوامل و جزئیات شبیه سازی
بخش 5: طراحی آزمایش
بخش 6: یادگیری مستمر
بخش 7: نتایج آزمایش
بخش 8: پاسخگویی بازار و عامل به رویدادهای خارجی
بخش 9: نتیجه گیری و مراجع
قسمت 10: نتایج شبیه سازی اضافی
قسمت 11: پیکربندی شبیه سازی
2. مفاهیم مهم
2.1 عوامل یادگیری تقویتی
از نظر ریاضی، هر عامل RL یک مسئله مرتبط با فرآیند تصمیم گیری مارکوف (MDP) را حل می کند.[1]. MDP به عنوان یک تاپل (S، A، R، P، γ) با چندین جزء کلیدی تعریف می شود:
• S فضای حالت است، در مورد ما مجموعه ای از بردارها که دفتر سفارش حد بازار و اطلاعات حساب نماینده را توصیف می کند،
• A فضای عملی است که سفارشات خاصی را که عوامل می توانند انجام دهند را تعریف می کند.
• R نشان دهنده تابع پاداش است که پاداش فوری برای انجام یک عمل در پاسخ به یک حالت خاص را مشخص می کند.
• P تابع احتمال انتقال را نشان می دهد که با اجرای یک عمل داده شده، احتمال انتقال از یک حالت به حالت دیگر را خروجی می دهد.
• γ ∈ (0، 1) ضریب تخفیف است. یک ضریب تخفیف کوچکتر به نماینده اجازه می دهد بیشتر روی پاداش اخیر تمرکز کند.
هنگام استفاده بدون مدل روش های RL مانند in [19, 20]، پویایی سیستم (یعنی …