عوامل یادگیری تقویتی، تجارت در بازارهای CDA را بهینه می کند

بخش اول: چکیده و مقدمه

بخش دوم: مفاهیم مهم

قسمت 3: توضیحات سیستم

قسمت 4: عوامل و جزئیات شبیه سازی

بخش 5: طراحی آزمایش

بخش 6: یادگیری مستمر

بخش 7: نتایج آزمایش

بخش 8: پاسخگویی بازار و عامل به رویدادهای خارجی

بخش 9: نتیجه گیری و مراجع

قسمت 10: نتایج شبیه سازی اضافی

قسمت 11: پیکربندی شبیه سازی

2. مفاهیم مهم

2.1 عوامل یادگیری تقویتی

از نظر ریاضی، هر عامل RL یک مسئله مرتبط با فرآیند تصمیم گیری مارکوف (MDP) را حل می کند.[1]. MDP به عنوان یک تاپل (S، A، R، P، γ) با چندین جزء کلیدی تعریف می شود:

• S فضای حالت است، در مورد ما مجموعه ای از بردارها که دفتر سفارش حد بازار و اطلاعات حساب نماینده را توصیف می کند،

• A فضای عملی است که سفارشات خاصی را که عوامل می توانند انجام دهند را تعریف می کند.

• R نشان دهنده تابع پاداش است که پاداش فوری برای انجام یک عمل در پاسخ به یک حالت خاص را مشخص می کند.

• P تابع احتمال انتقال را نشان می دهد که با اجرای یک عمل داده شده، احتمال انتقال از یک حالت به حالت دیگر را خروجی می دهد.

• γ ∈ (0، 1) ضریب تخفیف است. یک ضریب تخفیف کوچکتر به نماینده اجازه می دهد بیشتر روی پاداش اخیر تمرکز کند.

هنگام استفاده بدون مدل روش های RL مانند in [19, 20]، پویایی سیستم (یعنی …

Source link