جدول پیوندها
بخش اول: چکیده و مقدمه
بخش دوم: مفاهیم مهم
قسمت 3: توضیحات سیستم
قسمت 4: عوامل و جزئیات شبیه سازی
بخش 5: طراحی آزمایش
بخش 6: یادگیری مستمر
بخش 7: نتایج آزمایش
بخش 8: پاسخگویی بازار و عامل به رویدادهای خارجی
بخش 9: نتیجه گیری و مراجع
قسمت 10: نتایج شبیه سازی اضافی
قسمت 11: پیکربندی شبیه سازی
4.2 یادگیری مستمر
ما سه گروه از عوامل را در شبیه سازی معرفی می کنیم.
• گروه A – گروه آموزش مداوم. عوامل به مدت 10 ساعت (36000 مرحله) از قبل آموزش دیده اند و آموزش در طول زمان شبیه سازی (برای 10 ساعت دیگر یا 36000 مرحله) ادامه دارد.
• گروه B – گروه تست. عوامل این گروه به مدت 10 ساعت از قبل آموزش دیده و در شبیه سازی استفاده می شوند بدون ادامه آموزش
• گروه ج – گروه آموزش ندیده. گروه سوم به عنوان یک کنترل برای درک بهبود عملکرد به دست آمده از تمرین عمل می کند. عوامل این گروه پارامترهای اولیه تصادفی را بارگذاری می کنند و شبیه سازی ها را بدون آموزش اجرا می کنند.
برای هر دانه تصادفی، پارامترهای شبکه های عصبی را برای عوامل گروه C به طور مستقیم تولید می کنیم. هر عامل در گروه C به مدت 10 ساعت آموزش داده می شود و پارامترهای آنها به پارامترهای مورد استفاده برای هر عامل در گروه B تبدیل می شود. از همین پارامترها برای …