نویسندگان:
(1) Avrim Blum، موسسه فناوری تویوتا در شیکاگو، IL، ایالات متحده آمریکا.
(2) ملیسا دوتز، موسسه فناوری تویوتا در شیکاگو، IL، ایالات متحده آمریکا.
جدول پیوندها
چکیده و 1 مقدمه
2 تنظیم و 2.1 مدل های مخالفان مغرضانه رفتاری
3 مقدمات و شهود
4.1 Myopic Best Responder و 4.2 Gambler’s Fallacy Opponent
4.3 برنده ماندن، باخت و شیفت مخالف
4.4 حریف پیرو رهبر و 4.5 بالاترین میانگین بازده حریف
5 تعمیم دادن
5.1 سایر راهبردهای مبتنی بر رفتار
5.2 بهره برداری از یک استراتژی ناشناخته از مجموعه ای از استراتژی های شناخته شده
6 کار آینده و مراجع
یک ضمیمه
الف.1 نوع برد-بمان باخت-شیفت: کراوات-بمان
الف.2 نوع پیروی از رهبر: تاریخچه محدود
الف.3 مرزهای اشتباه بیضی
A.4 بالاترین میانگین بازده حریف
4.4 حریف پیرو رهبر
به یاد بیاورید که حریف Follow-the-Leader بهترین اکشن را در گذشته انجام می دهد، که به عنوان عملی تعریف می شود که بالاترین بازده را در کل تاریخ بازی ما داشته باشد. برای این حریف، استراتژی ما این خواهد بود که بهترین پاسخ را به هر عمل بیاموزیم و سپس از الگوریتم بیضی شناخته شده برای پیشبینی اقدامات حریف در حالی که بهترین پاسخها را به اقدامات پیشبینیشده انجام میدهیم، استفاده کنیم.
استفاده از Ellipsoid برای پیش بینی
توجه داشته باشید که در حالی که محدودیت تعداد ضررها و تساوی هایی که متحمل می شویم …