نویسندگان:
(1) Avrim Blum، موسسه فناوری تویوتا در شیکاگو، IL، ایالات متحده آمریکا.
(2) ملیسا دوتز، موسسه فناوری تویوتا در شیکاگو، IL، ایالات متحده آمریکا.
جدول پیوندها
چکیده و 1 مقدمه
2 تنظیم و 2.1 مدل های مخالفان مغرضانه رفتاری
3 مقدمات و شهود
4.1 Myopic Best Responder و 4.2 Gambler’s Fallacy Opponent
4.3 برنده ماندن، باخت و شیفت مخالف
4.4 حریف پیرو رهبر و 4.5 بالاترین میانگین بازده حریف
5 تعمیم دادن
5.1 سایر راهبردهای مبتنی بر رفتار
5.2 بهره برداری از یک استراتژی ناشناخته از مجموعه ای از استراتژی های شناخته شده
6 کار آینده و مراجع
یک ضمیمه
الف.1 نوع برد-بمان باخت-شیفت: کراوات-بمان
الف.2 نوع پیرو رهبر: تاریخچه محدود
الف.3 مرزهای اشتباه بیضی
A.4 بالاترین میانگین بازده حریف
5.2 بهره برداری از یک استراتژی ناشناخته از مجموعه ای از استراتژی های شناخته شده
یک توسعه طبیعی دیگر این است که سناریویی را در نظر بگیریم که در آن می دانیم حریف از یک مجموعه شناخته شده از استراتژی های مغرضانه B استفاده می کند، اما ما نمی دانیم کدام یک. مجدداً، ما فرض میکنیم که استراتژیهای B زمانی که با یکی از مکانیسمهای قطعی قطعی ممکن پارامتربندی شوند، قطعی هستند.
پیش بینی اقدامات حریف
یادگیری بهترین پاسخ ها
چالش، دوباره، یادگیری بهترین پاسخ ها است. به طور کلی، هر زمان که میتوانیم از الگوریتم مشابهی برای …