نویسندگان:
(1) Avrim Blum ، موسسه فناوری تویوتا در شیکاگو ، IL ، ایالات متحده ؛
(2) ملیسا دوتز ، مؤسسه فناوری تویوتا در شیکاگو ، IL ، ایالات متحده.
جدول پیوندها
چکیده و 1 مقدمه
2 تنظیم و 2.1 مدل از مخالفان مغرضانه رفتاری
3 مقدمات و شهود
- استراتژی هایی برای ضرب و شتم مخالفان مغرضانه رفتاری
4.1 بهترین پاسخ دهنده و حریف مغزی 4.2 قمارباز
4.3 برنده ، حریف از دست دادن
4.4 حریف پیروی از رهبر و 4.5 بالاترین حریف بازپرداخت
5 تعمیم
5.1 سایر استراتژی های مغرضانه از نظر رفتاری
5.2 بهره برداری از یک استراتژی ناشناخته از مجموعه ای از استراتژی ها
6 کار و منابع آینده
یک ضمیمه
A.1 نوع Win-Stay-Lose-Shift: Tie-Stay
A.2 نوع پیروی از رهبر: تاریخ محدود
A.3 مرزهای اشتباه بیضوی
A.4 بالاترین حریف بازپرداخت
چکیده
گیم پلی تحت اشکال مختلف عدم اطمینان به طور گسترده ای مورد مطالعه قرار گرفته است. فلدمن و همکاران. [8] یک تنظیم به خصوص کم اطلاعات را مورد مطالعه قرار داد که در آن اقدامات حریف را مشاهده می کند اما هیچ بازپرداخت ، حتی شخصی نیز ندارد و الگوریتمی را معرفی می کند که بازپرداخت شخص را تضمین می کند با این وجود به مقدار بهینه Minimax (یعنی صفر) در یک بازی متقارن صفر افزایش می یابد. در برابر حریف که یک استراتژی بهینه را بازی می کند ، نزدیک شدن به ارزش بازی …