راهنمای بهره برداری از استراتژی های ناشناخته از یک مجموعه تعصب شناخته شده

نویسندگان:

(1) Avrim Blum، موسسه فناوری تویوتا در شیکاگو، IL، ایالات متحده آمریکا.

(2) ملیسا دوتز، موسسه فناوری تویوتا در شیکاگو، IL، ایالات متحده آمریکا.

چکیده و 1 مقدمه

2 تنظیم و 2.1 مدل های مخالفان مغرضانه رفتاری

3 مقدمات و شهود

4.1 Myopic Best Responder و 4.2 Gambler’s Fallacy Opponent

4.3 برنده ماندن، باخت و شیفت مخالف

4.4 حریف پیرو رهبر و 4.5 بالاترین میانگین بازده حریف

5 تعمیم دادن

5.1 سایر راهبردهای مبتنی بر رفتار

5.2 بهره برداری از یک استراتژی ناشناخته از مجموعه ای از استراتژی های شناخته شده

6 کار آینده و مراجع

یک ضمیمه

الف.1 نوع برد-بمان باخت-شیفت: کراوات-بمان

الف.2 نوع پیرو رهبر: تاریخچه محدود

الف.3 مرزهای اشتباه بیضی

A.4 بالاترین میانگین بازده حریف

5.2 بهره برداری از یک استراتژی ناشناخته از مجموعه ای از استراتژی های شناخته شده

یک توسعه طبیعی دیگر این است که سناریویی را در نظر بگیریم که در آن می دانیم حریف از یک مجموعه شناخته شده از استراتژی های مغرضانه B استفاده می کند، اما ما نمی دانیم کدام یک. مجدداً، ما فرض می‌کنیم که استراتژی‌های B زمانی که با یکی از مکانیسم‌های قطعی قطعی ممکن پارامتربندی شوند، قطعی هستند.

پیش بینی اقدامات حریف

یادگیری بهترین پاسخ ها

چالش، دوباره، یادگیری بهترین پاسخ ها است. به طور کلی، هر زمان که می‌توانیم از الگوریتم مشابهی برای …

Source link