نویسندگان:
(1) Avrim Blum ، موسسه فناوری تویوتا در شیکاگو ، IL ، ایالات متحده ؛
(2) ملیسا دوتز ، مؤسسه فناوری تویوتا در شیکاگو ، IL ، ایالات متحده.
جدول پیوندها
چکیده و 1 مقدمه
2 تنظیم و 2.1 مدل از مخالفان مغرضانه رفتاری
3 مقدمات و شهود
4.1 بهترین پاسخ دهنده و حریف مغزی 4.2 قمارباز
4.3 برنده ، حریف از دست دادن
4.4 حریف پیروی از رهبر و 4.5 بالاترین حریف بازپرداخت
5 تعمیم
5.1 سایر استراتژی های مغرضانه از نظر رفتاری
5.2 بهره برداری از یک استراتژی ناشناخته از مجموعه ای از استراتژی ها
6 کار و منابع آینده
یک ضمیمه
A.1 نوع Win-Stay-Lose-Shift: Tie-Stay
A.2 نوع پیروی از رهبر: تاریخ محدود
A.3 مرزهای اشتباه بیضوی
A.4 بالاترین حریف بازپرداخت
4. استراتژی هایی برای ضرب و شتم مخالفان مغرضانه رفتاری
4.1 بهترین پاسخ دهنده
▶ قضیه 3. بازی کردن الگوریتم 2 در برابر بهترین پاسخ دهنده در یک بازی مجاز (تعریف 1) منجر به پیروزی در هر دور بعد از اولین دور N + 1 می شود.
اثباتبشر بهترین پاسخ دهنده نزدیک به عملکرد قبلی ما بهترین پاسخ را می دهد ، بنابراین ما در طول دور اول N + 1 بهترین پاسخ صحیح را برای هر عمل ثبت می کنیم. بهترین پاسخ دهنده میوپی همیشه بهترین پاسخ را بازی می کند (اولین مورد در سفارش عمل خود) به دنبال هر چیز دیگری …