الگوریتم های بیضی به عنوان ابزاری در برابر مخالفان قابل پیش بینی

نویسندگان:

(1) Avrim Blum، موسسه فناوری تویوتا در شیکاگو، IL، ایالات متحده آمریکا.

(2) ملیسا دوتز، موسسه فناوری تویوتا در شیکاگو، IL، ایالات متحده آمریکا.

چکیده و 1 مقدمه

2 تنظیم و 2.1 مدل های مخالفان مغرضانه رفتاری

3 مقدمات و شهود

4.1 Myopic Best Responder و 4.2 Gambler’s Fallacy Opponent

4.3 برنده ماندن، باخت و شیفت مخالف

4.4 حریف پیرو رهبر و 4.5 بالاترین میانگین بازده حریف

5 تعمیم دادن

5.1 سایر راهبردهای مبتنی بر رفتار

5.2 بهره برداری از یک استراتژی ناشناخته از مجموعه ای از استراتژی های شناخته شده

6 کار آینده و مراجع

یک ضمیمه

الف.1 نوع برد-بمان باخت-شیفت: کراوات-بمان

الف.2 نوع پیروی از رهبر: تاریخچه محدود

الف.3 مرزهای اشتباه بیضی

A.4 بالاترین میانگین بازده حریف

4.4 حریف پیرو رهبر

به یاد بیاورید که حریف Follow-the-Leader بهترین اکشن را در گذشته انجام می دهد، که به عنوان عملی تعریف می شود که بالاترین بازده را در کل تاریخ بازی ما داشته باشد. برای این حریف، استراتژی ما این خواهد بود که بهترین پاسخ را به هر عمل بیاموزیم و سپس از الگوریتم بیضی شناخته شده برای پیش‌بینی اقدامات حریف در حالی که بهترین پاسخ‌ها را به اقدامات پیش‌بینی‌شده انجام می‌دهیم، استفاده کنیم.

استفاده از Ellipsoid برای پیش بینی

توجه داشته باشید که در حالی که محدودیت تعداد ضررها و تساوی هایی که متحمل می شویم …

Source link