بینش گسترده تر از استراتژی های قابل بهره برداری در بازی های جمع صفر

نویسندگان:

(1) Avrim Blum ، موسسه فناوری تویوتا در شیکاگو ، IL ، ایالات متحده ؛

(2) ملیسا دوتز ، مؤسسه فناوری تویوتا در شیکاگو ، IL ، ایالات متحده.

چکیده و 1 مقدمه

2 تنظیم و 2.1 مدل از مخالفان مغرضانه رفتاری

3 مقدمات و شهود

4.1 بهترین پاسخ دهنده و حریف مغزی 4.2 قمارباز

4.3 برنده ، حریف از دست دادن

4.4 حریف پیروی از رهبر و 4.5 بالاترین حریف بازپرداخت

5 تعمیم

5.1 سایر استراتژی های مغرضانه از نظر رفتاری

5.2 بهره برداری از یک استراتژی ناشناخته از مجموعه ای از استراتژی ها

6 کار و منابع آینده

یک ضمیمه

A.1 نوع Win-Stay-Lose-Shift: Tie-Stay

A.2 نوع پیروی از رهبر: تاریخ محدود

A.3 مرزهای اشتباه بیضوی

A.4 بالاترین حریف بازپرداخت

5.1 سایر استراتژی های مغرضانه از نظر رفتاری

یک سؤال طبیعی که باید بپرسید این است که ، چه نوع استراتژی های مغرضانه رفتاری را می توانیم از آن استفاده کنیم تا تقریباً در هر دور از یک بازی مجاز (تعریف 1) برنده شویم؟ واضح است ، اگر بتوانیم اقدامات حریف را پیش بینی کنیم و بهترین پاسخ ها را به آن دسته از اقداماتی که حریف انجام می دهد بیاموزیم ، می توانیم به این هدف برسیم.

پیش بینی اقدامات حریف

یادگیری بهترین پاسخ ها

سوال چالش برانگیزتر این است که استراتژی های قطعی که می توانیم از آنها استفاده کنیم تا بهترین پاسخ ها را برای هر عملی که حریف ممکن است از آن استفاده کند ، استفاده کنیم.

Source link