آموزش عوامل ژنرالیست با ترانسفورماتورهای تصمیم گیری چند بازی

روش‌های یادگیری تقویتی عمیق فعلی (RL) می‌توانند عوامل مصنوعی متخصصی را آموزش دهند که در تصمیم‌گیری در مورد وظایف مختلف فردی در محیط‌های خاص مانند Go یا StarCraft برتری داشته باشند. با این حال، پیشرفت اندکی برای گسترش این نتایج به عوامل کلی که نه تنها قادر به انجام بسیاری از وظایف مختلف هستند، بلکه در محیط‌های مختلف با تجسم‌های بالقوه متمایز نیز انجام شده است.

با نگاهی به پیشرفت‌های اخیر در زمینه‌های پردازش زبان طبیعی، بینایی و مدل‌های مولد (مانند PalM، Imagen، و Flamingo)، می‌بینیم که پیشرفت‌ها در ساخت مدل‌های همه منظوره اغلب با بزرگ‌نمایی مدل‌های مبتنی بر ترانسفورماتور و آموزش به دست می‌آیند. آنها بر روی مجموعه داده های بزرگ و متنوع معنایی. طبیعی است که تعجب کنیم، آیا می توان از یک استراتژی مشابه در ساخت عوامل عمومی برای تصمیم گیری متوالی استفاده کرد؟ آیا چنین مدل‌هایی می‌توانند تطبیق سریع با وظایف جدید، مشابه PalM و Flamingo را نیز فراهم کنند؟

به عنوان گام اولیه برای پاسخ به این پرسش‌ها، در مقاله اخیر خود «تبدیل‌کننده‌های تصمیم‌گیری چند بازی»، چگونگی ساخت یک عامل عمومی برای اجرای همزمان بسیاری از بازی‌های ویدیویی را بررسی می‌کنیم. مدل ما عاملی را آموزش می دهد که می تواند 41 بازی Atari را به طور همزمان با عملکرد نزدیک به انسان اجرا کند و همچنین می تواند به سرعت با بازی های جدید از طریق تنظیم دقیق سازگار شود. این رویکرد به طور قابل توجهی بر روی چند جایگزین موجود برای یادگیری عوامل چند بازی، مانند یادگیری تفاوت زمانی (TD) یا شبیه سازی رفتاری (BC) بهبود می بخشد.

یک مبدل تصمیم چند بازی (MGDT) می تواند چندین بازی را در سطح مطلوبی از شایستگی از زمان آموزش در طیف وسیعی از مسیرها که همه سطوح تخصص را در بر می گیرد، انجام دهد.

برای بازگشت بهینه سازی نکنید، فقط بهینه سازی را بخواهید
در یادگیری تقویتی، جایزه به سیگنال های تشویقی مربوط به تکمیل یک کار اشاره دارد و برگشت اشاره دارد به انباشته پاداش در دوره ای از تعاملات بین یک عامل و محیط اطرافش. عوامل یادگیری تقویت عمیق سنتی (DQN، SimPLe، Dreamer، و غیره) آموزش دیده اند بهینه سازی تصمیمات برای دستیابی به بازده بهینه. در هر مرحله زمانی، یک عامل محیط را مشاهده می‌کند (بعضی‌ها نیز فعل و انفعالاتی را که در گذشته اتفاق افتاده در نظر می‌گیرند) و تصمیم می‌گیرد که چه اقدامی برای کمک به خود برای دستیابی به میزان بازده بالاتر در تعاملات آینده انجام دهد.

در این کار، ما از ترانسفورماتورهای تصمیم به عنوان رویکرد اصلی خود برای آموزش یک عامل RL استفاده می کنیم. ترانسفورماتور تصمیم یک مدل توالی است که با در نظر گرفتن فعل و انفعالات گذشته بین یک عامل و محیط اطراف، و (مهمتر از همه) یک مورد دلخواه، اقدامات آینده را پیش بینی می کند. برگشت در تعاملات آینده به دست آید. ترانسفورماتور تصمیم به جای یادگیری خط مشی برای دستیابی به میزان بازدهی بالا مانند یادگیری تقویتی سنتی، تجربیات متنوعی را ترسیم می کند، از سطح متخصص تا سطح مبتدی، تا میزان بازگشت متناظر آنها در طول آموزش. ایده این است که آموزش یک نماینده بر روی طیف وسیعی از تجربیات (از سطح مبتدی تا متخصص) مدل را در معرض طیف وسیع تری از تغییرات در گیم پلی قرار می دهد، که به نوبه خود به آن کمک می کند قوانین مفیدی از گیم پلی استخراج کند که به آن اجازه می دهد تحت هر شرایطی موفق شود. بنابراین در طول استنتاج، ترانسفورماتور تصمیم می تواند به هر مقدار بازگشتی در محدوده ای که در طول آموزش دیده است، از جمله بازده بهینه دست یابد.

اما، چگونه می‌دانید که بازدهی در یک محیط معین هم بهینه و هم پایدار است؟ کاربردهای قبلی Decision Transformers متکی به تعاریف سفارشی شده از بازده مورد نظر برای هر کار جداگانه بود، که مستلزم تعریف دستی یک محدوده معقول و آموزنده از مقادیر اسکالر بود که سیگنال‌های قابل تفسیر مناسب برای هر بازی خاص هستند – وظیفه‌ای که بی‌اهمیت و نسبتاً مقیاس‌پذیر نیست. . برای پرداختن به این موضوع، ما در عوض توزیع مقادیر بازگشت را بر اساس تعاملات گذشته با محیط در طول آموزش مدل می کنیم. در زمان استنتاج، ما به سادگی یک سوگیری بهینه را اضافه می کنیم که احتمال ایجاد اقدامات مرتبط با بازده بالاتر را افزایش می دهد.

برای ثبت جامع‌تر الگوهای مکانی-زمانی تعاملات عامل-محیط، ما همچنین معماری ترانسفورماتور تصمیم را تغییر دادیم تا وصله‌های تصویر را به جای نمایش تصویر جهانی در نظر بگیریم. وصله‌ها به مدل اجازه می‌دهند تا روی پویایی محلی تمرکز کند، که به مدل‌سازی اطلاعات خاص بازی در جزئیات بیشتر کمک می‌کند.

این قطعات در کنار هم به ما ستون فقرات Multi-Game Decision Transformers را می دهند:

هر تصویر مشاهده ای به مجموعه ای از م تکه های پیکسلی که مشخص می شوند O. برگشت آر، عمل آ، و پاداش r این وصله های تصویر را در هر دنباله علی ورودی دنبال می کند. یک ترانسفورماتور تصمیم برای پیش‌بینی ورودی بعدی (به جز وصله‌های تصویر) برای ایجاد علیت آموزش دیده است.

آموزش ترانسفورماتور تصمیم گیری چند بازی برای اجرای همزمان 41 بازی
ما یک نماینده Decision Transformer را با مجموعه ای بزرگ (~1B) و گیم پلی از 41 بازی Atari آموزش می دهیم. در آزمایش‌های ما، این عامل، که ما آن را تبدیل‌کننده تصمیم‌گیری چند بازی (MGDT) می‌نامیم، به وضوح از روش‌های یادگیری تقویتی و شبیه‌سازی رفتاری موجود – تقریباً 2 برابر – در یادگیری بازی 41 بازی به طور همزمان بهتر عمل می‌کند و تقریباً توانایی‌های سطح انسانی را انجام می‌دهد. 100% در شکل زیر با سطح گیم پلی انسان مطابقت دارد). این نتایج هنگام مقایسه روش‌های آموزشی در هر دو تنظیمات که در آن یک خط‌مشی باید از مجموعه داده‌های ثابت (آفلاین) و همچنین مواردی که می‌توان داده‌های جدید را از تعامل با محیط جمع‌آوری کرد (آنلاین) یاد گرفت، باقی می‌ماند.

هر نوار یک امتیاز ترکیبی در 41 بازی است که 100٪ عملکرد در سطح انسانی را نشان می دهد. هر نوار آبی از مدلی است که روی 41 بازی به طور همزمان آموزش دیده است، در حالی که هر نوار خاکستری از 41 نماینده متخصص است. Multi-Game Decision Transformer به عملکردی در سطح انسانی دست می یابد، به طور قابل توجهی بهتر از سایر عوامل چند بازی، حتی قابل مقایسه با عوامل متخصص.

این نتیجه نشان می دهد که ترانسفورماتورهای تصمیم برای عوامل چند وظیفه ای، چند محیطی و چند تجسمی مناسب هستند.

یک کار همزمان، “یک عامل عمومی”، نتیجه مشابهی را نشان می‌دهد و نشان می‌دهد که مدل‌های توالی مبتنی بر ترانسفورماتور بزرگ می‌توانند رفتارهای متخصص را در بسیاری از محیط‌های دیگر به خوبی به خاطر بسپارند. علاوه بر این، کار آنها و کار ما یافته‌های مکمل خوبی دارد: آنها نشان می‌دهند که می‌توان در محیط‌های مختلف فراتر از بازی‌های آتاری تمرین کرد، در حالی که ما نشان می‌دهیم که آموزش در طیف وسیعی از تجربیات ممکن و مفید است.

علاوه بر عملکرد نشان‌داده‌شده در بالا، از نظر تجربی دریافتیم که MGDT آموزش‌دیده بر اساس تجربیات مختلف بهتر از MDGT است که فقط بر روی نمایش‌های سطح متخصص یا رفتارهای نمایشی شبیه‌سازی ساده آموزش داده می‌شود.

افزایش اندازه مدل چند بازی برای دستیابی به عملکرد بهتر
مسلماً مقیاس به نیروی محرکه اصلی در بسیاری از پیشرفت‌های اخیر یادگیری ماشین تبدیل شده است و معمولاً با افزایش تعداد پارامترها در یک مدل مبتنی بر ترانسفورماتور به دست می‌آید. مشاهدات ما در مورد Transformers تصمیم چند بازی مشابه است: عملکرد به طور قابل پیش بینی با اندازه مدل بزرگتر افزایش می یابد. به طور خاص، به نظر می رسد عملکرد آن هنوز به سقف نرسیده است، و در مقایسه با سایر سیستم های یادگیری، دستاوردهای عملکرد با افزایش اندازه مدل قابل توجه تر است.

عملکرد ترانسفورماتور تصمیم گیری چند بازی (نشان داده شده با خط آبی) با اندازه مدل بزرگتر به طور قابل پیش بینی افزایش می یابد، در حالی که مدل های دیگر اینطور نیستند.

ترانسفورماتورهای تصمیم گیری چند بازی از پیش آموزش داده شده، یادگیرندگان سریع هستند
یکی دیگر از مزایای MGDT ها این است که آنها می توانند یاد بگیرند که چگونه یک بازی جدید را از چند نمایش گیم پلی (که لازم نیست همه آنها در سطح متخصص باشند) بازی کنند. از این نظر، MGDT ها را می توان مدل های از پیش آموزش دیده ای در نظر گرفت که می توانند به سرعت بر روی داده های کوچک گیم پلی جدید تنظیم شوند. در مقایسه با سایر روش‌های رایج پیش‌آموزشی، به وضوح مزایای ثابتی در کسب امتیازات بالاتر نشان می‌دهد.

پیش‌آموزش مبدل تصمیم‌گیری چند بازی (پیش‌آموزشی DT، نشان‌داده‌شده به رنگ آبی روشن) مزایای ثابتی را نسبت به سایر مدل‌های محبوب در سازگاری با وظایف جدید نشان می‌دهد.

نماینده به کجا نگاه می کند؟
علاوه بر ارزیابی کمی، تجسم رفتار عامل بصیرتی (و سرگرم کننده) است. با بررسی سرهای توجه، متوجه می‌شویم که مدل MGDT به طور مداوم وزن را در میدان دید خود به مناطقی از تصاویر مشاهده‌شده که حاوی موجودیت‌های بازی معنی‌دار هستند، قرار می‌دهد. ما توجه مدل را هنگام پیش‌بینی اقدام بعدی برای بازی‌های مختلف تجسم می‌کنیم و متوجه می‌شویم که به طور مداوم به نهادهایی مانند آواتار روی صفحه نمایش، فضای حرکت آزاد عامل، اشیاء غیر عامل و ویژگی‌های کلیدی محیط توجه می‌کند. برای مثال، در یک محیط تعاملی، داشتن یک مدل جهان دقیق مستلزم دانستن چگونگی و زمان تمرکز بر روی اشیاء شناخته شده (مثلاً موانع فعلی) و همچنین انتظار و/یا برنامه ریزی برای ناشناخته های آینده است (مثلاً فضای منفی). این تخصیص متنوع توجه به بسیاری از اجزای کلیدی هر محیط در نهایت عملکرد را بهبود می بخشد.

در اینجا می‌توانیم میزان وزنی را که مدل روی هر دارایی کلیدی صحنه بازی می‌گذارد، ببینیم. قرمز روشن‌تر نشان‌دهنده تاکید بیشتر روی آن تکه پیکسل است.

آینده کارگزاران عمومی در مقیاس بزرگ
این کار گام مهمی در نشان دادن امکان آموزش عوامل همه منظوره در بسیاری از محیط‌ها، تجسم‌ها و سبک‌های رفتاری است. ما مزایای افزایش مقیاس در عملکرد و پتانسیل را با مقیاس بندی بیشتر نشان داده ایم. به نظر می‌رسد این یافته‌ها به روایتی تعمیم‌دهنده مشابه با حوزه‌های دیگر مانند بینش و زبان اشاره می‌کنند که به پتانسیل بزرگ مقیاس‌بندی داده‌ها و اثربخشی یادگیری از تجربیات متنوع اشاره می‌کند.

ما مشتاقانه منتظر تحقیقات آینده برای توسعه عوامل عملکردی برای تنظیمات چند محیطی و چند تجسمی هستیم. کد و مدل چک پوینت‌های ما در اینجا قابل دسترسی هستند.

سپاسگزاریها
مایلیم از همه نویسندگان باقیمانده مقاله از جمله ایگور مرداچ، اوفر ناچوم منجیائو یانگ، لیزا لی، دانیل فریمن، سرجیو گوآداراما، ایان فیشر، اریک جانگ، هنریک میکالوسکی تشکر کنیم.