یادگیری تقویتی (RL) حوزه ای از یادگیری ماشینی است که بر آموزش عوامل هوشمند با استفاده از تجربیات مرتبط تمرکز دارد تا آنها بتوانند وظایف تصمیم گیری مانند بازی های ویدیویی، پرواز بالن های استراتوسفر و طراحی تراشه های سخت افزاری را بیاموزند. با توجه به عمومیت RL، روند رایج در تحقیقات RL، توسعه عواملی است که بتوانند به طور موثر یاد بگیرند. جوانه های چشایی، یعنی از ابتدا بدون استفاده از دانش آموخته شده قبلی در مورد مشکل. با این حال، در عمل، سیستمهای tabula rasa RL معمولا استثنا هستند و نه هنجار برای حل مسائل RL در مقیاس بزرگ. RL در مقیاس بزرگ سیستمهایی مانند OpenAI Five که عملکردی در سطح انسانی در Dota 2 به دست میآورد، در طول چرخه توسعهشان دستخوش تغییرات طراحی متعدد (مثلاً تغییرات الگوریتمی یا معماری) میشوند. این فرآیند اصلاح میتواند ماهها طول بکشد و مستلزم اعمال چنین تغییراتی بدون آموزش مجدد از ابتدا است، که بسیار پرهزینه خواهد بود.
علاوه بر این، ناکارآمدی تحقیق Tabula rasa RL میتواند بسیاری از محققان را از مقابله با مشکلات محاسباتی محروم کند. به عنوان مثال، معیار اساسی آموزش یک عامل RL عمیق بر روی 50+ بازی Atari 2600 در ALE برای 200 میلیون فریم (پروتکل استاندارد) به 1000+ روز GPU نیاز دارد. همانطور که RL عمیق به سمت مسائل پیچیده تر و چالش برانگیزتر حرکت می کند، مانع محاسباتی برای ورود به تحقیقات RL احتمالاً حتی بیشتر خواهد شد.
برای پرداختن به ناکارآمدیهای tabula rasa RL، ما «یادگیری تقویتی در تناسخ مجدد: استفاده مجدد از محاسبات قبلی برای تسریع پیشرفت» را در NeurIPS 2022 ارائه میکنیم. در اینجا، ما یک رویکرد جایگزین برای تحقیقات RL پیشنهاد میکنیم، که در آن کار محاسباتی قبلی، مانند مدلهای آموختهشده، سیاستها، دادههای ثبتشده و غیره، بین تکرارهای طراحی یک عامل RL یا از یک عامل به عامل دیگر استفاده مجدد یا منتقل میشوند. در حالی که برخی از حوزههای فرعی RL از محاسبات قبلی استفاده میکنند، اکثر عوامل RL هنوز تا حد زیادی از ابتدا آموزش دیدهاند. تا کنون، هیچ تلاش گستردهتری برای استفاده از کار محاسباتی قبلی برای گردش کار آموزشی در تحقیقات RL صورت نگرفته است. ما همچنین کد خود را منتشر کردهایم و عواملی را آموزش دادهایم که محققان را قادر میسازد بر روی این کار بسازند.
![]() |
Tabula rasa RL در مقابل RL تناسخ (RRL). در حالی که Tabula rasa RL بر یادگیری از ابتدا تمرکز دارد، RRL مبتنی بر فرض استفاده مجدد از کار محاسباتی قبلی (مثلاً عوامل آموخته شده قبلی) هنگام آموزش عوامل جدید یا بهبود عوامل موجود، حتی در همان محیط است. در RRL، عوامل جدید نیازی به آموزش از ابتدا ندارند، به جز برای حملات اولیه به مشکلات جدید. |
چرا Reincarnating RL؟
Reincarnating RL (RRL) یک گردش کار محاسباتی و نمونه کارآمدتر از آموزش از ابتدا است. RRL می تواند تحقیقات را با اجازه دادن به جامعه گسترده تر برای مقابله با مشکلات پیچیده RL بدون نیاز به منابع محاسباتی بیش از حد، دموکراتیک کند. علاوه بر این، RRL می تواند یک الگوی محک زدن را فعال کند که در آن محققان به طور مستمر عوامل آموزش دیده موجود را بهبود می بخشند و به روز می کنند، به ویژه در مورد مشکلاتی که بهبود عملکرد تأثیری در دنیای واقعی دارد، مانند ناوبری بالون یا طراحی تراشه. در نهایت، موارد استفاده از RL در دنیای واقعی احتمالاً در سناریوهایی خواهد بود که کار محاسباتی قبلی در دسترس است (به عنوان مثال، سیاستهای RL مستقر موجود).
![]() |
RRL به عنوان یک گردش کار تحقیقاتی جایگزین. محققی را تصور کنید که مامور A را آموزش داده است1 برای مدتی، اما اکنون میخواهد با معماریها یا الگوریتمهای بهتری آزمایش کند. در حالی که گردش کار tabula rasa مستلزم بازآموزی یک عامل دیگر از ابتدا است، RRL گزینه مناسب تر برای انتقال عامل موجود A را ارائه می دهد.1 به یک نماینده دیگر و آموزش بیشتر این نماینده، یا به سادگی تنظیم دقیق A1. |
در حالی که برخی تلاشهای موقتی در مقیاس بزرگ برای تناسخ با کاربرد محدود انجام شده است، به عنوان مثال، جراحی مدل در Dota2، تقطیر سیاست در مکعب روبیک، PBT در AlphaStar، RL تنظیم دقیق یک سیاست شبیهسازی رفتار در AlphaGo / Minecraft، RRL انجام نداده است. به عنوان یک مسئله تحقیقاتی در نوع خود مورد مطالعه قرار گرفته است. برای این منظور، ما برای توسعه رویکردهای RRL همه منظوره در مقابل راهحلهای ad-hoc قبلی استدلال میکنیم.
مطالعه موردی: خطمشی برای ارزشگذاری RL در حال تناسخ
بسته به نوع کار محاسباتی قبلی ارائه شده، می توان مسائل مختلف RRL را مثال زد. بهعنوان گامی در جهت توسعه رویکردهای RRL با کاربرد گسترده، ما یک مطالعه موردی را در مورد تنظیم سیاست به ارزش RL (PVRL) برای انتقال مؤثر یک خطمشی زیربهینه موجود (معلم) به یک عامل مستقل مبتنی بر ارزش RL (دانشآموز) ارائه میکنیم. . در حالی که یک خط مشی مستقیماً یک وضعیت محیطی معین (مثلاً صفحه بازی در آتاری) را به یک اقدام ترسیم می کند، عوامل مبتنی بر ارزش اثربخشی یک اقدام را در یک وضعیت معین از نظر پاداش های قابل دستیابی در آینده تخمین می زنند، که به آنها امکان می دهد از موارد قبلی یاد بگیرند. داده های جمع آوری شده

برای اینکه یک الگوریتم PVRL به طور گسترده مفید باشد، باید شرایط زیر را برآورده کند:
- معلم آگنوستیک: دانش آموز نباید توسط معماری یا الگوریتم آموزشی خط مشی معلم موجود محدود شود.
- از شیر گرفتن معلم: حفظ وابستگی به معلمان نابهینه گذشته برای تناسخ متوالی نامطلوب است.
- محاسبه / نمونه کارآمد: تناسخ تنها زمانی مفید است که از آموزش از ابتدا ارزانتر باشد.
با توجه به الزامات الگوریتم PVRL، ارزیابی می کنیم که آیا رویکردهای موجود، طراحی شده با اهداف نزدیک به هم، کافی هستند یا خیر. ما متوجه شدیم که چنین رویکردهایی یا منجر به پیشرفتهای کوچکی نسبت به Tabula rasa RL میشوند یا در هنگام از شیر گرفتن معلم عملکرد را کاهش میدهند.
برای رفع این محدودیت ها، یک روش ساده را معرفی می کنیم، QDagger، که در آن عامل دانش را از طریق یک الگوریتم تقلید از معلم غیربهینه تقلید می کند در حالی که همزمان از تعاملات محیطی خود برای RL استفاده می کند. ما با یک عامل شبکه Q عمیق (DQN) آموزش دیده برای 400 میلیون فریم محیطی (یک هفته آموزش تک GPU) شروع می کنیم و از آن به عنوان معلم برای تناسخ عوامل دانشجویی که فقط روی 10 میلیون فریم (چند ساعت آموزش) آموزش دیده اند استفاده می کنیم. معلم با 6 میلیون فریم اول از شیر گرفته می شود. برای ارزیابی معیار، متریک میانگین بین ربعی (IQM) را از کتابخانه RLiable گزارش میکنیم. همانطور که در زیر برای تنظیمات PVRL در بازیهای Atari نشان داده شده است، متوجه میشویم که روش QDagger RRL از رویکردهای قبلی بهتر عمل میکند.
![]() |
الگوریتمهای PVRL را در آتاری محک میزنید، با نمرات نرمالسازی شده توسط معلم که در 10 بازی جمعآوری شدهاند. Tabula rasa DQN (–·–) نمره نرمال شده 0.4 را به دست می آورد. رویکردهای پایه استاندارد شامل شروع، JSRL، تمرین، پیش تمرین RL آفلاین و DQfD است. در بین همه روشها، تنها QDagger از عملکرد معلم در 10 میلیون فریم پیشی میگیرد و در 75 درصد بازیها از معلم برتری دارد. |
تناسخ RL در عمل
ما بیشتر رویکرد RRL را در محیط یادگیری Arcade، یک معیار RL عمیق که به طور گسترده استفاده می شود، بررسی می کنیم. ابتدا یک عامل Nature DQN را می گیریم که از بهینه ساز RMSProp استفاده می کند و آن را با بهینه ساز Adam تنظیم می کنیم تا یک عامل DQN (Adam) ایجاد کنیم. در حالی که آموزش یک عامل DQN (آدام) از ابتدا امکان پذیر است، ما نشان می دهیم که تنظیم دقیق Nature DQN با بهینه ساز Adam با استفاده از داده و محاسبه 40 برابر کمتر با عملکرد از ابتدا مطابقت دارد.
![]() |
تناسخ DQN (آدام) از طریق Fine-Tuning. جداکننده عمودی مربوط به بارگذاری وزن شبکه و پخش مجدد داده ها برای تنظیم دقیق است. ترک کرد: Tabula rasa Nature DQN تقریباً بعد از 200 میلیون فریم محیطی از نظر عملکرد همگرا می شود. درست: تنظیم دقیق این عامل Nature DQN با استفاده از نرخ یادگیری کاهش یافته با بهینه ساز Adam برای 20 میلیون فریم، نتایج مشابه DQN (آدام) را که از ابتدا برای 400 میلیون فریم آموزش داده شده است، به دست می آورد. |
با توجه به عامل DQN (آدام) به عنوان نقطه شروع، تنظیم دقیق به معماری کانولوشنال 3 لایه محدود می شود. بنابراین، ما یک رویکرد تناسخ عمومیتر را در نظر میگیریم که از پیشرفتهای معماری و الگوریتمی اخیر بدون آموزش از ابتدا استفاده میکند. به طور خاص، ما از QDagger برای تناسخ یک عامل RL دیگر استفاده میکنیم که از یک الگوریتم پیشرفتهتر RL (Rainbow) و یک معماری شبکه عصبی بهتر (Impala-CNN ResNet) از عامل DQN (آدام) بهخوبی تنظیم شده استفاده میکند.
![]() |
تناسخ مجدد معماری / الگوریتم متفاوت از طریق QDagger. جداکننده عمودی نقطهای است که در آن پیشآموزش آفلاین را با استفاده از QDagger برای تناسخ اعمال میکنیم. ترک کرد: تنظیم دقیق DQN با Adam. درست: مقایسه یک عامل Tabula rasa Impala-CNN Rainbow (آبی آسمان) با یک عامل Impala-CNN Rainbow (صورتی) آموزش دیده با استفاده از QDagger RRL از DQN (آدام) با تنظیم دقیق. عامل Reincarnated Impala-CNN Rainbow به طور مداوم از همتای خراشیده خود بهتر عمل می کند. توجه داشته باشید که تنظیم دقیق DQN (آدام) منجر به کاهش بازده (زرد) می شود. |
به طور کلی، این نتایج نشان میدهد که تحقیقات گذشته میتوانست با استفاده از رویکرد RRL برای طراحی عوامل، به جای آموزش مجدد عوامل از ابتدا، تسریع شود. مقاله ما همچنین حاوی نتایجی در مورد محیط یادگیری بالون است، جایی که نشان میدهیم که RRL به ما اجازه میدهد تا با استفاده مجدد از یک عامل RL توزیعشده که بر روی TPUها برای بیش از یک زمان آموزش دیده است، در مسئله ناوبری بالنهای استراتوسفری تنها با استفاده از چند ساعت محاسبه TPU پیشرفت کنیم. ماه
بحث
مقایسه نسبتاً رویکردهای تناسخ مستلزم استفاده از همان کار محاسباتی و گردش کار است. علاوه بر این، یافتههای تحقیق در RRL که به طور کلی تعمیم میدهند، در مورد اینکه چگونه یک الگوریتم به کار محاسباتی موجود دسترسی دارد مؤثر است، به عنوان مثال، ما با موفقیت QDagger را با استفاده از Atari برای تناسخ در محیط یادگیری بالن استفاده کردیم. به این ترتیب، ما حدس می زنیم که تحقیقات در تناسخ RL می تواند در دو جهت منشعب شود:
- معیارهای استاندارد شده با کار محاسباتی منبع باز: مشابه NLP و چشم انداز، جایی که معمولاً مجموعه کوچکی از مدل های از پیش آموزش دیده رایج است، تحقیقات در RRL ممکن است به مجموعه کوچکی از کار محاسباتی منبع باز (مثلاً خط مشی های معلم از قبل آموزش دیده) بر روی یک معیار معین همگرا شود.
- دامنه های دنیای واقعی: از آنجایی که به دست آوردن عملکرد بالاتر در برخی از حوزه ها تأثیر واقعی دارد، جامعه را به استفاده مجدد از عوامل پیشرفته و تلاش برای بهبود عملکرد آنها تشویق می کند.
مقاله ما را برای بحث گسترده تر در مورد مقایسه های علمی، تعمیم پذیری و تکرارپذیری در RRL ببینید. به طور کلی، ما امیدواریم که این کار محققان را به انتشار کارهای محاسباتی (مثلاً نقاط بازرسی مدل) برانگیزد که دیگران بتوانند مستقیماً روی آن بسازند. در این راستا، ما کدهای خود و عوامل آموزش دیده را با بافرهای پخش نهایی آنها منبع باز کرده ایم. ما بر این باوریم که تناسخ RL می تواند به طور قابل توجهی پیشرفت تحقیقات را با ایجاد کار محاسباتی قبلی تسریع بخشد، برخلاف همیشه که از ابتدا شروع کنیم.
سپاسگزاریها
این کار با همکاری پابلو ساموئل کاسترو، آرون کورویل و مارک بلمار انجام شده است. مایلیم از تام اسمال برای فیگور متحرک استفاده شده در این پست تشکر کنیم. همچنین از بازخورد بازبینان ناشناس NeurIPS و چندین عضو تیم تحقیقاتی Google، DeepMind و Mila سپاسگزاریم.