تحقیقات در مورد چگونگی تصمیم گیری عوامل مصنوعی به سرعت از طریق پیشرفت در یادگیری تقویتی عمیق تکامل یافته است. در مقایسه با مدلهای ML مولد مانند GPT-3 و Imagen، عوامل مصنوعی میتوانند مستقیماً بر محیط خود از طریق اقداماتی مانند حرکت دادن بازوی ربات بر اساس ورودیهای دوربین یا کلیک کردن روی دکمهای در مرورگر وب تأثیر بگذارند. در حالی که عوامل مصنوعی این پتانسیل را دارند که به طور فزاینده ای برای مردم مفید باشند، روش های فعلی به دلیل نیاز به دریافت بازخورد دقیق در قالب پاداش های مکرر ارائه شده برای یادگیری استراتژی های موفق، عقب مانده است. به عنوان مثال، با وجود بودجه های محاسباتی زیاد، حتی برنامه های قدرتمندی مانند AlphaGo تا دریافت پاداش بعدی به چند صد حرکت محدود می شوند.
در مقابل، کارهای پیچیده ای مانند تهیه یک وعده غذایی نیاز به تصمیم گیری در همه سطوح دارد، از برنامه ریزی منو، رفتن به فروشگاه برای خرید مواد غذایی، و پیروی از دستور غذا در آشپزخانه تا اجرای صحیح مهارت های حرکتی ظریف مورد نیاز در هر مرحله در طول مسیر. روشی مبتنی بر ورودی های حسی با ابعاد بالا. یادگیری تقویتی سلسله مراتبی (HRL) وعده می دهد که به طور خودکار چنین وظایف پیچیده ای را به اهداف فرعی قابل مدیریت تقسیم می کند و به عوامل مصنوعی این امکان را می دهد تا وظایف را به طور مستقل از پاداش های کمتر حل کنند. پاداش های اندک. با این حال، پیشرفت تحقیقات در مورد HRL ثابت شده است که چالش برانگیز است. روش های فعلی بر فضاهای هدف یا وظایف فرعی تعیین شده دستی تکیه می کنند و هیچ راه حل کلی وجود ندارد.
برای تحریک پیشرفت در این چالش تحقیقاتی و با همکاری دانشگاه کالیفرنیا، برکلی، ما عامل Director را ارائه میکنیم که رفتارهای سلسله مراتبی عملی، کلی و قابل تفسیر را از پیکسلهای خام یاد میگیرد. مدیر یک خط مشی مدیر را آموزش می دهد تا اهداف فرعی را در فضای پنهان یک مدل جهان آموخته پیشنهاد کند و یک خط مشی کارگری را برای دستیابی به این اهداف آموزش می دهد. علیرغم اینکه بر روی بازنمایی های پنهان کار می کنیم، می توانیم اهداف فرعی داخلی کارگردان را به تصاویر رمزگشایی کنیم تا تصمیمات آن را بررسی و تفسیر کنیم. ما Director را در چندین معیار ارزیابی میکنیم و نشان میدهیم که استراتژیهای سلسله مراتبی متنوعی را میآموزد و در مواردی که رویکردهای قبلی شکست میخورد، وظایفی را با پاداشهای بسیار کم حل میکند، مانند کاوش در پیچ و خمهای سه بعدی با رباتهای چهارپا مستقیماً از ورودیهای پیکسل اول شخص.
![]() |
کارگردان یاد می گیرد که وظایف پیچیده افق طولانی را با تقسیم خودکار آنها به اهداف فرعی حل کند. هر پانل تعامل محیط را در سمت چپ و اهداف داخلی رمزگشایی شده را در سمت راست نشان می دهد. |
کارگردان چگونه کار می کند
کارگردان یک مدل جهانی را از پیکسل ها می آموزد که برنامه ریزی کارآمد را در یک فضای پنهان امکان پذیر می کند. مدل جهانی تصاویر را به حالت های مدل نگاشت می کند و سپس با توجه به اقدامات بالقوه، حالت های مدل آینده را پیش بینی می کند. از مسیرهای پیشبینیشده حالتهای مدل، مدیر دو سیاست را بهینه میکند: مدیر هر تعداد ثابت قدم یک هدف جدید انتخاب می کند و کارگر می آموزد که از طریق اقدامات سطح پایین به اهداف دست یابد. با این حال، انتخاب اهداف به طور مستقیم در فضای بازنمایی پیوسته با ابعاد بالا مدل جهانی یک مشکل کنترل چالش برانگیز برای مدیر خواهد بود. در عوض، ما یک رمزگذار خودکار هدف را یاد می گیریم تا حالت های مدل را به کدهای گسسته کوچکتر فشرده کند. سپس مدیر کدهای گسسته را انتخاب می کند و رمزگذار خودکار هدف آنها را قبل از اینکه به عنوان هدف به کارگر ارسال کند آنها را به حالت های مدل تبدیل می کند.
![]() |
ترک کرد: رمزگذار خودکار هدف (آبی) حالت مدل جهانی (سبز) را فشرده می کند (ستی) به کدهای گسسته (z). درست: خط مشی مدیر (نارنجی) کدی را انتخاب می کند که رمزگشای هدف (آبی) به هدف فضای ویژگی تبدیل می شود (g). خط مشی کارگری (قرمز) رسیدن به هدف را از مسیرهای آینده می آموزد (س1،…، س4) توسط مدل جهانی پیش بینی شده است. |
همه اجزای Director به طور همزمان بهینه می شوند، بنابراین مدیر یاد می گیرد اهدافی را انتخاب کند که توسط کارگر قابل دستیابی است. مدیر یاد می گیرد که اهدافی را انتخاب کند تا هم پاداش کار و هم پاداش اکتشاف را به حداکثر برساند و عامل را به کاوش و هدایت به سمت بخش های دوردست محیط سوق دهد. ما دریافتیم که ترجیح دادن حالتهای مدل که در آن رمزگذار خودکار هدف دارای خطای پیشبینی بالایی است، یک امتیاز اکتشاف ساده و مؤثر است. برخلاف روشهای قبلی، مانند شبکههای فئودال، کارگر ما هیچ پاداش وظیفهای دریافت نمیکند و صرفاً از به حداکثر رساندن شباهت فضای ویژگی بین حالت مدل فعلی و هدف یاد میگیرد. این به این معنی است که کارگر هیچ اطلاعی از وظیفه ندارد و در عوض تمام ظرفیت خود را بر روی دستیابی به اهداف متمرکز می کند.
نتایج محک
در حالی که کار قبلی در HRL اغلب به پروتکلهای ارزیابی سفارشی متوسل میشد – مانند در نظر گرفتن اهداف تمرینی متنوع، دسترسی به موقعیت جهانی عوامل در یک نقشه دوبعدی، یا پاداشهای فاصله واقعی – مدیر در تنظیمات RL سرتاسر عمل میکند. برای آزمایش توانایی کاوش و حل کارهای افق بلند، ما چالش را پیشنهاد می کنیم ماز مورچه خود محور معیار. این مجموعه چالش برانگیز نیازمند یافتن و دستیابی به اهداف در پیچ و خم های سه بعدی با کنترل مفاصل یک ربات چهارپا است که فقط با ورودی های دوربین اول شخص و حس عمقی در نظر گرفته می شود. پاداش پراکنده زمانی داده می شود که ربات به هدف برسد، بنابراین ماموران مجبورند در بیشتر زمان یادگیری خود در غیاب پاداش کار، به طور مستقل کاوش کنند.
![]() |
معیار Egocentric Ant Maze توانایی عوامل را برای کاوش به روشی انتزاعی زمانی برای یافتن پاداش پراکنده در انتهای پیچ و خم اندازه گیری می کند. |
ما Director را با دو الگوریتم پیشرفته که بر اساس مدلهای جهانی نیز ساخته شدهاند ارزیابی میکنیم: Plan2Explore که هم پاداش کار و هم پاداش اکتشاف را بر اساس اختلاف نظر گروه به حداکثر میرساند و Dreamer که به سادگی پاداش کار را به حداکثر میرساند. هر دو خط مبنا سیاست های غیر سلسله مراتبی را از مسیرهای تصوری مدل جهانی می آموزند. ما متوجه شدیم که Plan2Explore منجر به حرکات پر سر و صدایی می شود که ربات را به پشت می چرخاند و از رسیدن به هدف جلوگیری می کند. Dreamer در کوچکترین پیچ و خم به هدف می رسد اما در کاوش در پیچ و خم های بزرگتر شکست می خورد. در این پیچ و خم های بزرگتر، Director تنها روشی است که می توانید هدف را پیدا کنید و با اطمینان به آن برسید.
برای مطالعه توانایی عامل ها برای کشف پاداش های بسیار کم به صورت مجزا و جدا از چالش یادگیری بازنمایی محیط های سه بعدی، ما پین پد بصری سوئیت در این وظایف، عامل یک مربع سیاه را کنترل می کند و آن را به اطراف حرکت می دهد تا روی پدهای رنگی متفاوت قدم بگذارد. در پایین صفحه، تاریخچه پدهای فعال شده قبلی نشان داده می شود که نیاز به حافظه طولانی مدت را از بین می برد. وظیفه کشف توالی صحیح برای فعال کردن تمام پدها است که در این مرحله نماینده پاداش پراکنده را دریافت می کند. باز هم Director با اختلاف زیادی از روش های قبلی بهتر عمل می کند.
![]() |
معیار Visual Pin Pad به محققان اجازه میدهد تا عوامل را با پاداشهای بسیار کم و بدون چالشهای گیجکننده مانند درک صحنههای سه بعدی یا حافظه بلندمدت ارزیابی کنند. |
ما علاوه بر حل وظایف با پاداشهای کم، عملکرد مدیر را در طیف گستردهای از وظایف رایج در ادبیات مطالعه میکنیم که معمولاً نیازی به کاوش طولانی مدت ندارند. آزمایش ما شامل 12 وظیفه است که بازیهای Atari، وظایف Control Suite، محیطهای پیچ و خم DMLab و پلتفرم تحقیقاتی Crafter را پوشش میدهد. ما متوجه شدیم که Director در تمام این وظایف با فراپارامترهای یکسان موفق عمل می کند، و استحکام فرآیند یادگیری سلسله مراتبی را نشان می دهد. علاوه بر این، ارائه پاداش وظیفه به کارگر، مدیر را قادر میسازد تا حرکات دقیق کار را یاد بگیرد، که به طور کامل با عملکرد الگوریتم پیشرفته Dreamer مطابقت یا فراتر رود.
![]() |
مدیر طیف گسترده ای از وظایف استاندارد را با پاداش های متراکم با همان فراپارامترها حل می کند و استحکام فرآیند یادگیری سلسله مراتبی را نشان می دهد. |
تجسم های هدف
در حالی که Director از حالت های مدل پنهان به عنوان اهداف استفاده می کند، مدل جهان آموخته شده به ما اجازه می دهد تا این اهداف را به تصاویر برای تفسیر انسانی رمزگشایی کنیم. ما اهداف داخلی Director را برای محیطهای مختلف تجسم میکنیم تا بینشی در مورد تصمیمگیری آن به دست آوریم و متوجه میشویم که Director استراتژیهای متنوعی را برای شکستن وظایف افق طولانی میآموزد. به عنوان مثال، در وظایف واکر و انسان نما، مدیر درخواست یک حالت متمایل به جلو و جابجایی الگوهای کف میکند و کارگر جزئیات نحوه حرکت پاها را پر میکند. در پیچ و خم مورچه Egocentric، مدیر با درخواست دنباله ای از رنگ های مختلف دیوار، ربات مورچه را هدایت می کند. در پلتفرم تحقیقاتی دوبعدی Crafter، مدیر از طریق نمایشگر موجودی در پایین صفحه، درخواست جمعآوری منابع و ابزارها را میدهد و در پیچ و خمهای DMLab، مدیر از طریق انیمیشن دوربری که درست پس از جمعآوری شی مورد نظر رخ میدهد، کارگر را تشویق میکند.
![]() |
![]() |
ترک کرد: در Egocentric Ant Maze XL، مدیر با هدف قرار دادن دیوارهایی با رنگ های مختلف، کارگر را از طریق پیچ و خم هدایت می کند. درست: در Visual Pin Pad Six، مدیر اهداف فرعی را از طریق نمایش تاریخ در پایین و با برجسته کردن پدهای مختلف مشخص می کند. |
![]() |
![]() |
ترک کرد: در واکر، مدیر درخواست یک ژست متمایل به جلو با هر دو پا از زمین و یک الگوی زمین در حال تغییر میکند و کارگر جزئیات حرکت پا را پر میکند. درست: در کار چالش برانگیز Humanoid، کارگردان یاد میگیرد که بایستد و با اطمینان از پیکسلها و بدون پایان قسمتهای اولیه راه برود. |
![]() |
![]() |
ترک کرد: در Crafter، مدیر درخواست جمع آوری منابع را از طریق نمایش موجودی در پایین صفحه می کند. درست: در DMLab Goals Small، مدیر انیمیشن تلهپورت را درخواست میکند که هنگام دریافت پاداش بهعنوان راهی برای ارتباط دادن کار به کارگر رخ میدهد. |
دستورالعمل های آینده
ما Director را گامی رو به جلو در تحقیقات HRL می بینیم و در حال آماده سازی کد آن برای انتشار در آینده هستیم. Director یک الگوریتم عملی، قابل تفسیر و به طور کلی کاربردی است که یک نقطه شروع موثر برای توسعه آینده عوامل مصنوعی سلسله مراتبی توسط جامعه تحقیقاتی فراهم می کند، مانند اجازه دادن به اهداف تنها با زیر مجموعه های بردارهای نمایش کامل، یادگیری پویا مدت زمان اهداف، و ساخت عوامل سلسله مراتبی با سه یا چند سطح انتزاع زمانی. ما خوشبین هستیم که پیشرفت های الگوریتمی آینده در HRL سطوح جدیدی از عملکرد و استقلال عوامل هوشمند را باز کند.