برنامه ریزی سلسله مراتبی عمیق از پیکسل

تحقیقات در مورد چگونگی تصمیم گیری عوامل مصنوعی به سرعت از طریق پیشرفت در یادگیری تقویتی عمیق تکامل یافته است. در مقایسه با مدل‌های ML مولد مانند GPT-3 و Imagen، عوامل مصنوعی می‌توانند مستقیماً بر محیط خود از طریق اقداماتی مانند حرکت دادن بازوی ربات بر اساس ورودی‌های دوربین یا کلیک کردن روی دکمه‌ای در مرورگر وب تأثیر بگذارند. در حالی که عوامل مصنوعی این پتانسیل را دارند که به طور فزاینده ای برای مردم مفید باشند، روش های فعلی به دلیل نیاز به دریافت بازخورد دقیق در قالب پاداش های مکرر ارائه شده برای یادگیری استراتژی های موفق، عقب مانده است. به عنوان مثال، با وجود بودجه های محاسباتی زیاد، حتی برنامه های قدرتمندی مانند AlphaGo تا دریافت پاداش بعدی به چند صد حرکت محدود می شوند.

در مقابل، کارهای پیچیده ای مانند تهیه یک وعده غذایی نیاز به تصمیم گیری در همه سطوح دارد، از برنامه ریزی منو، رفتن به فروشگاه برای خرید مواد غذایی، و پیروی از دستور غذا در آشپزخانه تا اجرای صحیح مهارت های حرکتی ظریف مورد نیاز در هر مرحله در طول مسیر. روشی مبتنی بر ورودی های حسی با ابعاد بالا. یادگیری تقویتی سلسله مراتبی (HRL) وعده می دهد که به طور خودکار چنین وظایف پیچیده ای را به اهداف فرعی قابل مدیریت تقسیم می کند و به عوامل مصنوعی این امکان را می دهد تا وظایف را به طور مستقل از پاداش های کمتر حل کنند. پاداش های اندک. با این حال، پیشرفت تحقیقات در مورد HRL ثابت شده است که چالش برانگیز است. روش های فعلی بر فضاهای هدف یا وظایف فرعی تعیین شده دستی تکیه می کنند و هیچ راه حل کلی وجود ندارد.

برای تحریک پیشرفت در این چالش تحقیقاتی و با همکاری دانشگاه کالیفرنیا، برکلی، ما عامل Director را ارائه می‌کنیم که رفتارهای سلسله مراتبی عملی، کلی و قابل تفسیر را از پیکسل‌های خام یاد می‌گیرد. مدیر یک خط مشی مدیر را آموزش می دهد تا اهداف فرعی را در فضای پنهان یک مدل جهان آموخته پیشنهاد کند و یک خط مشی کارگری را برای دستیابی به این اهداف آموزش می دهد. علیرغم اینکه بر روی بازنمایی های پنهان کار می کنیم، می توانیم اهداف فرعی داخلی کارگردان را به تصاویر رمزگشایی کنیم تا تصمیمات آن را بررسی و تفسیر کنیم. ما Director را در چندین معیار ارزیابی می‌کنیم و نشان می‌دهیم که استراتژی‌های سلسله مراتبی متنوعی را می‌آموزد و در مواردی که رویکردهای قبلی شکست می‌خورد، وظایفی را با پاداش‌های بسیار کم حل می‌کند، مانند کاوش در پیچ و خم‌های سه بعدی با ربات‌های چهارپا مستقیماً از ورودی‌های پیکسل اول شخص.

کارگردان یاد می گیرد که وظایف پیچیده افق طولانی را با تقسیم خودکار آنها به اهداف فرعی حل کند. هر پانل تعامل محیط را در سمت چپ و اهداف داخلی رمزگشایی شده را در سمت راست نشان می دهد.

کارگردان چگونه کار می کند
کارگردان یک مدل جهانی را از پیکسل ها می آموزد که برنامه ریزی کارآمد را در یک فضای پنهان امکان پذیر می کند. مدل جهانی تصاویر را به حالت های مدل نگاشت می کند و سپس با توجه به اقدامات بالقوه، حالت های مدل آینده را پیش بینی می کند. از مسیرهای پیش‌بینی‌شده حالت‌های مدل، مدیر دو سیاست را بهینه می‌کند: مدیر هر تعداد ثابت قدم یک هدف جدید انتخاب می کند و کارگر می آموزد که از طریق اقدامات سطح پایین به اهداف دست یابد. با این حال، انتخاب اهداف به طور مستقیم در فضای بازنمایی پیوسته با ابعاد بالا مدل جهانی یک مشکل کنترل چالش برانگیز برای مدیر خواهد بود. در عوض، ما یک رمزگذار خودکار هدف را یاد می گیریم تا حالت های مدل را به کدهای گسسته کوچکتر فشرده کند. سپس مدیر کدهای گسسته را انتخاب می کند و رمزگذار خودکار هدف آنها را قبل از اینکه به عنوان هدف به کارگر ارسال کند آنها را به حالت های مدل تبدیل می کند.

ترک کرد: رمزگذار خودکار هدف (آبی) حالت مدل جهانی (سبز) را فشرده می کند (ستی) به کدهای گسسته (z). درست: خط مشی مدیر (نارنجی) کدی را انتخاب می کند که رمزگشای هدف (آبی) به هدف فضای ویژگی تبدیل می شود (g). خط مشی کارگری (قرمز) رسیدن به هدف را از مسیرهای آینده می آموزد (س1،…، س4) توسط مدل جهانی پیش بینی شده است.

همه اجزای Director به طور همزمان بهینه می شوند، بنابراین مدیر یاد می گیرد اهدافی را انتخاب کند که توسط کارگر قابل دستیابی است. مدیر یاد می گیرد که اهدافی را انتخاب کند تا هم پاداش کار و هم پاداش اکتشاف را به حداکثر برساند و عامل را به کاوش و هدایت به سمت بخش های دوردست محیط سوق دهد. ما دریافتیم که ترجیح دادن حالت‌های مدل که در آن رمزگذار خودکار هدف دارای خطای پیش‌بینی بالایی است، یک امتیاز اکتشاف ساده و مؤثر است. برخلاف روش‌های قبلی، مانند شبکه‌های فئودال، کارگر ما هیچ پاداش وظیفه‌ای دریافت نمی‌کند و صرفاً از به حداکثر رساندن شباهت فضای ویژگی بین حالت مدل فعلی و هدف یاد می‌گیرد. این به این معنی است که کارگر هیچ اطلاعی از وظیفه ندارد و در عوض تمام ظرفیت خود را بر روی دستیابی به اهداف متمرکز می کند.

نتایج محک
در حالی که کار قبلی در HRL اغلب به پروتکل‌های ارزیابی سفارشی متوسل می‌شد – مانند در نظر گرفتن اهداف تمرینی متنوع، دسترسی به موقعیت جهانی عوامل در یک نقشه دوبعدی، یا پاداش‌های فاصله واقعی – مدیر در تنظیمات RL سرتاسر عمل می‌کند. برای آزمایش توانایی کاوش و حل کارهای افق بلند، ما چالش را پیشنهاد می کنیم ماز مورچه خود محور معیار. این مجموعه چالش برانگیز نیازمند یافتن و دستیابی به اهداف در پیچ و خم های سه بعدی با کنترل مفاصل یک ربات چهارپا است که فقط با ورودی های دوربین اول شخص و حس عمقی در نظر گرفته می شود. پاداش پراکنده زمانی داده می شود که ربات به هدف برسد، بنابراین ماموران مجبورند در بیشتر زمان یادگیری خود در غیاب پاداش کار، به طور مستقل کاوش کنند.

معیار Egocentric Ant Maze توانایی عوامل را برای کاوش به روشی انتزاعی زمانی برای یافتن پاداش پراکنده در انتهای پیچ و خم اندازه گیری می کند.

ما Director را با دو الگوریتم پیشرفته که بر اساس مدل‌های جهانی نیز ساخته شده‌اند ارزیابی می‌کنیم: Plan2Explore که هم پاداش کار و هم پاداش اکتشاف را بر اساس اختلاف نظر گروه به حداکثر می‌رساند و Dreamer که به سادگی پاداش کار را به حداکثر می‌رساند. هر دو خط مبنا سیاست های غیر سلسله مراتبی را از مسیرهای تصوری مدل جهانی می آموزند. ما متوجه شدیم که Plan2Explore منجر به حرکات پر سر و صدایی می شود که ربات را به پشت می چرخاند و از رسیدن به هدف جلوگیری می کند. Dreamer در کوچکترین پیچ و خم به هدف می رسد اما در کاوش در پیچ و خم های بزرگتر شکست می خورد. در این پیچ و خم های بزرگتر، Director تنها روشی است که می توانید هدف را پیدا کنید و با اطمینان به آن برسید.

برای مطالعه توانایی عامل ها برای کشف پاداش های بسیار کم به صورت مجزا و جدا از چالش یادگیری بازنمایی محیط های سه بعدی، ما پین پد بصری سوئیت در این وظایف، عامل یک مربع سیاه را کنترل می کند و آن را به اطراف حرکت می دهد تا روی پدهای رنگی متفاوت قدم بگذارد. در پایین صفحه، تاریخچه پدهای فعال شده قبلی نشان داده می شود که نیاز به حافظه طولانی مدت را از بین می برد. وظیفه کشف توالی صحیح برای فعال کردن تمام پدها است که در این مرحله نماینده پاداش پراکنده را دریافت می کند. باز هم Director با اختلاف زیادی از روش های قبلی بهتر عمل می کند.

معیار Visual Pin Pad به محققان اجازه می‌دهد تا عوامل را با پاداش‌های بسیار کم و بدون چالش‌های گیج‌کننده مانند درک صحنه‌های سه بعدی یا حافظه بلندمدت ارزیابی کنند.

ما علاوه بر حل وظایف با پاداش‌های کم، عملکرد مدیر را در طیف گسترده‌ای از وظایف رایج در ادبیات مطالعه می‌کنیم که معمولاً نیازی به کاوش طولانی مدت ندارند. آزمایش ما شامل 12 وظیفه است که بازی‌های Atari، وظایف Control Suite، محیط‌های پیچ و خم DMLab و پلتفرم تحقیقاتی Crafter را پوشش می‌دهد. ما متوجه شدیم که Director در تمام این وظایف با فراپارامترهای یکسان موفق عمل می کند، و استحکام فرآیند یادگیری سلسله مراتبی را نشان می دهد. علاوه بر این، ارائه پاداش وظیفه به کارگر، مدیر را قادر می‌سازد تا حرکات دقیق کار را یاد بگیرد، که به طور کامل با عملکرد الگوریتم پیشرفته Dreamer مطابقت یا فراتر رود.

مدیر طیف گسترده ای از وظایف استاندارد را با پاداش های متراکم با همان فراپارامترها حل می کند و استحکام فرآیند یادگیری سلسله مراتبی را نشان می دهد.

تجسم های هدف
در حالی که Director از حالت های مدل پنهان به عنوان اهداف استفاده می کند، مدل جهان آموخته شده به ما اجازه می دهد تا این اهداف را به تصاویر برای تفسیر انسانی رمزگشایی کنیم. ما اهداف داخلی Director را برای محیط‌های مختلف تجسم می‌کنیم تا بینشی در مورد تصمیم‌گیری آن به دست آوریم و متوجه می‌شویم که Director استراتژی‌های متنوعی را برای شکستن وظایف افق طولانی می‌آموزد. به عنوان مثال، در وظایف واکر و انسان نما، مدیر درخواست یک حالت متمایل به جلو و جابجایی الگوهای کف می‌کند و کارگر جزئیات نحوه حرکت پاها را پر می‌کند. در پیچ و خم مورچه Egocentric، مدیر با درخواست دنباله ای از رنگ های مختلف دیوار، ربات مورچه را هدایت می کند. در پلتفرم تحقیقاتی دوبعدی Crafter، مدیر از طریق نمایشگر موجودی در پایین صفحه، درخواست جمع‌آوری منابع و ابزارها را می‌دهد و در پیچ و خم‌های DMLab، مدیر از طریق انیمیشن دوربری که درست پس از جمع‌آوری شی مورد نظر رخ می‌دهد، کارگر را تشویق می‌کند.

ترک کرد: در Egocentric Ant Maze XL، مدیر با هدف قرار دادن دیوارهایی با رنگ های مختلف، کارگر را از طریق پیچ و خم هدایت می کند. درست: در Visual Pin Pad Six، مدیر اهداف فرعی را از طریق نمایش تاریخ در پایین و با برجسته کردن پدهای مختلف مشخص می کند.
ترک کرد: در واکر، مدیر درخواست یک ژست متمایل به جلو با هر دو پا از زمین و یک الگوی زمین در حال تغییر می‌کند و کارگر جزئیات حرکت پا را پر می‌کند. درست: در کار چالش برانگیز Humanoid، کارگردان یاد می‌گیرد که بایستد و با اطمینان از پیکسل‌ها و بدون پایان قسمت‌های اولیه راه برود.
ترک کرد: در Crafter، مدیر درخواست جمع آوری منابع را از طریق نمایش موجودی در پایین صفحه می کند. درست: در DMLab Goals Small، مدیر انیمیشن تله‌پورت را درخواست می‌کند که هنگام دریافت پاداش به‌عنوان راهی برای ارتباط دادن کار به کارگر رخ می‌دهد.

دستورالعمل های آینده
ما Director را گامی رو به جلو در تحقیقات HRL می بینیم و در حال آماده سازی کد آن برای انتشار در آینده هستیم. Director یک الگوریتم عملی، قابل تفسیر و به طور کلی کاربردی است که یک نقطه شروع موثر برای توسعه آینده عوامل مصنوعی سلسله مراتبی توسط جامعه تحقیقاتی فراهم می کند، مانند اجازه دادن به اهداف تنها با زیر مجموعه های بردارهای نمایش کامل، یادگیری پویا مدت زمان اهداف، و ساخت عوامل سلسله مراتبی با سه یا چند سطح انتزاع زمانی. ما خوشبین هستیم که پیشرفت های الگوریتمی آینده در HRL سطوح جدیدی از عملکرد و استقلال عوامل هوشمند را باز کند.