استراتژی تکامل (ES) یک خانواده از تکنیکهای بهینهسازی است که از ایدههای انتخاب طبیعی الهام گرفته شده است: جمعیتی از راهحلهای کاندید معمولاً در طول نسلها تکامل مییابند تا بهتر با یک هدف بهینهسازی سازگار شوند. ES برای انواع مختلفی از مشکلات تصمیم گیری چالش برانگیز مانند حرکت پایه، کنترل کوادکوپتر و حتی کنترل سیستم قدرت به کار گرفته شده است.
در مقایسه با روشهای یادگیری تقویتی مبتنی بر گرادیان (RL) مانند بهینهسازی خط مشی پروگزیمال (PPO) و نرمافزار عامل منتقد (SAC)، ES چندین مزیت دارد. اول، ES به طور مستقیم در فضای پارامترهای کنترلر کاوش می کند، در حالی که روش های مبتنی بر گرادیان اغلب در یک فضای عمل محدود کاوش می کنند، که به طور غیر مستقیم بر پارامترهای کنترل کننده تأثیر می گذارد. کاوش مستقیم بیشتر نشان داده شده است که عملکرد یادگیری را افزایش می دهد و امکان جمع آوری داده ها در مقیاس بزرگ را با محاسبات موازی فراهم می کند. دوم، یک چالش عمده در RL تخصیص اعتبار افق بلند است، به عنوان مثال، زمانی که یک روبات در پایان یک کار را انجام می دهد، تعیین می کند که کدام اقدامات در گذشته مهم ترین بوده و باید پاداش بیشتری به آن اختصاص داده شود. از آنجایی که ES به طور مستقیم کل پاداش را در نظر می گیرد، محققان را از نیاز به رسیدگی صریح تخصیص اعتبار رها می کند. علاوه بر این، از آنجایی که ES به اطلاعات گرادیان متکی نیست، به طور طبیعی میتواند اهداف بسیار غیر هموار یا معماریهای کنترلکننده را که در آنها محاسبات گرادیان غیرمعمول است، مانند یادگیری فرا-تقویتکننده، مدیریت کند. با این حال، یک ضعف عمده الگوریتمهای مبتنی بر ES، دشواری آنها در مقیاسبندی برای مسائلی است که برای رمزگذاری پویایی محیط، به ورودیهای حسی با ابعاد بالا نیاز دارند، مانند رباتهای آموزشی با ورودیهای دید پیچیده.
در این کار، ما “PI-ARS: تسریع حرکت بصری آموختهشده از تکامل با بازنمایی اطلاعات پیشبینیکننده” را پیشنهاد میکنیم، یک الگوریتم یادگیری که یادگیری بازنمایی و ES را برای حل موثر مسائل با ابعاد بالا به روشی مقیاسپذیر ترکیب میکند. ایده اصلی استفاده از اطلاعات پیشبینیکننده، یک هدف یادگیری بازنمایی، برای به دست آوردن یک نمایش فشرده از پویایی محیط با ابعاد بالا، و سپس اعمال جستجوی تصادفی افزوده (ARS)، یک الگوریتم محبوب ES، برای تبدیل نمایش فشرده آموختهشده به ربات است. اقدامات. ما PI-ARS را روی مشکل چالش برانگیز حرکت بصری برای روباتهای پا آزمایش کردیم. PI-ARS آموزش سریع کنترلکنندههای حرکتی مبتنی بر دید عملکردی را امکانپذیر میکند که میتوانند انواع محیطهای دشوار را طی کنند. علاوه بر این، کنترلکنندههای آموزش دیده در محیطهای شبیهسازی شده با موفقیت به یک ربات چهارپا واقعی منتقل میشوند.
PI-ARS سیاستهای حرکتی بصری قابل اعتمادی را آموزش میدهد که قابل انتقال به دنیای واقعی هستند. |
اطلاعات پیش بینی
یک نماینده خوب برای یادگیری سیاست باید هر دو باشد فشاری، به طوری که ES می تواند بر حل یک مسئله ابعاد بسیار پایین تر از یادگیری از مشاهدات خام تمرکز کند، و وظیفه حیاتی، بنابراین کنترل کننده آموخته شده تمام اطلاعات لازم برای یادگیری رفتار بهینه را دارد. برای مشکلات کنترل رباتیک با فضای ورودی با ابعاد بالا، درک محیط از جمله اطلاعات دینامیکی خود ربات و اشیاء اطراف آن برای سیاست بسیار مهم است.
به این ترتیب، ما یک رمزگذار مشاهده پیشنهاد میکنیم که اطلاعات را از مشاهدات ورودی خام حفظ میکند که به سیاست اجازه میدهد وضعیتهای آینده محیط را پیشبینی کند، بنابراین نام اطلاعات پیش بینی (PI). به طور خاص تر، ما رمزگذار را طوری بهینه می کنیم که نسخه رمزگذاری شده آنچه ربات در گذشته دیده و برنامه ریزی کرده است بتواند به طور دقیق آنچه را که ربات ممکن است ببیند و در آینده پاداش بگیرد، پیش بینی کند. یکی از ابزارهای ریاضی برای توصیف چنین خاصیتی، اطلاعات متقابل است که میزان اطلاعاتی را که در مورد یک متغیر تصادفی به دست می آوریم اندازه گیری می کند. ایکس با مشاهده یک متغیر تصادفی دیگر Y. در مورد ما، ایکس و Y همان چیزی است که ربات در گذشته دیده و برنامه ریزی کرده است، و آنچه ربات می بیند و در آینده پاداش می گیرد. بهینه سازی مستقیم هدف اطلاعات متقابل یک مشکل چالش برانگیز است زیرا ما معمولاً فقط به نمونه هایی از متغیرهای تصادفی دسترسی داریم، اما به توزیع های اساسی آنها دسترسی نداریم. در این کار ما یک رویکرد قبلی را دنبال میکنیم که از InfoNCE، یک متغیر متضاد بر روی اطلاعات متقابل برای بهینهسازی هدف استفاده میکند.
ترک کرد: ما از یادگیری بازنمایی برای رمزگذاری PI محیط استفاده می کنیم. درست: ما نمایش را با پخش مجدد مسیرها از بافر پخش مجدد آموزش می دهیم و قابلیت پیش بینی بین مشاهده و طرح حرکت در گذشته و مشاهده و پاداش در آینده مسیر را به حداکثر می رسانیم. |
اطلاعات پیش بینی با جستجوی تصادفی افزوده
در مرحله بعد، ما PI را با جستجوی تصادفی افزوده (ARS) ترکیب می کنیم، الگوریتمی که عملکرد بهینه سازی عالی را برای وظایف تصمیم گیری چالش برانگیز نشان داده است. در هر تکرار ARS، از جمعیتی از پارامترهای کنترلکننده آشفته نمونهبرداری میکند، عملکرد آنها را در محیط آزمایش ارزیابی میکند، و سپس یک گرادیان محاسبه میکند که کنترلکننده را به سمت مواردی که عملکرد بهتری دارند، حرکت میدهد.
ما از نمایش فشرده آموخته شده از PI برای اتصال PI و ARS استفاده می کنیم که آن را PI-ARS می نامیم. به طور خاص، ARS کنترلکنندهای را بهینه میکند که PI نمایش فشرده آموختهشده را به عنوان ورودی میگیرد و دستورات ربات مناسب را برای دستیابی به کار پیشبینی میکند. با بهینهسازی کنترلکنندهای با فضای ورودی کوچکتر، به ARS اجازه میدهد تا راهحل بهینه را کارآمدتر پیدا کند. در همین حال، ما از دادههای جمعآوریشده در طول بهینهسازی ARS برای بهبود بیشتر نمایش آموختهشده استفاده میکنیم، که سپس در تکرار بعدی به کنترلکننده ARS وارد میشود.
مروری بر جریان داده PI-ARS. الگوریتم ما بین دو مرحله قرار می گیرد: 1) بهینه سازی هدف PI که خط مشی را به روز می کند، که وزن شبکه عصبی است که نمایش آموخته شده را استخراج می کند. و 2) نمونه برداری از مسیرهای جدید و به روز رسانی پارامترهای کنترلر با استفاده از ARS. |
حرکت بصری برای ربات های پا
ما PI-ARS را روی مشکل حرکت بصری برای روباتهای پا ارزیابی میکنیم. ما این مشکل را به دو دلیل انتخاب کردیم: حرکت بصری یک گلوگاه کلیدی برای روباتهای پا است که در برنامههای کاربردی دنیای واقعی به کار میروند، و ورودی دید با ابعاد بالا به خطمشی و پویایی پیچیده در رباتهای پا، آن را به یک آزمون ایدهآل تبدیل میکند. – موردی برای نشان دادن اثربخشی الگوریتم PI-ARS. نمایشی از تنظیمات کار ما در شبیه سازی را می توان در زیر مشاهده کرد. سیاست ها ابتدا در محیط های شبیه سازی شده آموزش داده می شوند و سپس به سخت افزار منتقل می شوند.
تصویری از تنظیم کار بصری حرکتی. این ربات مجهز به دو دوربین برای مشاهده محیط است (که توسط اهرام شفاف نشان داده شده است). مشاهدات و وضعیت ربات برای ایجاد یک طرح حرکتی سطح بالا، مانند مکان فرود پا و سرعت حرکت مورد نظر، به خط مشی ارسال می شود. سپس طرح حرکت سطح بالا توسط یک کنترل کننده کنترل پیش بینی حرکت سطح پایین (MPC) به دست می آید. |
نتایج آزمایش
ما ابتدا الگوریتم PI-ARS را بر روی چهار کار شبیه سازی شده چالش برانگیز ارزیابی می کنیم:
- سنگ های پله ناهموار: ربات باید روی زمین های ناهموار راه برود و از شکاف ها اجتناب کند.
- توده های کوینکونشال: ربات باید از شکاف های جلویی و جانبی جلوگیری کند.
- سکوهای متحرک: ربات باید از روی سنگ های پله ای که به طور تصادفی به صورت افقی یا عمودی حرکت می کنند راه برود. این وظیفه انعطاف پذیری یادگیری یک سیاست مبتنی بر چشم انداز را در مقایسه با بازسازی صریح محیط نشان می دهد.
- ناوبری داخلی: ربات باید به یک مکان تصادفی حرکت کند و در عین حال از موانع در یک محیط داخلی اجتناب کند.
همانطور که در زیر نشان داده شده است، PI-ARS می تواند به طور قابل توجهی از ARS در هر چهار وظیفه از نظر کل پاداش کاری که می تواند به دست آورد (30-50٪) بهتر عمل کند.
ترک کرد: تجسم عملکرد خط مشی PI-ARS در شبیه سازی درست: کل پاداش کار (یعنی بازگشت قسمت) برای PI-ARS (خط سبز) و ARS (خط قرمز). الگوریتم PI-ARS به طور قابل توجهی بهتر از ARS در چهار کار چالش برانگیز حرکتی دیداری عمل می کند. |
ما سیاستهای آموزشدیدهشده را بیشتر روی یک ربات لایکاگو واقعی در دو کار پیادهسازی میکنیم: پله تصادفی و ناوبری داخلی. ما نشان میدهیم که خطمشیهای آموزشدیده ما میتوانند با موفقیت وظایف دنیای واقعی را انجام دهند. قابل ذکر است، میزان موفقیت کار تصادفی سنگ پله از 40٪ در کار قبلی به 100٪ بهبود یافته است.
خط مشی آموزش دیده PI-ARS یک ربات واقعی لایکاگو را قادر می سازد تا در اطراف موانع حرکت کند. |
نتیجه
در این کار، ما یک الگوریتم یادگیری جدید، PI-ARS، ارائه میکنیم که یادگیری بازنمایی مبتنی بر گرادیان را با الگوریتمهای استراتژی تکاملی بدون گرادیان ترکیب میکند تا از مزایای هر دو استفاده کند. PI-ARS از اثربخشی، سادگی و موازیپذیری الگوریتمهای بدون گرادیان لذت میبرد، در حالی که با بهینهسازی نمایشی با ابعاد پایین، تنگنای کلیدی الگوریتمهای ES را در رسیدگی به مسائل با ابعاد بالا برطرف میکند. ما PI-ARS را برای مجموعهای از وظایف چالشبرانگیز بصری-حرکتی اعمال میکنیم، که در میان آنها PI-ARS به طور قابلتوجهی از وضعیت هنر پیشی میگیرد. علاوه بر این، ما خط مشی آموخته شده توسط PI-ARS را روی یک ربات چهارپا واقعی تأیید می کنیم. این ربات را قادر میسازد تا از روی سنگهای پلهای که بهطور تصادفی قرار گرفتهاند راه برود و در یک فضای داخلی با موانع حرکت کند. روش ما امکان ترکیب مدلهای شبکه عصبی بزرگ مدرن و دادههای در مقیاس بزرگ را در زمینه استراتژی تکاملی برای کنترل رباتیک باز میکند.
سپاسگزاریها
مایلیم از نویسندگان مقاله خود تشکر کنیم: Ofir Nachum، Tingnan Zhang، Sergio Guadarrama، و Jie Tan. همچنین مایلیم از یان فیشر و جان کنی برای بازخورد ارزشمند تشکر کنیم.