تسریع حرکت بصری آموخته‌شده از تکامل با بازنمایی اطلاعات پیش‌بینی‌کننده

استراتژی تکامل (ES) یک خانواده از تکنیک‌های بهینه‌سازی است که از ایده‌های انتخاب طبیعی الهام گرفته شده است: جمعیتی از راه‌حل‌های کاندید معمولاً در طول نسل‌ها تکامل می‌یابند تا بهتر با یک هدف بهینه‌سازی سازگار شوند. ES برای انواع مختلفی از مشکلات تصمیم گیری چالش برانگیز مانند حرکت پایه، کنترل کوادکوپتر و حتی کنترل سیستم قدرت به کار گرفته شده است.

در مقایسه با روش‌های یادگیری تقویتی مبتنی بر گرادیان (RL) مانند بهینه‌سازی خط مشی پروگزیمال (PPO) و نرم‌افزار عامل منتقد (SAC)، ES چندین مزیت دارد. اول، ES به طور مستقیم در فضای پارامترهای کنترلر کاوش می کند، در حالی که روش های مبتنی بر گرادیان اغلب در یک فضای عمل محدود کاوش می کنند، که به طور غیر مستقیم بر پارامترهای کنترل کننده تأثیر می گذارد. کاوش مستقیم بیشتر نشان داده شده است که عملکرد یادگیری را افزایش می دهد و امکان جمع آوری داده ها در مقیاس بزرگ را با محاسبات موازی فراهم می کند. دوم، یک چالش عمده در RL تخصیص اعتبار افق بلند است، به عنوان مثال، زمانی که یک روبات در پایان یک کار را انجام می دهد، تعیین می کند که کدام اقدامات در گذشته مهم ترین بوده و باید پاداش بیشتری به آن اختصاص داده شود. از آنجایی که ES به طور مستقیم کل پاداش را در نظر می گیرد، محققان را از نیاز به رسیدگی صریح تخصیص اعتبار رها می کند. علاوه بر این، از آنجایی که ES به اطلاعات گرادیان متکی نیست، به طور طبیعی می‌تواند اهداف بسیار غیر هموار یا معماری‌های کنترل‌کننده را که در آن‌ها محاسبات گرادیان غیرمعمول است، مانند یادگیری فرا-تقویت‌کننده، مدیریت کند. با این حال، یک ضعف عمده الگوریتم‌های مبتنی بر ES، دشواری آن‌ها در مقیاس‌بندی برای مسائلی است که برای رمزگذاری پویایی محیط، به ورودی‌های حسی با ابعاد بالا نیاز دارند، مانند ربات‌های آموزشی با ورودی‌های دید پیچیده.

در این کار، ما “PI-ARS: تسریع حرکت بصری آموخته‌شده از تکامل با بازنمایی اطلاعات پیش‌بینی‌کننده” را پیشنهاد می‌کنیم، یک الگوریتم یادگیری که یادگیری بازنمایی و ES را برای حل موثر مسائل با ابعاد بالا به روشی مقیاس‌پذیر ترکیب می‌کند. ایده اصلی استفاده از اطلاعات پیش‌بینی‌کننده، یک هدف یادگیری بازنمایی، برای به دست آوردن یک نمایش فشرده از پویایی محیط با ابعاد بالا، و سپس اعمال جستجوی تصادفی افزوده (ARS)، یک الگوریتم محبوب ES، برای تبدیل نمایش فشرده آموخته‌شده به ربات است. اقدامات. ما PI-ARS را روی مشکل چالش برانگیز حرکت بصری برای روبات‌های پا آزمایش کردیم. PI-ARS آموزش سریع کنترل‌کننده‌های حرکتی مبتنی بر دید عملکردی را امکان‌پذیر می‌کند که می‌توانند انواع محیط‌های دشوار را طی کنند. علاوه بر این، کنترل‌کننده‌های آموزش دیده در محیط‌های شبیه‌سازی شده با موفقیت به یک ربات چهارپا واقعی منتقل می‌شوند.

PI-ARS سیاست‌های حرکتی بصری قابل اعتمادی را آموزش می‌دهد که قابل انتقال به دنیای واقعی هستند.

اطلاعات پیش بینی
یک نماینده خوب برای یادگیری سیاست باید هر دو باشد فشاری، به طوری که ES می تواند بر حل یک مسئله ابعاد بسیار پایین تر از یادگیری از مشاهدات خام تمرکز کند، و وظیفه حیاتی، بنابراین کنترل کننده آموخته شده تمام اطلاعات لازم برای یادگیری رفتار بهینه را دارد. برای مشکلات کنترل رباتیک با فضای ورودی با ابعاد بالا، درک محیط از جمله اطلاعات دینامیکی خود ربات و اشیاء اطراف آن برای سیاست بسیار مهم است.

به این ترتیب، ما یک رمزگذار مشاهده پیشنهاد می‌کنیم که اطلاعات را از مشاهدات ورودی خام حفظ می‌کند که به سیاست اجازه می‌دهد وضعیت‌های آینده محیط را پیش‌بینی کند، بنابراین نام اطلاعات پیش بینی (PI). به طور خاص تر، ما رمزگذار را طوری بهینه می کنیم که نسخه رمزگذاری شده آنچه ربات در گذشته دیده و برنامه ریزی کرده است بتواند به طور دقیق آنچه را که ربات ممکن است ببیند و در آینده پاداش بگیرد، پیش بینی کند. یکی از ابزارهای ریاضی برای توصیف چنین خاصیتی، اطلاعات متقابل است که میزان اطلاعاتی را که در مورد یک متغیر تصادفی به دست می آوریم اندازه گیری می کند. ایکس با مشاهده یک متغیر تصادفی دیگر Y. در مورد ما، ایکس و Y همان چیزی است که ربات در گذشته دیده و برنامه ریزی کرده است، و آنچه ربات می بیند و در آینده پاداش می گیرد. بهینه سازی مستقیم هدف اطلاعات متقابل یک مشکل چالش برانگیز است زیرا ما معمولاً فقط به نمونه هایی از متغیرهای تصادفی دسترسی داریم، اما به توزیع های اساسی آنها دسترسی نداریم. در این کار ما یک رویکرد قبلی را دنبال می‌کنیم که از InfoNCE، یک متغیر متضاد بر روی اطلاعات متقابل برای بهینه‌سازی هدف استفاده می‌کند.

ترک کرد: ما از یادگیری بازنمایی برای رمزگذاری PI محیط استفاده می کنیم. درست: ما نمایش را با پخش مجدد مسیرها از بافر پخش مجدد آموزش می دهیم و قابلیت پیش بینی بین مشاهده و طرح حرکت در گذشته و مشاهده و پاداش در آینده مسیر را به حداکثر می رسانیم.

اطلاعات پیش بینی با جستجوی تصادفی افزوده
در مرحله بعد، ما PI را با جستجوی تصادفی افزوده (ARS) ترکیب می کنیم، الگوریتمی که عملکرد بهینه سازی عالی را برای وظایف تصمیم گیری چالش برانگیز نشان داده است. در هر تکرار ARS، از جمعیتی از پارامترهای کنترل‌کننده آشفته نمونه‌برداری می‌کند، عملکرد آن‌ها را در محیط آزمایش ارزیابی می‌کند، و سپس یک گرادیان محاسبه می‌کند که کنترل‌کننده را به سمت مواردی که عملکرد بهتری دارند، حرکت می‌دهد.

ما از نمایش فشرده آموخته شده از PI برای اتصال PI و ARS استفاده می کنیم که آن را PI-ARS می نامیم. به طور خاص، ARS کنترل‌کننده‌ای را بهینه می‌کند که PI نمایش فشرده آموخته‌شده را به عنوان ورودی می‌گیرد و دستورات ربات مناسب را برای دستیابی به کار پیش‌بینی می‌کند. با بهینه‌سازی کنترل‌کننده‌ای با فضای ورودی کوچک‌تر، به ARS اجازه می‌دهد تا راه‌حل بهینه را کارآمدتر پیدا کند. در همین حال، ما از داده‌های جمع‌آوری‌شده در طول بهینه‌سازی ARS برای بهبود بیشتر نمایش آموخته‌شده استفاده می‌کنیم، که سپس در تکرار بعدی به کنترل‌کننده ARS وارد می‌شود.

مروری بر جریان داده PI-ARS. الگوریتم ما بین دو مرحله قرار می گیرد: 1) بهینه سازی هدف PI که خط مشی را به روز می کند، که وزن شبکه عصبی است که نمایش آموخته شده را استخراج می کند. و 2) نمونه برداری از مسیرهای جدید و به روز رسانی پارامترهای کنترلر با استفاده از ARS.

حرکت بصری برای ربات های پا
ما PI-ARS را روی مشکل حرکت بصری برای روبات‌های پا ارزیابی می‌کنیم. ما این مشکل را به دو دلیل انتخاب کردیم: حرکت بصری یک گلوگاه کلیدی برای روبات‌های پا است که در برنامه‌های کاربردی دنیای واقعی به کار می‌روند، و ورودی دید با ابعاد بالا به خط‌مشی و پویایی پیچیده در ربات‌های پا، آن را به یک آزمون ایده‌آل تبدیل می‌کند. – موردی برای نشان دادن اثربخشی الگوریتم PI-ARS. نمایشی از تنظیمات کار ما در شبیه سازی را می توان در زیر مشاهده کرد. سیاست ها ابتدا در محیط های شبیه سازی شده آموزش داده می شوند و سپس به سخت افزار منتقل می شوند.

تصویری از تنظیم کار بصری حرکتی. این ربات مجهز به دو دوربین برای مشاهده محیط است (که توسط اهرام شفاف نشان داده شده است). مشاهدات و وضعیت ربات برای ایجاد یک طرح حرکتی سطح بالا، مانند مکان فرود پا و سرعت حرکت مورد نظر، به خط مشی ارسال می شود. سپس طرح حرکت سطح بالا توسط یک کنترل کننده کنترل پیش بینی حرکت سطح پایین (MPC) به دست می آید.

نتایج آزمایش
ما ابتدا الگوریتم PI-ARS را بر روی چهار کار شبیه سازی شده چالش برانگیز ارزیابی می کنیم:

  • سنگ های پله ناهموار: ربات باید روی زمین های ناهموار راه برود و از شکاف ها اجتناب کند.
  • توده های کوینکونشال: ربات باید از شکاف های جلویی و جانبی جلوگیری کند.
  • سکوهای متحرک: ربات باید از روی سنگ های پله ای که به طور تصادفی به صورت افقی یا عمودی حرکت می کنند راه برود. این وظیفه انعطاف پذیری یادگیری یک سیاست مبتنی بر چشم انداز را در مقایسه با بازسازی صریح محیط نشان می دهد.
  • ناوبری داخلی: ربات باید به یک مکان تصادفی حرکت کند و در عین حال از موانع در یک محیط داخلی اجتناب کند.

همانطور که در زیر نشان داده شده است، PI-ARS می تواند به طور قابل توجهی از ARS در هر چهار وظیفه از نظر کل پاداش کاری که می تواند به دست آورد (30-50٪) بهتر عمل کند.

ترک کرد: تجسم عملکرد خط مشی PI-ARS در شبیه سازی درست: کل پاداش کار (یعنی بازگشت قسمت) برای PI-ARS (خط سبز) و ARS (خط قرمز). الگوریتم PI-ARS به طور قابل توجهی بهتر از ARS در چهار کار چالش برانگیز حرکتی دیداری عمل می کند.

ما سیاست‌های آموزش‌دیده‌شده را بیشتر روی یک ربات لایکاگو واقعی در دو کار پیاده‌سازی می‌کنیم: پله تصادفی و ناوبری داخلی. ما نشان می‌دهیم که خط‌مشی‌های آموزش‌دیده ما می‌توانند با موفقیت وظایف دنیای واقعی را انجام دهند. قابل ذکر است، میزان موفقیت کار تصادفی سنگ پله از 40٪ در کار قبلی به 100٪ بهبود یافته است.

خط مشی آموزش دیده PI-ARS یک ربات واقعی لایکاگو را قادر می سازد تا در اطراف موانع حرکت کند.

نتیجه
در این کار، ما یک الگوریتم یادگیری جدید، PI-ARS، ارائه می‌کنیم که یادگیری بازنمایی مبتنی بر گرادیان را با الگوریتم‌های استراتژی تکاملی بدون گرادیان ترکیب می‌کند تا از مزایای هر دو استفاده کند. PI-ARS از اثربخشی، سادگی و موازی‌پذیری الگوریتم‌های بدون گرادیان لذت می‌برد، در حالی که با بهینه‌سازی نمایشی با ابعاد پایین، تنگنای کلیدی الگوریتم‌های ES را در رسیدگی به مسائل با ابعاد بالا برطرف می‌کند. ما PI-ARS را برای مجموعه‌ای از وظایف چالش‌برانگیز بصری-حرکتی اعمال می‌کنیم، که در میان آن‌ها PI-ARS به طور قابل‌توجهی از وضعیت هنر پیشی می‌گیرد. علاوه بر این، ما خط مشی آموخته شده توسط PI-ARS را روی یک ربات چهارپا واقعی تأیید می کنیم. این ربات را قادر می‌سازد تا از روی سنگ‌های پله‌ای که به‌طور تصادفی قرار گرفته‌اند راه برود و در یک فضای داخلی با موانع حرکت کند. روش ما امکان ترکیب مدل‌های شبکه عصبی بزرگ مدرن و داده‌های در مقیاس بزرگ را در زمینه استراتژی تکاملی برای کنترل رباتیک باز می‌کند.

سپاسگزاریها
مایلیم از نویسندگان مقاله خود تشکر کنیم: Ofir Nachum، Tingnan Zhang، Sergio Guadarrama، و Jie Tan. همچنین مایلیم از یان فیشر و جان کنی برای بازخورد ارزشمند تشکر کنیم.