آموزش راه رفتن در طبیعت از Semantics زمین

یک وعده مهم برای ربات های چهارپا، پتانسیل آنها برای کار در محیط های پیچیده بیرونی است که برای انسان دشوار یا غیرقابل دسترس است. چه برای یافتن منابع طبیعی در اعماق کوه‌ها، چه برای جستجوی سیگنال‌های حیات در مکان‌های زلزله‌ای که به شدت آسیب دیده‌اند، یک ربات چهارپا قوی و همه کاره می‌تواند بسیار مفید باشد. برای دستیابی به آن، یک ربات باید محیط را درک کند، چالش های حرکتی خود را درک کند و مهارت حرکتی خود را بر این اساس تطبیق دهد. در حالی که پیشرفت‌های اخیر در حرکت ادراکی قابلیت ربات‌های چهارپا را به میزان زیادی افزایش داده است، بیشتر کارها بر محیط‌های داخلی یا شهری تمرکز دارند، بنابراین آنها نمی‌توانند به طور موثری از پیچیدگی زمین‌های خارج از جاده مراقبت کنند. در این محیط ها، ربات نه تنها باید زمین را درک کند شکل (به عنوان مثال، زاویه شیب، صافی)، اما همچنین آن خواص تماس (به عنوان مثال، اصطکاک، بازگشت، تغییر شکل)، که برای یک ربات مهم است تا مهارت های حرکتی خود را تعیین کند. از آنجایی که سیستم‌های حرکتی ادراکی موجود بیشتر بر استفاده از دوربین‌های عمق یا LiDAR تمرکز می‌کنند، تخمین دقیق چنین ویژگی‌های زمین برای این سیستم‌ها می‌تواند دشوار باشد.

در «یادگیری مهارت‌های حرکتی آگاه از معناشناسی از تظاهرات انسانی»، ما یک چارچوب یادگیری سلسله مراتبی برای بهبود توانایی ربات برای عبور از محیط‌های پیچیده و خارج از جاده طراحی می‌کنیم. برخلاف رویکردهای قبلی که بر محیط زیست متمرکز بودند هندسهمانند شکل زمین و مکان موانع، ما روی محیط تمرکز می کنیم مفاهیممانند نوع زمین (چمن، گل و لای و غیره) و ویژگی های تماس، که مجموعه ای مکمل از اطلاعات مفید برای محیط های خارج از جاده را ارائه می دهد. همانطور که ربات راه می رود، چارچوب مهارت حرکت، از جمله مهارت حرکت را تعیین می کند سرعت و راه رفتن (به عنوان مثال، شکل و زمان حرکت پاها) ربات بر اساس معنایی درک شده، که به ربات اجازه می دهد تا در انواع مختلف زمین های خارج از جاده، از جمله سنگ ها، سنگریزه ها، چمن های عمیق، گل و غیره، قوی راه برود.

چارچوب ما مهارت های (راه رفتن و سرعت) ربات را از تصویر RGB دوربین انتخاب می کند. ابتدا سرعت را از روی معناشناسی زمین محاسبه می کنیم و سپس یک راه رفتن را بر اساس سرعت انتخاب می کنیم.

بررسی اجمالی
چارچوب سلسله مراتبی از یک سطح بالا تشکیل شده است خط مشی مهارت و سطح پایین کنترل کننده موتور. این خط مشی مهارت بر اساس تصاویر دوربین، یک مهارت حرکتی را انتخاب می کند کنترل کننده موتور مهارت انتخاب شده را به دستورات حرکتی تبدیل می کند. سطح بالا خط مشی مهارت بیشتر به یک آموخته تجزیه می شود سیاست سرعت و مبتنی بر اکتشافی انتخابگر راه رفتن. برای تصمیم گیری در مورد یک مهارت، سیاست سرعت ابتدا سرعت رو به جلو مورد نظر را بر اساس اطلاعات معنایی دوربین RGB آنبرد محاسبه می کند. برای بهره وری انرژی و استحکام، ربات های چهارپا معمولاً برای هر سرعت راه رفتن متفاوتی را انتخاب می کنند، بنابراین ما انتخابگر راه رفتن را برای محاسبه راه رفتن دلخواه بر اساس سرعت رو به جلو طراحی کردیم. در نهایت، یک کنترل‌کننده پیش‌بینی مدل محدب سطح پایین (MPC) مهارت حرکت مورد نظر را به فرمان‌های گشتاور موتور تبدیل می‌کند و آنها را روی سخت‌افزار واقعی اجرا می‌کند. ما خط مشی سرعت را مستقیماً در دنیای واقعی با استفاده از یادگیری تقلیدی آموزش می دهیم زیرا در مقایسه با الگوریتم های یادگیری تقویتی استاندارد به داده های آموزشی کمتری نیاز دارد.

این چارچوب از یک خط مشی مهارت سطح بالا و یک کنترل کننده موتور سطح پایین تشکیل شده است.

فرمان سرعت یادگیری از تظاهرات انسانی
به عنوان جزء اصلی در خط لوله ما، سیاست سرعت سرعت رو به جلو مورد نظر ربات را بر اساس تصویر RGB از دوربین آنبورد خروجی می دهد. اگرچه بسیاری از وظایف یادگیری ربات می‌توانند شبیه‌سازی را به عنوان منبعی برای جمع‌آوری داده‌های کم‌هزینه مورد استفاده قرار دهند، اما ما سیاست سرعت را در دنیای واقعی آموزش می‌دهیم زیرا شبیه‌سازی دقیق محیط‌های پیچیده و متنوع خارج از جاده هنوز در دسترس نیست. از آنجایی که یادگیری خط‌مشی در دنیای واقعی زمان‌بر و بالقوه ناامن است، ما دو انتخاب کلیدی طراحی برای بهبود کارایی داده و ایمنی سیستم خود انجام می‌دهیم.

اولین مورد یادگیری از تظاهرات انسانی است. الگوریتم های استاندارد یادگیری تقویتی معمولاً توسط اکتشاف، که در آن عامل اقدامات مختلفی را در یک محیط انجام می دهد و بر اساس پاداش های دریافتی اولویت ها را ایجاد می کند. با این حال، چنین اکتشافاتی می تواند به طور بالقوه ناامن باشد، به ویژه در محیط های خارج از جاده، زیرا هر گونه خرابی ربات می تواند به سخت افزار ربات و محیط اطراف آسیب برساند. برای اطمینان از ایمنی، ما سیاست سرعت را با استفاده از یادگیری تقلیدی از تظاهرات انسانی آموزش می دهیم. ابتدا از یک اپراتور انسانی می‌خواهیم که ربات را در زمین‌های مختلف خارج از جاده از راه دور اداره کند، جایی که اپراتور با استفاده از یک جوی استیک از راه دور، سرعت و سمت ربات را کنترل می‌کند. در مرحله بعد، داده های آموزشی را با ذخیره سازی (تصویر، جلو_سرعت) جفت. سپس خط مشی سرعت را با استفاده از یادگیری نظارت شده استاندارد برای پیش بینی فرمان سرعت اپراتور انسانی آموزش می دهیم. همانطور که مشخص است، نمایش انسانی هم ایمن و هم باکیفیت است و به ربات اجازه می‌دهد تا انتخاب سرعت مناسب برای مناطق مختلف را بیاموزد.

دومین انتخاب کلیدی طراحی، روش آموزش است. شبکه های عصبی عمیق، به ویژه آنهایی که شامل ورودی های بصری با ابعاد بالا هستند، معمولاً به داده های زیادی برای آموزش نیاز دارند. برای کاهش میزان داده‌های آموزشی در دنیای واقعی مورد نیاز، ابتدا یک مدل تقسیم‌بندی معنایی بر روی RUGD (یک مجموعه داده رانندگی خارج از جاده که در آن تصاویر مشابه تصاویر گرفته‌شده توسط دوربین داخلی ربات به نظر می‌رسند) از قبل آموزش می‌دهیم، جایی که مدل پیش‌بینی می‌کند کلاس معنایی (علف، گل و غیره) برای هر پیکسل در تصویر دوربین. سپس a را استخراج می کنیم تعبیه معنایی از لایه های میانی مدل استفاده کنید و از آن به عنوان ویژگی برای آموزش روی ربات استفاده کنید. با تعبیه معنایی از پیش آموزش‌دیده، می‌توانیم سیاست سرعت را به طور مؤثر با استفاده از کمتر از 30 دقیقه داده‌های دنیای واقعی آموزش دهیم، که میزان تلاش مورد نیاز را تا حد زیادی کاهش می‌دهد.

ما یک مدل تقسیم‌بندی معنایی را از قبل آموزش می‌دهیم و یک جاسازی معنایی را استخراج می‌کنیم تا روی داده‌های ربات به‌خوبی تنظیم شود.

انتخاب راه رفتن و کنترل موتور
جزء بعدی در خط لوله، انتخابگر راه رفتن، راه رفتن مناسب را بر اساس فرمان سرعت محاسبه می کند سیاست سرعت. راه رفتن یک ربات، از جمله فرکانس قدم زدن، ارتفاع چرخش و ارتفاع پایه، می تواند تا حد زیادی بر توانایی ربات برای عبور از زمین های مختلف تأثیر بگذارد.

مطالعات علمی نشان داده‌اند که حیوانات با سرعت‌های مختلف بین راه رفتن‌های مختلف جابجا می‌شوند و این نتیجه در روبات‌های چهارپا بیشتر تایید می‌شود، بنابراین ما انتخابگر راه رفتن را برای محاسبه راه رفتن قوی برای هر سرعت طراحی کردیم. در مقایسه با استفاده از راه رفتن ثابت در تمام سرعت ها، متوجه شدیم که انتخابگر راه رفتن عملکرد ناوبری ربات را در زمین های خارج از جاده افزایش می دهد (جزئیات بیشتر در مقاله).

آخرین جزء خط لوله a کنترل کننده موتورکه دستورات سرعت و راه رفتن را به گشتاور موتور تبدیل می کند. مشابه کار قبلی، ما از استراتژی‌های کنترل جداگانه برای پاهای چرخشی و ایستاده استفاده می‌کنیم. با جدا کردن وظیفه یادگیری مهارت و کنترل حرکتی، خط مشی مهارت فقط نیاز به خروجی سرعت مورد نظر دارد و نیازی به یادگیری کنترل‌های حرکتی سطح پایین ندارد که فرآیند یادگیری را بسیار ساده می‌کند.

نتایج آزمایش
ما چارچوب خود را روی یک ربات چهارپا A1 پیاده‌سازی کردیم و آن را در مسیری در فضای باز با انواع زمین‌های مختلف از جمله چمن، شن و آسفالت آزمایش کردیم که درجات مختلفی از دشواری را برای ربات ایجاد می‌کند. به عنوان مثال، در حالی که ربات برای جلوگیری از گیرکردن پایش باید آهسته با تاب های بلند پا در چمن های عمیق راه برود، روی آسفالت می تواند برای بهره وری انرژی بهتر با تاب های پایین پا بسیار سریعتر راه برود. چارچوب ما چنین تفاوت‌هایی را نشان می‌دهد و مهارت مناسبی را برای هر نوع زمین انتخاب می‌کند: سرعت آهسته (0.5 متر بر ثانیه) در چمن عمیق، سرعت متوسط ​​(1 متر در ثانیه) روی شن و سرعت بالا (1.4 متر بر ثانیه) روی آسفالت. این مسیر 460 متری را در 9.6 دقیقه با سرعت متوسط ​​0.8 متر بر ثانیه (یعنی 1.8 مایل یا 2.9 کیلومتر در ساعت) کامل می کند. در مقابل، سیاست‌های غیر انطباقی یا نمی‌توانند مسیر را با خیال راحت کامل کنند یا به طور قابل‌توجهی کندتر راه بروند (0.5 متر بر ثانیه)، که اهمیت انطباق مهارت‌های حرکتی بر اساس محیط‌های درک شده را نشان می‌دهد.

چارچوب سرعت های مختلف را بر اساس شرایط مسیر انتخاب می کند.

برای آزمایش قابلیت تعمیم، ما همچنین ربات را در تعدادی مسیر که در طول آموزش دیده نمی شوند، مستقر کردیم. ربات از همه آنها بدون شکست عبور می کند و مهارت های حرکتی خود را بر اساس معناشناسی زمین تنظیم می کند. به طور کلی، خط مشی مهارت، مهارت سریع‌تری را در زمین‌های صلب و مسطح و سرعت کمتری را در زمین‌های تغییر شکل‌پذیر یا ناهموار انتخاب می‌کند. در زمان نگارش این مقاله، این ربات بیش از 6 کیلومتر مسیر در فضای باز را بدون شکست طی کرده است.

با این چارچوب، ربات با خیال راحت در زمین های مختلف در فضای باز که در طول تمرین دیده نمی شوند، راه می رود.

نتیجه
در این کار، ما یک چارچوب سلسله مراتبی برای یادگیری مهارت‌های حرکتی آگاهانه معنایی برای حرکت خارج از جاده ارائه می‌کنیم. با استفاده از کمتر از 30 دقیقه داده های نمایشی انسانی، چارچوب یاد می گیرد که سرعت و راه رفتن ربات را بر اساس معنایی درک شده از محیط تنظیم کند. این ربات می تواند به طور ایمن و کارآمد در طیف گسترده ای از زمین های خارج از جاده راه برود. یکی از محدودیت‌های چارچوب ما این است که فقط مهارت‌های حرکتی را برای پیاده‌روی استاندارد تنظیم می‌کند و از رفتارهای چابک‌تر مانند پریدن پشتیبانی نمی‌کند، که می‌تواند برای عبور از زمین‌های سخت‌تر با شکاف یا موانع ضروری باشد. محدودیت دیگر این است که چارچوب ما در حال حاضر به دستورات فرمان دستی برای دنبال کردن مسیر دلخواه و رسیدن به هدف نیاز دارد. در کار آینده، ما قصد داریم به دنبال یکپارچگی عمیق‌تر از خط‌مشی مهارت‌های سطح بالا با کنترل‌کننده سطح پایین برای رفتارهای چابک‌تر باشیم و ناوبری و برنامه‌ریزی مسیر را در چارچوب قرار دهیم تا ربات بتواند به طور کامل مستقل در چالش‌های غیرمجاز عمل کند. محیط های جاده ای

سپاسگزاریها
مایلیم از نویسندگان مقاله خود تشکر کنیم: Xiangyun Meng، Wenhao Yu، Tingnan Zhang، Jie Tan، و چکمه های بایرون. همچنین مایلیم از اعضای تیم Robotics در Google برای بحث و بازخورد تشکر کنیم.