معیار چابکی در سطح حیوانات با روبات های چهارپا – وبلاگ هوش مصنوعی گوگل

ایجاد ربات هایی که قابلیت های حرکتی قوی و پویا، مشابه حیوانات یا انسان ها را نشان می دهند، یک هدف دیرینه در جامعه روباتیک بوده است. علاوه بر انجام سریع و کارآمد وظایف، چابکی به ربات های پا اجازه می دهد تا در محیط های پیچیده ای حرکت کنند که در غیر این صورت عبور کردن از آنها دشوار است. محققان در گوگل چندین سال است که به دنبال چابکی و در عوامل مختلف بوده اند. با این حال، در حالی که محققان ربات ها را قادر به پیاده روی یا پرش از روی برخی موانع کرده اند، هنوز هیچ معیار پذیرفته شده ای وجود ندارد که به طور جامع چابکی یا تحرک ربات را اندازه گیری کند. در مقابل، معیارها نیروهای محرک توسعه یادگیری ماشین هستند، مانند ImageNet برای بینایی کامپیوتر، و OpenAI Gym برای یادگیری تقویتی (RL).

در «بارکور: محک زدن چابکی در سطح حیوانات با روبات‌های چهارپا»، ما بارکور معیار چابکی برای روبات‌های چهارپا، همراه با یک خط‌مشی جابجایی عمومی مبتنی بر ترانسفورماتور. با الهام از مسابقات چابکی سگ، یک ربات پا باید به طور متوالی مهارت های مختلفی از جمله حرکت در جهات مختلف، عبور از زمین های ناهموار و پرش از روی موانع را در یک بازه زمانی محدود نشان دهد تا با موفقیت این معیار را تکمیل کند. با ارائه یک مسیر موانع متنوع و چالش برانگیز، معیار بارکور محققان را تشویق می کند تا کنترل کننده های حرکتی را توسعه دهند که به روشی قابل کنترل و همه کاره سریع حرکت می کنند. علاوه بر این، با گره زدن معیار عملکرد به عملکرد واقعی سگ، ما یک معیار بصری برای درک عملکرد ربات با توجه به همتایان حیوانی آنها ارائه می دهیم.


ما تعداد انگشت شماری از دوگلرها را دعوت کردیم تا مسیر موانع را امتحان کنند تا مطمئن شویم که اهداف چابکی ما واقع بینانه و چالش برانگیز است. سگ های کوچک مسیر موانع را تقریباً در 10 ثانیه کامل می کنند، در حالی که عملکرد معمولی ربات ما حدود 20 ثانیه است.

معیار بارکور

سیستم امتیازدهی بارکور از هر مانع و زمان هدف کلی دوره بر اساس سرعت هدف سگ های کوچک در مسابقات چابکی تازه کار (حدود 1.7 متر بر ثانیه) استفاده می کند. امتیازات بارکور از 0 تا 1 است که 1 مربوط به عبور موفقیت آمیز ربات از موانع در طول مسیر در مدت زمان تعیین شده تقریباً 10 ثانیه است، میانگین زمان مورد نیاز برای یک سگ هم اندازه برای عبور از مسیر. ربات به دلیل پرش، شکست در موانع یا حرکت خیلی آهسته جریمه دریافت می کند.

دوره استاندارد ما شامل چهار مانع منحصر به فرد در یک منطقه 5 متر در 5 متر است. این یک مجموعه متراکم تر و کوچکتر از یک مسابقه سگ معمولی است تا امکان استقرار آسان در آزمایشگاه روباتیک را فراهم کند. با شروع از میز شروع، ربات باید مجموعه ای از میل ها را ببافد، از یک قاب A بالا برود، یک پرش عرض 0.5 متری را پاک کند و سپس روی میز انتهایی قدم بگذارد. ما این زیرمجموعه از موانع را انتخاب کردیم زیرا آنها مجموعه‌ای از مهارت‌ها را آزمایش می‌کنند و در عین حال تنظیم را در محدوده کوچکی نگه می‌دارند. همانطور که در مورد مسابقات چابکی سگ واقعی وجود دارد، معیار بارکور می تواند به راحتی با یک منطقه بزرگتر سازگار شود و ممکن است تعداد متغیری از موانع و پیکربندی های مسیر را در خود جای دهد.

مروری بر راه‌اندازی مسیر موانع معیار بارکور، که شامل میله‌های بافت، یک قاب A، یک پرش عریض و جداول مکث است. مکانیسم امتیاز دهی بصری که از مسابقات چابکی سگ الهام گرفته شده است، سرعت، چابکی و عملکرد را متعادل می کند و می تواند به راحتی برای ترکیب انواع دیگر موانع یا تنظیمات مسیر تغییر یابد.

یادگیری مهارت های حرکتی چابک

معیار بارکور دارای مجموعه متنوعی از موانع و سیستم پاداش تاخیری است که در هنگام آموزش یک خط مشی واحد که می تواند کل مسیر موانع را کامل کند، چالش مهمی ایجاد می کند. بنابراین به منظور تعیین یک پایه عملکرد قوی و نشان دادن اثربخشی معیار برای تحقیقات چابکی رباتیک، ما یک چارچوب دانش‌آموز-معلم ترکیب شده با رویکرد صفر شات سیم به واقعی را اتخاذ می‌کنیم. ابتدا، ما مهارت‌های حرکتی تخصصی فردی (معلم) را برای موانع مختلف با استفاده از روش‌های RL روی خط‌مشی آموزش می‌دهیم. به طور خاص، ما از پیشرفت‌های اخیر در شبیه‌سازی موازی در مقیاس بزرگ برای تجهیز ربات به مهارت‌های فردی، از جمله راه رفتن، بالا رفتن از شیب، و سیاست‌های پرش استفاده می‌کنیم.

در مرحله بعد، یک خط مشی واحد (دانشجو) را آموزش می‌دهیم که تمام مهارت‌ها و انتقال‌ها را با استفاده از چارچوب دانش‌آموز-معلم، بر اساس مهارت‌های تخصصی که قبلاً آموزش داده‌ایم، انجام می‌دهد. ما از برنامه های شبیه سازی برای ایجاد مجموعه داده هایی از جفت های اقدام حالت برای هر یک از مهارت های تخصصی استفاده می کنیم. سپس این مجموعه داده در یک خط مشی حرکت کلی مبتنی بر ترانسفورماتور تقطیر می شود، که می تواند زمین های مختلف را مدیریت کند و راه رفتن ربات را بر اساس محیط درک شده و وضعیت ربات تنظیم کند.

در طول استقرار، ما خط مشی ترانسفورماتور حرکتی را که قادر به انجام چندین مهارت است با یک کنترل کننده ناوبری که دستورات سرعت را بر اساس موقعیت ربات ارائه می کند، جفت می کنیم. خط مشی آموزش دیده ما ربات را بر اساس محیط اطراف ربات که به صورت نقشه ارتفاع، دستورات سرعت و اطلاعات حسی موجود در ربات ارائه شده توسط ربات نمایش داده می شود، کنترل می کند.


خط لوله استقرار برای معماری ترانسفورماتور حرکتی. در زمان استقرار، یک کنترلر ناوبری سطح بالا، ربات واقعی را با ارسال دستوراتی به خط مشی ترانسفورماتور حرکتی، در مسیر موانع هدایت می کند.

زمانی که هدف ما حداکثر کارایی و حداکثر سرعت باشد، استحکام و تکرارپذیری به سختی به دست می‌آید. گاهی اوقات، ربات ممکن است هنگام غلبه بر یک مانع به روشی چابک شکست بخورد. برای رسیدگی به شکست‌ها، ما یک سیاست بازیابی را آموزش می‌دهیم که به سرعت ربات را روی پاهای خود باز می‌دارد و به او اجازه می‌دهد قسمت را ادامه دهد.

ارزیابی

ما سیاست جابجایی عمومی مبتنی بر ترانسفورماتور را با استفاده از روبات‌های چهارپایی سفارشی ارزیابی می‌کنیم و نشان می‌دهیم که با بهینه‌سازی برای معیار پیشنهادی، مهارت‌های چابک، قوی و همه‌کاره را برای ربات خود در دنیای واقعی به دست می‌آوریم. ما همچنین تجزیه و تحلیلی را برای انتخاب های مختلف طراحی در سیستم خود و تأثیر آنها بر عملکرد سیستم ارائه می دهیم.

مدل ربات های سفارشی ساخته شده برای ارزیابی.

ما هر دو سیاست تخصصی و عمومی را به سخت افزار (صفر شات سیم به واقعی) اجرا می کنیم. مسیر هدف ربات توسط مجموعه ای از ایستگاه های بین راه در امتداد موانع مختلف ارائه می شود. در مورد خط‌مشی‌های تخصصی، با استفاده از مکانیزم تغییر خط‌مشی تنظیم‌شده دستی که مناسب‌ترین خط‌مشی را با توجه به موقعیت ربات انتخاب می‌کند، بین خط‌مشی‌های تخصصی جابجا می‌شویم.


عملکرد معمولی سیاست‌های حرکتی چابک ما در معیار بارکور. ربات چهارپا سفارشی ما با استفاده از مهارت‌های مختلف آموخته‌شده با استفاده از RL در شبیه‌سازی، به خوبی موانع زمین را هدایت می‌کند.

ما متوجه می‌شویم که اغلب خط‌مشی‌های ما می‌توانند رویدادهای غیرمنتظره یا حتی تخریب سخت‌افزار را مدیریت کنند که منجر به متوسط ​​عملکرد خوب می‌شود، اما شکست‌ها همچنان ممکن است. همانطور که در تصویر زیر نشان داده شده است، در صورت خرابی، خط مشی بازیابی ما به سرعت ربات را روی پاهای خود بازمی‌گرداند و به او اجازه می‌دهد تا قسمت را ادامه دهد. با ترکیب سیاست بازیابی با یک خط مشی ساده بازگشت به شروع، می‌توانیم آزمایش‌های مکرر را با حداقل دخالت انسان برای اندازه‌گیری استحکام اجرا کنیم.


نمونه کیفی رفتارهای استحکام و بازیابی. ربات پس از پایین آمدن در قاب A حرکت می کند و غلت می زند. این سیاست بازیابی را آغاز می کند، که به ربات امکان می دهد دوباره بلند شود و دوره را ادامه دهد.

ما متوجه شدیم که در تعداد زیادی از ارزیابی‌ها، سیاست ترانسفورماتور حرکت کلی و سیاست‌های تخصصی با مکانیسم تعویض خط مشی عملکرد مشابهی را به دست می‌آورند. خط مشی ترانسفورماتور حرکتی دارای میانگین امتیاز بارکور کمی پایین تر است، اما انتقال نرم تر بین رفتارها و راه رفتن ها را نشان می دهد.


اندازه گیری استحکام سیاست های مختلف در تعداد زیادی از اجراها بر اساس معیار بارکور.

هیستوگرام امتیازات چابکی برای سیاست ترانسفورماتور حرکتی. بالاترین امتیازات نشان داده شده با رنگ آبی (0.75 – 0.9) نشان دهنده دوندگی هایی است که ربات با موفقیت تمام موانع را تکمیل می کند.

نتیجه

ما معتقدیم که ایجاد معیاری برای رباتیک پاها اولین قدم مهم در تعیین کمیت پیشرفت به سمت چابکی در سطح حیوانات است. برای ایجاد یک خط پایه قوی، ما یک رویکرد صفر-شات سیم به واقعی را بررسی کردیم، با استفاده از شبیه‌سازی موازی در مقیاس بزرگ و پیشرفت‌های اخیر در آموزش معماری‌های مبتنی بر ترانسفورماتور. یافته‌های ما نشان می‌دهد که Barkour یک معیار چالش‌برانگیز است که می‌توان آن را به راحتی سفارشی کرد، و اینکه روش مبتنی بر یادگیری ما برای حل معیار، یک ربات چهارپا با یک خط‌مشی واحد سطح پایین ارائه می‌کند که می‌تواند انواع مهارت‌های سطح پایین چابک را انجام دهد.

قدردانی

نویسندگان این پست اکنون بخشی از Google DeepMind هستند. مایلیم از همکاران خود در Google DeepMind و همکارانمان در Google Research تشکر کنیم: Wenhao Yu، J. Chase Kew، Tingnan Zhang، Daniel Freeman، Kuang-Hei Lee، Lisa Lee، Stefano Saliceti، Vincent Zhuang، Nathan Batchelor، استیون بوهز، فدریکو کاسارینی، خوزه انریکه چن، عمر کورتس، اروین کومانس، عادل دوستمحمد، گابریل دولاک-آرنولد، الخاندرو اسکونترلا، اریک فری، رولاند هافنر، دیپلی جین، یوهنگ کوانگ، ادوارد لی، لیندا لو، کن اوسلو ناچ جیسون پاول، دیگو ریس، فرانچسکو رومانو، فرشته صادقی، ران اسلوات، باروخ تابانپور، دانیل ژنگ، مایکل نونرت، رایا هادسل، نیکلاس هس، فرانچسکو نوری، جف ستو، کارولینا پارادا، ویکاس سیندوانی، وینسنت جی تانهوک، و. همچنین مایلیم از Marissa Giustina، Ben Jyenis، Gus Kouretas، Nubby Lee، James Lubin، Sherry Moore، Thinh Nguyen، Krista Reymann، Satoshi Kataoka، Trish Blazina و اعضای تیم روباتیک در Google DeepMind به خاطر کمک هایشان در این زمینه تشکر کنیم. پروژه.

سئو PBN | خبر های جدید سئو و هک و سرور