ایجاد ربات هایی که قابلیت های حرکتی قوی و پویا، مشابه حیوانات یا انسان ها را نشان می دهند، یک هدف دیرینه در جامعه روباتیک بوده است. علاوه بر انجام سریع و کارآمد وظایف، چابکی به ربات های پا اجازه می دهد تا در محیط های پیچیده ای حرکت کنند که در غیر این صورت عبور کردن از آنها دشوار است. محققان در گوگل چندین سال است که به دنبال چابکی و در عوامل مختلف بوده اند. با این حال، در حالی که محققان ربات ها را قادر به پیاده روی یا پرش از روی برخی موانع کرده اند، هنوز هیچ معیار پذیرفته شده ای وجود ندارد که به طور جامع چابکی یا تحرک ربات را اندازه گیری کند. در مقابل، معیارها نیروهای محرک توسعه یادگیری ماشین هستند، مانند ImageNet برای بینایی کامپیوتر، و OpenAI Gym برای یادگیری تقویتی (RL).
در «بارکور: محک زدن چابکی در سطح حیوانات با روباتهای چهارپا»، ما بارکور معیار چابکی برای روباتهای چهارپا، همراه با یک خطمشی جابجایی عمومی مبتنی بر ترانسفورماتور. با الهام از مسابقات چابکی سگ، یک ربات پا باید به طور متوالی مهارت های مختلفی از جمله حرکت در جهات مختلف، عبور از زمین های ناهموار و پرش از روی موانع را در یک بازه زمانی محدود نشان دهد تا با موفقیت این معیار را تکمیل کند. با ارائه یک مسیر موانع متنوع و چالش برانگیز، معیار بارکور محققان را تشویق می کند تا کنترل کننده های حرکتی را توسعه دهند که به روشی قابل کنترل و همه کاره سریع حرکت می کنند. علاوه بر این، با گره زدن معیار عملکرد به عملکرد واقعی سگ، ما یک معیار بصری برای درک عملکرد ربات با توجه به همتایان حیوانی آنها ارائه می دهیم.
ما تعداد انگشت شماری از دوگلرها را دعوت کردیم تا مسیر موانع را امتحان کنند تا مطمئن شویم که اهداف چابکی ما واقع بینانه و چالش برانگیز است. سگ های کوچک مسیر موانع را تقریباً در 10 ثانیه کامل می کنند، در حالی که عملکرد معمولی ربات ما حدود 20 ثانیه است. |
معیار بارکور
سیستم امتیازدهی بارکور از هر مانع و زمان هدف کلی دوره بر اساس سرعت هدف سگ های کوچک در مسابقات چابکی تازه کار (حدود 1.7 متر بر ثانیه) استفاده می کند. امتیازات بارکور از 0 تا 1 است که 1 مربوط به عبور موفقیت آمیز ربات از موانع در طول مسیر در مدت زمان تعیین شده تقریباً 10 ثانیه است، میانگین زمان مورد نیاز برای یک سگ هم اندازه برای عبور از مسیر. ربات به دلیل پرش، شکست در موانع یا حرکت خیلی آهسته جریمه دریافت می کند.
دوره استاندارد ما شامل چهار مانع منحصر به فرد در یک منطقه 5 متر در 5 متر است. این یک مجموعه متراکم تر و کوچکتر از یک مسابقه سگ معمولی است تا امکان استقرار آسان در آزمایشگاه روباتیک را فراهم کند. با شروع از میز شروع، ربات باید مجموعه ای از میل ها را ببافد، از یک قاب A بالا برود، یک پرش عرض 0.5 متری را پاک کند و سپس روی میز انتهایی قدم بگذارد. ما این زیرمجموعه از موانع را انتخاب کردیم زیرا آنها مجموعهای از مهارتها را آزمایش میکنند و در عین حال تنظیم را در محدوده کوچکی نگه میدارند. همانطور که در مورد مسابقات چابکی سگ واقعی وجود دارد، معیار بارکور می تواند به راحتی با یک منطقه بزرگتر سازگار شود و ممکن است تعداد متغیری از موانع و پیکربندی های مسیر را در خود جای دهد.
![]() |
مروری بر راهاندازی مسیر موانع معیار بارکور، که شامل میلههای بافت، یک قاب A، یک پرش عریض و جداول مکث است. مکانیسم امتیاز دهی بصری که از مسابقات چابکی سگ الهام گرفته شده است، سرعت، چابکی و عملکرد را متعادل می کند و می تواند به راحتی برای ترکیب انواع دیگر موانع یا تنظیمات مسیر تغییر یابد. |
یادگیری مهارت های حرکتی چابک
معیار بارکور دارای مجموعه متنوعی از موانع و سیستم پاداش تاخیری است که در هنگام آموزش یک خط مشی واحد که می تواند کل مسیر موانع را کامل کند، چالش مهمی ایجاد می کند. بنابراین به منظور تعیین یک پایه عملکرد قوی و نشان دادن اثربخشی معیار برای تحقیقات چابکی رباتیک، ما یک چارچوب دانشآموز-معلم ترکیب شده با رویکرد صفر شات سیم به واقعی را اتخاذ میکنیم. ابتدا، ما مهارتهای حرکتی تخصصی فردی (معلم) را برای موانع مختلف با استفاده از روشهای RL روی خطمشی آموزش میدهیم. به طور خاص، ما از پیشرفتهای اخیر در شبیهسازی موازی در مقیاس بزرگ برای تجهیز ربات به مهارتهای فردی، از جمله راه رفتن، بالا رفتن از شیب، و سیاستهای پرش استفاده میکنیم.
در مرحله بعد، یک خط مشی واحد (دانشجو) را آموزش میدهیم که تمام مهارتها و انتقالها را با استفاده از چارچوب دانشآموز-معلم، بر اساس مهارتهای تخصصی که قبلاً آموزش دادهایم، انجام میدهد. ما از برنامه های شبیه سازی برای ایجاد مجموعه داده هایی از جفت های اقدام حالت برای هر یک از مهارت های تخصصی استفاده می کنیم. سپس این مجموعه داده در یک خط مشی حرکت کلی مبتنی بر ترانسفورماتور تقطیر می شود، که می تواند زمین های مختلف را مدیریت کند و راه رفتن ربات را بر اساس محیط درک شده و وضعیت ربات تنظیم کند.
![]() |
در طول استقرار، ما خط مشی ترانسفورماتور حرکتی را که قادر به انجام چندین مهارت است با یک کنترل کننده ناوبری که دستورات سرعت را بر اساس موقعیت ربات ارائه می کند، جفت می کنیم. خط مشی آموزش دیده ما ربات را بر اساس محیط اطراف ربات که به صورت نقشه ارتفاع، دستورات سرعت و اطلاعات حسی موجود در ربات ارائه شده توسط ربات نمایش داده می شود، کنترل می کند.
خط لوله استقرار برای معماری ترانسفورماتور حرکتی. در زمان استقرار، یک کنترلر ناوبری سطح بالا، ربات واقعی را با ارسال دستوراتی به خط مشی ترانسفورماتور حرکتی، در مسیر موانع هدایت می کند. |
زمانی که هدف ما حداکثر کارایی و حداکثر سرعت باشد، استحکام و تکرارپذیری به سختی به دست میآید. گاهی اوقات، ربات ممکن است هنگام غلبه بر یک مانع به روشی چابک شکست بخورد. برای رسیدگی به شکستها، ما یک سیاست بازیابی را آموزش میدهیم که به سرعت ربات را روی پاهای خود باز میدارد و به او اجازه میدهد قسمت را ادامه دهد.
ارزیابی
ما سیاست جابجایی عمومی مبتنی بر ترانسفورماتور را با استفاده از روباتهای چهارپایی سفارشی ارزیابی میکنیم و نشان میدهیم که با بهینهسازی برای معیار پیشنهادی، مهارتهای چابک، قوی و همهکاره را برای ربات خود در دنیای واقعی به دست میآوریم. ما همچنین تجزیه و تحلیلی را برای انتخاب های مختلف طراحی در سیستم خود و تأثیر آنها بر عملکرد سیستم ارائه می دهیم.
![]() |
مدل ربات های سفارشی ساخته شده برای ارزیابی. |
ما هر دو سیاست تخصصی و عمومی را به سخت افزار (صفر شات سیم به واقعی) اجرا می کنیم. مسیر هدف ربات توسط مجموعه ای از ایستگاه های بین راه در امتداد موانع مختلف ارائه می شود. در مورد خطمشیهای تخصصی، با استفاده از مکانیزم تغییر خطمشی تنظیمشده دستی که مناسبترین خطمشی را با توجه به موقعیت ربات انتخاب میکند، بین خطمشیهای تخصصی جابجا میشویم.
عملکرد معمولی سیاستهای حرکتی چابک ما در معیار بارکور. ربات چهارپا سفارشی ما با استفاده از مهارتهای مختلف آموختهشده با استفاده از RL در شبیهسازی، به خوبی موانع زمین را هدایت میکند. |
ما متوجه میشویم که اغلب خطمشیهای ما میتوانند رویدادهای غیرمنتظره یا حتی تخریب سختافزار را مدیریت کنند که منجر به متوسط عملکرد خوب میشود، اما شکستها همچنان ممکن است. همانطور که در تصویر زیر نشان داده شده است، در صورت خرابی، خط مشی بازیابی ما به سرعت ربات را روی پاهای خود بازمیگرداند و به او اجازه میدهد تا قسمت را ادامه دهد. با ترکیب سیاست بازیابی با یک خط مشی ساده بازگشت به شروع، میتوانیم آزمایشهای مکرر را با حداقل دخالت انسان برای اندازهگیری استحکام اجرا کنیم.
نمونه کیفی رفتارهای استحکام و بازیابی. ربات پس از پایین آمدن در قاب A حرکت می کند و غلت می زند. این سیاست بازیابی را آغاز می کند، که به ربات امکان می دهد دوباره بلند شود و دوره را ادامه دهد. |
ما متوجه شدیم که در تعداد زیادی از ارزیابیها، سیاست ترانسفورماتور حرکت کلی و سیاستهای تخصصی با مکانیسم تعویض خط مشی عملکرد مشابهی را به دست میآورند. خط مشی ترانسفورماتور حرکتی دارای میانگین امتیاز بارکور کمی پایین تر است، اما انتقال نرم تر بین رفتارها و راه رفتن ها را نشان می دهد.
اندازه گیری استحکام سیاست های مختلف در تعداد زیادی از اجراها بر اساس معیار بارکور. |
![]() |
هیستوگرام امتیازات چابکی برای سیاست ترانسفورماتور حرکتی. بالاترین امتیازات نشان داده شده با رنگ آبی (0.75 – 0.9) نشان دهنده دوندگی هایی است که ربات با موفقیت تمام موانع را تکمیل می کند. |
نتیجه
ما معتقدیم که ایجاد معیاری برای رباتیک پاها اولین قدم مهم در تعیین کمیت پیشرفت به سمت چابکی در سطح حیوانات است. برای ایجاد یک خط پایه قوی، ما یک رویکرد صفر-شات سیم به واقعی را بررسی کردیم، با استفاده از شبیهسازی موازی در مقیاس بزرگ و پیشرفتهای اخیر در آموزش معماریهای مبتنی بر ترانسفورماتور. یافتههای ما نشان میدهد که Barkour یک معیار چالشبرانگیز است که میتوان آن را به راحتی سفارشی کرد، و اینکه روش مبتنی بر یادگیری ما برای حل معیار، یک ربات چهارپا با یک خطمشی واحد سطح پایین ارائه میکند که میتواند انواع مهارتهای سطح پایین چابک را انجام دهد.
قدردانی
نویسندگان این پست اکنون بخشی از Google DeepMind هستند. مایلیم از همکاران خود در Google DeepMind و همکارانمان در Google Research تشکر کنیم: Wenhao Yu، J. Chase Kew، Tingnan Zhang، Daniel Freeman، Kuang-Hei Lee، Lisa Lee، Stefano Saliceti، Vincent Zhuang، Nathan Batchelor، استیون بوهز، فدریکو کاسارینی، خوزه انریکه چن، عمر کورتس، اروین کومانس، عادل دوستمحمد، گابریل دولاک-آرنولد، الخاندرو اسکونترلا، اریک فری، رولاند هافنر، دیپلی جین، یوهنگ کوانگ، ادوارد لی، لیندا لو، کن اوسلو ناچ جیسون پاول، دیگو ریس، فرانچسکو رومانو، فرشته صادقی، ران اسلوات، باروخ تابانپور، دانیل ژنگ، مایکل نونرت، رایا هادسل، نیکلاس هس، فرانچسکو نوری، جف ستو، کارولینا پارادا، ویکاس سیندوانی، وینسنت جی تانهوک، و. همچنین مایلیم از Marissa Giustina، Ben Jyenis، Gus Kouretas، Nubby Lee، James Lubin، Sherry Moore، Thinh Nguyen، Krista Reymann، Satoshi Kataoka، Trish Blazina و اعضای تیم روباتیک در Google DeepMind به خاطر کمک هایشان در این زمینه تشکر کنیم. پروژه.