ناوبری از طریق ترانسفورماتورهای روی ربات در زمان واقعی – وبلاگ هوش مصنوعی گوگل

علیرغم دهه‌ها تحقیق، ما ربات‌های متحرک زیادی را نمی‌بینیم که در خانه‌ها، دفاتر و خیابان‌های ما پرسه می‌زنند. ناوبری ربات های دنیای واقعی در محیط های انسان محور همچنان یک مشکل حل نشده باقی مانده است. این موقعیت‌های چالش‌برانگیز نیازمند ناوبری ایمن و کارآمد در فضاهای تنگ است، مانند فشردن بین میزهای قهوه‌خوری و کاناپه‌ها، مانور دادن در گوشه‌های تنگ، درها، اتاق‌های نامرتب و موارد دیگر. یک نیاز به همان اندازه حیاتی این است که به روشی پیمایش کنید که با هنجارهای نانوشته اجتماعی اطراف افراد مطابقت داشته باشد، به عنوان مثال، تسلیم شدن در گوشه های کور یا ماندن در یک فاصله راحت. Google Research متعهد به بررسی چگونگی پیشرفت در ML است که ما را قادر می سازد بر این موانع غلبه کنیم.

به طور خاص، مدل‌های ترانسفورماتور به پیشرفت‌های خیره‌کننده‌ای در روش‌های مختلف داده در مسائل یادگیری ماشینی (ML) در دنیای واقعی دست یافته‌اند. برای مثال، معماری‌های چندوجهی، ربات‌ها را قادر می‌سازد تا از مدل‌های زبان مبتنی بر ترانسفورماتور برای برنامه‌ریزی سطح بالا استفاده کنند. کار اخیری که استفاده می کند ترانسفورماتورها برای رمزگذاری سیاست های رباتیک فرصتی هیجان انگیز برای استفاده از این معماری ها برای ناوبری در دنیای واقعی باز می کند. با این حال، استقرار روی ربات کنترل‌کننده‌های عظیم مبتنی بر ترانسفورماتور می‌تواند به دلیل محدودیت‌های تأخیر سخت برای روبات‌های متحرک حیاتی برای ایمنی چالش‌برانگیز باشد. پیچیدگی درجه دوم مکان و زمان مکانیسم توجه با توجه به طول ورودی اغلب به شدت گران است و محققان را مجبور می‌کند تا پشته‌های ترانسفورماتور را به قیمت بیان‌پذیری اصلاح کنند.

به عنوان بخشی از کاوش مداوم ما در زمینه پیشرفت‌های ML برای محصولات رباتیک، ما در سراسر Robotics در Google و Everyday Robots شریک شدیم تا «کنترل‌کننده‌های پیش‌بینی مدل یادگیری با توجه زمان واقعی برای ناوبری در دنیای واقعی» را در کنفرانس یادگیری ربات (CoRL 2022) ارائه کنیم. در اینجا، Performer-MPC را معرفی می‌کنیم، یک سیستم روباتیک قابل یادگیری سرتاسر که ترکیبی از (1) یک کنترل‌کننده پیش‌بینی‌کننده مدل متمایز مبتنی بر JAX (MPC) است که گرادیان‌ها را به پارامترهای تابع هزینه خود منتشر می‌کند، (2) مبتنی بر ترانسفورماتور رمزگذاری‌های زمینه (مثلاً شبکه‌های اشغال برای وظایف ناوبری) که تابع هزینه MPC را نشان می‌دهد و MPC را با سناریوهای اجتماعی پیچیده بدون قوانین کدگذاری دستی تطبیق می‌دهد، و (3) معماری‌های اجراکننده: ترانسفورماتورهای مقیاس‌پذیر با توجه ضمنی با رتبه پایین با خطی ماژول‌های توجه پیچیدگی فضا و زمان برای استقرار کارآمد روی ربات (تأخیر 8 میلی‌ثانیه روی ربات). ما نشان می‌دهیم که Performer-MPC می‌تواند تعمیم دهد در محیط‌های مختلف برای کمک به روبات‌ها برای حرکت در فضاهای تنگ در حالی که رفتارهای قابل قبول اجتماعی را نشان می دهد.

Performer-MPC

Performer-MPC قصد دارد MPCهای کلاسیک را با ML از طریق توابع هزینه قابل یادگیری آنها ترکیب کند. بنابراین Performer-MPCs را می توان نمونه ای از الگوریتم های یادگیری تقویت معکوس در نظر گرفت، جایی که تابع هزینه با یادگیری از تظاهرات متخصص استنباط می شود. به طور بحرانی، جزء قابل یادگیری تابع هزینه با تعبیه‌های نهفته تولید شده توسط Performer-Transformer پارامتر می‌شود. استنتاج خطی ارائه شده توسط Performers دروازه ای برای استقرار روی ربات در زمان واقعی است.

در عمل، شبکه اشغال که با ترکیب حسگرهای ربات ارائه می شود، به عنوان ورودی مدل Vision Performer عمل می کند. این مدل هرگز به صراحت ماتریس توجه را محقق نمی کند، بلکه از تجزیه رتبه پایین آن برای محاسبه خطی کارآمد ماژول توجه استفاده می کند که منجر به توجه مقیاس پذیر می شود. سپس، جاسازی توکن وصله ورودی ثابت خاص از آخرین لایه مدل، بخش درجه دوم و قابل یادگیری تابع هزینه مدل MPC را پارامتر می کند. این بخش به هزینه های منظم مهندسی شده (فاصله از موانع، شرایط جریمه برای تغییرات ناگهانی سرعت و غیره) اضافه می شود. این سیستم از طریق یادگیری تقلیدی برای تقلید از تظاهرات متخصصان به صورت سرتاسر آموزش داده شده است.

نمای کلی Performer-MPC. تعبیه نهفته نهایی وصله برجسته شده با رنگ قرمز برای ساخت هزینه یادگیری وابسته به زمینه استفاده می شود. پس انتشار (فلش های قرمز) از طریق پارامترهای ترانسفورماتور است. Performer محاسبه ماژول توجه مقیاس پذیر را از طریق تجزیه تقریبی رتبه پایین ماتریس توجه منظم (ماتریس Query’ و Key’) و با تغییر ترتیب ضرب های ماتریس (که با براکت های سیاه نشان داده شده است) ارائه می دهد.

ناوبری ربات در دنیای واقعی

اگرچه، در اصل، Performer-MPC را می توان در تنظیمات مختلف روباتیک اعمال کرد، ما عملکرد آن را در جهت یابی در فضاهای محدود با حضور بالقوه افراد ارزیابی می کنیم. ما Performer-MPC را روی یک ربات چرخ‌دار دیفرانسیل مستقر کردیم که یک دوربین سه بعدی LiDAR در جلو و سنسورهای عمق روی سرش نصب شده است. Performer-MPC با تأخیر 8 میلی‌ثانیه قابل استقرار با ربات دارای پارامترهای 8.3M Performer است. زمان واقعی یک اجرا تنها 1 میلی‌ثانیه است و ما از سریع‌ترین نوع Performer-ReLU استفاده می‌کنیم.

ما Performer-MPC را با دو خط مبنا مقایسه می کنیم، یک خط مشی MPC معمولی (RMPC) بدون مولفه های هزینه آموخته شده، و یک خط مشی صریح (EP) که یک حالت مرجع و هدف را با استفاده از معماری Performer یکسان، اما بدون جفت شدن با ساختار MPC، پیش بینی می کند. . ما Performer-MPC را در یک شبیه سازی و در سه سناریو دنیای واقعی ارزیابی می کنیم. برای هر سناریو، سیاست های آموخته شده (EP و Performer-MPC) با نمایش های سناریو خاص آموزش داده می شود.

سناریوهای آزمایش: (آ(ب) مانور دادن در فضاهای بسیار محدود، (ج) فعال کردن رفتارهای سازگار اجتماعی برای گوشه کور، و (د) تعاملات انسداد عابر پیاده.

خط‌مشی‌های ما از طریق شبیه‌سازی رفتار با چند ساعت داده ناوبری ربات کنترل‌شده توسط انسان در دنیای واقعی آموزش داده می‌شوند. برای جزئیات بیشتر جمع آوری داده ها، مقاله را ببینید. ما نتایج برنامه‌ریزی Performer-MPC (سبز) و RMPC (قرمز) را به همراه نمایش‌های متخصص (خاکستری) در نیمه بالایی و منحنی‌های قطار و آزمایش را در نیمه پایین دو شکل زیر تجسم می‌کنیم. برای اندازه گیری فاصله بین مسیر ربات و مسیر خبره از فاصله هاوسدورف استفاده می کنیم.

بالا: تجسم نمونه های آزمایشی در پیمایش درگاه (چپ) و مسیر مانع بسیار محدود (راست). مسیرهای Performer-MPC که هدف را هدف قرار می دهند در مقایسه با مسیرهای RMPC همیشه به تظاهرات کارشناسی نزدیک تر هستند. پایین: منحنی های قطار و تست، که در آن محور عمودی نشان دهنده فاصله هاوسدورف و محور افقی نشان دهنده مراحل تمرین است.
بالا: تجسم نمونه های تست در گوشه کور (ترک کرد) و انسداد عابر پیاده (درست) سناریوها مسیرهای Performer-MPC که هدف را هدف قرار می دهند در مقایسه با مسیرهای RMPC همیشه به تظاهرات کارشناسی نزدیک تر هستند. پایین: منحنی های قطار و تست، که در آن محور عمودی نشان دهنده فاصله هاوسدورف و محور افقی نشان دهنده مراحل تمرین است.

آموزش اجتناب از حداقل های محلی

ما Performer-MPC را در یک سناریوی پیمایش درگاه شبیه‌سازی شده ارزیابی می‌کنیم که در آن 100 جفت شروع و هدف به‌طور تصادفی از طرف‌های مخالف دیوار نمونه‌برداری می‌شوند. یک برنامه ریز، که توسط یک تابع هزینه حریصانه هدایت می شود، اغلب ربات را به حداقل محلی هدایت می کند (یعنی گیر کردن در نزدیکترین نقطه به هدف در طرف دیگر دیوار). Performer-MPC یک تابع هزینه را می آموزد که ربات را برای عبور از درگاه هدایت می کند، حتی اگر باید از هدف دور شود و بیشتر حرکت کند. Performer-MPC میزان موفقیت 86% را در مقایسه با RMPC 24% نشان می دهد.

مقایسه Performer-MPC با MPC معمولی در کار عبور از درگاه.

یادگیری مانورهای بسیار محدود

در مرحله بعد، Performer-MPC را در یک سناریوی چالش برانگیز در دنیای واقعی آزمایش می کنیم، جایی که ربات باید مانورهای تیز و نزدیک به برخورد را در یک محیط خانه یا دفتر به هم ریخته انجام دهد. یک برنامه ریز جهانی، نقاط درشتی (یک مسیر ناوبری اسکلت) را که ربات دنبال می کند، ارائه می دهد. هر خط مشی ده بار اجرا می شود و ما نرخ موفقیت (SR) و میانگین درصد تکمیل (CP) با واریانس (VAR) مسیریابی مسیر مانع را گزارش می کنیم، جایی که ربات قادر است بدون شکست (برخورد یا گیر افتادن) از آن عبور کند. Performer-MPC از RMPC و EP در SR و CP بهتر عمل می کند.

یک مسیر مانع با مسیرهای خط مشی و مکان های شکست (که با ضربدر نشان داده شده است) برای RMPC، EP، و Performer-MPC.
روبات کمکی Everyday Robots که در فضاهای بسیار محدود با استفاده از MPC منظم، سیاست صریح و Performer-MPC مانور می دهد.

یادگیری جهت یابی در فضاهای با افراد

فراتر از موانع استاتیک، ما Performer-MPC را برای ناوبری روبات های اجتماعی اعمال می کنیم، جایی که روبات ها باید به شیوه ای قابل قبول اجتماعی حرکت کنند که طراحی توابع هزینه برای آن دشوار است. ما دو سناریو را در نظر می گیریم: (1) گوشه های کور، که در آن ربات ها باید از سمت داخلی گوشه راهرو اجتناب کنند تا در صورت ظاهر شدن ناگهانی شخصی، و (2) انسداد عابر پیاده، که در آن شخصی به طور غیرمنتظره ای مسیر تعیین شده ربات را مختل می کند.

Performer-MPC روی ربات کمکی Everyday Robots مستقر شده است. ترک کرد: MPC معمولی به طور موثر گوشه‌های کور را قطع می‌کند و فرد را مجبور می‌کند به عقب برگردد. درست: Performer-MPC از بریدن گوشه های کور اجتناب می کند و امکان ناوبری ایمن و قابل قبول اجتماعی را در اطراف افراد فراهم می کند.
مقایسه با یک ربات کمکی Everyday Robots که از MPC معمولی، سیاست صریح، و Performer-MPC در گوشه های کور نامرئی استفاده می کند.
مقایسه با یک ربات کمکی Everyday Robots با استفاده از MPC معمولی، سیاست صریح، و Performer-MPC در سناریوهای انسداد عابر پیاده دیده نشده است.

نتیجه

ما Performer-MPC را معرفی می‌کنیم، یک سیستم روباتیک قابل یادگیری سرتاسر که مکانیسم‌های مختلفی را ترکیب می‌کند تا ناوبری ربات در دنیای واقعی، قوی و تطبیقی ​​را با ترانسفورماتورهای روی ربات در زمان واقعی امکان‌پذیر کند. این کار نشان می‌دهد که معماری‌های ترانسفورماتور مقیاس‌پذیر نقش مهمی در طراحی کنترل‌کننده‌های روباتیک مبتنی بر توجه بیانگر دارند. ما نشان می‌دهیم که استنتاج با تاخیر میلی‌ثانیه‌ای در زمان واقعی برای سیاست‌هایی که از ترانسفورماتورها با چند میلیون پارامتر استفاده می‌کنند، امکان‌پذیر است. علاوه بر این، ما نشان می‌دهیم که چنین سیاست‌هایی ربات‌ها را قادر می‌سازد تا رفتارهای کارآمد و قابل قبول اجتماعی را که می‌توانند به خوبی تعمیم دهند، یاد بگیرند. ما معتقدیم که این یک فصل جدید هیجان انگیز را در مورد استفاده از Transformers در رباتیک دنیای واقعی باز می کند و مشتاقانه منتظر ادامه تحقیقات خود با روبات های کمکی Everyday Robots هستیم.

سپاسگزاریها

تشکر ویژه از Xuesu Xiao برای رهبری این تلاش در Everyday Robots به عنوان یک محقق بازدیدکننده. این تحقیق توسط Xuesu Xiao، Tingnan Zhang، Krzysztof Choromanski، Edward Lee، Anthony Francis، Jake Varley، Stephen Tu، Sumeet Singh، Peng Xu، Fei Xia، Sven Mikael Persson، Dmitry Kalashnikov، Leila Takayama، Roy Frostig، انجام شده است. ، کارولینا پارادا و ویکاس سندوانی. تشکر ویژه از وینسنت ونهوک به خاطر بازخوردش در مورد نسخه خطی.

سئو PBN | خبر های جدید سئو و هک و سرور