یادگیری تقویتی (RL) می تواند ربات ها را قادر می سازد تا رفتارهای پیچیده را از طریق تعامل آزمون و خطا یاد بگیرند و در طول زمان بهتر و بهتر شوند. چندین کار قبلی ما بررسی کردند که چگونه RL میتواند مهارتهای رباتیک پیچیده، مانند گرفتن رباتیک، یادگیری چند کار، و حتی بازی تنیس روی میز را فعال کند. اگرچه RL روباتیک راه درازی را پیموده است، اما ما هنوز ربات های دارای RL را در تنظیمات روزمره نمی بینیم. دنیای واقعی پیچیده، متنوع است و در طول زمان تغییر می کند و چالش بزرگی را برای سیستم های روباتیک ایجاد می کند. با این حال، ما معتقدیم که RL باید ابزاری عالی برای مقابله با این چالشها به ما ارائه دهد: با تمرین مداوم، بهتر شدن و یادگیری در حین کار، روباتها باید بتوانند خود را با دنیای اطرافشان وفق دهند.
در “Deep RL در مقیاس: مرتب سازی زباله در ساختمان های اداری با ناوگان دستکاری کننده های موبایل”، ما در مورد چگونگی مطالعه این مشکل از طریق یک آزمایش در مقیاس بزرگ اخیر بحث می کنیم، جایی که ما ناوگانی متشکل از 23 ربات مجهز به RL را طی دو سال در ساختمان های اداری گوگل برای تفکیک زباله و بازیافت. سیستم رباتیک ما RL عمیق مقیاسپذیر از دادههای دنیای واقعی را با راهاندازی از آموزش در شبیهسازی و ورودیهای ادراک اشیای کمکی ترکیب میکند تا تعمیمسازی را تقویت کند، در حالی که مزایای آموزش سرتاسر را حفظ میکند، که ما آن را با ۴۸۰۰ آزمایش ارزیابی در ۲۴۰ ایستگاه زباله تأیید میکنیم. پیکربندی.
راه اندازی مشکل
وقتی مردم زباله های خود را به درستی دسته بندی نمی کنند، دسته ای از مواد قابل بازیافت ممکن است آلوده شوند و کمپوست به طور نامناسب در محل های دفن زباله دور ریخته شود. در آزمایش ما، یک ربات در اطراف یک ساختمان اداری پرسه میزد و به دنبال «ایستگاههای زباله» (سطلهای قابل بازیافت، کمپوست و زباله) میگشت. این ربات وظیفه داشت به هر ایستگاه زباله نزدیک شود تا آن را مرتب کند، اقلام را بین سطل ها جابجا کند به طوری که همه مواد قابل بازیافت (قوطی، بطری) در سطل قابل بازیافت قرار داده شوند، همه اقلام قابل کمپوست (ظروف مقوایی، لیوان های کاغذی) در کمپوست قرار داده شوند. سطل زباله، و هر چیز دیگری در سطل زباله دفن زباله قرار داده شد. در اینجا چیزی است که به نظر می رسد:
این کار آنطور که به نظر می رسد آسان نیست. فقط توانایی برداشتن طیف گسترده ای از اشیاء که مردم در سطل های زباله می ریزند یک چالش بزرگ یادگیری است. ربات ها همچنین باید سطل مناسب برای هر شی را شناسایی کرده و آنها را تا حد امکان سریع و کارآمد مرتب کنند. در دنیای واقعی، روباتها میتوانند با موقعیتهای مختلفی با اشیاء منحصربهفرد مواجه شوند، مانند نمونههایی از ساختمانهای اداری واقعی در زیر:
یادگیری از تجربیات مختلف
یادگیری در حین کار کمک می کند، اما قبل از رسیدن به آن نقطه، باید ربات ها را با مجموعه ای از مهارت ها بوت کنیم. برای این منظور، ما از چهار منبع تجربه استفاده میکنیم: (1) مجموعهای از خطمشیهای ساده طراحیشده دستی که نرخ موفقیت بسیار پایینی دارند، اما در خدمت ارائه برخی تجربههای اولیه هستند، (2) یک چارچوب آموزشی شبیهسازی شده که از sim-to استفاده میکند. -انتقال واقعی برای ارائه برخی استراتژیهای مرتبسازی اولیه، (3) “کلاسهای درس ربات” که در آن رباتها به طور مداوم در مجموعهای از ایستگاههای زباله نماینده تمرین میکنند، و (4) تنظیمات واقعی استقرار، جایی که روباتها در ساختمانهای اداری واقعی با زبالههای واقعی تمرین میکنند. .
نمودار RL در مقیاس. ما سیاست های بوت استرپ را از داده های تولید شده با یک اسکریپت (بالا سمت چپ). سپس یک مدل sim-to-real آموزش می دهیم و داده های اضافی را در شبیه سازی تولید می کنیم (بالا سمت راست). در هر چرخه استقرار، ما داده های جمع آوری شده در کلاس های درس خود را اضافه می کنیم (سمت راست پایین). ما بیشتر داده ها را در ساختمان های اداری مستقر و جمع آوری می کنیم (پایین سمت چپ). |
چارچوب RL ما بر اساس QT-Opt است که قبلاً برای یادگیری درک بن در تنظیمات آزمایشگاهی و همچنین طیف وسیعی از مهارتهای دیگر به کار برده بودیم. در شبیهسازی، ما از خطمشیهای ساده اسکریپتشده بوت استرپ میکنیم و از RL با یک روش انتقال مبتنی بر CycleGAN استفاده میکنیم که از RetinaGAN استفاده میکند تا تصاویر شبیهسازی شده را واقعیتر نشان دهد.
از اینجا به کلاس درس می رسد. در حالی که ساختمانهای اداری در دنیای واقعی میتوانند نمایندهترین تجربه را ارائه دهند، توان عملیاتی از نظر جمعآوری دادهها محدود است – بعضی روزها زبالههای زیادی برای مرتبسازی وجود خواهد داشت، بعضی روزها نه چندان. روبات های ما بخش بزرگی از تجربه خود را در “کلاس های درس ربات” جمع آوری می کنند. در کلاسی که در زیر نشان داده شده است، 20 ربات کار دسته بندی زباله را تمرین می کنند:
در حالی که این روبات ها در کلاس های درس آموزش می بینند، ربات های دیگر به طور همزمان در حال یادگیری در 3 ساختمان اداری با 30 ایستگاه زباله هستند:
عملکرد مرتب سازی
در پایان، ما 540 هزار آزمایش را در کلاس های درس و 32.5 هزار آزمایش را از استقرار جمع آوری کردیم. عملکرد کلی سیستم با جمع آوری داده های بیشتر بهبود یافت. ما سیستم نهایی خود را در کلاسهای درس ارزیابی کردیم تا امکان مقایسههای کنترلشده را فراهم کنیم و سناریوهایی را بر اساس آنچه روباتها در طول استقرار دیدند تنظیم کنیم. سیستم نهایی میتوانست به طور متوسط حدود 84 درصد از اشیاء را با دقت مرتب کند و با اضافه شدن دادههای بیشتر، عملکرد به طور پیوسته افزایش مییابد. در دنیای واقعی، ما آمار سه استقرار در دنیای واقعی را بین سالهای 2021 تا 2022 ثبت کردیم و دریافتیم که سیستم ما میتواند آلودگی سطلهای زباله را بین 40 تا 50 درصد وزنی کاهش دهد. مقاله ما بینش های بیشتری در مورد طراحی فنی، ساییدگی هایی که تصمیمات طراحی مختلف را مطالعه می کنند، و آمار دقیق تر در مورد آزمایش ها ارائه می دهد.
نتیجه گیری و کار آینده
آزمایشهای ما نشان داد که سیستمهای مبتنی بر RL میتوانند رباتها را قادر میسازند تا وظایف دنیای واقعی را در محیطهای اداری واقعی انجام دهند، با ترکیبی از دادههای آفلاین و آنلاین که رباتها را قادر میسازد تا با تنوع گسترده موقعیتهای دنیای واقعی سازگار شوند. در عین حال، یادگیری در محیطهای «کلاس درس» کنترلشدهتر، هم در شبیهسازی و هم در دنیای واقعی، میتواند مکانیزم راهاندازی قدرتمندی برای چرخاندن «فلایویل» RL برای فعال کردن این سازگاری فراهم کند. هنوز کارهای زیادی برای انجام باقی مانده است: سیاست های نهایی RL ما هر بار موفق نمی شوند و مدل های بزرگتر و قدرتمندتر برای بهبود عملکرد آنها و گسترش آنها به طیف وسیع تری از وظایف مورد نیاز است. منابع تجربی دیگر، از جمله کارهای دیگر، رباتهای دیگر، و حتی ویدیوهای اینترنتی ممکن است برای تکمیل بیشتر تجربه راهاندازی که از شبیهسازی و کلاسهای درس به دست آوردهایم، مفید باشند. اینها مشکلات هیجان انگیزی هستند که در آینده باید با آنها مقابله کرد. لطفاً مقاله کامل را اینجا ببینید و مطالب ویدئویی تکمیلی را در صفحه وب پروژه ببینید.
سپاسگزاریها
این تحقیق توسط چندین محقق در Robotics در Google و Everyday Robots با مشارکت الکساندر هرتزوگ، کانیشکا رائو، کارول هاسمن، یائو لو، پل ولهارت، منگیوان یان، جسیکا لین، مونتسرات گونزالس آرناس، تد شیائو، دانیل کاپلر، دانیل انجام شد. هو، جارک رتینگ هاوس، یوگن چبوتار، کوانگ-هوی لی، کرتانا گوپالاکریشنان، رایان جولیان، آدریان لی، چویان کلی فو، باب وی، سانگیتا رامش، خم هولدن، کیم کلیون، دیوید رندلمن، شان کرمانی، جف بینگهام، جان ویس ینگ زو، ونلونگ لو، متیو بنیس، کودی فونگ، دیوید دو، جسیکا لام، یونفی بای، بنجی هولسون، مایکل کوینلان، نوآ براون، مرینال کالاکریشنان، جولیان ایبارز، پیتر پاستور، سرگی لوین و کل تیم روباتهای روزمره.