دسته بندی زباله ها و مواد قابل بازیافت با ناوگانی از روبات ها – وبلاگ هوش مصنوعی گوگل

یادگیری تقویتی (RL) می تواند ربات ها را قادر می سازد تا رفتارهای پیچیده را از طریق تعامل آزمون و خطا یاد بگیرند و در طول زمان بهتر و بهتر شوند. چندین کار قبلی ما بررسی کردند که چگونه RL می‌تواند مهارت‌های رباتیک پیچیده، مانند گرفتن رباتیک، یادگیری چند کار، و حتی بازی تنیس روی میز را فعال کند. اگرچه RL روباتیک راه درازی را پیموده است، اما ما هنوز ربات های دارای RL را در تنظیمات روزمره نمی بینیم. دنیای واقعی پیچیده، متنوع است و در طول زمان تغییر می کند و چالش بزرگی را برای سیستم های روباتیک ایجاد می کند. با این حال، ما معتقدیم که RL باید ابزاری عالی برای مقابله با این چالش‌ها به ما ارائه دهد: با تمرین مداوم، بهتر شدن و یادگیری در حین کار، روبات‌ها باید بتوانند خود را با دنیای اطرافشان وفق دهند.

در “Deep RL در مقیاس: مرتب سازی زباله در ساختمان های اداری با ناوگان دستکاری کننده های موبایل”، ما در مورد چگونگی مطالعه این مشکل از طریق یک آزمایش در مقیاس بزرگ اخیر بحث می کنیم، جایی که ما ناوگانی متشکل از 23 ربات مجهز به RL را طی دو سال در ساختمان های اداری گوگل برای تفکیک زباله و بازیافت. سیستم رباتیک ما RL عمیق مقیاس‌پذیر از داده‌های دنیای واقعی را با راه‌اندازی از آموزش در شبیه‌سازی و ورودی‌های ادراک اشیای کمکی ترکیب می‌کند تا تعمیم‌سازی را تقویت کند، در حالی که مزایای آموزش سرتاسر را حفظ می‌کند، که ما آن را با ۴۸۰۰ آزمایش ارزیابی در ۲۴۰ ایستگاه زباله تأیید می‌کنیم. پیکربندی.

راه اندازی مشکل

وقتی مردم زباله های خود را به درستی دسته بندی نمی کنند، دسته ای از مواد قابل بازیافت ممکن است آلوده شوند و کمپوست به طور نامناسب در محل های دفن زباله دور ریخته شود. در آزمایش ما، یک ربات در اطراف یک ساختمان اداری پرسه می‌زد و به دنبال «ایستگاه‌های زباله» (سطل‌های قابل بازیافت، کمپوست و زباله) می‌گشت. این ربات وظیفه داشت به هر ایستگاه زباله نزدیک شود تا آن را مرتب کند، اقلام را بین سطل ها جابجا کند به طوری که همه مواد قابل بازیافت (قوطی، بطری) در سطل قابل بازیافت قرار داده شوند، همه اقلام قابل کمپوست (ظروف مقوایی، لیوان های کاغذی) در کمپوست قرار داده شوند. سطل زباله، و هر چیز دیگری در سطل زباله دفن زباله قرار داده شد. در اینجا چیزی است که به نظر می رسد:

این کار آنطور که به نظر می رسد آسان نیست. فقط توانایی برداشتن طیف گسترده ای از اشیاء که مردم در سطل های زباله می ریزند یک چالش بزرگ یادگیری است. ربات ها همچنین باید سطل مناسب برای هر شی را شناسایی کرده و آنها را تا حد امکان سریع و کارآمد مرتب کنند. در دنیای واقعی، روبات‌ها می‌توانند با موقعیت‌های مختلفی با اشیاء منحصربه‌فرد مواجه شوند، مانند نمونه‌هایی از ساختمان‌های اداری واقعی در زیر:

یادگیری از تجربیات مختلف

یادگیری در حین کار کمک می کند، اما قبل از رسیدن به آن نقطه، باید ربات ها را با مجموعه ای از مهارت ها بوت کنیم. برای این منظور، ما از چهار منبع تجربه استفاده می‌کنیم: (1) مجموعه‌ای از خط‌مشی‌های ساده طراحی‌شده دستی که نرخ موفقیت بسیار پایینی دارند، اما در خدمت ارائه برخی تجربه‌های اولیه هستند، (2) یک چارچوب آموزشی شبیه‌سازی شده که از sim-to استفاده می‌کند. -انتقال واقعی برای ارائه برخی استراتژی‌های مرتب‌سازی اولیه، (3) “کلاس‌های درس ربات” که در آن ربات‌ها به طور مداوم در مجموعه‌ای از ایستگاه‌های زباله نماینده تمرین می‌کنند، و (4) تنظیمات واقعی استقرار، جایی که روبات‌ها در ساختمان‌های اداری واقعی با زباله‌های واقعی تمرین می‌کنند. .

نمودار RL در مقیاس. ما سیاست های بوت استرپ را از داده های تولید شده با یک اسکریپت (بالا سمت چپ). سپس یک مدل sim-to-real آموزش می دهیم و داده های اضافی را در شبیه سازی تولید می کنیم (بالا سمت راست). در هر چرخه استقرار، ما داده های جمع آوری شده در کلاس های درس خود را اضافه می کنیم (سمت راست پایین). ما بیشتر داده ها را در ساختمان های اداری مستقر و جمع آوری می کنیم (پایین سمت چپ).

چارچوب RL ما بر اساس QT-Opt است که قبلاً برای یادگیری درک بن در تنظیمات آزمایشگاهی و همچنین طیف وسیعی از مهارت‌های دیگر به کار برده بودیم. در شبیه‌سازی، ما از خط‌مشی‌های ساده اسکریپت‌شده بوت استرپ می‌کنیم و از RL با یک روش انتقال مبتنی بر CycleGAN استفاده می‌کنیم که از RetinaGAN استفاده می‌کند تا تصاویر شبیه‌سازی شده را واقعی‌تر نشان دهد.

از اینجا به کلاس درس می رسد. در حالی که ساختمان‌های اداری در دنیای واقعی می‌توانند نماینده‌ترین تجربه را ارائه دهند، توان عملیاتی از نظر جمع‌آوری داده‌ها محدود است – بعضی روزها زباله‌های زیادی برای مرتب‌سازی وجود خواهد داشت، بعضی روزها نه چندان. روبات های ما بخش بزرگی از تجربه خود را در “کلاس های درس ربات” جمع آوری می کنند. در کلاسی که در زیر نشان داده شده است، 20 ربات کار دسته بندی زباله را تمرین می کنند:

در حالی که این روبات ها در کلاس های درس آموزش می بینند، ربات های دیگر به طور همزمان در حال یادگیری در 3 ساختمان اداری با 30 ایستگاه زباله هستند:

عملکرد مرتب سازی

در پایان، ما 540 هزار آزمایش را در کلاس های درس و 32.5 هزار آزمایش را از استقرار جمع آوری کردیم. عملکرد کلی سیستم با جمع آوری داده های بیشتر بهبود یافت. ما سیستم نهایی خود را در کلاس‌های درس ارزیابی کردیم تا امکان مقایسه‌های کنترل‌شده را فراهم کنیم و سناریوهایی را بر اساس آنچه روبات‌ها در طول استقرار دیدند تنظیم کنیم. سیستم نهایی می‌توانست به طور متوسط ​​حدود 84 درصد از اشیاء را با دقت مرتب کند و با اضافه شدن داده‌های بیشتر، عملکرد به طور پیوسته افزایش می‌یابد. در دنیای واقعی، ما آمار سه استقرار در دنیای واقعی را بین سال‌های 2021 تا 2022 ثبت کردیم و دریافتیم که سیستم ما می‌تواند آلودگی سطل‌های زباله را بین 40 تا 50 درصد وزنی کاهش دهد. مقاله ما بینش های بیشتری در مورد طراحی فنی، ساییدگی هایی که تصمیمات طراحی مختلف را مطالعه می کنند، و آمار دقیق تر در مورد آزمایش ها ارائه می دهد.

نتیجه گیری و کار آینده

آزمایش‌های ما نشان داد که سیستم‌های مبتنی بر RL می‌توانند ربات‌ها را قادر می‌سازند تا وظایف دنیای واقعی را در محیط‌های اداری واقعی انجام دهند، با ترکیبی از داده‌های آفلاین و آنلاین که ربات‌ها را قادر می‌سازد تا با تنوع گسترده موقعیت‌های دنیای واقعی سازگار شوند. در عین حال، یادگیری در محیط‌های «کلاس درس» کنترل‌شده‌تر، هم در شبیه‌سازی و هم در دنیای واقعی، می‌تواند مکانیزم راه‌اندازی قدرتمندی برای چرخاندن «فلایویل» RL برای فعال کردن این سازگاری فراهم کند. هنوز کارهای زیادی برای انجام باقی مانده است: سیاست های نهایی RL ما هر بار موفق نمی شوند و مدل های بزرگتر و قدرتمندتر برای بهبود عملکرد آنها و گسترش آنها به طیف وسیع تری از وظایف مورد نیاز است. منابع تجربی دیگر، از جمله کارهای دیگر، ربات‌های دیگر، و حتی ویدیوهای اینترنتی ممکن است برای تکمیل بیشتر تجربه راه‌اندازی که از شبیه‌سازی و کلاس‌های درس به دست آورده‌ایم، مفید باشند. اینها مشکلات هیجان انگیزی هستند که در آینده باید با آنها مقابله کرد. لطفاً مقاله کامل را اینجا ببینید و مطالب ویدئویی تکمیلی را در صفحه وب پروژه ببینید.

سپاسگزاریها

این تحقیق توسط چندین محقق در Robotics در Google و Everyday Robots با مشارکت الکساندر هرتزوگ، کانیشکا رائو، کارول هاسمن، یائو لو، پل ولهارت، منگیوان یان، جسیکا لین، مونتسرات گونزالس آرناس، تد شیائو، دانیل کاپلر، دانیل انجام شد. هو، جارک رتینگ هاوس، یوگن چبوتار، کوانگ-هوی لی، کرتانا گوپالاکریشنان، رایان جولیان، آدریان لی، چویان کلی فو، باب وی، سانگیتا رامش، خم هولدن، کیم کلیون، دیوید رندلمن، شان کرمانی، جف بینگهام، جان ویس ینگ زو، ونلونگ لو، متیو بنیس، کودی فونگ، دیوید دو، جسیکا لام، یونفی بای، بنجی هولسون، مایکل کوینلان، نوآ براون، مرینال کالاکریشنان، جولیان ایبارز، پیتر پاستور، سرگی لوین و کل تیم روبات‌های روزمره.

سئو PBN | خبر های جدید سئو و هک و سرور