ترانسفورماتور رباتیک برای کنترل دنیای واقعی در مقیاس – وبلاگ هوش مصنوعی گوگل

پیشرفت‌های عمده اخیر در زمینه‌های مختلف تحقیقات یادگیری ماشین (ML)، مانند بینایی کامپیوتر و پردازش زبان طبیعی، با یک رویکرد مشترک مشترک که از مجموعه داده‌های بزرگ و متنوع و مدل‌های بیانی استفاده می‌کند که می‌تواند همه داده‌ها را به طور موثر جذب کند، امکان‌پذیر شده است. اگرچه تلاش‌های مختلفی برای اعمال این رویکرد در رباتیک صورت گرفته است، ربات‌ها هنوز از مدل‌های بسیار توانمند و همچنین زیرشاخه‌های دیگر استفاده نکرده‌اند.

عوامل متعددی در ایجاد این چالش نقش دارند. اول، فقدان داده های رباتیک در مقیاس بزرگ و متنوع است که توانایی مدل را برای جذب مجموعه وسیعی از تجربیات روباتیک محدود می کند. جمع‌آوری داده‌ها به ویژه برای روباتیک گران و چالش برانگیز است، زیرا تنظیم مجموعه داده‌ها به عملیات مستقل مهندسی سنگین یا نمایش‌هایی که با استفاده از عملیات‌های دور انسانی جمع‌آوری می‌شوند، نیاز دارد. عامل دوم فقدان مدل‌های استنتاجی گویا، مقیاس‌پذیر و سریع برای استنتاج در زمان واقعی است که بتواند از این مجموعه داده‌ها درس گرفته و به طور مؤثر تعمیم دهد.

برای پرداختن به این چالش‌ها، ما Robotics Transformer 1 (RT-1) را پیشنهاد می‌کنیم، یک مدل چند وظیفه‌ای که ورودی‌ها و خروجی‌های ربات را نشانه‌گذاری می‌کند (مثلاً تصاویر دوربین، دستورالعمل‌های کار، و فرمان‌های موتور) تا استنتاج کارآمد را در زمان اجرا فعال کند. کنترل بلادرنگ را امکان پذیر می کند. این مدل بر روی یک مجموعه داده رباتیک در مقیاس بزرگ و واقعی از 130 هزار قسمت آموزش داده شده است که بیش از 700 کار را پوشش می دهد، که با استفاده از ناوگانی متشکل از 13 ربات از Robots Everyday (EDR) طی 17 ماه جمع آوری شده است. ما نشان می‌دهیم که RT-1 می‌تواند به طور قابل‌توجهی تعمیم شات صفر بهبود یافته را به وظایف، محیط‌ها و اشیاء جدید در مقایسه با تکنیک‌های قبلی نشان دهد. علاوه بر این، ما به دقت بسیاری از انتخاب‌های طراحی در مدل و مجموعه آموزشی را ارزیابی و حذف می‌کنیم و اثرات نشانه‌سازی، نمایش عمل و ترکیب مجموعه داده را تجزیه و تحلیل می‌کنیم. در نهایت، ما کد RT-1 را منبع باز می‌سازیم و امیدواریم که منبع ارزشمندی برای تحقیقات آینده در مورد افزایش مقیاس یادگیری ربات باشد.

RT-1 مقادیر زیادی از داده ها را جذب می کند، از جمله مسیرهای ربات با وظایف، اشیاء و محیط های متعدد و در نتیجه عملکرد و تعمیم بهتری دارد.

ترانسفورماتور روباتیک (RT-1)

RT-1 بر اساس یک معماری ترانسفورماتور ساخته شده است که تاریخچه کوتاهی از تصاویر را از دوربین یک ربات به همراه شرح وظایف به زبان طبیعی به عنوان ورودی بیان می کند و مستقیماً اقدامات نشانه گذاری شده را خروجی می کند.

معماری RT-1 شبیه به یک مدل توالی فقط رمزگشای معاصر است که در برابر یک هدف متقابل آنتروپی طبقه‌بندی استاندارد با پوشش علّی آموزش داده شده است. ویژگی‌های کلیدی آن عبارتند از: توکن‌سازی تصویر، توکن‌سازی عمل، و فشرده‌سازی توکن، که در زیر توضیح داده شده است.

نشانه گذاری تصویر: عبور می کنیم تصاویر را از طریق یک مدل EfficientNet-B3 که از قبل در ImageNet آموزش داده شده است، دریافت کنید و سپس نقشه ویژگی فضایی 9×9×512 حاصل را به 81 توکن صاف کنید. توکنایزر تصویر مشروط به دستورالعمل‌های کار زبان طبیعی است و از لایه‌های FiLM که برای شناسایی اولیه‌سازی شده‌اند برای استخراج ویژگی‌های تصویر مرتبط با کار در اوایل استفاده می‌کند.

مطالب پیشنهادی  تکمیل کد ML-Enhanced بهره وری توسعه دهندگان را بهبود می بخشد

اکشن توکنیزاسیون: ابعاد عمل ربات 7 متغیر برای حرکت بازو (x، y، z، رول، گام، انحراف، باز شدن دستگیره)، 3 متغیر برای حرکت پایه (x، y، yaw) و یک متغیر گسسته اضافی برای جابجایی بین سه حالت است. : کنترل بازو، کنترل پایه، یا پایان دادن به قسمت. هر بعد عمل در 256 سطل گسسته شده است.

فشرده سازی توکن: این مدل به طور تطبیقی ​​ترکیبات نرمی از نشانه‌های تصویر را انتخاب می‌کند که می‌توانند بر اساس تأثیر آن‌ها در یادگیری با ماژول توجه عنصری TokenLearner فشرده شوند، که منجر به افزایش سرعت استنتاج بیش از 2.4 برابر می‌شود.

معماری RT-1: مدل یک دستورالعمل متنی و مجموعه ای از تصاویر را به عنوان ورودی می گیرد، آنها را به عنوان توکن از طریق یک مدل FiLM EfficientNet از پیش آموزش دیده رمزگذاری می کند و آنها را از طریق TokenLearner فشرده می کند. سپس اینها به ترانسفورماتور تغذیه می‌شوند، که توکن‌های عمل را خروجی می‌دهد.

برای ساختن سیستمی که بتواند به وظایف جدید تعمیم دهد و به عوامل و پس زمینه های مختلف استحکام نشان دهد، مجموعه داده بزرگ و متنوعی از مسیرهای روبات جمع آوری کردیم. ما از 13 دستکاری کننده ربات EDR، هر کدام با بازوی 7 درجه آزادی، گیره 2 انگشتی و پایه متحرک برای جمع آوری 130 هزار قسمت در 17 ماه استفاده کردیم. ما از نمایش‌هایی استفاده کردیم که توسط انسان‌ها از طریق عملیات از راه دور ارائه شده بود، و هر قسمت را با شرح متنی دستورالعمل‌هایی که ربات به تازگی اجرا کرد، حاشیه‌نویسی کردیم. مجموعه مهارت‌های سطح بالا نشان‌داده‌شده در مجموعه داده شامل چیدن و قرار دادن اقلام، باز کردن و بستن کشوها، وارد کردن و بیرون آوردن اقلام در کشوها، قرار دادن اقلام دراز به سمت راست، ضربه زدن به اشیا، کشیدن دستمال‌ها و باز کردن شیشه‌ها است. مجموعه داده حاصل شامل 130 هزار قسمت است که بیش از 700 کار را با استفاده از بسیاری از اشیاء مختلف پوشش می دهد.

آزمایش ها و نتایج

برای درک بهتر توانایی‌های تعمیم RT-1، عملکرد آن را در سه خط پایه بررسی می‌کنیم: Gato، BC-Z و BC-Z XL (یعنی BC-Z با تعداد پارامترهای مشابه RT-1)، در چهار دسته:

  1. عملکرد وظایف را مشاهده کرد: عملکرد در وظایفی که در طول آموزش دیده می شود
  2. عملکرد کارهای دیده نشده: عملکرد در کارهای دیده نشده که در آن مهارت و شی به طور جداگانه در مجموعه آموزشی دیده می شوند، اما به روش های جدید ترکیب شده اند.
  3. استحکام (حواس پرتی و پس زمینه): اجرا با حواس پرتی (حداکثر 9 حواس پرتی و انسداد) و عملکرد با تغییرات پس زمینه (آشپزخانه جدید، نورپردازی، صحنه های پس زمینه)
  4. سناریوهای افق بلند: اجرای دستورات زبان طبیعی از نوع SayCan در یک آشپزخانه واقعی
مطالب پیشنهادی  مدل‌های زبان بهتر بدون محاسبات عظیم – وبلاگ هوش مصنوعی گوگل

RT-1 با حواشی زیادی در هر چهار دسته از خطوط پایه بهتر عمل می کند و درجات قابل توجهی از تعمیم و استحکام را نشان می دهد.

عملکرد RT-1 در مقابل خطوط پایه در سناریوهای ارزیابی.

ترکیب منابع داده ناهمگن

برای پیشبرد بیشتر RT-1، آن را روی داده‌های جمع‌آوری‌شده از ربات دیگری آموزش می‌دهیم تا آزمایش کنیم که آیا (1) وقتی یک منبع داده جدید ارائه می‌شود، آیا مدل عملکرد خود را در وظایف اصلی حفظ می‌کند و (2) اگر مدل افزایشی در تعمیم می‌بیند. با داده های جدید و متفاوت، که هر دو برای یک مدل یادگیری ربات عمومی مطلوب هستند. به طور خاص، ما از 209 هزار قسمت از چنگ زدن بی رویه استفاده می کنیم که به طور مستقل روی بازوی Kuka با پایه ثابت برای پروژه QT-Opt جمع آوری شده است. ما داده‌های جمع‌آوری‌شده را به گونه‌ای تبدیل می‌کنیم که با مشخصات عملکرد و مرزهای مجموعه داده اصلی خود جمع‌آوری‌شده با EDR مطابقت داشته باشد، و هر قسمت را با دستور کار «انتخاب هر چیزی» برچسب‌گذاری می‌کنیم (مجموعه داده Kuka برچسب‌های شی ندارد). سپس داده‌های Kuka با داده‌های EDR در نسبت 1:2 در هر دسته آموزشی برای کنترل رگرسیون در مهارت‌های اولیه EDR مخلوط می‌شوند.

روش آموزش زمانی که داده ها از چند روبات جمع آوری شده است.

نتایج ما نشان می‌دهد که RT-1 می‌تواند مهارت‌های جدیدی را با مشاهده تجربیات ربات‌های دیگر به دست آورد. به ویژه، دقت 22 درصدی که هنگام تمرین با داده‌های EDR به تنهایی مشاهده می‌شود، تقریباً 2 برابر تا 39 درصد افزایش می‌یابد زمانی که RT-1 هم بر روی داده‌های جمع‌آوری زباله از Kuka و هم داده‌های EDR موجود از کلاس‌های روبات آموزش داده می‌شود، جایی که ما بیشتر RT- را جمع‌آوری کردیم. 1 داده هنگام آموزش RT-1 در مورد جمع‌آوری داده‌ها از Kuka به تنهایی، و سپس ارزیابی آن در انتخاب bin از ربات EDR، دقت 0% را مشاهده می‌کنیم. از سوی دیگر، مخلوط کردن داده‌های هر دو روبات به RT-1 اجازه می‌دهد تا عملکرد ربات EDR را در مواجهه با حالت‌های مشاهده شده توسط کوکا، بدون نمایش صریح انتخاب بن‌بست روی ربات EDR، و با بهره‌گیری از تجربیات استنباط کند. جمع آوری شده توسط کوکا این فرصتی را برای کارهای آینده فراهم می کند تا مجموعه داده های چند روباتی بیشتری را برای افزایش قابلیت های ربات ترکیب کنند.

داده های آموزشی کلاس درس ارزیابی سطل زباله ایوال
داده‌های جمع‌آوری کوکا + داده‌های EDR 90% 39%
فقط داده های EDR 92% 22%
Kuka bin فقط داده‌ها را انتخاب می‌کند 0 0

ارزیابی دقت RT-1 با استفاده از داده های آموزشی مختلف.

وظایف SayCan افق بلند

عملکرد بالای RT-1 و توانایی های تعمیم می تواند کارهای دستکاری موبایل در افق طولانی را از طریق SayCan فعال کند. SayCan با پایه‌گذاری مدل‌های زبان در مقرون‌به‌صرفه‌های روباتیک و بهره‌برداری از چند شات کار می‌کند تا یک وظیفه افق بلند بیان شده در زبان طبیعی را به دنباله‌ای از مهارت‌های سطح پایین تجزیه کند.

وظایف SayCan یک تنظیم ارزیابی ایده آل برای آزمایش ویژگی های مختلف ارائه می دهد:

مطالب پیشنهادی  به سوی قابلیت اطمینان در سیستم های یادگیری عمیق

  1. موفقیت کار در افق بلند به طور تصاعدی با طول کار کاهش می یابد، بنابراین موفقیت در دستکاری بالا مهم است.
  2. وظایف دستکاری موبایل نیاز به فاصله های متعدد بین ناوبری و دستکاری دارند، بنابراین استحکام نسبت به تغییرات در شرایط اولیه سیاست (به عنوان مثال، موقعیت پایه) ضروری است.
  3. تعداد دستورات ممکن در سطح بالا به طور ترکیبی با وسعت مهارت دستکاری اولیه افزایش می یابد.

ما SayCan را با RT-1 و دو خط پایه دیگر (SayCan با Gato و SayCan با BC-Z) در دو آشپزخانه واقعی ارزیابی می‌کنیم. در زیر، «آشپزخانه2» صحنه تعمیم بسیار چالش برانگیزتری نسبت به «آشپزخانه1» است. آشپزخانه ساختگی که برای جمع‌آوری بیشتر داده‌های آموزشی استفاده می‌شود، از Kitchen1 مدل‌سازی شده است.

SayCan با RT-1 به نرخ موفقیت اجرای 67% در Kitchen1 دست می یابد که از سایر خطوط پایه بهتر است. به دلیل دشواری تعمیم ارائه شده توسط آشپزخانه نادیده جدید، عملکرد SayCan با Gato و SayCan با BCZ شکل می افتد، در حالی که RT-1 افت قابل مشاهده ای را نشان نمی دهد.

وظایف SayCan در آشپزخانه 1 وظایف SayCan در Kitchen2
برنامه ریزی اعدام برنامه ریزی اعدام
Saycan اورجینال 73 47
SayCan با گاتو 87 33 87 0
SayCan با BC-Z 87 53 87 13
SayCan با RT-1 87 67 87 67

ویدئوی زیر چند نمونه از اجرای کارهای افق طولانی در چند آشپزخانه واقعی را نشان می دهد.

نتیجه

ترانسفورماتور رباتیک RT-1 یک مدل تولید عمل ساده و مقیاس پذیر برای کارهای رباتیک در دنیای واقعی است. تمام ورودی‌ها و خروجی‌ها را نشانه‌گذاری می‌کند و از یک مدل EfficientNet از پیش آموزش‌دیده با ترکیب زبان اولیه و یک یادگیرنده نشانه برای فشرده‌سازی استفاده می‌کند. RT-1 عملکرد قوی در صدها کار، و توانایی های تعمیم گسترده و استحکام در تنظیمات دنیای واقعی را نشان می دهد.

همانطور که مسیرهای آینده این کار را بررسی می کنیم، امیدواریم با توسعه روش هایی که به افراد غیرمتخصص اجازه می دهد ربات را با جمع آوری داده های هدایت شده و درخواست مدل آموزش دهند، تعداد مهارت های ربات را سریعتر افزایش دهیم. ما همچنین مشتاقانه منتظر بهبود سرعت واکنش ترانسفورماتورهای رباتیک و حفظ بافت با توجه و حافظه مقیاس پذیر هستیم. برای کسب اطلاعات بیشتر، مقاله، کد منبع باز RT-1 و وب سایت پروژه را بررسی کنید.

سپاسگزاریها

آنتونی برهان، نوآ براون، جاستیس کارباخال، یوگن چبوتار، جوزف دبیس، چلسی فین، کرتانا گوپالاکریشنان، کارول هاسمن، الکس هرتزوگ، یاسمین هسو، جولیان ایبارز، برایان ایچتر، الکس ایرپان، توماس جکسون، سالی جاشین، نیکل جوشمونث، ، دیمیتری کلاشنیکف، یونگ کوانگ، ایزابل لیال، کوانگ-هوی لی، سرگئی لوین، یائو لو، اوتساو مالا، دیکشا مانجونات، ایگور مرداچ، اوفیر ناچوم، کارولینا رژه، جودیلین پرالتا، امیلی پرز، کارل پرتشکیا، جورنال، مایکل ریو، گرسیا سالازار، کوین سید، جاسپیار سینگ، سومد سونتاکه، آستین استون، کلیتون تان، هوونگ تران، وینسنت ونهوک، استیو وگا، کوان ووونگ، فی شیا، تد شیائو، پنگ زو، سیچون خو، تیانه یو، و برایانا زیتکوویچ.

سئو PBN | خبر های جدید سئو و هک و سرور