پیشرفتهای عمده اخیر در زمینههای مختلف تحقیقات یادگیری ماشین (ML)، مانند بینایی کامپیوتر و پردازش زبان طبیعی، با یک رویکرد مشترک مشترک که از مجموعه دادههای بزرگ و متنوع و مدلهای بیانی استفاده میکند که میتواند همه دادهها را به طور موثر جذب کند، امکانپذیر شده است. اگرچه تلاشهای مختلفی برای اعمال این رویکرد در رباتیک صورت گرفته است، رباتها هنوز از مدلهای بسیار توانمند و همچنین زیرشاخههای دیگر استفاده نکردهاند.
عوامل متعددی در ایجاد این چالش نقش دارند. اول، فقدان داده های رباتیک در مقیاس بزرگ و متنوع است که توانایی مدل را برای جذب مجموعه وسیعی از تجربیات روباتیک محدود می کند. جمعآوری دادهها به ویژه برای روباتیک گران و چالش برانگیز است، زیرا تنظیم مجموعه دادهها به عملیات مستقل مهندسی سنگین یا نمایشهایی که با استفاده از عملیاتهای دور انسانی جمعآوری میشوند، نیاز دارد. عامل دوم فقدان مدلهای استنتاجی گویا، مقیاسپذیر و سریع برای استنتاج در زمان واقعی است که بتواند از این مجموعه دادهها درس گرفته و به طور مؤثر تعمیم دهد.
برای پرداختن به این چالشها، ما Robotics Transformer 1 (RT-1) را پیشنهاد میکنیم، یک مدل چند وظیفهای که ورودیها و خروجیهای ربات را نشانهگذاری میکند (مثلاً تصاویر دوربین، دستورالعملهای کار، و فرمانهای موتور) تا استنتاج کارآمد را در زمان اجرا فعال کند. کنترل بلادرنگ را امکان پذیر می کند. این مدل بر روی یک مجموعه داده رباتیک در مقیاس بزرگ و واقعی از 130 هزار قسمت آموزش داده شده است که بیش از 700 کار را پوشش می دهد، که با استفاده از ناوگانی متشکل از 13 ربات از Robots Everyday (EDR) طی 17 ماه جمع آوری شده است. ما نشان میدهیم که RT-1 میتواند به طور قابلتوجهی تعمیم شات صفر بهبود یافته را به وظایف، محیطها و اشیاء جدید در مقایسه با تکنیکهای قبلی نشان دهد. علاوه بر این، ما به دقت بسیاری از انتخابهای طراحی در مدل و مجموعه آموزشی را ارزیابی و حذف میکنیم و اثرات نشانهسازی، نمایش عمل و ترکیب مجموعه داده را تجزیه و تحلیل میکنیم. در نهایت، ما کد RT-1 را منبع باز میسازیم و امیدواریم که منبع ارزشمندی برای تحقیقات آینده در مورد افزایش مقیاس یادگیری ربات باشد.
![]() |
RT-1 مقادیر زیادی از داده ها را جذب می کند، از جمله مسیرهای ربات با وظایف، اشیاء و محیط های متعدد و در نتیجه عملکرد و تعمیم بهتری دارد. |
ترانسفورماتور روباتیک (RT-1)
RT-1 بر اساس یک معماری ترانسفورماتور ساخته شده است که تاریخچه کوتاهی از تصاویر را از دوربین یک ربات به همراه شرح وظایف به زبان طبیعی به عنوان ورودی بیان می کند و مستقیماً اقدامات نشانه گذاری شده را خروجی می کند.
معماری RT-1 شبیه به یک مدل توالی فقط رمزگشای معاصر است که در برابر یک هدف متقابل آنتروپی طبقهبندی استاندارد با پوشش علّی آموزش داده شده است. ویژگیهای کلیدی آن عبارتند از: توکنسازی تصویر، توکنسازی عمل، و فشردهسازی توکن، که در زیر توضیح داده شده است.
نشانه گذاری تصویر: عبور می کنیم تصاویر را از طریق یک مدل EfficientNet-B3 که از قبل در ImageNet آموزش داده شده است، دریافت کنید و سپس نقشه ویژگی فضایی 9×9×512 حاصل را به 81 توکن صاف کنید. توکنایزر تصویر مشروط به دستورالعملهای کار زبان طبیعی است و از لایههای FiLM که برای شناسایی اولیهسازی شدهاند برای استخراج ویژگیهای تصویر مرتبط با کار در اوایل استفاده میکند.
اکشن توکنیزاسیون: ابعاد عمل ربات 7 متغیر برای حرکت بازو (x، y، z، رول، گام، انحراف، باز شدن دستگیره)، 3 متغیر برای حرکت پایه (x، y، yaw) و یک متغیر گسسته اضافی برای جابجایی بین سه حالت است. : کنترل بازو، کنترل پایه، یا پایان دادن به قسمت. هر بعد عمل در 256 سطل گسسته شده است.
فشرده سازی توکن: این مدل به طور تطبیقی ترکیبات نرمی از نشانههای تصویر را انتخاب میکند که میتوانند بر اساس تأثیر آنها در یادگیری با ماژول توجه عنصری TokenLearner فشرده شوند، که منجر به افزایش سرعت استنتاج بیش از 2.4 برابر میشود.
![]() |
معماری RT-1: مدل یک دستورالعمل متنی و مجموعه ای از تصاویر را به عنوان ورودی می گیرد، آنها را به عنوان توکن از طریق یک مدل FiLM EfficientNet از پیش آموزش دیده رمزگذاری می کند و آنها را از طریق TokenLearner فشرده می کند. سپس اینها به ترانسفورماتور تغذیه میشوند، که توکنهای عمل را خروجی میدهد. |
برای ساختن سیستمی که بتواند به وظایف جدید تعمیم دهد و به عوامل و پس زمینه های مختلف استحکام نشان دهد، مجموعه داده بزرگ و متنوعی از مسیرهای روبات جمع آوری کردیم. ما از 13 دستکاری کننده ربات EDR، هر کدام با بازوی 7 درجه آزادی، گیره 2 انگشتی و پایه متحرک برای جمع آوری 130 هزار قسمت در 17 ماه استفاده کردیم. ما از نمایشهایی استفاده کردیم که توسط انسانها از طریق عملیات از راه دور ارائه شده بود، و هر قسمت را با شرح متنی دستورالعملهایی که ربات به تازگی اجرا کرد، حاشیهنویسی کردیم. مجموعه مهارتهای سطح بالا نشاندادهشده در مجموعه داده شامل چیدن و قرار دادن اقلام، باز کردن و بستن کشوها، وارد کردن و بیرون آوردن اقلام در کشوها، قرار دادن اقلام دراز به سمت راست، ضربه زدن به اشیا، کشیدن دستمالها و باز کردن شیشهها است. مجموعه داده حاصل شامل 130 هزار قسمت است که بیش از 700 کار را با استفاده از بسیاری از اشیاء مختلف پوشش می دهد.
آزمایش ها و نتایج
برای درک بهتر تواناییهای تعمیم RT-1، عملکرد آن را در سه خط پایه بررسی میکنیم: Gato، BC-Z و BC-Z XL (یعنی BC-Z با تعداد پارامترهای مشابه RT-1)، در چهار دسته:
- عملکرد وظایف را مشاهده کرد: عملکرد در وظایفی که در طول آموزش دیده می شود
- عملکرد کارهای دیده نشده: عملکرد در کارهای دیده نشده که در آن مهارت و شی به طور جداگانه در مجموعه آموزشی دیده می شوند، اما به روش های جدید ترکیب شده اند.
- استحکام (حواس پرتی و پس زمینه): اجرا با حواس پرتی (حداکثر 9 حواس پرتی و انسداد) و عملکرد با تغییرات پس زمینه (آشپزخانه جدید، نورپردازی، صحنه های پس زمینه)
- سناریوهای افق بلند: اجرای دستورات زبان طبیعی از نوع SayCan در یک آشپزخانه واقعی
RT-1 با حواشی زیادی در هر چهار دسته از خطوط پایه بهتر عمل می کند و درجات قابل توجهی از تعمیم و استحکام را نشان می دهد.
![]() |
عملکرد RT-1 در مقابل خطوط پایه در سناریوهای ارزیابی. |
ترکیب منابع داده ناهمگن
برای پیشبرد بیشتر RT-1، آن را روی دادههای جمعآوریشده از ربات دیگری آموزش میدهیم تا آزمایش کنیم که آیا (1) وقتی یک منبع داده جدید ارائه میشود، آیا مدل عملکرد خود را در وظایف اصلی حفظ میکند و (2) اگر مدل افزایشی در تعمیم میبیند. با داده های جدید و متفاوت، که هر دو برای یک مدل یادگیری ربات عمومی مطلوب هستند. به طور خاص، ما از 209 هزار قسمت از چنگ زدن بی رویه استفاده می کنیم که به طور مستقل روی بازوی Kuka با پایه ثابت برای پروژه QT-Opt جمع آوری شده است. ما دادههای جمعآوریشده را به گونهای تبدیل میکنیم که با مشخصات عملکرد و مرزهای مجموعه داده اصلی خود جمعآوریشده با EDR مطابقت داشته باشد، و هر قسمت را با دستور کار «انتخاب هر چیزی» برچسبگذاری میکنیم (مجموعه داده Kuka برچسبهای شی ندارد). سپس دادههای Kuka با دادههای EDR در نسبت 1:2 در هر دسته آموزشی برای کنترل رگرسیون در مهارتهای اولیه EDR مخلوط میشوند.
![]() |
روش آموزش زمانی که داده ها از چند روبات جمع آوری شده است. |
نتایج ما نشان میدهد که RT-1 میتواند مهارتهای جدیدی را با مشاهده تجربیات رباتهای دیگر به دست آورد. به ویژه، دقت 22 درصدی که هنگام تمرین با دادههای EDR به تنهایی مشاهده میشود، تقریباً 2 برابر تا 39 درصد افزایش مییابد زمانی که RT-1 هم بر روی دادههای جمعآوری زباله از Kuka و هم دادههای EDR موجود از کلاسهای روبات آموزش داده میشود، جایی که ما بیشتر RT- را جمعآوری کردیم. 1 داده هنگام آموزش RT-1 در مورد جمعآوری دادهها از Kuka به تنهایی، و سپس ارزیابی آن در انتخاب bin از ربات EDR، دقت 0% را مشاهده میکنیم. از سوی دیگر، مخلوط کردن دادههای هر دو روبات به RT-1 اجازه میدهد تا عملکرد ربات EDR را در مواجهه با حالتهای مشاهده شده توسط کوکا، بدون نمایش صریح انتخاب بنبست روی ربات EDR، و با بهرهگیری از تجربیات استنباط کند. جمع آوری شده توسط کوکا این فرصتی را برای کارهای آینده فراهم می کند تا مجموعه داده های چند روباتی بیشتری را برای افزایش قابلیت های ربات ترکیب کنند.
داده های آموزشی | کلاس درس ارزیابی | سطل زباله ایوال |
دادههای جمعآوری کوکا + دادههای EDR | 90% | 39% |
فقط داده های EDR | 92% | 22% |
Kuka bin فقط دادهها را انتخاب میکند | 0 | 0 |
ارزیابی دقت RT-1 با استفاده از داده های آموزشی مختلف. |
وظایف SayCan افق بلند
عملکرد بالای RT-1 و توانایی های تعمیم می تواند کارهای دستکاری موبایل در افق طولانی را از طریق SayCan فعال کند. SayCan با پایهگذاری مدلهای زبان در مقرونبهصرفههای روباتیک و بهرهبرداری از چند شات کار میکند تا یک وظیفه افق بلند بیان شده در زبان طبیعی را به دنبالهای از مهارتهای سطح پایین تجزیه کند.
وظایف SayCan یک تنظیم ارزیابی ایده آل برای آزمایش ویژگی های مختلف ارائه می دهد:
- موفقیت کار در افق بلند به طور تصاعدی با طول کار کاهش می یابد، بنابراین موفقیت در دستکاری بالا مهم است.
- وظایف دستکاری موبایل نیاز به فاصله های متعدد بین ناوبری و دستکاری دارند، بنابراین استحکام نسبت به تغییرات در شرایط اولیه سیاست (به عنوان مثال، موقعیت پایه) ضروری است.
- تعداد دستورات ممکن در سطح بالا به طور ترکیبی با وسعت مهارت دستکاری اولیه افزایش می یابد.
ما SayCan را با RT-1 و دو خط پایه دیگر (SayCan با Gato و SayCan با BC-Z) در دو آشپزخانه واقعی ارزیابی میکنیم. در زیر، «آشپزخانه2» صحنه تعمیم بسیار چالش برانگیزتری نسبت به «آشپزخانه1» است. آشپزخانه ساختگی که برای جمعآوری بیشتر دادههای آموزشی استفاده میشود، از Kitchen1 مدلسازی شده است.
SayCan با RT-1 به نرخ موفقیت اجرای 67% در Kitchen1 دست می یابد که از سایر خطوط پایه بهتر است. به دلیل دشواری تعمیم ارائه شده توسط آشپزخانه نادیده جدید، عملکرد SayCan با Gato و SayCan با BCZ شکل می افتد، در حالی که RT-1 افت قابل مشاهده ای را نشان نمی دهد.
وظایف SayCan در آشپزخانه 1 | وظایف SayCan در Kitchen2 | |||
برنامه ریزی | اعدام | برنامه ریزی | اعدام | |
Saycan اورجینال | 73 | 47 | – | – |
SayCan با گاتو | 87 | 33 | 87 | 0 |
SayCan با BC-Z | 87 | 53 | 87 | 13 |
SayCan با RT-1 | 87 | 67 | 87 | 67 |
ویدئوی زیر چند نمونه از اجرای کارهای افق طولانی در چند آشپزخانه واقعی را نشان می دهد.
نتیجه
ترانسفورماتور رباتیک RT-1 یک مدل تولید عمل ساده و مقیاس پذیر برای کارهای رباتیک در دنیای واقعی است. تمام ورودیها و خروجیها را نشانهگذاری میکند و از یک مدل EfficientNet از پیش آموزشدیده با ترکیب زبان اولیه و یک یادگیرنده نشانه برای فشردهسازی استفاده میکند. RT-1 عملکرد قوی در صدها کار، و توانایی های تعمیم گسترده و استحکام در تنظیمات دنیای واقعی را نشان می دهد.
همانطور که مسیرهای آینده این کار را بررسی می کنیم، امیدواریم با توسعه روش هایی که به افراد غیرمتخصص اجازه می دهد ربات را با جمع آوری داده های هدایت شده و درخواست مدل آموزش دهند، تعداد مهارت های ربات را سریعتر افزایش دهیم. ما همچنین مشتاقانه منتظر بهبود سرعت واکنش ترانسفورماتورهای رباتیک و حفظ بافت با توجه و حافظه مقیاس پذیر هستیم. برای کسب اطلاعات بیشتر، مقاله، کد منبع باز RT-1 و وب سایت پروژه را بررسی کنید.
سپاسگزاریها
آنتونی برهان، نوآ براون، جاستیس کارباخال، یوگن چبوتار، جوزف دبیس، چلسی فین، کرتانا گوپالاکریشنان، کارول هاسمن، الکس هرتزوگ، یاسمین هسو، جولیان ایبارز، برایان ایچتر، الکس ایرپان، توماس جکسون، سالی جاشین، نیکل جوشمونث، ، دیمیتری کلاشنیکف، یونگ کوانگ، ایزابل لیال، کوانگ-هوی لی، سرگئی لوین، یائو لو، اوتساو مالا، دیکشا مانجونات، ایگور مرداچ، اوفیر ناچوم، کارولینا رژه، جودیلین پرالتا، امیلی پرز، کارل پرتشکیا، جورنال، مایکل ریو، گرسیا سالازار، کوین سید، جاسپیار سینگ، سومد سونتاکه، آستین استون، کلیتون تان، هوونگ تران، وینسنت ونهوک، استیو وگا، کوان ووونگ، فی شیا، تد شیائو، پنگ زو، سیچون خو، تیانه یو، و برایانا زیتکوویچ.