یک چشم انداز بزرگ در یادگیری ربات ها، که به آزمایش های SHRDLU در اواخر دهه 1960 برمی گردد، ربات های مفیدی است که در فضاهای انسانی ساکن هستند و طیف گسترده ای از دستورات زبان طبیعی را دنبال می کنند. در طول چند سال گذشته، پیشرفتهای قابل توجهی در کاربرد یادگیری ماشین (ML) برای دنبال کردن دستورالعملها، هم در شبیهسازی و هم در سیستمهای دنیای واقعی صورت گرفته است. کار اخیر Palm-SayCan رباتهایی تولید کرده است که از مدلهای زبانی برای برنامهریزی رفتارهای افق بلند و استدلال درباره اهداف انتزاعی استفاده میکنند. Code as Policies نشان داده است که مدلهای زبان تولیدکننده کد همراه با سیستمهای ادراک از پیش آموزشدیده میتوانند سیاستهای شرطی زبان را برای دستکاری ربات صفر شات ایجاد کنند. علیرغم این پیشرفت، یک ویژگی مهم گمشده سیستمهای یادگیری ربات «زبان در، اقدامات خارج» است به موقع تعامل با انسان
در حالت ایدهآل، روباتهای آینده به هر کار مرتبطی که کاربر میتواند به زبان طبیعی توصیف کند، در زمان واقعی واکنش نشان میدهند. مخصوصاً در محیطهای باز انسانی، ممکن است برای کاربران نهایی مهم باشد که رفتار ربات را همانطور که اتفاق میافتد سفارشی کنند، با ارائه اصلاحات سریع (“ایست، بازوی خود را کمی بالا ببرید”) یا مشخص کردن محدودیتها (“تکان دادن که به آرامی به سمت راست”). علاوه بر این، زبان بلادرنگ میتواند همکاری افراد و روباتها را در کارهای پیچیده و افق طولانی آسانتر کند، به طوری که افراد به صورت تکراری و تعاملی دستکاری ربات را با بازخورد زبانی گاه به گاه هدایت میکنند.
چالش های دنبال کردن زبان واژگان باز برای هدایت موفقیت آمیز یک کار افق طولانی مانند “قرار دادن همه بلوک ها در یک خط عمودی”، یک ربات باید به طور دقیق به طیف گسترده ای از دستورات، از جمله رفتارهای اصلاحی کوچک مانند “دایره قرمز را کمی به سمت راست فشار دهید” پاسخ دهد. |
با این حال، دنبال کردن روباتها واژگان باز زبان یک چالش مهم از دیدگاه ML ایجاد می کند. این یک تنظیم با تعداد ذاتاً زیادی از وظایف، از جمله بسیاری از رفتارهای اصلاحی کوچک است. تنظیمات یادگیری چندوظیفه ای موجود از مجموعه داده های یادگیری تقلیدی تنظیم شده یا توابع پاداش یادگیری تقویتی پیچیده (RL) برای هدایت یادگیری هر کار استفاده می کنند، و این تلاش قابل توجه برای هر وظیفه فراتر از یک مجموعه کوچک از پیش تعریف شده، دشوار است. بنابراین، یک سوال باز حیاتی در تنظیمات واژگان باز این است: چگونه میتوانیم مجموعه دادههای ربات را طوری مقیاسبندی کنیم که شامل دهها، بلکه صدها هزار رفتار در یک محیط باشد، و چگونه میتوانیم همه این رفتارها را به زبان طبیعی وصل کنیم. کاربر نهایی ممکن است واقعا ارائه دهد؟
در زبان تعاملی، ما یک چارچوب یادگیری تقلیدی در مقیاس بزرگ را برای تولید رباتهای شرطی زبان با واژگان باز و بلادرنگ ارائه میکنیم. پس از آموزش با رویکرد ما، متوجه میشویم که یک خطمشی فردی قادر به پرداختن به آن است 87000 دستورالعمل منحصر به فرد (یک مرتبه بزرگتر از کارهای قبلی)، با میانگین موفقیت تخمینی 93.5٪. ما همچنین خوشحالیم که انتشار Language-Table، بزرگترین مجموعه داده ربات مشروح زبان در دسترس را اعلام کنیم، که امیدواریم تحقیقات بیشتری را بر روی ربات های قابل کنترل زبان در زمان واقعی انجام دهد.
هدایت ربات ها با زبان زمان واقعی. |
ربات های قابل کنترل با زبان زمان واقعی
کلید رویکرد ما یک دستور العمل مقیاس پذیر برای ایجاد مجموعه داده های نمایشی ربات شرطی شده با زبان متنوع و بزرگ است. برخلاف راهاندازیهای قبلی که همه مهارتها را از قبل تعریف میکردند و سپس نمایشهای انتخابشده برای هر مهارت را جمعآوری میکردند، ما بهطور مداوم دادهها را در چندین روبات بدون بازنشانی صحنه یا هر گونه تقسیمبندی مهارت در سطح پایین جمعآوری میکنیم. همه دادهها، از جمله دادههای خرابی (به عنوان مثال، شکستن بلوکها از جدول)، از طریق یک فرآیند برچسبگذاری مجدد زبان پیشبینی میشوند تا با متن جفت شوند. در اینجا، حاشیه نویسان ویدئوهای طولانی ربات را تماشا می کنند تا هر چه بیشتر رفتارها را شناسایی کنند، شروع و پایان هر کدام را مشخص کنند و از زبان طبیعی برای توصیف هر بخش استفاده کنند. نکته مهم این است که بر خلاف دستورالعمل های قبلی پس از تنظیمات، تمام مهارت های مورد استفاده برای آموزش به جای اینکه توسط محققان از قبل تعیین شوند، از پایین به بالا از خود داده ها پدیدار می شوند.
رویکرد یادگیری و معماری ما عمداً ساده است. خط مشی ربات ما یک ترانسفورماتور با توجه متقابل است که ویدیو و متن 5 هرتزی را به اقدامات ربات 5 هرتزی نگاشت، با استفاده از یک هدف شبیه سازی رفتاری یادگیری نظارت شده استاندارد و بدون تلفات کمکی. در زمان تست، دستورات گفتاری جدید را می توان در هر زمان تا 5 هرتز به خط مشی (از طریق گفتار به متن) ارسال کرد.
زبان تعاملی: یک سیستم یادگیری تقلیدی برای تولید روباتهای قابل کنترل زبان در زمان واقعی. |
انتشار منبع باز: مجموعه داده ها و معیار جدول زبان
این فرآیند حاشیه نویسی به ما امکان داد مجموعه داده های جدول زبان را جمع آوری کنیم که شامل بیش از 440 هزار نمایش واقعی و 180 هزار شبیه سازی شده از ربات است که دستور زبان را انجام می دهد، همراه با توالی اقداماتی که ربات در طول نمایش انجام داد. این بزرگترین مجموعه داده نمایشی ربات شرطی شده با زبان در نوع خود، به ترتیب بزرگی است. Language-Table دارای یک معیار یادگیری تقلیدی شبیه سازی شده است که ما از آن برای انجام انتخاب مدل استفاده می کنیم، که می تواند برای ارزیابی دستورالعمل های جدید به دنبال معماری ها یا رویکردها استفاده شود.
مجموعه داده | # مسیرها (k) | # منحصر به فرد (k) | اعمال فیزیکی | واقعی | در دسترس |
تظاهرات اپیزودیک | |||||
BC-Z | 25 |
0.1 |
✓ | ✓ | ✓ |
SayCan | 68 |
0.5 |
✓ | ✓ | ❌ |
خانه بازی | 1097 |
779 |
❌ | ❌ | ❌ |
برچسبگذاری زبان Hindsight | |||||
بلوک ها | 30 |
n/a | ❌ | ❌ | ✓ |
LangLFP | 10 |
n/a | ✓ | ❌ | ❌ |
LOREL | 6 |
1.7 |
✓ | ✓ | ✓ |
کالوین | 20 |
0.4 |
✓ | ❌ | ✓ |
جدول زبان (واقعی + سیم کارت) | 623 (442+181) | 206 (127+79) | ✓ | ✓ | ✓ |
ما Language-Table را با مجموعه دادههای ربات موجود مقایسه میکنیم، نسبت دادههای شبیهسازیشده (قرمز) یا واقعی (آبی)، تعداد مسیرهای جمعآوریشده، و تعداد وظایف قابل توصیف زبان منحصربهفرد را برجسته میکنیم. |
رفتارهای زبانی در زمان واقعی را یاد گرفت
نمونههایی از دستورالعملهای افق کوتاه که ربات قادر به دنبال کردن آن است، بهطور تصادفی از مجموعه کامل بیش از 87000 نمونهبرداری شده است. |
آموزش افق کوتاه | موفقیت |
(87000 بیشتر…) | … |
مثلث آبی را به گوشه بالا سمت چپ فشار دهید | 80.0٪ |
ستاره قرمز و دایره قرمز را جدا کنید | 100.0% |
قلب زرد را کمی به سمت راست تکان دهید | 80.0٪ |
ستاره قرمز را بالای مکعب آبی قرار دهید | 90.0٪ |
بازوی خود را به سمت مثلث آبی بگیرید | 100.0% |
گروه بلوک ها را کمی فشار دهید | 100.0% |
میانگین بیش از 87 هزار، CI 95٪ | 93.5٪ + – 3.42٪ |
95% فاصله اطمینان (CI) در میانگین موفقیت یک خط مشی زبان تعاملی فردی بیش از 87000 دستورالعمل منحصر به فرد زبان طبیعی. |
ما متوجه شدیم که قابلیتهای جدید جالب زمانی به وجود میآیند که روباتها بتوانند زبان زمان واقعی را دنبال کنند. ما نشان میدهیم که کاربران میتوانند رباتها را از طریق توالیهای افق بلند پیچیده تنها با استفاده از زبان طبیعی برای حل اهدافی که به چندین دقیقه کنترل دقیق و هماهنگ نیاز دارند راه بروند (به عنوان مثال، «از بلوکها با چشمان سبز یک شکلک بسازید» یا «همه را قرار دهید» بلوک ها در یک خط عمودی”). از آنجایی که ربات برای پیروی از زبان واژگان باز آموزش دیده است، می بینیم که می تواند به مجموعه ای از تصحیحات کلامی واکنش نشان دهد (مثلاً “ستاره قرمز را کمی به سمت راست تکان دهید”) که در غیر این صورت ممکن است شمارش از قبل دشوار باشد.
نمونههایی از اهداف افق بلند تحت هدایت زبان انسانی در زمان واقعی. |
در نهایت، می بینیم که زبان بلادرنگ به حالت های جدیدی از جمع آوری داده های ربات اجازه می دهد. به عنوان مثال، یک اپراتور انسانی می تواند چهار ربات را به طور همزمان تنها با استفاده از زبان گفتاری کنترل کند. این پتانسیل این را دارد که مجموعه داده های ربات را در آینده بدون نیاز به توجه انسان برای هر ربات افزایش دهد.
یک اپراتور چند ربات را همزمان با زبان گفتاری کنترل می کند. |
نتیجه
در حالی که در حال حاضر به یک میز با مجموعه ای ثابت از اشیاء محدود شده است، زبان تعاملی شواهد اولیه ای را نشان می دهد که یادگیری تقلید در مقیاس بزرگ در واقع می تواند ربات های قابل تعامل در زمان واقعی را تولید کند که از دستورات کاربر نهایی فرم آزاد پیروی می کنند. ما منبع باز Language-Table، بزرگترین مجموعه داده نمایشی ربات در دنیای واقعی شرطی شده با زبان در نوع خود و یک معیار شبیه سازی شده مرتبط، برای تحریک پیشرفت در کنترل زبان بلادرنگ روبات های فیزیکی هستیم. ما معتقدیم که کاربرد این مجموعه داده ممکن است نه تنها محدود به کنترل ربات باشد، بلکه ممکن است نقطه شروع جالبی برای مطالعه پیشبینی ویدیوی شرطی زبان و عمل، مدلسازی زبان شرطی ویدیویی ربات، یا مجموعهای از سوالات فعال جالب دیگر در زمینه گسترده تر ML برای کسب اطلاعات بیشتر به مقاله و صفحه GitHub ما مراجعه کنید.
سپاسگزاریها
مایلیم از همه کسانی که از این تحقیق حمایت کردند تشکر کنیم. این شامل ربات اپراتورها می شود: الکس لونگ، آرماندو ریس، الیو پرادو، اریک تران، گاوین گونزالس، جودکستی ترلونژ، جوئل مگپانتای، روشل دلا کروز، ساموئل وان، سارا نگوین، اسکات لهرر، نورین روزالس، تران فام، کایل گاجادهار، و نیکولین اندروز. پشتیبانی سخت افزار ربات و هماهنگی عملیات از راه دور: شان اسنایدر، اسپنسر گودریچ، کامرون برنز، خورخه آلداکو، جاناتان ولا؛ عملیات داده و زیرساخت: مقتار محمد، میتا کومار، آرناب بوز، وین گراملیچ. و بسیاری از کسانی که به ارائه برچسب زبانی مجموعه داده ها کمک کردند. همچنین مایلیم از پیر سرمانت، دبیداتا دوبیدی، مایکل ریو، برایان ایچتر و وینسنت ونهوک به خاطر مشاوره و حمایت ارزشمندشان تشکر کنیم.