گفتگو با ربات ها در زمان واقعی - وبلاگ هوش مصنوعی گوگل - سئو PBN

ارسال شده توسط کوری لینچ، دانشمند پژوهش، و آیزاان وحید، مهندس تحقیقات، رباتیک در گوگل

یک چشم انداز بزرگ در یادگیری ربات ها، که به آزمایش های SHRDLU در اواخر دهه 1960 برمی گردد، ربات های مفیدی است که در فضاهای انسانی ساکن هستند و طیف گسترده ای از دستورات زبان طبیعی را دنبال می کنند. در طول چند سال گذشته، پیشرفت‌های قابل توجهی در کاربرد یادگیری ماشین (ML) برای دنبال کردن دستورالعمل‌ها، هم در شبیه‌سازی و هم در سیستم‌های دنیای واقعی صورت گرفته است. کار اخیر Palm-SayCan ربات‌هایی تولید کرده است که از مدل‌های زبانی برای برنامه‌ریزی رفتارهای افق بلند و استدلال درباره اهداف انتزاعی استفاده می‌کنند. Code as Policies نشان داده است که مدل‌های زبان تولیدکننده کد همراه با سیستم‌های ادراک از پیش آموزش‌دیده می‌توانند سیاست‌های شرطی زبان را برای دستکاری ربات صفر شات ایجاد کنند. علی‌رغم این پیشرفت، یک ویژگی مهم گمشده سیستم‌های یادگیری ربات «زبان در، اقدامات خارج» است به موقع تعامل با انسان

در حالت ایده‌آل، روبات‌های آینده به هر کار مرتبطی که کاربر می‌تواند به زبان طبیعی توصیف کند، در زمان واقعی واکنش نشان می‌دهند. مخصوصاً در محیط‌های باز انسانی، ممکن است برای کاربران نهایی مهم باشد که رفتار ربات را همانطور که اتفاق می‌افتد سفارشی کنند، با ارائه اصلاحات سریع (“ایست، بازوی خود را کمی بالا ببرید”) یا مشخص کردن محدودیت‌ها (“تکان دادن که به آرامی به سمت راست”). علاوه بر این، زبان بلادرنگ می‌تواند همکاری افراد و روبات‌ها را در کارهای پیچیده و افق طولانی آسان‌تر کند، به طوری که افراد به صورت تکراری و تعاملی دستکاری ربات را با بازخورد زبانی گاه به گاه هدایت می‌کنند.

چالش های دنبال کردن زبان واژگان باز برای هدایت موفقیت آمیز یک کار افق طولانی مانند “قرار دادن همه بلوک ها در یک خط عمودی”، یک ربات باید به طور دقیق به طیف گسترده ای از دستورات، از جمله رفتارهای اصلاحی کوچک مانند “دایره قرمز را کمی به سمت راست فشار دهید” پاسخ دهد.

با این حال، دنبال کردن روبات‌ها واژگان باز زبان یک چالش مهم از دیدگاه ML ایجاد می کند. این یک تنظیم با تعداد ذاتاً زیادی از وظایف، از جمله بسیاری از رفتارهای اصلاحی کوچک است. تنظیمات یادگیری چندوظیفه ای موجود از مجموعه داده های یادگیری تقلیدی تنظیم شده یا توابع پاداش یادگیری تقویتی پیچیده (RL) برای هدایت یادگیری هر کار استفاده می کنند، و این تلاش قابل توجه برای هر وظیفه فراتر از یک مجموعه کوچک از پیش تعریف شده، دشوار است. بنابراین، یک سوال باز حیاتی در تنظیمات واژگان باز این است: چگونه می‌توانیم مجموعه داده‌های ربات را طوری مقیاس‌بندی کنیم که شامل ده‌ها، بلکه صدها هزار رفتار در یک محیط باشد، و چگونه می‌توانیم همه این رفتارها را به زبان طبیعی وصل کنیم. کاربر نهایی ممکن است واقعا ارائه دهد؟

در زبان تعاملی، ما یک چارچوب یادگیری تقلیدی در مقیاس بزرگ را برای تولید ربات‌های شرطی زبان با واژگان باز و بلادرنگ ارائه می‌کنیم. پس از آموزش با رویکرد ما، متوجه می‌شویم که یک خط‌مشی فردی قادر به پرداختن به آن است 87000 دستورالعمل منحصر به فرد (یک مرتبه بزرگتر از کارهای قبلی)، با میانگین موفقیت تخمینی 93.5٪. ما همچنین خوشحالیم که انتشار Language-Table، بزرگترین مجموعه داده ربات مشروح زبان در دسترس را اعلام کنیم، که امیدواریم تحقیقات بیشتری را بر روی ربات های قابل کنترل زبان در زمان واقعی انجام دهد.

هدایت ربات ها با زبان زمان واقعی.

ربات های قابل کنترل با زبان زمان واقعی

کلید رویکرد ما یک دستور العمل مقیاس پذیر برای ایجاد مجموعه داده های نمایشی ربات شرطی شده با زبان متنوع و بزرگ است. برخلاف راه‌اندازی‌های قبلی که همه مهارت‌ها را از قبل تعریف می‌کردند و سپس نمایش‌های انتخاب‌شده برای هر مهارت را جمع‌آوری می‌کردند، ما به‌طور مداوم داده‌ها را در چندین روبات بدون بازنشانی صحنه یا هر گونه تقسیم‌بندی مهارت در سطح پایین جمع‌آوری می‌کنیم. همه داده‌ها، از جمله داده‌های خرابی (به عنوان مثال، شکستن بلوک‌ها از جدول)، از طریق یک فرآیند برچسب‌گذاری مجدد زبان پیش‌بینی می‌شوند تا با متن جفت شوند. در اینجا، حاشیه نویسان ویدئوهای طولانی ربات را تماشا می کنند تا هر چه بیشتر رفتارها را شناسایی کنند، شروع و پایان هر کدام را مشخص کنند و از زبان طبیعی برای توصیف هر بخش استفاده کنند. نکته مهم این است که بر خلاف دستورالعمل های قبلی پس از تنظیمات، تمام مهارت های مورد استفاده برای آموزش به جای اینکه توسط محققان از قبل تعیین شوند، از پایین به بالا از خود داده ها پدیدار می شوند.

رویکرد یادگیری و معماری ما عمداً ساده است. خط مشی ربات ما یک ترانسفورماتور با توجه متقابل است که ویدیو و متن 5 هرتزی را به اقدامات ربات 5 هرتزی نگاشت، با استفاده از یک هدف شبیه سازی رفتاری یادگیری نظارت شده استاندارد و بدون تلفات کمکی. در زمان تست، دستورات گفتاری جدید را می توان در هر زمان تا 5 هرتز به خط مشی (از طریق گفتار به متن) ارسال کرد.

زبان تعاملی: یک سیستم یادگیری تقلیدی برای تولید روبات‌های قابل کنترل زبان در زمان واقعی.

انتشار منبع باز: مجموعه داده ها و معیار جدول زبان

این فرآیند حاشیه نویسی به ما امکان داد مجموعه داده های جدول زبان را جمع آوری کنیم که شامل بیش از 440 هزار نمایش واقعی و 180 هزار شبیه سازی شده از ربات است که دستور زبان را انجام می دهد، همراه با توالی اقداماتی که ربات در طول نمایش انجام داد. این بزرگترین مجموعه داده نمایشی ربات شرطی شده با زبان در نوع خود، به ترتیب بزرگی است. Language-Table دارای یک معیار یادگیری تقلیدی شبیه سازی شده است که ما از آن برای انجام انتخاب مدل استفاده می کنیم، که می تواند برای ارزیابی دستورالعمل های جدید به دنبال معماری ها یا رویکردها استفاده شود.

مجموعه داده	# مسیرها (k)	# منحصر به فرد (k)	اعمال فیزیکی	واقعی	در دسترس
تظاهرات اپیزودیک
BC-Z	25	0.1	✓	✓	✓
SayCan	68	0.5	✓	✓	❌
خانه بازی	1097	779	❌	❌	❌
برچسب‌گذاری زبان Hindsight
بلوک ها	30	n/a	❌	❌	✓
LangLFP	10	n/a	✓	❌	❌
LOREL	6	1.7	✓	✓	✓
کالوین	20	0.4	✓	❌	✓
جدول زبان (واقعی + سیم کارت)	623 (442+181)	206 (127+79)	✓	✓	✓

ما Language-Table را با مجموعه داده‌های ربات موجود مقایسه می‌کنیم، نسبت داده‌های شبیه‌سازی‌شده (قرمز) یا واقعی (آبی)، تعداد مسیرهای جمع‌آوری‌شده، و تعداد وظایف قابل توصیف زبان منحصربه‌فرد را برجسته می‌کنیم.

رفتارهای زبانی در زمان واقعی را یاد گرفت

نمونه‌هایی از دستورالعمل‌های افق کوتاه که ربات قادر به دنبال کردن آن است، به‌طور تصادفی از مجموعه کامل بیش از 87000 نمونه‌برداری شده است.

آموزش افق کوتاه	موفقیت
(87000 بیشتر…)	…
مثلث آبی را به گوشه بالا سمت چپ فشار دهید	80.0٪
ستاره قرمز و دایره قرمز را جدا کنید	100.0%
قلب زرد را کمی به سمت راست تکان دهید	80.0٪
ستاره قرمز را بالای مکعب آبی قرار دهید	90.0٪
بازوی خود را به سمت مثلث آبی بگیرید	100.0%
گروه بلوک ها را کمی فشار دهید	100.0%
میانگین بیش از 87 هزار، CI 95٪	93.5٪ + – 3.42٪

95% فاصله اطمینان (CI) در میانگین موفقیت یک خط مشی زبان تعاملی فردی بیش از 87000 دستورالعمل منحصر به فرد زبان طبیعی.

ما متوجه شدیم که قابلیت‌های جدید جالب زمانی به وجود می‌آیند که روبات‌ها بتوانند زبان زمان واقعی را دنبال کنند. ما نشان می‌دهیم که کاربران می‌توانند ربات‌ها را از طریق توالی‌های افق بلند پیچیده تنها با استفاده از زبان طبیعی برای حل اهدافی که به چندین دقیقه کنترل دقیق و هماهنگ نیاز دارند راه بروند (به عنوان مثال، «از بلوک‌ها با چشمان سبز یک شکلک بسازید» یا «همه را قرار دهید» بلوک ها در یک خط عمودی”). از آنجایی که ربات برای پیروی از زبان واژگان باز آموزش دیده است، می بینیم که می تواند به مجموعه ای از تصحیحات کلامی واکنش نشان دهد (مثلاً “ستاره قرمز را کمی به سمت راست تکان دهید”) که در غیر این صورت ممکن است شمارش از قبل دشوار باشد.

نمونه‌هایی از اهداف افق بلند تحت هدایت زبان انسانی در زمان واقعی.

در نهایت، می بینیم که زبان بلادرنگ به حالت های جدیدی از جمع آوری داده های ربات اجازه می دهد. به عنوان مثال، یک اپراتور انسانی می تواند چهار ربات را به طور همزمان تنها با استفاده از زبان گفتاری کنترل کند. این پتانسیل این را دارد که مجموعه داده های ربات را در آینده بدون نیاز به توجه انسان برای هر ربات افزایش دهد.

یک اپراتور چند ربات را همزمان با زبان گفتاری کنترل می کند.

نتیجه

در حالی که در حال حاضر به یک میز با مجموعه ای ثابت از اشیاء محدود شده است، زبان تعاملی شواهد اولیه ای را نشان می دهد که یادگیری تقلید در مقیاس بزرگ در واقع می تواند ربات های قابل تعامل در زمان واقعی را تولید کند که از دستورات کاربر نهایی فرم آزاد پیروی می کنند. ما منبع باز Language-Table، بزرگترین مجموعه داده نمایشی ربات در دنیای واقعی شرطی شده با زبان در نوع خود و یک معیار شبیه سازی شده مرتبط، برای تحریک پیشرفت در کنترل زبان بلادرنگ روبات های فیزیکی هستیم. ما معتقدیم که کاربرد این مجموعه داده ممکن است نه تنها محدود به کنترل ربات باشد، بلکه ممکن است نقطه شروع جالبی برای مطالعه پیش‌بینی ویدیوی شرطی زبان و عمل، مدل‌سازی زبان شرطی ویدیویی ربات، یا مجموعه‌ای از سوالات فعال جالب دیگر در زمینه گسترده تر ML برای کسب اطلاعات بیشتر به مقاله و صفحه GitHub ما مراجعه کنید.

سپاسگزاریها

مایلیم از همه کسانی که از این تحقیق حمایت کردند تشکر کنیم. این شامل ربات اپراتورها می شود: الکس لونگ، آرماندو ریس، الیو پرادو، اریک تران، گاوین گونزالس، جودکستی ترلونژ، جوئل مگپانتای، روشل دلا کروز، ساموئل وان، سارا نگوین، اسکات لهرر، نورین روزالس، تران فام، کایل گاجادهار، و نیکولین اندروز. پشتیبانی سخت افزار ربات و هماهنگی عملیات از راه دور: شان اسنایدر، اسپنسر گودریچ، کامرون برنز، خورخه آلداکو، جاناتان ولا؛ عملیات داده و زیرساخت: مقتار محمد، میتا کومار، آرناب بوز، وین گراملیچ. و بسیاری از کسانی که به ارائه برچسب زبانی مجموعه داده ها کمک کردند. همچنین مایلیم از پیر سرمانت، دبیداتا دوبیدی، مایکل ریو، برایان ایچتر و وینسنت ونهوک به خاطر مشاوره و حمایت ارزشمندشان تشکر کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور