زبان پایه در مقرون به صرفه رباتیک

در چند سال گذشته، ما شاهد پیشرفت قابل توجهی در کاربرد یادگیری ماشینی در رباتیک بوده‌ایم. با این حال، سیستم‌های رباتیک امروزی تنها قادر به اجرای دستورات بسیار کوتاه و سخت‌کد شده‌اند، مانند «بردار یک سیب»، زیرا تمایل دارند با وظایف و پاداش‌های واضح بهترین عملکرد را داشته باشند. آنها با یادگیری انجام کارهای افق طولانی و استدلال در مورد اهداف انتزاعی، مانند درخواست کاربر مانند “من تازه تمرین کردم، می توانید یک میان وعده سالم برای من تهیه کنید؟”

در همین حال، پیشرفت‌های اخیر در آموزش مدل‌های زبان (LMs) منجر به سیستم‌هایی شده است که می‌توانند طیف وسیعی از وظایف درک زبان و تولید را با نتایج چشمگیر انجام دهند. با این حال، این مدل‌های زبانی به دلیل ماهیت فرآیند آموزشی‌شان، ذاتاً در دنیای فیزیکی مستقر نیستند: یک مدل زبان به طور کلی با محیط خود در تعامل نیست و نتیجه پاسخ‌هایش را مشاهده نمی‌کند. این می تواند منجر به ایجاد دستورالعمل هایی شود که ممکن است برای یک ربات در یک زمینه فیزیکی غیرمنطقی، غیرعملی یا ناامن باشد. به عنوان مثال، هنگامی که از شما خواسته می شود “نوشیدنی ام را ریختم، می توانید کمک کنید؟” مدل زبان GPT-3 با «می‌توانید از جاروبرقی استفاده کنید» پاسخ می‌دهد، پیشنهادی که ممکن است برای ربات ناامن یا غیرممکن باشد. هنگامی که از مدل زبان FLAN سؤال مشابهی را می پرسد، با «متاسفم، قصد نداشتم آن را بریزم» عذرخواهی می کند، که پاسخ چندان مفیدی نیست. بنابراین، از خود پرسیدیم که آیا روش مؤثری وجود دارد. روشی برای ترکیب مدل های زبان پیشرفته با الگوریتم های یادگیری ربات برای استفاده از مزایای هر دو؟

در «آنطور که می‌توانم انجام بده، نه آن‌طور که می‌گویم: پایه‌گذاری زبان در هزینه‌های رباتیک»، رویکرد جدیدی را ارائه می‌کنیم که با مشارکت روبات‌های روزمره توسعه یافته است، که از دانش مدل زبانی پیشرفته استفاده می‌کند تا یک عامل فیزیکی، مانند ربات، را قادر سازد تا دستورالعمل‌های متنی سطح بالا را برای کارهای مبتنی بر فیزیکی دنبال کنید، در حالی که مدل زبان را در کارهایی که در یک زمینه خاص در دنیای واقعی امکان‌پذیر هستند، پایه‌گذاری کنید. ما روش خود را که آن را PaLM-SayCan می نامیم، با قرار دادن ربات ها در یک آشپزخانه واقعی و دادن وظایفی که به زبان طبیعی بیان شده اند، ارزیابی می کنیم. ما نتایج بسیار قابل تفسیری را برای کارهای پیچیده و انتزاعی طولانی مدت مشاهده می کنیم، مانند “من تازه تمرین کردم، لطفاً یک میان وعده و نوشیدنی برای بهبودی برای من بیاورید.” به طور خاص، ما نشان می‌دهیم که پایه‌گذاری مدل زبان در دنیای واقعی تقریباً خطاها را نسبت به خطوط پایه غیرزمینی به نصف کاهش می‌دهد. ما همچنین برای انتشار یک راه اندازی شبیه سازی ربات که در آن جامعه پژوهشی می تواند این رویکرد را آزمایش کند، هیجان زده هستیم.

با PaLM-SayCan، ربات به عنوان “دست و چشم” مدل زبان عمل می کند، در حالی که مدل زبان دانش معنایی سطح بالایی را در مورد کار ارائه می دهد.

گفتگوی بین کاربر و ربات، که توسط مدل زبان تسهیل شده است
رویکرد ما از دانش موجود در مدل‌های زبان (Say) برای تعیین و امتیاز دادن به اقداماتی استفاده می‌کند که برای دستورالعمل‌های سطح بالا مفید هستند. همچنین از یک تابع مقرون به صرفه (Can) استفاده می‌کند که زمین‌گذاری در دنیای واقعی را فعال می‌کند و تعیین می‌کند که کدام اقدامات در یک محیط معین امکان‌پذیر است. با استفاده از مدل زبان PalM، ما آن را PaLM-SayCan می نامیم.

رویکرد ما مهارت‌ها را بر اساس امتیازهایی که مدل زبان برای آموزش سطح بالا می‌آورد و آنچه مدل مقرون به صرفه می‌دهد، انتخاب می‌کند.

سیستم ما می تواند به عنوان یک گفتگو بین کاربر و ربات دیده شود که توسط مدل زبان تسهیل می شود. کاربر با دادن دستورالعملی شروع می کند که مدل زبان به دنباله ای از مراحل برای ربات تبدیل می شود تا اجرا شود. این دنباله با استفاده از مجموعه مهارت های ربات برای تعیین امکان پذیرترین طرح با توجه به وضعیت و محیط فعلی آن فیلتر می شود. این مدل احتمال پیشرفت موفقیت آمیز یک مهارت خاص به سمت تکمیل دستورالعمل را با ضرب دو احتمال تعیین می کند: (1) تکلیف زمینه سازی (یعنی شرح زبان مهارت) و (2) جهانی کردن (یعنی امکان سنجی مهارت در وضعیت فعلی).

مزایای دیگری از رویکرد ما از نظر ایمنی و تفسیرپذیری آن وجود دارد. اول، با اجازه دادن به LM برای امتیاز دادن به گزینه های مختلف به جای تولید محتمل ترین خروجی، ما به طور موثر LM را محدود می کنیم تا تنها یکی از پاسخ های از پیش انتخاب شده را خروجی دهد. علاوه بر این، کاربر می‌تواند به‌راحتی فرآیند تصمیم‌گیری را با نگاه کردن به نمره‌های زبان جداگانه و مقرون به صرفه، به جای یک خروجی، درک کند.

PaLM-SayCan همچنین قابل تفسیر است: در هر مرحله، ما می‌توانیم گزینه‌های برتر را بر اساس امتیاز زبان (آبی)، امتیاز affordance (قرمز) و امتیاز ترکیبی (سبز) مشاهده کنیم.

سیاست های آموزشی و کارکردهای ارزشی
هر مهارت در مجموعه مهارت عامل به‌عنوان خط‌مشی با توضیحات زبانی کوتاه (مثلاً «قطو را بردارید»)، که به‌عنوان جاسازی‌ها نشان داده می‌شود، و یک تابع مقرون به صرفه که احتمال تکمیل مهارت را از وضعیت فعلی ربات نشان می‌دهد، تعریف می‌شود. برای یادگیری توابع affordance، از توابع پاداش پراکنده برای اجرای موفقیت آمیز روی 1.0 و در غیر این صورت 0.0 استفاده می کنیم.

ما از شبیه‌سازی رفتاری مبتنی بر تصویر (BC) برای آموزش خط‌مشی‌های شرطی زبان و یادگیری تقویتی مبتنی بر تفاوت زمانی (RL) برای آموزش توابع ارزش استفاده می‌کنیم. برای آموزش خط‌مشی‌ها، ما داده‌های 68000 دمو را جمع‌آوری کردیم که توسط 10 روبات در طول 11 ماه انجام شد و 12000 قسمت موفق را اضافه کردیم که از مجموعه‌ای از قسمت‌های مستقل سیاست‌های آموخته شده فیلتر شده‌اند. سپس توابع ارزش شرطی زبان را با استفاده از MT-Opt در شبیه ساز Everyday Robots یاد گرفتیم. شبیه ساز ناوگان ربات واقعی ما را با نسخه شبیه سازی شده مهارت ها و محیط تکمیل می کند که با استفاده از RetinaGAN تغییر شکل می دهد تا شکاف شبیه سازی به واقعی کاهش یابد. ما عملکرد سیاست‌های شبیه‌سازی را با استفاده از نمایش‌ها برای ارائه موفقیت‌های اولیه راه‌اندازی کردیم و سپس به طور مداوم عملکرد RL را با جمع‌آوری داده‌های آنلاین در شبیه‌سازی بهبود دادیم.

با توجه به یک دستورالعمل سطح بالا، رویکرد ما احتمالات مدل زبان را با احتمالات تابع مقدار (VF) ترکیب می‌کند تا مهارت بعدی را برای انجام انتخاب کند. این فرآیند تا زمانی که آموزش سطح بالا با موفقیت تکمیل شود تکرار می شود.

عملکرد بر روی دستورالعمل های موقت، پیچیده و انتزاعی
برای آزمایش رویکرد خود، از روبات‌های Everyday Robots جفت‌شده با PalM استفاده می‌کنیم. ما ربات ها را در یک محیط آشپزخانه حاوی اشیاء مشترک قرار می دهیم و آنها را بر اساس 101 دستورالعمل ارزیابی می کنیم تا عملکرد آنها را در حالت های مختلف ربات و محیط، پیچیدگی زبان دستورالعمل و افق زمانی آزمایش کنیم. به طور خاص، این دستورالعمل‌ها برای نشان دادن ابهام و پیچیدگی زبان به جای ارائه پرسش‌های ساده و ضروری طراحی شده‌اند، و پرسش‌هایی مانند «من تازه کار کردم، چگونه می‌خواهی برای من میان‌وعده و نوشیدنی بیاوری تا بازیابی کنم؟» به جای «می‌توانی برای من آب و سیب بیاوری؟»

ما از دو معیار برای ارزیابی عملکرد سیستم استفاده می کنیم: (1) نرخ موفقیت برنامه ریزی، نشان می دهد که آیا ربات مهارت های مناسبی را برای آموزش انتخاب کرده است یا خیر، و (2) میزان موفقیت اجرا، نشان می دهد که آیا دستورالعمل را با موفقیت انجام داده است یا خیر. ما دو مدل زبان، PALM و FLAN (یک مدل زبان کوچک‌تر که بر اساس پاسخ‌دهی به دستورالعمل تنظیم شده است) را با و بدون پایه مقرون به صرفه و همچنین خط‌مشی‌های اساسی که مستقیماً با زبان طبیعی اجرا می‌شوند، مقایسه می‌کنیم (کلون‌سازی رفتاری در جدول زیر). نتایج نشان می‌دهد که سیستم با استفاده از PALM با اتصال به زمین (PaLM-SayCan) در 84 درصد مواقع توالی صحیح مهارت‌ها را انتخاب و در 74 درصد مواقع با موفقیت اجرا می‌کند و خطاها را 50 درصد نسبت به FLAN و در مقایسه با PaLM بدون کاهش می‌دهد. زمین رباتیک این به ویژه هیجان انگیز است زیرا نشان دهنده اولین باری است که ما می توانیم ببینیم که چگونه بهبود در مدل های زبان به بهبود مشابهی در رباتیک تبدیل می شود. این نتیجه آینده بالقوه‌ای را نشان می‌دهد که در آن رباتیک قادر به سوار شدن بر موج پیشرفتی است که ما در مدل‌های زبان مشاهده کرده‌ایم و این زیرشاخه‌های تحقیقاتی را به هم نزدیک‌تر می‌کند.

الگوریتم طرح اجرا کردن
PalM-SayCan 84% 74%
نخل 67%
FLAN-SayCan 70% 61%
کیک میوه 38%
شبیه سازی رفتاری 0% 0%
PaLM-SayCan خطاها را در مقایسه با PaLM بدون هزینه و در مقایسه با FLAN بیش از 101 کار، نصف می کند.

SayCan برنامه ریزی موفقیت آمیزی را برای 84% از 101 دستورالعمل تست در صورت ترکیب با PalM نشان داد.

اگر علاقه مند به کسب اطلاعات بیشتر در مورد این پروژه از خود محققین هستید، لطفاً ویدیوی زیر را مشاهده کنید:

نتیجه گیری و کار آینده
ما از پیشرفتی که با PalM-SayCan دیده‌ایم هیجان‌زده هستیم، رویکردی قابل تفسیر و کلی برای بهره‌گیری از دانش از مدل‌های زبانی که به ربات امکان می‌دهد دستورالعمل‌های متنی سطح بالا را برای انجام کارهای مبتنی بر فیزیکی دنبال کند. آزمایش‌های ما بر روی تعدادی از وظایف رباتیک در دنیای واقعی، توانایی برنامه‌ریزی و تکمیل دستورالعمل‌های افق بلند، انتزاعی و زبان طبیعی را با نرخ موفقیت بالا نشان می‌دهد. ما معتقدیم که قابلیت تفسیر PalM-SayCan امکان تعامل امن کاربر در دنیای واقعی با روبات‌ها را فراهم می‌کند. همانطور که مسیرهای آینده این کار را بررسی می کنیم، امیدواریم درک بهتری داشته باشیم که چگونه اطلاعات به دست آمده از طریق تجربه دنیای واقعی ربات می تواند برای بهبود مدل زبان مورد استفاده قرار گیرد و تا چه حد زبان طبیعی هستی شناسی مناسب برای روبات های برنامه نویس است. ما یک راه‌اندازی شبیه‌سازی ربات منبع باز داریم که امیدواریم منبع ارزشمندی برای تحقیقات آینده در اختیار محققان قرار دهد که یادگیری رباتیک را با مدل‌های زبان پیشرفته ترکیب می‌کند. جامعه تحقیقاتی می توانند برای کسب اطلاعات بیشتر به صفحه و وب سایت GitHub پروژه مراجعه کنند.

سپاسگزاریها
مایلیم از نویسندگان همکار مایکل آن، آنتونی بروهان، نوح براون، یوگن چبوتار، عمر کورتس، بایرون دیوید، چلسی فین، کلی فو، کرتانا گوپالاکریشنان، الکس هرتزوگ، دانیل هو، یاسمین هسو، جولیان ایبارز، الکس ایرپان، اریک جانگ تشکر کنیم. ، روزاریو ژورگی روانو، کایل جفری، سالی جسمونث، نیکیل جی جوشی، رایان جولیان، دیمیتری کلاشنیکف، یونگ کوانگ، کوانگ-هوی لی، سرگی لوین، یائو لو، لیندا لو، کارولینا رژه، پیتر پاستور، جورنل رامبائو، بیتتن Jarek Rettinghouse، Diego Reyes، Pierre Sermanet، Nicholas Sievers، Clayton Tan، Alexander Toshev، Vincent Vanhoucke، Fei Xia، Ted Xiao، Peng Xu، Sichun Xu، Mengyuan Yan و Andy Zeng. همچنین مایلیم از یونفی بای، مت بنیس، مارتن بوسما، جاستین بوید، بیل برن، کندرا برن، نوح کنستانت، پیت فلورانس، لورا گرسر، ریکو یونشکوفسکی، دانیل کاپلر، هوگو لاروچل، بنجامین لی، آدریان لی، میسم تشکر کنیم. Moussalem، Suraj Nair، Krista Reymann، Jeff Seto، Dhruv Shah، Ian Storz، Razvan Surdulescu و Vincent Zhao برای کمک و حمایت آنها در جنبه های مختلف پروژه. و ما می خواهیم از تام اسمال برای ساخت بسیاری از انیمیشن های این پست تشکر کنیم.