در چند سال گذشته، ما شاهد پیشرفت قابل توجهی در کاربرد یادگیری ماشینی در رباتیک بودهایم. با این حال، سیستمهای رباتیک امروزی تنها قادر به اجرای دستورات بسیار کوتاه و سختکد شدهاند، مانند «بردار یک سیب»، زیرا تمایل دارند با وظایف و پاداشهای واضح بهترین عملکرد را داشته باشند. آنها با یادگیری انجام کارهای افق طولانی و استدلال در مورد اهداف انتزاعی، مانند درخواست کاربر مانند “من تازه تمرین کردم، می توانید یک میان وعده سالم برای من تهیه کنید؟”
در همین حال، پیشرفتهای اخیر در آموزش مدلهای زبان (LMs) منجر به سیستمهایی شده است که میتوانند طیف وسیعی از وظایف درک زبان و تولید را با نتایج چشمگیر انجام دهند. با این حال، این مدلهای زبانی به دلیل ماهیت فرآیند آموزشیشان، ذاتاً در دنیای فیزیکی مستقر نیستند: یک مدل زبان به طور کلی با محیط خود در تعامل نیست و نتیجه پاسخهایش را مشاهده نمیکند. این می تواند منجر به ایجاد دستورالعمل هایی شود که ممکن است برای یک ربات در یک زمینه فیزیکی غیرمنطقی، غیرعملی یا ناامن باشد. به عنوان مثال، هنگامی که از شما خواسته می شود “نوشیدنی ام را ریختم، می توانید کمک کنید؟” مدل زبان GPT-3 با «میتوانید از جاروبرقی استفاده کنید» پاسخ میدهد، پیشنهادی که ممکن است برای ربات ناامن یا غیرممکن باشد. هنگامی که از مدل زبان FLAN سؤال مشابهی را می پرسد، با «متاسفم، قصد نداشتم آن را بریزم» عذرخواهی می کند، که پاسخ چندان مفیدی نیست. بنابراین، از خود پرسیدیم که آیا روش مؤثری وجود دارد. روشی برای ترکیب مدل های زبان پیشرفته با الگوریتم های یادگیری ربات برای استفاده از مزایای هر دو؟
در «آنطور که میتوانم انجام بده، نه آنطور که میگویم: پایهگذاری زبان در هزینههای رباتیک»، رویکرد جدیدی را ارائه میکنیم که با مشارکت روباتهای روزمره توسعه یافته است، که از دانش مدل زبانی پیشرفته استفاده میکند تا یک عامل فیزیکی، مانند ربات، را قادر سازد تا دستورالعملهای متنی سطح بالا را برای کارهای مبتنی بر فیزیکی دنبال کنید، در حالی که مدل زبان را در کارهایی که در یک زمینه خاص در دنیای واقعی امکانپذیر هستند، پایهگذاری کنید. ما روش خود را که آن را PaLM-SayCan می نامیم، با قرار دادن ربات ها در یک آشپزخانه واقعی و دادن وظایفی که به زبان طبیعی بیان شده اند، ارزیابی می کنیم. ما نتایج بسیار قابل تفسیری را برای کارهای پیچیده و انتزاعی طولانی مدت مشاهده می کنیم، مانند “من تازه تمرین کردم، لطفاً یک میان وعده و نوشیدنی برای بهبودی برای من بیاورید.” به طور خاص، ما نشان میدهیم که پایهگذاری مدل زبان در دنیای واقعی تقریباً خطاها را نسبت به خطوط پایه غیرزمینی به نصف کاهش میدهد. ما همچنین برای انتشار یک راه اندازی شبیه سازی ربات که در آن جامعه پژوهشی می تواند این رویکرد را آزمایش کند، هیجان زده هستیم.
با PaLM-SayCan، ربات به عنوان “دست و چشم” مدل زبان عمل می کند، در حالی که مدل زبان دانش معنایی سطح بالایی را در مورد کار ارائه می دهد. |
گفتگوی بین کاربر و ربات، که توسط مدل زبان تسهیل شده است
رویکرد ما از دانش موجود در مدلهای زبان (Say) برای تعیین و امتیاز دادن به اقداماتی استفاده میکند که برای دستورالعملهای سطح بالا مفید هستند. همچنین از یک تابع مقرون به صرفه (Can) استفاده میکند که زمینگذاری در دنیای واقعی را فعال میکند و تعیین میکند که کدام اقدامات در یک محیط معین امکانپذیر است. با استفاده از مدل زبان PalM، ما آن را PaLM-SayCan می نامیم.
رویکرد ما مهارتها را بر اساس امتیازهایی که مدل زبان برای آموزش سطح بالا میآورد و آنچه مدل مقرون به صرفه میدهد، انتخاب میکند. |
سیستم ما می تواند به عنوان یک گفتگو بین کاربر و ربات دیده شود که توسط مدل زبان تسهیل می شود. کاربر با دادن دستورالعملی شروع می کند که مدل زبان به دنباله ای از مراحل برای ربات تبدیل می شود تا اجرا شود. این دنباله با استفاده از مجموعه مهارت های ربات برای تعیین امکان پذیرترین طرح با توجه به وضعیت و محیط فعلی آن فیلتر می شود. این مدل احتمال پیشرفت موفقیت آمیز یک مهارت خاص به سمت تکمیل دستورالعمل را با ضرب دو احتمال تعیین می کند: (1) تکلیف زمینه سازی (یعنی شرح زبان مهارت) و (2) جهانی کردن (یعنی امکان سنجی مهارت در وضعیت فعلی).
مزایای دیگری از رویکرد ما از نظر ایمنی و تفسیرپذیری آن وجود دارد. اول، با اجازه دادن به LM برای امتیاز دادن به گزینه های مختلف به جای تولید محتمل ترین خروجی، ما به طور موثر LM را محدود می کنیم تا تنها یکی از پاسخ های از پیش انتخاب شده را خروجی دهد. علاوه بر این، کاربر میتواند بهراحتی فرآیند تصمیمگیری را با نگاه کردن به نمرههای زبان جداگانه و مقرون به صرفه، به جای یک خروجی، درک کند.
PaLM-SayCan همچنین قابل تفسیر است: در هر مرحله، ما میتوانیم گزینههای برتر را بر اساس امتیاز زبان (آبی)، امتیاز affordance (قرمز) و امتیاز ترکیبی (سبز) مشاهده کنیم. |
سیاست های آموزشی و کارکردهای ارزشی
هر مهارت در مجموعه مهارت عامل بهعنوان خطمشی با توضیحات زبانی کوتاه (مثلاً «قطو را بردارید»)، که بهعنوان جاسازیها نشان داده میشود، و یک تابع مقرون به صرفه که احتمال تکمیل مهارت را از وضعیت فعلی ربات نشان میدهد، تعریف میشود. برای یادگیری توابع affordance، از توابع پاداش پراکنده برای اجرای موفقیت آمیز روی 1.0 و در غیر این صورت 0.0 استفاده می کنیم.
ما از شبیهسازی رفتاری مبتنی بر تصویر (BC) برای آموزش خطمشیهای شرطی زبان و یادگیری تقویتی مبتنی بر تفاوت زمانی (RL) برای آموزش توابع ارزش استفاده میکنیم. برای آموزش خطمشیها، ما دادههای 68000 دمو را جمعآوری کردیم که توسط 10 روبات در طول 11 ماه انجام شد و 12000 قسمت موفق را اضافه کردیم که از مجموعهای از قسمتهای مستقل سیاستهای آموخته شده فیلتر شدهاند. سپس توابع ارزش شرطی زبان را با استفاده از MT-Opt در شبیه ساز Everyday Robots یاد گرفتیم. شبیه ساز ناوگان ربات واقعی ما را با نسخه شبیه سازی شده مهارت ها و محیط تکمیل می کند که با استفاده از RetinaGAN تغییر شکل می دهد تا شکاف شبیه سازی به واقعی کاهش یابد. ما عملکرد سیاستهای شبیهسازی را با استفاده از نمایشها برای ارائه موفقیتهای اولیه راهاندازی کردیم و سپس به طور مداوم عملکرد RL را با جمعآوری دادههای آنلاین در شبیهسازی بهبود دادیم.
با توجه به یک دستورالعمل سطح بالا، رویکرد ما احتمالات مدل زبان را با احتمالات تابع مقدار (VF) ترکیب میکند تا مهارت بعدی را برای انجام انتخاب کند. این فرآیند تا زمانی که آموزش سطح بالا با موفقیت تکمیل شود تکرار می شود. |
عملکرد بر روی دستورالعمل های موقت، پیچیده و انتزاعی
برای آزمایش رویکرد خود، از روباتهای Everyday Robots جفتشده با PalM استفاده میکنیم. ما ربات ها را در یک محیط آشپزخانه حاوی اشیاء مشترک قرار می دهیم و آنها را بر اساس 101 دستورالعمل ارزیابی می کنیم تا عملکرد آنها را در حالت های مختلف ربات و محیط، پیچیدگی زبان دستورالعمل و افق زمانی آزمایش کنیم. به طور خاص، این دستورالعملها برای نشان دادن ابهام و پیچیدگی زبان به جای ارائه پرسشهای ساده و ضروری طراحی شدهاند، و پرسشهایی مانند «من تازه کار کردم، چگونه میخواهی برای من میانوعده و نوشیدنی بیاوری تا بازیابی کنم؟» به جای «میتوانی برای من آب و سیب بیاوری؟»
ما از دو معیار برای ارزیابی عملکرد سیستم استفاده می کنیم: (1) نرخ موفقیت برنامه ریزی، نشان می دهد که آیا ربات مهارت های مناسبی را برای آموزش انتخاب کرده است یا خیر، و (2) میزان موفقیت اجرا، نشان می دهد که آیا دستورالعمل را با موفقیت انجام داده است یا خیر. ما دو مدل زبان، PALM و FLAN (یک مدل زبان کوچکتر که بر اساس پاسخدهی به دستورالعمل تنظیم شده است) را با و بدون پایه مقرون به صرفه و همچنین خطمشیهای اساسی که مستقیماً با زبان طبیعی اجرا میشوند، مقایسه میکنیم (کلونسازی رفتاری در جدول زیر). نتایج نشان میدهد که سیستم با استفاده از PALM با اتصال به زمین (PaLM-SayCan) در 84 درصد مواقع توالی صحیح مهارتها را انتخاب و در 74 درصد مواقع با موفقیت اجرا میکند و خطاها را 50 درصد نسبت به FLAN و در مقایسه با PaLM بدون کاهش میدهد. زمین رباتیک این به ویژه هیجان انگیز است زیرا نشان دهنده اولین باری است که ما می توانیم ببینیم که چگونه بهبود در مدل های زبان به بهبود مشابهی در رباتیک تبدیل می شود. این نتیجه آینده بالقوهای را نشان میدهد که در آن رباتیک قادر به سوار شدن بر موج پیشرفتی است که ما در مدلهای زبان مشاهده کردهایم و این زیرشاخههای تحقیقاتی را به هم نزدیکتر میکند.
الگوریتم | طرح | اجرا کردن | ||
PalM-SayCan | 84% | 74% | ||
نخل | 67% | – | ||
FLAN-SayCan | 70% | 61% | ||
کیک میوه | 38% | – | ||
شبیه سازی رفتاری | 0% | 0% |
PaLM-SayCan خطاها را در مقایسه با PaLM بدون هزینه و در مقایسه با FLAN بیش از 101 کار، نصف می کند. |
SayCan برنامه ریزی موفقیت آمیزی را برای 84% از 101 دستورالعمل تست در صورت ترکیب با PalM نشان داد. |
اگر علاقه مند به کسب اطلاعات بیشتر در مورد این پروژه از خود محققین هستید، لطفاً ویدیوی زیر را مشاهده کنید:
نتیجه گیری و کار آینده
ما از پیشرفتی که با PalM-SayCan دیدهایم هیجانزده هستیم، رویکردی قابل تفسیر و کلی برای بهرهگیری از دانش از مدلهای زبانی که به ربات امکان میدهد دستورالعملهای متنی سطح بالا را برای انجام کارهای مبتنی بر فیزیکی دنبال کند. آزمایشهای ما بر روی تعدادی از وظایف رباتیک در دنیای واقعی، توانایی برنامهریزی و تکمیل دستورالعملهای افق بلند، انتزاعی و زبان طبیعی را با نرخ موفقیت بالا نشان میدهد. ما معتقدیم که قابلیت تفسیر PalM-SayCan امکان تعامل امن کاربر در دنیای واقعی با روباتها را فراهم میکند. همانطور که مسیرهای آینده این کار را بررسی می کنیم، امیدواریم درک بهتری داشته باشیم که چگونه اطلاعات به دست آمده از طریق تجربه دنیای واقعی ربات می تواند برای بهبود مدل زبان مورد استفاده قرار گیرد و تا چه حد زبان طبیعی هستی شناسی مناسب برای روبات های برنامه نویس است. ما یک راهاندازی شبیهسازی ربات منبع باز داریم که امیدواریم منبع ارزشمندی برای تحقیقات آینده در اختیار محققان قرار دهد که یادگیری رباتیک را با مدلهای زبان پیشرفته ترکیب میکند. جامعه تحقیقاتی می توانند برای کسب اطلاعات بیشتر به صفحه و وب سایت GitHub پروژه مراجعه کنند.
سپاسگزاریها
مایلیم از نویسندگان همکار مایکل آن، آنتونی بروهان، نوح براون، یوگن چبوتار، عمر کورتس، بایرون دیوید، چلسی فین، کلی فو، کرتانا گوپالاکریشنان، الکس هرتزوگ، دانیل هو، یاسمین هسو، جولیان ایبارز، الکس ایرپان، اریک جانگ تشکر کنیم. ، روزاریو ژورگی روانو، کایل جفری، سالی جسمونث، نیکیل جی جوشی، رایان جولیان، دیمیتری کلاشنیکف، یونگ کوانگ، کوانگ-هوی لی، سرگی لوین، یائو لو، لیندا لو، کارولینا رژه، پیتر پاستور، جورنل رامبائو، بیتتن Jarek Rettinghouse، Diego Reyes، Pierre Sermanet، Nicholas Sievers، Clayton Tan، Alexander Toshev، Vincent Vanhoucke، Fei Xia، Ted Xiao، Peng Xu، Sichun Xu، Mengyuan Yan و Andy Zeng. همچنین مایلیم از یونفی بای، مت بنیس، مارتن بوسما، جاستین بوید، بیل برن، کندرا برن، نوح کنستانت، پیت فلورانس، لورا گرسر، ریکو یونشکوفسکی، دانیل کاپلر، هوگو لاروچل، بنجامین لی، آدریان لی، میسم تشکر کنیم. Moussalem، Suraj Nair، Krista Reymann، Jeff Seto، Dhruv Shah، Ian Storz، Razvan Surdulescu و Vincent Zhao برای کمک و حمایت آنها در جنبه های مختلف پروژه. و ما می خواهیم از تام اسمال برای ساخت بسیاری از انیمیشن های این پست تشکر کنیم.