سالهای اخیر شاهد پیشرفتهای فوقالعادهای در حوزههای یادگیری ماشین بودهایم، از مدلهایی که میتوانند جوکها را توضیح دهند یا به سؤالات بصری به زبانهای مختلف پاسخ دهند تا مدلهایی که میتوانند تصاویر را بر اساس توضیحات متن تولید کنند. چنین نوآوریهایی به دلیل افزایش در دسترس بودن مجموعه دادههای مقیاس بزرگ همراه با پیشرفتهای جدیدی که امکان آموزش مدلها بر روی این دادهها را فراهم میکند، امکانپذیر بوده است. در حالی که مقیاسبندی مدلهای رباتیک تا حدی موفقیتآمیز بوده است، به دلیل کمبود مجموعه دادههای موجود در مقیاس قابل مقایسه با مجموعههای داده بزرگ متن یا تصاویر، از سایر حوزهها پیشی گرفته است.
امروز ما PaLM-E را معرفی می کنیم، یک مدل رباتیک عمومی جدید که با انتقال دانش از حوزه های بصری و زبانی مختلف به یک سیستم روباتیک، بر این مسائل غلبه می کند. ما با PALM، یک مدل قدرتمند زبان بزرگ، شروع کردیم و آن را “تجسم” کردیم (“Eدر PalM-E)، با تکمیل آن با داده های حسگر از عامل رباتیک. این تفاوت اصلی با تلاشهای قبلی برای آوردن مدلهای زبان بزرگ به رباتیک است – به جای تکیه بر ورودی متنی، با PalM-E ما مدل زبان را طوری آموزش میدهیم که مستقیماً جریانهای خام دادههای حسگر ربات را دریافت کند. مدل به دست آمده نه تنها یادگیری ربات بسیار موثر را امکان پذیر می کند، بلکه یک مدل زبان بصری همه منظوره نیز هست، در حالی که قابلیت های کاری عالی فقط برای زبان حفظ می شود.
یک تجسم مدل زبان، و همچنین یک عام زبان بصری
از یک طرف، PaLM-E در درجه اول به عنوان مدلی برای روباتیک توسعه داده شد و وظایف مختلفی را حل می کند. بر چندگانه انواع ربات ها و برای چندگانه مدالیته ها (تصاویر، حالت های ربات، و نمایش صحنه های عصبی). در عین حال، PalM-E یک مدل بینایی و زبانی است که به طور کلی توانمند است. میتواند کارهای بصری، مانند توصیف تصاویر، تشخیص اشیا، یا طبقهبندی صحنهها را انجام دهد و همچنین در کارهای زبانی مانند نقل قول شعر، حل معادلات ریاضی یا تولید کد مهارت دارد.
PaLM-E جدیدترین مدل زبان بزرگ ما، PaLM، را با یکی از پیشرفتهترین مدلهای بینایی ما، ViT-22B ترکیب میکند. بزرگترین نمونه از این رویکرد، ساخته شده بر روی PaLM-540B، PaLM-E-562B نامیده می شود و وضعیت جدیدی از هنر را در معیار زبان بصری OK-VQA، بدون تنظیم دقیق کار خاص، و در عین حال که اساسا حفظ می کند، ایجاد می کند. همان عملکرد زبان عمومی PalM-540B.
PalM-E چگونه کار می کند؟
از نظر فنی، PalM-E با تزریق مشاهدات به یک مدل زبانی از پیش آموزشدیده کار میکند. این امر با تبدیل دادههای حسگر، به عنوان مثال، تصاویر، به نمایشی از طریق روشی قابل مقایسه با نحوه پردازش کلمات زبان طبیعی توسط یک مدل زبان محقق میشود.
مدلهای زبان بر مکانیزمی برای نمایش ریاضی متن تکیه میکنند به نحوی که شبکههای عصبی بتوانند پردازش کنند. این امر با تقسیم متن به اصطلاح به نشانه هایی حاصل می شود که کلمات (زیر) را رمزگذاری می کنند، که هر کدام با بردار اعدادی با ابعاد بالا، یعنی جاسازی نشانه، مرتبط است. سپس مدل زبان میتواند عملیات ریاضی (مثلاً ضرب ماتریس) را بر روی دنباله بردارها اعمال کند تا رمز کلمه بعدی را پیشبینی کند. با برگرداندن کلمه پیشبینیشده جدید به ورودی، مدل زبان میتواند متنی طولانیتر و طولانیتر تولید کند.
را ورودی ها به PaLM-E متن و سایر روشها – تصاویر، حالتهای ربات، جاسازیهای صحنه، و غیره – به ترتیب دلخواه هستند که آنها را “جملات چندوجهی” مینامیم. برای مثال، یک ورودی ممکن است به این صورت باشد، “چه اتفاقی بین
![]() |
معماری مدل PaLM-E، نشان میدهد که چگونه PalM-E روشهای مختلف (حالتها و/یا تصاویر) را جذب میکند و از طریق مدلسازی زبان چندوجهی به وظایف میپردازد. |
ایده PaLM-E آموزش رمزگذارهایی است که ورودیهای مختلف را به فضایی مشابه با جاسازیهای رمز طبیعی کلمه تبدیل میکنند. این ورودیهای پیوسته به چیزی شبیه به «کلمات» نگاشت میشوند (اگرچه لزوماً مجموعههای مجزا را تشکیل نمیدهند). از آنجایی که هم اکنون تعبیههای کلمه و تصویر دارای ابعاد یکسانی هستند، میتوان آنها را به مدل زبان وارد کرد.
ما PaLM-E را برای آموزش با مدل های از پیش آموزش دیده برای هر دو زبان (PaLM) و اجزای بینایی (Vision Transformer، با نام ViT) مقداردهی اولیه می کنیم. تمام پارامترهای مدل را می توان در طول آموزش به روز کرد.
انتقال دانش از آموزش در مقیاس بزرگ به روبات ها
PaLM-E یک پارادایم جدید برای آموزش یک مدل کلی ارائه می دهد که با کادربندی وظایف ربات و وظایف زبان بینایی با هم از طریق یک نمایش مشترک به دست می آید: گرفتن تصاویر و متن به عنوان ورودی و خروجی متن. یک نتیجه کلیدی این است که PALM-E قابل توجه است مثبت انتقال دانش از هر دو حوزه بینایی و زبان، کارایی یادگیری ربات را بهبود می بخشد.
![]() |
مثبت انتقال دانش از وظایف زبان بینایی عمومی منجر به یادگیری موثر ربات می شود که برای سه تجسم و حوزه مختلف ربات نشان داده شده است. |
نتایج نشان میدهد که PALM-E میتواند مجموعه بزرگی از وظایف روباتیک، بینایی و زبان را به طور همزمان بدون کاهش عملکرد در مقایسه با آموزش مدلهای فردی در وظایف فردی انجام دهد. علاوه بر این، داده های زبان بصری در واقع به طور قابل توجهی بهبود می یابد انجام وظایف ربات این انتقال، Palm-E را قادر میسازد تا وظایف روباتیک را از نظر تعداد مثالهایی که برای حل یک کار نیاز دارد، به طور موثر یاد بگیرد.
نتایج
ما PalM-E را در سه محیط رباتیک ارزیابی میکنیم، که دو مورد از آنها شامل رباتهای واقعی، و همچنین وظایف کلی زبان بینایی مانند پاسخگویی به سؤالات بصری (VQA)، شرح تصاویر، و وظایف زبان عمومی است. هنگامی که PaLM-E وظیفه تصمیم گیری در مورد یک روبات را دارد، آن را با یک خط مشی زبان به عمل سطح پایین جفت می کنیم تا متن را به اقدامات ربات سطح پایین ترجمه کنیم.
در اولین مثال زیر، شخصی از یک ربات متحرک می خواهد که یک کیسه چیپس برای آنها بیاورد. برای انجام موفقیت آمیز کار، PaLM-E طرحی برای یافتن کشو و باز کردن آن تولید می کند و سپس با به روز رسانی طرح خود در حین اجرای کار، به تغییرات جهان پاسخ می دهد. در مثال دوم، از ربات خواسته می شود که یک بلوک سبز رنگ را بگیرد. حتی اگر این بلوک توسط آن ربات دیده نشده باشد، PaLM-E همچنان یک طرح گام به گام ایجاد می کند که فراتر از داده های آموزشی آن ربات تعمیم می یابد.
![]() |
![]() |
PalM-E یک ربات متحرک را کنترل می کند که در محیط آشپزخانه کار می کند. ترک کرد: وظیفه این است که یک کیسه تراشه تهیه کنید. PalM-E در برابر اختلالات متخاصم مانند قرار دادن کیسه تراشه در کشو استحکام نشان می دهد. درست: مراحل پایانی اجرای طرحی برای بازیابی یک بلوک دیده نشده قبلی (ستاره سبز). این قابلیت با انتقال یادگیری از مدل های بینایی و زبان تسهیل می شود. |
در محیط دوم زیر، همان مدل PaLM-E وظایف بسیار طولانی و دقیق، مانند “مرتب کردن بلوک ها بر اساس رنگ ها در گوشه ها” را در نوع دیگری از ربات ها حل می کند. مستقیماً به تصاویر نگاه میکند و دنبالهای از اقدامات کوتاهتر ارائهشده به صورت متنی تولید میکند – به عنوان مثال، “مکعب آبی را به گوشه پایین سمت راست فشار دهید”، “مثلث آبی را نیز به آنجا فشار دهید.” – کارهای افق بلندی که حتی در جدیدترین مدلهای ما خارج از محدوده تکمیل مستقل بودند. ما همچنین توانایی تعمیم به کارهای جدیدی که در طول زمان تمرین دیده نمی شوند (تعمیم شات صفر)، مانند فشار دادن بلوک های قرمز به فنجان قهوه را نشان می دهیم.
![]() |
![]() |
PaLM-E یک ربات رومیزی را برای انجام موفقیت آمیز وظایف افق طولانی کنترل می کند. |
محیط سوم ربات از حوزه برنامه ریزی کار و حرکت (TAMP) الهام گرفته شده است، که به مطالعه وظایف برنامه ریزی چالش برانگیز ترکیبی (بازآرایی اشیاء) می پردازد که ربات را با تعداد بسیار زیادی از توالی های عمل ممکن روبرو می کند. ما نشان میدهیم که با مقدار متوسطی از دادههای آموزشی از یک برنامهریز متخصص TAMP، PALM-E نه تنها قادر به حل این وظایف است، بلکه از انتقال دانش بصری و زبانی نیز برای انجام مؤثرتر این کار استفاده میکند.
![]() |
![]() |
PALM-E برنامه هایی را برای یک محیط برنامه ریزی کار و حرکت تولید می کند. |
به عنوان یک متخصص زبان بصری، PaLM-E یک مدل رقابتی است، حتی در مقایسه با بهترین مدلهای فقط زبان بینایی، از جمله Flamingo و PaLI. به طور خاص، PaLM-E-562B به بالاترین تعداد گزارش شده در مجموعه داده چالش برانگیز OK-VQA دست می یابد، که نه تنها به درک بصری بلکه به دانش خارجی جهان نیز نیاز دارد. علاوه بر این، این نتیجه با یک مدل کلی، بدون تنظیم دقیق فقط در مورد آن کار، به دست میآید.
![]() |
PaLM-E قابلیتهایی مانند استدلال زنجیره بصری فکری را نشان میدهد که در آن مدل فرآیند پاسخدهی خود را در مراحل کوچکتر تجزیه میکند، تواناییای که تاکنون فقط در حوزه زبانی نشان داده شده است. این مدل همچنین توانایی انجام استنتاج بر روی تصاویر متعدد را نشان میدهد، هرچند که تنها بر روی اعلانهای تک تصویری آموزش داده شده است. تصویر نیویورک نیکس و بوستون سلتیکس تحت عنوان CC-by-2.0 است و توسط kowarski به فلیکر ارسال شده است. تصویر کوبی برایانت در دامنه عمومی است. بقیه تصاویر توسط ما گرفته شده است. |
نتیجه
PaLM-E مرزهای نحوه آموزش مدلهای با قابلیت کلی را برای رسیدگی به بینایی، زبان و روباتیک به طور همزمان فشار میدهد و در عین حال قادر به انتقال دانش از بینایی و زبان به حوزه رباتیک است. موضوعات دیگری با جزئیات بیشتر در این مقاله مورد بررسی قرار گرفته است، مانند چگونگی استفاده از بازنمایی صحنه عصبی با PalM-E و همچنین میزانی که PalM-E، با مقیاس مدل بیشتر، فراموشی فاجعه بار کمتری از قابلیت های زبانی خود را تجربه می کند.
PaLM-E نه تنها مسیری را برای ساخت رباتهای توانمندتر فراهم میکند که از سایر منابع داده بهره میبرند، بلکه ممکن است یک عامل کلیدی برای سایر برنامههای کاربردی گستردهتر با استفاده از یادگیری چندوجهی، از جمله توانایی یکپارچهسازی وظایفی که تاکنون مجزا به نظر میرسیدند، باشد.
سپاسگزاریها
این کار با همکاری چندین تیم در Google، از جمله تیم Robotics در Google و تیم Brain، و با TU Berlin انجام شد. نویسندگان مشترک: ایگور مرداچ، اندی زنگ، آکانکشا چاوددری، کلاوس گرف، مهدی اس ام سجادی، دانیل داکورت، کوری لینچ، آیزاان وحید، جاناتان تامپسون، فی شیا، برایان ایچتر، کارول هاسمن، تیانه یو، کوان ووونگ، یوگن ونلونگ هوانگ، پیر سرمانت، سرگی لوین، وینسنت ونهوک و مارک توسیانت. دنی یک دانشجوی دکترا است که توسط مارک توسن در TU برلین مشاوره می شود. ما همچنین میخواهیم از چندین همکار دیگر برای راهنمایی و کمکشان تشکر کنیم، از جمله شی چن، اتین پات، سباستین گودمن، ماریا عطاریان، تد شیائو، کیرتانا گوپالاکریشنان، کهنگ هان، هنریک میچالوسکی، نیل هولزبی، باسیل مصطفی، جاستین گیلمر، یونگهویی. وو، اریکا موریرا، ویکتور گومز، تام دوریگ، ماریو لوسیچ، هنینگ مایر و کندرا برن.