یک مدل زبان چندوجهی تجسم یافته – وبلاگ هوش مصنوعی گوگل

سال‌های اخیر شاهد پیشرفت‌های فوق‌العاده‌ای در حوزه‌های یادگیری ماشین بوده‌ایم، از مدل‌هایی که می‌توانند جوک‌ها را توضیح دهند یا به سؤالات بصری به زبان‌های مختلف پاسخ دهند تا مدل‌هایی که می‌توانند تصاویر را بر اساس توضیحات متن تولید کنند. چنین نوآوری‌هایی به دلیل افزایش در دسترس بودن مجموعه داده‌های مقیاس بزرگ همراه با پیشرفت‌های جدیدی که امکان آموزش مدل‌ها بر روی این داده‌ها را فراهم می‌کند، امکان‌پذیر بوده است. در حالی که مقیاس‌بندی مدل‌های رباتیک تا حدی موفقیت‌آمیز بوده است، به دلیل کمبود مجموعه داده‌های موجود در مقیاس قابل مقایسه با مجموعه‌های داده بزرگ متن یا تصاویر، از سایر حوزه‌ها پیشی گرفته است.

امروز ما PaLM-E را معرفی می کنیم، یک مدل رباتیک عمومی جدید که با انتقال دانش از حوزه های بصری و زبانی مختلف به یک سیستم روباتیک، بر این مسائل غلبه می کند. ما با PALM، یک مدل قدرتمند زبان بزرگ، شروع کردیم و آن را “تجسم” کردیم (“Eدر PalM-E)، با تکمیل آن با داده های حسگر از عامل رباتیک. این تفاوت اصلی با تلاش‌های قبلی برای آوردن مدل‌های زبان بزرگ به رباتیک است – به جای تکیه بر ورودی متنی، با PalM-E ما مدل زبان را طوری آموزش می‌دهیم که مستقیماً جریان‌های خام داده‌های حسگر ربات را دریافت کند. مدل به دست آمده نه تنها یادگیری ربات بسیار موثر را امکان پذیر می کند، بلکه یک مدل زبان بصری همه منظوره نیز هست، در حالی که قابلیت های کاری عالی فقط برای زبان حفظ می شود.

یک تجسم مدل زبان، و همچنین یک عام زبان بصری

از یک طرف، PaLM-E در درجه اول به عنوان مدلی برای روباتیک توسعه داده شد و وظایف مختلفی را حل می کند. بر چندگانه انواع ربات ها و برای چندگانه مدالیته ها (تصاویر، حالت های ربات، و نمایش صحنه های عصبی). در عین حال، PalM-E یک مدل بینایی و زبانی است که به طور کلی توانمند است. می‌تواند کارهای بصری، مانند توصیف تصاویر، تشخیص اشیا، یا طبقه‌بندی صحنه‌ها را انجام دهد و همچنین در کارهای زبانی مانند نقل قول شعر، حل معادلات ریاضی یا تولید کد مهارت دارد.

PaLM-E جدیدترین مدل زبان بزرگ ما، PaLM، را با یکی از پیشرفته‌ترین مدل‌های بینایی ما، ViT-22B ترکیب می‌کند. بزرگترین نمونه از این رویکرد، ساخته شده بر روی PaLM-540B، PaLM-E-562B نامیده می شود و وضعیت جدیدی از هنر را در معیار زبان بصری OK-VQA، بدون تنظیم دقیق کار خاص، و در عین حال که اساسا حفظ می کند، ایجاد می کند. همان عملکرد زبان عمومی PalM-540B.

PalM-E چگونه کار می کند؟

از نظر فنی، PalM-E با تزریق مشاهدات به یک مدل زبانی از پیش آموزش‌دیده کار می‌کند. این امر با تبدیل داده‌های حسگر، به عنوان مثال، تصاویر، به نمایشی از طریق روشی قابل مقایسه با نحوه پردازش کلمات زبان طبیعی توسط یک مدل زبان محقق می‌شود.

مدل‌های زبان بر مکانیزمی برای نمایش ریاضی متن تکیه می‌کنند به نحوی که شبکه‌های عصبی بتوانند پردازش کنند. این امر با تقسیم متن به اصطلاح به نشانه هایی حاصل می شود که کلمات (زیر) را رمزگذاری می کنند، که هر کدام با بردار اعدادی با ابعاد بالا، یعنی جاسازی نشانه، مرتبط است. سپس مدل زبان می‌تواند عملیات ریاضی (مثلاً ضرب ماتریس) را بر روی دنباله بردارها اعمال کند تا رمز کلمه بعدی را پیش‌بینی کند. با برگرداندن کلمه پیش‌بینی‌شده جدید به ورودی، مدل زبان می‌تواند متنی طولانی‌تر و طولانی‌تر تولید کند.

را ورودی ها به PaLM-E متن و سایر روش‌ها – تصاویر، حالت‌های ربات، جاسازی‌های صحنه، و غیره – به ترتیب دلخواه هستند که آنها را “جملات چندوجهی” می‌نامیم. برای مثال، یک ورودی ممکن است به این صورت باشد، “چه اتفاقی بین و افتاد؟”، که در آن و دو تصویر هستند. را خروجی متنی است که به صورت خودکار توسط PALM-E تولید می شود، که می تواند پاسخی به یک سوال یا دنباله ای از تصمیمات در قالب متن باشد.

معماری مدل PaLM-E، نشان می‌دهد که چگونه PalM-E روش‌های مختلف (حالت‌ها و/یا تصاویر) را جذب می‌کند و از طریق مدل‌سازی زبان چندوجهی به وظایف می‌پردازد.

ایده PaLM-E آموزش رمزگذارهایی است که ورودی‌های مختلف را به فضایی مشابه با جاسازی‌های رمز طبیعی کلمه تبدیل می‌کنند. این ورودی‌های پیوسته به چیزی شبیه به «کلمات» نگاشت می‌شوند (اگرچه لزوماً مجموعه‌های مجزا را تشکیل نمی‌دهند). از آنجایی که هم اکنون تعبیه‌های کلمه و تصویر دارای ابعاد یکسانی هستند، می‌توان آن‌ها را به مدل زبان وارد کرد.

ما PaLM-E را برای آموزش با مدل های از پیش آموزش دیده برای هر دو زبان (PaLM) و اجزای بینایی (Vision Transformer، با نام ViT) مقداردهی اولیه می کنیم. تمام پارامترهای مدل را می توان در طول آموزش به روز کرد.

انتقال دانش از آموزش در مقیاس بزرگ به روبات ها

PaLM-E یک پارادایم جدید برای آموزش یک مدل کلی ارائه می دهد که با کادربندی وظایف ربات و وظایف زبان بینایی با هم از طریق یک نمایش مشترک به دست می آید: گرفتن تصاویر و متن به عنوان ورودی و خروجی متن. یک نتیجه کلیدی این است که PALM-E قابل توجه است مثبت انتقال دانش از هر دو حوزه بینایی و زبان، کارایی یادگیری ربات را بهبود می بخشد.

مثبت انتقال دانش از وظایف زبان بینایی عمومی منجر به یادگیری موثر ربات می شود که برای سه تجسم و حوزه مختلف ربات نشان داده شده است.

نتایج نشان می‌دهد که PALM-E می‌تواند مجموعه بزرگی از وظایف روباتیک، بینایی و زبان را به طور همزمان بدون کاهش عملکرد در مقایسه با آموزش مدل‌های فردی در وظایف فردی انجام دهد. علاوه بر این، داده های زبان بصری در واقع به طور قابل توجهی بهبود می یابد انجام وظایف ربات این انتقال، Palm-E را قادر می‌سازد تا وظایف روباتیک را از نظر تعداد مثال‌هایی که برای حل یک کار نیاز دارد، به طور موثر یاد بگیرد.

نتایج

ما PalM-E را در سه محیط رباتیک ارزیابی می‌کنیم، که دو مورد از آنها شامل ربات‌های واقعی، و همچنین وظایف کلی زبان بینایی مانند پاسخ‌گویی به سؤالات بصری (VQA)، شرح تصاویر، و وظایف زبان عمومی است. هنگامی که PaLM-E وظیفه تصمیم گیری در مورد یک روبات را دارد، آن را با یک خط مشی زبان به عمل سطح پایین جفت می کنیم تا متن را به اقدامات ربات سطح پایین ترجمه کنیم.

در اولین مثال زیر، شخصی از یک ربات متحرک می خواهد که یک کیسه چیپس برای آنها بیاورد. برای انجام موفقیت آمیز کار، PaLM-E طرحی برای یافتن کشو و باز کردن آن تولید می کند و سپس با به روز رسانی طرح خود در حین اجرای کار، به تغییرات جهان پاسخ می دهد. در مثال دوم، از ربات خواسته می شود که یک بلوک سبز رنگ را بگیرد. حتی اگر این بلوک توسط آن ربات دیده نشده باشد، PaLM-E همچنان یک طرح گام به گام ایجاد می کند که فراتر از داده های آموزشی آن ربات تعمیم می یابد.

PalM-E یک ربات متحرک را کنترل می کند که در محیط آشپزخانه کار می کند. ترک کرد: وظیفه این است که یک کیسه تراشه تهیه کنید. PalM-E در برابر اختلالات متخاصم مانند قرار دادن کیسه تراشه در کشو استحکام نشان می دهد. درست: مراحل پایانی اجرای طرحی برای بازیابی یک بلوک دیده نشده قبلی (ستاره سبز). این قابلیت با انتقال یادگیری از مدل های بینایی و زبان تسهیل می شود.

در محیط دوم زیر، همان مدل PaLM-E وظایف بسیار طولانی و دقیق، مانند “مرتب کردن بلوک ها بر اساس رنگ ها در گوشه ها” را در نوع دیگری از ربات ها حل می کند. مستقیماً به تصاویر نگاه می‌کند و دنباله‌ای از اقدامات کوتاه‌تر ارائه‌شده به صورت متنی تولید می‌کند – به عنوان مثال، “مکعب آبی را به گوشه پایین سمت راست فشار دهید”، “مثلث آبی را نیز به آنجا فشار دهید.” – کارهای افق بلندی که حتی در جدیدترین مدل‌های ما خارج از محدوده تکمیل مستقل بودند. ما همچنین توانایی تعمیم به کارهای جدیدی که در طول زمان تمرین دیده نمی شوند (تعمیم شات صفر)، مانند فشار دادن بلوک های قرمز به فنجان قهوه را نشان می دهیم.

PaLM-E یک ربات رومیزی را برای انجام موفقیت آمیز وظایف افق طولانی کنترل می کند.

محیط سوم ربات از حوزه برنامه ریزی کار و حرکت (TAMP) الهام گرفته شده است، که به مطالعه وظایف برنامه ریزی چالش برانگیز ترکیبی (بازآرایی اشیاء) می پردازد که ربات را با تعداد بسیار زیادی از توالی های عمل ممکن روبرو می کند. ما نشان می‌دهیم که با مقدار متوسطی از داده‌های آموزشی از یک برنامه‌ریز متخصص TAMP، PALM-E نه تنها قادر به حل این وظایف است، بلکه از انتقال دانش بصری و زبانی نیز برای انجام مؤثرتر این کار استفاده می‌کند.

PALM-E برنامه هایی را برای یک محیط برنامه ریزی کار و حرکت تولید می کند.

به عنوان یک متخصص زبان بصری، PaLM-E یک مدل رقابتی است، حتی در مقایسه با بهترین مدل‌های فقط زبان بینایی، از جمله Flamingo و PaLI. به طور خاص، PaLM-E-562B به بالاترین تعداد گزارش شده در مجموعه داده چالش برانگیز OK-VQA دست می یابد، که نه تنها به درک بصری بلکه به دانش خارجی جهان نیز نیاز دارد. علاوه بر این، این نتیجه با یک مدل کلی، بدون تنظیم دقیق فقط در مورد آن کار، به دست می‌آید.

PaLM-E قابلیت‌هایی مانند استدلال زنجیره بصری فکری را نشان می‌دهد که در آن مدل فرآیند پاسخ‌دهی خود را در مراحل کوچک‌تر تجزیه می‌کند، توانایی‌ای که تاکنون فقط در حوزه زبانی نشان داده شده است. این مدل همچنین توانایی انجام استنتاج بر روی تصاویر متعدد را نشان می‌دهد، هرچند که تنها بر روی اعلان‌های تک تصویری آموزش داده شده است. تصویر نیویورک نیکس و بوستون سلتیکس تحت عنوان CC-by-2.0 است و توسط kowarski به فلیکر ارسال شده است. تصویر کوبی برایانت در دامنه عمومی است. بقیه تصاویر توسط ما گرفته شده است.

نتیجه

PaLM-E مرزهای نحوه آموزش مدل‌های با قابلیت کلی را برای رسیدگی به بینایی، زبان و روباتیک به طور همزمان فشار می‌دهد و در عین حال قادر به انتقال دانش از بینایی و زبان به حوزه رباتیک است. موضوعات دیگری با جزئیات بیشتر در این مقاله مورد بررسی قرار گرفته است، مانند چگونگی استفاده از بازنمایی صحنه عصبی با PalM-E و همچنین میزانی که PalM-E، با مقیاس مدل بیشتر، فراموشی فاجعه بار کمتری از قابلیت های زبانی خود را تجربه می کند.

PaLM-E نه تنها مسیری را برای ساخت ربات‌های توانمندتر فراهم می‌کند که از سایر منابع داده بهره می‌برند، بلکه ممکن است یک عامل کلیدی برای سایر برنامه‌های کاربردی گسترده‌تر با استفاده از یادگیری چندوجهی، از جمله توانایی یکپارچه‌سازی وظایفی که تاکنون مجزا به نظر می‌رسیدند، باشد.

سپاسگزاریها

این کار با همکاری چندین تیم در Google، از جمله تیم Robotics در Google و تیم Brain، و با TU Berlin انجام شد. نویسندگان مشترک: ایگور مرداچ، اندی زنگ، آکانکشا چاوددری، کلاوس گرف، مهدی اس ام سجادی، دانیل داکورت، کوری لینچ، آیزاان وحید، جاناتان تامپسون، فی شیا، برایان ایچتر، کارول هاسمن، تیانه یو، کوان ووونگ، یوگن ونلونگ هوانگ، پیر سرمانت، سرگی لوین، وینسنت ونهوک و مارک توسیانت. دنی یک دانشجوی دکترا است که توسط مارک توسن در TU برلین مشاوره می شود. ما همچنین می‌خواهیم از چندین همکار دیگر برای راهنمایی و کمک‌شان تشکر کنیم، از جمله شی چن، اتین پات، سباستین گودمن، ماریا عطاریان، تد شیائو، کیرتانا گوپالاکریشنان، کهنگ هان، هنریک میچالوسکی، نیل هولزبی، باسیل مصطفی، جاستین گیلمر، یونگ‌هویی. وو، اریکا موریرا، ویکتور گومز، تام دوریگ، ماریو لوسیچ، هنینگ مایر و کندرا برن.

سئو PBN | خبر های جدید سئو و هک و سرور