نقشه های زبان بصری برای ناوبری ربات – وبلاگ هوش مصنوعی گوگل

مردم ناوبران عالی دنیای فیزیکی هستند، تا حدی به دلیل توانایی قابل توجه آنها در ساختن نقشه های شناختی که اساس حافظه فضایی را تشکیل می دهد – از بومی سازی نقاط عطف در سطوح مختلف هستی شناختی (مانند کتابی در قفسه ای در اتاق نشیمن) تا تعیین اینکه آیا یک چیدمان اجازه ناوبری را از نقطه A به نقطه B می دهد. ساخت ربات هایی که در ناوبری ماهر هستند نیاز به درک به هم پیوسته (الف) بینایی و زبان طبیعی (برای مرتبط کردن نشانه ها یا پیروی از دستورالعمل ها) و (ب) استدلال فضایی (برای اتصال یک نقشه) دارد. نشان دهنده محیطی برای توزیع فضایی واقعی اشیا). در حالی که اخیراً پیشرفت‌های زیادی در آموزش مدل‌های مشترک بصری-زبان بر روی داده‌های مقیاس اینترنت صورت گرفته است، یافتن چگونگی اتصال بهترین آنها به یک نمایش فضایی از دنیای فیزیکی که می‌تواند توسط روبات‌ها مورد استفاده قرار گیرد، یک سوال تحقیقاتی باز است.

برای بررسی این موضوع، ما با محققان دانشگاه فرایبورگ و نورنبرگ همکاری کردیم تا نقشه‌های زبان بصری (VLMaps) را توسعه دهیم، یک نمایش نقشه که مستقیماً جاسازی‌های زبان بصری از پیش آموزش‌دیده‌شده را در بازسازی سه‌بعدی محیط ترکیب می‌کند. VLMaps، که قرار است در ICRA 2023 ظاهر شود، یک رویکرد ساده است که به روبات‌ها اجازه می‌دهد (1) نشانه‌های بصری را در نقشه با استفاده از توصیف‌های زبان طبیعی فهرست‌بندی کنند، (2) از کد به‌عنوان خط‌مشی برای پیمایش به آن استفاده کنند. اهداف فضایی، مانند “بین مبل و تلویزیون بروید” یا “سه متر به سمت راست صندلی حرکت کنید” و (3) ایجاد کنید نقشه موانع با واژگان باز – اجازه دادن به چندین ربات با مورفولوژی های مختلف (مثلاً دستکاری کننده های موبایل در مقابل هواپیماهای بدون سرنشین) برای استفاده از نقشه VLMap برای برنامه ریزی مسیر. VLMaps را می توان در خارج از جعبه بدون داده های برچسب دار اضافی یا تنظیم دقیق مدل مورد استفاده قرار داد، و بیش از 17 درصد از سایر روش های صفر شات در وظایف چالش برانگیز ناوبری شی-هدف و فضایی در Habitat و Matterport3D عملکرد بهتری دارد. ما همچنین کد مورد استفاده برای آزمایشات خود را همراه با یک نسخه نمایشی شبیه سازی شده ربات تعاملی منتشر می کنیم.


VLMaps را می توان با ادغام تعبیه های زبان بصری از پیش آموزش دیده در بازسازی 3 بعدی محیط ساخت. در زمان اجرا، یک ربات می‌تواند از VLMap پرس و جو کند تا نشانه‌های بصری را با توضیحات زبان طبیعی پیدا کند، یا نقشه‌های موانع با واژگان باز را برای برنامه‌ریزی مسیر بسازد.

نقشه های سه بعدی کلاسیک با پیچ و تاب مدرن چند وجهی

VLMaps ساختار هندسی بازسازی‌های سه بعدی کلاسیک را با بیان مدل‌های زبان بصری مدرن که از قبل بر روی داده‌های مقیاس اینترنت آموزش داده شده‌اند، ترکیب می‌کند. همانطور که ربات به اطراف حرکت می کند، VLMaps از یک مدل زبان بصری از قبل آموزش دیده برای محاسبه جاسازی های متراکم در هر پیکسل از نماهای دوربین RGB استفاده می کند و آنها را در یک تانسور سه بعدی به اندازه نقشه بزرگ تراز شده با بازسازی سه بعدی موجود از دنیای فیزیکی ادغام می کند. . این نمایش به سیستم اجازه می‌دهد تا نقاط عطف را با توجه به توصیف‌های زبان طبیعی آنها (مانند “کتابی در قفسه در اتاق نشیمن”) با مقایسه جاسازی‌های متن آنها با همه مکان‌های تانسور و یافتن نزدیک‌ترین تطابق، بومی‌سازی کند. پرس‌وجو از این مکان‌های هدف می‌تواند مستقیماً به‌عنوان مختصات هدف برای ناوبری مشروط به زبان استفاده شود، زیرا تابع API ابتدایی کد به‌عنوان سیاست‌ها را برای پردازش اهداف فضایی فراخوانی می‌کند (مثلاً مدل‌های کدنویسی «در بین» را به‌عنوان حساب بین دو مکان تفسیر می‌کنند. برای ترتیب دادن چندین هدف ناوبری برای دستورالعمل های افق بلند.

# move first to the left side of the counter, then move between the sink and the oven, then move back and forth to the sofa and the table twice.
robot.move_to_left('counter')
robot.move_in_between('sink', 'oven')
pos1 = robot.get_pos('sofa')
pos2 = robot.get_pos('table')
for i in range(2):
   robot.move_to(pos1)
   robot.move_to(pos2)
# move 2 meters north of the laptop, then move 3 meters rightward.
robot.move_north('laptop')
robot.face('laptop')
robot.turn(180)
robot.move_forward(2)
robot.turn(90)
robot.move_forward(3)


از VLMaps می توان برای برگرداندن مختصات نقشه نقاط شاخص با توضیحات زبان طبیعی استفاده کرد، که می تواند به عنوان یک فراخوانی تابع API ابتدایی برای Code as Policies برای توالی چندین هدف دستورالعمل های ناوبری افق بلند استفاده شود.

نتایج

ما VLMaps را بر روی وظایف چالش برانگیز شیء-هدف و اهداف فضایی در Habitat و Matterport3D، بدون آموزش اضافی یا تنظیم دقیق ارزیابی می کنیم. از ربات خواسته می شود تا به چهار هدف فرعی که به طور متوالی در زبان طبیعی مشخص شده اند حرکت کند. ما مشاهده می‌کنیم که VLMaps به‌دلیل بهبود زمین‌گیری دیداری-زبانی، تا 17 درصد از خطوط پایه قوی (شامل CoW و LM-Nav) بهتر عمل می‌کند.

وظایف تعداد گل های فرعی پشت سر هم مستقل
اهداف فرعی
1 2 3 4
LM-Nav 26 4 1 1 26
گاو 42 15 7 3 36
نقشه کلیپ 33 8 2 0 30
VLMaps (مال ما) 59 34 22 15 59
نقشه جی تی 91 78 71 67 85

رویکرد VLMaps نسبت به خطوط پایه واژگان باز جایگزین در ناوبری چند شی (میزان موفقیت) عملکرد مطلوبی دارد. [%]) و به طور خاص در کارهای افق طولانی تر با اهداف فرعی متعدد برتری دارد.

مزیت کلیدی VLMaps توانایی آن در درک است فضاهاl اهداف، مانند “رفتن بین مبل و تلویزیون” یا “حرکت سه متری به سمت راست صندلی”. آزمایش‌ها برای ناوبری فضایی-هدف افق بلند تا 29% بهبود یافته است. برای به دست آوردن بینش بیشتر در مورد مناطقی در نقشه که برای جستارهای زبانی مختلف فعال می‌شوند، نقشه‌های حرارتی را برای نوع شی «صندلی» تجسم می‌کنیم.

دید بهبودیافته و قابلیت‌های پایه زبان VLMaps، که حاوی نکات مثبت کاذب بسیار کمتری نسبت به روش‌های رقیب است، آن را قادر می‌سازد تا با استفاده از توصیفات زبانی، به نقاط عطف حرکت کند.

نقشه موانع با واژگان باز

یک VLMap از همان محیط نیز می تواند برای ساختن نقشه های موانع با واژگان باز برای برنامه ریزی مسیر استفاده شود. این کار با ترکیب نقشه‌های تشخیص آستانه دودویی روی فهرستی از دسته‌های شاخصی که ربات می‌تواند یا نمی‌تواند از آنها عبور کند (مانند “میزها”، “صندلی‌ها”، “دیوارها” و غیره) انجام می‌شود. این مفید است زیرا روبات‌هایی با مورفولوژی‌های مختلف ممکن است در یک محیط به طور متفاوتی حرکت کنند. به عنوان مثال، “جدول” برای یک ربات متحرک بزرگ موانعی هستند، اما ممکن است برای یک پهپاد قابل عبور باشند. ما مشاهده می‌کنیم که استفاده از VLMaps برای ایجاد چندین نقشه موانع خاص ربات، کارایی ناوبری را تا 4% (که بر حسب نرخ موفقیت کار وزن شده با طول مسیر اندازه‌گیری می‌شود) نسبت به استفاده از یک نقشه مانع مشترک برای هر ربات بهبود می‌بخشد. برای جزئیات بیشتر به مقاله مراجعه کنید.

آزمایش با ربات متحرک (LoCoBot) و پهپاد در محیط های شبیه سازی شده AI2THOR. ترک کرد: نمای بالا به پایین یک محیط. ستون های میانی: مشاهدات ماموران در طول مسیریابی. درست: نقشه های موانع ایجاد شده برای تجسم های مختلف با مسیرهای ناوبری مربوطه.

نتیجه

VLMaps یک گام اولیه را در جهت پایه‌گذاری اطلاعات زبان بصری از پیش آموزش‌دیده بر روی نمایش‌های نقشه فضایی که می‌تواند توسط روبات‌ها برای ناوبری استفاده شود، برمی‌دارد. آزمایش‌ها در محیط‌های شبیه‌سازی‌شده و واقعی نشان می‌دهند که VLMaps می‌تواند ربات‌های استفاده‌کننده از زبان را فعال کند تا (i) نشانه‌ها (یا مکان‌های فضایی نسبت به آنها) را با توجه به توصیف زبان طبیعی‌شان فهرست‌بندی کنند، و (۲) نقشه‌های موانع واژگان باز را برای برنامه‌ریزی مسیر تولید کنند. گسترش VLMaps برای مدیریت محیط‌های پویاتر (مثلاً با افراد در حال حرکت) یک راه جالب برای کارهای آینده است.

انتشار متن باز

ما کد مورد نیاز برای بازتولید آزمایش‌های خود و یک نسخه نمایشی ربات شبیه‌سازی شده تعاملی را در وب‌سایت پروژه منتشر کرده‌ایم که حاوی ویدیوها و کدهای اضافی برای محک زدن عوامل در شبیه‌سازی است.

قدردانی

مایلیم از نویسندگان همکار این تحقیق تشکر کنیم: Chenguang Huang و Wolfram Burgard.

سئو PBN | خبر های جدید سئو و هک و سرور