مردم ناوبران عالی دنیای فیزیکی هستند، تا حدی به دلیل توانایی قابل توجه آنها در ساختن نقشه های شناختی که اساس حافظه فضایی را تشکیل می دهد – از بومی سازی نقاط عطف در سطوح مختلف هستی شناختی (مانند کتابی در قفسه ای در اتاق نشیمن) تا تعیین اینکه آیا یک چیدمان اجازه ناوبری را از نقطه A به نقطه B می دهد. ساخت ربات هایی که در ناوبری ماهر هستند نیاز به درک به هم پیوسته (الف) بینایی و زبان طبیعی (برای مرتبط کردن نشانه ها یا پیروی از دستورالعمل ها) و (ب) استدلال فضایی (برای اتصال یک نقشه) دارد. نشان دهنده محیطی برای توزیع فضایی واقعی اشیا). در حالی که اخیراً پیشرفتهای زیادی در آموزش مدلهای مشترک بصری-زبان بر روی دادههای مقیاس اینترنت صورت گرفته است، یافتن چگونگی اتصال بهترین آنها به یک نمایش فضایی از دنیای فیزیکی که میتواند توسط روباتها مورد استفاده قرار گیرد، یک سوال تحقیقاتی باز است.
برای بررسی این موضوع، ما با محققان دانشگاه فرایبورگ و نورنبرگ همکاری کردیم تا نقشههای زبان بصری (VLMaps) را توسعه دهیم، یک نمایش نقشه که مستقیماً جاسازیهای زبان بصری از پیش آموزشدیدهشده را در بازسازی سهبعدی محیط ترکیب میکند. VLMaps، که قرار است در ICRA 2023 ظاهر شود، یک رویکرد ساده است که به روباتها اجازه میدهد (1) نشانههای بصری را در نقشه با استفاده از توصیفهای زبان طبیعی فهرستبندی کنند، (2) از کد بهعنوان خطمشی برای پیمایش به آن استفاده کنند. اهداف فضایی، مانند “بین مبل و تلویزیون بروید” یا “سه متر به سمت راست صندلی حرکت کنید” و (3) ایجاد کنید نقشه موانع با واژگان باز – اجازه دادن به چندین ربات با مورفولوژی های مختلف (مثلاً دستکاری کننده های موبایل در مقابل هواپیماهای بدون سرنشین) برای استفاده از نقشه VLMap برای برنامه ریزی مسیر. VLMaps را می توان در خارج از جعبه بدون داده های برچسب دار اضافی یا تنظیم دقیق مدل مورد استفاده قرار داد، و بیش از 17 درصد از سایر روش های صفر شات در وظایف چالش برانگیز ناوبری شی-هدف و فضایی در Habitat و Matterport3D عملکرد بهتری دارد. ما همچنین کد مورد استفاده برای آزمایشات خود را همراه با یک نسخه نمایشی شبیه سازی شده ربات تعاملی منتشر می کنیم.
VLMaps را می توان با ادغام تعبیه های زبان بصری از پیش آموزش دیده در بازسازی 3 بعدی محیط ساخت. در زمان اجرا، یک ربات میتواند از VLMap پرس و جو کند تا نشانههای بصری را با توضیحات زبان طبیعی پیدا کند، یا نقشههای موانع با واژگان باز را برای برنامهریزی مسیر بسازد. |
نقشه های سه بعدی کلاسیک با پیچ و تاب مدرن چند وجهی
VLMaps ساختار هندسی بازسازیهای سه بعدی کلاسیک را با بیان مدلهای زبان بصری مدرن که از قبل بر روی دادههای مقیاس اینترنت آموزش داده شدهاند، ترکیب میکند. همانطور که ربات به اطراف حرکت می کند، VLMaps از یک مدل زبان بصری از قبل آموزش دیده برای محاسبه جاسازی های متراکم در هر پیکسل از نماهای دوربین RGB استفاده می کند و آنها را در یک تانسور سه بعدی به اندازه نقشه بزرگ تراز شده با بازسازی سه بعدی موجود از دنیای فیزیکی ادغام می کند. . این نمایش به سیستم اجازه میدهد تا نقاط عطف را با توجه به توصیفهای زبان طبیعی آنها (مانند “کتابی در قفسه در اتاق نشیمن”) با مقایسه جاسازیهای متن آنها با همه مکانهای تانسور و یافتن نزدیکترین تطابق، بومیسازی کند. پرسوجو از این مکانهای هدف میتواند مستقیماً بهعنوان مختصات هدف برای ناوبری مشروط به زبان استفاده شود، زیرا تابع API ابتدایی کد بهعنوان سیاستها را برای پردازش اهداف فضایی فراخوانی میکند (مثلاً مدلهای کدنویسی «در بین» را بهعنوان حساب بین دو مکان تفسیر میکنند. برای ترتیب دادن چندین هدف ناوبری برای دستورالعمل های افق بلند.
# move first to the left side of the counter, then move between the sink and the oven, then move back and forth to the sofa and the table twice. robot.move_to_left('counter') robot.move_in_between('sink', 'oven') pos1 = robot.get_pos('sofa') pos2 = robot.get_pos('table') for i in range(2): robot.move_to(pos1) robot.move_to(pos2) # move 2 meters north of the laptop, then move 3 meters rightward. robot.move_north('laptop') robot.face('laptop') robot.turn(180) robot.move_forward(2) robot.turn(90) robot.move_forward(3)
از VLMaps می توان برای برگرداندن مختصات نقشه نقاط شاخص با توضیحات زبان طبیعی استفاده کرد، که می تواند به عنوان یک فراخوانی تابع API ابتدایی برای Code as Policies برای توالی چندین هدف دستورالعمل های ناوبری افق بلند استفاده شود. |
نتایج
ما VLMaps را بر روی وظایف چالش برانگیز شیء-هدف و اهداف فضایی در Habitat و Matterport3D، بدون آموزش اضافی یا تنظیم دقیق ارزیابی می کنیم. از ربات خواسته می شود تا به چهار هدف فرعی که به طور متوالی در زبان طبیعی مشخص شده اند حرکت کند. ما مشاهده میکنیم که VLMaps بهدلیل بهبود زمینگیری دیداری-زبانی، تا 17 درصد از خطوط پایه قوی (شامل CoW و LM-Nav) بهتر عمل میکند.
وظایف | تعداد گل های فرعی پشت سر هم | مستقل اهداف فرعی |
||||||||
1 | 2 | 3 | 4 | |||||||
LM-Nav | 26 | 4 | 1 | 1 | 26 | |||||
گاو | 42 | 15 | 7 | 3 | 36 | |||||
نقشه کلیپ | 33 | 8 | 2 | 0 | 30 | |||||
VLMaps (مال ما) | 59 | 34 | 22 | 15 | 59 | |||||
نقشه جی تی | 91 | 78 | 71 | 67 | 85 |
رویکرد VLMaps نسبت به خطوط پایه واژگان باز جایگزین در ناوبری چند شی (میزان موفقیت) عملکرد مطلوبی دارد. [%]) و به طور خاص در کارهای افق طولانی تر با اهداف فرعی متعدد برتری دارد. |
مزیت کلیدی VLMaps توانایی آن در درک است فضاهاl اهداف، مانند “رفتن بین مبل و تلویزیون” یا “حرکت سه متری به سمت راست صندلی”. آزمایشها برای ناوبری فضایی-هدف افق بلند تا 29% بهبود یافته است. برای به دست آوردن بینش بیشتر در مورد مناطقی در نقشه که برای جستارهای زبانی مختلف فعال میشوند، نقشههای حرارتی را برای نوع شی «صندلی» تجسم میکنیم.
![]() |
دید بهبودیافته و قابلیتهای پایه زبان VLMaps، که حاوی نکات مثبت کاذب بسیار کمتری نسبت به روشهای رقیب است، آن را قادر میسازد تا با استفاده از توصیفات زبانی، به نقاط عطف حرکت کند. |
نقشه موانع با واژگان باز
یک VLMap از همان محیط نیز می تواند برای ساختن نقشه های موانع با واژگان باز برای برنامه ریزی مسیر استفاده شود. این کار با ترکیب نقشههای تشخیص آستانه دودویی روی فهرستی از دستههای شاخصی که ربات میتواند یا نمیتواند از آنها عبور کند (مانند “میزها”، “صندلیها”، “دیوارها” و غیره) انجام میشود. این مفید است زیرا روباتهایی با مورفولوژیهای مختلف ممکن است در یک محیط به طور متفاوتی حرکت کنند. به عنوان مثال، “جدول” برای یک ربات متحرک بزرگ موانعی هستند، اما ممکن است برای یک پهپاد قابل عبور باشند. ما مشاهده میکنیم که استفاده از VLMaps برای ایجاد چندین نقشه موانع خاص ربات، کارایی ناوبری را تا 4% (که بر حسب نرخ موفقیت کار وزن شده با طول مسیر اندازهگیری میشود) نسبت به استفاده از یک نقشه مانع مشترک برای هر ربات بهبود میبخشد. برای جزئیات بیشتر به مقاله مراجعه کنید.
![]() |
آزمایش با ربات متحرک (LoCoBot) و پهپاد در محیط های شبیه سازی شده AI2THOR. ترک کرد: نمای بالا به پایین یک محیط. ستون های میانی: مشاهدات ماموران در طول مسیریابی. درست: نقشه های موانع ایجاد شده برای تجسم های مختلف با مسیرهای ناوبری مربوطه. |
نتیجه
VLMaps یک گام اولیه را در جهت پایهگذاری اطلاعات زبان بصری از پیش آموزشدیده بر روی نمایشهای نقشه فضایی که میتواند توسط روباتها برای ناوبری استفاده شود، برمیدارد. آزمایشها در محیطهای شبیهسازیشده و واقعی نشان میدهند که VLMaps میتواند رباتهای استفادهکننده از زبان را فعال کند تا (i) نشانهها (یا مکانهای فضایی نسبت به آنها) را با توجه به توصیف زبان طبیعیشان فهرستبندی کنند، و (۲) نقشههای موانع واژگان باز را برای برنامهریزی مسیر تولید کنند. گسترش VLMaps برای مدیریت محیطهای پویاتر (مثلاً با افراد در حال حرکت) یک راه جالب برای کارهای آینده است.
انتشار متن باز
ما کد مورد نیاز برای بازتولید آزمایشهای خود و یک نسخه نمایشی ربات شبیهسازی شده تعاملی را در وبسایت پروژه منتشر کردهایم که حاوی ویدیوها و کدهای اضافی برای محک زدن عوامل در شبیهسازی است.
قدردانی
مایلیم از نویسندگان همکار این تحقیق تشکر کنیم: Chenguang Huang و Wolfram Burgard.