حرکت زبان به چهارپا – وبلاگ تحقیقاتی گوگل

حرکت زبان به چهارپا – وبلاگ تحقیقاتی گوگل

تعامل ساده و مؤثر بین ربات‌های انسانی و چهارپا راه را برای ایجاد ربات‌های کمکی هوشمند و توانا هموار می‌کند و آینده‌ای را رقم می‌زند که در آن فناوری زندگی ما را فراتر از تصور ما افزایش می‌دهد. کلید چنین سیستم های تعامل انسان و ربات این است که ربات های چهارپا را قادر می سازد به دستورالعمل های زبان طبیعی پاسخ دهند. پیشرفت‌های اخیر در مدل‌های زبان بزرگ (LLM) پتانسیل اجرای برنامه‌ریزی سطح بالا را نشان داده است. با این حال، درک دستورات سطح پایین، مانند اهداف زاویه مشترک یا گشتاور موتور، به ویژه برای ربات‌های پایی که ذاتاً ناپایدار هستند، برای LLM‌ها یک چالش باقی می‌ماند که نیاز به سیگنال‌های کنترل فرکانس بالا دارد. در نتیجه، بیشتر کارهای موجود، ارائه APIهای سطح بالا برای LLMها را برای دیکته کردن رفتار ربات فرض می کند، که ذاتاً قابلیت های بیانی سیستم را محدود می کند.

در «SayTap: زبان به حرکت چهارپا»، ما رویکردی را پیشنهاد می‌کنیم که از الگوهای تماس پا (که به ترتیب و روشی که یک عامل چهار پا هنگام حرکت پاهای خود را روی زمین قرار می‌دهد) به‌عنوان رابطی برای پل زدن فرمان‌های انسان استفاده می‌کند. به زبان طبیعی و یک کنترل کننده حرکت که دستورات سطح پایین را خروجی می دهد. این منجر به یک سیستم ربات چهارپا تعاملی می شود که به کاربران امکان می دهد به طور انعطاف پذیر رفتارهای حرکتی متنوعی را ایجاد کنند (به عنوان مثال، کاربر می تواند از ربات بخواهد راه برود، بدود، بپرد یا حرکات دیگری را با استفاده از زبان ساده انجام دهد). ما یک طراحی سریع LLM، یک تابع پاداش و روشی برای نمایش کنترلر SayTap در معرض توزیع امکان پذیر الگوهای تماس ارائه می دهیم. ما نشان می‌دهیم که SayTap کنترل‌کننده‌ای است که قادر به دستیابی به الگوهای حرکتی متنوعی است که می‌تواند به سخت‌افزار ربات واقعی منتقل شود.

روش SayTap

رویکرد SayTap از یک الگوی تماس استفاده می‌کند که 4 X است تی ماتریسی از 0s و 1s، با 0s نشان دهنده پاهای عامل در هوا و 1s برای پاهای روی زمین است. از بالا به پایین، هر ردیف در ماتریس، الگوهای تماس پاهای جلو چپ (FL)، جلو راست (FR)، عقب چپ (RL) و عقب راست (RR) را نشان می دهد. فرکانس کنترل SayTap 50 هرتز است، بنابراین هر 0 یا 1 0.02 ثانیه طول می کشد. در این کار، یک الگوی تماس پا مورد نظر توسط یک پنجره کشویی چرخه ای به اندازه L تعریف می شودw و به شکل 4 XLw. پنجره کشویی از الگوی الگوی تماس چهار پرچم تماس با زمین استخراج می کند که نشان می دهد پا روی زمین است یا در هوا بین تی + 1 و تی + الw. شکل زیر نمای کلی از روش SayTap را ارائه می دهد.

SayTap این الگوهای تماس پا مورد نظر را به عنوان یک رابط جدید بین دستورات کاربر زبان طبیعی و کنترل کننده حرکت معرفی می کند. از کنترل کننده حرکت برای تکمیل کار اصلی (مثلاً پیروی از سرعت های مشخص) و قرار دادن پای ربات روی زمین در زمان مشخص شده استفاده می شود، به گونه ای که الگوهای تماس پا تا حد امکان به الگوهای تماس مورد نظر نزدیک شوند. برای دستیابی به این هدف، کنترل‌کننده حرکت، الگوی تماس پا مورد نظر را در هر مرحله زمانی به عنوان ورودی خود، علاوه بر داده‌های حسی حس عمقی ربات (به عنوان مثال، موقعیت‌ها و سرعت‌های مفاصل) و ورودی‌های مربوط به کار (مانند دستورات سرعت مشخص شده توسط کاربر) می‌گیرد. . ما از یادگیری تقویت عمیق برای آموزش کنترل کننده حرکت و نمایش آن به عنوان یک شبکه عصبی عمیق استفاده می کنیم. در طول آموزش کنترلر، یک ژنراتور تصادفی از الگوهای تماس پا مورد نظر نمونه برداری می کند، سپس این خط مشی برای خروجی اقدامات سطح پایین ربات برای دستیابی به الگوی تماس پا مورد نظر بهینه می شود. سپس در زمان تست یک LLM دستورات کاربر را به الگوهای تماس پا ترجمه می کند.

نمای کلی رویکرد SayTap.
SayTap از الگوهای تماس پا (به عنوان مثال، 0 و 1 دنباله برای هر پا در قسمت داخلی، که در آن 0s پا در هوا و 1s پا روی زمین است) به عنوان رابطی که دستورات کاربر زبان طبیعی و دستورات کنترل سطح پایین را پل می کند، استفاده می کند. SayTap با یک کنترل‌کننده حرکت مبتنی بر یادگیری تقویتی که برای تحقق الگوهای تماس مورد نظر آموزش دیده است، به یک ربات چهارپا اجازه می‌دهد دستورالعمل‌های ساده و مستقیم (مثلاً «به آهستگی به جلو حرکت کند») و همچنین دستورات کاربر مبهم (مثلاً « خبر خوب، آخر این هفته به پیک نیک می رویم!») و مطابق با آن واکنش نشان دهید.

ما نشان می‌دهیم که LLM قادر است دستورات کاربر را به طور دقیق در قالب‌های الگوی تماس پا در قالب‌های مشخص نگاشت، در صورتی که به درستی طراحی شده باشد، حتی در مواردی که دستورات بدون ساختار یا مبهم هستند. در آموزش، از یک ژنراتور الگوی تصادفی برای تولید الگوهای الگوی تماسی با طول‌های الگوی مختلف استفاده می‌کنیم تی، نسبت تماس پا به زمین در یک چرخه بر اساس نوع راه رفتن معین جی، به طوری که کنترل کننده حرکت در توزیع گسترده ای از حرکات که منجر به تعمیم بهتر می شود یاد بگیرد. برای جزئیات بیشتر به مقاله مراجعه کنید.

نتایج

با یک اعلان ساده که شامل تنها سه نمونه درون متنی از الگوهای تماس معمولی پا است، یک LLM می‌تواند دستورات انسانی مختلف را با دقت به الگوهای تماس ترجمه کند و حتی به مواردی تعمیم دهد که به صراحت نحوه واکنش ربات را مشخص نمی‌کند.

دستورات SayTap مختصر هستند و از چهار جزء تشکیل شده اند: (1) دستورالعمل کلی که وظایفی را که LLM باید انجام دهد را توصیف می کند. (2) تعریف راه رفتن که دانش پایه را در مورد راه رفتن چهارپا و نحوه ارتباط آنها با احساسات به LLM یادآوری می کند. (3) تعریف فرمت خروجی. و (4) مثال هایی که به LLM فرصت یادگیری درون زمینه ای می دهد. ما همچنین پنج سرعت را مشخص می کنیم که به یک ربات اجازه می دهد به جلو یا عقب، سریع یا آهسته حرکت کند یا ثابت بماند.


General instruction block
You are a dog foot contact pattern expert.
Your job is to give a velocity and a foot contact pattern based on the input.
You will always give the output in the correct format no matter what the input is.

Gait definition block
The following are description about gaits:
1. Trotting is a gait where two diagonally opposite legs strike the ground at the same time.
2. Pacing is a gait where the two legs on the left/right side of the body strike the ground at the same time.
3. Bounding is a gait where the two front/rear legs strike the ground at the same time. It has a longer suspension phase where all feet are off the ground, for example, for at least 25% of the cycle length. This gait also gives a happy feeling.

Output format definition block
The following are rules for describing the velocity and foot contact patterns:
1. You should first output the velocity, then the foot contact pattern.
2. There are five velocities to choose from: [-1.0, -0.5, 0.0, 0.5, 1.0].
3. A pattern has 4 lines, each of which represents the foot contact pattern of a leg.
4. Each line has a label. "FL" is front left leg, "FR" is front right leg, "RL" is rear left leg, and "RR" is rear right leg.
5. In each line, "0" represents foot in the air, "1" represents foot on the ground.

Example block
Input: Trot slowly
Output: 0.5
FL: 11111111111111111000000000
FR: 00000000011111111111111111
RL: 00000000011111111111111111
RR: 11111111111111111000000000

Input: Bound in place
Output: 0.0
FL: 11111111111100000000000000
FR: 11111111111100000000000000
RL: 00000011111111111100000000
RR: 00000011111111111100000000

Input: Pace backward fast
Output: -1.0
FL: 11111111100001111111110000
FR: 00001111111110000111111111
RL: 11111111100001111111110000
RR: 00001111111110000111111111

Input:


SayTap اعلان به LLM. متون به رنگ آبی برای تصویرسازی استفاده می‌شوند و به LLM وارد نمی‌شوند.

پیروی از دستورات ساده و مستقیم

در ویدیوهای زیر نشان می‌دهیم که سیستم SayTap می‌تواند وظایفی را که دستورات مستقیم و واضح هستند با موفقیت انجام دهد. اگرچه برخی از دستورات توسط سه مثال درون متنی پوشش داده نمی‌شوند، ما می‌توانیم LLM را راهنمایی کنیم تا دانش درونی خود را از مرحله پیش‌آموزشی از طریق «بلوک تعریف راه رفتن» (به بلوک دوم در اعلان ما در بالا نگاه کنید) بیان کند. اعلان



پیروی از دستورات بدون ساختار یا مبهم

اما آنچه جالب تر است، توانایی SayTap برای پردازش دستورالعمل های بدون ساختار و مبهم است. ربات تنها با یک اشاره کوچک در فرمان برای ارتباط برخی راه رفتن ها با برداشت های کلی از احساسات، هنگام شنیدن پیام های هیجان انگیز مانند “ما به پیک نیک می رویم!” علاوه بر این، صحنه‌ها را به‌طور دقیق نشان می‌دهد (مثلاً حرکت سریع در حالی که پاهایش به سختی زمین را لمس می‌کنند وقتی گفته می‌شود زمین بسیار داغ است).







نتیجه گیری و کار آینده

ما SayTap، یک سیستم تعاملی برای ربات‌های چهارپا را ارائه می‌کنیم که به کاربران اجازه می‌دهد تا به طور انعطاف‌پذیر رفتارهای حرکتی متنوعی را ایجاد کنند. SayTap الگوهای تماس پا مورد نظر را به عنوان یک رابط جدید بین زبان طبیعی و کنترل کننده سطح پایین معرفی می کند. این رابط جدید ساده و منعطف است، علاوه بر این، به یک ربات اجازه می‌دهد هم دستورالعمل‌ها و هم دستوراتی را دنبال کند که به صراحت بیان نمی‌کنند که ربات چگونه باید واکنش نشان دهد.

یک جهت جالب برای کار آینده این است که آزمایش کنید آیا دستوراتی که دلالت بر احساس خاصی دارند به LLM اجازه می دهد راه رفتن دلخواه را به دست آورد یا خیر. در بلوک تعریف راه رفتن نشان داده شده در بخش نتایج بالا، جمله‌ای ارائه می‌کنیم که خلق و خوی شاد را با راه رفتن‌های محدود پیوند می‌دهد. ما معتقدیم که ارائه اطلاعات بیشتر می تواند تفاسیر LLM (به عنوان مثال، احساسات ضمنی) را تقویت کند. در ارزیابی ما، ارتباط بین احساس شادی و راه رفتن محدود باعث شد تا ربات در هنگام پیروی از دستورات مبهم انسان به وضوح عمل کند. یکی دیگر از جهت‌گیری‌های جالب برای کار آینده، معرفی ورودی‌های چند وجهی، مانند ویدئو و صدا است. الگوهای تماس پا که از آن سیگنال‌ها ترجمه شده‌اند، در تئوری، همچنان با خط لوله ما کار می‌کنند و موارد استفاده جالب‌تری را باز می‌کنند.

سپاسگزاریها

Yujin Tang، Wenhao Yu، Jie Tan، Heiga Zen، Aleksandra Faust و Tatsuya Harada این تحقیق را انجام دادند. این کار زمانی طراحی و اجرا شد که تیم در Google Research بود و در Google DeepMind ادامه خواهد یافت. نویسندگان می‌خواهند از Tingnan Zhang، Linda Luu، Kuang-Huei Lee، Vincent Vanhoucke و Douglas Eck برای بحث‌های ارزشمند و پشتیبانی فنی در آزمایش‌ها تشکر کنند.