یادگیری خط‌مشی‌های جهانی از طریق تولید ویدیوی هدایت‌شده با متن – وبلاگ هوش مصنوعی گوگل

ساخت مدل هایی که مجموعه متنوعی از وظایف را حل می کنند به یک پارادایم غالب در حوزه بینایی و زبان تبدیل شده است. در پردازش زبان طبیعی، مدل های بزرگ از پیش آموزش دیده، مانند PaLM، GPT-3 و Gopher، یادگیری صفر شات قابل توجهی از وظایف زبانی جدید را نشان داده اند. به طور مشابه، در بینایی کامپیوتر، مدل هایی مانند CLIP و Flamingo عملکرد قوی در طبقه بندی شات صفر و تشخیص اشیا نشان داده اند. گام بعدی طبیعی استفاده از چنین ابزارهایی برای ساخت عواملی است که می توانند وظایف تصمیم گیری مختلف را در بسیاری از محیط ها تکمیل کنند.

با این حال، آموزش چنین عواملی با چالش ذاتی تنوع محیطی مواجه است، زیرا محیط های مختلف با فضاهای عمل حالت متمایز عمل می کنند (به عنوان مثال، فضای مشترک و کنترل های مداوم در MuJoCo اساساً با فضای تصویر و اقدامات گسسته در Atari متفاوت است). این تنوع محیطی مانع به اشتراک گذاری دانش، یادگیری و تعمیم در بین وظایف و محیط ها می شود. بعلاوه، ایجاد توابع پاداش در میان محیط‌ها دشوار است، زیرا وظایف مختلف عموماً مفاهیم متفاوتی از موفقیت دارند.

در «یادگیری سیاست‌های جهانی از طریق تولید ویدیوی هدایت‌شده با متن»، ما یک خط‌مشی جهانی (UniPi) را پیشنهاد می‌کنیم که به تنوع محیطی و چالش‌های تعیین پاداش می‌پردازد. UniPi از متن برای بیان شرح وظایف و ویدیو (یعنی توالی تصویر) به عنوان یک رابط جهانی برای انتقال کنش و رفتار مشاهده در محیط های مختلف استفاده می کند. با توجه به یک قاب تصویر ورودی جفت شده با متنی که هدف فعلی را توصیف می کند (یعنی مرحله سطح بالا بعدی)، UniPi از یک تولید کننده ویدیوی جدید (برنامه ریز مسیر) برای تولید ویدیو با تکه هایی از اینکه مسیر یک عامل برای رسیدن به آن هدف چگونه باید باشد استفاده می کند. . ویدئوی تولید شده به یک مدل دینامیک معکوس داده می‌شود که اقدامات کنترلی سطح پایین زیرین را استخراج می‌کند، که سپس در شبیه‌سازی یا توسط یک عامل ربات واقعی اجرا می‌شوند. ما نشان می‌دهیم که UniPi استفاده از زبان و ویدیو را به‌عنوان یک رابط کنترل جهانی برای تعمیم به اهداف و وظایف جدید در محیط‌های مختلف فعال می‌کند.

سیاست های ویدیویی تولید شده توسط UniPi.
UniPi ممکن است برای تنظیمات چند وظیفه ای پایین دستی که به تعمیم زبان ترکیبی، برنامه ریزی افق بلند یا دانش در مقیاس اینترنت نیاز دارند، اعمال شود. در مثال پایین، UniPi تصویر بازوی ربات سفید را از اینترنت می گیرد و بر اساس توضیحات متنی هدف، قطعه های ویدئویی تولید می کند.

پیاده سازی UniPi

برای تولید یک طرح معتبر و قابل اجرا، یک مدل متن به ویدئو باید یک پلان ویدئویی محدود را با شروع تصویر مشاهده‌شده فعلی ترکیب کند. ما دریافتیم که با ارائه اولین فریم هر ویدیو به عنوان زمینه شرطی سازی صریح، محدود کردن صریح مدل سنتز ویدیو در طول آموزش (بر خلاف محدود کردن ویدیوها در زمان نمونه‌برداری) مؤثرتر است.

در سطح بالا، UniPi دارای چهار مؤلفه اصلی است: 1) تولید ویدیوی سازگار با کاشی کاری فریم اول، 2) برنامه ریزی سلسله مراتبی از طریق وضوح فوق العاده زمانی، 3) ترکیب رفتار انعطاف پذیر، و 4) انطباق اقدام خاص. پیاده سازی و مزایای هر جزء را در زیر به تفصیل توضیح می دهیم.

تولید ویدئو از طریق کاشی کاری

مدل‌های تبدیل متن به ویدیوی موجود مانند Imagen معمولاً فیلم‌هایی را تولید می‌کنند که در آن وضعیت محیط زیربنایی در طول مدت زمان تغییر قابل توجهی می‌کند. برای ساختن یک برنامه ریز مسیر دقیق، مهم است که محیط در تمام نقاط زمانی ثابت بماند. ما با ارائه تصویر مشاهده شده به عنوان زمینه اضافی هنگام حذف نویز هر فریم در ویدیوی سنتز شده، سازگاری محیط را در سنتز ویدیوی شرطی اعمال می کنیم. برای دستیابی به شرطی‌سازی زمینه، UniPi مستقیماً هر فریم میانی نمونه‌برداری شده از نویز را با تصویر مشاهده‌شده شرطی در سراسر مراحل نمونه‌گیری به هم پیوند می‌دهد، که به عنوان یک سیگنال قوی برای حفظ وضعیت محیط زیربنایی در طول زمان عمل می‌کند.

تولید ویدئوی مشروط متنی، UniPi را قادر می‌سازد تا سیاست‌های هدف کلی را در طیف گسترده‌ای از منابع داده (روبات‌های شبیه‌سازی‌شده، واقعی و YouTube) آموزش دهد.

برنامه ریزی سلسله مراتبی

هنگام ساختن طرح‌ها در محیط‌های با ابعاد بالا با افق‌های زمانی طولانی، ایجاد مستقیم مجموعه‌ای از اقدامات برای رسیدن به یک حالت هدف به سرعت به دلیل رشد تصاعدی فضای جستجوی زیربنایی با طولانی‌تر شدن طرح، غیرقابل حل می‌شود. روش های برنامه ریزی اغلب این موضوع را با اعمال یک سلسله مراتب طبیعی در برنامه ریزی دور می زند. به طور خاص، روش‌های برنامه‌ریزی ابتدا طرح‌های درشتی را می‌سازند (قاب‌های کلیدی میانی که در طول زمان پخش می‌شوند) که بر روی حالات و اقدامات کم‌بعد عمل می‌کنند، که سپس به طرح‌هایی در فضاهای حالت و عمل زیربنایی تبدیل می‌شوند.

مشابه برنامه ریزی، روش تولید ویدیوی مشروط ما یک سلسله مراتب زمانی طبیعی را نشان می دهد. UniPi ابتدا با نمونه برداری پراکنده از فیلم ها (“انتزاعات”) از رفتار عامل مورد نظر در امتداد محور زمان، ویدئوها را در سطحی درشت تولید می کند. سپس UniPi ویدیوها را برای نشان دادن رفتار معتبر در محیط با حل فوق العاده ویدیوها در طول زمان اصلاح می کند. در همین حال، وضوح فوق العاده درشت به ریز، سازگاری را از طریق درون یابی بین فریم ها بهبود می بخشد.

با توجه به مشاهده ورودی و دستورالعمل متنی، مجموعه ای از تصاویر را که رفتار عامل را نشان می دهد، برنامه ریزی می کنیم. تصاویر با استفاده از مدل دینامیک معکوس به کنش تبدیل می شوند.

مدولاسیون رفتاری انعطاف پذیر

هنگام برنامه‌ریزی دنباله‌ای از اقدامات برای یک هدف فرعی، می‌توان به آسانی محدودیت‌های خارجی را برای تعدیل یک برنامه تولید شده گنجاند. چنین انطباق زمان آزمون را می توان با ترکیب کردن ویژگی های احتمالی قبلی طرح مورد نظر برای تعیین محدودیت های مورد نظر در مسیر حرکت سنتز شده، که با UniPi نیز سازگار است، پیاده سازی کرد. به طور خاص، پیشین را می‌توان با استفاده از طبقه‌بندی‌کننده آموخته‌شده روی تصاویر برای بهینه‌سازی یک کار خاص، یا به عنوان توزیع دلتای دیراک روی یک تصویر خاص برای هدایت یک طرح به سمت مجموعه‌ای از حالت‌ها مشخص کرد. برای آموزش مدل تولید ویدئوی مشروط متن، از الگوریتم انتشار ویدئو استفاده می‌کنیم، جایی که ویژگی‌های زبان از پیش آموزش‌دیده از مبدل انتقال متن به متن (T5) کدگذاری می‌شوند.

انطباق اقدام ویژه کار

با توجه به مجموعه‌ای از ویدیوهای ترکیب‌شده، ما یک مدل دینامیک معکوس مختص کار کوچک را آموزش می‌دهیم تا فریم‌ها را به مجموعه‌ای از اقدامات کنترلی سطح پایین ترجمه کنیم. این مستقل از برنامه ریز است و می تواند روی یک مجموعه داده جداگانه، کوچکتر و بالقوه کمتر از حد بهینه تولید شده توسط یک شبیه ساز انجام شود.

با توجه به چارچوب ورودی و توصیف متن هدف فعلی، مدل دینامیک معکوس فریم‌های تصویر را ترکیب می‌کند و یک توالی کنش کنترلی ایجاد می‌کند که اقدامات آینده مربوطه را پیش‌بینی می‌کند. سپس یک عامل اقدامات کنترلی سطح پایین استنباط شده را از طریق کنترل حلقه بسته اجرا می کند.

قابلیت ها و ارزیابی UniPi

ما میزان موفقیت کار را بر روی اهداف مبتنی بر زبان جدید اندازه‌گیری می‌کنیم و متوجه می‌شویم که UniPi به خوبی به ترکیب‌های دیده شده و جدید از اعلان‌های زبان تعمیم می‌یابد، در مقایسه با خطوط پایه مانند Transformer BC، Trajectory Transformer (TT) و Diffuser.

UniPi به خوبی به ترکیبات دیده شده و جدید از دستورهای زبان در وظایف Place (مثلاً «محل X در Y») و Relation (مثلاً «محل X در سمت چپ Y») تعمیم می‌دهد.

در زیر، ویدیوهای تولید شده در ترکیبات دیده نشده از اهداف را نشان می دهیم. UniPi قادر است مجموعه متنوعی از رفتارها را ترکیب کند که اهداف فرعی زبان را برآورده کند:

ویدیوهایی برای اهداف زبانی دیده نشده در زمان آزمون ایجاد شده است.

انتقال چند محیطی

ما میزان موفقیت تکلیف UniPi و خطوط پایه را بر روی کارهای جدیدی که در طول آموزش دیده نمی‌شوند، اندازه‌گیری می‌کنیم. UniPi دوباره با یک حاشیه بزرگ از خطوط پایه بهتر عمل می کند:

UniPi زمانی که در مجموعه ای از محیط های چند وظیفه ای مختلف آموزش داده می شود، به خوبی به محیط های جدید تعمیم می یابد.

در زیر، ویدیوهای تولید شده را در مورد کارهای دیده نشده نشان می دهیم. UniPi قادر است مجموعه‌ای از رفتارهای متنوعی را که وظایف زبانی نادیده را برآورده می‌کنند ترکیب کند:

برنامه‌های ویدیویی برای کارهای مختلف آزمایشی جدید در تنظیمات چند وظیفه‌ای ایجاد می‌شود.

انتقال دنیای واقعی

در زیر، ویدیوهای تولید شده را با دستورالعمل‌های زبانی در مورد تصاویر واقعی دیده نشده بیشتر نشان می‌دهیم. رویکرد ما قادر به ترکیب مجموعه ای متنوع از رفتارهای مختلف است که دستورالعمل های زبان را برآورده می کند:

استفاده از پیش‌آموزش اینترنتی، UniPi را قادر می‌سازد تا ویدیوهای کارهایی را که در طول آموزش دیده نمی‌شوند، ترکیب کند. در مقابل، مدلی که از ابتدا آموزش داده شده است، به اشتباه برنامه هایی از وظایف مختلف تولید می کند:

برای ارزیابی کیفیت ویدیوهای تولید شده توسط UniPi در زمانی که از قبل بر روی داده‌های غیر روباتی آموزش داده شده‌اند، از معیارهای فاصله اولیه Fréchet (FID) و Fréchet Video Distance (FVD) استفاده می‌کنیم. ما از نمرات پیش‌آموزشی زبان-تصویر متضاد (CLIPScores) برای اندازه‌گیری تراز زبان-تصویر استفاده کردیم. ما نشان می‌دهیم که UniPi از قبل آموزش‌دیده به نمرات FID و FVD بسیار بالاتر و CLIPScore بهتری در مقایسه با UniPi بدون پیش‌آموزش دست می‌یابد، و نشان می‌دهد که پیش‌آموزش روی داده‌های غیر روباتی به تولید طرح‌هایی برای روبات‌ها کمک می‌کند. ما امتیازات CLIPScore، FID، و VID را برای UniPi که بر روی داده‌های Bridge آموزش دیده‌اند، با و بدون پیش‌آموزش گزارش می‌کنیم:

مدل (24×40) CLIPScore ↑ FID ↓ FVD ↓
بدون پیش تمرین 0.04 ± 24.43 0.56 ± 17.75 288.02 ± 10.45
از قبل آموزش دیده 24.54 0.03 ± 14.54 0.57 ± 264.66 13.64 ±

استفاده از داده‌های اینترنتی موجود، پیش‌بینی‌های طرح ویدیویی را تحت تمام معیارهای در نظر گرفته بهبود می‌بخشد.

آینده مدل های مولد در مقیاس بزرگ برای تصمیم گیری

نتایج مثبت UniPi به جهت گسترده‌تر استفاده از مدل‌های مولد و انبوه داده‌ها در اینترنت به عنوان ابزارهای قدرتمند برای یادگیری سیستم‌های تصمیم‌گیری همه‌منظوره اشاره دارد. UniPi تنها یک قدم به سوی آنچه که مدل‌های مولد می‌توانند در تصمیم‌گیری به ارمغان بیاورند است. نمونه‌های دیگر شامل استفاده از مدل‌های پایه مولد برای ارائه شبیه‌سازهای فوتورئالیستی یا زبانی جهان است که در آن عوامل مصنوعی می‌توانند به طور نامحدود آموزش ببینند. مدل‌های مولد به‌عنوان عامل همچنین می‌توانند تعامل با محیط‌های پیچیده‌ای مانند اینترنت را بیاموزند، به طوری که کارهای بسیار گسترده‌تر و پیچیده‌تر در نهایت می‌توانند خودکار شوند. ما مشتاقانه منتظر تحقیقات آینده در استفاده از مدل‌های پایه در مقیاس اینترنت برای تنظیمات چند محیطی و چند تجسمی هستیم.

سپاسگزاریها

مایلیم از همه نویسندگان باقیمانده مقاله از جمله بو دای، هانجون دای، اوفیر ناچوم، جاشوا بی. تننبام، دیل شوورمانس، و پیتر آببل تشکر کنیم. مایلیم از جورج تاکر، داگلاس اک و وینسنت ونهوک برای بازخورد در مورد این پست و مقاله اصلی تشکر کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور