ترکیب نمای فضا-زمان از ویدیوهای صحنه های پویا - وبلاگ تحقیقاتی گوگل - سئو PBN

ارسال شده توسط Zhengqi Li و Noah Snavely، دانشمندان تحقیقاتی، Google Research

دوربین گوشی موبایل ابزاری قدرتمند برای ثبت لحظات روزمره است. با این حال، گرفتن یک صحنه پویا با استفاده از یک دوربین اساساً محدود است. به عنوان مثال، اگر بخواهیم حرکت دوربین یا زمان‌بندی یک ویدیوی ضبط‌شده را تنظیم کنیم (مثلاً برای ثابت کردن زمان در حین جارو کردن دوربین برای برجسته کردن یک لحظه دراماتیک)، معمولاً به یک چیدمان گران قیمت هالیوود با یک دستگاه دوربین همگام‌سازی شده نیاز داریم. آیا امکان دستیابی به جلوه های مشابه تنها از طریق یک ویدیوی ضبط شده با استفاده از دوربین تلفن همراه، بدون بودجه هالیوود امکان پذیر است؟

در «DynIBaR: رندر مبتنی بر تصویر پویای عصبی»، که بهترین مقاله افتخاری در CVPR 2023 است، روش جدیدی را توصیف می‌کنیم که رندرهایی با زاویه دید آزاد واقعی از یک ویدیو از یک صحنه پیچیده و پویا ایجاد می‌کند. رندر مبتنی بر تصویر پویا عصبی (DynIBaR) می‌تواند برای تولید طیف وسیعی از جلوه‌های ویدیویی، مانند جلوه‌های زمان گلوله (جایی که زمان متوقف می‌شود و دوربین با سرعت معمولی در اطراف یک صحنه حرکت می‌کند)، تثبیت‌کننده ویدیو، عمق استفاده می‌شود. میدانی و حرکت آهسته، از یک ویدیوی منفرد که با دوربین گوشی گرفته شده است. ما نشان می‌دهیم که DynIBaR به‌طور قابل‌توجهی رندر ویدیوی صحنه‌های متحرک پیچیده را پیش می‌برد و دری را به روی انواع جدیدی از برنامه‌های ویرایش ویدیو باز می‌کند. ما همچنین کد را در صفحه پروژه DynIBaR منتشر کرده ایم، بنابراین می توانید خودتان آن را امتحان کنید.

DynIBaR با توجه به یک ویدیوی درونی از یک صحنه پیچیده و پویا، می‌تواند زمان را ثابت کند و در عین حال به دوربین اجازه می‌دهد آزادانه در صحنه حرکت کند.

زمینه

در چند سال گذشته شاهد پیشرفت‌های فوق‌العاده‌ای در تکنیک‌های بینایی کامپیوتری بوده‌ایم که از میدان‌های تابشی عصبی (NeRFs) برای بازسازی و نمایش صحنه‌های سه‌بعدی ثابت (غیر متحرک) استفاده می‌کنند. با این حال، بیشتر ویدیوهایی که مردم با دستگاه های تلفن همراه خود می گیرند، حرکت را به تصویر می کشند اشیاء، مانند افراد، حیوانات خانگی و اتومبیل. این صحنه های متحرک منجر به بازسازی صحنه 4 بعدی (3 بعدی + زمان) بسیار چالش برانگیزتر می شود مشکلی که با استفاده از روش های سنتز نمای استاندارد قابل حل نیست.

روش‌های سنتز نمای استاندارد زمانی که برای ویدیوهای صحنه‌های پویا اعمال می‌شوند، رندرهای تار و نادرست را خروجی می‌دهند.

سایر روش‌های اخیر با استفاده از میدان‌های تابشی عصبی فضا-زمان، با سنتز نما برای صحنه‌های پویا مقابله می‌کنند (به عنوان مثال، NeRF های پویا)، اما چنین رویکردهایی همچنان محدودیت‌های ذاتی را نشان می‌دهند که مانع از کاربرد آن‌ها برای ویدیوهای غیرعادی و غیرعادی می‌شود. به‌ویژه، آن‌ها برای ارائه نماهای جدید با کیفیت بالا از ویدیوهای دارای مدت زمان طولانی، مسیرهای کنترل‌نشده دوربین و حرکت پیچیده اشیاء تلاش می‌کنند.

مشکل اصلی این است که آنها یک صحنه پیچیده و متحرک را در یک ساختار داده واحد ذخیره می کنند. به ویژه، آنها صحنه هایی را در وزن شبکه عصبی پرسپترون چندلایه (MLP) رمزگذاری می کنند. MLP ها می توانند هر تابعی را تقریب بزنند – در این مورد، تابعی که یک نقطه فضا-زمان 4 بعدی را ترسیم می کند.ایکس، y، z، تی) به رنگ و چگالی RGB که می توانیم در رندر کردن تصاویر یک صحنه استفاده کنیم. با این حال، ظرفیت این MLP (تعریف شده توسط تعداد پارامترهای شبکه عصبی آن) باید با توجه به طول ویدئو و پیچیدگی صحنه افزایش یابد، و بنابراین، آموزش چنین مدل‌هایی بر روی ویدئوهای درون طبیعت می‌تواند از نظر محاسباتی غیرقابل حل باشد. در نتیجه، ما رندرهای مبهم و نادرست مانند آنچه که توسط DVS و NSFF تولید شده است (نشان داده شده در زیر) دریافت می کنیم. DynIBaR از ایجاد چنین مدل های صحنه بزرگ با اتخاذ یک الگوی رندر متفاوت اجتناب می کند.

DynIBaR (ردیف پایین) به طور قابل توجهی کیفیت رندر را در مقایسه با روش های سنتز نمای دینامیکی قبلی بهبود می بخشد (ردیف بالا) برای ویدیوهای صحنه های پویا پیچیده. روش‌های قبلی رندرهای مبهم تولید می‌کنند زیرا باید کل صحنه متحرک را در یک ساختار داده MLP ذخیره کنند.

رندر مبتنی بر تصویر (IBR)

یک بینش کلیدی پشت DynIBaR این است که ما در واقع نیازی به ذخیره تمام محتویات صحنه در یک ویدیو در یک MLP غول پیکر نداریم. در عوض، ما مستقیماً از داده‌های پیکسلی از فریم‌های ویدیوی ورودی اطراف برای ارائه نماهای جدید استفاده می‌کنیم. DynIBaR بر اساس یک رندر مبتنی بر تصویر روش (IBR) به نام IBRNet که برای سنتز نمایش برای صحنه های ایستا طراحی شده است. روش‌های IBR تشخیص می‌دهند که نمای هدف جدید از یک صحنه باید بسیار شبیه به تصاویر منبع نزدیک باشد، و بنابراین هدف را با انتخاب پویا و تاب برداشتن پیکسل‌ها از فریم‌های منبع نزدیک، به جای بازسازی کل صحنه از قبل، ترکیب می‌کند. IBRNet، به ویژه، یاد می گیرد که تصاویر نزدیک را با هم ترکیب کند تا نماهای جدیدی از یک صحنه را در چارچوب رندر حجمی بازسازی کند.

DynIBaR: گسترش IBR به ویدیوهای پیچیده و پویا

برای گسترش IBR به صحنه های پویا، باید حرکت صحنه را در حین رندر در نظر بگیریم. بنابراین، به عنوان بخشی از بازسازی یک ویدیوی ورودی، ما حرکت را حل می کنیم از هر نقطه سه بعدی، جایی که ما حرکت صحنه را با استفاده از یک میدان مسیر حرکت کدگذاری شده توسط یک MLP نشان می‌دهیم. برخلاف روش‌های دینامیک NeRF قبلی که کل ظاهر صحنه و هندسه را در یک MLP ذخیره می‌کردند، ما فقط حرکت را ذخیره می‌کنیم، سیگنالی که صاف‌تر و پراکنده‌تر است، و از فریم‌های ویدیوی ورودی برای تعیین هر چیز دیگری که برای نمایش نماهای جدید لازم است استفاده می‌کنیم.

ما DynIBaR را برای یک ویدیوی مشخص با گرفتن هر فریم ویدیوی ورودی، رندر کردن پرتوها برای تشکیل یک تصویر دو بعدی با استفاده از رندر حجمی (مانند NeRF) و مقایسه آن تصویر رندر شده با فریم ورودی، بهینه می کنیم. یعنی نمایش بهینه شده ما باید بتواند ویدیوی ورودی را به خوبی بازسازی کند.

ما نشان می‌دهیم که چگونه DynIBaR تصاویر صحنه‌های پویا را ارائه می‌کند. برای سادگی، ما یک دنیای دو بعدی را همانطور که از بالا مشاهده می کنید نشان می دهیم. (آ) مجموعه ای از نماهای منبع ورودی (مثلثی دوربین عکاسی) یک مکعب را در حال حرکت در صحنه مشاهده کنید (مربع متحرک). هر دوربین با برچسب زمانی خود (تی-2، تی-1 و غیره). (ب) برای ارائه یک نمای از دوربین در زمان تی، DynIBaR یک پرتو مجازی از هر پیکسل می اندازد (خط آبی) و رنگ ها و کدورت ها را برای نقاط نمونه در امتداد آن پرتو محاسبه می کند. برای محاسبه این ویژگی ها، DyniBaR آن نمونه ها را از طریق هندسه چند نمایه در نماهای دیگر پروژه می دهد، اما ابتدا باید حرکت تخمینی هر نقطه را جبران کنیم.خط قرمز شکسته). (ج) با استفاده از این حرکت تخمین زده شده، DynIBaR هر نقطه را به صورت سه بعدی به زمان مربوطه قبل از نمایش آن به دوربین منبع مربوطه منتقل می کند تا از رنگ ها برای استفاده در رندر نمونه برداری کند. DynIBaR حرکت هر نقطه صحنه را به عنوان بخشی از یادگیری نحوه ترکیب نماهای جدید از صحنه بهینه می کند.

با این حال، بازسازی و استخراج نماهای جدید برای یک صحنه پیچیده و متحرک یک مشکل بسیار بد است، زیرا راه‌حل‌های زیادی وجود دارد که می‌تواند ویدیوی ورودی را توضیح دهد – به عنوان مثال، ممکن است نمایش‌های سه بعدی قطع شده برای هر مرحله زمانی ایجاد کند. بنابراین، بهینه سازی DynIBaR برای بازسازی ویدیوی ورودی به تنهایی کافی نیست. برای به دست آوردن نتایج با کیفیت بالا، چندین تکنیک دیگر را نیز معرفی می کنیم، از جمله روشی به نام رندر متقاطع. رندر متقاطع به استفاده از حالت نمایش 4 بعدی ما در یک لحظه برای ارائه تصاویر از یک لحظه زمانی متفاوت اشاره دارد، که نمایش 4 بعدی را تشویق می کند تا در طول زمان منسجم باشد. برای بهبود بیشتر وفاداری رندر، ما به طور خودکار صحنه را به دو مؤلفه، یک استاتیک و یک مؤلفه دینامیک، که به ترتیب با نمایش‌های صحنه ثابت و متغیر با زمان مدل‌سازی می‌شوند، فاکتور می‌کنیم.

ایجاد جلوه های ویدیویی

DynIBaR جلوه های ویدیویی مختلف را فعال می کند. در زیر چندین نمونه را نشان می دهیم.

تثبیت کننده ویدیو

ما از یک ویدیوی ورودی لرزان و دستی برای مقایسه عملکرد تثبیت‌کننده ویدیوی DynIBaR با روش‌های تثبیت‌کننده ویدیوی دوبعدی و پویا NeRF، از جمله FuSta، DIFRINT، HyperNeRF و NSFF استفاده می‌کنیم. ما نشان می‌دهیم که DynIBaR خروجی‌های نرم‌تری با وفاداری رندر بالاتر و آرتیفکت‌های کمتر تولید می‌کند (مثلاً نتایج سوسو زدن یا تار شدن). به طور خاص، FuSta لرزش باقیمانده دوربین را ایجاد می کند، DIFRINT سوسو زدن را در اطراف مرزهای جسم ایجاد می کند، و HyperNeRF و NSFF نتایج تار ایجاد می کنند.

سنتز نمای همزمان و حرکت آهسته

DynIBaR می تواند سنتز نما را در فضا و زمان به طور همزمان انجام دهد و جلوه های سینمایی سه بعدی صاف را تولید کند. در زیر، نشان می‌دهیم که DynIBaR می‌تواند ورودی‌های ویدیویی بگیرد و ویدیوهای حرکت آهسته 5 برابری را که با استفاده از مسیرهای جدید دوربین ارائه شده است، تولید کند.

بوکه ویدیویی

DynIBaR همچنین می‌تواند بوکه ویدیویی با کیفیت بالا را با ترکیب ویدیوها با عمق میدان در حال تغییر پویا تولید کند. با توجه به یک ویدیوی ورودی همه جانبه، DynIBar می‌تواند ویدیوهای خروجی با کیفیت بالا با مناطق مختلف خارج از فوکوس تولید کند که توجه را به حرکت (مثلاً شخص و سگ در حال دویدن) و محتوای ثابت (مثلاً درختان و ساختمان‌ها) جلب می‌کند. در صحنه

نتیجه

DynIBaR یک جهش به جلو در توانایی ما برای ارائه صحنه های متحرک پیچیده از مسیرهای جدید دوربین است. در حالی که در حال حاضر شامل بهینه‌سازی برای هر ویدیو می‌شود، ما نسخه‌های سریع‌تری را پیش‌بینی می‌کنیم که می‌توانند بر روی ویدیوهای درون وحشی مستقر شوند تا انواع جدیدی از جلوه‌ها را برای ویرایش ویدیوی مصرف‌کننده با استفاده از دستگاه‌های تلفن همراه فعال کنند.

سپاسگزاریها

DynIBaR نتیجه همکاری بین محققان Google Research و دانشگاه کرنل است. مشارکت کنندگان کلیدی در کار ارائه شده در این پست عبارتند از Zhengqi Li، Qianqian Wang، Forrester Cole، Richard Tucker و Noah Snavely.

سئو PBN | خبر های جدید سئو و هک و سرور