دوربین گوشی موبایل ابزاری قدرتمند برای ثبت لحظات روزمره است. با این حال، گرفتن یک صحنه پویا با استفاده از یک دوربین اساساً محدود است. به عنوان مثال، اگر بخواهیم حرکت دوربین یا زمانبندی یک ویدیوی ضبطشده را تنظیم کنیم (مثلاً برای ثابت کردن زمان در حین جارو کردن دوربین برای برجسته کردن یک لحظه دراماتیک)، معمولاً به یک چیدمان گران قیمت هالیوود با یک دستگاه دوربین همگامسازی شده نیاز داریم. آیا امکان دستیابی به جلوه های مشابه تنها از طریق یک ویدیوی ضبط شده با استفاده از دوربین تلفن همراه، بدون بودجه هالیوود امکان پذیر است؟
در «DynIBaR: رندر مبتنی بر تصویر پویای عصبی»، که بهترین مقاله افتخاری در CVPR 2023 است، روش جدیدی را توصیف میکنیم که رندرهایی با زاویه دید آزاد واقعی از یک ویدیو از یک صحنه پیچیده و پویا ایجاد میکند. رندر مبتنی بر تصویر پویا عصبی (DynIBaR) میتواند برای تولید طیف وسیعی از جلوههای ویدیویی، مانند جلوههای زمان گلوله (جایی که زمان متوقف میشود و دوربین با سرعت معمولی در اطراف یک صحنه حرکت میکند)، تثبیتکننده ویدیو، عمق استفاده میشود. میدانی و حرکت آهسته، از یک ویدیوی منفرد که با دوربین گوشی گرفته شده است. ما نشان میدهیم که DynIBaR بهطور قابلتوجهی رندر ویدیوی صحنههای متحرک پیچیده را پیش میبرد و دری را به روی انواع جدیدی از برنامههای ویرایش ویدیو باز میکند. ما همچنین کد را در صفحه پروژه DynIBaR منتشر کرده ایم، بنابراین می توانید خودتان آن را امتحان کنید.
DynIBaR با توجه به یک ویدیوی درونی از یک صحنه پیچیده و پویا، میتواند زمان را ثابت کند و در عین حال به دوربین اجازه میدهد آزادانه در صحنه حرکت کند. |
زمینه
در چند سال گذشته شاهد پیشرفتهای فوقالعادهای در تکنیکهای بینایی کامپیوتری بودهایم که از میدانهای تابشی عصبی (NeRFs) برای بازسازی و نمایش صحنههای سهبعدی ثابت (غیر متحرک) استفاده میکنند. با این حال، بیشتر ویدیوهایی که مردم با دستگاه های تلفن همراه خود می گیرند، حرکت را به تصویر می کشند اشیاء، مانند افراد، حیوانات خانگی و اتومبیل. این صحنه های متحرک منجر به بازسازی صحنه 4 بعدی (3 بعدی + زمان) بسیار چالش برانگیزتر می شود مشکلی که با استفاده از روش های سنتز نمای استاندارد قابل حل نیست.
روشهای سنتز نمای استاندارد زمانی که برای ویدیوهای صحنههای پویا اعمال میشوند، رندرهای تار و نادرست را خروجی میدهند. |
سایر روشهای اخیر با استفاده از میدانهای تابشی عصبی فضا-زمان، با سنتز نما برای صحنههای پویا مقابله میکنند (به عنوان مثال، NeRF های پویا)، اما چنین رویکردهایی همچنان محدودیتهای ذاتی را نشان میدهند که مانع از کاربرد آنها برای ویدیوهای غیرعادی و غیرعادی میشود. بهویژه، آنها برای ارائه نماهای جدید با کیفیت بالا از ویدیوهای دارای مدت زمان طولانی، مسیرهای کنترلنشده دوربین و حرکت پیچیده اشیاء تلاش میکنند.
مشکل اصلی این است که آنها یک صحنه پیچیده و متحرک را در یک ساختار داده واحد ذخیره می کنند. به ویژه، آنها صحنه هایی را در وزن شبکه عصبی پرسپترون چندلایه (MLP) رمزگذاری می کنند. MLP ها می توانند هر تابعی را تقریب بزنند – در این مورد، تابعی که یک نقطه فضا-زمان 4 بعدی را ترسیم می کند.ایکس، y، z، تی) به رنگ و چگالی RGB که می توانیم در رندر کردن تصاویر یک صحنه استفاده کنیم. با این حال، ظرفیت این MLP (تعریف شده توسط تعداد پارامترهای شبکه عصبی آن) باید با توجه به طول ویدئو و پیچیدگی صحنه افزایش یابد، و بنابراین، آموزش چنین مدلهایی بر روی ویدئوهای درون طبیعت میتواند از نظر محاسباتی غیرقابل حل باشد. در نتیجه، ما رندرهای مبهم و نادرست مانند آنچه که توسط DVS و NSFF تولید شده است (نشان داده شده در زیر) دریافت می کنیم. DynIBaR از ایجاد چنین مدل های صحنه بزرگ با اتخاذ یک الگوی رندر متفاوت اجتناب می کند.
DynIBaR (ردیف پایین) به طور قابل توجهی کیفیت رندر را در مقایسه با روش های سنتز نمای دینامیکی قبلی بهبود می بخشد (ردیف بالا) برای ویدیوهای صحنه های پویا پیچیده. روشهای قبلی رندرهای مبهم تولید میکنند زیرا باید کل صحنه متحرک را در یک ساختار داده MLP ذخیره کنند. |
رندر مبتنی بر تصویر (IBR)
یک بینش کلیدی پشت DynIBaR این است که ما در واقع نیازی به ذخیره تمام محتویات صحنه در یک ویدیو در یک MLP غول پیکر نداریم. در عوض، ما مستقیماً از دادههای پیکسلی از فریمهای ویدیوی ورودی اطراف برای ارائه نماهای جدید استفاده میکنیم. DynIBaR بر اساس یک رندر مبتنی بر تصویر روش (IBR) به نام IBRNet که برای سنتز نمایش برای صحنه های ایستا طراحی شده است. روشهای IBR تشخیص میدهند که نمای هدف جدید از یک صحنه باید بسیار شبیه به تصاویر منبع نزدیک باشد، و بنابراین هدف را با انتخاب پویا و تاب برداشتن پیکسلها از فریمهای منبع نزدیک، به جای بازسازی کل صحنه از قبل، ترکیب میکند. IBRNet، به ویژه، یاد می گیرد که تصاویر نزدیک را با هم ترکیب کند تا نماهای جدیدی از یک صحنه را در چارچوب رندر حجمی بازسازی کند.
DynIBaR: گسترش IBR به ویدیوهای پیچیده و پویا
برای گسترش IBR به صحنه های پویا، باید حرکت صحنه را در حین رندر در نظر بگیریم. بنابراین، به عنوان بخشی از بازسازی یک ویدیوی ورودی، ما حرکت را حل می کنیم از هر نقطه سه بعدی، جایی که ما حرکت صحنه را با استفاده از یک میدان مسیر حرکت کدگذاری شده توسط یک MLP نشان میدهیم. برخلاف روشهای دینامیک NeRF قبلی که کل ظاهر صحنه و هندسه را در یک MLP ذخیره میکردند، ما فقط حرکت را ذخیره میکنیم، سیگنالی که صافتر و پراکندهتر است، و از فریمهای ویدیوی ورودی برای تعیین هر چیز دیگری که برای نمایش نماهای جدید لازم است استفاده میکنیم.
ما DynIBaR را برای یک ویدیوی مشخص با گرفتن هر فریم ویدیوی ورودی، رندر کردن پرتوها برای تشکیل یک تصویر دو بعدی با استفاده از رندر حجمی (مانند NeRF) و مقایسه آن تصویر رندر شده با فریم ورودی، بهینه می کنیم. یعنی نمایش بهینه شده ما باید بتواند ویدیوی ورودی را به خوبی بازسازی کند.
![]() |
ما نشان میدهیم که چگونه DynIBaR تصاویر صحنههای پویا را ارائه میکند. برای سادگی، ما یک دنیای دو بعدی را همانطور که از بالا مشاهده می کنید نشان می دهیم. (آ) مجموعه ای از نماهای منبع ورودی (مثلثی دوربین عکاسی) یک مکعب را در حال حرکت در صحنه مشاهده کنید (مربع متحرک). هر دوربین با برچسب زمانی خود (تی-2، تی-1 و غیره). (ب) برای ارائه یک نمای از دوربین در زمان تی، DynIBaR یک پرتو مجازی از هر پیکسل می اندازد (خط آبی) و رنگ ها و کدورت ها را برای نقاط نمونه در امتداد آن پرتو محاسبه می کند. برای محاسبه این ویژگی ها، DyniBaR آن نمونه ها را از طریق هندسه چند نمایه در نماهای دیگر پروژه می دهد، اما ابتدا باید حرکت تخمینی هر نقطه را جبران کنیم.خط قرمز شکسته). (ج) با استفاده از این حرکت تخمین زده شده، DynIBaR هر نقطه را به صورت سه بعدی به زمان مربوطه قبل از نمایش آن به دوربین منبع مربوطه منتقل می کند تا از رنگ ها برای استفاده در رندر نمونه برداری کند. DynIBaR حرکت هر نقطه صحنه را به عنوان بخشی از یادگیری نحوه ترکیب نماهای جدید از صحنه بهینه می کند. |
با این حال، بازسازی و استخراج نماهای جدید برای یک صحنه پیچیده و متحرک یک مشکل بسیار بد است، زیرا راهحلهای زیادی وجود دارد که میتواند ویدیوی ورودی را توضیح دهد – به عنوان مثال، ممکن است نمایشهای سه بعدی قطع شده برای هر مرحله زمانی ایجاد کند. بنابراین، بهینه سازی DynIBaR برای بازسازی ویدیوی ورودی به تنهایی کافی نیست. برای به دست آوردن نتایج با کیفیت بالا، چندین تکنیک دیگر را نیز معرفی می کنیم، از جمله روشی به نام رندر متقاطع. رندر متقاطع به استفاده از حالت نمایش 4 بعدی ما در یک لحظه برای ارائه تصاویر از یک لحظه زمانی متفاوت اشاره دارد، که نمایش 4 بعدی را تشویق می کند تا در طول زمان منسجم باشد. برای بهبود بیشتر وفاداری رندر، ما به طور خودکار صحنه را به دو مؤلفه، یک استاتیک و یک مؤلفه دینامیک، که به ترتیب با نمایشهای صحنه ثابت و متغیر با زمان مدلسازی میشوند، فاکتور میکنیم.
ایجاد جلوه های ویدیویی
DynIBaR جلوه های ویدیویی مختلف را فعال می کند. در زیر چندین نمونه را نشان می دهیم.
تثبیت کننده ویدیو
ما از یک ویدیوی ورودی لرزان و دستی برای مقایسه عملکرد تثبیتکننده ویدیوی DynIBaR با روشهای تثبیتکننده ویدیوی دوبعدی و پویا NeRF، از جمله FuSta، DIFRINT، HyperNeRF و NSFF استفاده میکنیم. ما نشان میدهیم که DynIBaR خروجیهای نرمتری با وفاداری رندر بالاتر و آرتیفکتهای کمتر تولید میکند (مثلاً نتایج سوسو زدن یا تار شدن). به طور خاص، FuSta لرزش باقیمانده دوربین را ایجاد می کند، DIFRINT سوسو زدن را در اطراف مرزهای جسم ایجاد می کند، و HyperNeRF و NSFF نتایج تار ایجاد می کنند.
سنتز نمای همزمان و حرکت آهسته
DynIBaR می تواند سنتز نما را در فضا و زمان به طور همزمان انجام دهد و جلوه های سینمایی سه بعدی صاف را تولید کند. در زیر، نشان میدهیم که DynIBaR میتواند ورودیهای ویدیویی بگیرد و ویدیوهای حرکت آهسته 5 برابری را که با استفاده از مسیرهای جدید دوربین ارائه شده است، تولید کند.
بوکه ویدیویی
DynIBaR همچنین میتواند بوکه ویدیویی با کیفیت بالا را با ترکیب ویدیوها با عمق میدان در حال تغییر پویا تولید کند. با توجه به یک ویدیوی ورودی همه جانبه، DynIBar میتواند ویدیوهای خروجی با کیفیت بالا با مناطق مختلف خارج از فوکوس تولید کند که توجه را به حرکت (مثلاً شخص و سگ در حال دویدن) و محتوای ثابت (مثلاً درختان و ساختمانها) جلب میکند. در صحنه
نتیجه
DynIBaR یک جهش به جلو در توانایی ما برای ارائه صحنه های متحرک پیچیده از مسیرهای جدید دوربین است. در حالی که در حال حاضر شامل بهینهسازی برای هر ویدیو میشود، ما نسخههای سریعتری را پیشبینی میکنیم که میتوانند بر روی ویدیوهای درون وحشی مستقر شوند تا انواع جدیدی از جلوهها را برای ویرایش ویدیوی مصرفکننده با استفاده از دستگاههای تلفن همراه فعال کنند.
سپاسگزاریها
DynIBaR نتیجه همکاری بین محققان Google Research و دانشگاه کرنل است. مشارکت کنندگان کلیدی در کار ارائه شده در این پست عبارتند از Zhengqi Li، Qianqian Wang، Forrester Cole، Richard Tucker و Noah Snavely.