یک مشکل دیرینه در تقاطع بینایی کامپیوتر و گرافیک کامپیوتری، سنتز نما وظیفه ایجاد نماهای جدید از یک صحنه از چندین عکس از آن صحنه است. این مورد توجه بیشتری را به خود جلب کرده است [1, 2, 3] از زمان معرفی میدان های تابشی عصبی (NeRF). مشکل چالش برانگیز است زیرا برای ترکیب دقیق نماهای جدید از یک منظره، یک مدل نیاز به گرفتن انواع مختلفی از اطلاعات – ساختار سه بعدی دقیق، مواد و روشنایی آن – از مجموعه کوچکی از تصاویر مرجع دارد.
در این پست، مدلهای یادگیری عمیق را که اخیراً منتشر شدهاند برای سنتز view ارائه میکنیم. در «رندر عصبی میدان نور» (LFNR)، که در CVPR 2022 ارائه شد، با استفاده از ترانسفورماتورهایی که ترکیب رنگهای پیکسل مرجع را یاد میگیرند، به چالش بازتولید دقیق جلوههای وابسته به دید میپردازیم. سپس در «رندر عصبی مبتنی بر پچ تعمیمپذیر» (GPNR)، که در ECCV 2022 ارائه میشود، با استفاده از دنبالهای از ترانسفورماتورها با رمزگذاری موقعیتی متعارف که میتوانند روی مجموعهای از صحنهها آموزش داده شوند، به چالش تعمیم به صحنههای نادیده میپردازیم. ترکیب نماهای صحنه های جدید این مدل ها دارای ویژگی های منحصر به فردی هستند. آنها رندر مبتنی بر تصویر را انجام می دهند و رنگ ها و ویژگی های تصاویر مرجع را برای ارائه نماهای جدید ترکیب می کنند. آنها صرفاً مبتنی بر ترانسفورماتور هستند و بر روی مجموعهای از وصلههای تصویر کار میکنند و از نمایش میدان نوری 4 بعدی برای رمزگذاری موقعیتی استفاده میکنند که به مدلسازی افکتهای وابسته به دید کمک میکند.
ما مدلهای یادگیری عمیق را آموزش میدهیم که میتوانند نماهای جدیدی از یک صحنه را با توجه به چند تصویر از آن ایجاد کنند. این مدلها بهویژه هنگام کنترل اثرات وابسته به دید مانند شکست و شفافیت روی لولههای آزمایش مؤثر هستند. این انیمیشن فشرده شده است. رندرهای با کیفیت اصلی را اینجا ببینید. منبع: صحنه آزمایشگاه از مجموعه داده NeX/Shiny. |
بررسی اجمالی
ورودی مدل ها شامل مجموعه ای از تصاویر مرجع و پارامترهای دوربین آنها (فاصله کانونی، موقعیت و جهت گیری در فضا) به همراه مختصات پرتوی هدف است که می خواهیم رنگ آن را تعیین کنیم. برای تولید یک تصویر جدید، از پارامترهای دوربین تصاویر ورودی شروع میکنیم، مختصات پرتوهای هدف (هر کدام مربوط به یک پیکسل) را به دست میآوریم و مدل را برای هر کدام جستجو میکنیم.
به جای پردازش کامل هر تصویر مرجع، ما فقط به مناطقی نگاه می کنیم که احتمالاً پیکسل هدف را تحت تأثیر قرار می دهند. این مناطق از طریق هندسه اپی قطبی تعیین می شوند، که هر پیکسل هدف را به یک خط در هر فریم مرجع ترسیم می کند. برای استحکام، نواحی کوچکی را در اطراف تعدادی از نقاط روی خط اپیقطبی میگیریم، و در نتیجه مجموعهای از تکههایی ایجاد میکنیم که در واقع توسط مدل پردازش میشوند. سپس ترانسفورماتورها روی این مجموعه تکهها عمل میکنند تا رنگ پیکسل مورد نظر را به دست آورند.
ترانسفورماتورها به ویژه در این تنظیمات مفید هستند زیرا مکانیسم توجه به خود آنها به طور طبیعی مجموعه ها را به عنوان ورودی می گیرد و وزن توجه خود را می توان برای ترکیب رنگ های نمای مرجع و ویژگی ها برای پیش بینی رنگ های پیکسل خروجی استفاده کرد. این ترانسفورماتورها از معماری معرفی شده در ViT پیروی می کنند.
برای پیشبینی رنگ یک پیکسل، مدلها مجموعهای از تکههای استخراج شده در اطراف خط اپی قطبی هر نمای مرجع را انتخاب میکنند. منبع تصویر: مجموعه داده LLFF. |
رندر عصبی میدان نور
در رندر عصبی میدان نور (LFNR)، ما از دنباله ای از دو ترانسفورماتور برای نگاشت مجموعه تکه ها به رنگ پیکسل هدف استفاده می کنیم. اولین ترانسفورماتور اطلاعات را در امتداد هر خط اپی قطبی و دومی در امتداد هر تصویر مرجع جمع می کند. میتوانیم اولین ترانسفورماتور را بهعنوان یافتن مطابقتهای بالقوه پیکسل هدف در هر فریم مرجع، و دومی بهعنوان استدلال در مورد انسداد و افکتهای وابسته به دید، که چالشهای رایج رندر مبتنی بر تصویر هستند، تفسیر کنیم.
LFNR از دنباله ای از دو ترانسفورماتور برای نگاشت مجموعه ای از تکه های استخراج شده در امتداد خطوط اپی قطبی به رنگ پیکسل هدف استفاده می کند. |
LFNR در محبوبترین معیارهای ترکیب نما (Blender و صحنههای Real Forward-Facing از NeRF و Shiny از NeX) با حاشیههایی به بزرگی 5dB نسبت سیگنال به نویز (PSNR) پیشرفتهتر شد. این مربوط به کاهش خطای پیکسل به میزان 1.8 برابر است. ما نتایج کیفی را در صحنه های چالش برانگیز از مجموعه داده براق در زیر نشان می دهیم:
LFNR جلوه های چالش برانگیز وابسته به دید مانند رنگین کمان و انعکاس روی سی دی، انعکاس، شکست و شفافیت روی بطری ها را بازتولید می کند. این انیمیشن فشرده شده است. رندرهای با کیفیت اصلی را اینجا ببینید. منبع: صحنه CD از مجموعه داده NeX/Shiny. |
روشهای قبلی مانند NeX و NeRF قادر به بازتولید اثرات وابسته به دید مانند شفافیت و شکست در لولههای آزمایش در صحنه آزمایشگاه از مجموعه دادههای NeX/Shiny نیستند. همچنین ویدیوی ما از این صحنه را در بالای پست و خروجی های با کیفیت اصلی را اینجا ببینید. |
تعمیم به صحنه های جدید
یکی از محدودیت های LFNR این است که اولین ترانسفورماتور اطلاعات را در امتداد هر خط اپی قطبی به طور مستقل برای هر تصویر مرجع جمع می کند. این بدان معناست که تصمیم میگیرد که کدام اطلاعات را تنها بر اساس مختصات پرتوهای خروجی و وصلههای هر تصویر مرجع حفظ کند، که هنگام آموزش روی یک صحنه به خوبی کار میکند (همانطور که اکثر روشهای رندر عصبی انجام میدهند)، اما بین صحنهها تعمیم نمییابد. روش های تعمیم پذیر مهم هستند زیرا می توان آنها را بدون نیاز به آموزش مجدد در صحنه های جدید به کار برد.
ما بر این محدودیت LFNR در رندر عصبی مبتنی بر پچ تعمیم پذیر (GPNR) غلبه کردیم. ما یک ترانسفورماتور اضافه می کنیم که قبل از دو مورد دیگر اجرا می شود و اطلاعات را بین نقاط در همان عمق روی تمام تصاویر مرجع تبادل می کند. برای مثال، این اولین ترانسفورماتور از روی نیمکت پارک که در بالا نشان داده شده است، به ستونهای تکهها نگاه میکند و میتواند از نشانههایی مانند گلی که در عمقهای مربوطه در دو نمای ظاهر میشود، استفاده کند که نشاندهنده تطابق احتمالی است. یکی دیگر از ایده های کلیدی این کار، متعارف کردن رمزگذاری موقعیتی بر اساس پرتو هدف است، زیرا برای تعمیم در سراسر صحنه ها، لازم است که کمیت ها در چارچوب های مرجع نسبی و نه مطلق نمایش داده شوند. انیمیشن زیر نمای کلی مدل را نشان می دهد.
GPNR متشکل از دنباله ای از سه ترانسفورماتور است که مجموعه ای از تکه های استخراج شده در امتداد خطوط اپی قطبی را به رنگ پیکسل ترسیم می کند. وصله های تصویر از طریق لایه طرح ریزی خطی به ویژگی های اولیه (نشان داده شده به عنوان جعبه آبی و سبز) نگاشت می شوند. سپس آن ویژگیها بهطور متوالی توسط مدل پالایش و جمعآوری میشوند، و در نتیجه ویژگی/رنگ نهایی که توسط مستطیل خاکستری نشان داده میشود. منبع تصویر نیمکت پارک: مجموعه داده LLFF. |
برای ارزیابی عملکرد تعمیم، GPNR را روی مجموعهای از صحنهها آموزش میدهیم و آن را روی صحنههای جدید آزمایش میکنیم. GPNR در چندین معیار (به دنبال پروتکلهای IBRNet و MVSNeRF) به طور متوسط بین 0.5 تا 1.0 دسیبل پیشرفتهترین حالت را بهبود بخشید. در معیار IBRNet، GPNR از خطوط پایه بهتر عمل می کند در حالی که تنها از 11 درصد از صحنه های آموزشی استفاده می کند. نتایج زیر نماهای جدیدی از صحنه های دیده نشده را نشان می دهد که بدون تنظیم دقیق ارائه شده اند.
نماهای ایجاد شده توسط GPNR از صحنه های نگه داشته شده، بدون هیچ گونه تنظیم دقیق. این انیمیشن فشرده شده است. رندرهای با کیفیت اصلی را اینجا ببینید. منبع: مجموعه داده های جمع آوری شده IBRNet. |
جزئیات نماهای ایجاد شده توسط GPNR در صحنه های نگه داشته شده از NeX/Shiny (ترک کرد) و LLFF (درست)، بدون هیچ گونه تنظیم دقیق. GPNR در مقایسه با IBRNet جزئیات روی برگ و انکسارها را از طریق لنز با دقت بیشتری بازتولید می کند. |
کار آینده
یکی از محدودیتهای اکثر روشهای رندر عصبی، از جمله روش ما، این است که برای هر تصویر ورودی به حالت دوربین نیاز دارند. بهدست آوردن پوزها آسان نیست و معمولاً از روشهای بهینهسازی آفلاین میآیند که میتواند کند باشد و برنامههای ممکن را محدود کند، مانند مواردی که در دستگاههای تلفن همراه وجود دارد. تحقیق در مورد یادگیری مشترک ترکیب دیدگاه و موقعیت های ورودی یک جهت آینده امیدوارکننده است. یکی دیگر از محدودیت های مدل های ما این است که آموزش آنها از نظر محاسباتی گران است. یک خط تحقیقاتی فعال در مورد ترانسفورماتورهای سریعتر وجود دارد که ممکن است به بهبود کارایی مدلهای ما کمک کند. برای مقالات، نتایج بیشتر و کد منبع باز، میتوانید صفحات پروژه را برای «نرمآوری عصبی میدان نور» و «رندر عصبی مبتنی بر پچ عمومی» بررسی کنید.
سوء استفاده بالقوه
در تحقیقات خود، هدف ما این است که یک صحنه موجود را با استفاده از تصاویر آن صحنه به طور دقیق بازتولید کنیم، بنابراین فضای کمی برای تولید صحنه های جعلی یا غیر موجود وجود دارد. مدلهای ما صحنههای ایستا را فرض میکنند، بنابراین سنتز اشیاء متحرک، مانند افراد، کارساز نخواهد بود.
قدردانی
تمام کار سخت توسط کارآموز شگفتانگیز ما – محمد سهیل – دانشجوی دکترا در UBC، با همکاری کارلوس استیوز و آمیش ماکادیا از Google Research و لئونید سیگال از UBC انجام شد. ما از Corinna Cortes برای حمایت و تشویق این پروژه سپاسگزاریم.
کار ما از NeRF الهام گرفته شده است، که علاقه اخیر به ترکیب دیدگاه ها را برانگیخت، و IBRNet، که ابتدا تعمیم به صحنه های جدید را در نظر گرفت. رمزگذاری موقعیتی پرتوی نور ما از مقاله منی Light Field Rendering الهام گرفته شده است و استفاده ما از ترانسفورماتورها از ViT پیروی می کند.
نتایج ویدیو از صحنههایی از مجموعه دادههای جمعآوریشده LLFF، Shiny و IBRNet است.