وبلاگ هوش مصنوعی گوگل: مشاهده سنتز با ترانسفورماتورها

یک مشکل دیرینه در تقاطع بینایی کامپیوتر و گرافیک کامپیوتری، سنتز نما وظیفه ایجاد نماهای جدید از یک صحنه از چندین عکس از آن صحنه است. این مورد توجه بیشتری را به خود جلب کرده است [1, 2, 3] از زمان معرفی میدان های تابشی عصبی (NeRF). مشکل چالش برانگیز است زیرا برای ترکیب دقیق نماهای جدید از یک منظره، یک مدل نیاز به گرفتن انواع مختلفی از اطلاعات – ساختار سه بعدی دقیق، مواد و روشنایی آن – از مجموعه کوچکی از تصاویر مرجع دارد.

در این پست، مدل‌های یادگیری عمیق را که اخیراً منتشر شده‌اند برای سنتز view ارائه می‌کنیم. در «رندر عصبی میدان نور» (LFNR)، که در CVPR 2022 ارائه شد، با استفاده از ترانسفورماتورهایی که ترکیب رنگ‌های پیکسل مرجع را یاد می‌گیرند، به چالش بازتولید دقیق جلوه‌های وابسته به دید می‌پردازیم. سپس در «رندر عصبی مبتنی بر پچ تعمیم‌پذیر» (GPNR)، که در ECCV 2022 ارائه می‌شود، با استفاده از دنباله‌ای از ترانسفورماتورها با رمزگذاری موقعیتی متعارف که می‌توانند روی مجموعه‌ای از صحنه‌ها آموزش داده شوند، به چالش تعمیم به صحنه‌های نادیده می‌پردازیم. ترکیب نماهای صحنه های جدید این مدل ها دارای ویژگی های منحصر به فردی هستند. آنها رندر مبتنی بر تصویر را انجام می دهند و رنگ ها و ویژگی های تصاویر مرجع را برای ارائه نماهای جدید ترکیب می کنند. آنها صرفاً مبتنی بر ترانسفورماتور هستند و بر روی مجموعه‌ای از وصله‌های تصویر کار می‌کنند و از نمایش میدان نوری 4 بعدی برای رمزگذاری موقعیتی استفاده می‌کنند که به مدل‌سازی افکت‌های وابسته به دید کمک می‌کند.

ما مدل‌های یادگیری عمیق را آموزش می‌دهیم که می‌توانند نماهای جدیدی از یک صحنه را با توجه به چند تصویر از آن ایجاد کنند. این مدل‌ها به‌ویژه هنگام کنترل اثرات وابسته به دید مانند شکست و شفافیت روی لوله‌های آزمایش مؤثر هستند. این انیمیشن فشرده شده است. رندرهای با کیفیت اصلی را اینجا ببینید. منبع: صحنه آزمایشگاه از مجموعه داده NeX/Shiny.

بررسی اجمالی
ورودی مدل ها شامل مجموعه ای از تصاویر مرجع و پارامترهای دوربین آنها (فاصله کانونی، موقعیت و جهت گیری در فضا) به همراه مختصات پرتوی هدف است که می خواهیم رنگ آن را تعیین کنیم. برای تولید یک تصویر جدید، از پارامترهای دوربین تصاویر ورودی شروع می‌کنیم، مختصات پرتوهای هدف (هر کدام مربوط به یک پیکسل) را به دست می‌آوریم و مدل را برای هر کدام جستجو می‌کنیم.

به جای پردازش کامل هر تصویر مرجع، ما فقط به مناطقی نگاه می کنیم که احتمالاً پیکسل هدف را تحت تأثیر قرار می دهند. این مناطق از طریق هندسه اپی قطبی تعیین می شوند، که هر پیکسل هدف را به یک خط در هر فریم مرجع ترسیم می کند. برای استحکام، نواحی کوچکی را در اطراف تعدادی از نقاط روی خط اپی‌قطبی می‌گیریم، و در نتیجه مجموعه‌ای از تکه‌هایی ایجاد می‌کنیم که در واقع توسط مدل پردازش می‌شوند. سپس ترانسفورماتورها روی این مجموعه تکه‌ها عمل می‌کنند تا رنگ پیکسل مورد نظر را به دست آورند.

ترانسفورماتورها به ویژه در این تنظیمات مفید هستند زیرا مکانیسم توجه به خود آنها به طور طبیعی مجموعه ها را به عنوان ورودی می گیرد و وزن توجه خود را می توان برای ترکیب رنگ های نمای مرجع و ویژگی ها برای پیش بینی رنگ های پیکسل خروجی استفاده کرد. این ترانسفورماتورها از معماری معرفی شده در ViT پیروی می کنند.

برای پیش‌بینی رنگ یک پیکسل، مدل‌ها مجموعه‌ای از تکه‌های استخراج شده در اطراف خط اپی قطبی هر نمای مرجع را انتخاب می‌کنند. منبع تصویر: مجموعه داده LLFF.

رندر عصبی میدان نور
در رندر عصبی میدان نور (LFNR)، ما از دنباله ای از دو ترانسفورماتور برای نگاشت مجموعه تکه ها به رنگ پیکسل هدف استفاده می کنیم. اولین ترانسفورماتور اطلاعات را در امتداد هر خط اپی قطبی و دومی در امتداد هر تصویر مرجع جمع می کند. می‌توانیم اولین ترانسفورماتور را به‌عنوان یافتن مطابقت‌های بالقوه پیکسل هدف در هر فریم مرجع، و دومی به‌عنوان استدلال در مورد انسداد و افکت‌های وابسته به دید، که چالش‌های رایج رندر مبتنی بر تصویر هستند، تفسیر کنیم.

LFNR از دنباله ای از دو ترانسفورماتور برای نگاشت مجموعه ای از تکه های استخراج شده در امتداد خطوط اپی قطبی به رنگ پیکسل هدف استفاده می کند.

LFNR در محبوب‌ترین معیارهای ترکیب نما (Blender و صحنه‌های Real Forward-Facing از NeRF و Shiny از NeX) با حاشیه‌هایی به بزرگی 5dB نسبت سیگنال به نویز (PSNR) پیشرفته‌تر شد. این مربوط به کاهش خطای پیکسل به میزان 1.8 برابر است. ما نتایج کیفی را در صحنه های چالش برانگیز از مجموعه داده براق در زیر نشان می دهیم:

LFNR جلوه های چالش برانگیز وابسته به دید مانند رنگین کمان و انعکاس روی سی دی، انعکاس، شکست و شفافیت روی بطری ها را بازتولید می کند. این انیمیشن فشرده شده است. رندرهای با کیفیت اصلی را اینجا ببینید. منبع: صحنه CD از مجموعه داده NeX/Shiny.
روش‌های قبلی مانند NeX و NeRF قادر به بازتولید اثرات وابسته به دید مانند شفافیت و شکست در لوله‌های آزمایش در صحنه آزمایشگاه از مجموعه داده‌های NeX/Shiny نیستند. همچنین ویدیوی ما از این صحنه را در بالای پست و خروجی های با کیفیت اصلی را اینجا ببینید.

تعمیم به صحنه های جدید
یکی از محدودیت های LFNR این است که اولین ترانسفورماتور اطلاعات را در امتداد هر خط اپی قطبی به طور مستقل برای هر تصویر مرجع جمع می کند. این بدان معناست که تصمیم می‌گیرد که کدام اطلاعات را تنها بر اساس مختصات پرتوهای خروجی و وصله‌های هر تصویر مرجع حفظ کند، که هنگام آموزش روی یک صحنه به خوبی کار می‌کند (همانطور که اکثر روش‌های رندر عصبی انجام می‌دهند)، اما بین صحنه‌ها تعمیم نمی‌یابد. روش های تعمیم پذیر مهم هستند زیرا می توان آنها را بدون نیاز به آموزش مجدد در صحنه های جدید به کار برد.

ما بر این محدودیت LFNR در رندر عصبی مبتنی بر پچ تعمیم پذیر (GPNR) غلبه کردیم. ما یک ترانسفورماتور اضافه می کنیم که قبل از دو مورد دیگر اجرا می شود و اطلاعات را بین نقاط در همان عمق روی تمام تصاویر مرجع تبادل می کند. برای مثال، این اولین ترانسفورماتور از روی نیمکت پارک که در بالا نشان داده شده است، به ستون‌های تکه‌ها نگاه می‌کند و می‌تواند از نشانه‌هایی مانند گلی که در عمق‌های مربوطه در دو نمای ظاهر می‌شود، استفاده کند که نشان‌دهنده تطابق احتمالی است. یکی دیگر از ایده های کلیدی این کار، متعارف کردن رمزگذاری موقعیتی بر اساس پرتو هدف است، زیرا برای تعمیم در سراسر صحنه ها، لازم است که کمیت ها در چارچوب های مرجع نسبی و نه مطلق نمایش داده شوند. انیمیشن زیر نمای کلی مدل را نشان می دهد.

GPNR متشکل از دنباله ای از سه ترانسفورماتور است که مجموعه ای از تکه های استخراج شده در امتداد خطوط اپی قطبی را به رنگ پیکسل ترسیم می کند. وصله های تصویر از طریق لایه طرح ریزی خطی به ویژگی های اولیه (نشان داده شده به عنوان جعبه آبی و سبز) نگاشت می شوند. سپس آن ویژگی‌ها به‌طور متوالی توسط مدل پالایش و جمع‌آوری می‌شوند، و در نتیجه ویژگی/رنگ نهایی که توسط مستطیل خاکستری نشان داده می‌شود. منبع تصویر نیمکت پارک: مجموعه داده LLFF.

برای ارزیابی عملکرد تعمیم، GPNR را روی مجموعه‌ای از صحنه‌ها آموزش می‌دهیم و آن را روی صحنه‌های جدید آزمایش می‌کنیم. GPNR در چندین معیار (به دنبال پروتکل‌های IBRNet و MVSNeRF) به طور متوسط ​​بین 0.5 تا 1.0 دسی‌بل پیشرفته‌ترین حالت را بهبود بخشید. در معیار IBRNet، GPNR از خطوط پایه بهتر عمل می کند در حالی که تنها از 11 درصد از صحنه های آموزشی استفاده می کند. نتایج زیر نماهای جدیدی از صحنه های دیده نشده را نشان می دهد که بدون تنظیم دقیق ارائه شده اند.

نماهای ایجاد شده توسط GPNR از صحنه های نگه داشته شده، بدون هیچ گونه تنظیم دقیق. این انیمیشن فشرده شده است. رندرهای با کیفیت اصلی را اینجا ببینید. منبع: مجموعه داده های جمع آوری شده IBRNet.
جزئیات نماهای ایجاد شده توسط GPNR در صحنه های نگه داشته شده از NeX/Shiny (ترک کرد) و LLFF (درست)، بدون هیچ گونه تنظیم دقیق. GPNR در مقایسه با IBRNet جزئیات روی برگ و انکسارها را از طریق لنز با دقت بیشتری بازتولید می کند.

کار آینده
یکی از محدودیت‌های اکثر روش‌های رندر عصبی، از جمله روش ما، این است که برای هر تصویر ورودی به حالت دوربین نیاز دارند. به‌دست آوردن پوزها آسان نیست و معمولاً از روش‌های بهینه‌سازی آفلاین می‌آیند که می‌تواند کند باشد و برنامه‌های ممکن را محدود کند، مانند مواردی که در دستگاه‌های تلفن همراه وجود دارد. تحقیق در مورد یادگیری مشترک ترکیب دیدگاه و موقعیت های ورودی یک جهت آینده امیدوارکننده است. یکی دیگر از محدودیت های مدل های ما این است که آموزش آنها از نظر محاسباتی گران است. یک خط تحقیقاتی فعال در مورد ترانسفورماتورهای سریعتر وجود دارد که ممکن است به بهبود کارایی مدل‌های ما کمک کند. برای مقالات، نتایج بیشتر و کد منبع باز، می‌توانید صفحات پروژه را برای «نرم‌آوری عصبی میدان نور» و «رندر عصبی مبتنی بر پچ عمومی» بررسی کنید.

سوء استفاده بالقوه
در تحقیقات خود، هدف ما این است که یک صحنه موجود را با استفاده از تصاویر آن صحنه به طور دقیق بازتولید کنیم، بنابراین فضای کمی برای تولید صحنه های جعلی یا غیر موجود وجود دارد. مدل‌های ما صحنه‌های ایستا را فرض می‌کنند، بنابراین سنتز اشیاء متحرک، مانند افراد، کارساز نخواهد بود.

قدردانی
تمام کار سخت توسط کارآموز شگفت‌انگیز ما – محمد سهیل – دانشجوی دکترا در UBC، با همکاری کارلوس استیوز و آمیش ماکادیا از Google Research و لئونید سیگال از UBC انجام شد. ما از Corinna Cortes برای حمایت و تشویق این پروژه سپاسگزاریم.

کار ما از NeRF الهام گرفته شده است، که علاقه اخیر به ترکیب دیدگاه ها را برانگیخت، و IBRNet، که ابتدا تعمیم به صحنه های جدید را در نظر گرفت. رمزگذاری موقعیتی پرتوی نور ما از مقاله منی Light Field Rendering الهام گرفته شده است و استفاده ما از ترانسفورماتورها از ViT پیروی می کند.

نتایج ویدیو از صحنه‌هایی از مجموعه داده‌های جمع‌آوری‌شده LLFF، Shiny و IBRNet است.