بازسازی اشیاء سه بعدی از تصاویر با حالت های ناشناخته

ما از دو تکنیک کلیدی برای کمک به همگرایی این مشکل بد استفاده می کنیم. اولی یک رمزگذار شبکه عصبی کانولوشنال (CNN) بسیار سبک و آموزش دیده دینامیکی است که موقعیت‌های دوربین را از تصاویر آموزشی پس می‌گیرد. ما یک تصویر آموزشی کوچک شده را به یک CNN چهار لایه ارسال می کنیم که وضعیت دوربین را استنباط می کند. این CNN از نویز مقداردهی شده است و نیازی به آموزش قبلی ندارد. ظرفیت آن به قدری کوچک است که تصاویر مشابه را به حالت‌های مشابه وادار می‌کند و نظمی ضمنی ارائه می‌کند که به همگرایی کمک می‌کند.

تکنیک دوم الف است از دست دادن مدول که به طور همزمان شبه تقارن یک شی را در نظر می گیرد. ما شیء را از یک مجموعه ثابت از دیدگاه‌ها برای هر تصویر آموزشی ارائه می‌کنیم، و فقدان را تنها از طریق نمایی که به بهترین وجه با تصویر آموزشی مطابقت دارد، منتشر می‌کنیم. این به طور موثری معقول بودن چندین نما برای هر تصویر را در نظر می گیرد. در عمل می یابیم ن=2 نما (مشاهده یک شی از طرف دیگر) تمام چیزی است که در بیشتر موارد مورد نیاز است، اما گاهی اوقات نتایج بهتری با ن= 4 برای اشیاء مربع.

این دو تکنیک در آموزش استاندارد NeRF ادغام شده‌اند، با این تفاوت که به‌جای حالت‌های دوربین ثابت، وضعیت‌ها توسط CNN استنباط می‌شوند و با از دست دادن مدول کپی می‌شوند. گرادیان های فتومتریک از طریق بهترین دوربین ها در CNN منتشر می شوند. مشاهده می‌کنیم که دوربین‌ها معمولاً به سرعت به حالت‌های بهینه جهانی همگرا می‌شوند (به انیمیشن زیر مراجعه کنید). پس از آموزش میدان عصبی، MELON می‌تواند نماهای جدید را با استفاده از روش‌های رندر استاندارد NeRF ترکیب کند.

ما مشکل را با استفاده از مجموعه داده NeRF-Synthetic، یک معیار محبوب برای تحقیقات NeRF و رایج در ادبیات استنتاج پوز، ساده می‌کنیم. این مجموعه داده مصنوعی دارای دوربین هایی در فواصل دقیق ثابت و جهت گیری ثابت “بالا” است که ما را ملزم می کند فقط مختصات قطبی دوربین را استنتاج کنیم. این همان جسمی است که در مرکز یک کره قرار دارد و یک دوربین همیشه به سمت آن نشانه رفته و در امتداد سطح حرکت می کند. ما فقط به طول و عرض جغرافیایی (2 درجه آزادی) برای مشخص کردن حالت دوربین نیاز داریم.