ما از دو تکنیک کلیدی برای کمک به همگرایی این مشکل بد استفاده می کنیم. اولی یک رمزگذار شبکه عصبی کانولوشنال (CNN) بسیار سبک و آموزش دیده دینامیکی است که موقعیتهای دوربین را از تصاویر آموزشی پس میگیرد. ما یک تصویر آموزشی کوچک شده را به یک CNN چهار لایه ارسال می کنیم که وضعیت دوربین را استنباط می کند. این CNN از نویز مقداردهی شده است و نیازی به آموزش قبلی ندارد. ظرفیت آن به قدری کوچک است که تصاویر مشابه را به حالتهای مشابه وادار میکند و نظمی ضمنی ارائه میکند که به همگرایی کمک میکند.
تکنیک دوم الف است از دست دادن مدول که به طور همزمان شبه تقارن یک شی را در نظر می گیرد. ما شیء را از یک مجموعه ثابت از دیدگاهها برای هر تصویر آموزشی ارائه میکنیم، و فقدان را تنها از طریق نمایی که به بهترین وجه با تصویر آموزشی مطابقت دارد، منتشر میکنیم. این به طور موثری معقول بودن چندین نما برای هر تصویر را در نظر می گیرد. در عمل می یابیم ن=2 نما (مشاهده یک شی از طرف دیگر) تمام چیزی است که در بیشتر موارد مورد نیاز است، اما گاهی اوقات نتایج بهتری با ن= 4 برای اشیاء مربع.
این دو تکنیک در آموزش استاندارد NeRF ادغام شدهاند، با این تفاوت که بهجای حالتهای دوربین ثابت، وضعیتها توسط CNN استنباط میشوند و با از دست دادن مدول کپی میشوند. گرادیان های فتومتریک از طریق بهترین دوربین ها در CNN منتشر می شوند. مشاهده میکنیم که دوربینها معمولاً به سرعت به حالتهای بهینه جهانی همگرا میشوند (به انیمیشن زیر مراجعه کنید). پس از آموزش میدان عصبی، MELON میتواند نماهای جدید را با استفاده از روشهای رندر استاندارد NeRF ترکیب کند.
ما مشکل را با استفاده از مجموعه داده NeRF-Synthetic، یک معیار محبوب برای تحقیقات NeRF و رایج در ادبیات استنتاج پوز، ساده میکنیم. این مجموعه داده مصنوعی دارای دوربین هایی در فواصل دقیق ثابت و جهت گیری ثابت “بالا” است که ما را ملزم می کند فقط مختصات قطبی دوربین را استنتاج کنیم. این همان جسمی است که در مرکز یک کره قرار دارد و یک دوربین همیشه به سمت آن نشانه رفته و در امتداد سطح حرکت می کند. ما فقط به طول و عرض جغرافیایی (2 درجه آزادی) برای مشخص کردن حالت دوربین نیاز داریم.