بازسازی فضاهای داخلی با NeRF – Google AI Blog

بازسازی فضاهای داخلی با NeRF – Google AI Blog

هنگام انتخاب مکان، اغلب با سوالاتی مانند زیر مواجه می شویم: آیا این رستوران فضای مناسبی برای قرار ملاقات دارد؟ آیا صندلی خوب در فضای باز وجود دارد؟ آیا صفحه نمایش کافی برای تماشای بازی وجود دارد؟ در حالی که عکس‌ها و ویدئوها ممکن است تا حدی به سوالاتی از این دست پاسخ دهند، اما جایگزینی برای احساس حضور شما در آنجا نیستند، حتی زمانی که مراجعه حضوری گزینه‌ای نیست.

تجربیات فراگیر که تعاملی، واقعی و چند بعدی هستند، این شکاف را پر می کنند و حس و حال و هوای یک فضا را بازسازی می کنند، و کاربران را قادر می سازند تا به طور طبیعی و شهودی اطلاعات مورد نیاز خود را پیدا کنند. برای کمک به این امر، Google Maps Immersive View را راه‌اندازی کرد که از پیشرفت‌های یادگیری ماشین (ML) و بینایی رایانه‌ای برای ترکیب میلیاردها نمای خیابان و تصویر هوایی برای ایجاد یک مدل دیجیتالی غنی از جهان استفاده می‌کند. فراتر از آن، اطلاعات مفیدی مانند آب و هوا، ترافیک و میزان شلوغی یک مکان را در بالا قرار می دهد. Immersive View نماهای داخلی رستوران ها، کافه ها و مکان های دیگر را فراهم می کند تا به کاربران یک نگاه مجازی از نزدیک ارائه دهد که می تواند به آنها کمک کند با اطمینان تصمیم بگیرند کجا بروند.

امروز ما کارهایی را که برای ارائه این نماهای داخلی در نمای فراگیر انجام شده است، شرح می دهیم. ما بر اساس میدان‌های تابشی عصبی (NeRF)، رویکردی پیشرفته برای ترکیب عکس‌ها برای ایجاد بازسازی واقعی و چند بعدی در یک شبکه عصبی ایجاد می‌کنیم. ما خط لوله خود را برای ایجاد NeRF توضیح می دهیم، که شامل عکس برداری سفارشی از فضا با استفاده از دوربین های DSLR، پردازش تصویر و بازتولید صحنه است. ما از پیشرفت‌های اخیر آلفابت در این زمینه بهره می‌بریم تا روشی را طراحی کنیم که مطابق با پیشرفته‌ترین فناوری قبلی در وفاداری بصری باشد یا بهتر عمل کند. سپس این مدل‌ها به‌عنوان ویدیوهای تعاملی 360 درجه در مسیرهای پروازی انتخاب‌شده جاسازی می‌شوند و امکان دسترسی به آن‌ها را در گوشی‌های هوشمند فراهم می‌کنند.


بازسازی The Seafood Bar در آمستردام در نمای همه جانبه.

از عکس گرفته تا NeRF

هسته اصلی کار ما NeRF است، روشی که اخیراً برای بازسازی سه بعدی و سنتز نمای جدید توسعه یافته است. با توجه به مجموعه‌ای از عکس‌ها که یک صحنه را توصیف می‌کنند، NeRF این عکس‌ها را در یک میدان عصبی تقطیر می‌کند، که سپس می‌تواند برای ارائه عکس‌ها از دیدگاه‌هایی که در مجموعه اصلی وجود ندارد، استفاده شود.

در حالی که NeRF تا حد زیادی چالش بازسازی را حل می‌کند، یک محصول رو به روی کاربر مبتنی بر داده‌های دنیای واقعی، طیف گسترده‌ای از چالش‌ها را به روی میز می‌آورد. برای مثال، کیفیت بازسازی و تجربه کاربر باید در مکان‌های برگزاری، از بارهای کم نور گرفته تا کافه‌های پیاده‌رو و رستوران‌های هتل، ثابت بماند. در عین حال، حریم خصوصی باید رعایت شود و هر گونه اطلاعات بالقوه قابل شناسایی شخصی باید حذف شود. نکته مهم این است که صحنه ها باید به طور پیوسته و کارآمد گرفته شوند و به طور قابل اعتمادی منجر به بازسازی با کیفیت بالا شوند و در عین حال تلاش لازم برای گرفتن عکس های لازم را به حداقل برسانند. در نهایت، تجربه طبیعی یکسان باید برای همه کاربران تلفن همراه، صرف نظر از دستگاهی که در دسترس است، در دسترس باشد.


خط لوله بازسازی فضای داخلی Immersive View.

ضبط و پیش پردازش

اولین قدم برای تولید یک NeRF با کیفیت بالا، ثبت دقیق یک صحنه است: مجموعه ای متراکم از عکس ها که می توان هندسه و رنگ سه بعدی را از آن استخراج کرد. برای به دست آوردن بهترین کیفیت بازسازی ممکن، هر سطح باید از چندین جهت مختلف مشاهده شود. هر چه یک مدل اطلاعات بیشتری در مورد سطح یک جسم داشته باشد، در کشف شکل جسم و نحوه تعامل آن با نورها بهتر خواهد بود.

علاوه بر این، مدل‌های NeRF مفروضات بیشتری را روی دوربین و خود صحنه قرار می‌دهند. به عنوان مثال، فرض بر این است که بسیاری از ویژگی های دوربین، مانند تعادل رنگ سفید و دیافراگم، در طول عکسبرداری ثابت هستند. به همین ترتیب، خود صحنه در زمان یخ زده فرض می شود: از تغییرات نور و حرکت باید اجتناب شود. این باید با نگرانی های عملی، از جمله زمان مورد نیاز برای عکسبرداری، نور موجود، وزن تجهیزات و حریم خصوصی متعادل شود. با همکاری عکاسان حرفه‌ای، ما یک استراتژی برای ثبت سریع و مطمئن عکس‌های محل برگزاری با استفاده از دوربین‌های DSLR تنها در بازه زمانی یک ساعته ایجاد کردیم. این رویکرد برای تمام بازسازی‌های NeRF ما تا به امروز استفاده شده است.

هنگامی که عکس در سیستم ما آپلود شد، پردازش شروع می شود. از آنجایی که عکس‌ها ممکن است سهوا حاوی اطلاعات حساس باشند، ما به‌طور خودکار محتوای قابل شناسایی شخصی را اسکن و محو می‌کنیم. سپس یک خط لوله ساختاری از حرکت اعمال می کنیم تا پارامترهای دوربین هر عکس را حل کنیم: موقعیت و جهت آن نسبت به عکس های دیگر، همراه با ویژگی های لنز مانند فاصله کانونی. این پارامترها هر پیکسل را با یک نقطه و یک جهت در فضای سه بعدی مرتبط می‌کنند و یک سیگنال کلیدی در فرآیند بازسازی NeRF را تشکیل می‌دهند.

بازسازی NeRF

برخلاف بسیاری از مدل‌های ML، یک مدل NeRF جدید از ابتدا در هر مکان ثبت شده آموزش داده می‌شود. برای به دست آوردن بهترین کیفیت بازسازی ممکن در یک بودجه محاسباتی هدف، ویژگی‌هایی را از انواع آثار منتشر شده در NeRF توسعه‌یافته در Alphabet ترکیب می‌کنیم. برخی از این موارد عبارتند از:

  • ما بر اساس mip-NeRF 360، یکی از بهترین مدل‌های NeRF تا به امروز، ساخته شده‌ایم. اگرچه از نظر محاسباتی فشرده‌تر از NGP فوری پرکاربرد انویدیا است، اما متوجه شدیم که mip-NeRF 360 به طور پیوسته مصنوعات کمتر و کیفیت بازسازی بالاتری تولید می‌کند.
  • ما بردارهای بهینه‌سازی نهفته مولد با ابعاد پایین (GLO) را که در NeRF در طبیعت معرفی شده‌اند، به‌عنوان ورودی کمکی به شبکه تابشی مدل ترکیب می‌کنیم. اینها بردارهای پنهان با ارزش واقعی هستند که اطلاعات ظاهری را برای هر تصویر جاسازی می کنند. با تخصیص هر تصویر در بردار پنهان خود، مدل می‌تواند پدیده‌هایی مانند تغییرات نور را بدون توسل به هندسه ابری، که یک مصنوع رایج در عکس‌های معمولی NeRF است، ثبت کند.
  • ما همچنین از تهویه نوردهی همانطور که در Block-NeRF معرفی شده است استفاده می کنیم. برخلاف بردارهای GLO که پارامترهای مدل غیرقابل تفسیر هستند، نوردهی مستقیماً از ابرداده عکس گرفته می‌شود و به عنوان ورودی اضافی به شبکه درخشندگی مدل تغذیه می‌شود. این دو مزیت عمده دارد: امکان تغییر ISO را باز می کند و روشی برای کنترل روشنایی تصویر در زمان استنتاج ارائه می دهد. ما هر دو ویژگی را برای گرفتن و بازسازی مکان های کم نور ارزشمند می یابیم.

ما هر مدل NeRF را روی شتاب‌دهنده‌های TPU یا GPU آموزش می‌دهیم که نقاط مبادله متفاوتی را ارائه می‌کنند. مانند همه محصولات Google، ما همچنان به جستجوی راه‌های جدید برای بهبود، از کاهش نیازهای محاسباتی گرفته تا بهبود کیفیت بازسازی می‌پردازیم.


مقایسه ای کنار هم از روش ما و خط پایه mip-NeRF 360.

یک تجربه کاربری مقیاس پذیر

هنگامی که یک NeRF آموزش داده شد، ما می‌توانیم عکس‌های جدیدی از یک صحنه از هر دیدگاه و لنز دوربینی که انتخاب می‌کنیم تولید کنیم. هدف ما ارائه یک تجربه کاربری معنی‌دار و مفید است: نه تنها بازسازی‌ها، بلکه تورهای تعاملی و هدایت‌شده که به کاربران این آزادی را می‌دهد تا به‌طور طبیعی فضاها را از راحتی گوشی‌های هوشمند خود کاوش کنند.

برای این منظور، ما یک پخش کننده ویدیویی 360 درجه قابل کنترل طراحی کردیم که پرواز در یک فضای داخلی در امتداد یک مسیر از پیش تعریف شده را شبیه سازی می کند و به کاربر اجازه می دهد آزادانه به اطراف نگاه کند و به جلو یا عقب سفر کند. به‌عنوان اولین محصول Google که این فناوری جدید را بررسی می‌کند، ویدیوهای 360 درجه به عنوان فرمت برای ارائه محتوای تولید شده به چند دلیل انتخاب شدند.

از جنبه فنی، استنتاج بلادرنگ و نمایش‌های پخته شده همچنان بر اساس هر مشتری (چه بر روی دستگاه یا محاسبات ابری) منابع فشرده هستند و تکیه بر آنها تعداد کاربرانی را که می‌توانند به این تجربه دسترسی داشته باشند محدود می‌کند. با استفاده از ویدیوها، می‌توانیم با بهره‌گیری از زیرساخت‌های مدیریت ویدیو و سرویس‌دهی یکسانی که YouTube استفاده می‌کند، فضای ذخیره‌سازی و تحویل ویدیوها را به همه کاربران افزایش دهیم. در سمت عملیات، ویدئوها کنترل ویرایشی واضح‌تری بر تجربه اکتشاف به ما می‌دهند و بررسی کیفیت در حجم‌های زیاد آسان‌تر است.

در حالی که ما تصویربرداری مستقیم از فضا را با یک دوربین 360 درجه در نظر گرفته بودیم، استفاده از NeRF برای بازسازی و رندر فضا چندین مزیت دارد. یک دوربین مجازی می تواند در هر نقطه از فضا پرواز کند، از جمله بر روی موانع و از طریق پنجره ها، و می تواند از هر لنز دوربین دلخواه استفاده کند. بر خلاف ضبط زنده، مسیر دوربین را نیز می‌توان به‌عنوان یکنواخت و سرعت ویرایش کرد. گرفتن NeRF همچنین نیازی به استفاده از سخت افزار دوربین تخصصی ندارد.

ویدیوهای 360 درجه ما با پخش پرتو از طریق هر پیکسل یک دوربین مجازی کروی و ترکیب عناصر قابل مشاهده صحنه ارائه می شوند. هر ویدیو یک مسیر صاف را دنبال می‌کند که توسط مجموعه‌ای از عکس‌های فریم کلیدی گرفته شده توسط عکاس در حین عکاسی تعریف شده است. موقعیت دوربین برای هر تصویر در طول ساختار از حرکت محاسبه می‌شود و توالی عکس‌ها به آرامی در مسیر پرواز درون‌یابی می‌شود.

برای ثابت نگه داشتن سرعت در مکان‌های مختلف، فواصل هر کدام را با گرفتن جفت تصویر، که هر کدام 3 متر از هم فاصله دارند، کالیبره می‌کنیم. با دانستن اندازه‌گیری‌ها در فضا، مدل تولید شده را مقیاس‌بندی می‌کنیم و همه ویدیوها را با سرعت طبیعی ارائه می‌کنیم.

تجربه نهایی در نمای Immersive برای کاربر نمایان می‌شود: کاربر می‌تواند به طور یکپارچه به رستوران‌ها و دیگر مکان‌های سرپوشیده پرواز کند و با پرواز در ویدیوهای 360 درجه واقعی، فضا را کشف کند.

سوالات تحقیق باز

ما بر این باوریم که این ویژگی اولین قدم بسیاری از افراد در سفر به سوی تجربه‌های همه جانبه با قابلیت دسترسی جهانی، مبتنی بر هوش مصنوعی است. از دیدگاه تحقیقات NeRF، سوالات بیشتری باز باقی می ماند. برخی از این موارد عبارتند از:

  1. بهبود بازسازی با تقسیم‌بندی صحنه، افزودن اطلاعات معنایی به صحنه‌ها که می‌تواند صحنه‌ها را، برای مثال، قابل جستجو و آسان‌تر کند.
  2. تطبیق NeRF با مجموعه‌های عکس در فضای باز، علاوه بر فضای داخلی. با انجام این کار، تجربه‌های مشابه را در هر گوشه از جهان باز می‌کنیم و نحوه تجربه کاربران از دنیای بیرون را تغییر می‌دهیم.
  3. فعال کردن اکتشاف سه بعدی تعاملی در زمان واقعی از طریق رندر عصبی روی دستگاه.


بازسازی یک صحنه در فضای باز با مدل NeRF آموزش دیده در نمای خیابان.

همانطور که به رشد خود ادامه می دهیم، مشتاقانه منتظر مشارکت و مشارکت در جامعه برای ساختن نسل بعدی تجربیات همهجانبه هستیم.

قدردانی

این کار یک همکاری بین چندین تیم در Google است. مشارکت کنندگان در این پروژه عبارتند از: جان بارون، جولیوس برس، دانیل داکورت، رومن دودکو، ماگدالنا فیلاک، مایک هارم، پیتر هدمن، کلودیو مارتلا، بن میلدنهال، کاردین موفت، اتین پات، کنستانتینوس ریماتاس، ایو سالات، مارکوس سیفلدر، لیلیانا سیراکوف، سون ترسپ و پیتر ژیژین.

همچنین، مایلیم از لوک بارینگتون، دانیل فیلیپ، تام فانک هاسر، چارلز گوران، پرامود گوپتا، ماریو لوچیچ، ایزالو مونتاکوت و دن توماسست برای بازخوردها و پیشنهادات ارزشمند خود تشکر کنیم.