هنگام انتخاب مکان، اغلب با سوالاتی مانند زیر مواجه می شویم: آیا این رستوران فضای مناسبی برای قرار ملاقات دارد؟ آیا صندلی خوب در فضای باز وجود دارد؟ آیا صفحه نمایش کافی برای تماشای بازی وجود دارد؟ در حالی که عکسها و ویدئوها ممکن است تا حدی به سوالاتی از این دست پاسخ دهند، اما جایگزینی برای احساس حضور شما در آنجا نیستند، حتی زمانی که مراجعه حضوری گزینهای نیست.
تجربیات فراگیر که تعاملی، واقعی و چند بعدی هستند، این شکاف را پر می کنند و حس و حال و هوای یک فضا را بازسازی می کنند، و کاربران را قادر می سازند تا به طور طبیعی و شهودی اطلاعات مورد نیاز خود را پیدا کنند. برای کمک به این امر، Google Maps Immersive View را راهاندازی کرد که از پیشرفتهای یادگیری ماشین (ML) و بینایی رایانهای برای ترکیب میلیاردها نمای خیابان و تصویر هوایی برای ایجاد یک مدل دیجیتالی غنی از جهان استفاده میکند. فراتر از آن، اطلاعات مفیدی مانند آب و هوا، ترافیک و میزان شلوغی یک مکان را در بالا قرار می دهد. Immersive View نماهای داخلی رستوران ها، کافه ها و مکان های دیگر را فراهم می کند تا به کاربران یک نگاه مجازی از نزدیک ارائه دهد که می تواند به آنها کمک کند با اطمینان تصمیم بگیرند کجا بروند.
امروز ما کارهایی را که برای ارائه این نماهای داخلی در نمای فراگیر انجام شده است، شرح می دهیم. ما بر اساس میدانهای تابشی عصبی (NeRF)، رویکردی پیشرفته برای ترکیب عکسها برای ایجاد بازسازی واقعی و چند بعدی در یک شبکه عصبی ایجاد میکنیم. ما خط لوله خود را برای ایجاد NeRF توضیح می دهیم، که شامل عکس برداری سفارشی از فضا با استفاده از دوربین های DSLR، پردازش تصویر و بازتولید صحنه است. ما از پیشرفتهای اخیر آلفابت در این زمینه بهره میبریم تا روشی را طراحی کنیم که مطابق با پیشرفتهترین فناوری قبلی در وفاداری بصری باشد یا بهتر عمل کند. سپس این مدلها بهعنوان ویدیوهای تعاملی 360 درجه در مسیرهای پروازی انتخابشده جاسازی میشوند و امکان دسترسی به آنها را در گوشیهای هوشمند فراهم میکنند.
بازسازی The Seafood Bar در آمستردام در نمای همه جانبه. |
از عکس گرفته تا NeRF
هسته اصلی کار ما NeRF است، روشی که اخیراً برای بازسازی سه بعدی و سنتز نمای جدید توسعه یافته است. با توجه به مجموعهای از عکسها که یک صحنه را توصیف میکنند، NeRF این عکسها را در یک میدان عصبی تقطیر میکند، که سپس میتواند برای ارائه عکسها از دیدگاههایی که در مجموعه اصلی وجود ندارد، استفاده شود.
در حالی که NeRF تا حد زیادی چالش بازسازی را حل میکند، یک محصول رو به روی کاربر مبتنی بر دادههای دنیای واقعی، طیف گستردهای از چالشها را به روی میز میآورد. برای مثال، کیفیت بازسازی و تجربه کاربر باید در مکانهای برگزاری، از بارهای کم نور گرفته تا کافههای پیادهرو و رستورانهای هتل، ثابت بماند. در عین حال، حریم خصوصی باید رعایت شود و هر گونه اطلاعات بالقوه قابل شناسایی شخصی باید حذف شود. نکته مهم این است که صحنه ها باید به طور پیوسته و کارآمد گرفته شوند و به طور قابل اعتمادی منجر به بازسازی با کیفیت بالا شوند و در عین حال تلاش لازم برای گرفتن عکس های لازم را به حداقل برسانند. در نهایت، تجربه طبیعی یکسان باید برای همه کاربران تلفن همراه، صرف نظر از دستگاهی که در دسترس است، در دسترس باشد.
خط لوله بازسازی فضای داخلی Immersive View. |
ضبط و پیش پردازش
اولین قدم برای تولید یک NeRF با کیفیت بالا، ثبت دقیق یک صحنه است: مجموعه ای متراکم از عکس ها که می توان هندسه و رنگ سه بعدی را از آن استخراج کرد. برای به دست آوردن بهترین کیفیت بازسازی ممکن، هر سطح باید از چندین جهت مختلف مشاهده شود. هر چه یک مدل اطلاعات بیشتری در مورد سطح یک جسم داشته باشد، در کشف شکل جسم و نحوه تعامل آن با نورها بهتر خواهد بود.
علاوه بر این، مدلهای NeRF مفروضات بیشتری را روی دوربین و خود صحنه قرار میدهند. به عنوان مثال، فرض بر این است که بسیاری از ویژگی های دوربین، مانند تعادل رنگ سفید و دیافراگم، در طول عکسبرداری ثابت هستند. به همین ترتیب، خود صحنه در زمان یخ زده فرض می شود: از تغییرات نور و حرکت باید اجتناب شود. این باید با نگرانی های عملی، از جمله زمان مورد نیاز برای عکسبرداری، نور موجود، وزن تجهیزات و حریم خصوصی متعادل شود. با همکاری عکاسان حرفهای، ما یک استراتژی برای ثبت سریع و مطمئن عکسهای محل برگزاری با استفاده از دوربینهای DSLR تنها در بازه زمانی یک ساعته ایجاد کردیم. این رویکرد برای تمام بازسازیهای NeRF ما تا به امروز استفاده شده است.
هنگامی که عکس در سیستم ما آپلود شد، پردازش شروع می شود. از آنجایی که عکسها ممکن است سهوا حاوی اطلاعات حساس باشند، ما بهطور خودکار محتوای قابل شناسایی شخصی را اسکن و محو میکنیم. سپس یک خط لوله ساختاری از حرکت اعمال می کنیم تا پارامترهای دوربین هر عکس را حل کنیم: موقعیت و جهت آن نسبت به عکس های دیگر، همراه با ویژگی های لنز مانند فاصله کانونی. این پارامترها هر پیکسل را با یک نقطه و یک جهت در فضای سه بعدی مرتبط میکنند و یک سیگنال کلیدی در فرآیند بازسازی NeRF را تشکیل میدهند.
بازسازی NeRF
برخلاف بسیاری از مدلهای ML، یک مدل NeRF جدید از ابتدا در هر مکان ثبت شده آموزش داده میشود. برای به دست آوردن بهترین کیفیت بازسازی ممکن در یک بودجه محاسباتی هدف، ویژگیهایی را از انواع آثار منتشر شده در NeRF توسعهیافته در Alphabet ترکیب میکنیم. برخی از این موارد عبارتند از:
- ما بر اساس mip-NeRF 360، یکی از بهترین مدلهای NeRF تا به امروز، ساخته شدهایم. اگرچه از نظر محاسباتی فشردهتر از NGP فوری پرکاربرد انویدیا است، اما متوجه شدیم که mip-NeRF 360 به طور پیوسته مصنوعات کمتر و کیفیت بازسازی بالاتری تولید میکند.
- ما بردارهای بهینهسازی نهفته مولد با ابعاد پایین (GLO) را که در NeRF در طبیعت معرفی شدهاند، بهعنوان ورودی کمکی به شبکه تابشی مدل ترکیب میکنیم. اینها بردارهای پنهان با ارزش واقعی هستند که اطلاعات ظاهری را برای هر تصویر جاسازی می کنند. با تخصیص هر تصویر در بردار پنهان خود، مدل میتواند پدیدههایی مانند تغییرات نور را بدون توسل به هندسه ابری، که یک مصنوع رایج در عکسهای معمولی NeRF است، ثبت کند.
- ما همچنین از تهویه نوردهی همانطور که در Block-NeRF معرفی شده است استفاده می کنیم. برخلاف بردارهای GLO که پارامترهای مدل غیرقابل تفسیر هستند، نوردهی مستقیماً از ابرداده عکس گرفته میشود و به عنوان ورودی اضافی به شبکه درخشندگی مدل تغذیه میشود. این دو مزیت عمده دارد: امکان تغییر ISO را باز می کند و روشی برای کنترل روشنایی تصویر در زمان استنتاج ارائه می دهد. ما هر دو ویژگی را برای گرفتن و بازسازی مکان های کم نور ارزشمند می یابیم.
ما هر مدل NeRF را روی شتابدهندههای TPU یا GPU آموزش میدهیم که نقاط مبادله متفاوتی را ارائه میکنند. مانند همه محصولات Google، ما همچنان به جستجوی راههای جدید برای بهبود، از کاهش نیازهای محاسباتی گرفته تا بهبود کیفیت بازسازی میپردازیم.
مقایسه ای کنار هم از روش ما و خط پایه mip-NeRF 360. |
یک تجربه کاربری مقیاس پذیر
هنگامی که یک NeRF آموزش داده شد، ما میتوانیم عکسهای جدیدی از یک صحنه از هر دیدگاه و لنز دوربینی که انتخاب میکنیم تولید کنیم. هدف ما ارائه یک تجربه کاربری معنیدار و مفید است: نه تنها بازسازیها، بلکه تورهای تعاملی و هدایتشده که به کاربران این آزادی را میدهد تا بهطور طبیعی فضاها را از راحتی گوشیهای هوشمند خود کاوش کنند.
برای این منظور، ما یک پخش کننده ویدیویی 360 درجه قابل کنترل طراحی کردیم که پرواز در یک فضای داخلی در امتداد یک مسیر از پیش تعریف شده را شبیه سازی می کند و به کاربر اجازه می دهد آزادانه به اطراف نگاه کند و به جلو یا عقب سفر کند. بهعنوان اولین محصول Google که این فناوری جدید را بررسی میکند، ویدیوهای 360 درجه به عنوان فرمت برای ارائه محتوای تولید شده به چند دلیل انتخاب شدند.
از جنبه فنی، استنتاج بلادرنگ و نمایشهای پخته شده همچنان بر اساس هر مشتری (چه بر روی دستگاه یا محاسبات ابری) منابع فشرده هستند و تکیه بر آنها تعداد کاربرانی را که میتوانند به این تجربه دسترسی داشته باشند محدود میکند. با استفاده از ویدیوها، میتوانیم با بهرهگیری از زیرساختهای مدیریت ویدیو و سرویسدهی یکسانی که YouTube استفاده میکند، فضای ذخیرهسازی و تحویل ویدیوها را به همه کاربران افزایش دهیم. در سمت عملیات، ویدئوها کنترل ویرایشی واضحتری بر تجربه اکتشاف به ما میدهند و بررسی کیفیت در حجمهای زیاد آسانتر است.
در حالی که ما تصویربرداری مستقیم از فضا را با یک دوربین 360 درجه در نظر گرفته بودیم، استفاده از NeRF برای بازسازی و رندر فضا چندین مزیت دارد. یک دوربین مجازی می تواند در هر نقطه از فضا پرواز کند، از جمله بر روی موانع و از طریق پنجره ها، و می تواند از هر لنز دوربین دلخواه استفاده کند. بر خلاف ضبط زنده، مسیر دوربین را نیز میتوان بهعنوان یکنواخت و سرعت ویرایش کرد. گرفتن NeRF همچنین نیازی به استفاده از سخت افزار دوربین تخصصی ندارد.
ویدیوهای 360 درجه ما با پخش پرتو از طریق هر پیکسل یک دوربین مجازی کروی و ترکیب عناصر قابل مشاهده صحنه ارائه می شوند. هر ویدیو یک مسیر صاف را دنبال میکند که توسط مجموعهای از عکسهای فریم کلیدی گرفته شده توسط عکاس در حین عکاسی تعریف شده است. موقعیت دوربین برای هر تصویر در طول ساختار از حرکت محاسبه میشود و توالی عکسها به آرامی در مسیر پرواز درونیابی میشود.
برای ثابت نگه داشتن سرعت در مکانهای مختلف، فواصل هر کدام را با گرفتن جفت تصویر، که هر کدام 3 متر از هم فاصله دارند، کالیبره میکنیم. با دانستن اندازهگیریها در فضا، مدل تولید شده را مقیاسبندی میکنیم و همه ویدیوها را با سرعت طبیعی ارائه میکنیم.
تجربه نهایی در نمای Immersive برای کاربر نمایان میشود: کاربر میتواند به طور یکپارچه به رستورانها و دیگر مکانهای سرپوشیده پرواز کند و با پرواز در ویدیوهای 360 درجه واقعی، فضا را کشف کند.
سوالات تحقیق باز
ما بر این باوریم که این ویژگی اولین قدم بسیاری از افراد در سفر به سوی تجربههای همه جانبه با قابلیت دسترسی جهانی، مبتنی بر هوش مصنوعی است. از دیدگاه تحقیقات NeRF، سوالات بیشتری باز باقی می ماند. برخی از این موارد عبارتند از:
- بهبود بازسازی با تقسیمبندی صحنه، افزودن اطلاعات معنایی به صحنهها که میتواند صحنهها را، برای مثال، قابل جستجو و آسانتر کند.
- تطبیق NeRF با مجموعههای عکس در فضای باز، علاوه بر فضای داخلی. با انجام این کار، تجربههای مشابه را در هر گوشه از جهان باز میکنیم و نحوه تجربه کاربران از دنیای بیرون را تغییر میدهیم.
- فعال کردن اکتشاف سه بعدی تعاملی در زمان واقعی از طریق رندر عصبی روی دستگاه.
بازسازی یک صحنه در فضای باز با مدل NeRF آموزش دیده در نمای خیابان. |
همانطور که به رشد خود ادامه می دهیم، مشتاقانه منتظر مشارکت و مشارکت در جامعه برای ساختن نسل بعدی تجربیات همهجانبه هستیم.
قدردانی
این کار یک همکاری بین چندین تیم در Google است. مشارکت کنندگان در این پروژه عبارتند از: جان بارون، جولیوس برس، دانیل داکورت، رومن دودکو، ماگدالنا فیلاک، مایک هارم، پیتر هدمن، کلودیو مارتلا، بن میلدنهال، کاردین موفت، اتین پات، کنستانتینوس ریماتاس، ایو سالات، مارکوس سیفلدر، لیلیانا سیراکوف، سون ترسپ و پیتر ژیژین.
همچنین، مایلیم از لوک بارینگتون، دانیل فیلیپ، تام فانک هاسر، چارلز گوران، پرامود گوپتا، ماریو لوچیچ، ایزالو مونتاکوت و دن توماسست برای بازخوردها و پیشنهادات ارزشمند خود تشکر کنیم.