ایجاد تجربیات لذت بخش کاربر از طریق مدل های پیش بینی توجه انسان – وبلاگ هوش مصنوعی گوگل

ایجاد تجربیات لذت بخش کاربر از طریق مدل های پیش بینی توجه انسان – وبلاگ هوش مصنوعی گوگل

مردم توانایی قابل توجهی برای دریافت حجم عظیمی از اطلاعات دارند (تخمین زده شده حدود 10)10 بیت/ثانیه هایی که وارد شبکیه می شوند) و به طور انتخابی به چند ناحیه مرتبط با کار و جالب توجه برای پردازش بیشتر (مثلاً حافظه، درک، عمل). بنابراین مدل‌سازی توجه انسان (که نتیجه آن اغلب مدل برجسته نامیده می‌شود) در زمینه‌های علوم اعصاب، روان‌شناسی، تعامل انسان و رایانه (HCI) و بینایی رایانه مورد توجه بوده است. توانایی پیش‌بینی مناطقی که احتمالاً جلب توجه می‌کنند، کاربردهای مهم متعددی در زمینه‌هایی مانند گرافیک، عکاسی، فشرده‌سازی و پردازش تصویر و اندازه‌گیری کیفیت بصری دارد.

ما قبلاً در مورد امکان تسریع تحقیقات حرکت چشم با استفاده از یادگیری ماشین و تخمین نگاه مبتنی بر تلفن هوشمند صحبت کرده‌ایم که قبلاً به سخت‌افزار تخصصی با هزینه 30000 دلار در هر واحد نیاز داشت. تحقیقات مرتبط شامل «نگاه به صحبت کردن» است که به کاربران با نیازهای دسترسی (مثلاً افراد مبتلا به ALS) کمک می‌کند تا با چشمان خود ارتباط برقرار کنند، و تکنیک «نقشه‌های حرارتی خصوصی متفاوت» که اخیراً منتشر شده است برای محاسبه نقشه‌های حرارتی، مانند نقشه‌های مورد توجه، و در عین حال محافظت از کاربران. ‘ حریم خصوصی.

در این وبلاگ، ما دو مقاله (یکی از CVPR 2022 و دیگری که به تازگی در CVPR 2023 پذیرفته شده است) ارائه می کنیم که تحقیقات اخیر ما در زمینه مدل سازی توجه انسان را برجسته می کند: “برجستگی عمیق قبل برای کاهش حواس پرتی بصری” و “یادگیری از دیدگاه های منحصر به فرد” : User-Aware Saliency Modeling، همراه با تحقیقات اخیر در مورد بارگذاری پیشرونده برجستگی برای فشرده سازی تصویر (1، 2). ما نشان می‌دهیم که چگونه مدل‌های پیش‌بینی توجه انسان می‌توانند تجربیات کاربر لذت‌بخشی مانند ویرایش تصویر را برای به حداقل رساندن بهم ریختگی بصری، حواس‌پرتی یا مصنوعات، فشرده‌سازی تصویر برای بارگذاری سریع‌تر صفحات وب یا برنامه‌ها، و هدایت مدل‌های ML به سمت تفسیر بصری‌تر شبیه انسان و عملکرد مدل، فعال کنند. . ما بر ویرایش تصویر و فشرده سازی تصویر تمرکز می کنیم و پیشرفت های اخیر در مدل سازی را در زمینه این برنامه ها مورد بحث قرار می دهیم.

ویرایش تصویر با هدایت توجه

مدل‌های توجه انسان معمولاً یک تصویر را به عنوان ورودی می‌گیرند (مثلاً یک تصویر طبیعی یا یک اسکرین شات از یک صفحه وب)، و یک نقشه حرارتی را به عنوان خروجی پیش‌بینی می‌کنند. نقشه حرارتی پیش‌بینی‌شده روی تصویر بر اساس داده‌های توجه به حقیقت زمینی ارزیابی می‌شود، که معمولاً توسط یک ردیاب چشم جمع‌آوری می‌شوند یا از طریق شناور کردن/کلیک کردن ماوس تقریبی می‌شوند. مدل‌های قبلی از ویژگی‌های دست ساز برای سرنخ‌های بصری، مانند کنتراست رنگ/روشنایی، لبه‌ها و شکل استفاده می‌کردند، در حالی که رویکردهای جدیدتر به‌طور خودکار ویژگی‌های متمایز بر اساس شبکه‌های عصبی عمیق، از شبکه‌های عصبی کانولوشنی و تکراری گرفته تا شبکه‌های ترانسفورماتور بینایی جدیدتر را یاد می‌گیرند.

در “برجستگی عمیق قبل برای کاهش حواس پرتی بصری” (اطلاعات بیشتر در این سایت پروژه)، ما از مدل های برجسته عمیق برای ویرایش های چشمگیر و در عین حال واقعی بصری استفاده می کنیم، که می تواند به طور قابل توجهی توجه ناظر را به مناطق مختلف تصویر تغییر دهد. به عنوان مثال، حذف اشیاء حواس پرت کننده در پس زمینه می تواند به هم ریختگی عکس ها را کاهش دهد و منجر به افزایش رضایت کاربر شود. به طور مشابه، در کنفرانس ویدیویی، کاهش بهم ریختگی در پس‌زمینه ممکن است تمرکز روی بلندگوی اصلی را افزایش دهد (نمونه نمایشی در اینجا).

برای بررسی انواع جلوه‌های ویرایشی که می‌توان به آنها دست یافت و چگونه این جلوه‌ها بر توجه بینندگان تأثیر می‌گذارند، یک چارچوب بهینه‌سازی برای هدایت توجه بصری در تصاویر با استفاده از یک مدل برجسته و قابل پیش‌بینی ایجاد کردیم. روش ما از یک مدل برجسته عمیق پیشرفته استفاده می کند. با توجه به یک تصویر ورودی و یک ماسک باینری که مناطق حواس‌پرنده را نشان می‌دهد، پیکسل‌های درون ماسک تحت هدایت مدل برجسته‌سازی پیش‌بینی‌کننده به گونه‌ای ویرایش می‌شوند که برجستگی در ناحیه ماسک‌دار کاهش می‌یابد. برای اطمینان از طبیعی و واقعی بودن تصویر ویرایش شده، ما با دقت چهار عملگر ویرایش تصویر را انتخاب می کنیم: دو عملیات استاندارد ویرایش تصویر، یعنی تغییر رنگ و تاب برداشتن تصویر (shift). و دو عملگر آموخته شده (ما عملیات ویرایش را به صراحت تعریف نمی کنیم)، یعنی یک فیلتر کانولوشن چند لایه، و یک مدل تولیدی (GAN).

با این عملگرها، چارچوب ما می‌تواند افکت‌های قدرتمند مختلفی را تولید کند، با مثال‌هایی در شکل زیر، از جمله رنگ‌آمیزی، رنگ‌آمیزی، استتار، ویرایش یا درج شی، و ویرایش ویژگی‌های چهره. نکته مهم این است که همه این اثرات صرفاً توسط یک مدل برجسته از پیش آموزش دیده و بدون هیچ گونه نظارت یا آموزش اضافی هدایت می شوند. توجه داشته باشید که هدف ما رقابت با روش‌های اختصاصی برای تولید هر افکت نیست، بلکه نشان دادن این است که چگونه عملیات ویرایش چندگانه می‌تواند توسط دانش تعبیه‌شده در مدل‌های برجسته عمیق هدایت شود.

نمونه هایی از کاهش حواس پرتی بصری، با هدایت مدل برجسته با چندین اپراتور. منطقه حواس پرتی در بالای نقشه برجسته (حاشیه قرمز) در هر مثال مشخص شده است.

غنی‌سازی تجربیات با مدل‌سازی برجستگی آگاهانه کاربر

تحقیقات قبلی یک مدل برجسته را برای کل جمعیت فرض می کند. با این حال، توجه انسان بین افراد متفاوت است – در حالی که تشخیص سرنخ‌های برجسته نسبتاً ثابت است، ترتیب، تفسیر و توزیع نگاه آنها می‌تواند به‌طور اساسی متفاوت باشد. این فرصت هایی را برای ایجاد تجربیات کاربری شخصی شده برای افراد یا گروه ها ارائه می دهد. در «یادگیری از دیدگاه‌های منحصربه‌فرد: مدل‌سازی برجستگی آگاه از کاربر»، ما یک مدل برجستگی آگاه از کاربر را معرفی می‌کنیم، اولین مدلی که می‌تواند توجه یک کاربر، گروهی از کاربران و جمعیت عمومی را با یک مدل واحد پیش‌بینی کند.

همانطور که در شکل زیر نشان داده شده است، هسته اصلی مدل ترکیبی از ترجیحات بصری هر شرکت کننده با نقشه توجه هر کاربر و ماسک های کاربر تطبیقی ​​است. این امر مستلزم آن است که حاشیه نویسی توجه هر کاربر در داده های آموزشی موجود باشد، به عنوان مثال، مجموعه داده های نگاه موبایل OSIE برای تصاویر طبیعی. مجموعه داده های FiWI و WebSaliency برای صفحات وب. این مدل به جای پیش‌بینی یک نقشه برجسته که نشان‌دهنده توجه همه کاربران است، نقشه‌های توجه هر کاربر را برای رمزگذاری الگوهای توجه افراد پیش‌بینی می‌کند. علاوه بر این، مدل یک ماسک کاربر (بردار دودویی با اندازه برابر با تعداد شرکت‌کنندگان) را برای نشان دادن حضور شرکت‌کنندگان در نمونه فعلی اتخاذ می‌کند که امکان انتخاب گروهی از شرکت‌کنندگان و ترکیب ترجیحات آنها را در یک واحد فراهم می‌کند. نقشه حرارت.

مروری بر چارچوب مدل برجسته آگاه کاربر. تصویر نمونه از مجموعه تصاویر OSIE است.

در طول استنتاج، ماسک کاربر امکان پیش‌بینی برای هر ترکیبی از شرکت‌کنندگان را می‌دهد. در شکل زیر، دو ردیف اول پیش‌بینی توجه برای دو گروه مختلف از شرکت‌کنندگان (با سه نفر در هر گروه) روی یک تصویر است. یک مدل پیش‌بینی توجه متعارف، نقشه‌های حرارتی توجه یکسان را پیش‌بینی می‌کند. مدل ما می تواند این دو گروه را متمایز کند (مثلاً گروه دوم نسبت به گروه اول کمتر به صورت و توجه بیشتری به غذا توجه می کنند). به طور مشابه، دو ردیف آخر پیش‌بینی‌هایی در یک صفحه وب برای دو شرکت‌کننده متمایز هستند، با مدل ما ترجیحات متفاوتی را نشان می‌دهد (به عنوان مثال، شرکت‌کننده دوم بیشتر از اولی به ناحیه سمت چپ توجه می‌کند).

توجه پیش‌بینی‌شده در مقابل حقیقت زمینی (GT). EML-Net: پیش‌بینی‌هایی از یک مدل پیشرفته، که پیش‌بینی‌های یکسانی برای دو شرکت‌کننده/گروه خواهد داشت. ما: پیش‌بینی‌هایی از مدل برجستگی آگاه کاربر پیشنهادی ما، که می‌تواند اولویت منحصر به فرد هر شرکت‌کننده/گروه را به درستی پیش‌بینی کند. تصویر اول از مجموعه تصویر OSIE و تصویر دوم از FiWI است.

رمزگشایی تصویر پیشرونده با محوریت ویژگی های برجسته

علاوه بر ویرایش تصویر، مدل‌های توجه انسان نیز می‌توانند تجربه مرور کاربران را بهبود بخشند. یکی از خسته کننده ترین و آزاردهنده ترین تجربیات کاربر در هنگام مرور، انتظار برای بارگذاری صفحات وب با تصاویر است، به خصوص در شرایطی که اتصال شبکه کم است. یکی از راه‌های بهبود تجربه کاربر در چنین مواردی رمزگشایی تدریجی تصاویر است که با دانلود داده‌ها، بخش‌های تصویر با وضوح بالاتر را رمزگشایی و نمایش می‌دهد تا زمانی که تصویر با وضوح کامل آماده شود. رمزگشایی پیشرونده معمولاً به ترتیب متوالی انجام می شود (مثلاً از چپ به راست، از بالا به پایین). با یک مدل توجه پیش‌بینی‌کننده (1، 2)، می‌توانیم تصاویر را بر اساس برجستگی رمزگشایی کنیم و این امکان را فراهم می‌آوریم که داده‌های لازم برای نمایش جزئیات برجسته‌ترین مناطق را ابتدا ارسال کنیم. به عنوان مثال، در یک پرتره، بایت های صورت را می توان بر بایت های پس زمینه خارج از فوکوس اولویت داد. در نتیجه، کاربران کیفیت تصویر بهتری را زودتر درک می کنند و زمان انتظار را به میزان قابل توجهی کاهش می دهند. جزئیات بیشتر را می توانید در پست های وبلاگ منبع باز ما (پست 1، پست 2) پیدا کنید. بنابراین، مدل‌های توجه پیش‌بینی‌کننده می‌توانند به فشرده‌سازی تصویر و بارگذاری سریع‌تر صفحات وب همراه با تصاویر کمک کنند، رندر را برای تصاویر بزرگ و برنامه‌های پخش/VR بهبود بخشند.

نتیجه

ما نشان داده‌ایم که چگونه مدل‌های پیش‌بینی توجه انسان می‌توانند تجربیات لذت‌بخش کاربر را از طریق برنامه‌هایی مانند ویرایش تصویر که می‌تواند باعث کاهش شلوغی، حواس‌پرتی یا مصنوعات در تصاویر یا عکس‌ها برای کاربران و رمزگشایی پیشرونده تصویر شود که می‌تواند زمان انتظار درک شده را برای کاربران کاهش دهد. در حالی که تصاویر به طور کامل رندر می شوند. مدل برجسته‌ای آگاه از کاربر ما می‌تواند برنامه‌های فوق را برای کاربران یا گروه‌ها شخصی‌تر کند و تجربه‌های غنی‌تر و منحصربه‌فردتری را امکان‌پذیر کند.

یکی دیگر از جهت‌گیری‌های جالب برای مدل‌های توجه پیش‌بینی این است که آیا آنها می‌توانند به بهبود استحکام مدل‌های بینایی کامپیوتری در کارهایی مانند طبقه‌بندی یا تشخیص اشیا کمک کنند. به عنوان مثال، در «برچسب‌های توجه فضایی ایجاد شده توسط معلم، استحکام و دقت مدل‌های متضاد را افزایش می‌دهند»، نشان می‌دهیم که یک مدل توجه انسان پیش‌بینی‌کننده می‌تواند مدل‌های یادگیری متضاد را برای دستیابی به بازنمایی بهتر و بهبود دقت/استحکام وظایف طبقه‌بندی راهنمایی کند. مجموعه داده های ImageNet و ImageNet-C). تحقیقات بیشتر در این راستا می‌تواند کاربردهایی مانند استفاده از توجه رادیولوژیست بر روی تصاویر پزشکی برای بهبود غربالگری یا تشخیص سلامت یا استفاده از توجه انسان در سناریوهای پیچیده رانندگی برای هدایت سیستم‌های رانندگی مستقل را امکان پذیر کند.

سپاسگزاریها

این کار شامل تلاش‌های مشترک یک تیم چند رشته‌ای متشکل از مهندسان نرم‌افزار، محققان و مشارکت‌کنندگان متقابل بود. مایلیم از همه نویسندگان همکار مقاله/تحقیق، از جمله Kfir Aberman، Gamaleldin F. Elsayed، Moritz Firsching، Shi Chen، Nachiappan Valliappan، Yushi Yao، Chang Ye، Yossi Gandelsman، Inbar Mosseri، David E. تشکر کنیم. جیکوبز، ییل پریچ، شائولی شن و شینیو یه. ما همچنین می خواهیم از اعضای تیم اسکار رامیرز، ونکی راماچاندران و تیم فوجیتا برای کمکشان تشکر کنیم. در نهایت، ما از ویدیا ناوالپاککام برای رهبری فنی او در راه اندازی و نظارت بر این مجموعه از کار تشکر می کنیم.