مردم توانایی قابل توجهی برای دریافت حجم عظیمی از اطلاعات دارند (تخمین زده شده حدود 10)10 بیت/ثانیه هایی که وارد شبکیه می شوند) و به طور انتخابی به چند ناحیه مرتبط با کار و جالب توجه برای پردازش بیشتر (مثلاً حافظه، درک، عمل). بنابراین مدلسازی توجه انسان (که نتیجه آن اغلب مدل برجسته نامیده میشود) در زمینههای علوم اعصاب، روانشناسی، تعامل انسان و رایانه (HCI) و بینایی رایانه مورد توجه بوده است. توانایی پیشبینی مناطقی که احتمالاً جلب توجه میکنند، کاربردهای مهم متعددی در زمینههایی مانند گرافیک، عکاسی، فشردهسازی و پردازش تصویر و اندازهگیری کیفیت بصری دارد.
ما قبلاً در مورد امکان تسریع تحقیقات حرکت چشم با استفاده از یادگیری ماشین و تخمین نگاه مبتنی بر تلفن هوشمند صحبت کردهایم که قبلاً به سختافزار تخصصی با هزینه 30000 دلار در هر واحد نیاز داشت. تحقیقات مرتبط شامل «نگاه به صحبت کردن» است که به کاربران با نیازهای دسترسی (مثلاً افراد مبتلا به ALS) کمک میکند تا با چشمان خود ارتباط برقرار کنند، و تکنیک «نقشههای حرارتی خصوصی متفاوت» که اخیراً منتشر شده است برای محاسبه نقشههای حرارتی، مانند نقشههای مورد توجه، و در عین حال محافظت از کاربران. ‘ حریم خصوصی.
در این وبلاگ، ما دو مقاله (یکی از CVPR 2022 و دیگری که به تازگی در CVPR 2023 پذیرفته شده است) ارائه می کنیم که تحقیقات اخیر ما در زمینه مدل سازی توجه انسان را برجسته می کند: “برجستگی عمیق قبل برای کاهش حواس پرتی بصری” و “یادگیری از دیدگاه های منحصر به فرد” : User-Aware Saliency Modeling، همراه با تحقیقات اخیر در مورد بارگذاری پیشرونده برجستگی برای فشرده سازی تصویر (1، 2). ما نشان میدهیم که چگونه مدلهای پیشبینی توجه انسان میتوانند تجربیات کاربر لذتبخشی مانند ویرایش تصویر را برای به حداقل رساندن بهم ریختگی بصری، حواسپرتی یا مصنوعات، فشردهسازی تصویر برای بارگذاری سریعتر صفحات وب یا برنامهها، و هدایت مدلهای ML به سمت تفسیر بصریتر شبیه انسان و عملکرد مدل، فعال کنند. . ما بر ویرایش تصویر و فشرده سازی تصویر تمرکز می کنیم و پیشرفت های اخیر در مدل سازی را در زمینه این برنامه ها مورد بحث قرار می دهیم.
ویرایش تصویر با هدایت توجه
مدلهای توجه انسان معمولاً یک تصویر را به عنوان ورودی میگیرند (مثلاً یک تصویر طبیعی یا یک اسکرین شات از یک صفحه وب)، و یک نقشه حرارتی را به عنوان خروجی پیشبینی میکنند. نقشه حرارتی پیشبینیشده روی تصویر بر اساس دادههای توجه به حقیقت زمینی ارزیابی میشود، که معمولاً توسط یک ردیاب چشم جمعآوری میشوند یا از طریق شناور کردن/کلیک کردن ماوس تقریبی میشوند. مدلهای قبلی از ویژگیهای دست ساز برای سرنخهای بصری، مانند کنتراست رنگ/روشنایی، لبهها و شکل استفاده میکردند، در حالی که رویکردهای جدیدتر بهطور خودکار ویژگیهای متمایز بر اساس شبکههای عصبی عمیق، از شبکههای عصبی کانولوشنی و تکراری گرفته تا شبکههای ترانسفورماتور بینایی جدیدتر را یاد میگیرند.
در “برجستگی عمیق قبل برای کاهش حواس پرتی بصری” (اطلاعات بیشتر در این سایت پروژه)، ما از مدل های برجسته عمیق برای ویرایش های چشمگیر و در عین حال واقعی بصری استفاده می کنیم، که می تواند به طور قابل توجهی توجه ناظر را به مناطق مختلف تصویر تغییر دهد. به عنوان مثال، حذف اشیاء حواس پرت کننده در پس زمینه می تواند به هم ریختگی عکس ها را کاهش دهد و منجر به افزایش رضایت کاربر شود. به طور مشابه، در کنفرانس ویدیویی، کاهش بهم ریختگی در پسزمینه ممکن است تمرکز روی بلندگوی اصلی را افزایش دهد (نمونه نمایشی در اینجا).
برای بررسی انواع جلوههای ویرایشی که میتوان به آنها دست یافت و چگونه این جلوهها بر توجه بینندگان تأثیر میگذارند، یک چارچوب بهینهسازی برای هدایت توجه بصری در تصاویر با استفاده از یک مدل برجسته و قابل پیشبینی ایجاد کردیم. روش ما از یک مدل برجسته عمیق پیشرفته استفاده می کند. با توجه به یک تصویر ورودی و یک ماسک باینری که مناطق حواسپرنده را نشان میدهد، پیکسلهای درون ماسک تحت هدایت مدل برجستهسازی پیشبینیکننده به گونهای ویرایش میشوند که برجستگی در ناحیه ماسکدار کاهش مییابد. برای اطمینان از طبیعی و واقعی بودن تصویر ویرایش شده، ما با دقت چهار عملگر ویرایش تصویر را انتخاب می کنیم: دو عملیات استاندارد ویرایش تصویر، یعنی تغییر رنگ و تاب برداشتن تصویر (shift). و دو عملگر آموخته شده (ما عملیات ویرایش را به صراحت تعریف نمی کنیم)، یعنی یک فیلتر کانولوشن چند لایه، و یک مدل تولیدی (GAN).
با این عملگرها، چارچوب ما میتواند افکتهای قدرتمند مختلفی را تولید کند، با مثالهایی در شکل زیر، از جمله رنگآمیزی، رنگآمیزی، استتار، ویرایش یا درج شی، و ویرایش ویژگیهای چهره. نکته مهم این است که همه این اثرات صرفاً توسط یک مدل برجسته از پیش آموزش دیده و بدون هیچ گونه نظارت یا آموزش اضافی هدایت می شوند. توجه داشته باشید که هدف ما رقابت با روشهای اختصاصی برای تولید هر افکت نیست، بلکه نشان دادن این است که چگونه عملیات ویرایش چندگانه میتواند توسط دانش تعبیهشده در مدلهای برجسته عمیق هدایت شود.
نمونه هایی از کاهش حواس پرتی بصری، با هدایت مدل برجسته با چندین اپراتور. منطقه حواس پرتی در بالای نقشه برجسته (حاشیه قرمز) در هر مثال مشخص شده است. |
غنیسازی تجربیات با مدلسازی برجستگی آگاهانه کاربر
تحقیقات قبلی یک مدل برجسته را برای کل جمعیت فرض می کند. با این حال، توجه انسان بین افراد متفاوت است – در حالی که تشخیص سرنخهای برجسته نسبتاً ثابت است، ترتیب، تفسیر و توزیع نگاه آنها میتواند بهطور اساسی متفاوت باشد. این فرصت هایی را برای ایجاد تجربیات کاربری شخصی شده برای افراد یا گروه ها ارائه می دهد. در «یادگیری از دیدگاههای منحصربهفرد: مدلسازی برجستگی آگاه از کاربر»، ما یک مدل برجستگی آگاه از کاربر را معرفی میکنیم، اولین مدلی که میتواند توجه یک کاربر، گروهی از کاربران و جمعیت عمومی را با یک مدل واحد پیشبینی کند.
همانطور که در شکل زیر نشان داده شده است، هسته اصلی مدل ترکیبی از ترجیحات بصری هر شرکت کننده با نقشه توجه هر کاربر و ماسک های کاربر تطبیقی است. این امر مستلزم آن است که حاشیه نویسی توجه هر کاربر در داده های آموزشی موجود باشد، به عنوان مثال، مجموعه داده های نگاه موبایل OSIE برای تصاویر طبیعی. مجموعه داده های FiWI و WebSaliency برای صفحات وب. این مدل به جای پیشبینی یک نقشه برجسته که نشاندهنده توجه همه کاربران است، نقشههای توجه هر کاربر را برای رمزگذاری الگوهای توجه افراد پیشبینی میکند. علاوه بر این، مدل یک ماسک کاربر (بردار دودویی با اندازه برابر با تعداد شرکتکنندگان) را برای نشان دادن حضور شرکتکنندگان در نمونه فعلی اتخاذ میکند که امکان انتخاب گروهی از شرکتکنندگان و ترکیب ترجیحات آنها را در یک واحد فراهم میکند. نقشه حرارت.
مروری بر چارچوب مدل برجسته آگاه کاربر. تصویر نمونه از مجموعه تصاویر OSIE است. |
در طول استنتاج، ماسک کاربر امکان پیشبینی برای هر ترکیبی از شرکتکنندگان را میدهد. در شکل زیر، دو ردیف اول پیشبینی توجه برای دو گروه مختلف از شرکتکنندگان (با سه نفر در هر گروه) روی یک تصویر است. یک مدل پیشبینی توجه متعارف، نقشههای حرارتی توجه یکسان را پیشبینی میکند. مدل ما می تواند این دو گروه را متمایز کند (مثلاً گروه دوم نسبت به گروه اول کمتر به صورت و توجه بیشتری به غذا توجه می کنند). به طور مشابه، دو ردیف آخر پیشبینیهایی در یک صفحه وب برای دو شرکتکننده متمایز هستند، با مدل ما ترجیحات متفاوتی را نشان میدهد (به عنوان مثال، شرکتکننده دوم بیشتر از اولی به ناحیه سمت چپ توجه میکند).
توجه پیشبینیشده در مقابل حقیقت زمینی (GT). EML-Net: پیشبینیهایی از یک مدل پیشرفته، که پیشبینیهای یکسانی برای دو شرکتکننده/گروه خواهد داشت. ما: پیشبینیهایی از مدل برجستگی آگاه کاربر پیشنهادی ما، که میتواند اولویت منحصر به فرد هر شرکتکننده/گروه را به درستی پیشبینی کند. تصویر اول از مجموعه تصویر OSIE و تصویر دوم از FiWI است. |
رمزگشایی تصویر پیشرونده با محوریت ویژگی های برجسته
علاوه بر ویرایش تصویر، مدلهای توجه انسان نیز میتوانند تجربه مرور کاربران را بهبود بخشند. یکی از خسته کننده ترین و آزاردهنده ترین تجربیات کاربر در هنگام مرور، انتظار برای بارگذاری صفحات وب با تصاویر است، به خصوص در شرایطی که اتصال شبکه کم است. یکی از راههای بهبود تجربه کاربر در چنین مواردی رمزگشایی تدریجی تصاویر است که با دانلود دادهها، بخشهای تصویر با وضوح بالاتر را رمزگشایی و نمایش میدهد تا زمانی که تصویر با وضوح کامل آماده شود. رمزگشایی پیشرونده معمولاً به ترتیب متوالی انجام می شود (مثلاً از چپ به راست، از بالا به پایین). با یک مدل توجه پیشبینیکننده (1، 2)، میتوانیم تصاویر را بر اساس برجستگی رمزگشایی کنیم و این امکان را فراهم میآوریم که دادههای لازم برای نمایش جزئیات برجستهترین مناطق را ابتدا ارسال کنیم. به عنوان مثال، در یک پرتره، بایت های صورت را می توان بر بایت های پس زمینه خارج از فوکوس اولویت داد. در نتیجه، کاربران کیفیت تصویر بهتری را زودتر درک می کنند و زمان انتظار را به میزان قابل توجهی کاهش می دهند. جزئیات بیشتر را می توانید در پست های وبلاگ منبع باز ما (پست 1، پست 2) پیدا کنید. بنابراین، مدلهای توجه پیشبینیکننده میتوانند به فشردهسازی تصویر و بارگذاری سریعتر صفحات وب همراه با تصاویر کمک کنند، رندر را برای تصاویر بزرگ و برنامههای پخش/VR بهبود بخشند.
نتیجه
ما نشان دادهایم که چگونه مدلهای پیشبینی توجه انسان میتوانند تجربیات لذتبخش کاربر را از طریق برنامههایی مانند ویرایش تصویر که میتواند باعث کاهش شلوغی، حواسپرتی یا مصنوعات در تصاویر یا عکسها برای کاربران و رمزگشایی پیشرونده تصویر شود که میتواند زمان انتظار درک شده را برای کاربران کاهش دهد. در حالی که تصاویر به طور کامل رندر می شوند. مدل برجستهای آگاه از کاربر ما میتواند برنامههای فوق را برای کاربران یا گروهها شخصیتر کند و تجربههای غنیتر و منحصربهفردتری را امکانپذیر کند.
یکی دیگر از جهتگیریهای جالب برای مدلهای توجه پیشبینی این است که آیا آنها میتوانند به بهبود استحکام مدلهای بینایی کامپیوتری در کارهایی مانند طبقهبندی یا تشخیص اشیا کمک کنند. به عنوان مثال، در «برچسبهای توجه فضایی ایجاد شده توسط معلم، استحکام و دقت مدلهای متضاد را افزایش میدهند»، نشان میدهیم که یک مدل توجه انسان پیشبینیکننده میتواند مدلهای یادگیری متضاد را برای دستیابی به بازنمایی بهتر و بهبود دقت/استحکام وظایف طبقهبندی راهنمایی کند. مجموعه داده های ImageNet و ImageNet-C). تحقیقات بیشتر در این راستا میتواند کاربردهایی مانند استفاده از توجه رادیولوژیست بر روی تصاویر پزشکی برای بهبود غربالگری یا تشخیص سلامت یا استفاده از توجه انسان در سناریوهای پیچیده رانندگی برای هدایت سیستمهای رانندگی مستقل را امکان پذیر کند.
سپاسگزاریها
این کار شامل تلاشهای مشترک یک تیم چند رشتهای متشکل از مهندسان نرمافزار، محققان و مشارکتکنندگان متقابل بود. مایلیم از همه نویسندگان همکار مقاله/تحقیق، از جمله Kfir Aberman، Gamaleldin F. Elsayed، Moritz Firsching، Shi Chen، Nachiappan Valliappan، Yushi Yao، Chang Ye، Yossi Gandelsman، Inbar Mosseri، David E. تشکر کنیم. جیکوبز، ییل پریچ، شائولی شن و شینیو یه. ما همچنین می خواهیم از اعضای تیم اسکار رامیرز، ونکی راماچاندران و تیم فوجیتا برای کمکشان تشکر کنیم. در نهایت، ما از ویدیا ناوالپاککام برای رهبری فنی او در راه اندازی و نظارت بر این مجموعه از کار تشکر می کنیم.