تحقیقات هوش مصنوعی مسئولیتپذیر گوگل بر پایهی همکاری – بین تیمهایی با سوابق و تخصصهای مختلف، بین محققان و توسعهدهندگان محصول، و در نهایت با جامعه در کل، ساخته شده است. تیم Perception Fairness با ترکیب تخصص موضوعی عمیق در بینایی رایانه و عادلانه یادگیری ماشین (ML) با ارتباط مستقیم با محققانی که سیستمهای ادراک را ایجاد میکنند که محصولات را در سراسر Google و فراتر از آن تقویت میکنند، پیشرفت میکند. با هم، ما در تلاش هستیم تا سیستمهای خود را عمداً به گونهای طراحی کنیم که از پایه، با هدایت اصول هوش مصنوعی Google، فراگیر باشد.
تحقیقات Perception Fairness شامل طراحی، توسعه و استقرار مدلهای چندوجهی پیشرفته از جمله جدیدترین مدلهای پایه و مولد است که محصولات Google را تقویت میکنند. |
ماموریت تیم ما پیشبرد مرزهای انصاف و گنجاندن در سیستم های چندوجهی ML است، به ویژه مربوط به مدل های پایه و هوش مصنوعی مولد. این شامل اجزای اصلی فناوری از جمله طبقه بندی، بومی سازی، زیرنویس، بازیابی، پاسخگویی به سوال بصری، تولید متن به تصویر یا متن به ویدئو، و ویرایش تصویر و ویدئو مولد است. ما بر این باوریم که انصاف و گنجاندن میتواند و باید اهداف عملکردی بالای این برنامهها باشد. تحقیقات ما بر روی باز کردن تحلیلها و کاهشهای جدید متمرکز است که ما را قادر میسازد تا به طور فعال برای این اهداف در طول چرخه توسعه طراحی کنیم. ما به پرسشهای اصلی پاسخ میدهیم، مانند: چگونه میتوانیم از ML برای مدلسازی مسئولانه و صادقانه درک انسان از هویتهای جمعیتی، فرهنگی و اجتماعی به منظور ترویج انصاف و شمول استفاده کنیم؟ چه نوع سوگیری های سیستمی (به عنوان مثال، عملکرد ضعیف در تصاویر افراد با رنگ پوست خاص) را می توانیم اندازه گیری کنیم و چگونه می توانیم از این معیارها برای طراحی الگوریتم های بهتر استفاده کنیم؟ چگونه میتوانیم الگوریتمها و سیستمهای جامعتری بسازیم و در صورت بروز خرابی سریع واکنش نشان دهیم؟
سنجش حضور مردم در رسانه ها
سیستمهای ML که میتوانند تصاویر یا ویدیوها را ویرایش، سرپرستی یا ایجاد کنند، میتوانند بر هر کسی که در معرض خروجیهای آنها قرار میگیرند، تأثیر بگذارند و باورهای بینندگان را در سراسر جهان شکل دهند یا تقویت کنند. تحقیقات برای کاهش آسیبهای بازنمایی، مانند تقویت کلیشهها یا تحقیر یا پاک کردن گروههای مردم، نیازمند درک عمیق هم از محتوا و هم از بافت اجتماعی است. این بستگی به نحوه درک ناظران مختلف از خود، جوامع خود، یا نحوه نمایش دیگران دارد. بحث های قابل توجهی در این زمینه وجود دارد که کدام دسته بندی های اجتماعی باید با ابزارهای محاسباتی مورد مطالعه قرار گیرند و چگونه می توان این کار را مسئولانه انجام داد. پژوهش ما بر روی کار به سمت راهحلهای مقیاسپذیر متمرکز است که از جامعهشناسی و روانشناسی اجتماعی اطلاعرسانی میکنند، با ادراک انسان همسو میشوند، ماهیت ذهنی مشکل را در بر میگیرند، و اندازهگیری و کاهش ظریف را ممکن میسازند. یک مثال، تحقیق ما در مورد تفاوت در درک انسان و حاشیه نویسی رنگ پوست در تصاویر با استفاده از مقیاس رنگ پوست Monk است.
ابزارهای ما همچنین برای مطالعه بازنمایی در مجموعههای محتوایی در مقیاس بزرگ استفاده میشوند. از طریق پروژه درک رسانهای برای اکتشاف اجتماعی (MUSE)، ما با محققان دانشگاهی، سازمانهای غیرانتفاعی و مارکهای مصرفکننده بزرگ برای درک الگوهای موجود در رسانههای اصلی و محتوای تبلیغاتی شریک شدهایم. ما برای اولین بار این اثر را در سال 2017 با یک مطالعه مشترک در مورد تجزیه و تحلیل برابری جنسیتی در فیلم های هالیوود منتشر کردیم. از آن زمان، ما مقیاس و عمق تحلیل های خود را افزایش داده ایم. در سال 2019، یافتههایی را بر اساس بیش از 2.7 میلیون تبلیغات YouTube منتشر کردیم. در آخرین مطالعه، ما بازنمایی را در سراسر تقاطع های ارائه جنسیت درک شده، سن درک شده، و رنگ پوست در بیش از دوازده سال برنامه تلویزیونی محبوب ایالات متحده بررسی می کنیم. این مطالعات بینشهایی را برای سازندگان محتوا و تبلیغکنندگان فراهم میکند و بیشتر به تحقیقات خود ما اطلاع میدهد.
تصویری (نه دادههای واقعی) از سیگنالهای محاسباتی که میتواند در مقیاس تجزیه و تحلیل شود تا الگوهای بازنمایی در مجموعههای رسانهای را آشکار کند. [Video Collection / Getty Images] |
با حرکت رو به جلو، ما مفاهیم عدالت ML را که بر روی آنها تمرکز می کنیم و حوزه هایی که آنها به طور مسئولانه در آنها اعمال می شوند، گسترش می دهیم. با نگاهی فراتر از تصاویر فوتورئالیستی افراد، ما در حال توسعه ابزارهایی هستیم که بازنمایی جوامع و فرهنگها را در تصاویر، تصاویر انتزاعی از شخصیتهای انساننما، و حتی تصاویری که اصلاً مردمی در آنها وجود ندارد، مدل میکنند. در نهایت، ما نیاز داریم که نه تنها در مورد اینکه چه کسی به تصویر کشیده میشود، بلکه چگونه به تصویر کشیده میشود، استدلال کنیم – چه روایتی از طریق محتوای تصویر اطراف، متن همراه، و بافت فرهنگی گستردهتر منتقل میشود.
تجزیه و تحلیل ویژگی های سوگیری سیستم های ادراکی
ساختن سیستمهای پیشرفته ML پیچیده است، با چندین ذینفع که معیارهای مختلفی را که رفتار محصول را تعیین میکنند، اطلاع میدهند. کیفیت کلی از لحاظ تاریخی با استفاده از آمار خلاصه (مانند دقت کلی) روی مجموعه داده آزمایشی به عنوان یک پروکسی برای تجربه کاربر تعریف و اندازهگیری شده است. اما همه کاربران محصولات را به یک شکل تجربه نمی کنند.
انصاف ادراک، اندازه گیری عملی رفتار سیستم را فراتر از آمار خلاصه می کند، و این معیارها را برای کیفیت سیستم که مستقیماً رفتارهای محصول و تصمیمات راه اندازی را اطلاع می دهد، اصلی می کند. این اغلب بسیار سخت تر از آن چیزی است که به نظر می رسد. تقطیر مسائل تعصب پیچیده (مثلاً تفاوت در عملکرد در بین گروههای فرعی متقاطع یا نمونههایی از تقویت کلیشه) به تعداد کمی از معیارها بدون از دست دادن تفاوتهای مهم بسیار چالش برانگیز است. چالش دیگر ایجاد تعادل بین معیارهای انصاف و سایر معیارهای محصول (به عنوان مثال، رضایت کاربر، دقت، تأخیر) است که اغلب با وجود سازگاری، متناقض بیان می شوند. معمولاً محققان کار خود را بهعنوان بهینهسازی یک مبادله «دقت و انصاف» توصیف میکنند، در حالی که در واقع رضایت گسترده کاربر با تحقق اهداف انصاف و گنجاندن همسو باشد.
برای این اهداف، تیم ما بر دو جهت تحقیقاتی گسترده تمرکز دارد. اول، دموکراتیک کردن دسترسی به ابزارهای تجزیه و تحلیل عادلانه که به خوبی درک شده و به طور گسترده قابل اجرا است، مشارکت دادن سازمان های شریک در پذیرش آنها در جریان کار محصول، و اطلاع رسانی به رهبری در سراسر شرکت در تفسیر نتایج. این کار شامل توسعه معیارهای گسترده، تنظیم مجموعه دادههای آزمایشی با کیفیت بالا و بسیار مفید است و ابزارهایی با محوریت تکنیکهایی مانند تجزیه و تحلیل بریدهشده و آزمایش خلاف واقع – اغلب بر اساس کار سیگنالهای اصلی که قبلاً توضیح داده شد، ساخته میشوند. دوم، پیشبرد رویکردهای جدید به سمت تجزیه و تحلیل عادلانه – از جمله مشارکت با تلاشهای محصول که ممکن است منجر به یافتههای پیشرفت یا اطلاعرسانی استراتژی راهاندازی شود.
پیشبرد هوش مصنوعی مسئولانه
کار ما با تحلیل رفتار مدل متوقف نمی شود. در عوض، ما از این به عنوان نقطه پرش برای شناسایی بهبودهای الگوریتمی با همکاری سایر محققان و مهندسان در تیم های محصول استفاده می کنیم. در سال گذشته، مؤلفههای ارتقا یافتهای را راهاندازی کردهایم که ویژگیهای «جستجو» و «حافظهها» را در Google Photos تقویت میکنند، که منجر به عملکرد ثابتتر و بهبود چشمگیر استحکام از طریق لایههای اضافهشده میشود که از نفوذ اشتباهات در سیستم جلوگیری میکند. ما در حال کار بر روی بهبود الگوریتمهای رتبهبندی در Google Images برای تنوع بخشیدن به نمایش هستیم. ما الگوریتمهایی را بهروزرسانی کردیم که ممکن است کلیشههای تاریخی را تقویت کنند، با استفاده مسئولانه از سیگنالهای اضافی، به طوری که احتمال بیشتری وجود دارد که همه خود را در نتایج جستجو ببینند و آنچه را که به دنبال آن هستند بیابند.
این کار به طور طبیعی به دنیای هوش مصنوعی مولد منتقل میشود، جایی که مدلها میتوانند مجموعهای از تصاویر یا ویدیوها را که از پیامهای تصویر و متن ساخته شدهاند ایجاد کنند و میتوانند به سؤالات مربوط به تصاویر و ویدیوها پاسخ دهند. ما در مورد پتانسیل این فناوری ها برای ارائه تجربیات جدید به کاربران و به عنوان ابزاری برای پیشبرد تحقیقات خود هیجان زده هستیم. برای فعال کردن این امر، ما در سراسر تحقیقات و جوامع مسئول هوش مصنوعی برای توسعه نردههایی که حالتهای خرابی را کاهش میدهند، همکاری میکنیم. ما از ابزارهای خود برای درک بازنمایی برای تقویت معیارهای مقیاسپذیر استفاده میکنیم که میتوانند با بازخورد انسانی ترکیب شوند، و سرمایهگذاری در تحقیقات از قبل از آموزش تا استقرار برای هدایت مدلها برای تولید خروجی با کیفیت بالاتر، فراگیرتر و قابل کنترلتر. ما میخواهیم این مدلها الهامبخش مردم باشند، خروجیهای متنوعی تولید کنند، مفاهیم را بدون تکیه بر کلیشهها یا کلیشهها ترجمه کنند، و رفتارها و پاسخهای ثابتی را در میان تغییرات خلاف واقع از اعلانها ارائه دهند.
فرصت ها و کار مداوم
علیرغم بیش از یک دهه کار متمرکز، حوزه فناوریهای انصاف ادراک همچنان فضایی نوپا و در حال رشد به نظر میرسد که مملو از فرصتهایی برای تکنیکهای پیشرفت است. ما همچنان شاهد فرصتهایی برای کمک به پیشرفتهای فنی با حمایت بورسیه بینرشتهای هستیم. شکاف بین آنچه میتوانیم در تصاویر اندازهگیری کنیم و جنبههای اساسی هویت و بیان انسانی بسیار زیاد است – بستن این شکاف به راهحلهای تحلیل رسانهای پیچیدهتر نیاز دارد. سنجههای دادهای که نشاندهنده بازنمایی واقعی است، که در زمینه مناسب قرار دارد و به دیدگاههای گوناگون توجه میکند، چالشی باز برای ما باقی میماند. آیا میتوانیم به نقطهای برسیم که بتوانیم بهطور قابل اعتمادی تصویر کلیشههای ظریف را شناسایی کنیم، آنها را بهطور مداوم به روز کنیم تا جامعهای در حال تغییر را منعکس کنیم، و موقعیتهایی را که در آن ممکن است توهینآمیز باشند، تشخیص دهیم؟ پیشرفتهای الگوریتمی که توسط بازخورد انسانی هدایت میشوند، مسیر امیدوارکنندهای را به جلو نشان میدهند.
تمرکز اخیر بر ایمنی و اخلاق هوش مصنوعی در زمینه توسعه مدلهای بزرگ مدرن، راههای جدیدی برای تفکر در مورد اندازهگیری سوگیریهای سیستمی را برانگیخته است. ما در حال بررسی چندین راه برای استفاده از این مدلها هستیم – همراه با پیشرفتهای اخیر در روشهای توضیحپذیری مبتنی بر مفهوم، روشهای استنتاج علّی، و تحقیقات پیشرفته UX – برای تعیین کمیت و به حداقل رساندن رفتارهای جانبدارانه ناخواسته. ما مشتاقانه منتظر مقابله با چالش های پیش رو و توسعه فناوری هستیم که برای همه ساخته شده است.
سپاسگزاریها
مایلیم از همه اعضای تیم Perception Fairness و همه همکارانمان تشکر کنیم.