این تیم مسئول هوش مصنوعی و فناوری انسان محور (RAI-HCT) در Google Research متعهد به پیشبرد تئوری و عملکرد هوش مصنوعی مسئول انسان محور از طریق دریچه تحقیقات فرهنگی آگاهانه است تا نیازهای میلیاردها کاربر امروزی را برآورده کند، و مسیر رو به جلو را برای آینده ای بهتر هوش مصنوعی آماده کنید. هدف تیم BRAIDS (ساختن دادهها و راهحلهای هوش مصنوعی مسئول) در RAI-HCT، سادهسازی روشهای RAI از طریق استفاده از ابزارهای مقیاسپذیر، دادههای با کیفیت بالا، فرآیندهای ساده و تحقیقات جدید با تأکید فعلی بر پرداختن به چالشهای منحصربهفرد است. ارائه شده توسط هوش مصنوعی مولد (GenAI).
مدلهای GenAI قابلیتهای بیسابقهای را فعال کردهاند که منجر به افزایش سریع برنامههای نوآورانه میشود. گوگل به طور فعال از GenAI استفاده میکند تا کاربرد محصولات خود را افزایش دهد و زندگی را بهبود بخشد. در حالی که GenAI بسیار سودمند است، خطراتی برای اطلاعات نادرست، سوگیری و امنیت نیز به همراه دارد. در سال 2018، گوگل پیشگام اصول هوش مصنوعی بود و بر استفاده مفید و جلوگیری از آسیب تأکید داشت. از آن زمان، گوگل بر اجرای موثر اصول ما در شیوههای هوش مصنوعی مسئول از طریق 1) چارچوب ارزیابی ریسک جامع، 2) ساختارهای حاکمیت داخلی، 3) آموزش، توانمندسازی گوگل برای ادغام اصول هوش مصنوعی در کارشان، و 4) توسعه فرآیندها و ابزارهایی که ریسکهای اخلاقی را در طول چرخه عمر محصولات مبتنی بر هوش مصنوعی شناسایی، اندازهگیری و تحلیل میکنند. تیم BRAIDS بر آخرین حوزه تمرکز دارد، ابزارها و تکنیکهایی برای شناسایی خطرات اخلاقی و ایمنی در محصولات GenAI ایجاد میکند که تیمهای درون Google را قادر میسازد تا اقدامات کاهشی مناسب را اعمال کنند.
چه چیزی GenAI را برای ساختن مسئولانه چالش برانگیز می کند؟
قابلیتهای بیسابقه مدلهای GenAI با طیف جدیدی از خرابیهای احتمالی همراه شده است، که بر ضرورت یک رویکرد جامع و سیستماتیک RAI برای درک و کاهش نگرانیهای بالقوه ایمنی قبل از عرضه گسترده مدل تاکید میکند. یکی از تکنیک های کلیدی که برای درک خطرات احتمالی استفاده می شود این است تست خصمانه، آزمایشی است که برای ارزیابی سیستماتیک مدلها انجام میشود تا نحوه رفتار آنها در صورت ارائه ورودیهای مخرب یا ناخواسته مضر در طیف وسیعی از سناریوها انجام شود. برای این منظور، تحقیقات ما بر سه جهت متمرکز شده است:
- تولید داده های متخاصم مقیاس شده
با توجه به جوامع مختلف کاربران، موارد استفاده و رفتارها، شناسایی همه جانبه مسائل ایمنی حیاتی قبل از راه اندازی یک محصول یا خدمات دشوار است. تولید دادههای متخاصم مقیاسپذیر با انسانهای درون حلقه این نیاز را با ایجاد مجموعههای آزمایشی که شامل طیف گستردهای از ورودیهای مدل متنوع و بالقوه ناایمن است که بر قابلیتهای مدل تحت شرایط نامطلوب تاکید میکند، برطرف میکند. تمرکز منحصربهفرد ما در BRAIDS در شناسایی آسیبهای اجتماعی به جوامع کاربری متنوعی است که تحت تأثیر مدلهای ما قرار گرفتهاند. - ارزیابی خودکار مجموعه تست و مشارکت جامعه
مقیاسگذاری فرآیند آزمایش بهگونهای که بتوان هزاران پاسخ مدل را به سرعت ارزیابی کرد تا نحوه پاسخدهی مدل در طیف گستردهای از سناریوهای بالقوه مضر با ارزیابی خودکار مجموعه تست کمک شود. فراتر از آزمایش با مجموعههای تست متخاصم، مشارکت جامعه یک جزء کلیدی از رویکرد ما برای شناسایی «ناشناختههای ناشناخته» و بذر فرآیند تولید داده است. - تنوع ارزیاب
ارزیابی های ایمنی بر قضاوت انسان تکیه می کنند که توسط جامعه و فرهنگ شکل می گیرد و به راحتی خودکار نمی شود. برای پرداختن به این موضوع، تحقیق در مورد تنوع رتبهدهنده را در اولویت قرار میدهیم.
تولید داده های متخاصم مقیاس شده
دادههای جامع و با کیفیت بالا زیربنای بسیاری از برنامههای کلیدی در سراسر Google هستند. در ابتدا با تکیه بر تولید دستی داده ها، گام های مهمی برای خودکارسازی فرآیند تولید داده های متخاصم برداشته ایم. یک مخزن داده متمرکز با اعلانهای مورد استفاده و همسویی با خط مشی برای شروع سریع تولید آزمایشهای متخاصم جدید در دسترس است. ما همچنین چندین ابزار تولید داده مصنوعی را بر اساس مدلهای زبان بزرگ (LLM) ایجاد کردهایم که تولید مجموعههای دادهای را که منعکسکننده زمینههای اجتماعی متنوع هستند و معیارهای کیفیت داده را برای بهبود کیفیت و تنوع مجموعه دادهها ادغام میکنند، در اولویت قرار میدهند.
معیارهای کیفیت داده ما عبارتند از:
- تجزیه و تحلیل سبک های زبان، از جمله طول پرس و جو، شباهت پرس و جو، و تنوع سبک های زبان.
- اندازهگیری در طیف وسیعی از ابعاد اجتماعی و چندفرهنگی، با استفاده از مجموعه دادههایی مانند SeeGULL، SPICE، Societal Context Repository.
- اندازه گیری همسویی با خط مشی های هوش مصنوعی مولد گوگل و موارد استفاده مورد نظر.
- تجزیه و تحلیل خصومت برای اطمینان از اینکه هم پرس و جوهای صریح (ورودی به وضوح برای تولید یک خروجی ناامن طراحی شده است) و هم ضمنی (که ورودی بی ضرر است اما خروجی مضر است) را بررسی می کنیم.
یکی از رویکردهای ما برای تولید داده های مقیاس شده در مقاله ما در مورد تیم قرمز با کمک هوش مصنوعی (AART) مثال زده شده است. AART مجموعه دادههای ارزیابی را با تنوع بالا تولید میکند (مثلاً مفاهیم حساس و مضر خاص برای طیف گستردهای از مناطق فرهنگی و جغرافیایی)، که توسط دستور العملهای به کمک هوش مصنوعی برای تعریف، محدوده و اولویتبندی تنوع در یک زمینه کاربردی هدایت میشوند. در مقایسه با برخی از ابزارهای پیشرفته، AART نتایج امیدوارکنندهای را از نظر پوشش مفهومی و کیفیت داده نشان میدهد. به طور جداگانه، ما همچنین با MLCommons کار می کنیم تا به معیارهای عمومی ایمنی هوش مصنوعی کمک کنیم.
تست خصمانه و بینش جامعه
ارزیابی خروجی مدل با مجموعههای تست مخالف به ما امکان میدهد تا مسائل ایمنی حیاتی را قبل از استقرار شناسایی کنیم. ارزیابیهای اولیه ما منحصراً به رتبهبندیهای انسانی متکی بود که به دلیل فقدان تعاریف و خطمشیهای ایمنی استاندارد، زمانهای چرخش آهسته و ناسازگاریها را به همراه داشت. ما کیفیت ارزیابیها را با معرفی دستورالعملهای ارزیاب همسو با خطمشی برای بهبود دقت ارزیابیکننده انسانی بهبود بخشیدهایم، و در حال تحقیق در مورد بهبودهای بیشتر برای انعکاس بهتر دیدگاههای جوامع مختلف هستیم. علاوه بر این، ارزیابی خودکار مجموعه آزمایشی با استفاده از ارزیابیکنندههای خودکار مبتنی بر LLM، کارایی و مقیاسبندی را ممکن میسازد، در حالی که به ما اجازه میدهد موارد پیچیده یا مبهم را برای رتبهبندی متخصص به انسانها هدایت کنیم.
فراتر از آزمایش با مجموعههای آزمایشی متخاصم، جمعآوری بینشهای جامعه برای کشف مداوم «ناشناختههای ناشناخته» حیاتی است. برای ارائه ورودی انسانی با کیفیت بالا که برای بکارگیری فرآیندهای مقیاسبندی شده لازم است، ما با گروههایی مانند میزگرد تحقیقاتی Equitable AI (EARR) و با تیمهای اخلاقی و تجزیه و تحلیل داخلی خود همکاری میکنیم تا اطمینان حاصل کنیم که جامعههای متنوعی را نمایندگی میکنیم که از آنها استفاده میکنند. مدل های ما چالش Adversarial Nibbler کاربران خارجی را به درک مضرات بالقوه خروجی های ناامن، جانبدارانه یا خشونت آمیز برای کاربران نهایی در مقیاس درگیر می کند. تعهد مستمر ما به مشارکت جامعه شامل جمعآوری بازخورد از جوامع مختلف و همکاری با جامعه تحقیقاتی است، برای مثال در طول کارگاه ART of Safety در فصل آسیا و اقیانوسیه انجمن زبانشناسی محاسباتی کنفرانس (IJCNLP-AACL 2023) برای رسیدگی به آزمایشهای خصمانه. چالش های GenAI
تنوع ارزیاب در ارزیابی ایمنی
درک و کاهش خطرات ایمنی GenAI یک چالش فنی و اجتماعی است. ادراکات ایمنی ذاتا ذهنی هستند و تحت تأثیر طیف وسیعی از عوامل متقاطع هستند. مطالعه عمیق ما در مورد تأثیرات جمعیت شناختی بر ادراکات ایمنی، اثرات متقاطع جمعیت شناسی ارزیاب (به عنوان مثال، نژاد/قومیت، جنسیت، سن) و ویژگی های محتوا (به عنوان مثال، درجه آسیب) را بر ارزیابی های ایمنی خروجی های GenAI بررسی کرد. رویکردهای سنتی تا حد زیادی ذهنیت ذاتی و اختلاف نظرهای سیستماتیک بین ارزیابها را نادیده میگیرند، که میتواند تفاوتهای فرهنگی مهم را پنهان کند. چارچوب تجزیه و تحلیل اختلاف ما انواع مختلفی از الگوهای اختلاف را بین ارزیابها از پیشینههای مختلف از جمله با رتبهبندیهای متخصص «حقیقت زمینی» نشان داد. این راه را برای رویکردهای جدید برای ارزیابی کیفیت حاشیه نویسی انسانی و ارزیابی مدل فراتر از استفاده ساده از برچسب های طلایی هموار می کند. انتشارات NeurIPS 2023 مجموعه دادههای DICES (تنوع در ارزیابی هوش مصنوعی مکالمه برای ایمنی) را معرفی میکند که ارزیابی ایمنی دقیق LLMها را تسهیل میکند و واریانس، ابهام و تنوع را در زمینههای فرهنگی مختلف توضیح میدهد.
خلاصه
GenAI منجر به دگرگونی فناوری شده است و فرصتهایی را برای توسعه سریع و سفارشیسازی حتی بدون کدنویسی باز میکند. با این حال، خطر تولید خروجی های مضر را نیز به همراه دارد. برنامه تست خصمانه فعال ما خطرات GenAI را شناسایی و کاهش می دهد تا از رفتار مدل فراگیر اطمینان حاصل شود. تست خصمانه و تیم قرمز اجزای اساسی یک استراتژی ایمنی هستند و انجام آنها به شیوه ای جامع ضروری است. سرعت سریع نوآوری ایجاب می کند که ما دائماً خودمان را برای یافتن “ناشناخته های ناشناخته” با همکاری شرکای داخلی، جوامع مختلف کاربران و سایر کارشناسان صنعت به چالش بکشیم.