تست خصمانه برای ایمنی مولد هوش مصنوعی – وبلاگ تحقیقاتی گوگل

تست خصمانه برای ایمنی مولد هوش مصنوعی – وبلاگ تحقیقاتی گوگل

این تیم مسئول هوش مصنوعی و فناوری انسان محور (RAI-HCT) در Google Research متعهد به پیشبرد تئوری و عملکرد هوش مصنوعی مسئول انسان محور از طریق دریچه تحقیقات فرهنگی آگاهانه است تا نیازهای میلیاردها کاربر امروزی را برآورده کند، و مسیر رو به جلو را برای آینده ای بهتر هوش مصنوعی آماده کنید. هدف تیم BRAIDS (ساختن داده‌ها و راه‌حل‌های هوش مصنوعی مسئول) در RAI-HCT، ساده‌سازی روش‌های RAI از طریق استفاده از ابزارهای مقیاس‌پذیر، داده‌های با کیفیت بالا، فرآیندهای ساده و تحقیقات جدید با تأکید فعلی بر پرداختن به چالش‌های منحصربه‌فرد است. ارائه شده توسط هوش مصنوعی مولد (GenAI).

مدل‌های GenAI قابلیت‌های بی‌سابقه‌ای را فعال کرده‌اند که منجر به افزایش سریع برنامه‌های نوآورانه می‌شود. گوگل به طور فعال از GenAI استفاده می‌کند تا کاربرد محصولات خود را افزایش دهد و زندگی را بهبود بخشد. در حالی که GenAI بسیار سودمند است، خطراتی برای اطلاعات نادرست، سوگیری و امنیت نیز به همراه دارد. در سال 2018، گوگل پیشگام اصول هوش مصنوعی بود و بر استفاده مفید و جلوگیری از آسیب تأکید داشت. از آن زمان، گوگل بر اجرای موثر اصول ما در شیوه‌های هوش مصنوعی مسئول از طریق 1) چارچوب ارزیابی ریسک جامع، 2) ساختارهای حاکمیت داخلی، 3) آموزش، توانمندسازی گوگل برای ادغام اصول هوش مصنوعی در کارشان، و 4) توسعه فرآیندها و ابزارهایی که ریسک‌های اخلاقی را در طول چرخه عمر محصولات مبتنی بر هوش مصنوعی شناسایی، اندازه‌گیری و تحلیل می‌کنند. تیم BRAIDS بر آخرین حوزه تمرکز دارد، ابزارها و تکنیک‌هایی برای شناسایی خطرات اخلاقی و ایمنی در محصولات GenAI ایجاد می‌کند که تیم‌های درون Google را قادر می‌سازد تا اقدامات کاهشی مناسب را اعمال کنند.

چه چیزی GenAI را برای ساختن مسئولانه چالش برانگیز می کند؟

قابلیت‌های بی‌سابقه مدل‌های GenAI با طیف جدیدی از خرابی‌های احتمالی همراه شده است، که بر ضرورت یک رویکرد جامع و سیستماتیک RAI برای درک و کاهش نگرانی‌های بالقوه ایمنی قبل از عرضه گسترده مدل تاکید می‌کند. یکی از تکنیک های کلیدی که برای درک خطرات احتمالی استفاده می شود این است تست خصمانه، آزمایشی است که برای ارزیابی سیستماتیک مدل‌ها انجام می‌شود تا نحوه رفتار آن‌ها در صورت ارائه ورودی‌های مخرب یا ناخواسته مضر در طیف وسیعی از سناریوها انجام شود. برای این منظور، تحقیقات ما بر سه جهت متمرکز شده است:

  1. تولید داده های متخاصم مقیاس شده
    با توجه به جوامع مختلف کاربران، موارد استفاده و رفتارها، شناسایی همه جانبه مسائل ایمنی حیاتی قبل از راه اندازی یک محصول یا خدمات دشوار است. تولید داده‌های متخاصم مقیاس‌پذیر با انسان‌های درون حلقه این نیاز را با ایجاد مجموعه‌های آزمایشی که شامل طیف گسترده‌ای از ورودی‌های مدل متنوع و بالقوه ناایمن است که بر قابلیت‌های مدل تحت شرایط نامطلوب تاکید می‌کند، برطرف می‌کند. تمرکز منحصربه‌فرد ما در BRAIDS در شناسایی آسیب‌های اجتماعی به جوامع کاربری متنوعی است که تحت تأثیر مدل‌های ما قرار گرفته‌اند.
  2. ارزیابی خودکار مجموعه تست و مشارکت جامعه
    مقیاس‌گذاری فرآیند آزمایش به‌گونه‌ای که بتوان هزاران پاسخ مدل را به سرعت ارزیابی کرد تا نحوه پاسخ‌دهی مدل در طیف گسترده‌ای از سناریوهای بالقوه مضر با ارزیابی خودکار مجموعه تست کمک شود. فراتر از آزمایش با مجموعه‌های تست متخاصم، مشارکت جامعه یک جزء کلیدی از رویکرد ما برای شناسایی «ناشناخته‌های ناشناخته» و بذر فرآیند تولید داده است.
  3. تنوع ارزیاب
    ارزیابی های ایمنی بر قضاوت انسان تکیه می کنند که توسط جامعه و فرهنگ شکل می گیرد و به راحتی خودکار نمی شود. برای پرداختن به این موضوع، تحقیق در مورد تنوع رتبه‌دهنده را در اولویت قرار می‌دهیم.

تولید داده های متخاصم مقیاس شده

داده‌های جامع و با کیفیت بالا زیربنای بسیاری از برنامه‌های کلیدی در سراسر Google هستند. در ابتدا با تکیه بر تولید دستی داده ها، گام های مهمی برای خودکارسازی فرآیند تولید داده های متخاصم برداشته ایم. یک مخزن داده متمرکز با اعلان‌های مورد استفاده و همسویی با خط مشی برای شروع سریع تولید آزمایش‌های متخاصم جدید در دسترس است. ما همچنین چندین ابزار تولید داده مصنوعی را بر اساس مدل‌های زبان بزرگ (LLM) ایجاد کرده‌ایم که تولید مجموعه‌های داده‌ای را که منعکس‌کننده زمینه‌های اجتماعی متنوع هستند و معیارهای کیفیت داده را برای بهبود کیفیت و تنوع مجموعه داده‌ها ادغام می‌کنند، در اولویت قرار می‌دهند.

معیارهای کیفیت داده ما عبارتند از:

  • تجزیه و تحلیل سبک های زبان، از جمله طول پرس و جو، شباهت پرس و جو، و تنوع سبک های زبان.
  • اندازه‌گیری در طیف وسیعی از ابعاد اجتماعی و چندفرهنگی، با استفاده از مجموعه داده‌هایی مانند SeeGULL، SPICE، Societal Context Repository.
  • اندازه گیری همسویی با خط مشی های هوش مصنوعی مولد گوگل و موارد استفاده مورد نظر.
  • تجزیه و تحلیل خصومت برای اطمینان از اینکه هم پرس و جوهای صریح (ورودی به وضوح برای تولید یک خروجی ناامن طراحی شده است) و هم ضمنی (که ورودی بی ضرر است اما خروجی مضر است) را بررسی می کنیم.

یکی از رویکردهای ما برای تولید داده های مقیاس شده در مقاله ما در مورد تیم قرمز با کمک هوش مصنوعی (AART) مثال زده شده است. AART مجموعه داده‌های ارزیابی را با تنوع بالا تولید می‌کند (مثلاً مفاهیم حساس و مضر خاص برای طیف گسترده‌ای از مناطق فرهنگی و جغرافیایی)، که توسط دستور العمل‌های به کمک هوش مصنوعی برای تعریف، محدوده و اولویت‌بندی تنوع در یک زمینه کاربردی هدایت می‌شوند. در مقایسه با برخی از ابزارهای پیشرفته، AART نتایج امیدوارکننده‌ای را از نظر پوشش مفهومی و کیفیت داده نشان می‌دهد. به طور جداگانه، ما همچنین با MLCommons کار می کنیم تا به معیارهای عمومی ایمنی هوش مصنوعی کمک کنیم.

تست خصمانه و بینش جامعه

ارزیابی خروجی مدل با مجموعه‌های تست مخالف به ما امکان می‌دهد تا مسائل ایمنی حیاتی را قبل از استقرار شناسایی کنیم. ارزیابی‌های اولیه ما منحصراً به رتبه‌بندی‌های انسانی متکی بود که به دلیل فقدان تعاریف و خط‌مشی‌های ایمنی استاندارد، زمان‌های چرخش آهسته و ناسازگاری‌ها را به همراه داشت. ما کیفیت ارزیابی‌ها را با معرفی دستورالعمل‌های ارزیاب همسو با خط‌مشی برای بهبود دقت ارزیابی‌کننده انسانی بهبود بخشیده‌ایم، و در حال تحقیق در مورد بهبودهای بیشتر برای انعکاس بهتر دیدگاه‌های جوامع مختلف هستیم. علاوه بر این، ارزیابی خودکار مجموعه آزمایشی با استفاده از ارزیابی‌کننده‌های خودکار مبتنی بر LLM، کارایی و مقیاس‌بندی را ممکن می‌سازد، در حالی که به ما اجازه می‌دهد موارد پیچیده یا مبهم را برای رتبه‌بندی متخصص به انسان‌ها هدایت کنیم.

فراتر از آزمایش با مجموعه‌های آزمایشی متخاصم، جمع‌آوری بینش‌های جامعه برای کشف مداوم «ناشناخته‌های ناشناخته» حیاتی است. برای ارائه ورودی انسانی با کیفیت بالا که برای بکارگیری فرآیندهای مقیاس‌بندی شده لازم است، ما با گروه‌هایی مانند میزگرد تحقیقاتی Equitable AI (EARR) و با تیم‌های اخلاقی و تجزیه و تحلیل داخلی خود همکاری می‌کنیم تا اطمینان حاصل کنیم که جامعه‌های متنوعی را نمایندگی می‌کنیم که از آنها استفاده می‌کنند. مدل های ما چالش Adversarial Nibbler کاربران خارجی را به درک مضرات بالقوه خروجی های ناامن، جانبدارانه یا خشونت آمیز برای کاربران نهایی در مقیاس درگیر می کند. تعهد مستمر ما به مشارکت جامعه شامل جمع‌آوری بازخورد از جوامع مختلف و همکاری با جامعه تحقیقاتی است، برای مثال در طول کارگاه ART of Safety در فصل آسیا و اقیانوسیه انجمن زبان‌شناسی محاسباتی کنفرانس (IJCNLP-AACL 2023) برای رسیدگی به آزمایش‌های خصمانه. چالش های GenAI

تنوع ارزیاب در ارزیابی ایمنی

درک و کاهش خطرات ایمنی GenAI یک چالش فنی و اجتماعی است. ادراکات ایمنی ذاتا ذهنی هستند و تحت تأثیر طیف وسیعی از عوامل متقاطع هستند. مطالعه عمیق ما در مورد تأثیرات جمعیت شناختی بر ادراکات ایمنی، اثرات متقاطع جمعیت شناسی ارزیاب (به عنوان مثال، نژاد/قومیت، جنسیت، سن) و ویژگی های محتوا (به عنوان مثال، درجه آسیب) را بر ارزیابی های ایمنی خروجی های GenAI بررسی کرد. رویکردهای سنتی تا حد زیادی ذهنیت ذاتی و اختلاف نظرهای سیستماتیک بین ارزیاب‌ها را نادیده می‌گیرند، که می‌تواند تفاوت‌های فرهنگی مهم را پنهان کند. چارچوب تجزیه و تحلیل اختلاف ما انواع مختلفی از الگوهای اختلاف را بین ارزیاب‌ها از پیشینه‌های مختلف از جمله با رتبه‌بندی‌های متخصص «حقیقت زمینی» نشان داد. این راه را برای رویکردهای جدید برای ارزیابی کیفیت حاشیه نویسی انسانی و ارزیابی مدل فراتر از استفاده ساده از برچسب های طلایی هموار می کند. انتشارات NeurIPS 2023 مجموعه داده‌های DICES (تنوع در ارزیابی هوش مصنوعی مکالمه برای ایمنی) را معرفی می‌کند که ارزیابی ایمنی دقیق LLM‌ها را تسهیل می‌کند و واریانس، ابهام و تنوع را در زمینه‌های فرهنگی مختلف توضیح می‌دهد.

خلاصه

GenAI منجر به دگرگونی فناوری شده است و فرصت‌هایی را برای توسعه سریع و سفارشی‌سازی حتی بدون کدنویسی باز می‌کند. با این حال، خطر تولید خروجی های مضر را نیز به همراه دارد. برنامه تست خصمانه فعال ما خطرات GenAI را شناسایی و کاهش می دهد تا از رفتار مدل فراگیر اطمینان حاصل شود. تست خصمانه و تیم قرمز اجزای اساسی یک استراتژی ایمنی هستند و انجام آنها به شیوه ای جامع ضروری است. سرعت سریع نوآوری ایجاب می کند که ما دائماً خودمان را برای یافتن “ناشناخته های ناشناخته” با همکاری شرکای داخلی، جوامع مختلف کاربران و سایر کارشناسان صنعت به چالش بکشیم.