ابزاری برای شفافیت در اسناد مجموعه داده – وبلاگ هوش مصنوعی گوگل

همانطور که تحقیقات یادگیری ماشین (ML) به سمت مدل‌های مقیاس بزرگ می‌رود که قادر به انجام کارهای پایین دستی متعدد هستند، درک مشترک از منشاء، توسعه، هدف و تکامل مجموعه داده‌ها برای توسعه مسئولانه و آگاهانه مدل‌های ML اهمیت فزاینده‌ای پیدا می‌کند. با این حال، دانش در مورد مجموعه داده ها، از جمله استفاده و پیاده سازی، اغلب در بین تیم ها، افراد و حتی زمان توزیع می شود. در اوایل سال جاری در کنفرانس ACM در مورد انصاف، پاسخگویی و شفافیت (ACM FAccT)، ما کارت‌های داده را منتشر کردیم، یک چارچوب مستندات مجموعه داده با هدف افزایش شفافیت در چرخه عمر مجموعه داده‌ها. کارت‌های داده، مصنوعات شفافیتی هستند که خلاصه‌های ساختاری از مجموعه داده‌های ML را با توضیحاتی در مورد فرآیندها و منطق ارائه می‌دهند که داده‌ها را شکل می‌دهند و نحوه استفاده از داده‌ها را برای آموزش یا ارزیابی مدل‌ها توصیف می‌کنند. کارت‌های داده حداقل شامل موارد زیر است: (1) منابع بالادستی، (2) روش‌های جمع‌آوری و حاشیه‌نویسی داده‌ها، (3) روش‌های آموزش و ارزیابی، (4) استفاده مورد نظر، و (5) تصمیم‌گیری‌های مؤثر بر عملکرد مدل.

در عمل، دو عامل حیاتی موفقیت یک مصنوع شفافیت را تعیین می کند، توانایی شناسایی اطلاعاتی که تصمیم گیرندگان استفاده می کنند و ایجاد فرآیندها و راهنمایی های مورد نیاز برای به دست آوردن آن اطلاعات. ما شروع به بررسی این ایده در مقاله خود با سه چارچوب “داربستی” کردیم که برای تطبیق کارت های داده با مجموعه های مختلف داده ها و زمینه های سازمانی طراحی شده اند. این چارچوب ها به ما در ایجاد کمک کردند زیرساخت های مرزیکه فرآیندها و مدل‌های تعاملی هستند که زیرساخت‌های فنی و عملکردی لازم برای برقراری ارتباط بین جوامع عملی را تکمیل می‌کنند. زیرساخت های مرزی به ذینفعان مجموعه داده این امکان را می دهد تا زمینه مشترک مورد استفاده برای ارائه ورودی های متنوع در تصمیم گیری ها برای ایجاد، مستندسازی و استفاده از مجموعه داده ها را بیابند.

امروز، ما کتاب بازی کارت داده‌ها را معرفی می‌کنیم، یک جعبه ابزار خود هدایت‌شده برای تیم‌های مختلف برای هدایت چالش‌های شفافیت با مجموعه داده‌های ML خود. Playbook یک رویکرد طراحی انسان محور را برای مستندسازی اعمال می کند – از برنامه ریزی استراتژی شفافیت و تعریف مخاطب تا نوشتن خلاصه های خواننده محور از مجموعه داده های پیچیده – برای اطمینان از اینکه قابلیت استفاده و کاربرد مجموعه داده های مستند به خوبی درک شده است. ما فعالیت‌های مشارکتی ایجاد کرده‌ایم تا موانع معمولی را در راه‌اندازی تلاش شفاف‌سازی داده‌ها، چارچوب‌هایی که می‌تواند شفافیت داده‌ها را به انواع داده‌های جدید مقیاس‌بندی کند، و راهنمایی‌هایی که محققان، تیم‌های محصول و شرکت‌ها می‌توانند برای تولید کارت‌های داده که منعکس‌کننده اصول سازمانی آنها باشد، استفاده کنند، ایجاد کرده‌ایم.

کتاب راهنمای کارت داده ها جدیدترین تحقیقات مربوط به عدالت، مسئولیت پذیری و شفافیت را در خود جای داده است.

کتاب بازی کارت داده ها

ما Playbook را با استفاده از یک رویکرد چند جانبه ایجاد کردیم که شامل نظرسنجی، تجزیه و تحلیل مصنوعات، مصاحبه‌ها و کارگاه‌ها بود. ما آنچه را که گوگل می‌خواستند درباره مجموعه داده‌ها و مدل‌ها بدانند و اینکه چگونه از آن اطلاعات در کارهای روزمره خود استفاده می‌کردند، مطالعه کردیم. در طول دو سال گذشته، ما الگوهایی را برای مصنوعات شفافیت که توسط پانزده تیم در Google استفاده می‌شد، مستقر کردیم، و زمانی که گلوگاه‌ها به وجود آمد، برای تعیین راه‌حل‌های مناسب با این تیم‌ها شریک شدیم. سپس بیش از بیست کارت داده ایجاد کردیم که مجموعه داده‌های تصویر، زبان، جدولی، ویدیویی، صوتی و رابطه‌ای را در تنظیمات تولید توصیف می‌کنند که برخی از آنها اکنون در GitHub در دسترس هستند. این رویکرد چند وجهی بینش‌هایی را در مورد جریان‌های کاری مستندسازی، شیوه‌های جمع‌آوری اطلاعات مشترک، درخواست‌های اطلاعاتی از ذینفعان پایین دستی، و شیوه‌های بررسی و ارزیابی برای هر تیم Google ارائه کرد.

علاوه بر این، ما با کارشناسان طراحی، سیاست و فناوری در سراسر صنعت و دانشگاه صحبت کردیم تا بازخورد منحصر به فرد آنها را در مورد کارت های داده ای که ایجاد کرده ایم دریافت کنیم. ما همچنین آموخته‌های خود را از مجموعه‌ای از کارگاه‌های آموزشی در ACM FAccT در سال 2021 ترکیب کردیم. در Google، کارایی و مقیاس‌پذیری راه‌حل‌های خود را با محققان ML، دانشمندان داده، مهندسان، بازبینان اخلاق هوش مصنوعی، مدیران محصول و رهبری ارزیابی کردیم. در کتاب بازی کارت داده‌ها، ما رویکردهای موفق را به شیوه‌های تکرارپذیر ترجمه کرده‌ایم که به راحتی می‌توانند با نیازهای منحصر به فرد تیم سازگار شوند.

فعالیت ها، مبانی، و الگوهای شفافیت

کتاب بازی کارت داده‌ها از دوی سرعت و شیوه‌های طراحی مشترک مدل‌سازی شده است، بنابراین تیم‌های متقابل و ذینفعان آن‌ها می‌توانند با هم کار کنند تا شفافیت را با توجه به مشکلات دنیای واقعی که هنگام ایجاد مستندات مجموعه داده و راه‌حل‌های حاکمیتی تجربه می‌کنند، تعریف کنند. سی و سه موجود است فعالیت ها دیدگاه‌های انتقادی و گسترده را از طیف گسترده‌ای از ذینفعان دعوت می‌کند، بنابراین کارت‌های داده می‌توانند برای تصمیم‌گیری در طول چرخه عمر مجموعه داده مفید باشند. ما با محققانی از تیم مسئولیت‌پذیر هوش مصنوعی در Google همکاری کردیم تا فعالیت‌هایی ایجاد کنیم که می‌تواند ملاحظات انصاف و مسئولیت‌پذیری را منعکس کند. برای مثال، ما شکاف‌های ارزیابی در شیوه‌های ML را در یک کاربرگ برای مستندسازی مجموعه داده کامل‌تر تطبیق داده‌ایم.

برای استفاده از کتاب راهنمای کارت داده در سازمان خود، الگوهای فعالیتی که به راحتی در دسترس هستند را دانلود کنید.

ما تشکیل داده ایم الگوهای شفافیت با راهنمایی مبتنی بر شواهد برای کمک به پیش‌بینی چالش‌های پیش‌رو در هنگام تولید اسناد شفاف، ارائه بهترین روش‌ها که شفافیت را بهبود می‌بخشد، و کارت‌های داده را برای خوانندگان با پیشینه‌های مختلف مفید می‌سازد. چالش‌ها و راه‌حل‌های آنها بر اساس داده‌ها و بینش‌های کارمندان Google، کارشناسان صنعت، و تحقیقات دانشگاهی است.

الگوها به رفع انسداد تیم ها با اقدامات توصیه شده، احتیاط در برابر مشکلات رایج و جایگزین های پیشنهادی برای موانع کمک می کنند.

Playbook همچنین شامل پایه هاکه مفاهیم و چارچوب‌های مقیاس‌پذیر هستند که جنبه‌های اساسی شفافیت را با ظهور زمینه‌های جدید روش‌های داده و ML بررسی می‌کنند. هر بنیاد از مراحل مختلف توسعه محصول پشتیبانی می کند و شامل نکات کلیدی، اقدامات برای تیم ها و منابع مفید است.

ماژول های کتاب بازی

کتاب راهنما در چهار ماژول سازماندهی شده است: (1) سؤال، (2) بازرسی، (3) پاسخ، و (3) حسابرسی. هر ماژول شامل مجموعه‌ای رو به رشد از موادی است که تیم‌ها می‌توانند در جریان کار خود برای مقابله با چالش‌های شفافیت که اغلب همزمان رخ می‌دهند، استفاده کنند. از آنجایی که کارت‌های داده با مقیاس‌پذیری و توسعه‌پذیری در ذهن ایجاد شده‌اند، ماژول‌ها از تفکر واگرایی-همگرایی استفاده می‌کنند که ممکن است تیم‌ها قبلاً از آن استفاده کنند، بنابراین مستندسازی یک فکر بعدی نیست. ماژول‌های Ask and Inspect به ایجاد و ارزیابی الگوهای کارت داده برای نیازها و اصول سازمانی کمک می‌کنند. ماژول‌های پاسخ و حسابرسی به تیم‌های داده کمک می‌کنند تا الگوها را تکمیل کنند و کارت‌های داده حاصل را ارزیابی کنند.

که در پرسیدن، تیم ها شفافیت را تعریف می کنند و مستندات مجموعه داده خود را برای تصمیم گیری متقابل عملکردی بهینه می کنند. فعالیت‌های مشارکتی فرصت‌هایی را برای خوانندگان کارت داده ایجاد می‌کند تا در مورد آنچه که شفافیت در مستندات مجموعه داده را تشکیل می‌دهد، نظر داشته باشند. اینها چالش‌های خاصی را برطرف می‌کنند و برای شدت‌ها و مدت‌های مختلف رتبه‌بندی می‌شوند تا تیم‌ها بتوانند فعالیت‌ها را بر اساس نیازهای خود ترکیب و مطابقت دهند.

این بازرسی کنید ماژول شامل فعالیت هایی برای شناسایی شکاف ها و فرصت ها در شفافیت مجموعه داده ها و فرآیندها از دیدگاه کاربر محور و مجموعه داده محور است. از تیم‌ها در پالایش، اعتبارسنجی و عملیاتی کردن الگوهای کارت داده در سراسر یک سازمان پشتیبانی می‌کند تا خوانندگان بتوانند به نتایج معقولی در مورد مجموعه داده‌های توصیف شده برسند.

این پاسخ ماژول شامل الگوهای شفافیت و فعالیت های اکتشاف مجموعه داده برای پاسخ به سوالات چالش برانگیز و مبهم است. موضوعات تحت پوشش شامل آماده سازی برای شفافیت، نوشتن خلاصه های خواننده محور در اسناد، باز کردن قابلیت استفاده و کاربرد مجموعه داده ها، و نگهداری کارت داده در طول زمان است.

این حسابرسی ماژول به تیم های داده و سازمان ها کمک می کند تا فرآیندهایی را برای ارزیابی کارت های داده تکمیل شده قبل از انتشار تنظیم کنند. همچنین حاوی راهنمایی برای اندازه‌گیری و ردیابی چگونگی تلاش شفافیت برای مقیاس‌های مجموعه داده‌های متعدد در سازمان‌ها است.

در عمل

یک تیم عملیات داده در Google از نسخه اولیه فعالیت‌های لنز و محدوده از ماژول‌های Ask برای ایجاد یک الگوی سفارشی داده کارت استفاده کرد. جالب توجه است، ما دیدیم که آنها از این الگو در سراسر گردش کار خود استفاده می کنند تا زمانی که مجموعه داده ها تحویل داده شوند. آن‌ها از کارت‌های داده برای دریافت درخواست‌های مجموعه داده از تیم‌های تحقیقاتی استفاده کردند، فرآیندهای مختلف را برای ایجاد مجموعه‌های داده ردیابی کردند، ابرداده‌ها را از فروشندگان مسئول حاشیه‌نویسی جمع‌آوری کردند و تأییدیه‌های مدیریت شده را دریافت کردند. تجربیات آنها از تکرار با کارشناسان و مدیریت به‌روزرسانی‌ها در الگوهای شفافیت ما منعکس شده است.

یکی دیگر از گروه‌های حاکمیت داده از نسخه پیشرفته‌تری از فعالیت‌ها برای مصاحبه با سهامداران برای ابتکارات مرتبط با سلامت ML خود استفاده کرد. با استفاده از این توضیحات، آنها ذینفعان را شناسایی کردند تا طرحواره کارت داده خود را ایجاد کنند. رأی‌گیری روی لنزها برای رد سؤالات اسنادی معمولی، و شناسایی نیازهای اسناد غیرمعمول خاص به نوع داده آنها، و برای تصمیم‌گیری‌هایی که غالباً توسط رهبری ML و نقش‌های تاکتیکی در تیم آنها گرفته می‌شود، استفاده شد. سپس از این سؤالات برای سفارشی کردن طرحواره های ابرداده موجود در مخازن داده آنها استفاده شد.

نتیجه

ما کتاب راهنمای کارت داده ها را ارائه می کنیم، یک رویکرد پیوسته و متنی برای شفافیت مجموعه داده که به طور عمدی همه مواد و زمینه های مرتبط را در نظر می گیرد. با این کار، ما امیدواریم که پایه‌های عمل محور را برای شفافیت ایجاد و ترویج کنیم تا مسیر را برای محققان برای توسعه سیستم‌ها و مجموعه داده‌های ML که مسئول و به نفع جامعه هستند، هموار کنیم.

علاوه بر چهار ماژول Playbook توضیح داده شده، ما همچنین یک کارت‌ساز را منبع باز می‌سازیم که کارت‌های داده تعاملی را از یک فایل Markdown تولید می‌کند. می‌توانید سازنده را در کارت‌های داده پروژه GEM Benchmark مشاهده کنید. کارت‌های داده ایجاد شده نتیجه فعالیت‌های این کتاب راهنما بود که در آن تیم GEM پیشرفت‌هایی را در همه ابعاد شناسایی کرد و یک ابزار جمع‌آوری تعاملی طراحی شده حول محدوده‌ها ایجاد کرد.

ما تصدیق می کنیم که این به خودی خود راه حل جامعی برای انصاف، پاسخگویی یا شفافیت نیست. ما با استفاده از درس‌های آموخته‌شده به بهبود Playbook ادامه می‌دهیم. ما امیدواریم که کتاب راهنمای کارت داده بتواند به یک پلتفرم قوی برای پیشبرد مشترک تحقیقات شفافیت تبدیل شود و از شما دعوت می‌کند که این کتاب را خودتان بسازید.

سپاسگزاریها

این کار با همکاری رینا جانا، ویویان تسای و اودور کیارتانسون انجام شد. می‌خواهیم از دونالد گونزالس، دن ناناس، پارکر بارنز، لورا روزنشتاین، دایانا آکرونگ، مونیکا کاراوی، دینگ وانگ، دانیل اسمالز، آیبوکه تورکر، امیلی برویله، اندرو فوکس، سباستین گرمن، کاسی کوزیرکوف، الکس سیگمن و آنتونی کین تشکر کنیم. سهم عظیم آنها؛ و مگ میچل و تیمنیت گبرو برای حمایت از این کار.

همچنین می‌خواهیم از آدام بولانگر، لورن ویلکاکس، روکسان پینتو، پارکر بارنز و آیچا چاکماکلی برای بازخوردشان تشکر کنیم. تولسی دوشی، دن لیبلینگ، مردیت موریس، لوکاس دیکسون، فرناندا ویگاس، جن گنای و ماریان کروک برای حمایت از آنها. این کار بدون شرکت کنندگان در کارگاه و مطالعه ما و شرکای متعددی که بینش و تجربیات آنها این کتاب راهنما را شکل داده است، امکان پذیر نبود.