همانطور که تحقیقات یادگیری ماشین (ML) به سمت مدلهای مقیاس بزرگ میرود که قادر به انجام کارهای پایین دستی متعدد هستند، درک مشترک از منشاء، توسعه، هدف و تکامل مجموعه دادهها برای توسعه مسئولانه و آگاهانه مدلهای ML اهمیت فزایندهای پیدا میکند. با این حال، دانش در مورد مجموعه داده ها، از جمله استفاده و پیاده سازی، اغلب در بین تیم ها، افراد و حتی زمان توزیع می شود. در اوایل سال جاری در کنفرانس ACM در مورد انصاف، پاسخگویی و شفافیت (ACM FAccT)، ما کارتهای داده را منتشر کردیم، یک چارچوب مستندات مجموعه داده با هدف افزایش شفافیت در چرخه عمر مجموعه دادهها. کارتهای داده، مصنوعات شفافیتی هستند که خلاصههای ساختاری از مجموعه دادههای ML را با توضیحاتی در مورد فرآیندها و منطق ارائه میدهند که دادهها را شکل میدهند و نحوه استفاده از دادهها را برای آموزش یا ارزیابی مدلها توصیف میکنند. کارتهای داده حداقل شامل موارد زیر است: (1) منابع بالادستی، (2) روشهای جمعآوری و حاشیهنویسی دادهها، (3) روشهای آموزش و ارزیابی، (4) استفاده مورد نظر، و (5) تصمیمگیریهای مؤثر بر عملکرد مدل.
در عمل، دو عامل حیاتی موفقیت یک مصنوع شفافیت را تعیین می کند، توانایی شناسایی اطلاعاتی که تصمیم گیرندگان استفاده می کنند و ایجاد فرآیندها و راهنمایی های مورد نیاز برای به دست آوردن آن اطلاعات. ما شروع به بررسی این ایده در مقاله خود با سه چارچوب “داربستی” کردیم که برای تطبیق کارت های داده با مجموعه های مختلف داده ها و زمینه های سازمانی طراحی شده اند. این چارچوب ها به ما در ایجاد کمک کردند زیرساخت های مرزیکه فرآیندها و مدلهای تعاملی هستند که زیرساختهای فنی و عملکردی لازم برای برقراری ارتباط بین جوامع عملی را تکمیل میکنند. زیرساخت های مرزی به ذینفعان مجموعه داده این امکان را می دهد تا زمینه مشترک مورد استفاده برای ارائه ورودی های متنوع در تصمیم گیری ها برای ایجاد، مستندسازی و استفاده از مجموعه داده ها را بیابند.
امروز، ما کتاب بازی کارت دادهها را معرفی میکنیم، یک جعبه ابزار خود هدایتشده برای تیمهای مختلف برای هدایت چالشهای شفافیت با مجموعه دادههای ML خود. Playbook یک رویکرد طراحی انسان محور را برای مستندسازی اعمال می کند – از برنامه ریزی استراتژی شفافیت و تعریف مخاطب تا نوشتن خلاصه های خواننده محور از مجموعه داده های پیچیده – برای اطمینان از اینکه قابلیت استفاده و کاربرد مجموعه داده های مستند به خوبی درک شده است. ما فعالیتهای مشارکتی ایجاد کردهایم تا موانع معمولی را در راهاندازی تلاش شفافسازی دادهها، چارچوبهایی که میتواند شفافیت دادهها را به انواع دادههای جدید مقیاسبندی کند، و راهنماییهایی که محققان، تیمهای محصول و شرکتها میتوانند برای تولید کارتهای داده که منعکسکننده اصول سازمانی آنها باشد، استفاده کنند، ایجاد کردهایم.
کتاب راهنمای کارت داده ها جدیدترین تحقیقات مربوط به عدالت، مسئولیت پذیری و شفافیت را در خود جای داده است. |
کتاب بازی کارت داده ها
ما Playbook را با استفاده از یک رویکرد چند جانبه ایجاد کردیم که شامل نظرسنجی، تجزیه و تحلیل مصنوعات، مصاحبهها و کارگاهها بود. ما آنچه را که گوگل میخواستند درباره مجموعه دادهها و مدلها بدانند و اینکه چگونه از آن اطلاعات در کارهای روزمره خود استفاده میکردند، مطالعه کردیم. در طول دو سال گذشته، ما الگوهایی را برای مصنوعات شفافیت که توسط پانزده تیم در Google استفاده میشد، مستقر کردیم، و زمانی که گلوگاهها به وجود آمد، برای تعیین راهحلهای مناسب با این تیمها شریک شدیم. سپس بیش از بیست کارت داده ایجاد کردیم که مجموعه دادههای تصویر، زبان، جدولی، ویدیویی، صوتی و رابطهای را در تنظیمات تولید توصیف میکنند که برخی از آنها اکنون در GitHub در دسترس هستند. این رویکرد چند وجهی بینشهایی را در مورد جریانهای کاری مستندسازی، شیوههای جمعآوری اطلاعات مشترک، درخواستهای اطلاعاتی از ذینفعان پایین دستی، و شیوههای بررسی و ارزیابی برای هر تیم Google ارائه کرد.
علاوه بر این، ما با کارشناسان طراحی، سیاست و فناوری در سراسر صنعت و دانشگاه صحبت کردیم تا بازخورد منحصر به فرد آنها را در مورد کارت های داده ای که ایجاد کرده ایم دریافت کنیم. ما همچنین آموختههای خود را از مجموعهای از کارگاههای آموزشی در ACM FAccT در سال 2021 ترکیب کردیم. در Google، کارایی و مقیاسپذیری راهحلهای خود را با محققان ML، دانشمندان داده، مهندسان، بازبینان اخلاق هوش مصنوعی، مدیران محصول و رهبری ارزیابی کردیم. در کتاب بازی کارت دادهها، ما رویکردهای موفق را به شیوههای تکرارپذیر ترجمه کردهایم که به راحتی میتوانند با نیازهای منحصر به فرد تیم سازگار شوند.
فعالیت ها، مبانی، و الگوهای شفافیت
کتاب بازی کارت دادهها از دوی سرعت و شیوههای طراحی مشترک مدلسازی شده است، بنابراین تیمهای متقابل و ذینفعان آنها میتوانند با هم کار کنند تا شفافیت را با توجه به مشکلات دنیای واقعی که هنگام ایجاد مستندات مجموعه داده و راهحلهای حاکمیتی تجربه میکنند، تعریف کنند. سی و سه موجود است فعالیت ها دیدگاههای انتقادی و گسترده را از طیف گستردهای از ذینفعان دعوت میکند، بنابراین کارتهای داده میتوانند برای تصمیمگیری در طول چرخه عمر مجموعه داده مفید باشند. ما با محققانی از تیم مسئولیتپذیر هوش مصنوعی در Google همکاری کردیم تا فعالیتهایی ایجاد کنیم که میتواند ملاحظات انصاف و مسئولیتپذیری را منعکس کند. برای مثال، ما شکافهای ارزیابی در شیوههای ML را در یک کاربرگ برای مستندسازی مجموعه داده کاملتر تطبیق دادهایم.
برای استفاده از کتاب راهنمای کارت داده در سازمان خود، الگوهای فعالیتی که به راحتی در دسترس هستند را دانلود کنید. |
ما تشکیل داده ایم الگوهای شفافیت با راهنمایی مبتنی بر شواهد برای کمک به پیشبینی چالشهای پیشرو در هنگام تولید اسناد شفاف، ارائه بهترین روشها که شفافیت را بهبود میبخشد، و کارتهای داده را برای خوانندگان با پیشینههای مختلف مفید میسازد. چالشها و راهحلهای آنها بر اساس دادهها و بینشهای کارمندان Google، کارشناسان صنعت، و تحقیقات دانشگاهی است.
الگوها به رفع انسداد تیم ها با اقدامات توصیه شده، احتیاط در برابر مشکلات رایج و جایگزین های پیشنهادی برای موانع کمک می کنند. |
Playbook همچنین شامل پایه هاکه مفاهیم و چارچوبهای مقیاسپذیر هستند که جنبههای اساسی شفافیت را با ظهور زمینههای جدید روشهای داده و ML بررسی میکنند. هر بنیاد از مراحل مختلف توسعه محصول پشتیبانی می کند و شامل نکات کلیدی، اقدامات برای تیم ها و منابع مفید است.
ماژول های کتاب بازی
کتاب راهنما در چهار ماژول سازماندهی شده است: (1) سؤال، (2) بازرسی، (3) پاسخ، و (3) حسابرسی. هر ماژول شامل مجموعهای رو به رشد از موادی است که تیمها میتوانند در جریان کار خود برای مقابله با چالشهای شفافیت که اغلب همزمان رخ میدهند، استفاده کنند. از آنجایی که کارتهای داده با مقیاسپذیری و توسعهپذیری در ذهن ایجاد شدهاند، ماژولها از تفکر واگرایی-همگرایی استفاده میکنند که ممکن است تیمها قبلاً از آن استفاده کنند، بنابراین مستندسازی یک فکر بعدی نیست. ماژولهای Ask and Inspect به ایجاد و ارزیابی الگوهای کارت داده برای نیازها و اصول سازمانی کمک میکنند. ماژولهای پاسخ و حسابرسی به تیمهای داده کمک میکنند تا الگوها را تکمیل کنند و کارتهای داده حاصل را ارزیابی کنند.
که در پرسیدن، تیم ها شفافیت را تعریف می کنند و مستندات مجموعه داده خود را برای تصمیم گیری متقابل عملکردی بهینه می کنند. فعالیتهای مشارکتی فرصتهایی را برای خوانندگان کارت داده ایجاد میکند تا در مورد آنچه که شفافیت در مستندات مجموعه داده را تشکیل میدهد، نظر داشته باشند. اینها چالشهای خاصی را برطرف میکنند و برای شدتها و مدتهای مختلف رتبهبندی میشوند تا تیمها بتوانند فعالیتها را بر اساس نیازهای خود ترکیب و مطابقت دهند.
این بازرسی کنید ماژول شامل فعالیت هایی برای شناسایی شکاف ها و فرصت ها در شفافیت مجموعه داده ها و فرآیندها از دیدگاه کاربر محور و مجموعه داده محور است. از تیمها در پالایش، اعتبارسنجی و عملیاتی کردن الگوهای کارت داده در سراسر یک سازمان پشتیبانی میکند تا خوانندگان بتوانند به نتایج معقولی در مورد مجموعه دادههای توصیف شده برسند.
این پاسخ ماژول شامل الگوهای شفافیت و فعالیت های اکتشاف مجموعه داده برای پاسخ به سوالات چالش برانگیز و مبهم است. موضوعات تحت پوشش شامل آماده سازی برای شفافیت، نوشتن خلاصه های خواننده محور در اسناد، باز کردن قابلیت استفاده و کاربرد مجموعه داده ها، و نگهداری کارت داده در طول زمان است.
این حسابرسی ماژول به تیم های داده و سازمان ها کمک می کند تا فرآیندهایی را برای ارزیابی کارت های داده تکمیل شده قبل از انتشار تنظیم کنند. همچنین حاوی راهنمایی برای اندازهگیری و ردیابی چگونگی تلاش شفافیت برای مقیاسهای مجموعه دادههای متعدد در سازمانها است.
در عمل
یک تیم عملیات داده در Google از نسخه اولیه فعالیتهای لنز و محدوده از ماژولهای Ask برای ایجاد یک الگوی سفارشی داده کارت استفاده کرد. جالب توجه است، ما دیدیم که آنها از این الگو در سراسر گردش کار خود استفاده می کنند تا زمانی که مجموعه داده ها تحویل داده شوند. آنها از کارتهای داده برای دریافت درخواستهای مجموعه داده از تیمهای تحقیقاتی استفاده کردند، فرآیندهای مختلف را برای ایجاد مجموعههای داده ردیابی کردند، ابردادهها را از فروشندگان مسئول حاشیهنویسی جمعآوری کردند و تأییدیههای مدیریت شده را دریافت کردند. تجربیات آنها از تکرار با کارشناسان و مدیریت بهروزرسانیها در الگوهای شفافیت ما منعکس شده است.
یکی دیگر از گروههای حاکمیت داده از نسخه پیشرفتهتری از فعالیتها برای مصاحبه با سهامداران برای ابتکارات مرتبط با سلامت ML خود استفاده کرد. با استفاده از این توضیحات، آنها ذینفعان را شناسایی کردند تا طرحواره کارت داده خود را ایجاد کنند. رأیگیری روی لنزها برای رد سؤالات اسنادی معمولی، و شناسایی نیازهای اسناد غیرمعمول خاص به نوع داده آنها، و برای تصمیمگیریهایی که غالباً توسط رهبری ML و نقشهای تاکتیکی در تیم آنها گرفته میشود، استفاده شد. سپس از این سؤالات برای سفارشی کردن طرحواره های ابرداده موجود در مخازن داده آنها استفاده شد.
نتیجه
ما کتاب راهنمای کارت داده ها را ارائه می کنیم، یک رویکرد پیوسته و متنی برای شفافیت مجموعه داده که به طور عمدی همه مواد و زمینه های مرتبط را در نظر می گیرد. با این کار، ما امیدواریم که پایههای عمل محور را برای شفافیت ایجاد و ترویج کنیم تا مسیر را برای محققان برای توسعه سیستمها و مجموعه دادههای ML که مسئول و به نفع جامعه هستند، هموار کنیم.
علاوه بر چهار ماژول Playbook توضیح داده شده، ما همچنین یک کارتساز را منبع باز میسازیم که کارتهای داده تعاملی را از یک فایل Markdown تولید میکند. میتوانید سازنده را در کارتهای داده پروژه GEM Benchmark مشاهده کنید. کارتهای داده ایجاد شده نتیجه فعالیتهای این کتاب راهنما بود که در آن تیم GEM پیشرفتهایی را در همه ابعاد شناسایی کرد و یک ابزار جمعآوری تعاملی طراحی شده حول محدودهها ایجاد کرد.
ما تصدیق می کنیم که این به خودی خود راه حل جامعی برای انصاف، پاسخگویی یا شفافیت نیست. ما با استفاده از درسهای آموختهشده به بهبود Playbook ادامه میدهیم. ما امیدواریم که کتاب راهنمای کارت داده بتواند به یک پلتفرم قوی برای پیشبرد مشترک تحقیقات شفافیت تبدیل شود و از شما دعوت میکند که این کتاب را خودتان بسازید.
سپاسگزاریها
این کار با همکاری رینا جانا، ویویان تسای و اودور کیارتانسون انجام شد. میخواهیم از دونالد گونزالس، دن ناناس، پارکر بارنز، لورا روزنشتاین، دایانا آکرونگ، مونیکا کاراوی، دینگ وانگ، دانیل اسمالز، آیبوکه تورکر، امیلی برویله، اندرو فوکس، سباستین گرمن، کاسی کوزیرکوف، الکس سیگمن و آنتونی کین تشکر کنیم. سهم عظیم آنها؛ و مگ میچل و تیمنیت گبرو برای حمایت از این کار.
همچنین میخواهیم از آدام بولانگر، لورن ویلکاکس، روکسان پینتو، پارکر بارنز و آیچا چاکماکلی برای بازخوردشان تشکر کنیم. تولسی دوشی، دن لیبلینگ، مردیت موریس، لوکاس دیکسون، فرناندا ویگاس، جن گنای و ماریان کروک برای حمایت از آنها. این کار بدون شرکت کنندگان در کارگاه و مطالعه ما و شرکای متعددی که بینش و تجربیات آنها این کتاب راهنما را شکل داده است، امکان پذیر نبود.