جمع آوری داده ها برای مدل های ML: استراتژی ها و پروتکل ها برای اطمینان از یکپارچگی مجموعه داده ها

نویسندگان:

(1) TIMNIT GEBRU، سیاه در هوش مصنوعی.

(2) جیمی مورگنسترن، دانشگاه واشنگتن.

(3) BRIANA VECCHIONE، دانشگاه کرنل.

(4) JENNIFER WORTMAN VAUGHAN، Microsoft Research;

(5) HANNA WALLACH، Microsoft Research;

(6) HAL DAUMÉ III، Microsoft Research; دانشگاه مریلند؛

(7) کیت کرافورد، تحقیقات مایکروسافت.

1. معرفی

1.1 اهداف

2 فرآیند توسعه

3 سوال و گردش کار

3.1 انگیزه

3.2 ترکیب

3.3 فرآیند جمع آوری

3.4 پیش پردازش / تمیز کردن / برچسب زدن

3.5 موارد استفاده

3.6 توزیع

3.7 تعمیر و نگهداری

4 تاثیر و چالش ها

قدردانی و مراجع

ضمیمه

3.3 فرآیند جمع آوری

مانند سؤالات بخش قبل، سازندگان مجموعه داده ها باید قبل از هر گونه جمع آوری داده، این سؤالات را بخوانند تا مشکلات احتمالی را علامت گذاری کنند و پس از تکمیل جمع آوری پاسخ ها را ارائه دهند. علاوه بر اهداف ذکر شده در بخش قبل، سؤالات این بخش برای استخراج اطلاعاتی طراحی شده اند که ممکن است به محققان و متخصصان کمک کند تا مجموعه داده های جایگزین با ویژگی های مشابه ایجاد کنند. مجدداً، سؤالاتی که فقط برای مجموعه داده هایی که به افراد مربوط می شوند اعمال می شوند، در انتهای بخش با هم گروه بندی می شوند.

• داده های مرتبط با هر نمونه چگونه به دست آمد؟ آیا داده ها مستقیماً قابل مشاهده بودند (به عنوان مثال، خام …

Source link