نویسندگان:
(1) TIMNIT GEBRU، سیاه در هوش مصنوعی.
(2) جیمی مورگنسترن، دانشگاه واشنگتن.
(3) BRIANA VECCHIONE، دانشگاه کرنل.
(4) JENNIFER WORTMAN VAUGHAN، Microsoft Research;
(5) HANNA WALLACH، Microsoft Research;
(6) HAL DAUMÉ III، Microsoft Research; دانشگاه مریلند؛
(7) کیت کرافورد، تحقیقات مایکروسافت.
جدول پیوندها
1. معرفی
1.1 اهداف
2 فرآیند توسعه
3 سوال و گردش کار
3.1 انگیزه
3.2 ترکیب
3.3 فرآیند جمع آوری
3.4 پیش پردازش / تمیز کردن / برچسب زدن
3.5 موارد استفاده
3.6 توزیع
3.7 تعمیر و نگهداری
4 تاثیر و چالش ها
قدردانی و مراجع
ضمیمه
3.4 پیش پردازش / تمیز کردن / برچسب زدن
سازندگان مجموعه دادهها باید قبل از هر گونه پیشپردازش، تمیز کردن یا برچسبگذاری، این سؤالات را بخوانند و پس از تکمیل این وظایف، پاسخها را ارائه کنند. سؤالات این بخش برای ارائه اطلاعات مورد نیاز مصرفکنندگان مجموعه دادهها برای تعیین اینکه آیا دادههای «خام» به روشهایی سازگار با وظایف انتخابی آنها پردازش شدهاند، ارائه میکنند. به عنوان مثال، متنی که به “کیف کلمات” تبدیل شده است برای کارهایی که شامل ترتیب کلمات هستند مناسب نیست.
• آیا هرگونه پیش پردازش/تمیز کردن/برچسب گذاری داده ها انجام شده است (به عنوان مثال، گسسته سازی یا سطل سازی، نشانه گذاری، برچسب گذاری بخشی از گفتار، ویژگی SIFT…