از خام تا تصفیه شده: درک پیش پردازش، تمیز کردن و برچسب گذاری در تهیه داده ها

نویسندگان:

(1) TIMNIT GEBRU، سیاه در هوش مصنوعی.

(2) جیمی مورگنسترن، دانشگاه واشنگتن.

(3) BRIANA VECCHIONE، دانشگاه کرنل.

(4) JENNIFER WORTMAN VAUGHAN، Microsoft Research;

(5) HANNA WALLACH، Microsoft Research;

(6) HAL DAUMÉ III، Microsoft Research; دانشگاه مریلند؛

(7) کیت کرافورد، تحقیقات مایکروسافت.

1. معرفی

1.1 اهداف

2 فرآیند توسعه

3 سوال و گردش کار

3.1 انگیزه

3.2 ترکیب

3.3 فرآیند جمع آوری

3.4 پیش پردازش / تمیز کردن / برچسب زدن

3.5 موارد استفاده

3.6 توزیع

3.7 تعمیر و نگهداری

4 تاثیر و چالش ها

قدردانی و مراجع

ضمیمه

3.4 پیش پردازش / تمیز کردن / برچسب زدن

سازندگان مجموعه داده‌ها باید قبل از هر گونه پیش‌پردازش، تمیز کردن یا برچسب‌گذاری، این سؤالات را بخوانند و پس از تکمیل این وظایف، پاسخ‌ها را ارائه کنند. سؤالات این بخش برای ارائه اطلاعات مورد نیاز مصرف‌کنندگان مجموعه داده‌ها برای تعیین اینکه آیا داده‌های «خام» به روش‌هایی سازگار با وظایف انتخابی آنها پردازش شده‌اند، ارائه می‌کنند. به عنوان مثال، متنی که به “کیف کلمات” تبدیل شده است برای کارهایی که شامل ترتیب کلمات هستند مناسب نیست.

• آیا هرگونه پیش پردازش/تمیز کردن/برچسب گذاری داده ها انجام شده است (به عنوان مثال، گسسته سازی یا سطل سازی، نشانه گذاری، برچسب گذاری بخشی از گفتار، ویژگی SIFT…

Source link