بر اساس نظرسنجی اخیر از بیش از 1300 متخصص در این زمینه، کیفیت داده بزرگترین چالشی است که تیم های یادگیری ماشین (ML) هنگام به دست آوردن داده های آموزشی با آن مواجه هستند.
بر اساس گزارش Zeitgeist: AI Readiness Report توسط Scale AI، یک سوم از پاسخ دهندگان گفتند که با مشکلات کیفیت داده روبرو هستند و به دنبال آن مشکلاتی در جمع آوری، تجزیه و تحلیل، ذخیره سازی و نسخه سازی وجود دارد.
این نظرسنجی میگوید: «این مشکلات باید برطرف شوند، زیرا «تأثیر پاییندستی قابلتوجهی» بر تلاشهای ML دارند و تیمها اغلب نمیتوانند بدون دادههای با کیفیت بهطور مؤثر مدلسازی کنند.
در این گزارش، تیمهای ML گفتند که مرتبسازی حجم، پیچیدگی دادهها و کمبود آن دشوار است. داده های بدون ساختار چالش خاصی را ایجاد می کند. پزشکان متوجه می شوند که مدیریت داده ها برای مدل های آن بر سرعت اجرای پروژه های ML خود تأثیر می گذارد. بدون داده های با کیفیت بالا، تیم ها نمی توانند مدل های قوی ایجاد کنند.
تنوع، حجم و نویز
عوامل موثر در کیفیت داده ها عبارتند از تنوع، حجم و نویز.
در این نظرسنجی، 37 درصد یافتن تنوع دادهای که برای بهبود عملکرد مدل نیاز دارند، مشکل است. کسانی که با داده های بدون ساختار کار می کنند به طور خاص بزرگترین چالش را در دریافت انواع داده ها برای بهبود عملکرد مدل دارند.
از آنجایی که امروزه بیشتر دادهها بدون ساختار هستند، تیمهای ML باید یک استراتژی در مورد نحوه مدیریت این دادهها برای افزایش کیفیت داده داشته باشند.
تیمهای ML که با دادههای بدون ساختار کار میکنند، احتمال بیشتری نسبت به تیمهایی که با دادههای نیمه ساختاریافته یا ساختاریافته کار میکنند، دادههای بسیار کمی دارند.
اکثر پاسخ دهندگان مشکل در داده های آموزشی خود را گزارش می کنند که نویز داده ها به عنوان بزرگترین سردرد (67٪) و پس از آن سوگیری داده ها (47٪) و شکاف های دامنه (47٪) قرار دارند. فقط 9 درصد چنین مسائلی نداشتند.
این گزارش این پنج نکته را برای توسعه هوش مصنوعی داده محور از اندرو نگ، یکی از بنیانگذاران Google Brain ارائه می دهد.
- برچسب ها را یکدست کنید
- از برچسب گذاری اجماع برای تشخیص ناسازگاری ها استفاده کنید
- دستورالعمل برچسب زدن را روشن کنید
- نمونه های پر سر و صدا را کنار بگذارید (زیرا داده های بیشتر همیشه بهتر نیست)
- از تجزیه و تحلیل خطا برای تمرکز بر زیر مجموعه ای از داده ها برای بهبود استفاده کنید
برای خواندن ادامه این داستان، به سایت خواهر ما AI Business مراجعه کنید.