گزارش جدید آمادگی هوش مصنوعی بینش هایی را در مورد چرخه حیات ML نشان می دهد | دانش مرکز داده

بر اساس نظرسنجی اخیر از بیش از 1300 متخصص در این زمینه، کیفیت داده بزرگترین چالشی است که تیم های یادگیری ماشین (ML) هنگام به دست آوردن داده های آموزشی با آن مواجه هستند.

بر اساس گزارش Zeitgeist: AI Readiness Report توسط Scale AI، یک سوم از پاسخ دهندگان گفتند که با مشکلات کیفیت داده روبرو هستند و به دنبال آن مشکلاتی در جمع آوری، تجزیه و تحلیل، ذخیره سازی و نسخه سازی وجود دارد.

این نظرسنجی می‌گوید: «این مشکلات باید برطرف شوند، زیرا «تأثیر پایین‌دستی قابل‌توجهی» بر تلاش‌های ML دارند و تیم‌ها اغلب نمی‌توانند بدون داده‌های با کیفیت به‌طور مؤثر مدل‌سازی کنند.

در این گزارش، تیم‌های ML گفتند که مرتب‌سازی حجم، پیچیدگی داده‌ها و کمبود آن دشوار است. داده های بدون ساختار چالش خاصی را ایجاد می کند. پزشکان متوجه می شوند که مدیریت داده ها برای مدل های آن بر سرعت اجرای پروژه های ML خود تأثیر می گذارد. بدون داده های با کیفیت بالا، تیم ها نمی توانند مدل های قوی ایجاد کنند.

تنوع، حجم و نویز

عوامل موثر در کیفیت داده ها عبارتند از تنوع، حجم و نویز.

در این نظرسنجی، 37 درصد یافتن تنوع داده‌ای که برای بهبود عملکرد مدل نیاز دارند، مشکل است. کسانی که با داده های بدون ساختار کار می کنند به طور خاص بزرگترین چالش را در دریافت انواع داده ها برای بهبود عملکرد مدل دارند.

از آنجایی که امروزه بیشتر داده‌ها بدون ساختار هستند، تیم‌های ML باید یک استراتژی در مورد نحوه مدیریت این داده‌ها برای افزایش کیفیت داده داشته باشند.

تیم‌های ML که با داده‌های بدون ساختار کار می‌کنند، احتمال بیشتری نسبت به تیم‌هایی که با داده‌های نیمه ساختاریافته یا ساختاریافته کار می‌کنند، داده‌های بسیار کمی دارند.

اکثر پاسخ دهندگان مشکل در داده های آموزشی خود را گزارش می کنند که نویز داده ها به عنوان بزرگترین سردرد (67٪) و پس از آن سوگیری داده ها (47٪) و شکاف های دامنه (47٪) قرار دارند. فقط 9 درصد چنین مسائلی نداشتند.

این گزارش این پنج نکته را برای توسعه هوش مصنوعی داده محور از اندرو نگ، یکی از بنیانگذاران Google Brain ارائه می دهد.

  1. برچسب ها را یکدست کنید
  2. از برچسب گذاری اجماع برای تشخیص ناسازگاری ها استفاده کنید
  3. دستورالعمل برچسب زدن را روشن کنید
  4. نمونه های پر سر و صدا را کنار بگذارید (زیرا داده های بیشتر همیشه بهتر نیست)
  5. از تجزیه و تحلیل خطا برای تمرکز بر زیر مجموعه ای از داده ها برای بهبود استفاده کنید

برای خواندن ادامه این داستان، به سایت خواهر ما AI Business مراجعه کنید.