تبدیل داده ها و گسسته سازی مراحل مهمی در خط لوله پیش پردازش داده ها است. آنها داده های خام را برای تجزیه و تحلیل با تبدیل آن به فرم های مناسب برای استخراج ، بهبود کارآیی و صحت الگوریتم های داده کاوی تهیه می کنند. این مقاله عمیقاً به مفاهیم ، تکنیک ها و کاربردهای عملی تحول و گسسته سازی داده ها فرو می رود.
1. تحول داده ها چیست؟
تبدیل داده ها شامل تبدیل داده ها به اشکال مناسب برای معدن است. این مرحله ضروری است زیرا داده های خام غالباً پر سر و صدا ، متناقض یا نامناسب برای تجزیه و تحلیل مستقیم هستند. استراتژی های تبدیل داده های متداول شامل موارد زیر است:
- صافی: سر و صدای داده ها را حذف کنید (به عنوان مثال ، با استفاده از بنفش یا خوشه بندی).
- ویژگی ساخت و ساز: ویژگی های جدیدی را از موارد موجود ایجاد کنید (به عنوان مثال ، منطقه = ارتفاع × عرض).
- تجمع: داده ها را خلاصه کنید (به عنوان مثال ، فروش روزانه → فروش ماهانه).
- عادی سازی: داده های مقیاس به محدوده کوچکتر (به عنوان مثال ، 0.0 تا 1.0).
- گسسته سازی: مقادیر عددی را با فواصل یا برچسب های مفهومی جایگزین کنید (به عنوان مثال ، سن “جوانان” ، “بزرگسال” ، “ارشد”).
- نسل سلسله مراتب: داده ها را به مفاهیم سطح بالاتر عمومی کنید (به عنوان مثال ، خیابان → شهر → کشور).
2. چرا تحول داده ها مهم است؟
- کیفیت داده ها را بهبود می بخشد: سر و صدا ، ناسازگاری و افزونگی را از بین می برد.
- معدن را تقویت می کند …