چگونه مشکل مجموعه داده های نامتعادل را حل کنیم

عکس پروفایل Modzy Hacker Noon

@دنجمد روز

یک بستر نرم افزاری برای سازمان ها و توسعه دهندگان برای استقرار ، نظارت و دریافت ارزش از AI – در مقیاس مسئولانه.

متعادل سازی داده های آموزش بخش مهمی از پیش پردازش داده ها است. عدم تعادل داده ها به زمانی اطلاق می شود که کلاسها در یک مجموعه داده به طور مساوی توزیع نشده باشند ، که این امر می تواند منجر به خطرات احتمالی در آموزش مدل شود. روش های مختلفی برای متعادل سازی داده های آموزش و غلبه بر داده های نامتعادل وجود دارد ، از جمله نمونه برداری مجدد و متعادل سازی وزن.

چه چیزی میخواهید بدانید

تصور کنید مدلی دارید که مشخص می کند سگ یا گربه در تصویر وجود دارد. در حین آزمایش ، متوجه شدید که مدل شما به درستی تمام سگهای موجود در تصاویر را شناسایی می کند ، اما گربه ها را شناسایی نمی کند.

در مرور مجموعه آموزش خود ، متوجه می شوید که 10 هزار عکس از سگ ها و فقط 100 عکس از گربه ها وجود دارد. این یک نمونه از عدم تعادل داده ها است ، جایی که مجموعه های داده تعداد قابل مقایسه ای برای هر کلاس شی ندارند.

حقیقت این است که داده های نامتعادل در همه جا وجود دارد و جلوگیری از مجموعه داده های نامتعادل غیرممکن است. مثالی از نظرات صاحبان خودروهای برقی راجع به هزینه های نگهداری اتومبیل های برقی در نظر بگیرید. از آنجا که اکثر افرادی که اتومبیل های الکتریکی رانندگی می کنند درآمد سالانه بالایی دارند ، 80 درصد نتایج “هزینه بسیار معقول” است.

که در…

سئو PBN | خبر های جدید سئو و هک و سرور