مقیاس گذاری لگاریتمی: رسیدگی به تنوع شدید داده ها

تجزیه و تحلیل مجموعه داده ها با تنوع شدید یک چالش مشترک است. این که آیا این فعالیت کاربر بر روی یک پلتفرم ، داده های مالی یا اندازه گیری های علمی است ، مقادیر بزرگ می توانند موارد کوچکتر را تحت الشعاع قرار دهند و به دست آوردن بینش های معنی دار دشوار است. مقیاس بندی لگاریتمی یک روش متداول برای پرداختن به این مسئله است. ضمن حفظ ساختار نسبی آن ، داده های گسترده را به مقیاس های قابل کنترل تبدیل می کند.

در این راهنما

  • مقیاس لگاریتمی چیست.
  • چرا در تجزیه و تحلیل داده ها استفاده می شود.
  • نحوه انتخاب یک پایگاه لگاریتمی.
  • مثال واقعی زندگی
  • فشرده سازی به معنای معیارهایی مانند میانگین ، متوسط ​​و انحراف استاندارد است.

مقیاس لگاریتمی چیست؟

تعریف

مقیاس گذاری لگاریتمی با استفاده از عملکرد لگاریتمی داده ها را تغییر می دهد. این امر در حالی که ساختار کلی را دست نخورده نگه می دارد ، تأثیر مقادیر شدید را کاهش می دهد.

[ y = \log_b(x + 1) ]

در اینجا:

  • x مقدار اصلی است
  • شرح پایه است (اغلب 10 ، بعداً در مورد پایگاه ها بحث خواهیم کرد).
  • اضافه کردن 1 تضمین می کند که لگاریتم برای مقادیر صفر و کوچک کار می کند.

لگاریتم ها برای صفر تعریف نشده اند ، اما مجموعه داده ها اغلب شامل صفر هستند (به عنوان مثال ، کاربرانی که هیچ ورودی ارسال نمی کنند). اضافه کردن 1 تضمین می کند که تمام مقادیر برای عملکرد لگاریتمی معتبر هستند.

چرا از مقیاس گذاری لگاریتمی استفاده می کنیم؟

  • دامنه های گسترده فشرده سازی: از اضافه کردن مقادیر افراطی جلوگیری می کند.
  • روندهای برجسته: الگوهای …

Source link