اندازه‌گیری‌های شکل‌های توزیع در آمار خلاصه (نمونه‌های پایتون)

در این راهنما یکی از آمارهای خلاصه را معرفی می کنیم: اندازه گیری اشکال توزیع ها. ما همچنین نمونه‌هایی از پایتون را برای نشان دادن نحوه اعمال این مفهوم در اختیار شما قرار می‌دهیم.

معیارهای شکل های توزیع ها در آمار خلاصه چیست؟

اندازه گیری اشکال توزیع ها یک آمار خلاصه است که برای درک ویژگی های داده ها، شناسایی نقاط پرت و بهبود تصمیمات مدل سازی استفاده می شود.

داده ها ممکن است به روش های مختلف توزیع شوند. گاهی اوقات متقارن است (مثلاً توزیع نرمال)، گاهی اوقات غیر متقارن (مثلاً به سمت راست/چپ انحرافی) و گاهی باریکتر و تندتر از دیگران است (مثلاً کشیدگی).

برای شناسایی این اشکال مختلف توزیع، آماردانان عمدتاً از دو نوع مختلف آمار خلاصه استفاده می کنند:

  • چولگی: اندازه گیری عدم تقارن یک توزیع
  • کورتوز: اندازه گیری دنباله دار بودن یک توزیع

چولگی در آمار خلاصه چیست؟

در آمار خلاصه، چولگی معیار عدم تقارن یک توزیع است.

به زبان ساده، نشان می دهد که هر دو طرف قله یک منحنی چقدر متقارن هستند.

یک توزیع می تواند:

  • انحراف صفر
  • انحراف چپ (کول منفی)
  • راست انحرافی (کول مثبت)

انحراف صفر

وقتی به توزیع نرمال زنگی شکل فکر می کنیم، می گوییم که دارای چولگی صفر است. انحراف صفر به این معنی است که سمت چپ و سمت راست تصویر آینه ای هستند.

توزیع نرمال تنها توزیعی نیست که دارای انحراف صفر است. برای مثال توزیع یکنواخت نیز دارای انحراف صفر است.

هنگامی که میانگین و میانه برابر باشند، توزیع صفر است:

# zero skew
mean = median

انحراف چپ (کول منفی)

چولگی را می توان بر حسب دم فهمید. زمانی که یک توزیع در سمت چپ قله‌اش طولانی‌تر از سمت راست باشد، کج می‌شود.

هنگامی که میانگین کوچکتر از میانه باشد، توزیع به صورت اریب رها می شود:

# left skew
mean 

راست انحرافی (کول مثبت)

زمانی که یک توزیع در سمت راست قله‌اش طولانی‌تر از سمت راست باشد، مثبت یا دارای انحراف به راست است.

هنگامی که میانگین بزرگتر از میانه باشد، توزیع به سمت راست است:

# right skew
mean > median

کورتوز در آمار خلاصه چیست؟

در آمار خلاصه، کشش معیار اندازه گیری دنباله دار بودن یک توزیع است.

به بیان ساده، نشان می‌دهد که آیا داده‌های یک توزیع بیشتر یا کمتر افراطی (پرت) نسبت به توزیع معمولی هستند.

سه نوع توزیع با کشش عبارتند از:

  • لپتوکورتیک: دم های بزرگ، نقاط پرت شدیدتر، کشیدگی مثبت
  • مزوکورتیک: دم متوسط، کشیدگی برابر با صفر
  • Platykurtic: دم نازک، نقاط پرت کمتر، کشیدگی منفی

فرمول کورتوزیس

فرمول کشیدگی مجموع تفاوت های هر نقطه داده از میانگین تا چهارم تقسیم بر انحراف استاندارد به چهارم است.

kurtosis = Σ(x - µ)^4 / σ^4

گوگل این کار را با حذف مجموع تفاوت ها ساده کرد.

فرمول کشش
منبع: google

محاسبه کورتوز با پایتون

برای محاسبه کشش یک مجموعه داده در پایتون، از عبارت استفاده کنید kurtosis تابع از scipy.stats کتابخانه

import numpy as np
from scipy.stats import kurtosis

# Sample dataset from a normal distribution
data = np.random.normal(0, 1, 1000)  

# Calculate kurtosis
kurtosis_value = kurtosis(data)

print(f"Kurtosis: {kurtosis_value:.2f}")

چگونه اعداد کورتوز را تفسیر کنیم

به عنوان یک دستورالعمل کلی، هنگام ارزیابی نتیجه یک کشیدگی:

  • یک مقدار مثبت نشان‌دهنده توزیع لپتوکورتیک است که اوج‌تر از نرمال است (پرت شدیدتر)
  • یک مقدار منفی نشان‌دهنده توزیع Platykurtic است که صاف‌تر از نرمال است (فروت‌های شدید کمتر).
  • مقداری که برابر با 0 است، توزیع Mesokurtic را نشان می دهد که از نرمال پیروی می کند.
  • مقادیر فراتر از -2 و +2 نشان دهنده صافی یا اوج بودن بیش از حد در نظر گرفته می شوند

Source link