معیارهای گرایش مرکزی در آمار خلاصه (نمونه‌های پایتون)

در این راهنما به معرفی یکی از آمارهای خلاصه می پردازیم: معیارهای گرایش مرکزی. ما همچنین نمونه‌هایی از پایتون را برای نشان دادن نحوه اعمال این مفهوم در اختیار شما قرار می‌دهیم.

اقدامات گرایش مرکزی چیست؟

در علم آمار و داده‌ها، از معیارهای گرایش مرکزی برای خلاصه کردن داده‌ها با یافتن مکان مرکز داده‌ها استفاده می‌شود. 3 معیار مرکز عبارتند از منظور داشتن را میانه و حالت.

  • منظور داشتن: مقدار متوسط ​​یک مجموعه داده
  • میانه: مقدار متوسط ​​در یک مجموعه داده
  • حالت: بیشترین مقدار در یک مجموعه داده وجود دارد.
اندازه گیری گرایش مرکزی
اندازه گیری گرایش مرکزی

میانگین در آمار چیست؟

در آمار، میانگین، که به عنوان میانگین نیز شناخته می شود، معیاری برای سنجش گرایش مرکزی است.

میانگین با جمع کردن تمام مقادیر یک مجموعه داده و سپس تقسیم آن مجموع بر تعداد کل مقادیر محاسبه می شود. فرمول محاسبه میانگین (μ) یک مجموعه داده به صورت زیر است:

Mean (μ) =  Sum of all values / Number of values (n) 

به عنوان مثال، اگر ما 3 نفر در سنین 5، 7 و 8 ساله داشته باشیم، میانگین آن است

Mean (μ) = (5 + 7 + 8) / 3  ~=  6.67

و با استفاده از پایتون قابل محاسبه است np.mean از کتابخانه ناتوان

import numpy as np 

np.mean([5,7,8])
# 6.666666666666667

میانه در آمار چیست؟

در آمار، میانه معیاری برای گرایش مرکزی است که در آن 50 درصد داده ها کمتر از آن و 50 درصد داده ها بیشتر است.

میانه با مرتب کردن همه مقادیر در یک مجموعه داده و سپس انتخاب وسط محاسبه می شود.

در پایتون، میانه را می توان با استفاده از آن محاسبه کرد np.median از کتابخانه ناتوان

import numpy as np 

np.median([1,2,3,4,5,6,7])
# 4.0

حالت در آمار چیست؟

در آمار، حالت معیاری از تمایل مرکزی است که در آن بیشترین مقدار در یک مجموعه داده وجود دارد.

هنگامی که از متد value_counts() در یک Pandas DataFrame استفاده می کنیم، شاهد وقوع مقادیری هستیم که بر اساس بیشترین مرتبه مرتب شده اند. مقدار بالا حالت است.

حالت را می توان در پایتون با استفاده از scipy.stats.mode() یا statistics.mode() کارکرد.

from scipy import stats
import statistics

data = [1,2,2,3,4,5,5,5]

print(stats.mode(data).mode)
print(statistics.mode(data))

این حالت اغلب بر روی متغیرهای دسته بندی استفاده می شود زیرا آنها اغلب نامرتب هستند و معمولاً نمایش عددی ندارند.

میانگین، حالت یا میانه؟ نحوه انتخاب معیار مناسب گرایش مرکزی

انتخاب معیار مناسب گرایش مرکزی (میانگین، حالت یا میانه) به داده های شما و اطلاعاتی که می خواهید از آن استخراج کنید بستگی دارد. در حالی که میانگین بیشترین استفاده را دارد، ممکن است بهترین نباشد، این دستورالعمل‌های سریع را دنبال کنید تا بفهمید کدام معیار را انتخاب کنید:

  • میانگین: حساس تر به موارد پرت. برای داده های متقارن (به طور معمول توزیع شده) بهتر است.
  • میانه: حساسیت کمتری نسبت به نقاط پرت. برای داده های غیر متقارن (کج) بهتر است.
  • حالت: برای داده های طبقه بندی مناسب تر است

Source link