یکی از مهمترین مراحل هر پروژه مرتبط با داده است تجزیه و تحلیل داده های اکتشافی (EDA). کاوش در توزیع داده ها برای درک آن و تصمیم گیری موثر در مورد مراحل بعدی بسیار مهم است. یک راه ساده برای کشف توزیع داده، مطالعه آن است گرایش های مرکزی از طریق معیارهای مرکزیت در این مقاله، سه معیار اصلی مرکزیت را بررسی خواهیم کرد: میانگین، میانه و حالت. ما نقاط قوت و ضعف آنها را همراه با مثال های عملی با استفاده از SQL و Python مورد بحث قرار خواهیم داد.
میانگین: جو متوسط
این معنی، که اغلب به عنوان میانگین از آن یاد می شود، با جمع کردن تمام مقادیر یک مجموعه داده و تقسیم بر تعداد مقادیر محاسبه می شود. این یک راه ساده برای یافتن یک ارزش مرکزی است.
فرض کنید جدولی به نام داریم Sales
با یک ستون Revenue
. پرس و جو زیر میانگین درآمد هر فروش را به ما می دهد:
SELECT AVG(Revenue) AS MeanRevenue
FROM Sales;
هنگام استفاده از پایتون، میتوانیم با وارد کردن پانداها و اجرای کد زیر همان نتیجه را به دست آوریم:
import pandas as pd
# import your data into a pandas dataframe
mean_revenue = df['Revenue'].mean()
نقاط قوت و ضعف
میانگین هیچ مردی را پشت سر نمی گذارد، به این معنی که هر نقطه داده در نظر گرفته می شود. اگر چه این اجازه می دهد تا به ما یک دیدگاه کل نگر از داده ها، باعث می شود …