تجزیه و تحلیل اجزای اصلی (PCA) چیست؟

تجزیه و تحلیل اجزای اصلی تکنیکی است که داده های پیچیده را با یافتن و حفظ مهم ترین الگوها یا ویژگی ها ساده می کند.

تجزیه و تحلیل اجزای اصلی (PCA) چیست؟

PCA یا تجزیه و تحلیل مولفه اصلی، یک روش آماری است که برای کاهش ابعاد و استخراج ویژگی استفاده می شود. PCA ویژگی های یک مجموعه داده را به متغیرهای غیر همبسته تبدیل می کند که به آنها اجزای اصلی می گویند. این کار را با گرفتن حداکثر واریانس در داده ها انجام می دهد.

تجزیه و تحلیل اجزای اصلی برای اولین بار توسط کارل پیرسون در سال 1901 در مقاله ای با عنوان “در خطوط و سطوح نزدیکترین تناسب به سیستم های نقاط در فضا” معرفی شد.

PCA الگوریتم خطی اصلی برای کاهش ابعاد است که اغلب در یادگیری بدون نظارت استفاده می شود.

به عبارت ساده، PCA سعی می کند تعداد ابعاد را کاهش دهد و در عین حال تنوع داده ها را تا حد امکان حفظ کند.

این الگوریتم ویژگی‌هایی را که برای ایجاد یک تقریب معتبر روی یک مجموعه داده مفید نیستند، شناسایی و کنار می‌گذارد.

چرا از PCA استفاده کنیم؟

پایتون و PCA به کاهش تعداد ویژگی‌های یک مجموعه داده کمک می‌کنند و می‌توانند کمک کنند:

  • خطر تطبیق بیش از حد یک مدل با ویژگی های پر سر و صدا را کاهش دهید.
  • افزایش سرعت آموزش الگوریتم یادگیری ماشین
  • تجسم داده ها را ساده تر کنید.

جالب اینجاست که می تواند کارهای جالبی مانند حذف پس زمینه از یک تصویر انجام دهد.

تجزیه و تحلیل اجزای اصلی (PCA) چیست؟

مزایا و معایب PCA

مزایای PCA معایب PCA
کاهش نویز در داده ها اطلاعات از دست دادن ریسک
بهبود تجسم با ابعاد کمتر برای مجموعه داده های غیر خطی در نظر گرفته نشده است
بهبود کارایی آموزش زمان اجرا گران روی مجموعه داده بزرگ
کاهش پارامترهای یادگیری ماشین تحت تاثیر عوامل پرت

تعمیم های تحلیل مولفه اصلی

برای رفع برخی از معایب PCA، تکنیک‌های تحلیل اجزای اصلی جایگزین ایجاد شد.

  • تجزیه و تحلیل اجزای اصلی پراکنده
  • تجزیه و تحلیل اجزای اصلی هسته

تجزیه و تحلیل اجزای اصلی پراکنده چیست؟

تجزیه و تحلیل مولفه های اصلی پراکنده (SPCA یا Sparse PCA) یک تکنیک تخصصی است که در تحلیل های آماری و به ویژه در تجزیه و تحلیل مجموعه داده های چند متغیره استفاده می شود.

تجزیه و تحلیل اجزای اصلی هسته چیست؟

در زمینه آمار چند متغیره، تجزیه و تحلیل مؤلفه های اصلی هسته، توسعه ای از تجزیه و تحلیل مؤلفه های اصلی با استفاده از تکنیک های روش های هسته است.

تجزیه و تحلیل اجزای اصلی قوی چیست؟

تجزیه و تحلیل مؤلفه های اصلی قوی اصلاحی از روش آماری پرکاربرد تجزیه و تحلیل مؤلفه های اصلی است که با توجه به مشاهدات به شدت خراب کار می کند.

تجزیه و تحلیل مولفه اصلی عملکردی چیست؟

تجزیه و تحلیل مؤلفه های اصلی عملکردی یک روش آماری برای بررسی حالت های غالب تغییرات داده های عملکردی است.

تجزیه و تحلیل مؤلفه اصلی هنجار L1 چیست؟

تجزیه و تحلیل مؤلفه های اصلی هنجار L1 یک روش کلی برای تجزیه و تحلیل داده های چند متغیره است. L1-PCA اغلب بر تجزیه و تحلیل مؤلفه اصلی استاندارد L2 ترجیح داده می شود، زمانی که داده های تجزیه و تحلیل شده ممکن است حاوی مقادیر پرت باشد.

تجزیه و تحلیل مؤلفه های اصلی چند خطی چیست؟

تجزیه و تحلیل مؤلفه های اصلی چند خطی، توسعه چند خطی تجزیه و تحلیل مؤلفه های اصلی است. MPCA در تجزیه و تحلیل آرایه‌های M-way به کار می‌رود، یعنی یک مکعب یا ابرمکعب از اعداد، که به‌طور غیررسمی به آن «تانسور داده» نیز گفته می‌شود.

رگرسیون مؤلفه اصلی چیست؟

رگرسیون مؤلفه اصلی یک تکنیک تحلیل رگرسیونی است که بر اساس تحلیل مؤلفه اصلی است. به طور خاص، PCR برای تخمین ضرایب رگرسیون مجهول در یک مدل رگرسیون خطی استاندارد استفاده می شود.

مقدمه ای بر PCA در پایتون

در اینجا یک مثال ساده از تجزیه و تحلیل اجزای اصلی در پایتون آورده شده است که در آن ما کاهش ابعاد را روی مجموعه داده Iris با Scikit-learn انجام می دهیم.

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Load Iris dataset (for illustration purposes)
iris = load_iris()
X = iris.data
y = iris.target

# Apply PCA with two components (for 2D visualization)
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# Plot the results
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis', edgecolor='k')
plt.title('PCA of Iris Dataset')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()

برای مثال های دقیق تر، آموزش ما در مورد PCA با پایتون را بخوانید.