تجزیه و تحلیل اجزای اصلی تکنیکی است که داده های پیچیده را با یافتن و حفظ مهم ترین الگوها یا ویژگی ها ساده می کند.
تجزیه و تحلیل اجزای اصلی (PCA) چیست؟
PCA یا تجزیه و تحلیل مولفه اصلی، یک روش آماری است که برای کاهش ابعاد و استخراج ویژگی استفاده می شود. PCA ویژگی های یک مجموعه داده را به متغیرهای غیر همبسته تبدیل می کند که به آنها اجزای اصلی می گویند. این کار را با گرفتن حداکثر واریانس در داده ها انجام می دهد.
تجزیه و تحلیل اجزای اصلی برای اولین بار توسط کارل پیرسون در سال 1901 در مقاله ای با عنوان “در خطوط و سطوح نزدیکترین تناسب به سیستم های نقاط در فضا” معرفی شد.
PCA الگوریتم خطی اصلی برای کاهش ابعاد است که اغلب در یادگیری بدون نظارت استفاده می شود.
به عبارت ساده، PCA سعی می کند تعداد ابعاد را کاهش دهد و در عین حال تنوع داده ها را تا حد امکان حفظ کند.
این الگوریتم ویژگیهایی را که برای ایجاد یک تقریب معتبر روی یک مجموعه داده مفید نیستند، شناسایی و کنار میگذارد.
چرا از PCA استفاده کنیم؟
پایتون و PCA به کاهش تعداد ویژگیهای یک مجموعه داده کمک میکنند و میتوانند کمک کنند:
- خطر تطبیق بیش از حد یک مدل با ویژگی های پر سر و صدا را کاهش دهید.
- افزایش سرعت آموزش الگوریتم یادگیری ماشین
- تجسم داده ها را ساده تر کنید.
جالب اینجاست که می تواند کارهای جالبی مانند حذف پس زمینه از یک تصویر انجام دهد.
مزایا و معایب PCA
مزایای PCA | معایب PCA |
---|---|
کاهش نویز در داده ها | اطلاعات از دست دادن ریسک |
بهبود تجسم با ابعاد کمتر | برای مجموعه داده های غیر خطی در نظر گرفته نشده است |
بهبود کارایی آموزش | زمان اجرا گران روی مجموعه داده بزرگ |
کاهش پارامترهای یادگیری ماشین | تحت تاثیر عوامل پرت |
تعمیم های تحلیل مولفه اصلی
برای رفع برخی از معایب PCA، تکنیکهای تحلیل اجزای اصلی جایگزین ایجاد شد.
- تجزیه و تحلیل اجزای اصلی پراکنده
- تجزیه و تحلیل اجزای اصلی هسته
تجزیه و تحلیل اجزای اصلی پراکنده چیست؟
تجزیه و تحلیل مولفه های اصلی پراکنده (SPCA یا Sparse PCA) یک تکنیک تخصصی است که در تحلیل های آماری و به ویژه در تجزیه و تحلیل مجموعه داده های چند متغیره استفاده می شود.
تجزیه و تحلیل اجزای اصلی هسته چیست؟
در زمینه آمار چند متغیره، تجزیه و تحلیل مؤلفه های اصلی هسته، توسعه ای از تجزیه و تحلیل مؤلفه های اصلی با استفاده از تکنیک های روش های هسته است.
تجزیه و تحلیل اجزای اصلی قوی چیست؟
تجزیه و تحلیل مؤلفه های اصلی قوی اصلاحی از روش آماری پرکاربرد تجزیه و تحلیل مؤلفه های اصلی است که با توجه به مشاهدات به شدت خراب کار می کند.
تجزیه و تحلیل مولفه اصلی عملکردی چیست؟
تجزیه و تحلیل مؤلفه های اصلی عملکردی یک روش آماری برای بررسی حالت های غالب تغییرات داده های عملکردی است.
تجزیه و تحلیل مؤلفه اصلی هنجار L1 چیست؟
تجزیه و تحلیل مؤلفه های اصلی هنجار L1 یک روش کلی برای تجزیه و تحلیل داده های چند متغیره است. L1-PCA اغلب بر تجزیه و تحلیل مؤلفه اصلی استاندارد L2 ترجیح داده می شود، زمانی که داده های تجزیه و تحلیل شده ممکن است حاوی مقادیر پرت باشد.
تجزیه و تحلیل مؤلفه های اصلی چند خطی چیست؟
تجزیه و تحلیل مؤلفه های اصلی چند خطی، توسعه چند خطی تجزیه و تحلیل مؤلفه های اصلی است. MPCA در تجزیه و تحلیل آرایههای M-way به کار میرود، یعنی یک مکعب یا ابرمکعب از اعداد، که بهطور غیررسمی به آن «تانسور داده» نیز گفته میشود.
رگرسیون مؤلفه اصلی چیست؟
رگرسیون مؤلفه اصلی یک تکنیک تحلیل رگرسیونی است که بر اساس تحلیل مؤلفه اصلی است. به طور خاص، PCR برای تخمین ضرایب رگرسیون مجهول در یک مدل رگرسیون خطی استاندارد استفاده می شود.
مقدمه ای بر PCA در پایتون
در اینجا یک مثال ساده از تجزیه و تحلیل اجزای اصلی در پایتون آورده شده است که در آن ما کاهش ابعاد را روی مجموعه داده Iris با Scikit-learn انجام می دهیم.
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
# Load Iris dataset (for illustration purposes)
iris = load_iris()
X = iris.data
y = iris.target
# Apply PCA with two components (for 2D visualization)
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
# Plot the results
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis', edgecolor='k')
plt.title('PCA of Iris Dataset')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()
برای مثال های دقیق تر، آموزش ما در مورد PCA با پایتون را بخوانید.
استراتژیست سئو در Tripadvisor، Seek سابق (ملبورن، استرالیا). متخصص در سئو فنی. نویسنده در پایتون، بازیابی اطلاعات، سئو و یادگیری ماشین. نویسنده مهمان در SearchEngineJournal، SearchEngineLand و OnCrawl.