الگوریتم ماشین PCA با شناسایی بعد ذاتی یک مجموعه داده کار می کند و در عین حال تنوع تا حد ممکن را حفظ می کند.
به عبارت دیگر، کمترین تعداد ویژگی های مورد نیاز برای پیش بینی دقیق را شناسایی می کند.
برای انجام این کار، با تعیین یک سیستم مختصات جدید با استفاده از محورهای متعامد مستقل خطی (عمود) چند خطی را کاهش می دهد.
هدف این است که ویژگیهای همبسته را به اجزای متعامد (غیر همبسته) تبدیل کنیم، بنابراین ابعاد را کاهش میدهیم و به محورهای نامرتبط میرسیم.
از مفهوم تجزیه ویژه برای تجزیه یک ماتریس کوواریانس به مقادیر ویژه و بردارهای ویژه استفاده می کند.
سپس، واریانس داده ها را در محورهای نامرتبط پیدا می کند و N بردار ویژه با بالاترین مقادیر ویژه را انتخاب می کند.
در نهایت، بردارهای ویژه با کمترین واریانس را حذف می کند.
یک مجموعه داده ممکن است ویژگی های زیادی داشته باشد، اما همه ویژگی ها برای پیش بینی ضروری نیستند.

ویژگی هایی که حفظ می شوند، آنهایی هستند که دارای واریانس قابل توجهی هستند.
- نگاشت خطی داده ها به فضایی با ابعاد کمتر به گونه ای انجام می شود که واریانس داده ها را به حداکثر می رساند.
- PCA فرض می کند که ویژگی های با واریانس کم بی ربط هستند و ویژگی های با واریانس بالا آموزنده هستند.
برای کسب اطلاعات بیشتر در مورد نحوه اجرای PCA در پایتون، آموزش زیر را بخوانید.

استراتژیست سئو در Tripadvisor، Seek سابق (ملبورن، استرالیا). متخصص در سئو فنی. نویسنده در پایتون، بازیابی اطلاعات، سئو و یادگیری ماشین. نویسنده مهمان در SearchEngineJournal، SearchEngineLand و OnCrawl.