PHÂN TÍCH THÀNH PHẦN CHÍNH: Tất cả những điều cần biết về PCA

phân tích thành phần chính
chú thích hình ảnh: Tích hợp sẵn

Phân tích thành phần chính là một kỹ thuật rất phổ biến sử dụng một số lượng lớn các tập dữ liệu bằng cách giải cấu trúc phương sai của nhiều biến thành các thành phần chung của nó. Trong phần này, chúng tôi sẽ giải thích mọi thứ về phân tích thành phần chính trong R, Sklearn và Python. Hãy lái xe!

Phân tích thành phần chính

Phân tích thành phần chính (PCA) là một kỹ thuật rất đa dạng để phân tích các bộ dữ liệu lớn chứa nhiều thứ nguyên hoặc tính năng cho mỗi lần quan sát, đồng thời tăng khả năng diễn giải dữ liệu trong khi vẫn duy trì tốc độ thông tin tối đa và cho phép trực quan hóa dữ liệu đa chiều. Chính thức, kỹ thuật này được sử dụng để giảm kích thước của tập dữ liệu. 

Ngoài ra, PCA được Karl Pearson phát minh vào năm 1901 như là một dạng tương tự của định lý trục chính trong cơ học. Vào những năm 1930, nó được đặt tên độc lập và phát triển bởi Harold Hotelling.

Tại sao và Khi nào Sử dụng PCA

  • Khi kích thước của các biến hoặc tính năng đầu vào rất cao.
  • Phân tích thành phần nguyên tắc về cơ bản là để nén dữ liệu
  • Nó là một công cụ mạnh mẽ để khử nhiễu.
  • Nó cũng đặc biệt hữu ích cho quá trình xử lý dữ liệu trong đó tồn tại tính đa cộng tuyến giữa các biến và đối tượng địa lý.
  • Để giải thích và trực quan hóa dữ liệu.

Mục tiêu của PCA

  • Một trong những mục tiêu của nó là tìm hoặc xác định các mẫu và mối quan hệ giữa các biến có thể không hiển thị trong dữ liệu gốc.
  • Về cơ bản, nó là để trích xuất các tính năng từ một tập hợp các biến có liên quan hơn các biến ban đầu theo đúng nghĩa đen. Các tính năng này sau đó có thể được sử dụng cho các nhiệm vụ khác và cho cả việc lập mô hình.
  • Nó là một công cụ để nén các bộ dữ liệu bằng cách giảm tổng số lượng biến cần thiết để trình bày dữ liệu trong khi vẫn giữ lại nhiều dữ liệu nhất có thể.
  • Phân tích thành phần nguyên tắc là để trực quan hóa dữ liệu chiều cao trong không gian chiều thấp hơn. Qua đó, làm toàn diện hơn
  • Nó làm giảm nhiễu trong tập dữ liệu.

Hạn chế của PCA

  • Tốn kém để tính toán. Nói cách khác, nó có độ phức tạp tính toán.
  • Nó có thể dẫn đến việc mất thông tin và dữ liệu quan trọng. 
  • Dữ liệu được thu nhỏ và tập trung.
  • Đôi khi khó xác định một số đặc điểm quan trọng của các biến.
  • Phân tích các thành phần chính không phải lúc nào cũng đơn giản để hiểu hoặc mô tả theo các tính năng chính hoặc nguyên bản.

PCA được sử dụng ở đâu?

Phân tích chính là một trong những phân tích thống kê đa biến phổ biến nhất trên thế giới hiện nay. Ngoài ra, nó còn được gọi là kỹ thuật giảm kích thước không giám sát, xây dựng các biến hoặc tính năng thông qua sự kết hợp tuyến tính hoặc phi tuyến tính của các biến và tính năng ban đầu.

Làm thế nào để bạn giải thích phân tích thành phần chính?

Để có thể diễn giải phân tích các thành phần chính thật tốt, bạn phải tính toán mối tương quan giữa từng thành phần chính và dữ liệu gốc, và mối tương quan này có được từ việc sử dụng các quy trình tương quan. Ngoài ra, để diễn giải các thành phần chính, bạn phải tìm ra biến nào có tương quan mạnh nhất với từng thành phần. Ngoài ra, bạn cần xác định mức độ tương quan là quan trọng. 

2 công dụng của phân tích thành phần chính là gì?

Có rất nhiều việc mà phân tích thành phần chính thực hiện, nhưng đây là hai việc chính mà nó thực hiện:

  • Thay đổi kích thước hình ảnh và tìm các mẫu trong bộ dữ liệu chiều cao.
  • Trực quan hóa dữ liệu đa quốc gia. Ngoài ra, nó rất tốt cho việc phân tích dữ liệu chứng khoán và dự báo lợi nhuận trong lĩnh vực tài chính.

Phân tích thành phần chính trong Python

Phân tích thành phần chính trong Python là một mô hình giúp tăng tốc độ đào tạo mô hình và ảo hóa dữ liệu. Về bản chất, đây là ứng dụng phổ biến nhất của PCA. Dưới đây là tổng quan về phân tích thành phần chính trong Python:

Các bước phân tích thành phần chính trong Python:

  • Một trong những bước phân tích thành phần chính với Python là nhập các thư viện.
  • Nhập tập dữ liệu.
  • Chia tập dữ liệu thành tập kiểm tra hoặc tập huấn luyện.
  • Tính năng nhân rộng.
  • Áp dụng các chức năng của PCA
  • Điều chỉnh hồi quy logistic cho bài kiểm tra hoặc tập huấn luyện.
  • Dự đoán bài kiểm tra hoặc kết quả tập huấn luyện.
  • Tạo ma trận nhầm lẫn.
  • Dự đoán kết quả tập huấn luyện.
  • Ảo hóa và tính toán kết quả bộ kiểm tra.

Mục tiêu của Phân tích thành phần chính trong Python

  • PCA là một thủ tục không phụ thuộc làm giảm không gian thuộc tính từ một số lượng lớn các biến thành một số yếu tố nhỏ hơn.
  • Theo phân tích thành phần chính trong Python, PCA xác định các mẫu hoặc mối quan hệ giữa các biến.
  • Nó ảo hóa dữ liệu chiều cao trong không gian chiều thấp hơn.
  • Được sử dụng để hình dung mối quan hệ họ hàng và khoảng cách di truyền giữa các quần thể.

Ví dụ thực tế về PCA là gì?

Phân tích thành phần nguyên tắc là một kỹ thuật trích xuất tính năng hoạt động bằng cách xem xét phương sai của từng thuộc tính vì thuộc tính này cho thấy khoảng cách giữa mỗi lớp của nó và giảm kích thước. Dưới đây là những ví dụ thực tế về PCA:

  • xử lý hình ảnh
  • Tối ưu hóa việc phân bổ năng lượng trong các kênh truyền thông khác nhau.
  • Khuyến nghị của hệ thống phim.

PCA trong học máy là gì?

Phân tích thành phần chính trong học máy là giảm tổng số thứ nguyên trong tập dữ liệu. Dưới đây là các bước sau trong PCA trong học máy:

  • Tải dữ liệu
  • Tách dữ liệu thành tập kiểm tra và tập huấn luyện
  • Chuẩn hóa dữ liệu đúng cách
  • Chuyển giao và áp dụng PCA một cách thích hợp
  • Ngoài ra, hãy áp dụng ánh xạ cho tập kiểm tra và tập huấn luyện.
  • Áp dụng hồi quy hậu cần cho dữ liệu đã nhập.
  • Đo lường hiệu suất của mô hình.

Người ta có thể sử dụng PCA trong Supervised Machine Learning không?

PCA là một công cụ tốt để sử dụng khi phân tích các bộ dữ liệu lớn chứa nhiều thứ nguyên hoặc tính năng trên mỗi quan sát. Tuy nhiên, tôi khuyên bạn không nên sử dụng nó trong các dự án học máy có giám sát. Nó che giấu thông tin cho mô hình, đây không phải là cách tiếp cận phù hợp cho giai đoạn đào tạo thành công. 

Phân tích thành phần chính trong R

Phân tích thành phần chính là tên viết tắt của PCA. mục đích của PCA là giải thích chính xác hầu hết các biến thiên trong tập dữ liệu có ít biến hơn tập dữ liệu gốc. 

Dưới đây là tổng quan về các bước phân tích thành phần chính trong R:

#1. Tải dữ liệu

Trong bước đầu tiên này của phân tích thành phần chính trong R, trước tiên bạn phải tải gói chứa một số chức năng để thao tác và ảo hóa dữ liệu. Việc tải dữ liệu đảm bảo rằng mỗi thuộc tính có cùng mức ngăn một biến thống trị các biến khác.

#2. Tính toán cẩn thận các thành phần chính

Sau khi tải dữ liệu của bạn, tính toán các thành phần chính về cơ bản là bước tiếp theo để thực hiện phân tích thành phần chính trong R. Hãy cẩn thận chỉ định scale=True để mỗi biến trong tập dữ liệu được chia tỷ lệ chính xác để có giá trị trung bình bằng 0 và độ lệch chuẩn là 1 trước khi bạn tính các thành phần chính. 

#3. Trực quan hóa kết quả với Biplot

Trong bước thứ ba này của phân tích các thành phần chính trong R, hãy cẩn thận tạo một biểu đồ có thể chiếu từng quan sát trong tập dữ liệu lên một biểu đồ phân tán tốt sử dụng các thành phần chính thứ nhất và thứ hai làm trục của nó.

#4. Tìm phương sai hoàn toàn được giải thích bởi từng thành phần chính

Đây là một trong các bước của phân tích thành phần chính trong R. Tìm và tính tổng phương sai trong tập dữ liệu gốc được giải thích bởi từng thành phần chính. Do đó, điều rất cần thiết là tìm kiếm các mẫu trong biplot để cho phép bạn xác định các trạng thái tương tự nhau.

Hai ứng dụng của phân tích thành phần chính là gì?

PCA bao gồm nhiều ứng dụng đóng góp cho cuộc sống hàng ngày của chúng ta. Hai ứng dụng của phân tích thành phần Nguyên tắc là:

  • Chăm sóc sức khỏe

Phân tích thành phần chính cũng có thể được tích hợp vào các công nghệ y tế khác nhau được sử dụng, chẳng hạn như để nhận dạng bệnh từ quét hình ảnh. Do đó, Nó cũng có thể được sử dụng trong các lần quét hình ảnh cộng hưởng từ (MRI) khác để giảm kích thước của hình ảnh để phân tích và báo cáo y tế tốt.

  • Đang xử lý hình ảnh

PCA được sử dụng trong xử lý hình ảnh để cho phép giữ lại các chi tiết chính của một hình ảnh nhất định trong khi giảm tổng số kích thước. Về bản chất, Nó cũng có thể chạy các tác vụ phức tạp hơn như nhận dạng hình ảnh.

Phân tích thành phần chính Sklearn

Sklearn phân tích thành phần chính là giảm kích thước tuyến tính bằng cách sử dụng Phân tách giá trị số ít (SVD) của dữ liệu để chiếu nó vào một không gian có chiều rất thấp. Do đó, sklearn phân tích thành phần chính sử dụng triển khai LAPACK của phân tách giá trị số ít. 

Ngoài ra, sklearn phân tích thành phần chính sử dụng tốt việc triển khai scipy.sparse ARPACK của quá trình phân tách giá trị số ít bị cắt bớt. 

Các bước sử dụng Phân tích thành phần chính Sklearn

  • Cẩn thận tải xuống và tải tập dữ liệu.
  • Xử lý lại tập dữ liệu.
  • Thực hiện đúng PCA trên tập dữ liệu 
  • Kiểm tra một số thuộc tính hữu ích của đối tượng PCA.
  • Phân tích chính xác sự thay đổi trong tỷ lệ phương sai được giải thích rõ ràng. 

Mục đích chính của PCA phân tích thành phần chính là gì?

PCA là một công cụ tốt để xác định các trục phương sai trong tập dữ liệu. Được áp dụng một cách thích hợp, nó là một trong những công cụ tốt nhất trong bộ công cụ phân tích dữ liệu. Mục đích chính của phân tích thành phần chính là để xác định mức độ chưa hiệu chỉnh của tập dữ liệu, Để có thể diễn giải phân tích thành phần chính rất tốt, để phân tích các tập dữ liệu lớn chứa nhiều thứ nguyên hoặc tính năng trên mỗi lần quan sát, đồng thời tăng khả năng diễn giải dữ liệu trong khi vẫn duy trì tốc độ thông tin tối đa và cho phép trực quan hóa dữ liệu đa chiều.

Làm thế nào để bạn biết nếu PCA là tốt?

Một trong những cách chính và quan trọng để xác minh xem PCA có tốt hay không là xác định đúng cách tập dữ liệu của bạn chưa được chỉnh sửa. Nếu nó chưa được chỉnh sửa, bạn có lý do chính đáng để không đăng ký. Có những số liệu hữu ích mà bạn có thể sử dụng để biết PCA tốt như thế nào, nhưng tôi sẽ chỉ tập trung vào hai trong số đó. Có:

  • Mỗi thành phần giải thích bao nhiêu.
  • Bao nhiêu một biến tương quan với mỗi thành phần.

Kết luận

Phân tích thành phần chính là tên viết tắt của PCA. Phân tích các thành phần chính là một công cụ phân tích dữ liệu mô tả thích nghi và được sử dụng rộng rãi. Ngoài ra, nó có rất nhiều sự thích ứng làm cho nó rất hữu ích cho nhiều tình huống khác nhau và tất cả các loại dữ liệu trong rất nhiều lĩnh vực.

Bài viết liên quan

Tài liệu tham khảo

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *

Bạn cũng có thể thích