ANÁLISE DE COMPONENTES PRINCIPAIS: Tudo o que você precisa saber sobre o PCA

análise do componente principal
legenda da imagem: Integrado

A análise de componentes principais é uma técnica muito popular que usa um grande número de conjuntos de dados desconstruindo a variância de múltiplas variáveis ​​em seus componentes comuns. Nesta parte, explicaremos tudo sobre a análise de componentes principais em R, Sklearn e Python. Vamos dirigir!

Análise do componente principal

A análise de componentes principais (PCA) é uma técnica muito avançada para analisar grandes conjuntos de dados que contêm um grande número de dimensões ou recursos por observação e também aumenta a interpretabilidade dos dados, mantendo a taxa máxima de informações e permitindo a visualização de dados multidimensionais. Formalmente, esta técnica é usada para reduzir a dimensionalidade de um conjunto de dados. 

Além disso, o PCA foi inventado no ano de 1901 por Karl Pearson como um análogo do teorema do eixo principal em mecânica. Na década de 1930, foi nomeado e desenvolvido de forma independente por Harold Hotelling.

Por que e quando fazer uso do PCA

  • Quando as dimensões das variáveis ​​ou recursos de entrada são muito altas.
  • A principal análise de componentes é basicamente para compressão de dados
  • É uma ferramenta poderosa para denoising.
  • Também é particularmente útil para o processamento de dados onde existe multicolinearidade entre variáveis ​​e recursos.
  • Para interpretar e visualizar dados.

Objetivo do PCA

  • Um de seus objetivos é encontrar ou identificar padrões e relações entre variáveis ​​que podem não estar visíveis nos dados originais.
  • Serve basicamente para extrair características de um conjunto de variáveis ​​que são literalmente mais relevantes que as variáveis ​​originais. Esses recursos podem ser usados ​​para outras tarefas e também para modelagem.
  • É uma ferramenta para compactar conjuntos de dados, diminuindo a quantidade total de variáveis ​​necessárias para apresentar os dados, mantendo o máximo de dados possível.
  • A análise de componentes principais é para visualizar dados de alta dimensão em um espaço de dimensão inferior. Assim, tornando-o mais abrangente
  • Reduz o ruído em um conjunto de dados.

Limitações de um PCA

  • Caro para calcular. Em outras palavras, tem complexidades de computação.
  • Isso pode resultar na perda de informações e dados cruciais. 
  • Dados dimensionados e centralizados.
  • Às vezes, é mais difícil identificar algumas características cruciais das variáveis.
  • A análise de componentes principais nem sempre é simples de compreender ou descrever em termos das características principais ou originais.

Onde o PCA é usado?

A análise principal é uma das análises estatísticas multivariadas mais populares no mundo hoje. Além disso, é conhecida como técnica de redução de dimensionalidade não supervisionada que constrói variáveis ​​ou recursos por meio de combinações lineares ou não lineares das variáveis ​​e recursos originais.

Como você interpreta a análise de componentes principais?

Para poder interpretar muito bem a análise de componentes principais, você deve calcular a correlação entre cada componente principal e os dados originais, e essa correlação é obtida com o uso dos procedimentos de correlação. Além disso, para interpretar os componentes principais, você deve descobrir quais variáveis ​​estão mais fortemente correlacionadas com cada componente. Além disso, você precisa determinar em que nível a correlação é importante. 

Quais são os 2 usos da análise de componentes principais?

Há muitas coisas que a análise de componentes principais faz, mas aqui estão as duas coisas principais que ela faz:

  • Redimensione imagens e encontre padrões em conjuntos de dados de alta dimensão.
  • Visualize dados multinacionais. Além disso, é bom para analisar dados de ações e prever reajustes em finanças.

Análise de componentes principais em Python

A análise de componentes principais em Python é um modelo que acelera o treinamento do modelo e a virtualização de dados. Em essência, é a aplicação mais comum do PCA. Aqui está uma visão geral da análise de componentes principais em Python:

Etapas da análise de componentes principais em Python:

  • Uma das etapas da análise de componentes principais com Python é importar as bibliotecas.
  • Importe o conjunto de dados.
  • Divida o conjunto de dados em um conjunto de teste ou treinamento.
  • Dimensionamento de recursos.
  • Aplicar as funções do PCA
  • Ajustar a regressão logística ao conjunto de teste ou treinamento.
  • Preveja o teste ou o resultado do conjunto de treinamento.
  • Faça a matriz de confusão.
  • Preveja os resultados do conjunto de treinamento.
  • Virtualize e calcule os resultados do conjunto de teste.

Objetivos da análise de componentes principais em Python

  • O PCA é um procedimento não dependente que diminui o espaço de atributos de um grande número de variáveis ​​para um número menor de fatores.
  • De acordo com a análise de componentes principais em Python, o PCA identifica padrões ou relacionamentos entre variáveis.
  • Ele virtualiza dados de alta dimensão em um espaço de dimensão inferior.
  • Usado para visualizar parentesco e distância genética entre as populações.

O que é um exemplo real de PCA?

A análise de componentes principais é uma técnica de extração de características que funciona considerando a variância de cada atributo, pois esse atributo mostra a fenda entre cada uma de suas classes e reduz a dimensionalidade. Aqui estão os exemplos reais do PCA:

  • Processamento de imagens
  • Otimização das alocações de energia em vários canais de comunicação.
  • Recomendações do sistema de filmes.

O que é PCA no aprendizado de máquina?

A principal análise de componentes no aprendizado de máquina é a redução da quantidade total de dimensões em um conjunto de dados. Aqui estão as seguintes etapas no PCA no aprendizado de máquina:

  • Carregue os dados
  • Separe os dados em conjuntos de teste e treinamento
  • Padronizar adequadamente os dados
  • Transfira e aplique apropriadamente o PCA
  • Além disso, aplique o mapeamento ao conjunto de teste e ao conjunto de treinamento.
  • Aplique a regressão logística aos dados importados.
  • Meça o desempenho do modelo.

Pode-se usar o PCA no Aprendizado de Máquina Supervisionado?

O PCA é uma boa ferramenta para usar quando se trata de analisar grandes conjuntos de dados que contêm um grande número de dimensões ou recursos por observação. Mas sugiro que você não o use em projetos de aprendizado de máquina supervisionados. Ele mascara informações para o modelo que não é uma abordagem adequada para uma fase de treinamento bem-sucedida. 

Análise de Componentes Principais em R

A análise de componentes principais é a abreviação de PCA. o objetivo do PCA é explicar adequadamente a maior parte da variabilidade em um conjunto de dados com menos variáveis ​​do que o conjunto de dados original. 

Aqui está uma visão geral das etapas da análise de componentes principais em R:

#1. Carregar os dados

Nesta primeira etapa da análise de componentes principais em R, você deve primeiro carregar o pacote, que contém diversas funções para manipulação e virtualização de dados. O carregamento dos dados garante que cada um dos atributos tenha o mesmo nível de prevenção de uma variável dominar outras variáveis.

#2. Calcule cuidadosamente os componentes principais

Depois de carregar seus dados, calcular os componentes principais é basicamente o próximo passo a ser executado na análise de componentes principais em R. Tenha muito cuidado ao especificar scale=True para que cada uma das variáveis ​​no conjunto de dados seja dimensionada adequadamente para ter uma média de 0 e um desvio padrão de 1 antes de calcular os componentes principais. 

#3. Visualize os resultados com o Biplot

Nesta terceira etapa da análise de componentes principais em R, crie cuidadosamente um gráfico que possa projetar cada uma das observações no conjunto de dados em um bom gráfico de dispersão que use o primeiro e o segundo componentes principais como seus eixos.

#4. Procure a variação totalmente explicada por cada componente principal

Esta é uma das etapas da análise de componentes principais em R. Encontre e calcule a variância total no conjunto de dados original explicada por cada componente principal. Portanto, é muito importante procurar padrões no biplot para permitir a identificação de estados semelhantes entre si.

Quais são as duas aplicações da análise de componentes principais?

O PCA consiste em uma variedade de aplicativos que contribuem para o nosso dia a dia. As duas aplicações da análise de componentes Princípio são:

  • Assistência médica

A análise de componentes principais também pode ser integrada às diferentes tecnologias médicas utilizadas para reconhecer uma doença a partir de exames de imagem. Assim, também pode ser usado em exames de ressonância magnética (MRI) em outros para diminuir a dimensionalidade das imagens para uma boa análise e relatório médico.

  • Processamento de imagem

O PCA é usado no processamento de imagens para permitir a retenção dos detalhes principais de uma determinada imagem enquanto diminui o número total de dimensões. Em essência, também pode executar tarefas mais complicadas, como reconhecimento de imagem.

Análise de Componentes Principais Sklearn

O sklearn de análise de componentes principais é a redução da dimensionalidade linear usando a Decomposição de Valor Singular (SVD) dos dados para projetá-los em um espaço dimensional muito baixo. Assim, o sklearn de análise de componentes principais faz uso da implementação LAPACK da decomposição de valor singular. 

Além disso, o sklearn de análise de componentes principais faz bom uso da implementação scipy.sparse ARPACK da decomposição de valor singular truncado. 

Etapas para usar o Sklearn de análise de componentes principais

  • Baixe e carregue cuidadosamente o conjunto de dados.
  • Reprocesse o conjunto de dados.
  • Executar corretamente o PCA no conjunto de dados 
  • Examine alguns atributos úteis do objeto do PCA.
  • Analise adequadamente a mudança na razão bem explicada da variância. 

Qual é o objetivo principal da análise de componentes principais PCA?

O PCA é uma boa ferramenta para identificar os eixos de variação dentro de um conjunto de dados. Aplicado adequadamente, é uma das melhores ferramentas no kit de ferramentas de análise de dados. O principal objetivo da análise de componentes principais é identificar o quão não corrigido é o conjunto de dados, ser capaz de interpretar muito bem a análise de componentes principais, analisar grandes conjuntos de dados que contêm um grande número de dimensões ou recursos por observação e também aumentar a interpretabilidade dos dados, mantendo a taxa máxima de informação e permitindo a visualização de dados multidimensionais.

Como você sabe se o PCA é bom?

Uma das principais e cruciais maneiras de verificar se o PCA é bom é identificar adequadamente o quão não corrigido está seu conjunto de dados. Se não estiver corrigido, você tem um bom motivo para não se inscrever. Existem boas métricas que você pode usar para avaliar o quão bom é o PCA, mas vou me concentrar apenas em duas delas. Há:

  • Quanto cada componente explica.
  • O quanto uma variável se correlaciona com cada componente.

Conclusão

A análise de componentes principais é a abreviação de PCA. A análise de componentes principais é uma ferramenta de análise de dados descritiva amplamente adaptável e utilizada. Além disso, possui muitas adaptações que o tornam muito útil para uma ampla variedade de situações e todos os tipos de dados em tantas disciplinas.

Artigo relacionado

Referência

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *

Você pode gostar