ANALISI DEI COMPONENTI PRINCIPALI: Tutto da sapere sulla PCA

analisi dei componenti principali
didascalia immagine: integrato

L'analisi delle componenti principali è una tecnica molto popolare che utilizza un gran numero di set di dati decostruendo la varianza di più variabili nelle sue componenti comuni. In questo pezzo, spiegheremo tutto sull'analisi delle componenti principali in R, Sklearn e Python. Guidiamo!

Analisi del componente principale

L'analisi delle componenti principali (PCA) è una tecnica molto importante per l'analisi di grandi set di dati che contiene un numero elevato di dimensioni o caratteristiche per osservazione e aumenta anche l'interpretabilità dei dati mantenendo la massima velocità di informazioni e consentendo la visualizzazione di dati multidimensionali. Formalmente, questa tecnica viene utilizzata per ridurre la dimensionalità di un set di dati. 

Inoltre, il PCA è stato inventato nell'anno 1901 da Karl Pearson come analogo del teorema dell'asse principale in meccanica. Negli anni '1930 è stato nominato e sviluppato in modo indipendente da Harold Hotelling.

Perché e quando utilizzare l'APC

  • Quando le dimensioni delle variabili o caratteristiche di input sono molto elevate.
  • L'analisi dei componenti principali è fondamentalmente per la compressione dei dati
  • È un potente strumento per il denoising.
  • È anche particolarmente utile per l'elaborazione dei dati in cui esiste multi-colinearità tra variabili e caratteristiche.
  • Interpretare e visualizzare i dati.

Obiettivo dell'APC

  • Uno dei suoi obiettivi è trovare o identificare modelli e relazioni tra variabili che potrebbero non essere visibili nei dati originali.
  • Fondamentalmente serve per estrarre caratteristiche da un insieme di variabili che sono letteralmente più rilevanti delle variabili originali. Queste funzionalità possono quindi essere utilizzate per altre attività e anche per la modellazione.
  • È uno strumento per comprimere i set di dati diminuendo la quantità totale di variabili necessarie per presentare i dati conservando più dati possibile.
  • L'analisi dei componenti principali serve per visualizzare dati ad alta dimensione in uno spazio a dimensione inferiore. In tal modo, rendendolo più completo
  • Riduce il rumore in un set di dati.

Limitazioni di un PCA

  • Costoso da calcolare. In altre parole, ha complessità informatiche.
  • Può comportare la perdita di informazioni e dati cruciali. 
  • Dati scalati e centralizzati.
  • A volte è più difficile identificare alcune caratteristiche cruciali delle variabili.
  • L'analisi delle componenti principali non è sempre semplice da comprendere o descrivere in termini di caratteristiche principali o originali.

Dove viene utilizzato il PCA?

L'analisi principale è oggi una delle analisi statistiche multivariate più popolari al mondo. Inoltre, è nota come tecnica di riduzione della dimensionalità non supervisionata che costruisce variabili o caratteristiche attraverso combinazioni lineari o non lineari delle variabili e delle caratteristiche originali.

Come si interpreta l'analisi delle componenti principali?

Per essere in grado di interpretare molto bene l'analisi delle componenti principali, è necessario calcolare la correlazione tra ciascuna componente principale ei dati originali, e questa correlazione è ottenuta dall'uso delle procedure di correlazione. Inoltre, per interpretare le componenti principali, è necessario trovare quali variabili sono maggiormente correlate a ciascuna componente. Inoltre, è necessario determinare a quale livello la correlazione è importante. 

Quali sono i 2 usi dell'analisi delle componenti principali?

Ci sono molte cose che fa l'analisi dei componenti principali, ma ecco le due cose principali che fa:

  • Ridimensiona le immagini e trova modelli in set di dati ad alta dimensione.
  • Visualizza dati multinazionali. Inoltre, è utile per analizzare i dati di borsa e prevedere ritorni nella finanza.

Analisi delle componenti principali in Python

L'analisi dei componenti principali in Python è un modello che accelera l'addestramento del modello e la virtualizzazione dei dati. In sostanza, è l'applicazione più comune di PCA. Ecco una panoramica dell'analisi dei componenti principali in Python:

Passaggi dell'analisi dei componenti principali in Python:

  • Uno dei passaggi dell'analisi dei componenti principali con Python è importare le librerie.
  • Importa il set di dati.
  • Dividi il set di dati in un test o in un set di addestramento.
  • Ridimensionamento delle funzionalità.
  • Applicare le funzioni di PCA
  • Adattamento della regressione logistica al test o al training set.
  • Prevedi il risultato del test o del set di allenamento.
  • Crea la matrice di confusione.
  • Prevedere i risultati del training set.
  • Virtualizzare e calcolare i risultati del set di test.

Obiettivi dell'analisi delle componenti principali in Python

  • La PCA è una procedura non dipendente che riduce lo spazio degli attributi da un numero elevato di variabili a un numero inferiore di fattori.
  • Secondo l'analisi dei componenti principali in Python, PCA identifica modelli o relazioni tra variabili.
  • Virtualizza i dati ad alta dimensione in uno spazio a dimensione inferiore.
  • Utilizzato per visualizzare la parentela e la distanza genetica tra le popolazioni.

Qual è un esempio reale di PCA?

L'analisi dei componenti principali è una tecnica di estrazione delle caratteristiche che funziona considerando la varianza di ciascun attributo perché questo attributo mostra la fenditura tra ciascuna delle sue classi e riduce la dimensionalità. Ecco i veri esempi di PCA:

  • Elaborazione delle immagini
  • Ottimizzazione delle allocazioni di potenza nei vari canali di comunicazione.
  • Raccomandazioni del sistema di film.

Cos'è il PCA nell'apprendimento automatico?

L'analisi dei componenti principali nell'apprendimento automatico è la riduzione della quantità totale di dimensioni in un set di dati. Ecco i seguenti passaggi in PCA nell'apprendimento automatico:

  • Carica i dati
  • Separare i dati in set di test e training
  • Standardizzare correttamente i dati
  • Trasferire e applicare in modo appropriato la PCA
  • Inoltre, applica la mappatura al set di test e al set di training.
  • Applicare la regressione logistica ai dati importati.
  • Misurare le prestazioni del modello.

È possibile utilizzare PCA nell'apprendimento automatico supervisionato?

PCA è un ottimo strumento da utilizzare quando si tratta di analizzare grandi set di dati che contengono un numero elevato di dimensioni o caratteristiche per osservazione. Ma ti suggerisco di non usarlo in progetti di machine learning supervisionati. Nasconde le informazioni al modello che non è un approccio adeguato per una fase di addestramento di successo. 

Analisi delle componenti principali in R

L'analisi delle componenti principali è l'abbreviazione di PCA. lo scopo dell'APC è spiegare correttamente la maggior parte della variabilità in un set di dati con meno variabili rispetto al set di dati originale. 

Ecco una panoramica dei passaggi dell'analisi delle componenti principali in R:

#1. Carica i dati

In questo primo passaggio dell'analisi delle componenti principali in R, devi prima caricare il pacchetto, che contiene diverse funzioni per la manipolazione e la virtualizzazione dei dati. Il caricamento dei dati garantisce che ciascuno degli attributi abbia lo stesso livello di impedire a una variabile di dominare altre variabili.

#2. Calcolare attentamente i componenti principali

Dopo aver caricato i dati, il calcolo dei componenti principali è fondamentalmente il passaggio successivo da eseguire nell'analisi dei componenti principali in R. Fai molta attenzione a specificare scale=True in modo che ciascuna delle variabili nel set di dati sia adeguatamente ridimensionata per avere una media di 0 e una deviazione standard di 1 prima di calcolare le componenti principali. 

#3. Visualizza i risultati con Biplot

In questa terza fase dell'analisi delle componenti principali in R, creare con cura un grafico in grado di proiettare ciascuna delle osservazioni nel set di dati su un buon grafico a dispersione che utilizza la prima e la seconda componente principale come assi.

#4. Cerca la varianza totalmente spiegata da ogni componente principale

Questo è uno dei passaggi dell'analisi delle componenti principali in R. Trova e calcola la varianza totale nel set di dati originale spiegato da ciascuna componente principale. Pertanto, è molto essenziale cercare modelli nel biplot per consentire di identificare stati simili tra loro.

Quali sono le due applicazioni dell'analisi delle componenti principali?

PCA è costituito da una varietà di applicazioni che contribuiscono alla nostra quotidianità. Le due applicazioni dell'analisi delle componenti di principio sono:

  • SANITARIETÀ

L'analisi della componente principale può anche essere integrata nelle diverse tecnologie mediche che sono state utilizzate tali da riconoscere una malattia dalle scansioni di immagini. Pertanto, può essere utilizzato anche nelle scansioni di risonanza magnetica (MRI) in altri per ridurre la dimensionalità delle immagini per una buona analisi e referto medico.

  • Elaborazione delle immagini

PCA viene utilizzato nell'elaborazione delle immagini per consentire di conservare i dettagli principali di una determinata immagine riducendo al contempo il numero totale di dimensioni. In sostanza, può anche eseguire compiti più complicati come il riconoscimento delle immagini.

Analisi delle componenti principali Sklearn

L'analisi della componente principale sklearn è la riduzione della dimensionalità lineare utilizzando la Singular Value Decomposition (SVD) dei dati per proiettarli in uno spazio dimensionale molto basso. Pertanto, l'analisi delle componenti principali sklearn utilizza l'implementazione LAPACK della scomposizione del valore singolare. 

Inoltre, l'analisi dei componenti principali sklearn fa buon uso dell'implementazione scipy.sparse ARPACK della decomposizione del valore singolare troncato. 

Passaggi nell'utilizzo dell'analisi delle componenti principali Sklearn

  • Scaricare e caricare con attenzione il set di dati.
  • Rielaborare il set di dati.
  • Eseguire correttamente PCA sul set di dati 
  • Esaminare alcuni attributi utili dell'oggetto dell'APC.
  • Analizzare correttamente il cambiamento nel rapporto ben spiegato della varianza. 

Qual è lo scopo principale dell'analisi dei componenti principali PCA?

PCA è un buon strumento per identificare gli assi di varianza all'interno di un set di dati. Applicato in modo appropriato, è uno dei migliori strumenti nel kit di strumenti di analisi dei dati. Lo scopo principale dell'analisi delle componenti principali è identificare quanto non sia corretto il set di dati, essere in grado di interpretare molto bene l'analisi delle componenti principali, analizzare set di dati di grandi dimensioni che contengono un numero elevato di dimensioni o caratteristiche per osservazione e anche aumentare l'interpretabilità dei dati mantenendo il massimo tasso di informazioni e consentendo la visualizzazione di dati multidimensionali.

Come fai a sapere se il PCA è buono?

Uno dei modi principali e cruciali per verificare se il PCA è valido è identificare correttamente quanto sia errato il tuo set di dati. Se non è corretto, hai una buona ragione per non richiederlo. Ci sono buone metriche che puoi utilizzare per accedere a quanto è buono il PCA, ma mi concentrerò solo su due di esse. Ci sono:

  • Quanto spiega ogni componente.
  • Quanto una variabile è correlata a ciascun componente.

Conclusione

L'analisi delle componenti principali è l'abbreviazione di PCA. L'analisi delle componenti principali è uno strumento di analisi dei dati descrittivi ampiamente adattivo e utilizzato. Inoltre, ha molti adattamenti che lo rendono molto utile per una vasta gamma di situazioni e tutti i tipi di dati in così tante discipline.

Articolo correlato

Riferimento

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

Potrebbe piacerti anche