BELANGRIJKSTE ONDERDELENANALYSE: alles wat u moet weten over PCA

analyse van hoofdcomponenten
bijschrift afbeelding: ingebouwd

De hoofdcomponentenanalyse is een zeer populaire techniek die een groot aantal datasets gebruikt door de variantie van meerdere variabelen te deconstrueren in de gemeenschappelijke componenten. In dit stuk leggen we alles uit over Principal Component Analysis in R, Sklearn en Python. Laten we rijden!

Hoofdcomponentenanalyse

De principale componentenanalyse (PCA) is een zeer ongebreidelde techniek voor het analyseren van grote datasets die een groot aantal dimensies of kenmerken per waarneming bevat en ook de interpreteerbaarheid van gegevens verhoogt, terwijl de maximale informatiesnelheid behouden blijft en de visualisatie van multidimensionale gegevens mogelijk wordt. Formeel wordt deze techniek gebruikt om de dimensionaliteit van een dataset te verminderen. 

Bovendien werd de PCA in het jaar 1901 uitgevonden door Karl Pearson als een analoog van de hoofdasstelling in de mechanica. In de jaren dertig kreeg het een onafhankelijke naam en werd het ontwikkeld door Harold Hotelling.

Waarom en wanneer gebruik te maken van de PCA

  • Wanneer de dimensies van de invoervariabelen of kenmerken erg hoog zijn.
  • De belangrijkste componentenanalyse is in feite voor datacompressie
  • Het is een krachtige tool voor denoising.
  • Het is ook bijzonder nuttig voor het proces van gegevens waarbij multi-colineariteit bestaat tussen variabelen en kenmerken.
  • Om gegevens te interpreteren en te visualiseren.

Doel van PCA

  • Een van de doelstellingen is het vinden of identificeren van patronen en de relatie tussen variabelen die mogelijk niet zichtbaar zijn in de oorspronkelijke gegevens.
  • Het is in feite bedoeld om kenmerken uit een reeks variabelen te extraheren die letterlijk relevanter zijn dan de oorspronkelijke variabelen. Deze functies kunnen vervolgens worden gebruikt voor andere taken en ook voor modellering.
  • Het is een hulpmiddel voor het comprimeren van datasets door het totale aantal variabelen dat nodig is om de gegevens te presenteren te verminderen en tegelijkertijd meer gegevens te behouden.
  • De belangrijkste componentenanalyse is voor het visualiseren van hoog-dimensionale gegevens in een lager-dimensionale ruimte. Daardoor wordt het uitgebreider
  • Het vermindert ruis in een dataset.

Beperkingen van een PCA

  • Kostbaar om te berekenen. Met andere woorden, het heeft computercomplexiteiten.
  • Het kan leiden tot het verlies van cruciale informatie en gegevens. 
  • Geschaalde en gecentraliseerde gegevens.
  • Soms is het moeilijker om enkele cruciale kenmerken van variabelen te identificeren.
  • De analyse van hoofdcomponenten is niet altijd eenvoudig te begrijpen of te beschrijven in termen van de belangrijkste of originele kenmerken.

Waar wordt PCA gebruikt?

De hoofdanalyse is tegenwoordig een van de meest populaire multivariate statistische analyses ter wereld. Het staat ook bekend als de unsupervised dimensionaliteitsreductietechniek die variabelen of kenmerken construeert door lineaire of niet-lineaire combinaties van de oorspronkelijke variabelen en kenmerken.

Hoe interpreteer je de analyse van hoofdcomponenten?

Om de analyse van de hoofdcomponenten heel goed te kunnen interpreteren, moet u de correlatie tussen elke hoofdcomponent en de oorspronkelijke gegevens berekenen, en deze correlatie wordt verkregen door het gebruik van de correlatieprocedures. Bovendien moet u, om de hoofdcomponenten te interpreteren, vinden welke variabelen het sterkst gecorreleerd zijn met elke component. Ook moet u bepalen op welk niveau de correlatie van belang is. 

Wat zijn 2 toepassingen van hoofdcomponentenanalyse?

Er zijn veel dingen die de analyse van de hoofdcomponenten doet, maar hier zijn de twee belangrijkste dingen die het doet:

  • Wijzig het formaat van afbeeldingen en vind patronen in hoogdimensionale datasets.
  • Visualiseer multinationale gegevens. Het is ook goed voor het analyseren van voorraadgegevens en het voorspellen van aanpassingen in de financiële wereld.

Hoofdcomponentenanalyse in Python

Principal component analysis in Python is een model dat modeltraining en datavirtualisatie versnelt. In wezen is het de meest voorkomende toepassing van PCA. Hier is een overzicht van de belangrijkste componentenanalyse in Python:

Stappen van hoofdcomponentenanalyse in Python:

  • Een van de stappen van de analyse van de belangrijkste componenten met Python is het importeren van de bibliotheken.
  • Importeer de dataset.
  • Splits de dataset op in een test- of trainingsset.
  • Functieschaling.
  • Pas de functies van PCA toe
  • Logistische regressie aanpassen aan de test of de trainingsset.
  • Voorspel het resultaat van de test of de trainingsset.
  • Maak de verwarringsmatrix.
  • Voorspel de resultaten van de trainingsset.
  • Virtualiseer en bereken de resultaten van de testset.

Doelstellingen van de Principal Component Analysis in Python

  • PCA is een niet-afhankelijke procedure die de attribuutruimte verkleint van een groot aantal variabelen naar een kleiner aantal factoren.
  • Volgens de principale componentenanalyse in Python identificeert PCA patronen of relaties tussen variabelen.
  • Het virtualiseert hoog-dimensionale gegevens in een lager-dimensionale ruimte.
  • Gebruikt om verwantschap en genetische afstand tussen populaties te visualiseren.

Wat is een real-life voorbeeld van PCA?

De hoofdcomponentanalyse is een feature-extractietechniek die werkt door de variantie van elk attribuut in overweging te nemen, omdat dit attribuut de spleet tussen elk van zijn klassen laat zien en de dimensionaliteit vermindert. Hier zijn de echte voorbeelden van de PCA:

  • Verwerken van afbeeldingen
  • Optimalisatie van de stroomtoewijzingen in verschillende communicatiekanalen.
  • Aanbevelingen van filmsysteem.

Wat is PCA in machine learning?

De belangrijkste componentanalyse bij machine learning is de reductie van het totale aantal dimensies in een dataset. Dit zijn de volgende stappen in PCA in machine learning:

  • Laad de gegevens
  • Scheid de gegevens in test- en trainingssets
  • Standaardiseer de gegevens goed
  • PCA op de juiste manier overdragen en toepassen
  • Pas de mapping ook toe op de testset en de trainingsset.
  • Logistieke regressie toepassen op de geïmporteerde gegevens.
  • Meet de modelprestaties.

Kan men PCA gebruiken bij gesuperviseerd machinaal leren?

PCA is een goed hulpmiddel om te gebruiken als het gaat om het analyseren van grote datasets die een groot aantal dimensies of kenmerken per waarneming bevatten. Maar ik stel voor dat u het niet gebruikt in begeleide machine learning-projecten. Het maskeert informatie voor het model die geen goede benadering is voor een succesvolle trainingsfase. 

Hoofdcomponentenanalyse in R

De principale componentenanalyse is de afkorting van PCA. het doel van de PCA is om de meeste variabiliteit goed uit te leggen in een dataset met minder variabelen dan de originele dataset. 

Hier is een overzicht van de stappen van hoofdcomponentenanalyse in R:

#1. Laad de gegevens

In deze eerste stap van de hoofdcomponentenanalyse in R moet u eerst het pakket laden, dat verschillende functies bevat voor het manipuleren en virtualiseren van gegevens. Het laden van de gegevens zorgt ervoor dat elk van de attributen hetzelfde niveau heeft om te voorkomen dat een variabele andere variabelen domineert.

#2. Bereken zorgvuldig de belangrijkste componenten

Na het laden van uw gegevens is het berekenen van de hoofdcomponenten in feite de volgende stap die moet worden genomen in de analyse van de hoofdcomponenten in R. Wees zeer voorzichtig met het specificeren van scale=True, zodat elk van de variabelen in de dataset correct wordt geschaald om een ​​gemiddelde van 0 te hebben en een standaarddeviatie van 1 voordat u de hoofdcomponenten berekent. 

#3. Visualiseer de resultaten met Biplot

Maak in deze derde stap van de hoofdcomponentenanalyse in R zorgvuldig een plot dat elk van de waarnemingen in de dataset kan projecteren op een goede scatterplot die gebruik maakt van de eerste en tweede hoofdcomponenten als assen.

#4. Zoek naar variantie die volledig wordt verklaard door elke hoofdcomponent

Dit is een van de stappen van de analyse van de hoofdcomponenten in R. Zoek en berekent de totale variantie in de oorspronkelijke gegevensset die wordt verklaard door elke hoofdcomponent. Het is dus zeer essentieel om naar patronen in de biplot te zoeken om u in staat te stellen toestanden te identificeren die op elkaar lijken.

Wat zijn twee toepassingen van hoofdcomponentenanalyse?

PCA bestaat uit een verscheidenheid aan toepassingen die bijdragen aan ons dagelijks leven. De twee toepassingen van Principle-componentenanalyse zijn:

  • Gezondheidszorg

De principale componentenanalyse kan ook worden geïntegreerd in de verschillende medische technologieën die worden gebruikt om bijvoorbeeld een ziekte te herkennen aan de hand van beeldscans. Het kan dus ook worden gebruikt in MRI-scans (Magnetic Resonance Imaging) in andere om de dimensionaliteit van de afbeeldingen te verminderen voor een goede medische analyse en rapportage.

  • Beeldverwerking

PCA wordt gebruikt bij beeldverwerking om het behoud van de belangrijkste details van een bepaald beeld mogelijk te maken terwijl het totale aantal dimensies wordt verminderd. In wezen kan het ook meer gecompliceerde taken uitvoeren, zoals beeldherkenning.

Hoofdcomponentenanalyse Sklearn

De belangrijkste componentanalyse is de reductie van lineaire dimensionaliteit met behulp van de Singular Value Decomposition (SVD) van de gegevens om deze naar een zeer laagdimensionale ruimte te projecteren. De principale componentenanalyse sklearn maakt dus gebruik van de LAPACK-implementatie van de decompositie van singuliere waarden. 

Ook maakt de principale componentenanalyse sklearn goed gebruik van de scipy.sparse ARPACK-implementatie van de afgeknotte singuliere waarde-ontleding. 

Stappen bij het gebruik van de Principal Component Analysis Sklearn

  • Download en laad de dataset voorzichtig.
  • Verwerk de dataset opnieuw.
  • Voer PCA correct uit op de dataset 
  • Onderzoek enkele nuttige kenmerken van het object van de PCA.
  • Analyseer de verandering in de goed verklaarde ratio van de variantie goed. 

Wat is het belangrijkste doel van PCA voor hoofdcomponentenanalyse?

PCA is een goed hulpmiddel om de variantie-assen binnen een dataset te identificeren. Op de juiste manier toegepast, is het een van de beste tools in de toolkit voor gegevensanalyse. Het hoofddoel van de principale componentenanalyse is om vast te stellen hoe ongecorrigeerd de dataset is, om de principale componentenanalyse heel goed te kunnen interpreteren, om grote datasets te analyseren die een groot aantal dimensies of kenmerken per waarneming bevatten, en ook om de interpreteerbaarheid van gegevens terwijl de maximale informatiesnelheid behouden blijft en de visualisatie van multidimensionale gegevens mogelijk wordt gemaakt.

Hoe weet u of PCA goed is?

Een van de belangrijkste en cruciale manieren om te controleren of de PCA goed is, is om correct te identificeren hoe ongecorrigeerd uw dataset is. Als het niet gecorrigeerd is, heb je een goede reden om het niet aan te vragen. Er zijn goede statistieken die u kunt gebruiken om toegang te krijgen tot hoe goed PCA is, maar ik zal me er slechts op twee concentreren. Er zijn:

  • Hoeveel elk onderdeel verklaart.
  • Hoeveel een variabele correleert met elk onderdeel.

Conclusie

De principale componentenanalyse is de afkorting van PCA. De analyse van de belangrijkste componenten is een breed adaptieve en gebruikte beschrijvende data-analysetool. Het heeft ook veel aanpassingen die het erg nuttig maken voor een breed scala aan situaties en alle soorten gegevens in zoveel disciplines.

Gerelateerd artikel

Referentie

Laat een reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *

Dit vind je misschien ook leuk