HAUPTKOMPONENTENANALYSE: Alles Wissenswerte über PCA

Hauptkomponentenanalyse
Bildunterschrift: Eingebaut

Die Hauptkomponentenanalyse ist eine sehr beliebte Technik, die eine große Anzahl von Datensätzen verwendet, indem sie die Varianz mehrerer Variablen in ihre gemeinsamen Komponenten zerlegt. In diesem Artikel erklären wir alles über die Hauptkomponentenanalyse in R, Sklearn und Python. Fahren wir los!

Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (PCA) ist eine sehr weitreichende Technik zur Analyse großer Datensätze, die eine große Anzahl von Dimensionen oder Merkmalen pro Beobachtung enthält und außerdem die Interpretierbarkeit von Daten erhöht, während gleichzeitig die maximale Informationsrate erhalten bleibt und die Visualisierung mehrdimensionaler Daten ermöglicht wird. Formal wird diese Technik zur Reduzierung der Dimensionalität eines Datensatzes verwendet. 

Darüber hinaus wurde die PCA im Jahr 1901 von Karl Pearson als Analogon zum Hauptachsensatz der Mechanik erfunden. In den 1930er Jahren wurde es von Harold Hotelling unabhängig benannt und entwickelt.

Warum und wann Sie das PCA nutzen sollten

  • Wenn die Dimensionen der Eingabevariablen oder Features sehr hoch sind.
  • Die Hauptkomponentenanalyse dient im Wesentlichen der Datenkomprimierung
  • Es ist ein leistungsstarkes Werkzeug zur Rauschunterdrückung.
  • Es ist auch besonders nützlich für den Datenprozess, bei dem Multikolinearität zwischen Variablen und Merkmalen besteht.
  • Daten interpretieren und visualisieren.

Ziel von PCA

  • Eines seiner Ziele besteht darin, Muster und Beziehungen zwischen Variablen zu finden oder zu identifizieren, die in den Originaldaten möglicherweise nicht sichtbar sind.
  • Es dient im Wesentlichen dazu, Merkmale aus einer Reihe von Variablen zu extrahieren, die buchstäblich relevanter sind als die ursprünglichen Variablen. Diese Funktionen können dann für andere Aufgaben und auch zur Modellierung verwendet werden.
  • Es handelt sich um ein Tool zum Komprimieren von Datensätzen, indem die Gesamtzahl der zur Darstellung der Daten erforderlichen Variablen verringert und gleichzeitig mehr Daten beibehalten werden.
  • Die Hauptkomponentenanalyse dient der Visualisierung hochdimensionaler Daten in einem niedrigerdimensionalen Raum. Dadurch wird es umfassender
  • Es reduziert das Rauschen in einem Datensatz.

Einschränkungen einer PCA

  • Kostspielig in der Berechnung. Mit anderen Worten, es weist Rechenkomplexität auf.
  • Dies kann zum Verlust wichtiger Informationen und Daten führen. 
  • Skalierte und zentralisierte Daten.
  • Manchmal ist es schwieriger, einige entscheidende Merkmale von Variablen zu identifizieren.
  • Die Hauptkomponentenanalyse ist nicht immer einfach zu verstehen oder anhand der Haupt- oder Originalmerkmale zu beschreiben.

Wo wird PCA verwendet?

Die Hauptanalyse ist heute eine der beliebtesten multivariaten statistischen Analysen weltweit. Es ist auch als unbeaufsichtigte Dimensionsreduktionstechnik bekannt, bei der Variablen oder Merkmale durch lineare oder nichtlineare Kombinationen der ursprünglichen Variablen und Merkmale konstruiert werden.

Wie interpretieren Sie die Hauptkomponentenanalyse?

Um die Hauptkomponentenanalyse sehr gut interpretieren zu können, müssen Sie die Korrelation zwischen jeder Hauptkomponente und den Originaldaten berechnen. Diese Korrelation wird durch die Verwendung der Korrelationsverfahren ermittelt. Um die Hauptkomponenten zu interpretieren, müssen Sie außerdem herausfinden, welche Variablen mit den einzelnen Komponenten am stärksten korrelieren. Außerdem müssen Sie bestimmen, auf welcher Ebene die Korrelation von Bedeutung ist. 

Was sind zwei Einsatzmöglichkeiten der Hauptkomponentenanalyse?

Es gibt viele Dinge, die die Hauptkomponentenanalyse leistet, aber hier sind die beiden wichtigsten Dinge, die sie tut:

  • Ändern Sie die Größe von Bildern und finden Sie Muster in hochdimensionalen Datensätzen.
  • Visualisieren Sie multinationale Daten. Außerdem eignet es sich gut für die Analyse von Bestandsdaten und prognostizierten Erträgen im Finanzbereich.

Hauptkomponentenanalyse in Python

Die Hauptkomponentenanalyse in Python ist ein Modell, das das Modelltraining und die Datenvirtualisierung beschleunigt. Im Wesentlichen ist es die häufigste Anwendung von PCA. Hier ist eine Übersicht über die Hauptkomponentenanalyse in Python:

Schritte der Hauptkomponentenanalyse in Python:

  • Einer der Schritte der Hauptkomponentenanalyse mit Python besteht darin, die Bibliotheken zu importieren.
  • Importieren Sie den Datensatz.
  • Teilen Sie den Datensatz in einen Test oder einen Trainingssatz auf.
  • Funktionsskalierung.
  • Wenden Sie die Funktionen von PCA an
  • Anpassen der logistischen Regression an den Test oder das Trainingsset.
  • Sagen Sie das Ergebnis des Tests oder des Trainingssatzes voraus.
  • Erstellen Sie die Verwirrungsmatrix.
  • Sagen Sie die Ergebnisse des Trainingssatzes voraus.
  • Virtualisieren und berechnen Sie die Ergebnisse des Testsatzes.

Ziele der Hauptkomponentenanalyse in Python

  • PCA ist ein nicht abhängiges Verfahren, das den Attributraum von einer großen Anzahl von Variablen auf eine kleinere Anzahl von Faktoren verringert.
  • Gemäß der Hauptkomponentenanalyse in Python identifiziert PCA Muster oder Beziehungen zwischen Variablen.
  • Es virtualisiert hochdimensionale Daten in einem niedrigerdimensionalen Raum.
  • Wird zur Visualisierung der Verwandtschaft und genetischen Distanz zwischen Populationen verwendet.

Was ist ein reales Beispiel für PCA?

Bei der Hauptkomponentenanalyse handelt es sich um eine Merkmalsextraktionstechnik, die die Varianz jedes Attributs berücksichtigt, da dieses Attribut den Abstand zwischen den einzelnen Klassen anzeigt und die Dimensionalität verringert. Hier sind die echten Beispiele der PCA:

  • Bearbeitung von Bildern
  • Optimierung der Leistungsverteilung in verschiedenen Kommunikationskanälen.
  • Empfehlungen des Filmsystems.

Was ist PCA beim maschinellen Lernen?

Die Hauptkomponentenanalyse beim maschinellen Lernen ist die Reduzierung der Gesamtzahl der Dimensionen in einem Datensatz. Hier sind die folgenden Schritte in PCA beim maschinellen Lernen:

  • Laden Sie die Daten
  • Teilen Sie die Daten in Test- und Trainingssätze auf
  • Standardisieren Sie die Daten ordnungsgemäß
  • PCA entsprechend übertragen und anwenden
  • Wenden Sie die Zuordnung außerdem auf den Testsatz und den Trainingssatz an.
  • Wenden Sie die logistische Regression auf die importierten Daten an.
  • Messen Sie die Modellleistung.

Kann man PCA im überwachten maschinellen Lernen verwenden?

PCA ist ein gutes Werkzeug für die Analyse großer Datensätze, die eine hohe Anzahl an Dimensionen oder Merkmalen pro Beobachtung enthalten. Ich schlage jedoch vor, dass Sie es nicht in überwachten maschinellen Lernprojekten verwenden. Es maskiert Informationen für das Modell, was kein geeigneter Ansatz für eine erfolgreiche Trainingsphase ist. 

Hauptkomponentenanalyse in R

Die Hauptkomponentenanalyse ist die Abkürzung für PCA. Das Ziel der PCA besteht darin, den Großteil der Variabilität in einem Datensatz mit weniger Variablen als im Originaldatensatz richtig zu erklären. 

Hier ist eine Übersicht über die Schritte der Hauptkomponentenanalyse in R:

#1. Laden Sie die Daten

In diesem ersten Schritt der Hauptkomponentenanalyse in R müssen Sie zunächst das Paket laden, das mehrere Funktionen zur Manipulation und Virtualisierung von Daten enthält. Durch das Laden der Daten wird sichergestellt, dass jedes Attribut auf die gleiche Weise verhindert, dass eine Variable andere Variablen dominiert.

#2. Berechnen Sie sorgfältig die Hauptkomponenten

Nach dem Laden Ihrer Daten ist die Berechnung der Hauptkomponenten im Grunde der nächste Schritt bei der Hauptkomponentenanalyse in R. Achten Sie sehr darauf, „scale=True“ anzugeben, damit jede der Variablen im Datensatz richtig skaliert wird, um einen Mittelwert von 0 zu haben und eine Standardabweichung von 1, bevor Sie die Hauptkomponenten berechnen. 

#3. Visualisieren Sie die Ergebnisse mit Biplot

Erstellen Sie in diesem dritten Schritt der Hauptkomponentenanalyse in R sorgfältig ein Diagramm, das jede der Beobachtungen im Datensatz auf ein gutes Streudiagramm projizieren kann, das die erste und zweite Hauptkomponente als Achsen verwendet.

#4. Suchen Sie nach Varianz, die sich vollständig durch jede Hauptkomponente erklären lässt

Dies ist einer der Schritte der Hauptkomponentenanalyse in R. Finden und berechnen Sie die Gesamtvarianz im Originaldatensatz, die durch jede Hauptkomponente erklärt wird. Daher ist es sehr wichtig, im Biplot nach Mustern zu suchen, damit Sie Zustände identifizieren können, die einander ähnlich sind.

Was sind zwei Anwendungen der Hauptkomponentenanalyse?

PCA besteht aus einer Vielzahl von Anwendungen, die zu unserem Alltag beitragen. Die beiden Anwendungen der Hauptkomponentenanalyse sind:

  • Gesundheitswesen

Die Hauptkomponentenanalyse kann auch in die verschiedenen verwendeten medizinischen Technologien integriert werden, um beispielsweise eine Krankheit anhand von Bildscans zu erkennen. Daher kann es auch in anderen Bereichen der Magnetresonanztomographie (MRT) verwendet werden, um die Dimensionalität der Bilder für eine gute medizinische Analyse und einen guten Bericht zu verringern.

  • Bildverarbeitung

PCA wird in der Bildverarbeitung verwendet, um die Beibehaltung der Hauptdetails eines bestimmten Bildes bei gleichzeitiger Verringerung der Gesamtzahl der Dimensionen zu ermöglichen. Im Wesentlichen können damit auch kompliziertere Aufgaben wie die Bilderkennung ausgeführt werden.

Hauptkomponentenanalyse Sklearn

Die Hauptkomponentenanalyse von sklearn ist die Reduzierung der linearen Dimensionalität mithilfe der Singular Value Decomposition (SVD) der Daten, um sie auf einen sehr niedrigdimensionalen Raum zu projizieren. Daher nutzt die Hauptkomponentenanalyse sklearn die LAPACK-Implementierung der Singulärwertzerlegung. 

Außerdem nutzt die Hauptkomponentenanalyse sklearn die scipy.sparse ARPACK-Implementierung der abgeschnittenen Singularwertzerlegung. 

Schritte zur Verwendung der Hauptkomponentenanalyse Sklearn

  • Laden Sie den Datensatz sorgfältig herunter und laden Sie ihn.
  • Verarbeiten Sie den Datensatz erneut.
  • Führen Sie die PCA ordnungsgemäß für den Datensatz durch 
  • Untersuchen Sie einige nützliche Attribute des PCA-Objekts.
  • Analysieren Sie die Änderung des gut erklärten Verhältnisses der Varianz ordnungsgemäß. 

Was ist der Hauptzweck der Hauptkomponentenanalyse-PCA?

PCA ist ein gutes Werkzeug zur Identifizierung der Varianzachsen innerhalb eines Datensatzes. Bei entsprechender Anwendung ist es eines der besten Tools im Datenanalyse-Toolkit. Der Hauptzweck der Hauptkomponentenanalyse besteht darin, festzustellen, wie unkorrigiert der Datensatz ist. Die Hauptkomponentenanalyse sehr gut interpretieren zu können, große Datensätze zu analysieren, die eine hohe Anzahl an Dimensionen oder Merkmalen pro Beobachtung enthalten, und diese auch zu vergrößern die Interpretierbarkeit von Daten bei gleichzeitiger Beibehaltung der maximalen Informationsrate und Ermöglichung der Visualisierung mehrdimensionaler Daten.

Woher wissen Sie, ob PCA gut ist?

Eine der wichtigsten und entscheidenden Methoden zur Überprüfung, ob die PCA gut ist, besteht darin, richtig zu ermitteln, wie unkorrigiert Ihr Datensatz ist. Wenn es nicht korrigiert wird, haben Sie einen guten Grund, es nicht zu beantragen. Es gibt gute Kennzahlen, anhand derer Sie ermitteln können, wie gut PCA ist, aber ich werde mich nur auf zwei davon konzentrieren. Es gibt:

  • Wie viel jede Komponente erklärt.
  • Wie stark eine Variable mit jeder Komponente korreliert.

Zusammenfassung

Die Hauptkomponentenanalyse ist die Abkürzung für PCA. Die Hauptkomponentenanalyse ist ein weithin anpassungsfähiges und verwendetes deskriptives Datenanalysetool. Außerdem verfügt es über viele Anpassungen, die es für eine Vielzahl unterschiedlicher Situationen und alle Arten von Daten in so vielen Disziplinen sehr nützlich machen.

Verwandter Artikel

Referenz

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *

Das Könnten Sie Auch Interessieren