主成分分析: PCA について知っておくべきこと

主成分分析
画像説明: 内蔵

主成分分析は、複数の変数の分散を共通成分に分解することにより、多数のデータセットを使用する非常に一般的な手法です。 この記事では、R、Sklearn、Python の主成分分析についてすべて説明します。 ドライブしましょう!

主成分分析

主成分分析 (PCA) は、観測ごとに多数の次元または特徴を含む大規模なデータセットを分析するための非常に強力な手法であり、情報の最大速度を維持し、多次元データの視覚化を可能にしながらデータの解釈可能性を高めます。 正式には、この手法はデータセットの次元を削減するために使用されます。 

さらに、PCA は、力学における主軸定理の類似物として、1901 年にカール ピアソンによって発明されました。 1930 年代に、ハロルド ホテリングによって独自に命名され、開発されました。

PCA をいつ使用する理由と使用するか

  • 入力変数または特徴の次元が非常に高い場合。
  • 主成分分析は基本的にデータ圧縮を目的としています
  • ノイズ除去のための強力なツールです。
  • また、変数と特徴の間に多重共線性が存在するデータの処理にも特に役立ちます。
  • データを解釈して視覚化するため。

PCAの目的

  • その目的の XNUMX つは、元のデータでは見えない可能性のあるパターンと変数間の関係を見つけたり特定したりすることです。
  • これは基本的に、文字通り元の変数よりも関連性の高い一連の変数から特徴を抽出するためのものです。 これらの機能は、他のタスクやモデリングにも使用できます。
  • これは、可能な限り多くのデータを保持しながら、データを表示するために必要な変数の総量を減らすことによってデータセットを圧縮するためのツールです。
  • 主成分分析は、高次元のデータを低次元の空間で可視化するためのものです。 それにより、より包括的なものになります
  • データセット内のノイズを低減します。

PCA の制限事項

  • 計算コストがかかる。 言い換えれば、計算が複雑になります。
  • 重要な情報やデータが失われる可能性があります。 
  • スケーリングされ一元化されたデータ。
  • 変数の重要な特性を特定するのが難しい場合があります。
  • 主成分分析は、主な機能または元の機能の観点から理解したり説明したりするのが必ずしも簡単ではありません。

PCA はどこで使用されますか?

主な分析は、今日世界で最も人気のある多変量統計分析の XNUMX つです。 また、元の変数と特徴の線形または非線形の組み合わせを通じて変数または特徴を構築する教師なし次元削減手法としても知られています。

主成分分析をどのように解釈しますか?

主成分分析を適切に解釈できるようにするには、各主成分と元のデータの間の相関関係を計算する必要があります。この相関関係は、相関手順を使用して取得されます。 さらに、主成分を解釈するには、どの変数が各成分と最も強く相関しているかを見つける必要があります。 また、相関関係がどのレベルで重要であるかを判断する必要があります。 

主成分分析の 2 つの用途とは?

主成分分析では多くのことが行われますが、主に行うことは次の XNUMX つです。

  • 画像のサイズを変更し、高次元データセット内のパターンを見つけます。
  • 多国籍データを視覚化します。 また、株式データを分析し、金融分野での収益を予測するのにも適しています。

Python での主成分分析

Python の主成分分析は、モデルのトレーニングとデータの仮想化を高速化するモデルです。 本質的に、これは PCA の最も一般的なアプリケーションです。 Python での主成分分析の概要は次のとおりです。

Python での主成分分析の手順:

  • Python を使用した主成分分析の手順の XNUMX つは、ライブラリをインポートすることです。
  • データセットをインポートします。
  • データセットをテスト セットまたはトレーニング セットに分割します。
  • 機能のスケーリング。
  • PCAの機能を応用
  • ロジスティック回帰をテストまたはトレーニング セットに当てはめます。
  • テストまたはトレーニング セットの結果を予測します。
  • 混同行列を作成します。
  • トレーニング セットの結果を予測します。
  • テスト セットの結果を仮想化して計算します。

Python での主成分分析の目的

  • PCA は、属性空間を多数の変数から少数の因子に減らす非依存プロシージャです。
  • Python の主成分分析に従って、PCA は変数間のパターンまたは関係を特定します。
  • 高次元のデータを低次元の空間で仮想化します。
  • 集団間の関連性と遺伝的距離を視覚化するために使用されます。

PCA の実例とは何ですか?

主成分分析は、各属性の分散を考慮することで機能する特徴抽出手法です。これは、属性が各クラス間のスリットを示し、次元が削減されるためです。 PCA の実際の例を次に示します。

  • 画像の処理
  • さまざまな通信チャネルにおける電力割り当ての最適化。
  • ムービーシステムのおすすめ。

機械学習における PCA とは何ですか?

機械学習における主成分分析は、データセット内の次元の総量を削減することです。 機械学習における PCA の手順は次のとおりです。

  • データをロードする
  • データをテスト セットとトレーニング セットに分離する
  • データを適切に標準化する
  • PCAを適切に転送および適用する
  • また、マッピングをテスト セットとトレーニング セットに適用します。
  • インポートされたデータにロジスティクス回帰を適用します。
  • モデルのパフォーマンスを測定します。

教師あり機械学習で PCA を使用できますか?

PCA は、観測ごとに多数の次元や特徴を含む大規模なデータセットを分析する場合に使用するのに適したツールです。 ただし、教師あり機械学習プロジェクトでは使用しないことをお勧めします。 これはモデルに情報をマスクしますが、これはトレーニング段階を成功させるための適切なアプローチではありません。 

R での主成分分析

主成分分析とはPCAの略です。 PCA の目的は、元のデータセットよりも変数が少ないデータセットの変動性のほとんどを適切に説明することです。 

R での主成分分析の手順の概要は次のとおりです。

#1. データをロードする

R での主成分分析の最初のステップでは、まず、データを操作および仮想化するためのいくつかの関数が含まれるパッケージをロードする必要があります。 データをロードすると、各属性が、ある変数が他の変数を支配するのを防ぐ同じレベルを持つことが保証されます。

#2. 主成分を注意深く計算する

データをロードした後、基本的に R の主成分分析で行う次のステップは、主成分の計算です。データセット内の各変数が平均 0 になるように適切にスケーリングされるように、scale=True を指定することに十分注意してください。主成分を計算する前の標準偏差は 1 です。 

#3. Biplot で結果を視覚化する

R の主成分分析のこの XNUMX 番目のステップでは、データセット内の各観測値を、軸として XNUMX 番目と XNUMX 番目の主成分を使用する適切な散布図に投影できるプロットを慎重に作成します。

#4. 各主成分によって完全に説明される分散を探す

これは、R の主成分分析のステップの XNUMX つです。各主成分によって説明される元のデータセット内の合計分散を見つけて計算します。 したがって、バイプロットでパターンを探して、互いに類似した状態を識別できるようにすることが非常に重要です。

主成分分析の XNUMX つの応用例とは何ですか?

PCAは私たちの日常に貢献するさまざまなアプリケーションで構成されています。 主成分分析の XNUMX つの用途は次のとおりです。

  • ヘルスケア

主成分分析は、画像スキャンから病気を認識するなどに利用されるさまざまな医療技術に統合することもできます。 したがって、他の磁気共鳴画像法 (MRI) スキャンでも使用して、画像の次元を減らし、優れた医療分析とレポートを作成することもできます。

  • 画像処理

PCA は画像処理で使用され、総次元数を減らしながら、特定の画像の主要な詳細を保持できるようにします。 本質的には、画像認識などのより複雑なタスクも実行できます。

主成分分析 Sklearn

主成分分析 sklearn は、データの特異値分解 (SVD) を使用して線形次元を削減し、データを非常に低次元の空間に投影します。 したがって、主成分分析 sklearn は、特異値分解の LAPACK 実装を利用します。 

また、主成分分析 sklearn は、切り捨て特異値分解の scipy.sparse ARPACK 実装をうまく利用しています。 

主成分分析 Sklearn の使用手順

  • データセットを慎重にダウンロードしてロードします。
  • データセットを再処理します。
  • データセットに対して PCA を適切に実行する 
  • PCA のオブジェクトのいくつかの有用な属性を調べてください。
  • 十分に説明された分散比の変化を適切に分析します。 

主成分分析 PCA の主な目的は何ですか?

PCA は、データセット内の分散軸を特定するための優れたツールです。 適切に適用すれば、データ分析ツール キットの中で最高のツールの XNUMX つとなります。 主成分分析の主な目的は、データセットがどの程度未補正であるかを特定すること、主成分分析を適切に解釈できるようにすること、観測ごとに多数の次元または特徴を含む大規模なデータセットを分析することです。情報の最大速度を維持し、多次元データの視覚化を可能にしながら、データの解釈可能性を実現します。

PCA が優れているかどうかはどうやってわかりますか?

PCA が適切かどうかを確認する主要かつ重要な方法の XNUMX つは、データセットがどの程度未修正であるかを適切に特定することです。 修正されていない場合は、申請しない十分な理由があります。 PCA がどの程度優れているかを知るために使用できる優れた指標がありますが、ここではそのうちの XNUMX つにのみ焦点を当てます。 がある:

  • 各コンポーネントがどの程度説明しているか。
  • 変数が各コンポーネントとどの程度相関しているか。

まとめ

主成分分析とはPCAの略です。 主成分分析は、広く適応性があり、使用されている記述データ分析ツールです。 また、さまざまな状況や非常に多くの分野のあらゆる種類のデータに非常に役立つ適応機能が多数あります。

関連記事

参照

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *

こんな商品もお勧めしています