主成分分析是一种非常流行的技术,它通过将多个变量的方差解构为其公共成分来使用大量数据集。 在这篇文章中,我们将解释 R、Sklearn 和 Python 中主成分分析的所有内容。 我们开车吧!
主成分分析
主成分分析 (PCA) 是一种非常重要的技术,用于分析每次观察包含大量维度或特征的大型数据集,并且还增加了数据的可解释性,同时保持最大信息率并实现多维数据的可视化。 正式而言,该技术用于降低数据集的维数。
此外,PCA 是由 Karl Pearson 于 1901 年发明的,作为力学中主轴定理的模拟。 1930世纪XNUMX年代,由Harold Hotelling独立命名并开发。
为什么以及何时使用 PCA
- 当输入变量或特征的维度非常高时。
- 主成分分析基本上是为了数据压缩
- 它是一个强大的去噪工具。
- 它对于变量和特征之间存在多重共线性的数据处理也特别有用。
- 解释和可视化数据。
主成分分析的目的
- 其目标之一是找到或识别原始数据中可能不可见的模式和变量之间的关系。
- 它基本上是为了从一组变量中提取特征,这些特征实际上比原始变量更相关。 这些功能随后可用于其他任务和建模。
- 它是一种通过减少呈现数据所需的变量总量同时保留更多数据来压缩数据集的工具。
- 主成分分析用于在低维空间中可视化高维数据。 从而使其更加全面
- 它减少了数据集中的噪音。
PCA 的局限性
- 计算成本高昂。 换句话说,它具有计算复杂性。
- 它可能会导致重要信息和数据的丢失。
- 规模化和集中化的数据。
- 有时更难识别变量的一些关键特征。
- 主成分分析并不总是容易根据主要或原始特征来理解或描述。
PCA用在哪里?
主分析是当今世界上最流行的多元统计分析之一。 此外,它也被称为无监督降维技术,通过原始变量和特征的线性或非线性组合来构造变量或特征。
您如何解释主成分分析?
为了能够很好地解释主成分分析,您必须计算每个主成分与原始数据之间的相关性,并且这种相关性是通过使用相关程序获得的。 此外,要解释主成分,您必须找到哪些变量与每个成分相关性最强。 此外,您还需要确定相关性在什么级别上是重要的。
主成分分析的两个用途是什么?
主成分分析可以做很多事情,但它主要做两件事:
- 调整图像大小并在高维数据集中查找模式。
- 可视化跨国数据。 此外,它也有利于分析股票数据和预测金融回报。
Python 中的主成分分析
Python 中的主成分分析是一种加速模型训练和数据虚拟化的模型。 本质上,它是PCA最常见的应用。 以下是 Python 中主成分分析的概述:
Python主成分分析步骤:
- 使用 Python 进行主成分分析的步骤之一是导入库。
- 导入数据集。
- 将数据集拆分为测试集或训练集。
- 特征缩放。
- 应用PCA的功能
- 将逻辑回归拟合到测试或训练集。
- 预测测试或训练集结果。
- 制作混淆矩阵。
- 预测训练集结果。
- 虚拟化并计算测试集结果。
Python 主成分分析的目标
- PCA 是一种非相关过程,可将属性空间从大量变量减少到较少数量的因子。
- 根据Python中的主成分分析,PCA识别变量之间的模式或关系。
- 它将高维数据虚拟化在低维空间中。
- 用于可视化群体之间的相关性和遗传距离。
PCA 的现实例子是什么?
主成分分析是一种特征提取技术,它通过考虑每个属性的方差来工作,因为该属性显示了每个类别之间的缝隙,并降低了维度。 以下是 PCA 的真实示例:
- 图像处理
- 优化各种通信渠道的功率分配。
- 电影系统推荐。
机器学习中的 PCA 是什么?
机器学习中的主成分分析是减少数据集中的维度总量。 以下是机器学习中 PCA 的以下步骤:
- 加载数据
- 将数据分为测试集和训练集
- 适当标准化数据
- 适当转移和应用PCA
- 此外,将映射应用于测试集和训练集。
- 对导入的数据应用逻辑回归。
- 测量模型性能。
可以在监督机器学习中使用 PCA 吗?
在分析每次观察包含大量维度或特征的大型数据集时,PCA 是一个很好的工具。 但是,我建议您不要在监督机器学习项目中使用它。 它掩盖了模型的信息,这不是成功训练阶段的正确方法。
R中的主成分分析
主成分分析是PCA的缩写。 PCA 的目的是用比原始数据集更少的变量来正确解释数据集中的大部分变异性。
以下是 R 中主成分分析步骤的概述:
#1. 加载数据
在 R 主成分分析的第一步中,您必须首先加载包,其中包含多个用于操作和虚拟化数据的函数。 加载数据可确保每个属性具有相同的级别,防止一个变量支配其他变量。
#2. 仔细计算主成分
加载数据后,计算主成分基本上是 R 中主成分分析的下一步。要非常小心地指定scale=True,以便数据集中的每个变量都正确缩放为均值 0在计算主成分之前,标准差为 1。
#3。 使用 Biplot 可视化结果
在 R 主成分分析的第三步中,仔细创建一个图,可以将数据集中的每个观测值投影到一个良好的散点图上,该散点图使用第一和第二主成分作为其轴。
#4。 寻找每个主成分完全解释的方差
这是 R 中主成分分析的步骤之一。查找并计算每个主成分解释的原始数据集中的总方差。 因此,在双图中寻找模式以使您能够识别彼此相似的状态非常重要。
主成分分析的两个应用是什么?
PCA 包含各种对我们日常生活有贡献的应用程序。 主成分分析的两个应用是:
- 健康防护
主成分分析还可以集成到所使用的不同医疗技术中,例如从图像扫描中识别疾病。 因此,它还可以用于其他磁共振成像 (MRI) 扫描,以降低图像的维数,以实现良好的医学分析和报告。
- 图像处理
PCA 用于图像处理,以保留给定图像的主要细节,同时减少总维数。 本质上,它还可以运行更复杂的任务,例如图像识别。
主成分分析 Sklearn
主成分分析 sklearn 是使用数据的奇异值分解(SVD)来减少线性维度,将其投影到非常低的维度空间。 因此,主成分分析 sklearn 利用了奇异值分解的 LAPACK 实现。
此外,主成分分析 sklearn 很好地利用了截断奇异值分解的 scipy.sparse ARPACK 实现。
使用主成分分析 Sklearn 的步骤
- 小心下载并加载数据集。
- 重新处理数据集。
- 对数据集正确执行 PCA
- 检查 PCA 对象的一些有用属性。
- 正确分析解释良好的方差比率的变化。
主成分分析PCA的主要目的是什么?
PCA 是识别数据集中方差轴的好工具。 如果应用得当,它是数据分析工具包中最好的工具之一。 主成分分析的主要目的是确定数据集的未校正程度,以便能够很好地解释主成分分析,分析每次观察包含大量维度或特征的大型数据集,并增加数据的可解释性,同时保持最大信息率并实现多维数据的可视化。
您如何知道 PCA 是否良好?
验证 PCA 是否良好的主要且关键的方法之一是正确识别数据集的未校正程度。 如果未更正,您就有充分的理由不申请。 您可以使用一些很好的指标来衡量 PCA 的好坏,但我只会关注其中两个。 有:
- 每个组件解释了多少。
- 变量与每个组件的相关程度。
结论
主成分分析是PCA的缩写。 主成分分析是一种适应性广泛且使用广泛的描述性数据分析工具。 此外,它还有很多适应性,使其对于多种情况和许多学科的所有类型的数据都非常有用。