АНАЛИЗ ОСНОВНЫХ КОМПОНЕНТОВ: все, что нужно знать о PCA

анализ основных компонентов
Подпись к изображению: Встроенный
Содержание Спрятать
  1. Анализ главных компонентов
    1. Зачем и когда использовать PCA
    2. Цель СПС
    3. Ограничения PCA
  2. Где используется PCA?
  3. Как вы интерпретируете анализ главных компонентов?
  4. Каковы 2 применения анализа главных компонентов?
  5. Анализ основных компонентов в Python
    1. Этапы анализа основных компонентов в Python:
    2. Цели анализа основных компонентов в Python
  6. Что такое реальный пример PCA?
  7. Что такое PCA в машинном обучении?
    1. Можно ли использовать PCA в контролируемом машинном обучении?
  8. Анализ основных компонентов в R
  9. №1. Загрузите данные
  10. № 2. Тщательно рассчитать основные компоненты
  11. №3. Визуализируйте результаты с помощью Biplot
    1. № 4. Ищите дисперсию, полностью объясненную каждым основным компонентом
  12. Каковы два приложения анализа главных компонентов?
  13. Анализ основных компонентов Sklearn
    1. Шаги в использовании анализа основных компонентов Sklearn
  14. Какова основная цель анализа главных компонентов PCA?
  15. Как узнать, хорош ли PCA?
  16. Заключение
  17. Связанная статья
  18. Справка

Анализ основных компонентов — очень популярный метод, в котором используется большое количество наборов данных путем разложения дисперсии нескольких переменных на ее общие компоненты. В этой части мы объясним все об анализе основных компонентов в R, Sklearn и Python. Поехали!

Анализ главных компонентов

Анализ основных компонентов (PCA) — это очень распространенный метод анализа больших наборов данных, который содержит большое количество измерений или признаков на одно наблюдение, а также повышает интерпретируемость данных, сохраняя при этом максимальную скорость передачи информации и позволяя визуализировать многомерные данные. Формально этот метод используется для уменьшения размерности набора данных. 

Кроме того, PCA был изобретен в 1901 году Карлом Пирсоном как аналог теоремы о главной оси в механике. В 1930-х годах он был независимо назван и разработан Гарольдом Хотеллингом.

Зачем и когда использовать PCA

  • Когда размеры входных переменных или признаков очень велики.
  • Анализ основных компонентов в основном предназначен для сжатия данных.
  • Это мощный инструмент для шумоподавления.
  • Это также особенно полезно для обработки данных, где существует мультиколлинеарность между переменными и признаками.
  • Для интерпретации и визуализации данных.

Цель СПС

  • Одной из его целей является поиск или выявление закономерностей и взаимосвязей между переменными, которые могут быть не видны в исходных данных.
  • Это в основном для извлечения функций из набора переменных, которые буквально более актуальны, чем исходные переменные. Затем эти функции можно использовать для других задач, а также для моделирования.
  • Это инструмент для сжатия наборов данных за счет уменьшения общего количества переменных, необходимых для представления данных, при сохранении как можно большего количества данных.
  • Анализ основных компонентов предназначен для визуализации данных высокой размерности в пространстве меньшей размерности. Таким образом, делая его более полным
  • Это уменьшает шум в наборе данных.

Ограничения PCA

  • Дорого для вычислений. Другими словами, он имеет вычислительные сложности.
  • Это может привести к потере важной информации и данных. 
  • Масштабируемые и централизованные данные.
  • Иногда сложнее определить некоторые важные характеристики переменных.
  • Анализ основных компонентов не всегда просто понять или описать с точки зрения основных или исходных признаков.

Где используется PCA?

На сегодняшний день основной анализ является одним из самых популярных многомерных статистических анализов в мире. Кроме того, он известен как метод неконтролируемого уменьшения размерности, который строит переменные или признаки посредством линейных или нелинейных комбинаций исходных переменных и признаков.

Как вы интерпретируете анализ главных компонентов?

Чтобы иметь возможность очень хорошо интерпретировать анализ основных компонентов, вы должны вычислить корреляцию между каждым главным компонентом и исходными данными, и эта корреляция получается с использованием процедур корреляции. Кроме того, чтобы интерпретировать основные компоненты, вы должны найти, какие переменные наиболее сильно коррелируют с каждым компонентом. Также необходимо определить, на каком уровне корреляция имеет значение. 

Каковы 2 применения анализа главных компонентов?

Есть много вещей, которые делает анализ основных компонентов, но вот две основные вещи, которые он делает:

  • Изменяйте размеры изображений и находите закономерности в многомерных наборах данных.
  • Визуализируйте многонациональные данные. Кроме того, он хорош для анализа биржевых данных и прогнозирования возвратов в финансах.

Анализ основных компонентов в Python

Анализ основных компонентов в Python — это модель, которая ускоряет обучение моделей и виртуализацию данных. По сути, это наиболее распространенное применение PCA. Вот краткий обзор анализа основных компонентов в Python:

Этапы анализа основных компонентов в Python:

  • Одним из шагов анализа главных компонентов с помощью Python является импорт библиотек.
  • Импортируйте набор данных.
  • Разделите набор данных на тестовый или обучающий набор.
  • Масштабирование функций.
  • Применение функций PCA
  • Подгонка логистической регрессии к тесту или обучающему набору.
  • Предсказать результат теста или тренировочного набора.
  • Составьте матрицу путаницы.
  • Предсказать результаты тренировочного набора.
  • Виртуализируйте и рассчитайте результаты набора тестов.

Цели анализа основных компонентов в Python

  • PCA — это независимая процедура, которая уменьшает пространство атрибутов с большого количества переменных до меньшего числа факторов.
  • Согласно анализу основных компонентов в Python, PCA определяет шаблоны или отношения между переменными.
  • Он виртуализирует высокоразмерные данные в низкоразмерном пространстве.
  • Используется для визуализации родства и генетической дистанции между популяциями.

Что такое реальный пример PCA?

Анализ основных компонентов — это метод извлечения признаков, который работает с учетом дисперсии каждого атрибута, поскольку этот атрибут показывает разрыв между каждым из его классов и уменьшает размерность. Вот реальные примеры ППШ:

  • Обработка изображений
  • Оптимизация распределения мощности в различных каналах связи.
  • Рекомендации киносистемы.

Что такое PCA в машинном обучении?

Анализ основных компонентов в машинном обучении — это сокращение общего количества измерений в наборе данных. Вот следующие шаги в PCA в машинном обучении:

  • Загрузите данные
  • Разделите данные на тестовые и обучающие наборы
  • Правильно стандартизируйте данные
  • Надлежащим образом перенести и применить PCA
  • Кроме того, примените сопоставление к тестовому набору и обучающему набору.
  • Примените логистическую регрессию к импортированным данным.
  • Измерьте производительность модели.

Можно ли использовать PCA в контролируемом машинном обучении?

PCA — хороший инструмент для анализа больших наборов данных, содержащих большое количество измерений или признаков на одно наблюдение. Но я предлагаю вам не использовать его в контролируемых проектах машинного обучения. Он маскирует информацию для модели, что не является правильным подходом для успешного этапа обучения. 

Анализ основных компонентов в R

Анализ главных компонентов - это аббревиатура PCA. цель PCA состоит в том, чтобы правильно объяснить большую часть изменчивости в наборе данных с меньшим количеством переменных, чем в исходном наборе данных. 

Вот обзор шагов анализа основных компонентов в R:

№1. Загрузите данные

На этом первом этапе анализа основных компонентов в R вы должны сначала загрузить пакет, который содержит несколько функций для управления данными и их виртуализации. Загрузка данных гарантирует, что каждый из атрибутов имеет одинаковый уровень предотвращения доминирования одной переменной над другими переменными.

№ 2. Тщательно рассчитать основные компоненты

После загрузки ваших данных вычисление основных компонентов — это, по сути, следующий шаг в анализе основных компонентов в R. Будьте очень осторожны, чтобы указать масштаб = True, чтобы каждая из переменных в наборе данных была правильно масштабирована, чтобы иметь среднее значение 0 и стандартное отклонение 1, прежде чем вы вычислите главные компоненты. 

№3. Визуализируйте результаты с помощью Biplot

На этом третьем этапе анализа основных компонентов в R тщательно создайте график, который может спроецировать каждое из наблюдений в наборе данных на хорошую диаграмму рассеяния, которая использует первый и второй основные компоненты в качестве своих осей.

№ 4. Ищите дисперсию, полностью объясненную каждым основным компонентом

Это один из этапов анализа основных компонентов в R. Найдите и рассчитайте общую дисперсию в исходном наборе данных, объясненную каждым основным компонентом. Таким образом, очень важно искать закономерности в побочной диаграмме, чтобы вы могли идентифицировать состояния, которые похожи друг на друга.

Каковы два приложения анализа главных компонентов?

PCA состоит из множества приложений, которые вносят свой вклад в нашу повседневную жизнь. Два приложения анализа основных компонентов:

  • Здоровье

Анализ основных компонентов также может быть интегрирован в различные медицинские технологии, которые используются, например, для распознавания болезни по сканам изображений. Таким образом, его также можно использовать в магнитно-резонансной томографии (МРТ) для уменьшения размерности изображений для хорошего медицинского анализа и отчета.

  • Обработка изображений

PCA используется при обработке изображений, чтобы сохранить основные детали данного изображения при уменьшении общего количества измерений. По сути, он также может выполнять более сложные задачи, такие как распознавание изображений.

Анализ основных компонентов Sklearn

Анализ основных компонентов sklearn - это уменьшение линейной размерности с использованием разложения данных по сингулярным значениям (SVD) для проецирования их в пространство очень низкой размерности. Таким образом, анализ основных компонентов sklearn использует реализацию LAPACK разложения по сингулярным значениям. 

Кроме того, анализ основных компонентов sklearn хорошо использует реализацию scipy.sparse ARPACK усеченного разложения по сингулярным значениям. 

Шаги в использовании анализа основных компонентов Sklearn

  • Внимательно скачайте и загрузите набор данных.
  • Повторно обработайте набор данных.
  • Правильно выполнить PCA в наборе данных 
  • Изучите некоторые полезные атрибуты объекта PCA.
  • Правильно проанализируйте изменение хорошо объясненного отношения дисперсии. 

Какова основная цель анализа главных компонентов PCA?

PCA — хороший инструмент для определения осей дисперсии в наборе данных. При правильном применении это один из лучших инструментов в наборе инструментов для анализа данных. Основная цель анализа основных компонентов состоит в том, чтобы определить, насколько нескорректирован набор данных. Чтобы иметь возможность очень хорошо интерпретировать анализ основных компонентов, анализировать большие наборы данных, которые содержат большое количество измерений или признаков на одно наблюдение, а также увеличить интерпретируемость данных при сохранении максимальной скорости передачи информации и возможности визуализации многомерных данных.

Как узнать, хорош ли PCA?

Один из основных и важных способов проверить, хорош ли PCA, — это правильно определить, насколько нескорректирован ваш набор данных. Если он не исправлен, у вас есть веская причина не подавать на него заявку. Есть хорошие показатели, которые вы можете использовать для оценки качества PCA, но я остановлюсь только на двух из них. Есть:

  • Как много объясняет каждый компонент.
  • Насколько переменная коррелирует с каждым компонентом.

Заключение

Анализ главных компонентов - это аббревиатура PCA. Анализ главных компонентов является широко адаптируемым и широко используемым инструментом описательного анализа данных. Кроме того, он имеет множество адаптаций, которые делают его очень полезным для самых разных ситуаций и всех типов данных во многих дисциплинах.

Связанная статья

Справка

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *

Вам также может понравиться