ANA BİLEŞEN ANALİZİ: PCA Hakkında Bilinmesi Gereken Her Şey

ana bileşen analizi
resim yazısı: Yerleşik

Temel bileşen analizi, çok sayıda değişkenin varyansını ortak bileşenlerine ayırarak çok sayıda veri seti kullanan çok popüler bir tekniktir. Bu parçada R, Sklearn ve Python'daki Temel bileşen analizi hakkında her şeyi açıklayacağız. Hadi sürelim!

Temel bileşenler Analizi

Temel bileşen analizi (PCA), gözlem başına çok sayıda boyut veya özellik içeren büyük veri kümelerini analiz etmek için çok yaygın bir tekniktir ve ayrıca maksimum bilgi oranını korurken ve çok boyutlu verilerin görselleştirilmesini sağlarken verilerin yorumlanabilirliğini artırır. Resmen, bu teknik bir veri kümesinin boyutsallığını azaltmak için kullanılır. 

Ek olarak PCA, 1901 yılında Karl Pearson tarafından mekanikte asal eksen teoreminin bir benzeri olarak icat edildi. 1930'larda Harold Hotelling tarafından bağımsız olarak adlandırılmış ve geliştirilmiştir.

PCA'dan Neden ve Ne Zaman Yararlanmalı?

  • Giriş değişkenlerinin veya özelliklerinin boyutları çok yüksek olduğunda.
  • Temel bileşen analizi temel olarak veri sıkıştırma içindir
  • Denoising için güçlü bir araçtır.
  • Ayrıca, değişkenler ve özellikler arasında çoklu bağlantının olduğu veri işlemi için özellikle yararlıdır.
  • Verileri yorumlamak ve görselleştirmek için.

PCA'nın amacı

  • Amaçlarından biri, orijinal verilerde görünmeyebilecek değişkenler arasındaki ilişkileri ve kalıpları bulmak veya tanımlamaktır.
  • Temel olarak, orijinal değişkenlerden tam anlamıyla daha alakalı olan bir dizi değişkenden özellikleri çıkarmak içindir. Bu özellikler daha sonra diğer görevler ve modelleme için de kullanılabilir.
  • Mümkün olduğu kadar fazla veriyi tutarken verileri sunmak için gereken toplam değişken miktarını azaltarak veri kümelerini sıkıştırmak için bir araçtır.
  • Temel bileşenler analizi, yüksek boyutlu verileri daha düşük boyutlu bir alanda görselleştirmek içindir. Böylece daha kapsamlı hale
  • Bir veri kümesindeki gürültüyü azaltır.

Bir PCA'nın sınırlamaları

  • Hesaplaması maliyetli. Başka bir deyişle, hesaplama karmaşıklığına sahiptir.
  • Önemli bilgi ve verilerin kaybolmasına neden olabilir. 
  • Ölçeklendirilmiş ve merkezileştirilmiş veriler.
  • Bazen değişkenlerin bazı önemli özelliklerini belirlemek daha zordur.
  • Temel bileşenler analizinin ana veya orijinal özellikler açısından anlaşılması veya açıklanması her zaman basit değildir.

PCA Nerelerde Kullanılır?

Temel analiz, bugün dünyadaki en popüler çok değişkenli istatistiksel analizlerden biridir. Ayrıca, orijinal değişkenlerin ve özelliklerin doğrusal veya doğrusal olmayan kombinasyonları yoluyla değişkenler veya özellikler oluşturan denetimsiz boyutluluk azaltma tekniği olarak bilinir.

Temel Bileşen Analizini Nasıl Yorumluyorsunuz?

Temel bileşenler analizini çok iyi yorumlayabilmek için, her bir temel bileşen ile orijinal veriler arasındaki korelasyonu hesaplamanız gerekir ve bu korelasyon, korelasyon prosedürlerinin kullanımından elde edilir. Ek olarak, temel bileşenleri yorumlamak için, hangi değişkenlerin her bir bileşenle en güçlü şekilde ilişkili olduğunu bulmanız gerekir. Ayrıca, korelasyonun hangi düzeyde önemli olduğunu belirlemeniz gerekir. 

Temel Bileşen Analizinin 2 Kullanım Alanı Nelerdir?

Temel bileşenler analizinin yaptığı pek çok şey vardır, ancak yaptığı iki ana şey şunlardır:

  • Görüntüleri yeniden boyutlandırın ve yüksek boyutlu veri kümelerinde desenler bulun.
  • Çok uluslu verileri görselleştirin. Ayrıca, hisse senedi verilerini analiz etmek ve finansta geri dönüşleri tahmin etmek için iyidir.

Python'da Temel Bileşen Analizi

Python'daki temel bileşen analizi, model eğitimini ve veri sanallaştırmayı hızlandıran bir modeldir. Özünde, PCA'nın en yaygın uygulamasıdır. İşte Python'daki ana bileşen analizine genel bir bakış:

Python'da Temel Bileşen Analizinin Adımları:

  • Python ile temel bileşen analizinin adımlarından biri kitaplıkları içe aktarmaktır.
  • Veri kümesini içe aktarın.
  • Veri kümesini bir test veya eğitim kümesine bölün.
  • Özellik ölçeklendirme.
  • PCA'nın işlevlerini uygulayın
  • Lojistik regresyonun teste veya eğitim setine uydurulması.
  • Testi veya eğitim seti sonucunu tahmin edin.
  • Karışıklık matrisini yapın.
  • Eğitim seti sonuçlarını tahmin edin.
  • Test seti sonuçlarını sanallaştırın ve hesaplayın.

Python'da Temel Bileşen Analizinin Amaçları

  • PCA, öznitelik alanını çok sayıda değişkenden daha az sayıda faktöre indirgeyen bağımlı olmayan bir prosedürdür.
  • Python'daki temel bileşen analizine göre PCA, değişkenler arasındaki kalıpları veya ilişkileri tanımlar.
  • Yüksek boyutlu verileri daha düşük boyutlu bir alanda sanallaştırır.
  • Popülasyonlar arasındaki akrabalığı ve genetik mesafeyi görselleştirmek için kullanılır.

PCA'nın Gerçek Hayattan Bir Örneği Nedir?

Temel bileşen analizi, her bir özelliğin varyansını dikkate alarak çalışan bir özellik çıkarma tekniğidir çünkü bu özellik, sınıflarının her biri arasındaki yarığı gösterir ve boyutsallığı azaltır. İşte PCA'nın gerçek örnekleri:

  • görüntülerin işlenmesi
  • Çeşitli iletişim kanallarında güç tahsislerinin optimizasyonu.
  • Sinema sistemi önerileri.

Makine Öğreniminde PCA Nedir?

Makine öğrenimindeki temel bileşen analizi, bir veri kümesindeki toplam boyut miktarının azaltılmasıdır. Makine öğreniminde PCA'da aşağıdaki adımlar şunlardır:

  • Verileri yükle
  • Verileri test ve eğitim setlerine ayırın
  • Verileri uygun şekilde standartlaştırın
  • PCA'yı uygun şekilde aktarın ve uygulayın
  • Ayrıca eşlemeyi test kümesine ve eğitim kümesine uygulayın.
  • İçe aktarılan verilere lojistik regresyon uygulayın.
  • Model performansını ölçün.

Denetimli Makine Öğreniminde PCA kullanılabilir mi?

PCA, gözlem başına çok sayıda boyut veya özellik içeren büyük veri kümelerini analiz etmek söz konusu olduğunda kullanmak için iyi bir araçtır. Ancak denetimli makine öğrenimi projelerinde kullanmamanızı öneririm. Başarılı bir eğitim aşaması için uygun bir yaklaşım olmayan bilgileri modele maskeler. 

R'de Temel Bileşen Analizi

Temel bileşen analizi, PCA'nın kısaltmasıdır. PCA'nın amacı, bir veri kümesindeki değişkenliğin çoğunu, orijinal veri kümesinden daha az değişkenle doğru bir şekilde açıklamaktır. 

İşte R'deki temel bileşen analizinin adımlarına genel bir bakış:

1 numara. verileri yükle

R'deki ana bileşen analizinin bu ilk adımında, önce verileri işlemek ve sanallaştırmak için çeşitli işlevler içeren paketi yüklemeniz gerekir. Verilerin yüklenmesi, özniteliklerin her birinin, bir değişkenin diğer değişkenlere baskın çıkmasını önleme konusunda aynı düzeye sahip olmasını sağlar.

2 numara. Ana bileşenleri dikkatlice hesaplayın

Verilerinizi yükledikten sonra, temel bileşenleri hesaplamak temel olarak R'deki temel bileşen analizinde atılacak bir sonraki adımdır. Veri kümesindeki değişkenlerin her birinin 0 ortalamasına sahip olacak şekilde uygun şekilde ölçeklenmesi için scale=True belirtmeye çok dikkat edin. ve ana bileşenleri hesaplamadan önce 1 standart sapma. 

#3. Sonuçları Biplot ile görselleştirin

R'deki ana bileşenler analizinin bu üçüncü adımında, veri kümesindeki gözlemlerin her birini eksenleri olarak birinci ve ikinci ana bileşenleri kullanan iyi bir dağılım grafiğine yansıtabilen bir çizimi dikkatli bir şekilde oluşturun.

#4. Her temel bileşen tarafından tamamen açıklanan varyansı arayın

Bu, R'deki temel bileşenler analizinin adımlarından biridir. Her bir temel bileşen tarafından açıklanan orijinal veri kümesindeki toplam varyansı bulun ve hesaplayın. Bu nedenle, birbirine benzer durumları belirlemenizi sağlamak için biplotta kalıplar aramak çok önemlidir.

Temel Bileşen Analizinin İki Uygulaması Nedir?

PCA, günlük hayatımıza katkıda bulunan çeşitli uygulamalardan oluşur. İlke bileşenleri analizinin iki uygulaması şunlardır:

  • Sağlık hizmeti

Temel bileşen analizi, görüntü taramalarından bir hastalığı tanımak gibi kullanılan farklı tıbbi teknolojilere de entegre edilebilir. Böylece, iyi bir tıbbi analiz ve rapor için görüntülerin boyutsallığını azaltmak amacıyla diğer alanlarda manyetik rezonans görüntüleme (MRI) taramalarında da kullanılabilir.

  • Görüntü işleme

PCA, toplam boyut sayısını azaltırken belirli bir görüntünün ana ayrıntılarını korumayı sağlamak için görüntü işlemede kullanılır. Özünde, görüntü tanıma gibi daha karmaşık görevleri de yürütebilir.

Temel Bileşen Analizi Sklearn

Temel bileşen analiz sklearn'ı, verilerin çok düşük boyutlu bir uzaya yansıtılması için Tekil Değer Ayrıştırması'nı (SVD) kullanarak doğrusal boyutluluğun azaltılmasıdır. Bu nedenle, temel bileşen analizi sklearn, tekil değer ayrıştırmasının LAPACK uygulamasını kullanır. 

Ayrıca temel bileşen analizi sklearn, kesik tekil değer ayrıştırmasının scipy.sparse ARPACK uygulamasından iyi bir şekilde yararlanır. 

Temel Bileşen Analizi Sklearn'ü kullanma adımları

  • Veri setini dikkatlice indirin ve yükleyin.
  • Veri kümesini yeniden işleyin.
  • Veri kümesinde PCA'yı düzgün şekilde gerçekleştirin 
  • PCA nesnesinin bazı faydalı özelliklerini inceleyin.
  • Varyansın iyi açıklanan oranındaki değişikliği uygun şekilde analiz edin. 

Temel Bileşen Analizi PCA'nın Ana Amacı Nedir?

PCA, bir veri kümesindeki varyans eksenlerini belirlemek için iyi bir araçtır. Uygun şekilde uygulandığında, veri analizi araç setindeki en iyi araçlardan biridir. Temel bileşenler analizinin temel amacı, veri setinin ne kadar düzeltilmemiş olduğunu belirlemek, Temel bileşenler analizini çok iyi yorumlayabilmek, çok sayıda boyut veya özellik içeren büyük veri setlerini gözlem başına analiz edebilmek ve aynı zamanda gözlem başına maksimum bilgi oranını korurken ve çok boyutlu verilerin görselleştirilmesini sağlarken verilerin yorumlanabilirliği.

PCA'nın İyi Olduğunu Nasıl Anlarsınız?

PCA'nın iyi olup olmadığını doğrulamanın en önemli ve önemli yollarından biri, veri kümenizin ne kadar düzeltilmemiş olduğunu doğru bir şekilde belirlemektir. Düzeltilmemişse, başvurmamak için iyi bir nedeniniz var. PCA'nın ne kadar iyi olduğuna erişmek için kullanabileceğiniz iyi ölçütler var, ancak ben bunlardan yalnızca ikisine odaklanacağım. Var:

  • Her bileşen ne kadar açıklar.
  • Bir değişkenin her bileşenle ne kadar ilişkili olduğu.

Sonuç

Temel bileşen analizi, PCA'nın kısaltmasıdır. Temel bileşenler analizi, geniş çapta uyarlanabilir ve kullanılan bir tanımlayıcı veri analizi aracıdır. Ayrıca, pek çok disiplindeki çok çeşitli durumlara ve her tür veriye çok faydalı olmasını sağlayan birçok uyarlamaya sahiptir.

İlgili makale

Referans

Yorum bırak

E-posta hesabınız yayımlanmayacak. Gerekli alanlar işaretlenmişlerdir. *

Hoşunuza gidebilir