تحليل المكون الأساسي: كل ما يجب معرفته عن PCA

تحليل المكون الرئيسي
شرح الصورة: مدمج

يعد تحليل المكون الرئيسي أسلوبًا شائعًا للغاية يستخدم عددًا كبيرًا من مجموعات البيانات عن طريق تفكيك تباين المتغيرات المتعددة إلى مكوناته المشتركة. في هذه المقالة ، سنشرح كل شيء عن تحليل المكون الرئيسي في R و Sklearn و Python. دعنا نقود!

تحليل المكون الرئيسي

يعد تحليل المكون الرئيسي (PCA) تقنية متقطعة للغاية لتحليل مجموعات البيانات الكبيرة التي تحتوي على عدد كبير من الأبعاد أو الميزات لكل ملاحظة ، كما يزيد من قابلية تفسير البيانات مع الحفاظ على الحد الأقصى لمعدل المعلومات وتمكين تصور البيانات متعددة الأبعاد. رسميًا ، تُستخدم هذه التقنية لتقليل أبعاد مجموعة البيانات. 

بالإضافة إلى ذلك ، تم اختراع PCA في عام 1901 بواسطة Karl Pearson كنظير لنظرية المحور الرئيسي في الميكانيكا. في ثلاثينيات القرن الماضي ، تم تسميته وتطويره بشكل مستقل بواسطة Harold Hotelling.

لماذا ومتى يتم استخدام PCA

  • عندما تكون أبعاد متغيرات الإدخال أو الميزات عالية جدًا.
  • تحليل المكون الأساسي هو أساسًا لضغط البيانات
  • إنها أداة قوية لتقليل الضوضاء.
  • كما أنه مفيد بشكل خاص لعملية البيانات حيث توجد علاقة خطية متعددة بين المتغيرات والميزات.
  • لتفسير وتصور البيانات.

هدف PCA

  • أحد أهدافه هو إيجاد أو تحديد الأنماط والعلاقة بين المتغيرات التي قد لا تكون مرئية في البيانات الأصلية.
  • إنه أساسًا لاستخراج ميزات من مجموعة من المتغيرات التي تكون أكثر صلة بالمعنى الحرفي من المتغيرات الأصلية. يمكن بعد ذلك استخدام هذه الميزات لمهام أخرى وللنمذجة أيضًا.
  • إنها أداة لضغط مجموعات البيانات عن طريق تقليل الكمية الإجمالية للمتغيرات اللازمة لتقديم البيانات مع الاحتفاظ بمزيد من البيانات قدر الإمكان.
  • تحليل المكونات الأساسية هو لتصور البيانات عالية الأبعاد في مساحة ذات أبعاد أقل. مما يجعلها أكثر شمولية
  • يقلل من الضوضاء في مجموعة البيانات.

حدود PCA

  • مكلفة للحساب. بمعنى آخر ، لديها تعقيدات حسابية.
  • قد يؤدي إلى فقدان المعلومات والبيانات الهامة. 
  • بيانات متدرجة ومركزية.
  • يصعب تحديد بعض الخصائص الحاسمة للمتغيرات في بعض الأحيان.
  • ليس من السهل دائمًا فهم أو وصف تحليل المكونات الرئيسية من حيث السمات الرئيسية أو الأصلية.

أين يتم استخدام PCA؟

التحليل الأساسي هو أحد أشهر التحليلات الإحصائية متعددة المتغيرات في العالم اليوم. أيضًا ، تُعرف باسم تقنية تقليل الأبعاد غير الخاضعة للرقابة التي تبني المتغيرات أو الميزات من خلال مجموعات خطية أو غير خطية للمتغيرات والميزات الأصلية.

كيف تفسر تحليل المكونات الرئيسية؟

لتكون قادرًا على تفسير تحليل المكونات الرئيسية جيدًا ، يجب عليك حساب الارتباط بين كل مكون رئيسي والبيانات الأصلية ، ويتم الحصول على هذا الارتباط من استخدام إجراءات الارتباط. بالإضافة إلى ذلك ، لتفسير المكونات الأساسية ، يجب أن تجد المتغيرات الأكثر ارتباطًا بكل مكون. أيضًا ، تحتاج إلى تحديد مستوى أهمية الارتباط. 

ما هي الاستخدامات 2 لتحليل المكونات الرئيسية؟

هناك الكثير من الأشياء التي يقوم بها تحليل المكونات الرئيسية ، ولكن فيما يلي أهم شيئين:

  • قم بتغيير حجم الصور وابحث عن أنماط في مجموعات البيانات عالية الأبعاد.
  • تصور البيانات متعددة الجنسيات. أيضًا ، إنه جيد لتحليل بيانات المخزون وتوقع عمليات إعادة الشراء في التمويل.

تحليل المكونات الرئيسية في بايثون

تحليل المكون الرئيسي في Python هو نموذج يعمل على تسريع تدريب النموذج والمحاكاة الافتراضية للبيانات. في جوهره ، هو التطبيق الأكثر شيوعًا لـ PCA. فيما يلي نظرة عامة على تحليل المكون الرئيسي في بايثون:

خطوات تحليل المكونات الرئيسية في بايثون:

  • تتمثل إحدى خطوات تحليل المكون الأساسي باستخدام Python في استيراد المكتبات.
  • قم باستيراد مجموعة البيانات.
  • قسّم مجموعة البيانات إلى اختبار أو مجموعة تدريب.
  • تحجيم الميزة.
  • تطبيق وظائف PCA
  • ملاءمة الانحدار اللوجستي للاختبار أو مجموعة التدريب.
  • توقع الاختبار أو نتيجة مجموعة التدريب.
  • اصنع مصفوفة الارتباك.
  • توقع نتائج مجموعة التدريب.
  • افتراضية وحساب نتائج مجموعة الاختبار.

أهداف تحليل المكونات الرئيسية في بايثون

  • PCA هو إجراء غير تابع يقلل مساحة السمة من عدد كبير من المتغيرات إلى عدد أقل من العوامل.
  • وفقًا لتحليل المكون الرئيسي في Python ، يحدد PCA الأنماط أو العلاقات بين المتغيرات.
  • يقوم بتحويل البيانات عالية الأبعاد إلى مساحة افتراضية في مساحة أقل بعدًا.
  • تستخدم لتصور الترابط والمسافة الجينية بين السكان.

ما هو مثال واقعي من PCA؟

تحليل المكون الأساسي هو تقنية لاستخراج السمات تعمل من خلال مراعاة تباين كل سمة لأن هذه السمة توضح الشق بين كل فئة من فئاتها ، وتقلل من الأبعاد. فيما يلي الأمثلة الحقيقية لـ PCA:

  • معالجة الصور
  • تعظيم الاستفادة من توزيعات الطاقة في قنوات الاتصال المختلفة.
  • توصيات نظام الفيلم.

ما هو PCA في التعلم الآلي؟

يتمثل تحليل المكون الرئيسي في التعلم الآلي في تقليل الحجم الإجمالي للأبعاد في مجموعة البيانات. فيما يلي الخطوات التالية في PCA في التعلم الآلي:

  • قم بتحميل البيانات
  • افصل البيانات إلى مجموعات اختبار وتدريب
  • توحيد البيانات بشكل صحيح
  • نقل وتطبيق PCA بشكل مناسب
  • أيضًا ، قم بتطبيق التعيين على مجموعة الاختبار ومجموعة التدريب.
  • تطبيق الانحدار اللوجستي على البيانات المستوردة.
  • قياس أداء النموذج.

هل يمكن استخدام PCA في التعلم الآلي الخاضع للإشراف؟

تعد PCA أداة جيدة للاستخدام عندما يتعلق الأمر بتحليل مجموعات البيانات الكبيرة التي تحتوي على عدد كبير من الأبعاد أو الميزات لكل ملاحظة. لكني أقترح ألا تستخدمه في مشاريع التعلم الآلي الخاضعة للإشراف. إنه يخفي المعلومات إلى النموذج وهو ليس نهجًا مناسبًا لمرحلة تدريب ناجحة. 

تحليل المكون الرئيسي في R

تحليل المكون الرئيسي هو اختصار PCA. الهدف من PCA هو شرح معظم المتغيرات بشكل صحيح في مجموعة بيانات ذات متغيرات أقل من مجموعة البيانات الأصلية. 

فيما يلي نظرة عامة على خطوات تحليل المكون الرئيسي في R:

# 1. قم بتحميل البيانات

في هذه الخطوة الأولى من تحليل المكون الرئيسي في R ، يجب عليك أولاً تحميل الحزمة ، التي تحتوي على العديد من الوظائف لمعالجة البيانات وإضفاء الطابع الافتراضي عليها. يضمن تحميل البيانات أن كل سمة لها نفس المستوى لمنع متغير واحد من السيطرة على المتغيرات الأخرى.

# 2. احسب المكونات الرئيسية بعناية

بعد تحميل بياناتك ، يعد حساب المكونات الأساسية الخطوة التالية التي يجب اتخاذها في تحليل المكون الرئيسي في R. كن حريصًا جدًا على تحديد مقياس = صحيح بحيث يتم قياس كل متغير من المتغيرات في مجموعة البيانات بشكل صحيح للحصول على متوسط ​​0 وانحراف معياري بمقدار 1 قبل حساب المكونات الأساسية. 

# 3. تصور النتائج باستخدام Biplot

في هذه الخطوة الثالثة من تحليل المكونات الرئيسية في R ، أنشئ مخططًا بعناية يمكنه عرض كل من الملاحظات في مجموعة البيانات على مخطط تشتت جيد يستخدم المكونين الأساسيين الأول والثاني كمحاور له.

# 4. ابحث عن التباين الذي تم شرحه بالكامل بواسطة كل مكون رئيسي

هذه إحدى خطوات تحليل المكونات الرئيسية في R. ابحث عن التباين الإجمالي في مجموعة البيانات الأصلية الموضح بواسطة كل مكون رئيسي وحسابه. وبالتالي ، من الضروري جدًا البحث عن أنماط في biplot لتمكينك من تحديد الحالات المتشابهة مع بعضها البعض.

ما هما تطبيقان لتحليل المكونات الرئيسية؟

يتكون PCA من مجموعة متنوعة من التطبيقات التي تساهم في حياتنا اليومية. تطبيقات تحليل مكونات المبدأ هما:

  • الرعاية الصحية

يمكن أيضًا دمج تحليل المكون الرئيسي في التقنيات الطبية المختلفة التي تم استخدامها مثل التعرف على المرض من عمليات مسح الصور. وبالتالي ، يمكن استخدامه أيضًا في فحوصات التصوير بالرنين المغناطيسي (MRI) لتقليل أبعاد الصور للحصول على تحليل طبي جيد وتقرير.

  • معالجة الصور

يتم استخدام PCA في معالجة الصور لتمكين الاحتفاظ بالتفاصيل الرئيسية لصورة معينة مع تقليل العدد الإجمالي للأبعاد. في جوهرها ، يمكنه أيضًا تشغيل مهام أكثر تعقيدًا مثل التعرف على الصور.

تحليل المكون الرئيسي Sklearn

تحليل المكون الرئيسي sklearn هو تقليل الأبعاد الخطية باستخدام تحليل القيمة المفردة (SVD) للبيانات لعرضها على مساحة ذات أبعاد منخفضة للغاية. وبالتالي ، فإن تحليل المكون الرئيسي sklearn يستفيد من تنفيذ LAPACK لتحلل القيمة المفرد. 

أيضًا ، فإن تحليل المكون الرئيسي sklearn يستفيد بشكل جيد من تنفيذ scipy.sparse ARPACK لتحلل القيمة المفردة المقطوعة. 

خطوات استخدام Sklearn لتحليل المكونات الرئيسية

  • قم بتنزيل مجموعة البيانات وتحميلها بعناية.
  • أعد معالجة مجموعة البيانات.
  • قم بإجراء PCA بشكل صحيح على مجموعة البيانات 
  • افحص بعض السمات المفيدة لكائن PCA.
  • تحليل التغيير في نسبة التباين جيدة التفسير بشكل صحيح. 

ما هو الغرض الرئيسي من تحليل المكونات الرئيسية PCA؟

PCA هي أداة جيدة لتحديد محاور التباين داخل مجموعة البيانات. إذا تم تطبيقه بشكل مناسب ، فهو أحد أفضل الأدوات في مجموعة أدوات تحليل البيانات. الغرض الرئيسي من تحليل المكون الرئيسي هو تحديد مدى عدم تصحيح مجموعة البيانات ، لتكون قادرًا على تفسير تحليل المكونات الرئيسية جيدًا ، لتحليل مجموعات البيانات الكبيرة التي تحتوي على عدد كبير من الأبعاد أو الميزات لكل ملاحظة ، وكذلك زيادة قابلية تفسير البيانات مع الحفاظ على الحد الأقصى لمعدل المعلومات وتمكين تصور البيانات متعددة الأبعاد.

كيف تعرف أن PCA جيد؟

إحدى الطرق الرئيسية والحاسمة للتحقق مما إذا كانت PCA جيدة هي تحديد مدى عدم تصحيح مجموعة البيانات الخاصة بك بشكل صحيح. إذا لم يتم تصحيحه ، فلديك سبب وجيه لعدم التقدم بطلب للحصول عليه. هناك مقاييس جيدة يمكنك استخدامها للوصول إلى مدى جودة PCA ، لكنني سأركز فقط على اثنين منها. هناك:

  • كم يشرح كل مكون.
  • ما مدى ارتباط المتغير بكل مكون.

وفي الختام

تحليل المكون الرئيسي هو اختصار PCA. تحليل المكونات الرئيسية هو أداة تحليل بيانات وصفية قابلة للتكيف والمستخدمة على نطاق واسع. أيضًا ، يحتوي على الكثير من التعديلات التي تجعله مفيدًا جدًا لمجموعة متنوعة من المواقف وجميع أنواع البيانات في العديد من التخصصات.

مقالات لها صلة

الرقم المرجعي

اترك تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المشار إليها إلزامية *

قد يعجبك أيضاً