EXAMPLE ile Makine Öğreniminde Karışıklık Matrisi

İçindekiler:

Anonim

Karışıklık Matrisi nedir?

Karışıklık matrisi, Makine öğrenimi sınıflandırması için bir performans ölçüm tekniğidir. Gerçek değerlerin bilinmesi için bir dizi test verisi üzerindeki sınıflandırma modelinin performansını bilmenize yardımcı olan bir tür tablodur. Karışıklık matrisi terimi kendi başına çok basittir, ancak ilgili terminolojisi biraz kafa karıştırıcı olabilir. Burada, bu teknik için bazı basit açıklamalar verilmiştir.

Bu eğitimde öğreneceksiniz,

  • Karışıklık matrisi nedir?
  • Karışıklık matrisinin dört sonucu
  • Karışıklık matrisi örneği:
  • Karışıklık Matrisi Nasıl Hesaplanır
  • Bir Karışıklık matrisi kullanan Diğer Önemli Terimler
  • Neden Karışıklık matrisine ihtiyacınız var?

Karışıklık matrisinin dört sonucu

Karışıklık matrisi, gerçek ve tahmin edilen sınıfları karşılaştırarak bir sınıflandırıcının doğruluğunu görselleştirir. İkili karışıklık matrisi karelerden oluşur:

Karışıklık Tablosu
  • TP: Gerçek Pozitif: Öngörülen değerler, gerçek pozitif olarak doğru şekilde tahmin edilir
  • FP: Öngörülen değerler yanlış bir şekilde gerçek bir pozitif öngördü. yani, pozitif olarak tahmin edilen Negatif değerler
  • FN: Yanlış Negatif: Negatif olarak tahmin edilen pozitif değerler
  • TN: Doğru Negatif: Öngörülen değerler, gerçek bir negatif olarak doğru şekilde tahmin edilir

Doğruluk testini kafa karışıklığı matrisinden hesaplayabilirsiniz :

Karışıklık Matrisi Örneği:

Karışıklık Matrisi, Geri Çağırma, Hassasiyet, Doğruluk ve AUC-ROC eğrisini ölçmenize olanak tanıyan kullanışlı bir makine öğrenme yöntemidir. Aşağıda True Positive, True Negative, False Negative ve True Negative terimlerini bilmek için bir örnek verilmiştir.

Gerçek Pozitif:

Olumlu düşündünüz ve bunun doğru olduğu ortaya çıktı. Örneğin, Fransa'nın dünya kupasını kazanacağını tahmin etmiştin ve kazandı.

Doğru Negatif:

Negatif tahmin ettiğinizde ve bu doğru. İngiltere'nin kazanmayacağını ve kaybettiğini tahmin etmiştin.

Yanlış pozitif:

Tahmininiz olumlu ve yanlış.

İngiltere'nin kazanacağını tahmin etmiştin, ama kaybetti.

Yanlış Negatif:

Tahmininiz olumsuz ve sonuç da yanlış.

Fransa'nın kazanmayacağını tahmin etmiştin ama kazandı.

Tahmin edilen değerleri Doğru veya Yanlış veya Pozitif ve Negatif olarak tanımladığımızı unutmamalısınız.

Karışıklık Matrisi Nasıl Hesaplanır

İşte, veri madenciliğinde bir karışıklık Matrisi hesaplamak için adım adım işlem

  • Adım 1) Öncelikle, veri setini beklenen sonuç değerleriyle test etmeniz gerekir.
  • Adım 2) Test veri kümesindeki tüm satırları tahmin edin.
  • Adım 3) Beklenen tahminleri ve sonuçları hesaplayın:
  1. Her sınıfın doğru tahminlerinin toplamı.
  2. Her sınıfın yanlış tahminlerinin toplamı.

Bundan sonra, bu numaralar aşağıda verilen yöntemlerle düzenlenmiştir:

  • Matrisin her satırı tahmin edilen bir sınıfa bağlanır.
  • Matrisin her sütunu gerçek bir sınıfa karşılık gelir.
  • Doğru ve yanlış sınıflandırmanın toplam sayıları tabloya girilir.
  • Bir sınıfa ilişkin doğru tahminlerin toplamı, tahmin edilen sütuna ve o sınıf değeri için beklenen satıra gider.
  • Bir sınıfa ilişkin yanlış tahminlerin toplamı, o sınıf değeri için beklenen satıra ve o belirli sınıf değeri için öngörülen sütuna gider.

Bir Karışıklık matrisi kullanan Diğer Önemli Terimler

  • Pozitif Öngörücü Değer (PVV): Bu, kesinliğe çok yakındır. İki terim arasındaki önemli bir fark, PVV'nin yaygınlığı dikkate almasıdır. Sınıfların mükemmel bir şekilde dengelendiği durumda, pozitif tahmin değeri, kesinlik ile aynıdır.
  • Boş Hata Oranı: Bu terim, çoğunluk sınıfını tahmin edebiliyorsanız tahmininizin kaç kez yanlış olacağını tanımlamak için kullanılır. Sınıflandırıcınızı karşılaştırmak için bunu temel bir metrik olarak düşünebilirsiniz.
  • F Puanı: F1 puanı, gerçek pozitif (geri çağırma) ve kesinliğin ağırlıklı ortalama puanıdır.
  • Roc Eğrisi: Roc eğrisi, çeşitli kesme noktalarında yanlış pozitif orana karşı gerçek pozitif oranları gösterir. Aynı zamanda duyarlılık (hatırlama ve özgüllük veya gerçek negatif oran) arasında bir değiş tokuşu da gösterir.
  • Kesinlik: Kesinlik ölçüsü, pozitif sınıfın doğruluğunu gösterir. Pozitif sınıfın tahmininin ne kadar doğru olduğunu ölçer.

Sınıflandırıcı tüm pozitif değerleri mükemmel bir şekilde sınıflandırdığında maksimum puan 1'dir. Negatif sınıfı görmezden geldiğinden tek başına hassasiyet pek yardımcı olmaz. Metrik genellikle Geri Çağırma metriğiyle eşleştirilir. Hatırlama aynı zamanda duyarlılık veya gerçek pozitif oran olarak da adlandırılır.

  • Hassasiyet : Hassasiyet, doğru şekilde tespit edilen pozitif sınıfların oranını hesaplar. Bu metrik, modelin pozitif bir sınıfı tanımada ne kadar iyi olduğunu gösterir.

Neden Karışıklık matrisine ihtiyacınız var?

Karışıklık matrisi kullanmanın artıları / faydaları.

  • Tahminlerde bulunurken herhangi bir sınıflandırma modelinin nasıl karıştırıldığını gösterir.
  • Karışıklık matrisi, yalnızca sınıflandırıcınız tarafından yapılan hatalar hakkında değil, aynı zamanda yapılan hata türleri hakkında da fikir verir.
  • Bu döküm, yalnızca sınıflandırma doğruluğunu kullanma sınırlamalarının üstesinden gelmenize yardımcı olur.
  • Karışıklık matrisinin her sütunu, tahmin edilen o sınıfın örneklerini temsil eder.
  • Karışıklık matrisinin her satırı, gerçek sınıfın örneklerini temsil eder.
  • Yalnızca bir sınıflandırıcı tarafından yapılan hataların yanı sıra yapılan hataların da anlaşılmasını sağlar.