R Basit, Çoklu Doğrusal ve Aşamalı Regresyon (Örnekle)

İçindekiler:

Anonim

Bu eğitimde öğreneceksiniz

  • Basit Doğrusal regresyon
  • Çoklu doğrusal regresyon
  • Sürekli değişkenler
  • Faktörler regresyonu
  • Aşamalı regresyon
  • Makine öğrenme
  • Denetimli öğrenme
  • Denetimsiz öğrenme

Basit Doğrusal regresyon

Doğrusal regresyon basit bir soruyu yanıtlar: Bir hedef değişken ile bir dizi yordayıcı arasındaki tam bir ilişkiyi ölçebilir misiniz?

Olasılıklı modellerin en basit olanı düz çizgi modelidir:

nerede

  • y = Bağımlı değişken
  • x = Bağımsız değişken
  • = rastgele hata bileşeni
  • = kesişme
  • = X katsayısı

Aşağıdaki konuyu düşünün:

Denklem, kesişmedir. Eğer x 0'a eşitse, y, 4.77 kesişimine eşit olacaktır. çizginin eğimidir. X değiştiğinde y'nin hangi oranda değiştiğini söyler.

Optimal değerlerini tahmin etmek , adlı bir yöntemi kullanmak Sıradan En Küçük Kareler (EKK) . Bu yöntem, karesel hataların toplamını en aza indiren parametreleri, yani tahmin edilen y değerleri ile gerçek y değerleri arasındaki dikey mesafeyi bulmaya çalışır. Fark, hata terimi olarak bilinir .

Modeli tahmin etmeden önce, bir dağılım grafiği çizerek y ve x arasındaki doğrusal bir ilişkinin makul olup olmadığını belirleyebilirsiniz.

Dağılım grafiği

Basit doğrusal regresyon kavramını açıklamak için çok basit bir veri kümesi kullanacağız. Amerikalı Kadınlar için Ortalama Yükseklikleri ve ağırlıkları ithal edeceğiz. Veri seti 15 gözlem içerir. Yüksekliklerin ağırlıklarla pozitif olarak ilişkili olup olmadığını ölçmek istiyorsunuz.

library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()

Çıktı:

Dağılım grafiği, x arttıkça y'nin artması için genel bir eğilim olduğunu gösterir. Bir sonraki adımda, her ek için ne kadar artış olduğunu ölçeceksiniz.

En Küçük Kareler Tahminleri

Basit bir OLS regresyonunda, hesaplama basittir. Amaç, bu eğitimdeki türetmeyi göstermek değil. Sadece formülü yazacaksın.

Tahmin etmek istiyorsunuz:

OLS regresyonunun amacı, aşağıdaki denklemi en aza indirmektir:

nerede

tahmin edilen değerdir.

Çözüm

Bunun ortalama x değeri anlamına geldiğini unutmayın.

Çözüm

R'de, tahmin etmek için cov () ve var () işlevini ve tahmin etmek

beta <- cov(df$height, df$weight) / var (df$height)beta

Çıktı:

##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha

Çıktı:

## [1] -87.51667

Beta katsayısı, her ilave yükseklik için ağırlığın 3.45 arttığını ifade eder.

Basit doğrusal denklemi manuel olarak tahmin etmek ideal değildir. R, bu parametreleri tahmin etmek için uygun bir fonksiyon sağlar. Bu işlevi kısa bir süre sonra göreceksiniz. Bundan önce, basit bir doğrusal regresyon modelinin elle nasıl hesaplanacağını tanıtacağız. Veri bilimci yolculuğunuzda, basit bir doğrusal modeli neredeyse hiç tahmin edemezsiniz veya asla tahmin edemezsiniz. Çoğu durumda, regresyon görevleri birçok tahmin edicide gerçekleştirilir.

Çoklu doğrusal regresyon

Regresyon analizinin daha pratik uygulamaları, basit düz çizgi modelinden daha karmaşık olan modelleri kullanır. Birden fazla bağımsız değişken içeren olasılık modeline çoklu regresyon modelleri denir . Bu modelin genel biçimi şöyledir:

Matris gösteriminde modeli yeniden yazabilirsiniz:

Bağımlı değişken y artık k bağımsız değişkenlerin bir fonksiyonudur. Katsayının değeri .

OLS'nin rastgele hatasıyla ilgili yaptığımız varsayımı kısaca sunuyoruz :

  • 0'a eşit ortalama
  • Eşit varyans
  • Normal dağılım
  • Rastgele hatalar bağımsızdır (olasılıksal anlamda)

Tahmin edilen ve gerçek y değerleri arasındaki kare hatalarının toplamını en aza indirgeyen regresyon katsayıları vektörünü çözmeniz gerekir .

Kapalı form çözümü şudur:

ile:

  • X matrisinin devrikini gösterir
  • tersinir matrisi gösterir

Mtcars veri setini kullanıyoruz. Veri kümesine zaten aşinasınız. Amacımız, bir dizi özellik üzerinden galon başına mil tahmin etmektir.

Sürekli değişkenler

Şimdilik sadece sürekli değişkenleri kullanacak ve kategorik özellikleri bir kenara bırakacaksınız. Am değişkeni, şanzıman manuel ise 1 ve otomatik araçlar için 0 değerini alan ikili bir değişkendir; vs aynı zamanda bir ikili değişkendir.

library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)

Çıktı:

## Observations: 32## Variables: 6## $ mpg  21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp  160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp  110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat  3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt  2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec  16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2… 

Parametreleri hesaplamak için lm () işlevini kullanabilirsiniz. Bu işlevin temel sözdizimi şöyledir:

lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset

Bir denklemin aşağıdaki formda olduğunu unutmayın

R'de

  • = Simgesi ~ ile değiştirilir
  • Her x, değişken adı ile değiştirilir
  • Sabiti düşürmek istiyorsanız formülün sonuna -1 ekleyin

Misal:

Boylarına ve gelirlerine göre bireylerin kilosunu tahmin etmek istiyorsunuz. Denklem

R'deki denklem aşağıdaki gibi yazılmıştır:

y ~ X1 + X2 +… + Xn # Kesişimle

Örneğimiz için:

  • Yükseklik + gelir ~ tartın

Amacınız, bir dizi değişkene dayalı olarak galon başına mil tahmin etmektir. Tahmin edilecek denklem:

İlk doğrusal regresyonunuzu tahmin edecek ve sonucu uygun nesnede depolayacaksınız.

model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit

Kod Açıklama

  • model <- mpg ~ . disp + hp + drat + wt: Tahmin etmek için modeli saklayın
  • lm (model, df): Modeli df veri çerçevesi ile tahmin edin
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015

Çıktı, uygunluğun kalitesi hakkında yeterli bilgi sağlamaz. Özet () işlevi ile katsayıların önemi, serbestlik derecesi ve kalıntıların şekli gibi daha fazla ayrıntıya erişebilirsiniz.

summary(fit)

Çıktı:

## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10

Yukarıdaki tablo çıktısından çıkarım

  • Yukarıdaki tablo, ağırlık ve kilometre arasında güçlü bir negatif ilişki ve drat ile pozitif bir ilişki olduğunu kanıtlıyor.
  • Yalnızca wt değişkeninin mpg üzerinde istatistiksel bir etkisi vardır. Unutmayın, istatistikte bir hipotezi test etmek için şunu kullanırız:
    • H0: İstatistiksel etkisi yok
    • H3: Tahmincinin y üzerinde anlamlı bir etkisi var
    • P değeri 0,05'ten düşükse değişkenin istatistiksel olarak anlamlı olduğunu gösterir.
  • Düzeltilmiş R-kare: Model tarafından açıklanan varyans. Modelinizde, model y varyansının yüzde 82'sini açıkladı. R kare her zaman 0 ile 1 arasındadır. Ne kadar yüksekse o kadar iyidir

Her özelliğin anova () işleviyle varyanslar üzerindeki etkisini tahmin etmek için ANOVA testini çalıştırabilirsiniz.

anova(fit)

Çıktı:

## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Model performansını tahmin etmenin daha geleneksel bir yolu, artığı farklı ölçülere göre göstermektir.

Dört grafiği göstermek için plot () işlevini kullanabilirsiniz:

- Artıklar ve Takılan değerler

- Normal QQ grafiği: Teorik Çeyrek ile Standartlaştırılmış kalıntılar

- Ölçek-Konum: Standartlaştırılmış kalıntıların kareköklerine karşı uygun değerler

- Artıklar - Kaldıraç: Kaldıraç - Standartlaştırılmış kalıntılar

Plot (fit) 'ten önce par (mfrow = c (2,2)) kodunu eklersiniz. Bu kod satırını eklemezseniz, R sizden sonraki grafiği görüntülemek için enter komutuna basmanızı ister.

par(mfrow=(2,2))

Kod Açıklama

  • (mfrow = c (2,2)): dört grafiğin yan yana olduğu bir pencere döndürür.
  • İlk 2 satır sayısını ekler
  • İkinci 2 sütun sayısını ekler.
  • (Mfrow = c (3,2)) yazarsanız: 3 satır 2 sütun penceresi oluşturacaksınız
plot(fit)

Çıktı:

Lm () formülü, birçok yararlı bilgi içeren bir liste döndürür. Bunlara oluşturduğunuz fit nesnesiyle, ardından $ işareti ve çıkarmak istediğiniz bilgilerle erişebilirsiniz.

- katsayılar: `fit $ katsayıları`

- kalıntılar: `fit $ rezidüleri '

- uygun değer: "fit $ fit.values"

Faktörler regresyonu

Son model tahmininde, mpg'yi yalnızca sürekli değişkenler üzerinde gerersiniz. Modele faktör değişkenleri eklemek kolaydır. Am değişkenini modelinize eklersiniz. Değişkenin bir faktör seviyesi olduğundan ve sürekli olmadığından emin olmak önemlidir.

df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))

Çıktı:

#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124

R, birinci faktör düzeyini temel grup olarak kullanır. Diğer grubun katsayılarını temel grupla karşılaştırmanız gerekir.

Aşamalı regresyon

Bu eğitimin son bölümü, aşamalı regresyon algoritması ile ilgilidir. Bu algoritmanın amacı, modellere potansiyel adayları ekleyip çıkarmak ve bağımlı değişken üzerinde önemli etkisi olanları tutmaktır. Bu algoritma, veri kümesi büyük bir öngörü listesi içerdiğinde anlamlıdır. Bağımsız değişkenleri manuel olarak eklemenize ve kaldırmanıza gerek yoktur. Kademeli regresyon, modele uyacak en iyi adayları seçmek için oluşturulmuştur.

Nasıl çalıştığını eylemde görelim. Sürekli değişkenlerle mtcars veri kümesini yalnızca pedagojik gösterim için kullanırsınız. Analize başlamadan önce, bir korelasyon matrisiyle veriler arasında varyasyonlar oluşturmak iyidir. GGally kitaplığı, ggplot2'nin bir uzantısıdır.

Kitaplık, bir matristeki tüm değişkenlerin korelasyonu ve dağıtımı gibi özet istatistikleri göstermek için farklı işlevler içerir. Ggscatmat işlevini kullanacağız, ancak GGally kitaplığı hakkında daha fazla bilgi için vinyete başvurabilirsiniz.

Ggscatmat () için temel sözdizimi şöyledir:

ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula

Tüm değişkenleriniz için korelasyonu görüntülersiniz ve aşamalı regresyonun ilk adımı için hangisinin en iyi aday olacağına karar verirsiniz. Değişkenleriniz ve bağımlı değişken olan mpg arasında bazı güçlü bağıntılar vardır.

library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))

Çıktı:

Aşamalı regresyon

Değişken seçimi, bir modele uyması için önemli bir parçadır. Kademeli regresyon, arama işlemini otomatik olarak gerçekleştirecektir. Veri kümesinde kaç olası seçenek olduğunu tahmin etmek için , k ile hesaplama yaparsınız kestirici sayısıdır. Bağımsız değişkenlerin sayısı arttıkça olasılıkların sayısı artar. Bu yüzden otomatik arama yapmanız gerekiyor.

Olsrr paketini CRAN'dan yüklemeniz gerekir. Paket Anaconda'da henüz mevcut değil. Dolayısıyla, doğrudan komut satırından kurarsınız:

install.packages("olsrr")

Tüm olasılık alt kümelerini uygun kriterlerle (yani R-kare, Düzeltilmiş R-kare, Bayes ölçütleri) grafiklendirebilirsiniz. En düşük AIC kriterlerine sahip model nihai model olacaktır.

library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)

Kod Açıklama

  • mpg ~ .: Tahmin etmek için modeli oluşturun
  • lm (model, df): OLS modelini çalıştırın
  • ols_all_subset (fit): Grafikleri ilgili istatistiksel bilgilerle oluşturun
  • plot (test): Grafikleri çizin

Çıktı:

Doğrusal regresyon modelleri, bağımsız bir değişkenin bağımlı değişken üzerindeki istatistiksel etkisini tahmin etmek için t testini kullanır. Araştırmacılar maksimum eşiği yüzde 10 olarak belirlediler, daha düşük değerler ise daha güçlü bir istatistiksel bağlantı olduğunu gösteriyor. Kademeli regresyon stratejisi, potansiyel adayları eklemek ve çıkarmak için bu test etrafında oluşturulur. Algoritma şu şekilde çalışır:

  • Adım 1: Her bir tahminciyi y üzerinde ayrı ayrı geriletin. Yani, y'de x_1, y'de x_2'de x_n'ye gerileyin. Mağaza p değeri ve belli bir eşik (varsayılan 0.1) daha düşük bir p-değeri ile geri çekici tutun. Eşiğin altında anlamlılığa sahip tahmin ediciler nihai modele eklenecektir. Hiçbir değişkenin p değeri giriş eşiğinden daha düşük değilse, algoritma durur ve son modeliniz yalnızca sabittir.
  • Adım 2: En düşük p değerine sahip tahminciyi kullanın ve ayrı bir değişken ekleyin. Birinci ve üçüncü değişkenin en iyi öngörücüsü olan bir sabiti gerersiniz. Adım adım modele, giriş eşiğinden daha düşük bir değere sahip yeni tahmin edicileri eklersiniz. Hiçbir değişkenin p değeri 0.1'den düşük değilse, algoritma durur ve son modeliniz yalnızca bir öngörücüye sahip olur. Adım 1'in en iyi yordayıcılarının önemini kontrol etmek için aşamalı modeli gerilersiniz. Kaldırma eşiğinden yüksekse, aşamalı modelde tutarsınız. Aksi takdirde, onu hariç tutarsınız.
  • Adım 3: Yeni en iyi adım adım modelde 2. adımı tekrarlarsınız. Algoritma, girilen değerlere dayalı olarak aşamalı modele tahmin ediciler ekler ve dışlama eşiğini karşılamıyorsa aşamalı modelden tahminciyi çıkarır.
  • Algoritma, hiçbir değişken eklenemeyene veya hariç tutulmayana kadar devam eder.

Algoritmayı olsrr paketinden ols_stepwise () işlevi ile gerçekleştirebilirsiniz.

ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)

arguments:

-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step

Bundan önce size algoritmanın adımlarını gösteriyoruz. Aşağıda bağımlı ve bağımsız değişkenleri içeren bir tablo bulunmaktadır:

Bağımlı değişken

Bağımsız değişkenler

mpg

disp

hp

drat

ağırlık

qsec

Başlat

Başlangıç ​​olarak, algoritma modeli her bağımsız değişken üzerinde ayrı ayrı çalıştırarak başlar. Tablo, her model için p değerini gösterir.

## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199

Modeli girmek için, algoritma değişkeni en düşük p değerine sahip tutar. Yukarıdaki çıktıdan wt

Aşama 1

İlk adımda, algoritma mpg'yi wt ve diğer değişkenler üzerinde bağımsız olarak çalıştırır.

## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03

Her değişken, nihai modele girmek için potansiyel bir adaydır. Ancak, algoritma yalnızca p değeri düşük olan değişkeni tutar. Görünüşe göre hp, qsec'den biraz daha düşük bir p-değerine sahip. Bu nedenle, hp son modele girer

Adım 2

Algoritma ilk adımı, ancak bu sefer son modelde iki bağımsız değişkenle tekrarlar.

## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01

Nihai modele giren değişkenlerin hiçbiri yeterince düşük bir p değerine sahip değildir. Algoritma burada durur; son modelimiz var:

#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12 

Sonuçları karşılaştırmak için ols_stepwise () işlevini kullanabilirsiniz.

stp_s <-ols_stepwise(fit, details=TRUE)

Çıktı:

Algoritma 2 adımdan sonra bir çözüm bulur ve daha önce sahip olduğumuz çıktıyı döndürür.

Sonunda, modellerin iki değişken ve bir kesişme ile açıklandığını söyleyebilirsiniz. Galon başına mil, Brüt beygir gücü ve Ağırlık ile negatif olarak ilişkilidir.

## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.

Makine öğrenme

Makine öğrenimi, veri bilimcileri arasında yaygınlaşıyor ve günlük kullandığınız yüzlerce üründe kullanılıyor. İlk ML uygulamalarından biri spam filtresiydi .

Makine Öğreniminin diğer uygulamaları aşağıdadır:

  • E-postada istenmeyen istenmeyen mesajların tanımlanması
  • Hedeflenen reklamcılık için müşteri davranışının segmentasyonu
  • Sahte kredi kartı işlemlerinin azaltılması
  • Ev ve ofis binalarında enerji kullanımının optimizasyonu
  • Yüz tanıma

Denetimli öğrenme

Gelen denetimli öğrenme , sen algoritmaya beslemek eğitim verileri bir etiket içerir.

Sınıflandırma muhtemelen en çok kullanılan denetimli öğrenme tekniğidir. Araştırmacıların uğraştığı ilk sınıflandırma görevlerinden biri spam filtresiydi. Öğrenmenin amacı, bir e-postanın istenmeyen posta mı yoksa ham (iyi e-posta) olarak mı sınıflandırıldığını tahmin etmektir. Makine, eğitim adımından sonra e-posta sınıfını algılayabilir.

Regresyonlar , sürekli değeri tahmin etmek için makine öğrenimi alanında yaygın olarak kullanılır. Gerileme görevi, bir bağımsız değişkenler kümesine (yordayıcılar veya gerileyiciler olarak da adlandırılır) dayalı olarak bağımlı bir değişkenin değerini tahmin edebilir . Örneğin, doğrusal regresyonlar bir hisse senedi fiyatını, hava tahminini, satışları vb. Tahmin edebilir.

İşte bazı temel denetimli öğrenme algoritmalarının listesi.

  • Doğrusal regresyon
  • Lojistik regresyon
  • En Yakın Komşular
  • Destek Vektör Makinesi (SVM)
  • Karar ağaçları ve Rastgele Orman
  • Nöral ağlar

Denetimsiz öğrenme

Gelen denetimsiz öğrenme , eğitim verileri etiketlenmemiş. Sistem referans olmadan öğrenmeye çalışır. Aşağıda, denetimsiz öğrenme algoritmalarının bir listesi bulunmaktadır.

  • K-ortalama
  • Hiyerarşik Küme Analizi
  • Beklenti Maksimizasyonu
  • Görselleştirme ve boyutluluk azaltma
  • Temel bileşenler Analizi
  • Çekirdek PCA
  • Yerel Doğrusal Gömme

Özet

Sıradan en küçük kare regresyon aşağıdaki tabloda özetlenebilir:

Kütüphane

Amaç

Fonksiyon

Argümanlar

temel

Doğrusal bir regresyon hesaplayın

lm ()

formül, veri

temel

Modeli özetle

özet ()

Uygun

temel

Katsayıları çıkar

lm () $ katsayısı

temel

Kalıntıları çıkarın

lm () $ artıklar

temel

Takılan değeri çıkarın

lm () $ donatılmış.values

Olsrr

Kademeli regresyon çalıştır

ols_stepwise ()

uyum, pent = 0.1, ön = 0.3, ayrıntılar = YANLIŞ

Not : Modeli sığdırmadan önce kategorik değişkeni faktör olarak dönüştürmeyi unutmayın.