R'deki Faktör nedir?
R faktörü , verileri sınıflandırmak ve depolamak için kullanılan, sınırlı sayıda farklı değere sahip bir değişkendir. Verileri bir tamsayı değerleri vektörü olarak depolar. R faktörü, hem dize hem de tamsayı veri değerlerini seviyeler olarak depolayan kategorik bir değişken olarak da bilinir. Faktör çoğunlukla İstatistiksel Modellemede ve R.
Bir veri kümesinde, iki tür değişkeni ayırt edebiliriz: kategorik ve sürekli .
- R'deki kategorik değişkenler için tanımlayıcı istatistiklerde, değer sınırlıdır ve genellikle belirli bir sonlu gruba dayanır. Örneğin, R'deki kategorik bir değişken ülkeler, yıl, cinsiyet, meslek olabilir.
- Ancak sürekli bir değişken, tam sayıdan ondalık sayıya kadar herhangi bir değeri alabilir. Örneğin, bir hissenin gelirine, fiyatına vb. Sahip olabiliriz.
Kategorik değişkenler
R'deki kategorik değişkenler bir faktörde saklanır. Bir karakter değişkenini R'de faktör değişkenine dönüştürmek için aşağıdaki kodu kontrol edelim. Karakterler makine öğrenme algoritmasında desteklenmez ve tek yol bir dizeyi tam sayıya dönüştürmektir.
Sözdizimi
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Argümanlar:
- x : R'deki kategorik verilerin vektörü. Ondalık değil, dize veya tamsayı olması gerekir.
- Düzeyler : x tarafından alınan olası değerlerin bir vektörü. Bu argüman isteğe bağlıdır. Varsayılan değer, x vektörünün benzersiz öğe listesidir.
- Etiketler : R'deki x kategorik verilerine bir etiket ekleyin. Örneğin, 1 "erkek", 0 ise "kadın" etiketini alabilir.
- sıralı : Düzeylerin kategorik verilerde R'de sıralanması gerekip gerekmediğini belirleyin.
Misal:
Bir faktör veri çerçevesi oluşturalım.
# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)
Çıktı:
## [1] "character"## [1] "factor"
Makine Öğrenimi görevini gerçekleştirdiğimizde, bir dizeyi R'de faktör değişkenine dönüştürmek önemlidir .
R'deki kategorik bir değişken, nominal kategorik değişkene ve sıralı kategorik değişkene bölünebilir .
Nominal Kategorik Değişken
Kategorik bir değişkenin birkaç değeri vardır, ancak sıra önemli değildir. Örneğin erkek ya da kadın. R'deki kategorik değişkenlerin sıralaması yoktur.
# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color
Çıktı:
## [1] blue red green white black yellow## Levels: black blue green red white yellow
Factor_color'dan herhangi bir sipariş söyleyemiyoruz.
Sıralı Kategorik Değişken
Sıralı kategorik değişkenlerin doğal bir sıralaması vardır. Sıralama = DOĞRU ve en yüksekten en düşüğe, sıra = YANLIŞ ile en düşükten en yükseğe sırayı belirtebiliriz.
Misal:
Özet'i R'deki her faktör değişkeninin değerlerini saymak için kullanabiliriz.
# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day
Çıktı:
## [1] evening morning afternoon middaymidnight evening
Misal:
## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)
Çıktı:
## morning midday afternoon evening midnight## 1 1 1 2 1
R, seviyeler parantezinde belirtildiği gibi 'sabah'tan' gece yarısına 'sıralanmıştır.
Sürekli değişkenler
Sürekli sınıf değişkenleri, R'deki varsayılan değerdir. Bunlar sayısal veya tamsayı olarak depolanır. Aşağıdaki veri setinden görebiliriz. mtcars yerleşik bir veri kümesidir. Farklı araba türleri hakkında bilgi toplar. Bunu mtcars kullanarak ithal edebilir ve değişken mpg, galon başına mil sınıfını kontrol edebiliriz. Sürekli bir değişkeni gösteren sayısal bir değer döndürür.
dataset <- mtcarsclass(dataset$mpg)
Çıktı
## [1] "numeric"