R Yazılımı nedir?
R , 1993 yılında Ross Ihaka ve Robert Gentleman tarafından geliştirilen bir programlama dili ve özgür bir yazılımdır. R, geniş bir istatistiksel ve grafiksel yöntemler kataloğuna sahiptir. Makine öğrenimi algoritmalarını, doğrusal regresyonu, zaman serilerini, istatistiksel çıkarımı içerir. R kitaplıklarının çoğu R'de yazılmıştır, ancak ağır hesaplama görevleri için C, C ++ ve Fortran kodları tercih edilir.
R sadece akademisyenler tarafından emanet edilmiyor, aynı zamanda birçok büyük şirket de Uber, Google, Airbnb, Facebook vb. Dahil R programlama dilini kullanıyor.
R ile veri analizi bir dizi adımda yapılır; sonuçları programlama, dönüştürme, keşfetme, modelleme ve iletme
- Program : R açık ve erişilebilir bir programlama aracıdır
- Dönüştür : R, özellikle veri bilimi için tasarlanmış bir kitaplık koleksiyonundan oluşur
- Keşfedin : Verileri araştırın, hipotezinizi hassaslaştırın ve analiz edin
- Model : R, verileriniz için doğru modeli yakalamak için çok çeşitli araçlar sağlar
- İletişim kurun : Kodları, grafikleri ve çıktıları R Markdown ile bir rapora entegre edin veya dünyayla paylaşmak için Shiny uygulamaları oluşturun
Bu giriş eğitiminde R öğreneceksiniz.
- R ne için kullanılır?
- Endüstriye göre R
- R paketi
- R ile iletişim kurun
- Neden R kullanıyorsunuz?
- R'yi seçmeli misiniz?
- R zor mu?
R ne için kullanılır?
- İstatiksel sonuç
- Veri analizi
- Makine öğrenimi algoritması
Endüstriye göre R
R kullanımını sektöre göre ayırırsak, önce akademisyenlerin geldiğini görürüz. R, istatistik yapmak için bir dildir. R, sağlık sektöründe ilk tercihtir, ardından hükümet ve danışmanlık gelir.
R paketi
R'nin birincil kullanımları istatistik, görselleştirme ve makine öğrenimidir ve her zaman olacaktır. Aşağıdaki resim, Stack Overflow'da hangi R paketinin en çok soruyu aldığını gösterir. İlk 10'da, çoğu bir veri bilimcinin iş akışıyla ilgilidir: veri hazırlama ve sonuçları iletme.
Neredeyse 12k olan tüm R kitaplıkları CRAN'da saklanır. CRAN ücretsiz ve açık kaynaktır. Makine Öğrenimi veya zaman serisi analizi gerçekleştirmek için çok sayıda kitaplığı indirebilir ve kullanabilirsiniz.
R ile iletişim kurun
R, bir indirim belgesi veya parlak bir uygulama aracılığıyla iş sunmak ve paylaşmak için birden fazla yola sahiptir. Her şey Rpub, GitHub veya işletmenin web sitesinde barındırılabilir.
Aşağıda, Rpub'da barındırılan bir sunum örneği bulunmaktadır
Rstudio, bir belge yazmak için markdown'u kabul eder. Belgeleri farklı formatlarda dışa aktarabilirsiniz:
- Belge:
- HTML
- PDF / Lateks
- Kelime
- Sunum
- HTML
- PDF ışınlayıcı
Rstudio, bir Uygulamayı kolayca oluşturmak için harika bir araca sahiptir. Aşağıda, Dünya Bankası verilerinin bulunduğu bir uygulama örneği bulunmaktadır.
Neden R kullanıyorsunuz?
Veri bilimi, şirketlerin işlerini yürütme şeklini şekillendiriyor. Kuşkusuz Yapay Zeka ve Makineden uzak durmak şirketin başarısız olmasına yol açacaktır. Asıl soru, hangi aracı / dili kullanmalısınız?
Veri analizi yapmak için piyasada bulunan birçok araç vardır. Yeni bir dil öğrenmek biraz zaman yatırımı gerektirir. Aşağıdaki resim, bir dilin sunduğu iş becerisine kıyasla öğrenme eğrisini göstermektedir. Olumsuz ilişki, bedava öğle yemeği olmadığı anlamına gelir. Verilerden en iyi içgörüyü vermek istiyorsanız, o zaman R olan uygun aracı öğrenmek için biraz zaman harcamalısınız.
Grafiğin sol üst tarafında Excel ve PowerBI görebilirsiniz. Bu iki aracın öğrenilmesi basittir ancak özellikle modelleme açısından olağanüstü bir iş yeteneği sunmaz. Ortada Python ve SAS görebilirsiniz. SAS, işletmeler için istatistiksel bir analiz yürütmek için özel bir araçtır, ancak ücretsiz değildir. SAS, bir tıkla ve çalıştır yazılımıdır. Bununla birlikte Python, monoton bir öğrenme eğrisi olan bir dildir. Python, Makine Öğrenimi ve AI'yı dağıtmak için harika bir araçtır ancak iletişim özelliklerinden yoksundur. Özdeş bir öğrenme eğrisi ile R, uygulama ve veri analizi arasında iyi bir değiş tokuştur.
Veri görselleştirme (DataViz) söz konusu olduğunda, muhtemelen Tableau'yu duymuşsunuzdur. Tableau, şüphesiz, grafikler ve çizelgeler aracılığıyla kalıpları keşfetmek için harika bir araçtır. Ayrıca, Tableau öğrenmek zaman alıcı değildir. Veri görselleştirmeyle ilgili en büyük sorunlardan biri, asla bir model bulamayacağınız veya çok sayıda işe yaramaz grafik oluşturabileceğinizdir. Tableau, verilerin veya İş Zekasının hızlı görselleştirilmesi için iyi bir araçtır. İstatistik ve karar verme aracı söz konusu olduğunda, R daha uygundur.
Stack Overflow, programlama dilleri için büyük bir topluluktur. Bir kodlama sorununuz varsa veya bir modeli anlamanız gerekiyorsa, Stack Overflow size yardımcı olmak için burada. Yıl içinde, soru görüntülemelerinin yüzdesi, diğer dillere kıyasla R için keskin bir şekilde arttı. Bu eğilim elbette veri biliminin patlama çağıyla yakından ilişkilidir, ancak veri bilimi için R dilinin talebini yansıtır.
Veri biliminde birbiriyle yarışan iki araç vardır. R ve Python, muhtemelen veri bilimini tanımlayan programlama dilidir.
R'yi seçmeli misiniz?
Veri bilimcisi iki mükemmel araç kullanabilir: R ve Python. Her ikisini de öğrenmek için vaktiniz olmayabilir, özellikle de veri bilimini öğrenmeye başlarsanız. İstatistiksel modelleme ve algoritmayı öğrenmekbir programlama dili öğrenmekten çok daha önemlidir. Bir programlama dili, keşfinizi hesaplamak ve iletmek için kullanılan bir araçtır. Veri bilimindeki en önemli görev, verilerle başa çıkma biçiminizdir: içe aktarma, temizleme, hazırlık, özellik mühendisliği, özellik seçimi. Bu birincil odak noktanız olmalıdır. İstatistiklerde sağlam bir arka plan olmadan aynı anda R ve Python öğrenmeye çalışıyorsanız, bu aptalca. Veri bilimcisi programcı değildir. Görevleri verileri anlamak, manipüle etmek ve en iyi yaklaşımı ortaya çıkarmaktır. Hangi dili öğreneceğinizi düşünüyorsanız, size en uygun dilin hangisi olduğuna bakalım.
Veri biliminin ana hedef kitlesi iş profesyonelidir. İş dünyasında büyük bir çıkarım iletişimdir. İletişim kurmanın birçok yolu vardır: rapor, web uygulaması, kontrol paneli. Tüm bunları birlikte yapan bir araca ihtiyacınız var.
R zor mu?
Yıllar önce R, ustalaşması zor bir dildi. Dil kafa karıştırıcıydı ve diğer programlama araçları kadar yapılandırılmamıştı. Bu büyük sorunun üstesinden gelmek için Hadley Wickham, tidyverse adlı bir paket koleksiyonu geliştirdi. Oyunun kuralı en iyisi için değişti. Veri manipülasyonu önemsiz ve sezgisel hale gelir. Grafik oluşturmak artık o kadar zor değildi.
Makine öğrenimi için en iyi algoritmalar R. ile uygulanabilir. Keras ve TensorFlow gibi paketler, üst düzey makine öğrenimi tekniği oluşturmaya izin verir. R ayrıca, Kaggle rekabeti için en iyi algoritma olan Xgboost'u gerçekleştirmek için bir pakete sahiptir.
R diğer dil ile iletişim kurabilir. R'de Python, Java, C ++ 'ı çağırmak mümkündür. Büyük veri dünyasına R tarafından da erişilebilir. R'yi Spark veya Hadoop gibi farklı veri tabanlarına bağlayabilirsiniz.
Son olarak, R gelişti ve paralelleştirme işleminin hesaplamayı hızlandırmasına izin verdi. Aslında, R, bir seferde yalnızca bir CPU kullandığı için eleştirildi. Paralel paket, makinenin farklı çekirdeklerinde görevler gerçekleştirmenizi sağlar.
Özet
Özetle, R, verileri keşfetmek ve araştırmak için harika bir araçtır. Kümeleme, korelasyon ve veri azaltma gibi ayrıntılı analizler R ile yapılır. Bu en önemli kısımdır, iyi bir özellik mühendisliği ve modeli olmadan, makine öğreniminin dağıtımı anlamlı sonuçlar vermeyecektir.