En İyi 50 Veri Bilimi Mülakat Soruları ve Cevapları

Anonim

Aşağıda, yeni başlayanlar ve deneyimli Veri Bilimcisi için iş görüşmelerinde sıkça sorulan sorular bulunmaktadır.

1. Veri Bilimi nedir?

Veri Bilimi, verilen ham verilerden ortak gizli kalıpları bulmanıza yardımcı olan algoritmalar, araçlar ve makine öğrenimi tekniğinin bir kombinasyonudur.

2. Veri Biliminde lojistik regresyon nedir?

Lojistik Regresyon, logit modeli olarak da adlandırılır. Yordayıcı değişkenlerin doğrusal bir kombinasyonundan ikili sonucu tahmin etmek için bir yöntemdir.

3. Örnekleme sırasında ortaya çıkabilecek üç önyargı türünü belirtin

Örnekleme sürecinde, üç tür önyargı vardır:

  • Seçim önyargısı
  • Kapsam önyargısı altında
  • Hayatta kalma yanlılığı

4. Karar Ağacı algoritmasını tartışın

Karar ağacı, popüler bir denetimli makine öğrenimi algoritmasıdır. Esas olarak Regresyon ve Sınıflandırma için kullanılır. Bir veri kümesini daha küçük alt kümelere ayırmaya izin verir. Karar ağacı hem kategorik hem de sayısal verileri işleyebilir.

5. Önceki olasılık ve olasılık nedir?

Önceki olasılık, veri setindeki bağımlı değişkenin oranı iken, olasılık, belirli bir gözlemciyi başka bir değişkenin varlığında sınıflandırma olasılığıdır.

6. Öneri Sistemlerini açıklar mısınız?

Bilgi filtreleme tekniklerinin bir alt sınıfıdır. Kullanıcıların bir ürüne vermesi muhtemel tercihleri ​​veya derecelendirmeleri tahmin etmenize yardımcı olur.

7. Doğrusal bir model kullanmanın üç dezavantajını belirtin

Doğrusal modelin üç dezavantajı şunlardır:

  • Hataların doğrusallık varsayımı.
  • Bu modeli ikili program için kullanamaz veya sonuçları sayamazsınız
  • Çözemeyeceği çok sayıda aşırı uyum sorunu var

8. Neden yeniden örnekleme yapmanız gerekiyor?

Yeniden örnekleme aşağıdaki durumlarda yapılır:

  • Bir veri noktası kümesinden rastgele çizim yaparak veya erişilebilir verilerin alt kümeleri olarak kullanarak örnek istatistiklerinin doğruluğunu tahmin etme
  • Gerekli testleri gerçekleştirirken veri noktalarında etiketlerin ikame edilmesi
  • Rastgele alt kümeler kullanarak modelleri doğrulama

9. Veri Analizi ve Bilimsel Hesaplamalar için kullanılan Python'daki kütüphaneleri listeleyin.

  • Bilim
  • Pandalar
  • Matplotlib
  • Dizi
  • SciKit
  • Seaborn

10. Güç Analizi nedir?

Güç analizi, deneysel tasarımın ayrılmaz bir parçasıdır. Belirli bir güvence düzeyine sahip bir nedenden belirli bir boyutun etkisini bulmak için gereken örnek boyutunu belirlemenize yardımcı olur. Ayrıca, bir örneklem boyutu kısıtlamasında belirli bir olasılığı dağıtmanıza da olanak tanır.

11. İşbirlikçi filtrelemeyi açıklayın

Ortak filtreleme, bakış açıları, çoklu veri kaynakları ve çeşitli aracılarla işbirliği yaparak doğru kalıpları aramak için kullanılır.

12. Önyargı nedir?

Önyargı, makine öğrenimi algoritmasının aşırı basitleştirilmesi nedeniyle modelinizde ortaya çıkan bir hatadır. "Bu, yetersiz uyuma neden olabilir.

13. 'Naive'i Naive Bayes algoritmasında tartışıyor musunuz?

Naive Bayes Algoritma modeli, Bayes Teoremine dayanmaktadır. Bir olayın olasılığını açıklar. Söz konusu özel olayla ilgili olabilecek koşulların önceden bilgisine dayanmaktadır.

14. Doğrusal Regresyon nedir?

Doğrusal regresyon, bir "A" değişkeninin puanının ikinci bir değişken "B" nin puanından tahmin edildiği istatistiksel bir programlama yöntemidir. B, tahmin değişkeni ve A, ölçüt değişkeni olarak anılır.

15. Beklenen değer ile ortalama değer arasındaki farkı belirtin

Çok fazla farklılık yoktur, ancak bu terimlerin her ikisi de farklı bağlamlarda kullanılmaktadır. Ortalama değer genellikle bir olasılık dağılımını tartışırken kullanılırken, beklenen değere rastgele bir değişken bağlamında atıfta bulunulur.

16. A / B Testi yapmanın amacı nedir?

A ve B olmak üzere iki değişkenle rastgele deneyler yapmak için kullanılan AB testi. Bu test yönteminin amacı, bir stratejinin sonucunu en üst düzeye çıkarmak veya artırmak için bir web sayfasındaki değişiklikleri bulmaktır.

17. Topluluk Öğrenme nedir?

Topluluk, modelin istikrarı ve öngörü gücü konusunda doğaçlama yapmak için farklı bir grup öğrenciyi bir araya getirme yöntemidir. İki tür Ensemble öğrenme yöntemi şunlardır:

Torbalama

Torbalama yöntemi, benzer öğrenicileri küçük örnek popülasyonlarda uygulamanıza yardımcı olur. Daha yakın tahminler yapmanıza yardımcı olur.

Artırma

Güçlendirme, bir gözlemin ağırlığını son sınıflandırmaya bağlı olarak ayarlamanıza izin veren yinelemeli bir yöntemdir. Güçlendirme, önyargı hatasını azaltır ve güçlü tahmine dayalı modeller oluşturmanıza yardımcı olur.

18. Özdeğer ve Özvektörü açıklayın

Özvektörler doğrusal dönüşümleri anlamak içindir. Veri bilimcinin bir kovaryans matrisi veya korelasyonu için özvektörleri hesaplaması gerekir. Özdeğerler, sıkıştırarak, çevirerek veya esneterek belirli doğrusal dönüşüm eylemlerini kullanan yönlerdir.

19. Çapraz doğrulama terimini tanımlayın

Çapraz doğrulama, istatistiksel analizin sonuçlarının Bağımsız bir veri kümesi için nasıl genelleşeceğini değerlendirmek için bir doğrulama tekniğidir. Bu yöntem, hedefin tahmin edildiği ve bir modelin ne kadar doğru bir şekilde başarılacağının tahmin edilmesi gereken arka planlarda kullanılır.

20. Bir Veri analizi projesinin adımlarını açıklayın

Aşağıdakiler, bir analiz projesinde yer alan önemli adımlardır:

  • İş sorununu anlayın
  • Verileri keşfedin ve dikkatlice inceleyin.
  • Eksik değerleri bularak ve değişkenleri dönüştürerek verileri modelleme için hazırlayın.
  • Modeli çalıştırmaya başlayın ve Büyük veri sonucunu analiz edin.
  • Modeli yeni veri kümesiyle doğrulayın.
  • Modeli uygulayın ve belirli bir dönem için modelin performansını analiz etmek için sonucu izleyin.

21. Yapay Sinir Ağlarını Tartışın

Yapay Sinir ağları (YSA), makine öğreniminde devrim yaratan özel bir algoritma kümesidir. Değişen girdiye göre uyum sağlamanıza yardımcı olur. Böylece ağ, çıktı kriterlerini yeniden tasarlamadan mümkün olan en iyi sonucu üretir.

22. Geri Yayılma nedir?

Geriye yayılma, sinir ağı eğitiminin özüdür. Bir sinir ağının ağırlıklarını ayarlama yöntemidir, önceki çağda elde edilen hata oranına bağlıdır. Doğru şekilde ayarlanması, hata oranlarını azaltmanıza ve genellemesini artırarak modeli güvenilir hale getirmenize yardımcı olur.

23. Rastgele Orman nedir?

Rastgele orman, her tür regresyon ve sınıflandırma görevini gerçekleştirmenize yardımcı olan bir makine öğrenme yöntemidir. Eksik değerleri ve aykırı değerleri işlemek için de kullanılır.

24. Seçim önyargısına sahip olmanın önemi nedir?

Seçim Sapması, analiz edilecek bireyleri veya grupları veya verileri seçerken belirli bir randomizasyon elde edilmediğinde ortaya çıkar. Verilen örneğin analiz edilmesi amaçlanan popülasyonu tam olarak temsil etmediğini göstermektedir.

25. K-ortalamalı kümeleme yöntemi nedir?

K-ortalamalı kümeleme, önemli bir denetimsiz öğrenme yöntemidir. K kümeleri adı verilen belirli bir küme kümesini kullanarak verileri sınıflandırma tekniğidir. Verilerdeki benzerliği bulmak için gruplama için konuşlandırılmıştır.

26. Veri Bilimi ve Veri Analitiği arasındaki farkı açıklayın

Veri Bilimcileri, bir veri analistinin gerçek dünyadaki iş senaryolarına uygulayabileceği değerli içgörüler elde etmek için verileri dilimlemeye ihtiyaç duyar. İkisi arasındaki temel fark, veri bilimcilerin iş analistinden daha fazla teknik bilgiye sahip olmasıdır. Dahası, veri görselleştirme için gereken işi anlamalarına ihtiyaçları yoktur.

27. p-değerini açıklar mısınız?

İstatistikte bir hipotez testi yaptığınızda, bir p değeri sonuçlarınızın gücünü belirlemenizi sağlar. 0 ile 1 arasında sayısal bir sayıdır. Değere bağlı olarak, belirli bir sonucun gücünü belirtmenize yardımcı olacaktır.

28. Derin öğrenme terimini tanımlayın

Derin Öğrenme, makine öğreniminin bir alt türüdür. Yapay sinir ağları (YSA) adı verilen yapıdan esinlenen algoritmalarla ilgilenir.

29. Hava durumunu tahmin etmek için sosyal medyayı kullanmak üzere veri toplama ve analiz etme yöntemini açıklayın.

Facebook, twitter, Instagram'ın API'lerini kullanarak sosyal medya verilerini toplayabilirsiniz. Örneğin, tweeter için, tweet atılan tarih, retweetler, takipçi listesi vb. Gibi her tweet'ten bir özellik oluşturabiliriz. Daha sonra hava durumunu tahmin etmek için çok değişkenli bir zaman serisi modeli kullanabilirsiniz.

30. Veri biliminde algoritmayı ne zaman güncellemeniz gerekir?

Aşağıdaki durumda bir algoritmayı güncellemeniz gerekir:

  • Veri modelinizin altyapıyı kullanarak veri akışları olarak gelişmesini istiyorsunuz
  • Temel veri kaynağı değişiyor

    Durağan değilse

31. Normal Dağılım Nedir

Normal dağılım, normal bir eğri boyunca veya bir çan eğrisi şeklinde yayılmış bir sürekli değişken kümesidir. Bunu istatistikte yararlı olan sürekli bir olasılık dağılımı olarak düşünebilirsiniz. Normal dağılım eğrisini kullanırken değişkenleri ve ilişkilerini analiz etmek faydalıdır.

32. Metin analizi için en iyi dil hangisidir? R veya Python?

Python, pandalar olarak bilinen zengin bir kitaplıktan oluştuğu için metin analizi için daha uygun olacaktır. R bu özelliği sunmazken, üst düzey veri analizi araçlarını ve veri yapılarını kullanmanıza izin verir.

33. Veri Bilimciler tarafından istatistik kullanmanın faydalarını açıklayın

İstatistikler, Veri bilimcilerinin müşteri beklentileri hakkında daha iyi bir fikir edinmesine yardımcı olur. İstatistik yöntemini kullanarak Veri Bilimciler, tüketici ilgisi, davranış, katılım, elde tutma vb. Hakkında bilgi edinebilir. Ayrıca, belirli çıkarımları ve tahminleri doğrulamak için güçlü veri modelleri oluşturmanıza yardımcı olur.

34. Çeşitli Derin Öğrenme Çerçevelerini adlandırın

  • Pytorch
  • Microsoft Bilişsel Araç Seti
  • TensorFlow
  • Caffe
  • Zincirleme
  • Keras

35. Otomatik Kodlayıcıyı Açıklayın

Otomatik kodlayıcılar öğrenme ağlarıdır. Girdileri daha az hatayla çıktılara dönüştürmenize yardımcı olur. Bu, çıktıyı girdiye mümkün olduğunca yakın alacağınız anlamına gelir.

36. Boltzmann Makinasını Tanımlayın

Boltzmann makineleri basit bir öğrenme algoritmasıdır. Egzersiz verilerinde karmaşık düzenlilikleri temsil eden özellikleri keşfetmenize yardımcı olur. Bu algoritma, verilen problem için ağırlıkları ve miktarı optimize etmenizi sağlar.

37. Veri Temizlemenin neden gerekli olduğunu ve verileri temiz tutmak için hangi yöntemi kullandığınızı açıklayın

Kirli veriler genellikle yanlış içeriye yol açar ve bu da herhangi bir kuruluşun olasılığına zarar verebilir. Örneğin, hedefli bir pazarlama kampanyası yürütmek istiyorsanız. Ancak, verilerimiz yanlış bir şekilde, belirli bir ürünün hedef kitleniz tarafından talep edileceğini söylüyor; kampanya başarısız olacak.

38. Eğri Dağıtım ve tekdüze dağıtım nedir?

Eğik dağılım, verilerin grafiğin herhangi bir tarafına dağıtılması durumunda meydana gelirken, veriler aralıkta eşit yayıldığında tek tip dağılım tanımlanır.

39. Statik modelde yetersiz uyum ne zaman meydana gelir?

Yetersiz uyum, istatistiksel bir model veya makine öğrenimi algoritması verilerin temelindeki eğilimi yakalayamadığında ortaya çıkar.

40. Pekiştirmeli öğrenme nedir?

Takviye Öğrenme, durumların eylemlerle nasıl eşleştirileceğine ilişkin bir öğrenme mekanizmasıdır. Sonuç, ikili ödül sinyalini artırmanıza yardımcı olacaktır. Bu yöntemde, öğrenciye hangi eylemi yapacağı söylenmez, bunun yerine hangi eylemin maksimum ödül sağladığını keşfetmesi gerekir. Bu yöntem ödül / ceza mekanizmasına dayalıdır.

41. Yaygın olarak kullanılan algoritmaları adlandırın.

Veri bilimcisi tarafından en sık kullanılan dört algoritma şunlardır:

  • Doğrusal regresyon
  • Lojistik regresyon
  • Rastgele Orman
  • KNN

42. Kesinlik nedir?

Kesinlik en yaygın kullanılan hata metriğidir, n sınıflandırma mekanizmasıdır. Aralığı 0 ile 1 arasındadır ve 1,% 100'ü temsil eder

43. Tek değişkenli analiz nedir?

Bir seferde hiçbir özniteliğe uygulanan bir analiz, tek değişkenli analiz olarak bilinir. Boxplot yaygın olarak kullanılan tek değişkenli modeldir.

44. Bulgularınıza yönelik zorlukların üstesinden nasıl gelirsiniz?

Bulduğum zorlukların üstesinden gelmek için tartışmayı teşvik etmem, liderliği göstermem ve farklı seçeneklere saygı göstermem gerekiyor.

45. Veri biliminde küme örnekleme tekniğini açıklayın

Bir küme örnekleme yöntemi, yayılmış hedef popülasyonu incelemek zor olduğunda kullanılır ve basit rastgele örnekleme uygulanamaz.

46. ​​Doğrulama Seti ile Test Seti arasındaki farkı belirtin

Bir Doğrulama seti, inşa edilmekte olan modelin aşırı uyumunu önlemenize yardımcı olan parametre seçimi için kullanıldığından, çoğunlukla eğitim setinin bir parçası olarak kabul edilir.

Eğitimli bir makine öğrenimi modelinin performansını test etmek veya değerlendirmek için bir Test Seti kullanılırken.

47. Binom Olasılık Formülü terimini açıklar mısınız?

"Binom dağılımı, meydana gelme olasılığı π olan bağımsız olaylar için N denemede olası her başarı olasılığını içerir."

48. Geri çağırma nedir?

Geri çağırma, gerçek pozitif oranın gerçek pozitif orana oranıdır. 0 ile 1 arasında değişir.

49. Normal dağılımı tartışın

Ortalama, medyan ve mod eşit olduğu için normal dağılım eşit olarak dağıtılır.

50. Bir veri seti üzerinde çalışırken, önemli değişkenleri nasıl seçersiniz? Açıklamak

Aşağıdaki değişken seçim yöntemlerini kullanabilirsiniz:

  • Önemli değişkenleri seçmeden önce ilişkili değişkenleri kaldırın
  • Doğrusal regresyon kullanın ve bu p değerlerine bağlı değişkenleri seçin.
  • Geri, İleri Seçimi ve Adım Adım Seçimi Kullan
  • Xgboost, Random Forest'ı kullanın ve değişken önem tablosunu çizin.
  • Verilen özellik seti için bilgi kazancını ölçün ve buna göre en iyi n özelliği seçin.

51. Sürekli ve kategorik değişken arasındaki ilişkiyi yakalamak mümkün müdür?

Evet, sürekli ve kategorik değişkenler arasındaki ilişkiyi yakalamak için kovaryans analizi tekniğini kullanabiliriz.

52. Kategorik bir değişkeni sürekli bir değişken olarak ele almak daha iyi bir tahmin modeliyle sonuçlanır mı?

Evet, kategorik değer, yalnızca değişken doğası gereği sıralı olduğunda sürekli bir değişken olarak düşünülmelidir. Bu yüzden daha iyi bir tahmine dayalı modeldir.