İşte yeni başlayanlar ve doğru işi almak için deneyimli adaylar için sıkça sorulan veri mühendisi mülakat soruları.
1) Veri Mühendisliğini açıklayın.
Veri mühendisliği, büyük veride kullanılan bir terimdir. Veri toplama ve araştırmanın uygulanmasına odaklanır. Çeşitli kaynaklardan üretilen veriler yalnızca ham verilerdir. Veri mühendisliği, bu ham verilerin yararlı bilgilere dönüştürülmesine yardımcı olur.
2) Veri Modelleme nedir?
Veri modelleme, karmaşık yazılım tasarımını herkesin kolayca anlayabilmesi için bir şema olarak belgeleme yöntemidir. Çeşitli veri nesneleri ve kurallar arasında ilişkilendirilen veri nesnelerinin kavramsal bir temsilidir.
3) Veri Modellemede çeşitli tasarım şemalarını listeleyin
Veri modellemede başlıca iki tür şema vardır: 1) Yıldız şeması ve 2) Kar Tanesi şeması.
4) Yapılandırılmış ve yapılandırılmamış veriler arasında ayrım yapın
Yapılandırılmış ve yapılandırılmamış veriler arasındaki fark aşağıda verilmiştir:
Parametre | Yapılandırılmış Veriler | Yapılandırılmamış Veriler |
Depolama | DBMS | Yönetilmeyen dosya yapıları |
Standart | ADO.net, ODBC ve SQL | STMP, XML, CSV ve SMS |
Entegrasyon Aracı | ELT (Çıkar, Dönüştür, Yükle) | Kodları içeren manuel veri girişi veya toplu işleme |
ölçekleme | Şema ölçeklendirmesi zordur | Ölçeklendirme çok kolaydır. |
5) Bir Hadoop uygulamasının tüm bileşenlerini açıklayın
Hadoop uygulamasının bileşenleri aşağıdadır:
- Hadoop Common: Hadoop tarafından kullanılan ortak bir yardımcı programlar ve kitaplıklar kümesidir.
- HDFS: Bu Hadoop uygulaması, Hadoop verilerinin depolandığı dosya sistemiyle ilgilidir. Yüksek bant genişliğine sahip dağıtılmış bir dosya sistemidir.
- Hadoop MapReduce: Büyük ölçekli veri işleme sağlanması için algoritmaya göre temel alınır.
- Hadoop İPLİK: Hadoop kümesi içinde kaynak yönetimi için kullanılır. Kullanıcılar için görev planlaması için de kullanılabilir.
6) NameNode nedir?
HDFS'nin en önemli parçasıdır. HDFS verilerini depolar ve kümelerdeki çeşitli dosyaları izler. Burada gerçek veriler saklanmaz. Veriler DataNode'larda saklanır.
7) Hadoop akışını tanımlayın
Haritanın oluşturulmasına izin veren ve işleri azaltan ve bunları belirli bir kümeye gönderen bir yardımcı programdır.
8) HDFS'nin tam biçimi nedir?
HDFS, Hadoop Dağıtılmış Dosya Sistemi anlamına gelir.
9) HDFS'de Blok ve Blok Tarayıcıyı Tanımlayın
Bloklar, bir veri dosyasının en küçük birimidir. Hadoop, büyük dosyaları otomatik olarak küçük parçalara ayırır.
Block Scanner, DataNode'da sunulan blokların listesini doğrular.
10) Blok Tarayıcı bozuk bir veri bloğu algıladığında ortaya çıkan adımlar nelerdir?
Aşağıda, Blok Tarayıcı bozuk bir veri bloğu bulduğunda ortaya çıkan adımlar verilmiştir:
1) Öncelikle, Blok Tarayıcı bozuk bir veri bloğu bulduğunda DataNode, NameNode'a rapor verir.
2) NameNode, bozuk bloğun bir kopyasını kullanarak yeni bir kopya oluşturma işlemini başlatır.
3) Doğru eşlemelerin çoğaltma sayısı, çoğaltma faktörüyle eşleşmeye çalışır. Eşleşme bulunursa bozuk veri bloğu silinmeyecektir.
11) NameNode'un DataNode'dan aldığı iki mesaj adlandırılsın mı?
NameNode'un DataNode'dan aldığı iki mesaj vardır. Bunlar 1) Blok raporu ve 2) Kalp atışıdır.
12) Hadoop'ta çeşitli XML yapılandırma dosyalarını listeleyin.
Hadoop'ta beş XML yapılandırma dosyası vardır:
- Haritalı site
- Çekirdek site
- HDFS sitesi
- İplik sitesi
13) Büyük verinin dört V'si nedir?
Dört V büyük veri:
- Hız
- Çeşitlilik
- Ses
- Doğruluk
14) Hadoop'un özelliklerini açıklayın
Hadoop'un önemli özellikleri şunlardır:
- Ücretsiz olarak kullanılabilen açık kaynaklı bir çerçevedir.
- Hadoop, birçok donanım türüyle uyumludur ve belirli bir düğümdeki yeni donanıma erişimi kolaydır.
- Hadoop, verilerin daha hızlı dağıtılmış işlenmesini destekler.
- Verileri, işlemlerin geri kalanından bağımsız olan kümede depolar.
- Hadoop, farklı düğümlere sahip her blok için 3 kopya oluşturmaya izin verir.
15) Redüktörün ana yöntemlerini açıklayın
- setup (): Giriş verilerinin boyutu ve dağıtılmış önbellek gibi parametreleri yapılandırmak için kullanılır.
- cleanup (): Bu yöntem, geçici dosyaları temizlemek için kullanılır.
- azaltmak (): İlgili azaltılmış görevle anahtar başına bir kez çağrılan redüktörün kalbidir.
16) COSHH'nin kısaltması nedir?
COSHH'nin kısaltması, Heterojen Hadoop sistemleri için Sınıflandırma ve Optimizasyona dayalı Çizelgedir.
17) Yıldız Şemasını Açıklayın
Yıldız Şeması veya Yıldız Birleştirme Şeması, Veri Ambarı şemasının en basit türüdür. Yapısı yıldız gibi olduğu için yıldız şeması olarak bilinir. Yıldız şemasında, yıldızın merkezinde bir olgu tablosu ve birden çok ilişkili boyut tablosu olabilir. Bu şema, büyük veri kümelerini sorgulamak için kullanılır.
18) Büyük veri çözümü nasıl devreye alınır?
Bir büyük veri çözümünü dağıtmak için aşağıdaki adımları izleyin.
1) RDBMS, SAP, MySQL, Salesforce gibi veri kaynaklarını kullanarak verileri entegre edin
2) Çıkarılan verileri NoSQL veritabanında veya HDFS'de saklayın.
3) Pig, Spark ve MapReduce gibi işleme çerçevelerini kullanarak büyük veri çözümünü dağıtın.
19) FSCK'yı açıklayın
Dosya Sistem Kontrolü veya FSCK, HDFS tarafından kullanılan komuttur. FSCK komutu, dosyadaki tutarsızlıkları ve problemleri kontrol etmek için kullanılır.
20) Kar Tanesi Şemasını Açıklayın
Bir Kar Tanesi Şeması, bir Yıldız Şemasının bir uzantısıdır ve ek boyutlar ekler. Şeması bir Kar Tanesine benzediği için kar tanesi olarak adlandırılır. Verileri ek tablolara bölen boyut tabloları normalleştirilir.
21) Yıldız ve Kar Tanesi Şemasını birbirinden ayırın
Star | SnowFlake Şeması |
Boyutlar hiyerarşileri boyut tablosunda saklanır. | Her hiyerarşi ayrı tablolarda saklanır. |
Veri yedekliliği şansı yüksektir | Veri yedekliliği şansı düşüktür. |
Çok basit bir DB tasarımına sahiptir | Karmaşık bir DB tasarımına sahiptir |
Küp işleme için daha hızlı bir yol sağlayın | Karmaşık birleştirme nedeniyle küp işleme yavaş. |
22) Hadoop dağıtılmış dosya sistemini açıklayın
Hadoop; S3, HFTP FS, FS ve HDFS gibi ölçeklenebilir dağıtılmış dosya sistemleriyle çalışır. Hadoop Dağıtılmış Dosya Sistemi, Google Dosya Sistemi üzerinde yapılmıştır. Bu dosya sistemi, bilgisayar sisteminin büyük bir kümesi üzerinde kolaylıkla çalışabilecek şekilde tasarlanmıştır.
23) Bir veri mühendisinin temel sorumluluklarını açıklayın
Veri mühendislerinin birçok sorumluluğu vardır. Veri kaynak sistemini yönetirler. Veri mühendisleri, karmaşık veri yapısını basitleştirir ve verilerin yeniden çoğaltılmasını önler. Çoğu zaman ELT ve veri dönüşümü de sağlarlar.
24) İPLİK'in tam formu nedir?
YARN'ın tam formu Bir Başka Kaynak Müzakerecisidir.
25) Hadoop'ta çeşitli modları listeleyin
Hadoop'taki modlar 1) Bağımsız moddur 2) Sözde dağıtılmış mod 3) Tamamen dağıtılmış moddur.
26) Hadoop'ta güvenlik nasıl sağlanır?
Hadoop'ta güvenliği sağlamak için aşağıdaki adımları uygulayın:
1) İlk adım, istemcinin kimlik doğrulama kanalının sunucuya güvenliğini sağlamaktır. Müşteriye zaman damgası ekleyin.
2) İkinci adımda, müşteri aldığı zaman damgasını kullanarak TGS'den bir hizmet bileti talep eder.
3) Son adımda, istemci, belirli bir sunucuya kendi kendine kimlik doğrulama için hizmet bileti kullanır.
27) Hadoop'ta Kalp Atışı nedir?
Hadoop'ta NameNode ve DataNode birbiriyle iletişim kurar. Sinyal, varlığını göstermek için DataNode tarafından NameNode'a düzenli olarak gönderilen sinyaldir.
28) Hadoop'ta NAS ve DAS arasında ayrım yapın
NAS | DAS |
Depolama kapasitesi bayt olarak 10 9 ila 10 12'dir . | Depolama kapasitesi bayt olarak 10 9'dur . |
GB başına yönetim maliyeti orta düzeydedir. | GB başına yönetim maliyeti yüksektir. |
Verileri Ethernet veya TCP / IP kullanarak iletin. | IDE / SCSI kullanarak verileri iletin |
29) Veri mühendisi tarafından kullanılan önemli alanları veya dilleri listeleyin
Veri mühendisi tarafından kullanılan birkaç alan veya dil:
- Olasılık yanı sıra doğrusal cebir
- Makine öğrenme
- Trend analizi ve regresyon
- Hive QL ve SQL veritabanları
30) Büyük Veri nedir?
Geleneksel veri depolama yöntemleriyle kolayca işlenemeyen büyük miktarda yapılandırılmış ve yapılandırılmamış veridir. Veri mühendisleri, büyük verileri yönetmek için Hadoop'u kullanıyor.
31) FIFO planlaması nedir?
Bir Hadoop İş planlama algoritmasıdır. Bu FIFO planlamasında, bir muhabir, önce en eski iş olmak üzere bir iş kuyruğundan işleri seçer.
32) Görev izleyicinin, Ad Düğümünün ve iş izleyicinin Hadoop'ta çalıştığı varsayılan bağlantı noktası numaralarından bahsedin
Hadoop'ta görev izleyicinin, Ad Düğümünün ve iş izleyicinin çalıştığı varsayılan bağlantı noktası numaraları aşağıdaki gibidir:
- Görev izleyici, 50060 bağlantı noktasında çalışır
- NameNode, 50070 bağlantı noktasında çalışır
- Job Tracker, 50030 bağlantı noktasında çalışır
33) HDFS Veri Düğümünde Blok Tarayıcı nasıl devre dışı bırakılır
HDFS Veri Düğümünde Blok Tarayıcıyı devre dışı bırakmak için, dfs.datanode.scan.period.hours'u 0 olarak ayarlayın.
34) Hadoop'ta iki düğüm arasındaki mesafe nasıl tanımlanır?
Mesafe, en yakın düğümlere olan mesafenin toplamına eşittir. GetDistance () yöntemi, iki düğüm arasındaki mesafeyi hesaplamak için kullanılır.
35) Neden Hadoop'ta emtia donanımı kullanmalı?
Emtia donanımının elde edilmesi kolaydır ve ekonomiktir. Windows, MS-DOS veya Linux ile uyumlu bir sistemdir.
36) HDFS'de çoğaltma faktörünü tanımlayın
Çoğaltma faktörü, sistemdeki bir dosyanın toplam kopya sayısıdır.
37) NameNode'da hangi veriler saklanır?
Namenode, blok bilgileri ve ad alanı bilgileri gibi HDFS meta verilerini depolar.
38) Rack Awareness derken neyi kastediyorsunuz?
Haddop kümesinde Namenode, Okuma veya Yazma isteği için yakındaki rafa daha yakın olan herhangi bir dosyayı okurken veya yazarken ağ trafiğini iyileştirmek için Datanode'u kullanır. Namenode, raf bilgilerini elde etmek için her DataNode'un raf kimliğini korur. Bu kavram, Hadoop'ta Raf Farkındalığı olarak adlandırılır.
39) İkincil İsim Düğümünün işlevleri nelerdir?
İkincil Ad Düğümünün işlevleri aşağıdadır:
- EditLog ve FsImage dosyasının bir kopyasını saklayan FsImage.
- NameNode çökmesi: NameNode çökerse, Secondary NameNode'un FsImage'ı NameNode'u yeniden oluşturmak için kullanılabilir.
- Kontrol Noktası: İkincil Ad Düğümü tarafından verilerin HDFS'de bozulmadığını doğrulamak için kullanılır.
- Güncelleme: EditLog ve FsImage dosyasını otomatik olarak günceller. İkincil Ad Düğümündeki FsImage dosyasının güncellenmesine yardımcı olur.
40) NameNode çalışmadığında ve kullanıcı yeni bir iş gönderdiğinde ne olur?
NameNode, Hadoop'taki tek hata noktasıdır, bu nedenle kullanıcı yeni bir iş gönderemez ve yürütülemez. NameNode çalışmıyorsa, bu kullanıcının herhangi bir işi çalıştırmadan önce NameNode'un yeniden başlamasını beklemesi gerektiğinden iş başarısız olabilir.
41) Hadoop'ta redüktörün temel aşamaları nelerdir?
Hadoop'ta bir redüktörün üç temel aşaması vardır:
1. Shuffle: Burada Reducer, Mapper'dan çıktıyı kopyalar.
2. Sırala: Sıralamada, Hadoop aynı anahtarı kullanarak girişi Redüktör olarak sıralar.
3. Azaltma: Bu aşamada, bir anahtarla ilişkili çıktı değerleri, verileri nihai çıktıda konsolide etmek için azaltılır.
42) Hadoop neden Bağlam nesnesi kullanıyor?
Hadoop çerçevesi, kalan sistemle etkileşim kurmak için Mapper sınıfıyla birlikte Context nesnesini kullanır. Bağlam nesnesi, yapıcısındaki sistem yapılandırma ayrıntılarını ve işi alır.
Setup (), cleanup () ve map () yöntemlerinde bilgileri iletmek için Context nesnesini kullanıyoruz. Bu nesne, harita işlemleri sırasında hayati bilgileri kullanılabilir hale getirir.
43) Hadoop'ta Birleştiriciyi Tanımlayın
Harita ve Azaltma arasında isteğe bağlı bir adımdır. Combiner, Map işlevinden çıktı alır, anahtar değer çiftleri oluşturur ve Hadoop Reducer'a gönderir. Birleştiricinin görevi, Harita'daki nihai sonucu aynı anahtarla özet kayıtlara özetlemektir.
44) HDFS'de bulunan varsayılan çoğaltma faktörü nedir Bu ne anlama gelir?
HDFS'de bulunan varsayılan çoğaltma faktörü üçtür. Varsayılan çoğaltma faktörü, her verinin üç kopyası olacağını gösterir.
45) Hadoop'ta Veri Yerelliği ne demek?
Bir Büyük Veri sisteminde veri boyutu çok büyüktür ve bu nedenle verileri ağ üzerinden taşımak mantıklı değildir. Şimdi, Hadoop hesaplamayı verilere yaklaştırmaya çalışıyor. Bu şekilde, veriler depolanan konuma yerel olarak kalır.
46) HDFS'de Dengeleyiciyi Tanımlayın
HDFS'de dengeleyici, yönetici personel tarafından DataNode'larda verileri yeniden dengelemek için kullanılan bir yönetim sistemidir ve blokları fazla kullanılan düğümlerden yetersiz kullanılan düğümlere taşır.
47) HDFS'de Güvenli modu açıklayın
Bir kümedeki Salt Okunur bir NameNode modudur. Başlangıçta, NameNode Güvenli Moddadır. Safemode'da dosya sistemine yazmayı engeller. Şu anda, tüm DataNode'lardan veri ve istatistik toplar.
48) Apache Hadoop'ta Dağıtılmış Önbelleğin önemi nedir?
Hadoop, uygulamalar tarafından kullanılan dosyaları önbelleğe alarak işlerin performansını artıran, Dağıtılmış Önbellek adı verilen kullanışlı bir yardımcı program özelliğine sahiptir. Bir uygulama, JobConf yapılandırmasını kullanarak önbellek için bir dosya belirleyebilir.
Hadoop çerçevesi, bu dosyaların bir görevin yürütülmesi gereken düğümlere kopyasını yapar. Bu, görevin yürütülmesi başlamadan önce yapılır. Dağıtılmış Önbellek, salt okunur dosyaların yanı sıra zip ve jar dosyalarının dağıtımını destekler.
49) Hive'da Metastore nedir?
Şemayı ve Hive tablo konumunu depolar.
Kovan tablosu, Metastore'da depolanan meta verileri, eşlemeleri ve tanımlar. Bu, JPOX tarafından desteklenen RDBMS'de saklanabilir.
50) SerDe in Hive ile ne anlama geliyor?
SerDe, Serializer veya Deserializer'ın kısa adıdır. Hive'da SerDe, tablodan verileri okumanıza ve istediğiniz formatta belirli bir alana yazmanıza izin verir.
51) Hive veri modelinde bulunan bileşenleri listeleyin
Hive veri modelinde aşağıdaki bileşenler vardır:
- Tablolar
- Bölümler
- Kovalar
52) Hadoop ekosisteminde Hive'ın kullanımını açıklar.
Hive, Hadoop ekosisteminde depolanan verileri yönetmek için bir arayüz sağlar. Hive, HBase tablolarını haritalamak ve bunlarla çalışmak için kullanılır. Hive sorguları, MapReduce işlerinin yaratılması ve çalıştırılmasıyla ilişkili karmaşıklığı gizlemek için MapReduce işlerine dönüştürülür.
53) Çeşitli karmaşık veri türlerini listeleyin / toplama Hive tarafından desteklenir
Hive, aşağıdaki karmaşık veri türlerini destekler:
- Harita
- Struct
- Dizi
- Birlik
54) Hive'daki .hiverc dosyasının nasıl kullanıldığını açıklayın.
Hive'da .hiverc, başlatma dosyasıdır. Bu dosya başlangıçta Hive için Komut Satırı Arayüzü (CLI) başlatıldığında yüklenir. .Hiverc dosyasında parametrelerin başlangıç değerlerini ayarlayabiliriz.
55) Tek bir veri dosyası için Hive'da birden fazla tablo oluşturmak mümkün müdür?
Evet, bir veri dosyası için birden fazla tablo şeması oluşturabiliriz. Hive, şemayı Hive Metastore'da kaydeder. Bu şemaya dayanarak, aynı Verilerden farklı sonuçlar alabiliriz.
56) Hive'da bulunan farklı SerDe uygulamalarını açıklayın
Hive'da pek çok SerDe uygulaması vardır. Ayrıca kendi özel SerDe uygulamanızı da yazabilirsiniz. Aşağıda bazı ünlü SerDe uygulamaları verilmiştir:
- OpenCSVSerde
- RegexSerDe
- SınırlandırılmışJSONSerDe
- ByteStreamTypedSerDe
57) Hive'da mevcut olan fonksiyonları üreten liste tablosu
Aşağıda, tablo oluşturma işlevlerinin bir listesi verilmiştir:
- Patlat (dizi)
- JSON_tuple ()
- Yığın ()
- Patlat (harita)
58) Kovan'daki Eğik tablo nedir?
Eğik tablo, sütun değerlerini daha sık içeren bir tablodur. Hive'da, oluşturma sırasında bir tabloyu ÇARPIK olarak belirttiğimizde, çarpık değerler ayrı dosyalara yazılır ve kalan değerler başka bir dosyaya gider.
59) MySQL'de create ifadesi tarafından oluşturulan nesneleri listeleyin.
MySQL'de create ifadesi ile oluşturulan nesneler aşağıdaki gibidir:
- Veri tabanı
- Dizin
- Tablo
- Kullanıcı
- Prosedür
- Tetikleyici
- Etkinlik
- Görünüm
- Fonksiyon
60) MySQL'de veritabanı yapısını nasıl görebilirim?
MySQL'de veritabanı yapısını görmek için kullanabilirsiniz
DESCRIBE komutu. Bu komutun sözdizimi DESCRIBE Table name;
61) MySQL tablo sütununda belirli bir String nasıl aranır?
MySQL sütununda bir Dize aramak için normal ifade operatörünü kullanın. Burada ayrıca çeşitli normal ifade türlerini tanımlayabilir ve normal ifadeyi kullanmayı arayabiliriz.
62) Veri analitiğinin ve büyük verinin şirket gelirini nasıl artırabileceğini açıklayın.
Veri analitiğinin ve büyük verinin şirket gelirini nasıl artırabileceği aşağıda açıklanmıştır:
- İşletmenizin büyümesini sağlamak için verileri verimli bir şekilde kullanın.
- Müşteri değerini artırın.
- Personel düzeyi tahminlerini iyileştirmek için analitik hale getiriliyor.
- Organizasyonların üretim maliyetlerini düşürmek.