İlk 60 Hadoop & MapReduce Mülakat Soruları & Yanıtlar

Anonim

PDF İndir

Aşağıda, tecrübeli geliştiricilerin yanı sıra yeni başlayanlar için röportajlarda sık sorulan sorular bulunmaktadır.

1) Hadoop Map Reduce nedir?

Büyük veri kümelerini bir Hadoop kümesinde paralel olarak işlemek için Hadoop MapReduce çerçevesi kullanılır. Veri analizi, iki aşamalı bir harita kullanır ve süreci azaltır.

2) Hadoop MapReduce nasıl çalışır?

MapReduce'da, harita aşamasında, her belgedeki sözcükleri sayarken, azaltma aşamasında tüm koleksiyonu kapsayan belgeye göre verileri toplar. Harita aşaması sırasında, girdi verileri Hadoop çerçevesi boyunca paralel olarak çalışan harita görevleriyle analiz edilmek üzere bölünür.

3) MapReduce'ta karıştırmanın ne olduğunu açıklayın?

Sistemin sıralamayı gerçekleştirdiği ve harita çıktılarını girdiler olarak indirgeyiciye aktardığı süreç, karıştırma olarak bilinir.

4) MapReduce Framework'te dağıtılmış Cache nedir açıklayın?

Dağıtılmış Önbellek, MapReduce çerçevesi tarafından sağlanan önemli bir özelliktir. Hadoop Kümesindeki tüm düğümler arasında bazı dosyaları paylaşmak istediğinizde Dağıtılmış Önbellek kullanılır. Dosyalar, çalıştırılabilir bir jar dosyaları veya basit özellikler dosyası olabilir.

5) Hadoop'ta NameNode nedir?

Hadoop'taki NameNode, Hadoop'un tüm dosya konumu bilgilerini HDFS'de (Hadoop Dağıtılmış Dosya Sistemi) depoladığı düğümdür. Başka bir deyişle, NameNode, bir HDFS dosya sisteminin en önemli parçasıdır. Dosya sistemindeki tüm dosyaların kaydını tutar ve küme veya birden çok makinedeki dosya verilerini izler

6) Hadoop'ta JobTracker nedir? Hadoop'un izlediği eylemler nelerdir?

Hadoop'ta MapReduce işlerini göndermek ve izlemek için JobTracker kullanılır. İş izleyici kendi JVM sürecinde çalışır

Job Tracker, Hadoop'ta aşağıdaki eylemleri gerçekleştirir

  • İstemci başvurusu işleri iş izleyiciye gönderir
  • JobTracker, veri konumunu belirlemek için Ad modu ile iletişim kurar
  • Verilerin yakınında veya mevcut yuvalarda JobTracker, TaskTracker düğümlerini bulur
  • Seçilen TaskTracker Düğümlerinde, işi gönderir
  • Bir görev başarısız olduğunda, İş izleyici bunu bildirir ve ne yapılacağına karar verir.
  • TaskTracker düğümleri JobTracker tarafından izlenir

7) HDFS'de kalp atışı nedir?

Heartbeat, bir veri düğümü ile Ad düğümü arasında ve görev izleyici ile iş izleyici arasında kullanılan bir sinyale atıfta bulunur; Ad düğümü veya iş izleyici sinyale yanıt vermezse, veri düğümü veya görevle ilgili bazı sorunlar olduğu kabul edilir. izci

8) Birleştiricinin ne olduğunu ve MapReduce İşinde bir birleştiriciyi ne zaman kullanmanız gerektiğini açıklayın.

MapReduce Programının verimliliğini artırmak için Birleştiriciler kullanılır. İndirgeyicilere aktarılması gereken birleştiriciler yardımıyla veri miktarı azaltılabilir. Yapılan işlem değişmeli ve ilişkisel ise redüktör kodunuzu birleştirici olarak kullanabilirsiniz. Hadoop'ta birleştiricinin çalışması garanti edilmez

9) Bir veri düğümü başarısız olduğunda ne olur?

Bir veri düğümü başarısız olduğunda

  • Jobtracker ve isim kodu arızayı tespit eder
  • Başarısız olan düğümde tüm görevler yeniden planlanır
  • Namenode, kullanıcının verilerini başka bir düğüme kopyalar

10) Spekülatif İnfaz nedir?

Spekülatif Yürütme sırasında Hadoop'ta, belirli sayıda yinelenen görev başlatılır. Farklı bir bağımlı düğümde, aynı haritanın birden çok kopyası veya küçültme görevi Spekülatif Yürütme kullanılarak yürütülebilir. Basit bir deyişle, belirli bir sürücünün bir görevi tamamlaması uzun sürüyorsa, Hadoop başka bir diskte yinelenen bir görev oluşturacaktır. Görevi ilk bitiren disk tutulur ve ilk bitirmeyen diskler öldürülür.

11) Bir Mapper'ın temel parametrelerinin neler olduğunu açıklayın.

Bir Eşleştiricinin temel parametreleri şunlardır:

  • Uzun Yazılabilir ve Metin
  • Metin ve Yazılabilir

12) MapReduce bölümleyicisinin işlevinin ne olduğunu açıklayın?

MapReduce bölümleyicisinin işlevi, tek bir anahtarın tüm değerinin aynı indirgeyiciye gitmesini sağlamaktır, bu da nihayetinde harita çıktısının düşürücüler üzerinde eşit dağılımına yardımcı olur.

13) Bir Giriş Bölme ile HDFS Bloğu arasındaki farkın ne olduğunu açıklayın.

Mantıksal veri bölümü Bölme olarak bilinirken, fiziksel bir veri bölümü HDFS Bloğu olarak bilinir.

14) Metin biçiminde neler olduğunu açıklayın?

Metin giriş biçiminde, metin dosyasındaki her satır bir kayıttır. Değer, satırın içeriğidir, Key ise satırın bayt uzaklığıdır. Örneğin, Anahtar: longWritable, Değer: metin

15) Kullanıcının MapReduce Job'u çalıştırmak için belirtmesi gereken ana yapılandırma parametrelerinden bahsedin?

MapReduce çerçevesinin kullanıcısı şunu belirtmelidir:

  • İşin dağıtılmış dosya sistemindeki girdi konumları
  • İşin dağıtılmış dosya sistemindeki çıktı konumu
  • Giriş biçimi
  • Çıkış biçimi
  • Harita işlevini içeren sınıf
  • Azaltma işlevini içeren sınıf
  • Eşleştirici, indirgeyici ve sürücü sınıflarını içeren JAR dosyası

16) Hadoop'ta WebDAV nedir?

Dosyaları düzenlemeyi ve güncellemeyi desteklemek için WebDAV, HTTP için bir dizi uzantıdır. Çoğu işletim sisteminde WebDAV paylaşımları dosya sistemleri olarak bağlanabilir, bu nedenle HDFS'yi WebDAV üzerinden açığa çıkararak standart bir dosya sistemi olarak HDFS'ye erişmek mümkündür.

17) Hadoop'ta Sqoop nedir?

Verileri İlişkisel veritabanı yönetimi (RDBMS) ile Hadoop HDFS arasında aktarmak için Sqoop olarak bilinen bir araç kullanılır. Sqoop verilerinin kullanılması, MySQL veya Oracle gibi RDMS'den HDFS'ye aktarılabilir ve ayrıca HDFS dosyasından RDBMS'ye veri aktarılabilir

18) JobTracker'ın bir görevi nasıl planladığını açıklayın.

Görev izleyici, JobTracker'ın etkin ve çalışır durumda olduğundan emin olmak için genellikle birkaç dakikada bir Jobtracker'a kalp atışı mesajları gönderir. Mesaj aynı zamanda JobTracker'ı kullanılabilir slot sayısı hakkında bilgilendirir, böylece JobTracker küme çalışmasının delege edilebileceği yerlerde güncel kalabilir.

19) Sequencefileinputformat nedir açıklayın?

Sequencefileinputformat, dosyaları sırayla okumak için kullanılır. Verileri bir MapReduce işinin çıktısı arasında başka bir MapReduce işinin girdisine geçirmek için optimize edilmiş özel bir sıkıştırılmış ikili dosya formatıdır.

20) conf.setMapper Sınıfının ne yaptığını açıklayın?

Conf.setMapperclass, eşleyici sınıfını ve veri okuma ve eşleyiciden bir anahtar-değer çifti oluşturma gibi eşleme işi ile ilgili tüm şeyleri ayarlar.

21) Hadoop'un ne olduğunu açıklayın?

Verileri depolamak ve emtia donanım kümeleri üzerinde uygulamaları çalıştırmak için açık kaynaklı bir yazılım çerçevesidir. Her tür veri için muazzam işlem gücü ve devasa depolama sağlar.

22) RDBMS ile Hadoop arasındaki farkın ne olduğundan bahsedin?

RDBMS Hadoop
RDBMS ilişkisel bir veritabanı yönetim sistemidir Hadoop, düğüm tabanlı düz bir yapıdır
OLTP işleme için kullanılırken Hadoop Şu anda analitik ve BÜYÜK VERİ işleme için kullanılmaktadır
RDBMS'de, veritabanı kümesi paylaşılan bir depolamada depolanan aynı veri dosyalarını kullanır Hadoop'ta, depolama verileri her işleme düğümünde bağımsız olarak depolanabilir.
Verileri depolamadan önce önceden işlemeniz gerekir verileri depolamadan önce önceden işlemenize gerek yoktur

23) Hadoop çekirdek bileşenlerinden bahsediyor musunuz?

Hadoop çekirdek bileşenleri şunları içerir:

  • HDFS
  • Harita indirgeme

24) Hadoop'ta NameNode nedir?

Hadoop'taki NameNode, Hadoop'un tüm dosya konumu bilgilerini HDFS'de sakladığı yerdir. İş izleyicinin üzerinde çalıştığı ve meta verilerden oluşan ana düğümdür.

25) Hadoop tarafından kullanılan veri bileşenlerinden bahsedin?

Hadoop tarafından kullanılan veri bileşenleri

  • Domuz
  • Kovan

26) Hadoop tarafından kullanılan veri depolama bileşeninin ne olduğundan bahsedin?

Hadoop tarafından kullanılan veri depolama bileşeni HBase'dir.

27) Hadoop'ta tanımlanan en yaygın giriş biçimlerinden bahsedin?

Hadoop'ta tanımlanan en yaygın girdi biçimleri;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Hadoop'ta InputSplit nedir?

Girdi dosyalarını parçalara ayırır ve her bölmeyi işlenmesi için bir eşleyiciye atar.

29) Bir Hadoop işi için, özel bir bölümleyiciyi nasıl yazacaksınız?

Bir Hadoop işi için özel bir bölümleyici yazarsınız, aşağıdaki yolu takip edersiniz

  • Partitioner Class'ı genişleten yeni bir sınıf oluşturun
  • GetPartition yöntemini geçersiz kılma
  • MapReduce'u çalıştıran sarmalayıcıda
  • Yöntem seti Partitioner Class'ı kullanarak özel bölümleyiciyi işe ekleyin veya - özel bölümleyiciyi işe yapılandırma dosyası olarak ekleyin

30) Hadoop'ta bir iş için, oluşturulacak haritacıların sayısını değiştirmek mümkün müdür?

Hayır, oluşturulacak eşleyici sayısını değiştirmek mümkün değildir. Eşleştiricilerin sayısı, giriş bölmelerinin sayısına göre belirlenir.

31) Hadoop'ta sıra dosyası nedir?

İkili anahtar / değer çiftlerini saklamak için sıra dosyası kullanılır. Normal sıkıştırılmış dosyalardan farklı olarak, sıra dosyası, dosyanın içindeki veriler sıkıştırıldığında bile bölünmeyi destekler.

32) Namenode çalışmadığında job tracker'a ne olur?

Namenode, HDFS'deki tek hata noktasıdır, bu nedenle Namenode çalışmadığında kümeniz kapanır.

33) HDFS'de indekslemenin nasıl yapıldığını açıklayın.

Hadoop'un benzersiz bir indeksleme yöntemi vardır. Veriler blok boyutuna göre depolandıktan sonra, HDFS, verilerin bir sonraki bölümünün nerede olacağını belirten verilerin son bölümünü depolamaya devam edecektir.

34) Dosyaları joker karakter kullanarak aramanın mümkün olup olmadığını açıklayın.

Evet, dosyaları joker karakter kullanarak aramak mümkündür.

35) Hadoop'un üç yapılandırma dosyasını listeleyin?

Üç yapılandırma dosyası

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Namenode'un jps komutunun yanında çalışıp çalışmadığını nasıl kontrol edebileceğinizi açıklayın.

Jps komutunu kullanmanın yanı sıra, Namenode'un çalışıp çalışmadığını kontrol etmek için şunu da kullanabilirsiniz:

/etc/init.d/hadoop-0.20-namenode durumu.

37) "Harita" nedir ve Hadoop'ta "redüktör" nedir?

Hadoop'ta harita, HDFS sorgu çözmede bir aşamadır. Bir harita, verileri bir giriş konumundan okur ve giriş türüne göre bir anahtar-değer çifti çıkarır.

Hadoop'ta bir indirgeyici, eşleştirici tarafından üretilen çıktıyı toplar, işler ve kendi son çıktısını oluşturur.

38) Hadoop'ta, Hadoop'ta raporlamayı hangi dosya kontrol eder?

Hadoop'ta hadoop-metrics.properties dosyası raporlamayı kontrol eder.

39) Hadoop'u kullanmak için ağ gereksinimlerini listeleyin.

Hadoop'u kullanmak için ağ gereksinimleri listesi:

  • Şifresiz SSH bağlantısı
  • Sunucu işlemlerini başlatmak için Güvenli Kabuk (SSH)

40) Raf farkındalığı nedir?

Raf farkındalığı, ad kodunun, raf tanımlarına göre blokların nasıl yerleştirileceğini belirleme yöntemidir.

41) Hadoop'ta Görev İzleyici nedir?

Hadoop'taki bir Görev İzleyici, bir JobTracker'dan gelen görevleri kabul eden kümedeki bir bağımlı düğüm arka plan programıdır. Ayrıca, JobTracker'ın hala hayatta olduğunu onaylamak için birkaç dakikada bir JobTracker'a kalp atışı mesajları gönderir.

42) Ana düğümde ve ikincil düğümlerde hangi arka plan yordamlarının çalıştığından bahsedin?

  • Ana düğümde çalışan arka plan olayları "Ad Düğümü" dür
  • Her bir Bağımlı düğümde çalışan arka plan sunucuları "Görev İzleyici" ve "Veri" dir.

43) Hadoop kodunda nasıl hata ayıklayabileceğinizi açıklayın.

Hadoop kodunda hata ayıklamanın popüler yöntemleri şunlardır:

  • Hadoop çerçevesi tarafından sağlanan web arayüzünü kullanarak
  • Sayaçları kullanarak

44) Depolama ve hesaplama düğümlerinin ne olduğunu açıklayın?

  • Depolama düğümü, işleme verilerini depolamak için dosya sisteminizin bulunduğu makine veya bilgisayardır.
  • Hesaplama düğümü, gerçek iş mantığınızın yürütüleceği bilgisayar veya makinedir.

45) Bağlam Nesnesinin kullanımı nedir?

Bağlam Nesnesi, eşleyicinin Hadoop'un geri kalanıyla etkileşime girmesini sağlar

sistemi. İş için yapılandırma verilerini ve ayrıca çıktı vermesine izin veren arayüzleri içerir.

46) Mapper veya MapTask'tan sonraki adım nedir?

Mapper veya MapTask'tan sonraki adım, Mapper'ın çıktısının sıralanması ve çıktı için bölümlerin oluşturulmasıdır.

47) Hadoop'taki varsayılan bölümleyicinin sayısından bahsedin?

Hadoop'ta, varsayılan bölümleyici "Hash" Partitioner'dır.

48) Hadoop'ta RecordReader'ın amacının ne olduğunu açıklayın.

Hadoop'ta, RecordReader verileri kaynağından yükler ve Eşleştirici tarafından okunmaya uygun (anahtar, değer) çiftlerine dönüştürür.

49) Hadoop'ta özel bir bölümleyici tanımlanmamışsa, verilerin indirgeyiciye gönderilmeden önce nasıl bölümlendiğini açıklayın.

Hadoop'ta özel bölümleyici tanımlanmamışsa, varsayılan bölümleyici anahtar için bir karma değeri hesaplar ve sonuca göre bölümü atar.

50) Hadoop bir iş için 50 görev oluşturduğunda ve görevlerden biri başarısız olduğunda ne olacağını açıklayın.

Görev tanımlanan sınırdan daha fazla başarısız olursa, görevi başka bir TaskTracker'da yeniden başlatır.

51) HDFS kümeleri arasında dosya kopyalamanın en iyi yolu nedir?

HDFS kümeleri arasında dosya kopyalamanın en iyi yolu, birden çok düğüm ve distcp komutunu kullanmaktır, böylece iş yükü paylaşılır.

52) HDFS ve NAS arasındaki fark nedir?

HDFS veri blokları, bir kümedeki tüm makinelerin yerel sürücülerine dağıtılırken, NAS verileri özel donanımda depolanır.

53) Hadoop'un diğer veri işleme araçlarından ne kadar farklı olduğundan bahsediyor musunuz?

Hadoop'ta, işlenecek veri hacmi konusunda endişelenmeden eşleyici sayısını artırabilir veya azaltabilirsiniz.

54) Konf sınıfının hangi işi yaptığından bahsedin?

İş yapılandırma sınıfı, aynı kümede çalışan farklı işleri ayırır. Gerçek bir ortamda bir iş ilan etmek gibi iş seviyesi ayarlarını yapar.

55) Bir anahtar ve değer sınıfı için Hadoop MapReduce API'leri sözleşmesinin ne olduğundan bahsedin?

Bir anahtar ve değer sınıfı için iki Hadoop MapReduce API sözleşmesi vardır

  • Değer, org.apache.hadoop.io.Writable arabirimini tanımlamalıdır
  • Anahtar, org.apache.hadoop.io.WritableComparable arayüzünü tanımlamalıdır

56) Hadoop'un çalıştırılabileceği üç moddan bahsedin?

Hadoop'un çalıştırılabileceği üç mod şunlardır:

  • Sözde dağıtılmış mod
  • Bağımsız (yerel) mod
  • Tamamen dağıtılmış mod

57) Metin giriş biçiminin ne işe yaradığından bahsedin?

Metin giriş biçimi, onaltılık sayı olan bir satır nesnesi oluşturacaktır. Anahtar bir satır nesnesi olarak kabul edilirken, değer tam bir satır metni olarak kabul edilir. Eşleştirici, değeri "metin" parametresi, anahtar ise "uzun yazılabilir" parametre olarak alır.

58) Bir Hadoop Çerçevesi tarafından kaç adet InputSplits yapıldığından bahsedin?

Hadoop 5 bölme yapacak

  • 64K dosya için 1 bölme
  • 65mb dosyalar için 2 bölme
  • 127mb dosyalar için 2 bölme

59) Hadoop'ta dağıtılmış önbellek nedir?

Hadoop'ta dağıtılmış önbellek, MapReduce çerçevesi tarafından sağlanan bir olanaktır. İşin yürütülmesi sırasında, dosyayı önbelleğe almak için kullanılır. Çerçeve, bu düğümdeki herhangi bir görevin yürütülmesinden önce gerekli dosyaları bağımlı düğüme kopyalar.

60) Hadoop Classpath'in Hadoop arka plan yordamlarını durdurmada veya başlatmada nasıl hayati bir rol oynadığını açıklayın.

Sınıf yolu, arka plan yordamları durdurmak veya başlatmak için jar dosyalarını içeren dizinlerin bir listesinden oluşacaktır.