Data Lake nedir?
Veri Gölü, büyük miktarda yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriyi depolayabilen bir depolama havuzudur. Hesap boyutu veya dosyasında sabit sınırlar olmaksızın her tür veriyi yerel biçiminde depolayabileceğiniz bir yerdir. Analitik performansı ve yerel entegrasyonu artırmak için yüksek veri miktarı sunar.
Data Lake, gerçek göl ve nehirlere çok benzeyen büyük bir konteynır gibidir. Tıpkı bir gölde olduğu gibi, gelen birden fazla kolunuz olduğu gibi, bir veri gölünde yapılandırılmış veriler, yapılandırılmamış veriler, makineden makineye, gerçek zamanlı olarak akan günlükler vardır.
Data Lake, verileri demokratikleştirir ve bir kuruluşun tüm verilerini daha sonra işlenmek üzere depolamanın uygun maliyetli bir yoludur. Araştırma Analisti, verilerin kendisinde değil, verilerdeki anlam kalıplarını bulmaya odaklanabilir.
Verilerin Dosyalar ve Klasörde depolandığı hiyerarşik bir Dataware evinin aksine, Data lake düz bir mimariye sahiptir. Bir Veri Gölündeki her veri öğesine benzersiz bir tanımlayıcı verilir ve bir dizi meta veri bilgisi ile etiketlenir.
Bu eğitimde öğreneceksiniz-
- Data Lake nedir?
- Neden Data Lake?
- Data Lake Mimarisi
- Temel Veri Gölü Kavramları
- Data Lake'in olgunluk aşamaları
- Data Lake Uygulaması için en iyi uygulamalar:
- Veri gölleri ve Veri ambarı arasındaki fark
- Data Lake'i kullanmanın Yararları ve Riskleri:
Neden Data Lake?
Bir veri gölü oluşturmanın temel amacı, veri bilimcilerine verilerin rafine edilmemiş bir görünümünü sunmaktır.
Data Lake'i kullanma nedenleri şunlardır:
- Hadoop gibi depolama motorlarının başlamasıyla, farklı bilgilerin depolanması kolaylaştı. Veri Gölü ile kurumsal çapta bir şemaya veri modellemeye gerek yoktur.
- Veri hacmi, veri kalitesi ve meta verilerdeki artışla birlikte analizlerin kalitesi de artar.
- Data Lake iş çevikliği sunar
- Makine Öğrenimi ve Yapay Zeka, karlı tahminlerde bulunmak için kullanılabilir.
- Uygulayıcı kuruluşa rekabet avantajı sağlar.
- Veri silosu yapısı yoktur. Data Lake, müşterilerin 360 derecelik görünümünü sağlar ve analizi daha sağlam hale getirir.
Data Lake Mimarisi
Şekil, Business Data Lake mimarisini göstermektedir. Alt düzeyler, çoğunlukla hareketsiz durumda olan verileri temsil ederken, üst düzeyler gerçek zamanlı işlem verilerini gösterir. Bu veriler, hiç gecikme olmadan veya çok az gecikme ile sistem boyunca akar. Data Lake Mimarisindeki önemli katmanlar şunlardır:
- Besleme Katmanı : Sol taraftaki katmanlar, veri kaynaklarını gösterir. Veriler veri gölüne toplu olarak veya gerçek zamanlı olarak yüklenebilir
- İçgörüler Katmanı: Sağdaki katmanlar, sistemden elde edilen içgörülerin kullanıldığı araştırma tarafını temsil eder. Veri analizi için SQL, NoSQL sorguları ve hatta excel kullanılabilir.
- HDFS , hem yapılandırılmış hem de yapılandırılmamış veriler için uygun maliyetli bir çözümdür. Sistemde durmakta olan tüm veriler için bir iniş bölgesidir.
- Damıtma katmanı , verileri depolama lastiğinden alır ve daha kolay analiz için yapılandırılmış verilere dönüştürür.
- İşleme katmanı , daha kolay analiz için yapılandırılmış veriler oluşturmak üzere analitik algoritmaları ve kullanıcı sorgularını değişen gerçek zamanlı, etkileşimli, toplu olarak çalıştırır.
- Birleştirilmiş işlemler katmanı, sistem yönetimini ve izlemeyi yönetir. Denetim ve yeterlilik yönetimi, veri yönetimi, iş akışı yönetimi içerir.
Temel Veri Gölü Kavramları
Aşağıda Data Lake Mimarisini tamamen anlamak için anlaşılması gereken Anahtar Data Lake kavramları verilmiştir.
Veri Alımı
Veri Besleme, bağlayıcıların farklı veri kaynaklarından veri almasına ve Veri gölüne yüklemesine olanak tanır.
Veri Besleme şunları destekler:
- Her türlü Yapılandırılmış, Yarı Yapılandırılmış ve Yapılandırılmamış veri.
- Toplu, Gerçek Zamanlı, Tek seferlik yükleme gibi birden çok besleme.
- Veritabanları, Web Sunucuları, E-postalar, IoT ve FTP gibi birçok veri kaynağı türü.
Veri depolama
Veri depolama ölçeklenebilir olmalı, uygun maliyetli depolama sunmalı ve veri keşiflerine hızlı erişim sağlamalıdır. Çeşitli veri formatlarını desteklemelidir.
Veri yönetimi
Veri yönetişimi, bir kuruluşta kullanılan verilerin kullanılabilirliğini, kullanılabilirliğini, güvenliğini ve bütünlüğünü yönetme sürecidir.
Güvenlik
Veri gölünün her katmanında güvenliğin uygulanması gerekir. Depolama, Açığa Çıkarma ve Tüketim ile başlar. Temel ihtiyaç, yetkisiz kullanıcıların erişimini durdurmaktır. Gezinmesi kolay GUI ve Dashboard'larla verilere erişmek için farklı araçları desteklemelidir.
Kimlik Doğrulama, Muhasebe, Yetkilendirme ve Veri Koruma, veri gölü güvenliğinin bazı önemli özellikleridir.
Veri kalitesi:
Veri kalitesi, Data Lake mimarisinin önemli bir bileşenidir. Veriler, iş değerini kesinleştirmek için kullanılır. Düşük kaliteli verilerden içgörüler çıkarmak, düşük kaliteli içgörülere yol açacaktır.
Veri Keşfi
Veri Keşfi, veri veya analiz hazırlamaya başlamadan önceki bir başka önemli aşamadır. Bu aşamada, Veri gölüne alınan verilerin düzenlenmesi ve yorumlanması yoluyla verilerin anlaşılmasını ifade etmek için etiketleme tekniği kullanılır.
Veri Denetimi
İki ana Veri denetim görevi, anahtar veri kümesindeki değişiklikleri izlemektir.
- Önemli veri kümesi öğelerindeki değişiklikleri izleme
- Bu öğelere nasıl / ne zaman / ve kimin değiştiğini yakalar.
Veri denetimi, risk ve uyumluluğun değerlendirilmesine yardımcı olur.
Veri Köken
Bu bileşen, verilerin kökenleriyle ilgilenir. Esas olarak zaman içinde nereye hareket ettiği ve ona ne olduğu ile ilgilenir. Başlangıçtan varış noktasına bir veri analizi sürecindeki hata düzeltmelerini kolaylaştırır.
Veri Keşfi
Veri analizinin başlangıç aşamasıdır. Veri Keşfetmeye başlamadan önce doğru veri kümesinin belirlenmesine yardımcı olur.
Verili tüm bileşenlerin, Data lake yapısında önemli bir rol oynaması için birlikte çalışması gerekir. Çevreyi kolayca geliştirip keşfedebilirsiniz.
Data Lake'in olgunluk aşamaları
Data Lake Olgunluk aşamalarının tanımı ders kitabından diğerine farklılık gösterir. İşin özü aynı kalsa da. Olgunluğu takiben, aşama tanımı sıradan bir bakış açısındandır.
1. Aşama: Verileri geniş ölçekte işleyin ve kullanın
Veri Olgunluğunun bu ilk aşaması, verileri dönüştürme ve analiz etme yeteneğini geliştirmeyi içerir. Burada, işletme sahiplerinin daha fazla veri elde etmek ve analitik uygulamalar oluşturmak için becerilerine göre araçları bulması gerekir.
Aşama 2: Analitik kasın oluşturulması
Bu, verileri dönüştürme ve analiz etme yeteneğini geliştirmeyi içeren ikinci bir aşamadır. Bu aşamada şirketler, beceri setlerine en uygun aracı kullanırlar. Daha fazla veri almaya ve uygulama oluşturmaya başlarlar. Burada kurumsal veri ambarının ve veri gölünün yetenekleri birlikte kullanılır.
Aşama 3: EDW ve Data Lake birlikte çalışır
Bu adım, verileri ve analitiği olabildiğince çok kişinin eline teslim etmeyi içerir. Bu aşamada veri gölü ve kurumsal veri ambarı bir arada çalışmaya başlar. Her ikisi de analitikte rollerini oynuyor
Aşama 4: Göldeki işletme yeteneği
Veri gölünün bu olgunluk aşamasında, Veri Gölüne kurumsal yetenekler eklenir. Bilgi yönetişiminin, bilgi yaşam döngüsü yönetimi yeteneklerinin ve Meta veri yönetiminin benimsenmesi. Ancak, çok az kuruluş bu olgunluğa ulaşabilir, ancak bu sayı gelecekte artacaktır.
Data Lake Uygulaması için en iyi uygulamalar:
- Mimari bileşenler, etkileşimleri ve tanımlanmış ürünler yerel veri türlerini desteklemelidir
- Data Lake'in tasarımı, gerekli olanın yerine mevcut olanla yönlendirilmelidir. Şema ve veri gereksinimi sorgulanana kadar tanımlanmaz
- Tasarım, hizmet API'si ile entegre tek kullanımlık bileşenler tarafından yönlendirilmelidir.
- Veri keşfi, besleme, depolama, yönetim, kalite, dönüştürme ve görselleştirme bağımsız olarak yönetilmelidir.
- Veri Gölü mimarisi belirli bir sektöre göre uyarlanmalıdır. Bu etki alanı için gerekli yeteneklerin tasarımın doğal bir parçası olmasını sağlamalıdır.
- Yeni keşfedilen veri kaynaklarının daha hızlı devreye alınması önemlidir
- Data Lake, özelleştirilmiş yönetimin maksimum değeri elde etmesine yardımcı olur
- Veri Gölü, mevcut kurumsal veri yönetimi tekniklerini ve yöntemlerini desteklemelidir
Veri gölü oluşturmanın zorlukları:
- Data Lake'te Veri hacmi daha yüksektir, bu nedenle işlemin programatik yönetime daha fazla bağımlı olması gerekir
- Seyrek, eksik, değişken verilerle uğraşmak zordur
- Daha geniş veri kümesi ve kaynak kapsamı, daha büyük veri yönetimi ve desteği gerektirir
Veri gölleri ve Veri ambarı arasındaki fark
Parametreler | Veri Gölleri | Veri deposu |
---|---|---|
Veri | Veri gölleri her şeyi depolar. | Veri Ambarı yalnızca İş Süreçlerine odaklanır. |
İşleme | Veriler çoğunlukla işlenmemiş | Yüksek düzeyde işlenmiş veriler. |
Veri Türü | Yapılandırılmamış, yarı yapılandırılmış ve yapılandırılmış olabilir. | Çoğunlukla tablo biçiminde ve yapısındadır. |
Görev | Veri yönetimini paylaşın | Veri alımı için optimize edilmiştir |
Çeviklik | Son derece çevik, gerektiği gibi yapılandırın ve yeniden yapılandırın. | Veri gölü ile karşılaştırıldığında, daha az çeviktir ve sabit konfigürasyona sahiptir. |
Kullanıcılar | Data Lake, çoğunlukla Data Scientist tarafından kullanılmaktadır | İş uzmanları veri ambarını yaygın olarak kullanıyor |
Depolama | Düşük maliyetli depolama için veri gölleri tasarımı. | Hızlı yanıt süreleri sağlayan pahalı depolama alanı kullanılır |
Güvenlik | Daha az kontrol sunar. | Verilerin daha iyi kontrol edilmesini sağlar. |
EDW'nin değiştirilmesi | Veri gölü EDW için kaynak olabilir | EDW'yi tamamlayıcı (yedek değil) |
Şema | Okuma şema (önceden tanımlanmış şemalar yok) | Yazma sırasında şema (önceden tanımlanmış şemalar) |
Veri işleme | Yeni verilerin hızlı bir şekilde alınmasına yardımcı olur. | Yeni içerik sunmak çok zaman alıyor. |
Veri Ayrıntı Düzeyi | Düşük düzeyde ayrıntı veya ayrıntı düzeyinde veriler. | Özet veya toplu ayrıntı düzeyindeki veriler. |
Araçlar | Hadoop / Map Reduce gibi açık kaynak / araçları kullanabilir | Çoğunlukla ticari araçlar. |
Data Lake'i kullanmanın Yararları ve Riskleri:
Veri Gölü kullanmanın bazı önemli avantajları şunlardır:
- Ürün iyonlaştırıcı ve gelişmiş analitik ile tamamen yardımcı olur
- Uygun maliyetli ölçeklenebilirlik ve esneklik sunar
- Sınırsız veri türlerinden değer sunar
- Uzun vadeli sahip olma maliyetini azaltır
- Dosyaların ekonomik olarak depolanmasına izin verir
- Değişikliklere hızla uyarlanabilir
- Veri gölünün temel avantajı , farklı içerik kaynaklarının merkezileştirilmesidir .
- Çeşitli departmanlardan kullanıcılar dünyanın dört bir yanına dağılmış olabilir , verilere esnek erişim sağlayabilirler .
Data Lake Kullanma Riski:
- Bir süre sonra Data Lake alaka düzeyini ve ivmesini kaybedebilir
- Data Lake'i tasarlarken daha büyük miktarda risk söz konusudur
- Yapılandırılmamış Veriler, Yönetilmeyen Chao, Kullanılamayan Veriler, Farklı ve Karmaşık Araçlar, Kurumsal Çapta İşbirliği, Birleştirilmiş, Tutarlı ve Ortak olabilir
- Ayrıca depolama ve hesaplama maliyetlerini artırır
- Verilerle çalışan diğerlerinden içgörü elde etmenin bir yolu yoktur çünkü önceki analistlerin bulgularının soyunun bir açıklaması yoktur.
- Veri göllerinin en büyük riski güvenlik ve erişim kontrolüdür. Bazı verilerin gizlilik ve yasal düzenleme ihtiyacı olabileceğinden, bazen veriler herhangi bir gözetim olmaksızın bir göle yerleştirilebilir.
Özet:
- Veri Gölü, büyük miktarda yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriyi depolayabilen bir depolama havuzudur.
- Bir veri gölü oluşturmanın temel amacı, veri bilimcilerine verilerin rafine edilmemiş bir görünümünü sunmaktır.
- Birleştirilmiş işlem katmanı, İşleme katmanı, Damıtma katmanı ve HDFS, Data Lake Mimarisinin önemli katmanlarıdır
- Veri Alma, Veri depolama, Veri kalitesi, Veri Denetleme, Veri keşfi, Veri keşfi, Data Lake Mimarisinin bazı önemli bileşenleridir.
- Data Lake'in tasarımı, gerekli olanın yerine mevcut olanla yönlendirilmelidir.
- Data Lake, uzun vadeli sahip olma maliyetini düşürür ve dosyaların ekonomik olarak depolanmasına izin verir
- Veri göllerinin en büyük riski güvenlik ve erişim kontrolüdür. Bazı verilerin mahremiyet ve düzenleme ihtiyacı olabileceğinden, bazen veriler herhangi bir gözetim olmaksızın bir göle yerleştirilebilir.