ETL nedir?
ETL , verileri farklı kaynak sistemlerden çıkaran, ardından verileri dönüştüren (hesaplamalar, birleştirme vb. Gibi) ve son olarak verileri Veri Ambarı sistemine yükleyen bir işlemdir. ETL'nin tam biçimi Çıkar, Dönüştür ve Yükle'dir.
Bir Veri ambarı oluşturmanın, basitçe birden çok kaynaktan verileri ayıklamak ve bir Veri ambarının veritabanına yüklemek olduğunu düşünmek cazip geliyor. Bu gerçeklerden uzaktır ve karmaşık bir ETL süreci gerektirir. ETL süreci, geliştiriciler, analistler, test uzmanları, üst düzey yöneticiler dahil olmak üzere çeşitli paydaşlardan aktif girdiler gerektirir ve teknik olarak zordur.
Karar vericiler için bir araç olarak değerini korumak için, Veri ambarı sisteminin iş değişiklikleri ile değişmesi gerekiyor. ETL, bir Veri ambarı sisteminin yinelenen bir etkinliğidir (günlük, haftalık, aylık) ve çevik, otomatik ve iyi belgelenmiş olması gerekir.
Bu ETL eğitiminde şunları öğreneceksiniz:
- ETL nedir?
- Neden ETL'ye ihtiyacınız var?
- Veri Ambarlarında ETL Süreci
- Adım 1) Ekstraksiyon
- Adım 2) Dönüşüm
- Adım 3) Yükleme
- ETL Araçları
- En iyi uygulamalar ETL süreci
Neden ETL'ye ihtiyacınız var?
Kuruluşta ETL'yi benimsemenin birçok nedeni vardır:
- Şirketlerin kritik iş kararları almak için iş verilerini analiz etmelerine yardımcı olur.
- İşlem veritabanları, ETL örneği ile cevaplanabilecek karmaşık iş sorularını yanıtlayamaz.
- Bir Veri Ambarı, ortak bir veri deposu sağlar
- ETL, verileri çeşitli kaynaklardan bir veri ambarına taşımak için bir yöntem sağlar.
- Veri kaynakları değiştikçe, Veri Ambarı otomatik olarak güncellenecektir.
- İyi tasarlanmış ve belgelenmiş ETL sistemi, bir Veri Ambarı projesinin başarısı için neredeyse gereklidir.
- Veri dönüştürme, toplama ve hesaplama kurallarının doğrulanmasına izin verin.
- ETL süreci, kaynak ve hedef sistem arasında örnek veri karşılaştırmasına izin verir.
- ETL süreci karmaşık dönüşümler gerçekleştirebilir ve verileri depolamak için fazladan alan gerektirir.
- ETL, verilerin Veri Ambarı'na taşınmasına yardımcı olur. Tek bir tutarlı sisteme bağlı kalmak için çeşitli biçimlere ve türlere dönüştürün.
- ETL, kaynak verilere erişmek ve hedef veritabanında bunları değiştirmek için önceden tanımlanmış bir süreçtir.
- Veri ambarındaki ETL, işletme için derin bir tarihsel bağlam sunar.
- Teknik becerilere ihtiyaç duymadan kodladığı ve yeniden kullandığı için üretkenliği artırmaya yardımcı olur.
Veri Ambarlarında ETL Süreci
ETL 3 aşamalı bir süreçtir
Adım 1) Ekstraksiyon
ETL mimarisinin bu adımında, veriler kaynak sistemden evreleme alanına çıkarılır. Kaynak sistemin performansının düşmemesi için eğer varsa aşamalandırma alanında dönüşümler yapılır. Ayrıca, bozuk veriler doğrudan kaynaktan Veri ambarı veritabanına kopyalanırsa, geri alma zor olacaktır. Hazırlama alanı, çıkarılan verileri Veri ambarına taşınmadan önce doğrulama fırsatı verir.
Veri ambarının farklı özelliklere sahip sistemleri entegre etmesi gerekir.
DBMS, Donanım, İşletim Sistemleri ve İletişim Protokolleri. Kaynaklar, Mainframes gibi eski uygulamaları, özelleştirilmiş uygulamaları, ATM gibi temas noktası aygıtlarını, Çağrı anahtarlarını, metin dosyalarını, elektronik tabloları, ERP'yi, satıcılardan gelen verileri ve diğerlerinin yanı sıra ortakları içerebilir.
Bu nedenle, veriler çıkarılmadan ve fiziksel olarak yüklenmeden önce mantıksal bir veri haritasına ihtiyaç vardır. Bu veri haritası, kaynaklar ve hedef veriler arasındaki ilişkiyi açıklar.
Üç Veri Çıkarma yöntemi:
- Tam Ekstraksiyon
- Kısmi Çıkarma - güncelleme bildirimi olmadan.
- Kısmi Çıkarma - güncelleme bildirimi ile
Kullanılan yönteme bakılmaksızın, çıkarma, kaynak sistemlerin performansını ve yanıt süresini etkilememelidir. Bu kaynak sistemler canlı üretim veritabanlarıdır. Herhangi bir yavaşlama veya kilitlenme şirketin kârını etkileyebilir.
Çıkarma sırasında bazı doğrulamalar yapılır:
- Kayıtları kaynak verilerle uzlaştırın
- Spam / istenmeyen verilerin yüklenmediğinden emin olun
- Veri türü kontrolü
- Her tür yinelenen / parçalanmış veriyi kaldırın
- Tüm anahtarların yerinde olup olmadığını kontrol edin
Adım 2) Dönüşüm
Kaynak sunucudan çıkarılan veriler hamdır ve orijinal biçiminde kullanılamaz. Bu nedenle temizlenmesi, haritası çıkarılması ve dönüştürülmesi gerekiyor. Aslında bu, ETL sürecinin değer kattığı ve verileri, anlayışlı BI raporlarının oluşturulabilmesi için değiştirdiği temel adımdır.
Çıkarılan verilere bir dizi işlevi uyguladığınız önemli ETL kavramlarından biridir. Herhangi bir dönüşüm gerektirmeyen verilere doğrudan taşıma veya veri üzerinden geçiş denir .
Dönüşüm adımında veriler üzerinde özelleştirilmiş işlemler gerçekleştirebilirsiniz. Örneğin, kullanıcı veritabanında olmayan satış toplamı geliri istiyorsa. Veya bir tablodaki ad ve soyad farklı sütunlarda ise. Yüklemeden önce bunları birleştirmek mümkündür.
Veri Bütünlüğü Sorunları aşağıdadır:
- Aynı kişinin Jon, John vb. Gibi farklı yazılışları.
- Google, Google Inc. gibi şirket adını belirtmenin birden fazla yolu vardır.
- Cleaveland, Cleveland gibi farklı isimlerin kullanılması.
- Aynı müşteri için çeşitli uygulamalar tarafından farklı hesap numaralarının üretildiği bir durum olabilir.
- Bazı verilerde gerekli dosyalar boş kalır
- POS'ta manuel giriş olarak alınan geçersiz ürün hatalara neden olabilir.
Doğrulamalar bu aşamada yapılır
- Filtreleme - Yüklemek için yalnızca belirli sütunları seçin
- Veri standardizasyonu için kuralları ve arama tablolarını kullanma
- Karakter Kümesi Dönüştürme ve kodlama yönetimi
- Tarih Saat Dönüşümü, para birimi dönüştürmeleri, sayısal dönüştürmeler vb. Gibi Ölçü Birimlerinin Dönüştürülmesi.
- Veri eşiği doğrulama kontrolü. Örneğin, yaş iki haneden fazla olamaz.
- Aşama alanından ara tablolara veri akışı doğrulaması.
- Gerekli alanlar boş bırakılmamalıdır.
- Temizleme (örneğin, NULL'u 0'a veya Cinsiyet Erkek'i "M" ve Dişiyi "F" ile eşleme vb.)
- Bir sütunu katlara bölün ve birden çok sütunu tek bir sütunda birleştirin.
- Satırların ve sütunların yerini değiştirme,
- Verileri birleştirmek için aramaları kullanın
- Herhangi bir karmaşık veri doğrulamasını kullanma (örneğin, bir satırdaki ilk iki sütun boşsa, satırın işlenmesini otomatik olarak reddeder)
Adım 3) Yükleme
Verilerin hedef veri ambar veritabanına yüklenmesi, ETL sürecinin son adımıdır. Tipik bir Veri ambarında, nispeten kısa bir sürede (geceler) büyük miktarda veri yüklenmesi gerekir. Bu nedenle, yükleme süreci performans için optimize edilmelidir.
Yük arızası durumunda, kurtarma mekanizmaları veri bütünlüğü kaybı olmadan hata noktasından yeniden başlayacak şekilde yapılandırılmalıdır. Veri Ambarı yöneticilerinin, hakim sunucu performansına göre yükleri izlemesi, devam ettirmesi ve iptal etmesi gerekir.
Yükleme Türleri:
- İlk Yükleme - tüm Veri Ambarı tablolarını doldurma
- Artımlı Yük - periyodik olarak ihtiyaç duyulduğunda devam eden değişiklikleri uygulama.
- Tam Yenileme - bir veya daha fazla tablonun içeriğini silip yeni verilerle yeniden yükleme.
Yükleme doğrulaması
- Anahtar alan verilerinin eksik veya boş olmadığından emin olun.
- Hedef tablolara dayalı modelleme görünümlerini test edin.
- Birleştirilmiş değerleri ve hesaplanan ölçüleri kontrol edin.
- Boyut tablosunda ve geçmiş tablosunda veri kontrolleri.
- Yüklenen olgu ve boyut tablosundaki BI raporlarını kontrol edin.
ETL Araçları
Piyasada birçok Veri Ambarlama aracı bulunmaktadır. İşte en göze çarpanlardan bazıları:
1. MarkLogic:
MarkLogic, bir dizi kurumsal özelliği kullanarak veri entegrasyonunu daha kolay ve daha hızlı hale getiren bir veri depolama çözümüdür. Belgeler, ilişkiler ve meta veriler gibi farklı veri türlerini sorgulayabilir.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle, sektör lideri veritabanıdır. Hem şirket içi hem de bulut için çok çeşitli Veri Ambarı çözümleri sunar. Operasyonel verimliliği artırarak müşteri deneyimlerini optimize etmeye yardımcı olur.
https://www.oracle.com/index.html
3. Amazon RedShift:
Amazon Redshift, Datawarehouse aracıdır. Standart SQL ve mevcut BI araçlarını kullanarak her tür veriyi analiz etmek için basit ve uygun maliyetli bir araçtır. Ayrıca petabaytlarca yapılandırılmış veriye karşı karmaşık sorguların çalıştırılmasına izin verir.
https://aws.amazon.com/redshift/?nc2=h_m1
İşte yararlı Veri ambarı Araçlarının tam listesi.
En iyi uygulamalar ETL süreci
ETL Süreci adımları için en iyi uygulamalar şunlardır:
Asla tüm verileri temizlemeye çalışmayın:
Her kuruluş tüm verilerin temiz olmasını ister, ancak çoğu beklemek için ödeme yapmaya veya beklemeye hazır değildir. Hepsini temizlemek çok uzun sürer, bu nedenle tüm verileri temizlemeye çalışmamak daha iyidir.
Asla Hiçbir Şeyi Temizlemeyin:
Her zaman bir şeyi temizlemeyi planlayın çünkü Veri Ambarı oluşturmanın en büyük nedeni daha temiz ve daha güvenilir veriler sunmaktır.
Verileri temizlemenin maliyetini belirleyin:
Tüm kirli verileri temizlemeden önce, her kirli veri öğesi için temizleme maliyetini belirlemeniz önemlidir.
Sorgu işlemeyi hızlandırmak için yardımcı görünümlere ve dizinlere sahip olun:
Depolama maliyetlerini azaltmak için, özetlenmiş verileri disk bantlarında saklayın. Ayrıca, depolanacak veri hacmi ile ayrıntılı kullanımı arasındaki denge gereklidir. Depolama maliyetlerini düşürmek için veri ayrıntı düzeyinde değiş tokuş yapın.
Özet:
- ETL Ayıklama, Dönüştürme ve Yükleme anlamına gelir.
- ETL, verileri çeşitli kaynaklardan bir veri ambarına taşımak için bir yöntem sağlar.
- İlk adımda çıkarımda, veriler kaynak sistemden evreleme alanına çıkarılır.
- Dönüşüm adımında kaynaktan çıkarılan veriler temizlenir ve dönüştürülür.
- Verilerin hedef veri ambarına yüklenmesi, ETL sürecinin son adımıdır.