Veri Ambarı Mimarisi, Kavramları ve Bileşenleri

İçindekiler:

Anonim

Veri Ambarı Kavramları

Bir Veri Ambarının temel konsepti, karar verme ve tahmin için bir şirket için gerçeğin tek bir versiyonunu kolaylaştırmaktır. Veri ambarı, tekli veya çoklu kaynaklardan geçmiş ve değişmeli verileri içeren bir bilgi sistemidir. Veri Ambarı Kavramları, kuruluşların raporlama ve analiz sürecini basitleştirir.

Veri ambarının özellikleri

Veri Ambarı Kavramları aşağıdaki özelliklere sahiptir:

  • Konu Odaklı
  • Birleşik
  • Zaman değişken
  • Uçucu olmayan

Konu Odaklı

Bir veri ambarı, şirketlerin devam eden operasyonları yerine bir temayla ilgili bilgi sunduğu için konu odaklıdır. Bu konular satış, pazarlama, dağıtım vb. Olabilir.

Bir veri ambarı asla devam eden işlemlere odaklanmaz. Bunun yerine, karar verme için verilerin modellenmesine ve analizine vurgu yaptı . Ayrıca, karar sürecini desteklemeye yardımcı olmayan verileri hariç tutarak belirli konu hakkında basit ve öz bir görünüm sağlar.

Birleşik

Veri Ambarı'nda entegrasyon, benzer olmayan veritabanından alınan tüm benzer veriler için ortak bir ölçü biriminin oluşturulması anlamına gelir. Ayrıca verilerin Datawarehouse'da ortak ve evrensel olarak kabul edilebilir bir şekilde depolanması gerekir.

Bir veri ambarı, ana bilgisayar, ilişkisel veritabanları, düz dosyalar vb. Gibi çeşitli kaynaklardan gelen verileri entegre ederek geliştirilir. Dahası, tutarlı adlandırma kurallarını, biçimini ve kodlamayı korumalıdır.

Bu entegrasyon, verilerin etkili analizine yardımcı olur. Adlandırma kurallarında, öznitelik ölçülerinde, kodlama yapısında vb. Tutarlılık sağlanmalıdır. Aşağıdaki örneği düşünün:

Yukarıdaki örnekte, A, B ve C olarak adlandırılan üç farklı uygulama vardır. Bu uygulamalarda saklanan bilgiler Cinsiyet, Tarih ve Bakiye'dir. Bununla birlikte, her uygulamanın verileri farklı şekilde depolanır.

  • Uygulamada Bir cinsiyet alanı M veya F gibi mantıksal değerleri depolar
  • B Uygulamasında cinsiyet alanı sayısal bir değerdir,
  • C Uygulaması uygulamasında, cinsiyet alanı bir karakter değeri biçiminde saklanır.
  • Aynı Tarih ve bakiye için de geçerlidir

Ancak dönüştürme ve temizleme işleminden sonra tüm bu veriler Veri Ambarı'nda ortak formatta saklanır.

Zaman Değişkeni

Veri ambarı için zaman ufku, operasyonel sistemlere kıyasla oldukça geniştir. Bir veri ambarında toplanan veriler belirli bir dönemle tanınır ve tarihsel bakış açısından bilgi sunar. Açıkça veya örtük olarak bir zaman öğesi içerir.

Datawarehouse verilerinin zaman varyansını gösterdiği böyle bir yer, kayıt anahtarının yapısındadır. DW'nin içerdiği her birincil anahtar, örtük veya açık bir şekilde bir zaman öğesine sahip olmalıdır. Gün, hafta ay vb. Gibi

Zaman farkının bir başka yönü de, verilerin depoya eklendikten sonra güncellenememesi veya değiştirilememesidir.

Uçucu olmayan

Veri ambarı da kalıcıdır, yani içine yeni veri girildiğinde önceki verilerin silinmediği anlamına gelir.

Veriler salt okunurdur ve periyodik olarak yenilenir. Bu aynı zamanda geçmiş verileri analiz etmeye ve ne ve ne zaman olduğunu anlamaya yardımcı olur. İşlem süreci, kurtarma ve eşzamanlılık kontrol mekanizmaları gerektirmez.

Operasyonel bir uygulama ortamında gerçekleştirilen silme, güncelleme ve ekleme gibi etkinlikler Veri ambarı ortamında atlanır. Veri Ambarında gerçekleştirilen yalnızca iki tür veri işlemi

  1. Veri yükleme
  2. Veri erişimi

İşte, Uygulama ve Veri Ambarı arasındaki bazı önemli farklar

Operasyonel Uygulama Veri deposu
Veri yükseltme işlemlerinin nihai ürünün yüksek bütünlüğünü korumasını sağlamak için karmaşık program kodlanmalıdır. Veri güncellemesi yapılmadığı için bu tür sorunlar yaşanmaz.
Veriler, minimum fazlalık sağlamak için normalleştirilmiş bir forma yerleştirilir. Veriler normalleştirilmiş biçimde depolanmaz.
Kilitlenme oldukça karmaşık olduğundan işlem, veri kurtarma, geri alma ve çözme sorunlarını desteklemek için gereken teknoloji. Teknolojide göreceli basitlik sunar.

Veri Ambarı Mimarisi

Veri Ambarı Mimarisi , birden çok kaynaktan gelen geçmiş ve değişmeli verileri içeren bir bilgi sistemi olduğundan karmaşıktır. Veri Ambarı katmanları oluşturmak için 3 yaklaşım vardır: Tek Katman, İki katman ve Üç katman. Veri Ambarı'nın bu 3 katmanlı mimarisi aşağıda açıklanmıştır.

Tek katmanlı mimari

Tek bir katmanın amacı, depolanan veri miktarını en aza indirmektir. Bu amaç, veri fazlalığını ortadan kaldırmaktır. Bu mimari pratikte sıklıkla kullanılmamaktadır.

İki katmanlı mimari

İki katmanlı mimari, fiziksel olarak mevcut kaynakları ve veri ambarını ayıran Veri Ambarı katmanlarından biridir. Bu mimari genişletilemez ve aynı zamanda çok sayıda son kullanıcıyı desteklemez. Ayrıca ağ sınırlamaları nedeniyle bağlantı sorunları yaşıyor.

Üç Katmanlı Veri Ambarı Mimarisi

Bu, en yaygın kullanılan Veri Ambarı Mimarisidir.

Üst, Orta ve Alt Katmandan oluşur.

  1. Alt Katman: Alt katman olarak Datawarehouse sunucularının veritabanıdır. Genellikle ilişkisel bir veritabanı sistemidir. Veriler, arka uç araçları kullanılarak temizlenir, dönüştürülür ve bu katmana yüklenir.
  2. Orta Katman: Veri ambarındaki orta katman, ROLAP veya MOLAP modeli kullanılarak uygulanan bir OLAP sunucusudur. Bir kullanıcı için bu uygulama katmanı, veritabanının soyutlanmış bir görünümünü sunar. Bu katman aynı zamanda son kullanıcı ile veritabanı arasında bir aracı görevi görür.
  3. Üst Katman: En üst katman, bir ön uç istemci katmanıdır. En üst katman, bağladığınız ve veri ambarından veri aldığınız araçlar ve API'dir. Sorgu araçları, raporlama araçları, yönetilen sorgu araçları, Analiz araçları ve Veri madenciliği araçları olabilir.

Datawarehouse Bileşenleri

Aşağıda gösterildiği gibi Datawarehouse Bileşenleri ve Diyagramlı Veri Ambarı Mimarisi hakkında bilgi edineceğiz:

Veri Ambarı Mimarisi

Veri Ambarı, tüm ortamı işlevsel, yönetilebilir ve erişilebilir kılmak için bazı önemli Veri Ambarı bileşenleri ile çevrili merkezi bir bilgi havuzu olan bir RDBMS sunucusuna dayanmaktadır.

Başlıca beş Veri Ambarı Bileşeni vardır:

Veri Ambarı Veritabanı

Merkezi veritabanı, veri depolama ortamının temelidir. Bu veritabanı RDBMS teknolojisinde uygulanmaktadır. Bununla birlikte, bu tür bir uygulama, geleneksel RDBMS sisteminin veri ambarlama için değil, işlemsel veritabanı işleme için optimize edilmesi gerçeğiyle sınırlandırılmıştır. Örneğin, geçici sorgu, çoklu tablo birleştirmeleri, toplamalar yoğun kaynak gerektirir ve performansı yavaşlatır.

Bu nedenle, Veritabanına alternatif yaklaşımlar aşağıda listelendiği gibi kullanılmaktadır.

  • Bir veri ambarında, ölçeklenebilirliğe izin vermek için ilişkisel veritabanları paralel olarak devreye alınır. Paralel ilişkisel veritabanları, çeşitli çok işlemcili yapılandırmalarda veya büyük ölçüde paralel işlemcilerde paylaşılan belleğe veya paylaşımlı hiçbir şey modeline de izin verir.
  • İlişkisel tablo taramasını atlamak ve hızı artırmak için yeni dizin yapıları kullanılır.
  • İlişkisel Veri Ambarı Modelleri nedeniyle ortaya çıkan sınırlamaların üstesinden gelmek için çok boyutlu veritabanı (MDDB'ler) kullanımı. Örnek: Oracle'dan Essbase.

Kaynak Bulma, Edinme, Temizleme ve Dönüştürme Araçları (ETL)

Veri kaynağı oluşturma, dönüştürme ve taşıma araçları, verileri veri ambarında birleşik bir biçime dönüştürmek için gereken tüm dönüştürmeleri, özetleri ve tüm değişiklikleri gerçekleştirmek için kullanılır. Ayıklama, Dönüştürme ve Yükleme (ETL) Araçları olarak da adlandırılırlar.

İşlevleri şunları içerir:

  • Verileri yasal düzenlemelere göre anonimleştirin.
  • Operasyonel veritabanlarındaki istenmeyen verilerin Veri ambarına yüklenmesini ortadan kaldırma.
  • Farklı kaynaklardan gelen veriler için ortak isimleri ve tanımları arayın ve değiştirin.
  • Özetleri ve türetilmiş verileri hesaplama
  • Eksik veri durumunda, bunları varsayılanlarla doldurun.
  • Birden çok veri kaynağından gelen tekilleştirilmiş yinelenen veriler.

Bu Çıkartma, Dönüştürme ve Yükleme araçları, veri ambarındaki verileri düzenli olarak güncelleyen cron işleri, arka plan işleri, Cobol programları, kabuk komut dosyaları vb. Oluşturabilir. Bu araçlar ayrıca Meta Verilerin korunmasına da yardımcı olur.

Bu ETL Araçları, Veritabanı ve Veri heterojenliğinin zorluklarıyla başa çıkmak zorundadır.

Meta veriler

Meta Data adı, bazı üst düzey teknolojik Veri Ambarlama Kavramlarını önermektedir. Ancak oldukça basit. Meta veriler, veri ambarını tanımlayan verilerle ilgili verilerdir. Veri ambarını oluşturmak, sürdürmek ve yönetmek için kullanılır.

Veri Ambarı Mimarisinde meta veri, veri ambarı verilerinin kaynağını, kullanımını, değerlerini ve özelliklerini belirlediği için önemli bir rol oynar. Ayrıca verilerin nasıl değiştirilip işlenebileceğini de tanımlar. Veri ambarıyla yakından bağlantılıdır.

Örneğin, satış veritabanındaki bir satır şunları içerebilir:

4030 KJ732 299.90

Meta'ya danışana kadar bu anlamsız bir veridir.

  • Model numarası: 4030
  • Satış Temsilcisi Kimliği: KJ732
  • Toplam satış tutarı 299.90 $

Bu nedenle, Meta Veriler, verilerin bilgiye dönüştürülmesinde temel bileşenlerdir.

Meta veriler aşağıdaki soruların yanıtlanmasına yardımcı olur

  • Veri Ambarı hangi tabloları, öznitelikleri ve anahtarları içerir?
  • Veriler nereden geldi?
  • Veriler kaç kez yeniden yüklenir?
  • Temizlemeyle hangi dönüşümler uygulandı?

Meta veriler aşağıdaki kategorilere ayrılabilir:

  1. Teknik Meta Veriler : Bu tür Meta Veriler , Veri ambarı tasarımcıları ve yöneticileri tarafından kullanılan ambar hakkında bilgi içerir.
  2. İş Meta Verileri: Bu tür Meta Veriler , son kullanıcılara veri ambarında depolanan bilgileri anlamaları için kolay bir yol sağlayan ayrıntılar içerir.

Sorgu Araçları

Veri ambarının birincil amaçlarından biri, stratejik kararlar almaları için işletmelere bilgi sağlamaktır. Sorgu araçları, kullanıcıların veri ambarı sistemiyle etkileşime girmesine olanak tanır.

Bu araçlar dört farklı kategoriye ayrılır:

  1. Sorgu ve raporlama araçları
  2. Uygulama Geliştirme araçları
  3. Veri madenciliği araçları
  4. OLAP araçları

1. Sorgu ve raporlama araçları:

Sorgu ve raporlama araçları ayrıca ikiye ayrılabilir:

  • Raporlama araçları
  • Yönetilen sorgu araçları

Raporlama araçları:

Raporlama araçları ayrıca üretim raporlama araçlarına ve masaüstü rapor yazıcısına bölünebilir.

  1. Rapor yazarları: Bu tür bir raporlama aracı, analizleri için son kullanıcılar için tasarlanmış araçlardır.
  2. Üretim raporlama: Bu tür araçlar, kuruluşların düzenli operasyonel raporlar oluşturmasına olanak tanır. Ayrıca, yazdırma ve hesaplama gibi yüksek hacimli toplu işleri de destekler. Bazı popüler raporlama araçları Brio, Business Objects, Oracle, PowerSoft, SAS Institute'tur.

Yönetilen sorgu araçları:

Bu tür erişim araçları, son kullanıcıların veritabanı ve SQL ve veritabanı yapısındaki aksaklıkları, kullanıcılar ve veritabanı arasına meta katman ekleyerek çözmelerine yardımcı olur.

2. Uygulama geliştirme araçları:

Bazen yerleşik grafiksel ve analitik araçlar bir kuruluşun analitik ihtiyaçlarını karşılamaz. Bu gibi durumlarda, Uygulama geliştirme araçları kullanılarak özel raporlar geliştirilir.

3. Veri madenciliği araçları:

Veri madenciliği, büyük miktarda veri madenciliği yaparak anlamlı yeni korelasyon, model ve eğilimleri keşfetme sürecidir. Bu süreci otomatik hale getirmek için veri madenciliği araçları kullanılır.

4. OLAP araçları:

Bu araçlar, çok boyutlu bir veritabanı kavramlarına dayanmaktadır. Kullanıcıların verileri ayrıntılı ve karmaşık çok boyutlu görünümler kullanarak analiz etmelerine olanak tanır.

Veri ambarı Veri Yolu Mimarisi

Veri ambarı Veriyolu, deponuzdaki veri akışını belirler. Bir veri ambarındaki veri akışı, Giriş, Yukarı Akış, Aşağı Akış, Çıkış ve Meta akışı olarak kategorize edilebilir.

Bir Veri Yolu tasarlarken, veri pazarlarındaki ortak boyutları, gerçekleri dikkate almak gerekir.

Veri Martları

Veri pazarı, verileri kullanıcılara ulaştırmak için kullanılan bir erişim katmanıdır. Oluşturulması daha az zaman ve para gerektirdiğinden, büyük boyutlu veri ambarı için bir seçenek olarak sunulur. Ancak, bir data mart'ın kişiden kişiye farklılık gösteren standart bir tanımı yoktur.

Basit bir deyişle Data mart, bir veri ambarının bir yan kuruluşudur. Veri pazarı, belirli bir kullanıcı grubu için oluşturulan verilerin bölümlenmesi için kullanılır.

Veri pazarları, Datawarehouse ile aynı veritabanında veya fiziksel olarak ayrı bir Veritabanı içinde oluşturulabilir.

Veri ambarı Mimarisi En İyi Uygulamaları

Veri Ambarı Mimarisi tasarlamak için, aşağıda verilen en iyi uygulamaları izlemeniz gerekir:

  • Boyutsal mod, normal olmayan veya hibrit yaklaşım olabilen bilgi erişimi için optimize edilmiş Veri Ambarı Modellerini kullanın.
  • Veri Ambarı'nda yukarıdan aşağıya ve aşağıdan yukarıya yaklaşım olarak uygun tasarım yaklaşımını seçin
  • Verilerin hızlı ve doğru bir şekilde işlendiğinden emin olmanız gerekir. Aynı zamanda, verileri gerçeğin tek bir versiyonunda birleştiren bir yaklaşım benimsemelisiniz.
  • Veri ambarı için veri toplama ve temizleme sürecini dikkatlice tasarlayın.
  • Veri Ambarı bileşenleri arasında meta verilerin paylaşımına izin veren bir MetaData mimarisi tasarlayın
  • Bilgi alma ihtiyacı veri soyutlama piramidinin altına yakın olduğunda veya erişilmesi gereken birden fazla operasyonel kaynak olduğunda bir ODS modeli uygulamayı düşünün.
  • Veri modelinin entegre olduğundan ve sadece konsolide edilmediğinden emin olunmalıdır. Bu durumda 3NF veri modelini düşünmelisiniz. ETL ve Veri temizleme araçlarını edinmek için de idealdir

Özet:

  • Veri ambarı, tekli veya çoklu kaynaklardan geçmiş ve değişmeli verileri içeren bir bilgi sistemidir. Bu kaynaklar geleneksel Veri Ambarı, Bulut Veri Ambarı veya Sanal Veri Ambarı olabilir.
  • Bir veri ambarı, kuruluşun devam eden operasyonları yerine konu ile ilgili bilgi sunduğu için konu odaklıdır.
  • Veri Ambarı'nda entegrasyon, farklı veritabanlarından gelen tüm benzer veriler için ortak bir ölçü biriminin oluşturulması anlamına gelir.
  • Veri ambarı da kalıcıdır, yani içine yeni veri girildiğinde önceki verilerin silinmediği anlamına gelir.
  • Bir Veri Ambarı, bir DW'deki verilerin yüksek raf ömrüne sahip olması nedeniyle Zamana bağlıdır.
  • Veri Ambarı Mimarisinin başlıca 5 bileşeni vardır: 1) Veritabanı 2) ETL Araçları 3) Meta Veriler 4) Sorgu Araçları 5) DataMarts
  • Bunlar dört ana sorgu aracı kategorisidir 1. Sorgu ve raporlama, araçlar 2. Uygulama Geliştirme araçları, 3. Veri madenciliği araçları 4. OLAP araçları
  • Veri kaynağı oluşturma, dönüştürme ve taşıma araçları, tüm dönüştürmeleri ve özetlemeleri gerçekleştirmek için kullanılır.
  • Veri Ambarı Mimarisinde meta veri, veri ambarı verilerinin kaynağını, kullanımını, değerlerini ve özelliklerini belirlediği için önemli bir rol oynar.