Hoe datakluizen de toekomst zijn van datawarehousing[+5 Learning Resources]

Nu bedrijven steeds meer data genereren, wordt de traditionele benadering van datawarehousing steeds moeilijker en kostbaarder om te onderhouden. De Data Vault, een relatief nieuwe benadering van datawarehousing, biedt een oplossing voor dit probleem door een schaalbare, flexibele en kosteneffectieve manier te bieden om grote hoeveelheden data te beheren.

In dit bericht zullen we onderzoeken hoe Data Vaults de toekomst van data warehousing zijn en waarom steeds meer bedrijven deze aanpak toepassen. We zullen ook leermiddelen voorzien voor degenen die dieper in het onderwerp willen duiken!

Wat is Data Vault?

Data Vault is een modelleringstechniek voor datawarehouses die bijzonder geschikt is voor agile datawarehouses. Het biedt een hoge mate van flexibiliteit voor uitbreidingen, een volledige eenheid-temporele historisering van de gegevens en maakt een sterke parallellisatie van de processen voor het laden van gegevens mogelijk. Dan Linstedt ontwikkelde Data Vault-modellering in de jaren negentig.

Na de eerste publicatie in 2000 kreeg ze in 2002 meer aandacht door een reeks artikelen. In 2007 won Linstedt de goedkeuring van Bill Inmon, die het omschreef als de “optimale keuze” voor zijn Data Vault 2.0-architectuur.

Wie met de term agile datawarehouse te maken heeft, komt al snel uit bij Data Vault. Het bijzondere aan de technologie is dat deze is toegespitst op de behoeften van bedrijven, omdat het flexibele, eenvoudige aanpassingen aan een datawarehouse mogelijk maakt.

Data Vault 2.0 kijkt naar het gehele ontwikkelproces en de architectuur en bestaat uit de componenten methode (implementatie), architectuur en model. Het voordeel is dat deze aanpak tijdens de ontwikkeling rekening houdt met alle aspecten van business intelligence met het achterliggende datawarehouse.

Het Data Vault-model biedt een moderne oplossing om de beperkingen van traditionele datamodelleringsbenaderingen te overwinnen. Met zijn schaalbaarheid, flexibiliteit en wendbaarheid biedt het een solide basis voor het bouwen van een dataplatform dat de complexiteit en diversiteit van moderne dataomgevingen kan accommoderen.

De hub-and-spoke-architectuur van de Data Vault en de scheiding van entiteiten en attributen maken data-integratie en harmonisatie tussen meerdere systemen en domeinen mogelijk, wat incrementele en flexibele ontwikkeling mogelijk maakt.

Een cruciale rol van de Data Vault bij het bouwen van een dataplatform is het tot stand brengen van één enkele bron van waarheid voor alle data. De uniforme weergave van gegevens en ondersteuning voor het vastleggen en volgen van historische gegevensveranderingen via satelliettabellen maken naleving, audit, wettelijke vereisten en uitgebreide analyse en rapportage mogelijk.

De bijna real-time data-integratiemogelijkheden van de Data Vault via delta-loading maken het mogelijk om grote hoeveelheden data te verwerken in snel veranderende omgevingen zoals Big Data en IoT-applicaties.

Data Vault versus traditionele datawarehouse-modellen

Third-Normal-Form (3NF) is een van de meest gerenommeerde traditionele datawarehouse-modellen, vaak de voorkeur in veel grote implementaties. Dit komt overigens overeen met de ideeën van Bill Inmon, een van de “voorvaderen” van het datawarehouse-concept.

  Een Spotify Kids-account instellen

De Inmon-architectuur is gebaseerd op het relationele databasemodel en elimineert gegevensredundantie door gegevensbronnen op te splitsen in kleinere tabellen die zijn opgeslagen in datamarts en onderling verbonden zijn met behulp van primaire en externe sleutels. Het zorgt ervoor dat gegevens consistent en nauwkeurig zijn door regels voor referentiële integriteit af te dwingen.

Het doel van de normale vorm was om een ​​uitgebreid, bedrijfsbreed datamodel te bouwen voor het kerndatawarehouse; het heeft echter problemen met schaalbaarheid en flexibiliteit als gevolg van sterk gekoppelde datamarts, laadproblemen in bijna realtime-modus, moeizame verzoeken en top-down ontwerp en implementatie.

Het Kimbal-model, gebruikt voor OLAP (online analytische verwerking) en datamarts, is een ander beroemd datawarehouse-model waarin feitentabellen geaggregeerde gegevens bevatten en dimensietabellen opgeslagen gegevens beschrijven in een sterschema of sneeuwvlokschema-ontwerp. In deze architectuur zijn gegevens georganiseerd in feiten- en dimensietabellen die zijn gedenormaliseerd om query’s en analyses te vereenvoudigen.

Kimbal is gebaseerd op een dimensionaal model dat is geoptimaliseerd voor query’s en rapportage, waardoor het ideaal is voor business intelligence-toepassingen. Het heeft echter problemen gehad met de isolatie van onderwerpgerichte informatie, gegevensredundantie, incompatibele querystructuren, schaalbaarheidsproblemen, de inconsistente granulariteit van feitentabellen, synchronisatieproblemen en de behoefte aan top-down ontwerp met bottom-up implementatie.

Data Vault-architectuur daarentegen is een hybride benadering die aspecten van zowel 3NF- als Kimball-architecturen combineert. Het is een model gebaseerd op relationele principes, gegevensnormalisatie en redundantiewiskunde dat relaties tussen entiteiten anders weergeeft en tabelvelden en tijdstempels anders structureert.

In deze architectuur worden alle gegevens opgeslagen in een ruwe datakluis of datalake, terwijl de veelgebruikte gegevens in een genormaliseerd formaat worden opgeslagen in een bedrijfskluis die historische en contextspecifieke gegevens bevat die kunnen worden gebruikt voor rapportage.

Data Vault pakt de problemen in traditionele modellen aan door efficiënter, schaalbaarder en flexibeler te zijn. Het zorgt voor bijna realtime laden, betere gegevensintegriteit en eenvoudige uitbreiding zonder bestaande structuren te beïnvloeden. Het model kan ook worden uitgebreid zonder de bestaande tabellen te migreren.

ModelleringsbenaderingDatastructuurOntwerpbenadering3NF-modelleringTables in 3NFBottom-upKimbal-modelleringStar Schema of Snowflake SchemaTop-downData VaultHub-and-SpokeBottom-up

Architectuur van Data Vault

Data Vault heeft een hub-and-spoke-architectuur en bestaat in wezen uit drie lagen:

Staging Layer: Verzamelt de ruwe data van de bronsystemen, zoals CRM of ERP

Datawarehouse-laag: wanneer gemodelleerd als een Data Vault-model, bevat deze laag:

  • Raw Data Vault: slaat de onbewerkte gegevens op.
  • Business Data Vault: bevat geharmoniseerde en getransformeerde gegevens op basis van bedrijfsregels (optioneel).
  • Metrics Vault: slaat runtime-informatie op (optioneel).
  • Operational Vault: slaat de gegevens op die rechtstreeks vanuit operationele systemen naar het datawarehouse stromen (optioneel).

Data Mart-laag: deze laag modelleert gegevens als sterschema en/of andere modelleringstechnieken. Het biedt informatie voor analyse en rapportage.

Afbeeldingsbron: Lamia Yessad

Data Vault vereist geen re-architectuur. Nieuwe functies kunnen direct parallel worden gebouwd met behulp van de concepten en methoden van Data Vault, en bestaande componenten gaan niet verloren. Frameworks kunnen het werk aanzienlijk vergemakkelijken: ze creëren een laag tussen het datawarehouse en de ontwikkelaar en verminderen zo de complexiteit van de implementatie.

Onderdelen van Data Vault

Tijdens het modelleren verdeelt Data Vault alle informatie die bij het object hoort in drie categorieën – in tegenstelling tot klassieke modellering van de derde normaalvorm. Deze informatie wordt dan strikt gescheiden van elkaar opgeslagen. De functionele gebieden kunnen in Data Vault in kaart worden gebracht in zogenaamde hubs, links en satellieten:

#1. Naven

Hubs vormen het hart van het kernbedrijfsconcept, zoals klant, verkoper, verkoop of product. De hubtabel wordt gevormd rond de bedrijfssleutel (winkelnaam of locatie) wanneer een nieuw exemplaar van die bedrijfssleutel voor het eerst in het datawarehouse wordt geïntroduceerd.

  Hoe u alle apps kunt zien die u in de Mac App Store hebt gekocht

De hub bevat geen beschrijvende informatie en geen FK’s. Het bestaat alleen uit de bedrijfssleutel, met een door het magazijn gegenereerde reeks ID- of hash-sleutels, laaddatum/-tijdstempel en recordbron.

#2. Koppelingen

Koppelingen brengen relaties tot stand tussen de bedrijfssleutels. Elk item in een link modelleert nm-relaties van een willekeurig aantal hubs. Het stelt de datakluis in staat om flexibel te reageren op veranderingen in de bedrijfslogica van de bronsystemen, zoals veranderingen in de hartelijkheid van relaties. Net als de hub bevat de link geen beschrijvende informatie. Het bestaat uit de sequentie-ID’s van de hubs waarnaar het verwijst, een door het magazijn gegenereerd sequentie-ID, een laaddatum/-tijdstempel en een recordbron.

#3. Satellieten

Satellieten bevatten de beschrijvende informatie (context) voor een bedrijfssleutel die is opgeslagen in een hub of een relatie die is opgeslagen in een link. Satellieten werken “alleen invoegen”, wat betekent dat de volledige gegevensgeschiedenis in de satelliet is opgeslagen. Meerdere satellieten kunnen een enkele bedrijfssleutel (of relatie) beschrijven. Een satelliet kan echter maar één sleutel beschrijven (hub of link).

Afbeeldingsbron: Carbidfischer

Hoe een Data Vault-model te bouwen

Het bouwen van een Data Vault-model omvat verschillende stappen, die allemaal cruciaal zijn om ervoor te zorgen dat het model schaalbaar en flexibel is en in staat is om aan de behoeften van het bedrijf te voldoen:

#1. Identificeer entiteiten en attributen

Identificeer de bedrijfsentiteiten en hun bijbehorende attributen. Het omvat een nauwe samenwerking met de zakelijke belanghebbenden om hun vereisten en de gegevens die ze moeten vastleggen te begrijpen. Zodra deze entiteiten en attributen zijn geïdentificeerd, scheidt u ze in hubs, links en satellieten.

#2. Definieer entiteitsrelaties en maak koppelingen

Nadat u de entiteiten en attributen hebt geïdentificeerd, worden de relaties tussen de entiteiten gedefinieerd en worden de koppelingen gemaakt om deze relaties weer te geven. Elke koppeling krijgt een bedrijfssleutel toegewezen die de relatie tussen de entiteiten identificeert. De satellieten worden vervolgens toegevoegd om de attributen en relaties van de entiteiten vast te leggen.

#3. Stel regels en normen op

Nadat koppelingen zijn gemaakt, moet een set regels en modelleringsstandaarden voor gegevenskluis worden opgesteld om ervoor te zorgen dat het model flexibel is en veranderingen in de loop van de tijd aankan. Deze regels en normen moeten regelmatig worden herzien en bijgewerkt om ervoor te zorgen dat ze relevant blijven en afgestemd blijven op de zakelijke behoeften.

#4. Vul het model in

Nadat het model is gemaakt, moet het worden gevuld met gegevens met behulp van een incrementele laadbenadering. Het omvat het laden van de gegevens in de hubs, links en satellieten met behulp van deltabelastingen. De delta laadt om ervoor te zorgen dat alleen de wijzigingen die in de gegevens zijn aangebracht, worden geladen, waardoor de tijd en middelen die nodig zijn voor gegevensintegratie worden verminderd.

#5. Test en valideer het model

Ten slotte moet het model worden getest en gevalideerd om ervoor te zorgen dat het voldoet aan de zakelijke vereisten en schaalbaar en flexibel genoeg is om toekomstige veranderingen aan te kunnen. Regelmatig onderhoud en updates moeten worden uitgevoerd om ervoor te zorgen dat het model afgestemd blijft op de bedrijfsbehoeften en een uniform beeld van de gegevens blijft bieden.

  Getallen verdelen in Google Spreadsheets

Data Vault leermiddelen

Het beheersen van Data Vault kan waardevolle vaardigheden en kennis bieden die zeer gewild zijn in de hedendaagse datagestuurde industrieën. Hier is een uitgebreide lijst met bronnen, inclusief cursussen en boeken, die kunnen helpen bij het leren van de fijne kneepjes van Data Vault:

#1. Datawarehouse modelleren met Data Vault 2.0

Deze Udemy-cursus is een uitgebreide introductie tot de Data Vault 2.0-modelleringsbenadering, Agile projectmanagement en Big Data-integratie. De cursus behandelt de basis en grondbeginselen van Data Vault 2.0, inclusief de architectuur en lagen, bedrijfs- en informatiekluizen en geavanceerde modelleringstechnieken.

Het leert u hoe u een Data Vault-model vanaf nul ontwerpt, traditionele modellen zoals 3NF en dimensionale modellen converteert naar Data Vault en de principes van dimensionaal modelleren in Data Vault begrijpt. De cursus vereist basiskennis van databases en SQL-grondbeginselen.

Met een hoge beoordeling van 4,4 uit 5 en meer dan 1.700 beoordelingen is deze bestverkochte cursus geschikt voor iedereen die een sterke basis wil leggen in Data Vault 2.0 en Big Data-integratie.

#2. Data Vault-modellering uitgelegd met use case

Deze Udemy-cursus is bedoeld om u te begeleiden bij het bouwen van een Data Vault-model aan de hand van een praktisch bedrijfsvoorbeeld. Het dient als een beginnershandleiding voor Data Vault-modellering en behandelt sleutelconcepten zoals de geschikte scenario’s voor het gebruik van Data Vault-modellen, de beperkingen van conventionele OLAP-modellering en een systematische aanpak voor het bouwen van een Data Vault-model. De cursus is toegankelijk voor personen met minimale kennis van databases.

#3. De Data Vault Guru: een pragmatische gids

De Data Vault Guru van dhr. Patrick Cuba is een uitgebreide gids voor de datavault-methodologie, die een unieke kans biedt om het datawarehouse van een onderneming te modelleren met behulp van automatiseringsprincipes die vergelijkbaar zijn met de principes die worden gebruikt bij het leveren van software.

Het boek geeft een overzicht van de moderne architectuur en biedt vervolgens een grondige handleiding voor het leveren van een flexibel gegevensmodel dat zich aanpast aan veranderingen in de onderneming, de gegevenskluis.

Bovendien breidt het boek de methodologie van datakluis uit door geautomatiseerde tijdlijncorrectie, auditsporen, controle van metadata en integratie met agile leveringstools te bieden.

#4. Een schaalbaar datawarehouse bouwen met Data Vault 2.0

Dit boek biedt lezers een uitgebreide gids voor het creëren van een schaalbaar datawarehouse van begin tot eind met behulp van de Data Vault 2.0-methodiek.

Dit boek behandelt alle essentiële aspecten van het bouwen van een schaalbaar datawarehouse, inclusief de Data Vault-modelleringstechniek, die is ontworpen om typische storingen in datawarehousing te voorkomen.

Het boek bevat talloze voorbeelden om lezers te helpen de concepten duidelijk te begrijpen. Met zijn praktische inzichten en praktijkvoorbeelden is dit boek een essentieel hulpmiddel voor iedereen die geïnteresseerd is in datawarehousing.

#5. De olifant in de koelkast: begeleide stappen naar succes in de datakluis

De olifant in de koelkast van John Giles is een praktische gids die tot doel heeft lezers te helpen Data Vault-succes te behalen door te beginnen met het bedrijf en te eindigen met het bedrijf.

Het boek concentreert zich op het belang van bedrijfsontologie en het modelleren van bedrijfsconcepten en biedt stapsgewijze richtlijnen voor het toepassen van deze concepten om een ​​solide gegevensmodel te creëren.

Door middel van praktisch advies en voorbeeldpatronen biedt de auteur een duidelijke en ongecompliceerde uitleg van ingewikkelde onderwerpen, waardoor het boek een uitstekende gids is voor degenen die nieuw zijn in de Data Vault.

laatste woorden

Data Vault vertegenwoordigt de toekomst van datawarehousing en biedt bedrijven aanzienlijke voordelen op het gebied van flexibiliteit, schaalbaarheid en efficiëntie. Het is met name geschikt voor bedrijven die snel grote hoeveelheden gegevens moeten laden en bedrijven die hun business intelligence-applicaties op een flexibele manier willen ontwikkelen.

Bovendien kunnen bedrijven met een bestaande silo-architectuur veel baat hebben bij het implementeren van een upstream core datawarehouse met behulp van Data Vault.

Mogelijk bent u ook geïnteresseerd in meer informatie over de gegevenslijn.