Datenmodellierung im Data Vault

von Moritz Hafner und Dr. Dieter Hierl

Die Bedeutung von Daten und die Menge an zu verarbeitenden Informationen ist in den vergangenen Jahren kontinuierlich gestiegen – und damit auch die Anforderungen an Qualität, Effizienz und Skalierbarkeit der Datenverarbeitung. Hinzu kommen regulatorische Vorgaben wie die lückenlose Rückverfolgbarkeit von Informationen.

Eine Methode zur Datenmodellierung, die diesen Anforderungen gerecht wird, ist der sogenannte Data Vault. Er zeichnet sich durch hohe Flexibilität, klare Trennung zwischen Roh- und Fachlogik sowie die Möglichkeit zur effizienten Integration neuer Datenquellen aus. Im Folgenden werden zunächst die Grundprinzipien des Data Vaults erläutert, bevor auf drei zentrale Konzepte vertieft eingegangen wird: Raw Vault versus Business Vault, bi-temporale Historisierung und änderungsflankengetriebene Beladung.

Der Data Vault wurde in den 1990er Jahren von Daniel Linstedt entwickelt, um Daten aus verschiedenen Quellsystemen homogen in einem Data Warehouse abzulegen. Die Modellierung besteht aus drei Grundbausteinen: Hubs, Links und Satelliten.

Hubs speichern die eindeutigen Identifikationsschlüssel, beispielsweise Kunden- oder Kontonummern. Satelliten enthalten die beschreibenden Informationen zu diesen Schlüsseln, etwa Adress- oder Vertragsdaten, und Links verknüpfen mehrere Hubs miteinander, zum Beispiel Kunden- und Geschäftsdaten. Diese Struktur bietet nicht nur eine klare Trennung von Schlüsseln und beschreibenden Daten, sondern ermöglicht auch eine besonders agile und skalierbare Erweiterung: Neue Datenquellen oder zusätzliche fachliche Informationen lassen sich jederzeit ergänzen, ohne bestehende Strukturen zu verändern.

Ein besonderer Vorteil der Methode ist, dass man sie Schritt für Schritt umsetzen kann. Beispielsweise können zunächst nur die Kundendaten modelliert werden, bevor in einem späteren Schritt Geschäftsdaten oder weitere Entitäten ergänzt werden. So können Erkenntnisse aus den ersten Ausbaustufen direkt in die Weiterentwicklung einfließen. Innerhalb dieser Grundstruktur nimmt die Unterscheidung zwischen Raw Vault und Business Vault, beides Data Vault Modellierungen, eine zentrale Rolle ein. Der Raw Vault speichert die Daten so, wie sie aus den Quellsystemen geliefert werden – vollständig, unverändert und inklusive aller fachlichen und technischen Eigenheiten. Der Business Vault baut darauf auf und reichert die Rohdaten um fachliche Regeln, Ableitungen und standardisierte Sichten an. Hier werden beispielsweise Datenformate harmonisiert, Business Rules angewendet, Kennzahlen berechnet oder Informationen aus mehreren Quellen zusammengeführt. Die Trennung dieser Schichten bringt gleich mehrere Vorteile: Die fachliche Logik ist jederzeit transparent und änderbar, ohne dass die Rohdaten neu geladen werden müssen; die Historie bleibt revisionssicher erhalten und regulatorische Nachweise lassen sich lückenlos erbringen.

Ein weiteres Merkmal der Data Vault Modellierung für regulierte Branchen ist die bi-temporale Historisierung. Dabei wird nicht nur gespeichert, wann ein Datensatz ins Data Warehouse geladen wurde (Load Time), sondern auch, für welchen Zeitraum er im Quellsystem gültig war (Business Time). Diese doppelte Zeitführung ist in den Satellitenstrukturen des Data Vaults bereits angelegt und erlaubt es, Analysen sowohl mit dem aktuellen Wissen als auch aus der Perspektive eines früheren Zeitpunkts durchzuführen. Das ist besonders in regulierten Branchen von großem Vorteil und in der Bankenbranche unablässig, erfordert jedoch sorgfältige Abfragen, einen höheren Speicherbedarf und robuste Ladeprozesse, um mit nachträglichen Korrekturen oder verspäteten Meldungen umgehen zu können. Theoretisch ist die bitemporale Historisierung im Data Vault nicht zwingend nötig. In einfachen Fällen beispielsweise bei Stammdaten ohne zeitliche Relevanz, in Prototypen oder wenn die Gültigkeitsinformationen aus den Quellsystemen schlicht nicht verfügbar sind, kann man daher auf die Business Time auch verzichten.

Für die Beladung bietet der Data Vault mit dem Delta-Only- Load beziehungsweise der änderungsflanken-getriebenen Verarbeitung einen weiteren Effizienzvorteil. Dabei werden nur neue oder geänderte Datensätze geladen bzw. historisiert, was die Performance deutlich steigert, und Speicherplatz spart. Zeitstabile Daten, wie etwa Kundenstammdaten, müssen so nicht bei jedem Ladezyklus erneut geschrieben werden. Die Nachvollziehbarkeit ist über Zeitstempel und Status-Tracking- Tabellen jederzeit gewährleistet. Durch Anbindung des Status-Tracking kann man – auch rückwirkend - für Analysenund Meldeerstellungen auf eine Stichtagsbetrachtung wechseln. Da für das Status-Tracking komplexere Rechenlogiken notwendig sind ist in der Praxis ein hybrider Ansatz sinnvoll. Es besteht ein Trade-off zwischen Speicher- und Recheneffizienz Für sehr dynamische Daten, wie tägliche Wechselkurse, ist eine vollständige Stichtagsbeladung oft effizienter. Von der Änderungsflanken-Logik sollte man außerdem bei einer Initialbeladung oder beim gezielten Neuaufbau von Business- Vault-Tabellen abweichen.

Da die Struktur eines Data Vaults komplexer ist als die klassischer Modelle wie des Sternschemas, sollte man Raw und Business Vaults als zentrale Rohdatenquelle für einheitliche und revisionssichere Datenbereitstellung nutzen. Darauf aufbauend muss gewöhnlich ein Reporting-Layer geschaffen werden, das entweder über ETL/ELT-Prozesse oder direkt über Views auf die Data Vaults zugreift. Fachbereiche können auf diese Weise mit BI-Tools eigene Analysen und Dashboards erstellen, ohne die komplexen Strukturen des Kernmodells zu kennen. Zugleich lassen sich Berechtigungskonzepte gezielt auf diesen Reporting-Layer anwenden, so dass der Zugriff auf sensible Roh- oder Geschäftsdaten kontrolliert bleibt. Die großen Datenmengen werden im Hintergrund effizient gespeichert und audit-sicher archiviert, während Endnutzer einfach und flexibel arbeiten können. Damit verbindet der Data Vault die Vorteile einer robusten, skalierbaren und revisionssicheren Datenbasis mit der Agilität moderner Self-Service-Analyseumgebungen.

Wer den Einsatz von Data Vault in seiner Organisation plant, sollte neben den konzeptionellen Grundlagen auch die praktische Umsetzung im Blick behalten. In vielen Projekten lohnt es sich, auf die Erfahrung externer Experten zurückzugreifen – nicht nur, um technische Stolperfallen zu vermeiden, sondern auch, um einen effizienten und zukunftssicheren Aufbau sicherzustellen.

Zu den typischen Beratungsfeldern zählen die Entwicklung einer passenden Architektur- und Tool-Strategie, das Etablieren klarer Modellierungsrichtlinien und Namenskonventionen, die Automatisierung und Generierung der Ladeprozesse, der strukturierte Aufbau von Datenqualitäts- und Business-Rule-Management sowie Schulung und Change-Management für alle beteiligten Rollen. Mit einem klaren Fahrplan und methodischer Unterstützung gelingt der Einstieg in Data Vault deutlich reibungsloser – und die Vorteile der Methode lassen sich schneller und nachhaltiger realisieren.

Wir von Nagler & Company unterstützen Sie gerne – sowohl bei der Datenmodellierung als auch bei der Anbindung Ihrer Daten an Abnehmersysteme und Reportingtools oder den oben genannten Beratungsfeldern.

Moritz Hafner Nagler & Company
Ihr
Ansprechpartner

Moritz Hafner

Standort München

+49 151 27 25 24 86

E-Mail
Ihr
Ansprechpartner

Dr. Dieter Hierl

Standort Schnaittenbach

+49 171 65 64 766

E-Mail

Unternehmen