Auch in Zeiten von Cloud, Big Data und Schema on Read ist das Thema Datenmodellierung und der elegante Umgang mit verschiedenen Zeitdimensionen äußerst wichtig für Data Management-Lösungen.
Der Data Lake mit seinen verschiedenen Zonen bietet die optimale Ablage empfangener und für Data Science und Data Analytics aufbereiteter Daten. Ein Data Warehouse ist die Plattform, auf der Daten ein Schema besitzen, das optimal die Aspekte Datenablage bzw. -haltung und Datennutzung unterstützt. Für den Core Layer, der Daten historisch korrekt, zweifelsfrei und in bestechender Qualität anbieten soll, empfiehlt sich eine flexible, erweiterbare und damit nachhaltige und effiziente Datenmodellierung.
Wir empfehlen hier Data Vault oder Anchor Modelling. Hinsichtlich der Erweiterbarkeit und der Kombination von externen Daten aus einem Data Lake mit internen Daten des Data Warehouse bietet aber gerade Data Vault 2.0 beste Eigenschaften. Data Vault ist eine agile Methode für die Umsetzung eines hochgradig skalierbaren Enterprise Data Warehouse mit historischen Daten. Sie ist geeignet für on-premises oder Cloud Data Warehouse-Implementierungen und für hybride Infrastrukturen, die eine Data Lake- und relationale Datenbank-Komponente vereinen (z.B. auch durch komponentenunabhängige Surrogate Keys durch Hashkeys). Und sie umfasst vor allem eine kompakte Datenmodellierung mit wenigen standardisierten Modellbausteinen als Ausgangspunkt für effiziente und auf hybriden bzw. föderierten Plattformen arbeitende Datenintegrationsprozesse.
Mit unserem integration-factory Pattern Approach haben wir direkt nutzbare, leicht zu adaptierende Prozessmuster für Hubs, Satelliten, Links und Non-historized Links. Diese bieten einen kompakteren Ansatz und haben eine höhere Integrationsleistung als die typischen kleinteiligen Integrationsansätze auf reiner SQL-Basis. Außerdem haben unsere Prozessmuster modular nutzbare Komponenten wie die Abbildung von DQ-Eigenschaften, DQ-Messungen und einem Reject-Loop während der Core Layer-Bewirtschaftung oder die Einbettung in die integration-factory Generic Logging Solution. Es werden alle denkbaren Formen nicht-chronologischer Verarbeitungen ggf. auch aufgestauter neuer Daten im Delta-, Full- und Reject-Modus unterstützt.
Neben der Methode Data Vault oder Anchor Modelling besteht natürlich auch die Frage, wie die Daten zeitlich organisiert werden. Die temporale Modellierung ist nach unserer Einschätzung ein wesentlicher Erfolgsfaktor für die Zukunftsfähigkeit und die Akzeptanz des Data Warehouse. In unserem Konzept der bi-temporalen Modellierung von Satelliten und Non-historized Links werden die Daten gemäß der beiden Zeitdimensionen Transaktions- und Gültigkeitszeit abgelegt. Wir verwenden bei den Satelliten für optimierte Zugriffe eine Tupel-Zeitstempelung. Die Datenintegrationsprozesse sorgen im Bewirtschaftungslauf im Insert-Only-Verfahren für die Historisierung und Versionierung und damit für die korrekte historische Verankerung der Daten.
Im Ergebnis sind Informationen jederzeit reproduzierbar und nachvollziehbar, da durch die Modellierung und Art der Datenintegration Informationsverluste ausgeschlossen sind. Wenige Process Pattern kapseln das Datenmodell und die Datenintegrationsfunktionalität. Hinsichtlich Wartung und Betrieb ist die hohe Standardisierung und Normierung ein erheblicher Kosten- und Qualitätsvorteil. Das Pattern-Based Development ist ein Factory-Ansatz. Mit unserem Development Automation Service MataKraftwerk sind wir zudem in der Lage, große Projektvorhaben in kurzer Zeit mit einem überschaubaren Budget zu liefern.
Sie wollen Ihre Datenplattform neu designen oder haben Fragen zu unserem Ansazt? Gerne diskutieren wir dies mit Ihnen.
Ansprechpartner
Daniel Feidieker
+49 (0) 69-25669269-0
info@integration-factory.de
KONTAKT
integration-factory GmbH & Co. KG
Windmühlstraße 2
60329 Frankfurt am Main
Fon +49 (0) 69-25669269-0
Fax +49 (0) 69 25669269-19
info@integration-factory.de
TECHNOLOGIE
© 2022 integration-factory GmbH & Co. KG. All Rights Reserved.