Datenausschnitt und Lieferversion – Grundbausteine zur Schaffung eines konsistenten Datenhaushalts mit Datenreifungsprozessen 4.88/5 (8) Lesedauer 5 Minuten

Share on facebook
Share on twitter
Share on linkedin
Share on xing
Share on whatsapp
Share on email

Im Zuge der Anforderungen der Richtlinie 239 des Baseler Committee on Banking Supervision (BCBS239) müssen große Banken jederzeit in der Lage sein, ihre verschiedenen Risikobereiche zu überblicken und an die Aufsicht zu melden.
Des Weiteren fordert BCBS239 konkrete Maßnahmen zur Sicherstellung der Aktualität, der IT-Konformität sowie der Datenqualität für Risikoinformationen und verwandte Daten.

Aufgabenstellung

Unser Kunde aus der Finanzindustrie hat im Lichte der Richtlinie BCBS239 den Aufbau einer Digitalen  Analyse und Reporting Plattform (DRAP) für das Finanz- und Risikoberichtswesens etabliert. Hauptsächliches Ziel der Plattform ist der Aufbau eines qualitätsgesicherten, hochwertigen, aktuellen und kommentierten Datenhaushalts für das Finanz- und Risikoberichtswesen des Unternehmens. DRAP stellt im Einzelnen verschiedene Funktionen, wie z.B. Reportdarstellung, Analyse und Datenbeladung inkl. Statustracking für definierte Anwendungsgebiete zur Verfügung.

DRAP bedient sich hierbei der bestehenden Daten des Financial Data Warehouse (FDW) und einzelner individuellen Zulieferungen verschiedener Lieferanten. Diese Daten bilden gleichzeitig die Basis, um anwendergesteuert über die DRAP-Plattform verschiedene Berichte wie z.B. den Kreditrisikobericht (KRB) oder den Gesamtrisikobericht (GRB) zu erstellen.

Lösungsansatz

Um hierbei den Datenhaushalt qualitätsgesichert und metadatengetrieben zu verwalten und dafür Sorge zu tragen, dass ausgewählte Zulieferungen in einen gemeinsamen fachlichen und referenzierbaren Kontext gebracht werden können, wurde zur Erweiterung der bestehenden persistierten Metadatenschicht Generic Logging Area (GLA) das Konzept der Datenausschnittsbildung und Versionierung der Lieferungen (Lieferversionen) umgesetzt. Dies wird im Folgenden vorgestellt.

Die Lieferversion

Die als Beispiel genannten Berichte setzen sich aus diversen Datenlieferungen unterschiedlicher Granularitätsstufen zu einem bestimmten Stichtag (i.d.R. der Ultimo einer Berichts- und Aggregationsperiode) zusammen. Diese Lieferungen werden in unterschiedlichen Datei- und Strukturformaten (xml, xslx und csv in horizontaler und Key-Value-Modellierung) angeliefert. Dabei sind nicht alle Zulieferungen nur für einen Bericht relevant, sondern haben auch einen periodenübergreifenden Charakter. Des Weiteren sollen auch bereits vorläufige Ergebnisse in den Berichtserstellungsprozess einfließen. Das bedeutet, dass zu einem Sachverhalt und damit von einem Lieferanten ggf. mehrere Lieferungen pro Berichtsperiode erfolgen. Entsprechende Informationen über Datenqüte, Lieferzeitpunkt und Priorität bei der Herstellung eines Gesamtdatenhaushalts müssen demzufolge zentral hinterlegt werden. Auch ist durch den Lieferanten dafür Sorge zu tragen, dass die jeweilige Datenbereitstellung und -verarbeitung pro Stichtag rechtzeitig für die Berichterstellung zur Verfügung steht. Um diese Informationen zu verwalten und entsprechend referenzierbar zu machen, wurde die Entität Lieferversion aufgebaut.

Eine Lieferversion entspricht hierbei einem Datenmarker, welcher metadatengetriebene Informationen zu jeweils einem Lieferobjekt eines Zulieferers zu einem Zeitpunkt enthält. So erhält jede Zulieferung gemäß dem Lieferzeitpunkt eine aufsteigende technische ID (Lieferversionsnummer), anhand derer die aktuellste Lieferung pro Stichtag herangezogen werden kann. So ist es beispielsweise möglich, aufgrund diverser Korrekturen einzelne Lieferungen pro Stichtag erneut zur Verfügung zu stellen. Hierbei ist sicherzustellen, dass keine Überschreibung einzelner Lieferungen erfolgt.

Des Weiteren wird jedes vorher definierte Lieferobjekt durch einen Lieferversionsnamen fachlich repräsentiert. Dabei bündelt eine Lieferversion pro Lieferobjekt die jeweiligen aufgerufenen Datenintegrationsprozesse, welche über die einzelnen Layer über Integration Run-Sequenz zusammengefasst sind:

  • Landing (LDG)-Layer: Relationale 1:1 Ablage von Daten aus Lieferobjekten
  • Staging (STG)-Layer: Fachliche und technische Transformation
  • CORE-Layer: Finale technische Integration der Daten (Historisierung/ Versionierung, Ermittlung des ID-Kontextes des DWH)

Außerdem erhält jede Lieferversionssequenz einen Start- sowie einen Endzeitpunkt (Verarbeitungszeitstempel) und eine Statusinformation, der angibt, ob der Prozess gestartet, erfolgreich abgeschlossen oder gescheitert ist. Im Rahmen der genannten Verarbeitungsschichten (LDG, STG, CORE) werden standardmäßig weitere Entitäten der GLA mit Metadaten befüllt. Beispielsweise werden im Landing-Layer Dateiname und Stichtag technisch persistiert. Auf diese Informationen kann ausgehend von der Lieferversionsentität über Link-Tabellen zurückgegriffen werden.

Datenausschnitt

Ähnlich wie das Konzept der Lieferversion, welches eine übergeordnete Sequenz über alle notwendigen Datenintegrationsprozesse einer Zulieferung darstellt, bündelt ein Datenausschnitt mehrere fachlich zusammenhängende Lieferversionen. Dabei wird der fachliche Zusammenhang zentral über eine Konfigurationstabelle gesteuert und während des Berichtserstellungsprozesses je Lieferversion abgefragt. Ein Datenausschnitt beinhaltet im Normalfall mehrere Lieferversionen, jedoch pro Lieferobjekt höchstens eine, nämlich die gemäß einer Datenpriorisierung ausgewählte. Auf der anderen Seite kann eine Lieferversion in mehreren Datenausschnitten vorhanden sein, da der letzte Datenausschnitt immer den besten gesamtheitlichen Informationsstand widerspiegelt. Dies hat den Vorteil, dass ein Lieferobjekt nicht zwingend mehrfach geladen, sondern exakt einmal vorliegen muss. Demzufolge entspricht dies einer N:M Zuordnung. (siehe Darstellung im Datenmodell)

Lieferversion Datenmodell

Datenauschnitterstellung

Für die Erstellung eines Datenausschnitts wurden zwei Datenausschnitts- Zusammensetzungsprozesse etabliert (siehe Auflistung und Abbildungen).

Komposition eines Datenausschnitts nach Auswahlliste (Cherry-Picking)

In dem Fall entscheidet der Berichtersteller manuell, welche erfolgreich erzeugte Lieferversion zu dem betrachteten Stichtag relevant sein soll. Die Auswahl erfolgt über eine Benutzeroberfläche.

Lieferversion Datenausschnitt Logo
Komposition eines Datenausschnitts nach Datenpriorisierung

Dies ist ein Prozess zur Selektion aller für den fachlichen Zusammenhang zuletzt freigegebenen, höchst priorisierten Lieferversionen. Die entsprechende Auswahl bildet dann automatisch den nächsten Datenausschnitt.

Lieferversion Datenausschnitt Logo 2

Nutzen & Vorteile

Durch das Konzept der Datenausschnitte und Lieferversionen besteht die Möglichkeit, einen konsistenten Datenhaushalt innerhalb eines komplexen, heterogenen Datenreifungsprozesses herzustellen, der z.B. im Rahmen des Berichtswesens als Datamart adressiert und aufbereitet werden kann. Einzelne Teillieferungen werden zu einem fachlich zusammengehörigen Verarbeitungskontext gebündelt und so virtuell in neue Zeitscheiben durch Datenausschnitte übertragen. Eine einfache Beladung einer Zulieferung genügt, um diese so in diversen Datenlagen, die beispielsweise durch neue Zulieferungen anderer Lieferanten entstehen, zu bündeln. Unter anderem ist es möglich, eine historische (Then-Then)-Betrachtung herzustellen. Jederzeit kann genau ausgewiesen werden, welche Informationen in einen Risikobericht und damit potentiell an die Aufsicht geflossen sind.