Data Warehousing – Job Scheduling und Workload Automation 5/5 (1)

Der Betrieb eines Data Warehouses hat unter anderem die Aufgabe, die Datenzulieferungen aus unterschiedlichsten Geschäftsapplikationen, Datenbanken und operativen Systemen zusammenzuführen und effizient die Aktualität des Datenbestands abzusichern. Hierbei sind die Prozesse in der richtigen Reihenfolge, zum richtigen Zeitpunkt und unter passenden Bedingungen auszuführen. Ein falscher Ausführungszeitpunkt oder ein nicht ausgeführter Prozessschritt kann zu erheblichem Zeitverlust oder verfälschtem Datenbestand führen.

Ausgangssituation

Das bei unserem Kunden aus der Finanzindustrie betriebene Data Warehouse hat die Aufgabe, Daten aus verschiedensten Quellsystemen zu einem konsolidierten, harmonisierten Datenbestand für die Unternehmenssteuerung zu integrieren. Dieser dient als zentrale Datenbasis für Auswertungen und Schnittstellen für weiterverarbeitende Systeme u.a. aus den Bereichen Accounting, Kredit-, Adress- und Gesamtrisiko. Um die Metadaten der Bewirtschaftungsprozesse innerhalb der Ablaufsteuerung verwenden zu können, werden diese eigens in einer entsprechenden Datenschicht persistiert.

Workload Automation Schichten

Zielsetzung

Für den Betrieb des Data Warehouses soll eine automatisierte Ablaufsteuerung unter den nachfolgenden Gesichtspunkten konzipiert und realisiert werden:

  • Zeitoptimierte Bewirtschaftungsprozesse
  • Anforderungen der Endabnehmer (Zeit und Inhalt)
  • Restartfähigkeit
  • Wartbarkeit

Für eine transparente Ablaufsteuerung soll diese in die bestehende Metadatenmanagement-Komponente integriert werden.

Lösung – “Logical Unit of Work” (LUW)

Entgegen einem monolithischen Ansatz basiert die Ablaufsteuerung auf einem modularen Prinzip. Hierzu werden „Logical Unit of Work“ (LUW) definiert. Eine LUW bildet die unterste organisatorische Ebene der Ablaufsteuerung und stellt somit die kleinste sinnvoll zu steuernde Einheit dar. Für die Prozesse einer solchen LUW werden die ausführungsspezifischen Metadaten unter einem gemeinsamen Kontext, einer Integration Sequence, erfasst und protokolliert.

Drei Grundtypen einer LUW bestimmen im Wesentlichen den Aufbau der Ablaufsteuerung. Deren Zuschnitt basiert auf den folgenden Designprinzipien:

  • Parallele Abläufe
  • Laufzeiten
  • LUW je Lieferobjekt
  • LUW je Liefersystem und fachlicher Entität
  • LUW je Abnehmer und Liefersystem

LUW1

Die „Logical Unit of Work” LUW1 kapselt alle Prozesse, um die angelieferte Quelldatei in einer 1:1-Struktur in die liefersystemspezifische Rohdatenschicht zu importieren.

Workload Automation LUW 1

  1. Prüfung auf Quelldatei
  2. Kopieren der Quelldatei in das Arbeitsverzeichnis
  3. Entpacken der Quelldatei – *optional
  4. Historisierung des Datenbestand der Zieltabelle
  5. Leeren der Zieltabelle
  6. ETL-Landing-Prozess
  7. Archivierung und Housekeeping

LUW2

Die „Logical Unit of Work” LUW2 kapselt alle Prozesse zur Überführung der Rohdaten eines Liefersystems in die Harmonisierungsschicht einer fachlichen Entitätengruppe. Zur Laufzeitoptimierung können die Prozesse eins und zwei sowie drei und vier in eine jeweils eigenständige LUW2a und LUW2b ausgegliedert werden.

Workload Automation LUW 2

  1. Leeren Zielentität in Stage-Layer
  2. ETL-Stage-Prozess
  3. ETL-Core-Prozess Hauptentität
  4. ETL-Core-Prozess Subentität

LUW3

Die „Logical Unit of Work“ LUW3 kapselt alle Prozesse zur Erzeugung eines Datenexports je Abnehmersystem und Lieferzeitpunkt.

Workload Automation LUW 3

  1. ETL-Extraktionsprozess
  2. ETL-Export-Lieferobjekt
  3. Versenden des Lieferobjekts an das Abnehmersystem
  4. Archivierung Lieferobjekt und Housekeeping

Ergebnis

Die „Logical Unit of Work“ sind innerhalb des Jobscheduling-Tools als atomare Objekte definiert. Die nachfolgende Abbildung verdeutlicht den vertikalen und horizontalen Zuschnitt der einzelnen LUW nach Architekturschicht sowie Quell- bzw. Zielsystem.

Workload Automation Querschnitt

Die Grundtypen LUW1 und LUW2 werden nochmals in übergeordneten Ablaufplänen je Quellsystem zusammengefasst. LUW3 ist bereits auf Ebene eines Zielsystems definiert. Abhängigkeiten zwischen einzelnen LUW sind innerhalb dieses Systemablaufplans mit den Bordmitteln der Jobsteuerung realisiert. Über Systemgrenzen hinweg werden diese hingegen über die Auswertung der prozessbezogenen Metadaten abgebildet, um auch komplexe Ladezustandsszenarien abbilden zu können. Die auf dem Prinzip der „Logical Unit of Work“ basierende Ablaufsteuerung ermöglicht somit eine

  • starke Parallelisierung
  • Entkopplung von Teilergebnissen
  • frühzeitige Freigabe von Daten für nachgelagerte Prozesse
  • Transparenz von Datenabhängigkeiten

Facts & Figures

Systemablaufpläne:    29

LUW:                              178

Jobs:                              >2000

Technik:                        Automic Automation Engine, Informatica, Oracle, Unix

Fragen Sie unsere Experten

Konnten wir Ihr Interesse wecken? Haben Sie weiterführende Fragen oder Anmerkungen? Fragen Sie unsere Experten. Wir gehen gerne und individuell auf Ihr Feedback ein.