Data Streaming – Evaluierung von Big Data Technologien 5/5 (4)

Apache Spark Streaming, Apache Flink und Informatica Intelligent Streaming

Das Themenfeld Real-Time Data Streaming beschäftigt die integration-factory bereits seit längerem im Rahmen des alltäglichen Projektgeschäfts. Neben dem Aufbau des Business Data Warehouse der European Energy Exchange (EEX) wurden innerhalb weiterer Kundenprojekte, wie beispielsweise bei Stoxx Ltd., auf Technologien und Mechanismen von Data Streaming zurückgegriffen. Als ein Auszug der Einsatzmöglichkeiten sollen diese exemplarischen Projekte die Wichtigkeit der Technologie und des Geschäftszweiges aufzeigen.

Durch den Ausbau des Bereichs Big Data haben sich vor allem im Data Streaming Umfeld neue Möglichkeiten der Datenverarbeitung ergeben, welche auch für integration-factory von großem Interesse sind. In Zusammenarbeit mit der Technischen Hochschule Nürnberg Georg Simon Ohm hat integration-factory eine Masterarbeit mit dem Titel “Real-Time Data Streaming – prototypischer Vergleich von technischen Lösungen” betreut. Ziel dieser Arbeit war die Aufbereitung und Evaluierung von Real-Time Data Streaming Frameworks, um einen Einblick in neuartige Technologien in diesem Umfeld zu ermöglichen und die Kenntnisse in diesem zu vertiefen.

Hauptaugenmerk war dabei die Betrachtung der Technologien von Informatica Intelligent Streaming (IIS), Apache Spark Streaming und Apache Flink. Die beiden letztgenannten Frameworks werden durch die Apache Software Fundation gefördert und gehören zu den populärsten Big Data Projekten im Bereich Data Streaming. Informatica Intelligent Streaming stellt die Streaming Komponente unseres Partners Informatica dar und ist eng verbunden mit Informatica Big Data Management (BDM). Alle Frameworks sind aufgrund des hohen Reifegrads für unsere Kunden von Interesse und wurden daher im Rahmen der Arbeit beleuchtet.

Die genannten Software Komponenten wurden im integration-factory eigenen Big Data Labor prototypisch implementiert und somit eine Real-Time Streaming Architektur aufgebaut, welche zum späteren Vergleich genutzt wurde.

integration-factory Real-Time Streaming Architektur

Im Rahmen dieser Implementierung wurde Apache Kafka installiert, eine Producer-Anwendung zur Bereitstellung der Daten entwickelt und diese an IIS, Apache Spark Streaming und Apache Flink angeschlossen. Unter Berücksichtigung einer eigens entwickelten Bewertungsmatrix wurde im weiteren Verlauf ein Vergleich der Frameworks durchgeführt. Hauptaugenmerk innerhalb dieser Evaluierung lag auf den Bewertungskriterien Architektur (Batch-/Stream Processing), Leistungsmerkmalen (Systemfunktionalität, Performance, Kosten, etc.) und der Usability (Dokumentation, Handling). Mit Hilfe dieser Bewertungsmatrix können in Zukunft Auswahlprozesse im Bereich des Real-Time Data Streaming transparent dargestellt, aufgezeigt und zur Unterstützung beim Auswahlprozess herangezogen werden. Auf dieser Basis kann integration-factory, zusammen mit unseren Kunden, gezielt die individuelle und optimale Technologieauswahl treffen.

Fazit

Die Förderung von Studienarbeiten fördert den Wissensaustausch zwischen Studierenden, Hochschulen und integration-factory. Dabei bieten wir Studierenden die Möglichkeit, praxisnahe Themen zu untersuchen, erste Praxiserfahrung zu sammeln und letztlich die Chance auf einen Direkteinstieg als Datenintegrationsspezialist nach erfolgreichem Abschluss des Studiums. Zudem kann integration-factory durch diese aktive Forschung das Geschäftsfeld Big Data weiterentwickeln. Abschließend freut sich das integration-factory Team den Masteranden als neuen Kollegen willkommen zu heißen und wünscht ihm viel Erfolg in seiner beruflichen Laufbahn.