Big Data und Data Mining Seminararbeiten

integration-factory hat das Seminar „Data Mining“ von Prof. Dr. Steinbuß begleitet und für die analytische Arbeit echte, anonymisierte Verbrauchs- und Produktionsdaten eines Blockheizkraftwerks (BHKW) eines Mehrfamilienhauses bereitgestellt. Im Rahmen der Abschlusspräsentation haben Herr Weber und Herr Wittenhorst die Hochschule Trier besucht, um insbesondere die auf diesen Daten basierende Seminararbeit und den zugehörigen Vortrag zu begutachten.

Die Herren Blenz, Frank, Matthies und Meurer haben die Daten des BHKW mit statistischen Mitteln mit dem Ziel untersucht, den Stromverbrauch auf der Basis verschiedener Prognosemodelle vorherzusagen, um dadurch das Blockkraftheizwerk in Zukunft effizienter steuern zu können. Dazu haben die Studierenden die Daten bereinigt, angereichert (Wetterdaten, Ferien, etc.) und zur weiteren Analyse aufbereitet. In der Seminararbeit wurden die Ergebnisse zusammengefasst und verschiedene Prognoseverfahren für die Schätzung des Strombedarfs aufgearbeitet sowie abschließend die Lösung im Workshop präsentiert. Dabei wurden die vorgestellten Prognosemodelle über verschiedene statistische Kennzahlen wie z.B. „R²“ oder den „MSE“ (Mean Squared Error) bewertet und, wie im Falle des MSE möglich, abschließend gegenübergestellt und miteinander verglichen. Die Tabelle „Vergleich der Regressionsmodelle“ gibt einen Auszug der Gegenüberstellung der verschiedenen Verfahren auf Basis des Mean Squared Error aus der Arbeit der Studierenden wieder.

Vergleich der Regessionsmodelle - Seminar Data Mining
Vergleich der Regessionsmodelle – Seminar Data Mining

Dabei gibt der MSE an, wie sehr die Schätzfunktion um den zu schätzenden Wert streut. Je kleiner der MSE ist, desto weniger streuen die Schätzwerte und liegen somit mit großer Wahrscheinlichkeit in der Nähe ihres Erwartungswerts. Aus der Tabelle geht hervor, welche Verfahren die Studierenden untersucht und angewendet haben. Die Bewertung der Verfahren wurde auf jeweils drei Datensets pro Verfahren angewandt. Auf Basis der Testdaten wurde das Modell gebildet und über die Validierungsdaten anschließend verifiziert. Abschließend wurden alle gebildeten Modelle gegen eine neue Lieferung von Testdaten validiert. Zusammenfassend bedeutet dies auf die Ergebnisse der Tabelle bezogen, dass die Studierenden mit dem Random Forest Verfahren mit einem MSE=0.309 die besten Stromprognoseergebnisse auf Tagesebene erzielt haben. Auf Basis dieser Erkenntnis haben die Studierenden eine Stromverbrauchsprognose erstellt. Mit diesen Prognosedaten wird es möglich, in einen ersten Testbetrieb des BHKW basierend auf den erstellten Modellen überzugehen.

Parallel zum Seminar „Data Mining“ hat sich Frau Kirsch in ihrer Masterarbeit bei der integration-factory mit der Analyse von Daten im Big Data Umfeld beschäftigt. Frau Kirsch hat sich in ihrer Abschlussarbeit mit dem Thema „Big Data Analytics mit Apache Spark“ beschäftigt. Im Rahmen der Arbeit wurden verschiedene Regressionsmodelle für den Anwendungsfall des Blockheizkraftwerks basierend auf dem Apache Spark Framework entwickelt und die dazu nötigen Datenintegrationsprozesse mit Informatica realisiert. Diese Modelle wurden im Anschluss hinsichtlich statistischer Aussagekraft und Relevanz beurteilt und angewendet, um automatisiert auf Basis historischer Zähler- und Wetterdaten eine Stromverbrauchsprognose zu generieren. Frau Kirsch hat dabei den gesamten Data Mining Prozess von der Datenaufbereitung und Datenintegration über die Auswahl und Extraktion der Variablen bis zur Modellbildung, dem Modelltuning, der Evaluation und dem Einsatz zur Vorhersage zukünftiger Werte mithilfe des Spark Frameworks und Informatica realisiert. In Ihrer Masterarbeit gibt sie darüber hinaus einen einführenden Überblick über die Themenfelder maschinelles Lernen, Analytics und Big Data. Dazu werden die in diesem Umfeld relevanten Begriffe wie Data Mining, Analytics und Big Data Analytics definiert und voneinander abgegrenzt. Im Hauptteil erarbeitet sie einen Prototyp, welcher auf dem integration-factory Hadoop-Cluster erste Stromprognosen berechnet.

Über die Betreuung der Masterarbeit von Frau Kirsch hinaus hat die integration-factory die Chance im Workshop zum Seminar „Data Mining“ wahrgenommen, den Studierenden konkrete Lösungen aus der Praxis vorzustellen. Diese umfassten beispielsweise Realtime Data Warehousing, komplexe Business Applikationen im Data Warehousing sowie konkrete Projektbeispiele im Big Data Bereich. Der Fokus lag auf technischen Detaillösungen für den Umgang mit Datenverarbeitungsabbrüchen und der Vermeidung von Datenverlust oder Datendopplung in der Realtime-Datenverarbeitung.

Das Seminar und der anschließende Workshop waren aus Sicht der integration-factory ein gelungener Austausch zwischen Universität und Unternehmen. Die Studierenden konnten sich mit Herausforderungen aus der Praxis wie Datenintegration, Analytics und Big Data auseinandersetzen und selbstständig Lösungswege erarbeiten. Die integration-factory ihrerseits hat wissenschaftlichen Einblick in das Data Mining-Thema erzielt und konnte die gut durchdachten Lösungen mit den Studierenden diskutieren. Die integration-factory freut sich darauf, die erarbeiteten Lösungen aus Seminar- und Masterarbeit in den kommenden Wochen in einen Testbetrieb überführen zu können, um tägliche Prognosen zur Steuerung des Blockheizkraftwerks zu berechnen.

Die integration-factory bedankt sich für die erfolgreiche Zusammenarbeit bei Herrn Prof. Dr. Steinbuß, der Hochschule Trier sowie bei Frau Kirsch, Herrn Blenz, Herrn Frank, Herrn Matthies und Herrn Meurer. Darüber hinaus freut sich die integration-factory auf eine erfolgreiche Zusammenarbeit auch im Jahr 2017.