Big Data und Data Mining Seminararbeiten

An der Hochschule Trier hat integration-factory das Seminar „Data Mining“ von Prof. Dr. Steinbuß begleitet. Für die analytische Arbeit konnten wir echte, anonymisierte Verbrauchs- und Produktionsdaten eines Blockheizkraftwerks (BHKW) von einem Mehrfamilienhaus bereitstellen. Im Rahmen der Abschlusspräsentationen haben zwei unserer Kollegen, Herr Weber und Herr Wittenhorst, die Studierenden besucht und die datenbasierte Seminararbeit mit dem zugehörigen Vortrag begutachtet.

„Data Mining“ Seminar

Die Studierenden Herr Blenz, Herr Frank, Herr Matthies und Herr Meurer haben die Daten des BHKW mit statistischen Mitteln untersucht. Das Ziel war, den Stromverbrauch auf der Basis verschiedener Prognosemodelle vorherzusagen. Dadurch könnte das BHKW in Zukunft effizienter gesteuert werden. Die Daten wurden dazu von den Studierenden zunächst bereinigt und angereichert – beispielsweise um Wetterdaten oder Ferienzeiten – sowie zur weiteren Analyse aufbereitet. In der Seminararbeit wurden die Ergebnisse zusammengefasst und verschiedene Prognoseverfahren für die Schätzung des Strombedarfs aufgearbeitet. Die Lösung wurde im Workshop präsentiert. Dabei wurden die vorgestellten Modelle anhand verschiedener statistischer Kennzahlen bewertet, wie z.B. R² oder dem MSE (Mean Squared Error). Letzteres ermöglichte die Gegenüberstellung und damit den Vergleich der Ergebnisse.

Die Tabelle „Vergleich der Regressionsmodelle“ gibt einen Einblick in den Vergleich der Verfahren auf der Basis des MSE, den die Studierenden erstellt haben.

Dabei gibt der MSE an, wie stark die Schätzfunktion um den zu schätzenden Wert streut. Je kleiner der MSE, desto weniger streuen die Schätzwerte und damit liegen sie mit großer Wahrscheinlichkeit in der Nähe ihres Erwartungswerts. Aus der Tabelle geht hervor, welche Verfahren die Studierenden untersucht und angewandt haben. Die Bewertung der Verfahren erfolgte auf jeweils drei Datensets pro Verfahren. Auf Basis der Testdaten wurde das Modell gebildet und über die Validierungsdaten anschließend verifiziert. Zum Schluss wurden alle gebildeten Modelle gegen eine neue Lieferung von Testdaten validiert. Im Ergebnis haben die Studierenden mit dem Random Forest Verfahren mit einem MSE=0.309 die beste Prognose auf Tagesebene erzielt. Mit diesen Daten wird es möglich, in einen ersten Testbetrieb des BHKW überzugehen, der auf den erstellten Modellen basiert.

Vergleich der Regessionsmodelle - Seminar Data Mining

Masterarbeit

Parallel zu dem Seminar hat sich Frau Kirsch in ihrer Masterarbeit bei der integration-factory mit der Analyse von Daten im Big Data Umfeld beschäftigt. Der Titel der Arbeit lautet „Big Data Analytics mit Apache Spark“. In diesem Rahmen wurden verschiedene Regressionsmodelle für den Anwendungsfall des BHKW entwickelt, die auf dem Apache Spark Framework basieren. Die dazu nötigen Datenintegrationsprozesse wurden mit Informatica realisiert. Die Modelle wurden hinsichtlich statistischer Aussagekraft und Relevant beurteilt und dazu genutzt, automatisch auf der Basis von Zähler- und Wetterdaten eine Stromverbrauchsprognose zu generieren.
Frau Kirsch hat dabei den gesamten Data Mining Prozess realisiert. Dieser beginnt bei der Aufbereitung und Integration der Daten, geht über die Auswahl und Extraktion der Variablen bis hin zur Modellbildung, dem Modelltuning, seiner Evaluation und dem Einsatz zur Vorhersage zukünftiger Werte. In der Masterarbeit gibt Frau Krisch außerdem einen einführenden Einblick in das maschinelle Lernen, Analytics und Big Data. Dazu werden die in diesen Themenfeldern relevanten Begriffe definiert und voneinander abgegrenzt, wie beispielsweise Data Mining, Analytics und Big Data Analytics. Im Hauptteil erarbeitet sie einen Prototyp, der auf dem integration-factory Hadoop-Cluster erste Stromprognosen berechnet.

Workshop

Neben der Betreuung dieser Masterarbeit hat integration-factory auch im Workshop zum „Data Mining“ Seminar die Gelegenheit genutzt, Studierenden konkrete Lösungen aus der Praxis vorzustellen. Diese umfassten zum Beispiel Realtime Data Warehousing, komplexe Business Applikationen im Data Warehousing, sowie Projektbeispiele im Big Data Bereich. Der Fokus lag auf technischen Detaillösungen für den Umgang mit Abbrüchen in der Datenverarbeitung und der Vermeidung von Datenverlust oder -dopplung in der Realtime-Datenverarbeitung.

Fazit

Das Seminar und der anschließende Workshop, sowie die Betreuung der Masterarbeit waren aus Sicht der integration-factory ein voller Erfolg. Auch hier zeigte sich wieder ein gelungener Austausch zwischen Universität und Unternehmen. Die Studierenden konnten sich einerseits mit Herausforderungen aus der Praxis auseinandersetzen und selbstständige Lösungswege erarbeiten. Andererseits hat integration-factory wissenschaftliche Einblicke in das Thema Data Mining erhalten und konnte die gut durchdachten Lösungen mit den Studierenden diskutieren. Wir freuen uns darauf, die erarbeiteten Ansätze aus Seminar- und Masterarbeit in den kommenden Wochen in einen Testbetrieb überführen zu können, um tägliche Prognosen zur Steuerung des BHKW zu berechnen.

Integration-factory bedankt sich außerdem für die erfolgreiche Zusammenarbeit bei Herrn Prof. Dr. Steinbuß der HS Trier, sowie bei den Studierenden Frau Kirsch, Herrn Blent, Herrn Frank, Herrn Matthies und Herrn Meurer. Wir freuen uns auf eine weitere Kooperation im Jahr 2017!