Im ersten Quartal 2019 haben wir die Hochschulaktion „integration-factory goes Uni“ ins Leben gerufen. Ziel dieser Aktion: Den Kontakt mit Hochschulen und Student*innen zu fördern. Neben Seminaren und Workshops, möchten wir auch mit Abschlussarbeiten Student*innen die Möglichkeit bieten, praxisnahe Themen zu bearbeiten und einen ersten Einstieg für die spätere Karriere aufzeigen. Als Kick-Off der Aktion veranstalteten wir bereits vor einigen Wochen einen Workshop für Studierende in unseren Räumlichkeiten in Frankfurt – ein voller Erfolg an den wir definitiv in Zukunft mit weiteren Events anknüpfen werden.
Nach produktiven Gesprächen mit der Hochschule Trier waren wir sehr erfreut darüber, im Rahmen der Veranstaltungen „Data Warehouse (Master)“ sowie „Big Data Grundlagen (Bachelor)“ unsere Erfahrungen aus der Praxis vermitteln zu dürfen.
Data Warehouse
Themenschwerpunkt in der Vorlesungsreihe Data Warehouse war es, anhand von praktischen Beispielen und Erfahrungen aus der Praxis ein vollständiges Data Warehouse zu beleuchten. Im Vordergrund stand, den Studierenden zu vermitteln, dass ein produktives Data Warehouse weit über die Frage welches Datenmodell in der Datenbank gewählt wird, hinausgeht. Es wurde aufgezeigt, dass eine Vielzahl von Komponenten wie beispielsweise ein Datenintegrationswerkzeug oder ein Scheduling-Tool zum Einsatz kommen, und dass die gesamte Architektur aufeinander abgestimmt sein muss. Denn erst durch den Einsatz von mehreren, spezialisierten Komponenten kann man von einem ganzheitlichen Data Warehouse sprechen.
Big Data Grundlagen
In unserem Vortrag für die Veranstaltung „Big Data Grundlagen“ konnten wir mit dem Thema „Big Data in der Praxis – Lessons Learned“ bei den Teilnehmenden punkten. Der Fokus des Vortrags galt den Herausforderungen beim Aufbau eines Data Lake. Dabei wurde sich nicht auf technische Hürden beschränkt, sondern es wurden ganz bewusst auch fachliche Probleme illustriert, die im Projektumfeld nicht minder wichtig sind. Das Ziel des Vortrags war, zu vermitteln welche Schlüsse man aus diesen Schwierigkeiten ziehen sollte und wie sie letzten Endes zu meistern sind.
Der Tenor aller Beteiligten lautet: gerne noch mal!
Beide Vorträge wurden von allen Beteiligten mit großem Interesse verfolgt und es entwickelten sich spannende Diskussionen und Fragestellungen. Sowohl zu den technischen Details als auch zu konkreten fachlichen Themen gab es Rückfragen, die eine Bereicherung für die Veranstaltung waren.
An dieser Stelle möchten wir uns noch einmal bei Herrn Prof. Dr Schmitz, Herrn Meurer und der Hochschule Trier für die Möglichkeit bedanken und hoffen das wir solche Vorträge weiterhin Anbieten können.
2017 - Big Data und Data Mining Seminararbeiten
An der Hochschule Trier hat integration-factory das Seminar „Data Mining“ von Prof. Dr. Steinbuß begleitet. Für die analytische Arbeit konnten wir echte, anonymisierte Verbrauchs- und Produktionsdaten eines Blockheizkraftwerks (BHKW) von einem Mehrfamilienhaus bereitstellen. Im Rahmen der Abschlusspräsentationen haben zwei unserer Kollegen, Herr Weber und Herr Wittenhorst, die Studierenden besucht und die datenbasierte Seminararbeit mit dem zugehörigen Vortrag begutachtet.
„Data Mining“ Seminar
Die Studierenden Herr Blenz, Herr Frank, Herr Matthies und Herr Meurer haben die Daten des BHKW mit statistischen Mitteln untersucht. Das Ziel war, den Stromverbrauch auf der Basis verschiedener Prognosemodelle vorherzusagen. Dadurch könnte das BHKW in Zukunft effizienter gesteuert werden. Die Daten wurden dazu von den Studierenden zunächst bereinigt und angereichert – beispielsweise um Wetterdaten oder Ferienzeiten – sowie zur weiteren Analyse aufbereitet. In der Seminararbeit wurden die Ergebnisse zusammengefasst und verschiedene Prognoseverfahren für die Schätzung des Strombedarfs aufgearbeitet. Die Lösung wurde im Workshop präsentiert. Dabei wurden die vorgestellten Modelle anhand verschiedener statistischer Kennzahlen bewertet, wie z.B. R² oder dem MSE (Mean Squared Error). Letzteres ermöglichte die Gegenüberstellung und damit den Vergleich der Ergebnisse.
Die Tabelle „Vergleich der Regressionsmodelle“ gibt einen Einblick in den Vergleich der Verfahren auf der Basis des MSE, den die Studierenden erstellt haben.
Dabei gibt der MSE an, wie stark die Schätzfunktion um den zu schätzenden Wert streut. Je kleiner der MSE, desto weniger streuen die Schätzwerte und damit liegen sie mit großer Wahrscheinlichkeit in der Nähe ihres Erwartungswerts. Aus der Tabelle geht hervor, welche Verfahren die Studierenden untersucht und angewandt haben. Die Bewertung der Verfahren erfolgte auf jeweils drei Datensets pro Verfahren. Auf Basis der Testdaten wurde das Modell gebildet und über die Validierungsdaten anschließend verifiziert. Zum Schluss wurden alle gebildeten Modelle gegen eine neue Lieferung von Testdaten validiert. Im Ergebnis haben die Studierenden mit dem Random Forest Verfahren mit einem MSE=0.309 die beste Prognose auf Tagesebene erzielt. Mit diesen Daten wird es möglich, in einen ersten Testbetrieb des BHKW überzugehen, der auf den erstellten Modellen basiert.
Masterarbeit
Parallel zu dem Seminar hat sich Frau Kirsch in ihrer Masterarbeit bei der integration-factory mit der Analyse von Daten im Big Data Umfeld beschäftigt. Der Titel der Arbeit lautet „Big Data Analytics mit Apache Spark“. In diesem Rahmen wurden verschiedene Regressionsmodelle für den Anwendungsfall des BHKW entwickelt, die auf dem Apache Spark Framework basieren. Die dazu nötigen Datenintegrationsprozesse wurden mit Informatica realisiert. Die Modelle wurden hinsichtlich statistischer Aussagekraft und Relevant beurteilt und dazu genutzt, automatisch auf der Basis von Zähler- und Wetterdaten eine Stromverbrauchsprognose zu generieren.
Frau Kirsch hat dabei den gesamten Data Mining Prozess realisiert. Dieser beginnt bei der Aufbereitung und Integration der Daten, geht über die Auswahl und Extraktion der Variablen bis hin zur Modellbildung, dem Modelltuning, seiner Evaluation und dem Einsatz zur Vorhersage zukünftiger Werte. In der Masterarbeit gibt Frau Krisch außerdem einen einführenden Einblick in das maschinelle Lernen, Analytics und Big Data. Dazu werden die in diesen Themenfeldern relevanten Begriffe definiert und voneinander abgegrenzt, wie beispielsweise Data Mining, Analytics und Big Data Analytics. Im Hauptteil erarbeitet sie einen Prototyp, der auf dem integration-factory Hadoop-Cluster erste Stromprognosen berechnet.
Workshop
Neben der Betreuung dieser Masterarbeit hat integration-factory auch im Workshop zum „Data Mining“ Seminar die Gelegenheit genutzt, Studierenden konkrete Lösungen aus der Praxis vorzustellen. Diese umfassten zum Beispiel Realtime Data Warehousing, komplexe Business Applikationen im Data Warehousing, sowie Projektbeispiele im Big Data Bereich. Der Fokus lag auf technischen Detaillösungen für den Umgang mit Abbrüchen in der Datenverarbeitung und der Vermeidung von Datenverlust oder -dopplung in der Realtime-Datenverarbeitung.
Fazit
Das Seminar und der anschließende Workshop, sowie die Betreuung der Masterarbeit waren aus Sicht der integration-factory ein voller Erfolg. Auch hier zeigte sich wieder ein gelungener Austausch zwischen Universität und Unternehmen. Die Studierenden konnten sich einerseits mit Herausforderungen aus der Praxis auseinandersetzen und selbstständige Lösungswege erarbeiten. Andererseits hat integration-factory wissenschaftliche Einblicke in das Thema Data Mining erhalten und konnte die gut durchdachten Lösungen mit den Studierenden diskutieren. Wir freuen uns darauf, die erarbeiteten Ansätze aus Seminar- und Masterarbeit in den kommenden Wochen in einen Testbetrieb überführen zu können, um tägliche Prognosen zur Steuerung des BHKW zu berechnen.
Integration-factory bedankt sich außerdem für die erfolgreiche Zusammenarbeit bei Herrn Prof. Dr. Steinbuß der HS Trier, sowie bei den Studierenden Frau Kirsch, Herrn Blent, Herrn Frank, Herrn Matthies und Herrn Meurer. Wir freuen uns auf eine weitere Kooperation im Jahr 2017!