Masterprüfung mit Defensio, Tobias Herbert

- 15.11.2021 12:30

Durchführung per Videokonferenz

15.11.2021, 11:00 Uhr
Durchführung per Videokonferenz

Titel: „Generating Reliable Process Event Streams
and Time Series Data based on Neural Networks“

Kurzfassung:
Zeitreihen sind in fast allen gewerblichen Bereichen vorhanden und reichen von Sensordaten,
Verkaufsdaten, Aktienkursen, Klimadaten bis hin zu Astrophysik. Mit dem Aufkommen
vernetzter Geräte, die sich in Häusern und im öffentlichen Raum befinden, waren
noch nie so viele Zeitreihen Daten verfügbar. Die Kombination der Datenfülle mit der
rasanten Entwicklung und Leistungssteigerung von Machine-Learning-Modellen ermöglicht
es, die Daten zum Auffinden von Mustern, zur Effizienzsteigerung bestehender Prozesse
und zu wissenschaftlichen Entdeckungen zu nutzen. Was aber, wenn all diese Techniken
zur Verfügung stehen, aber Prozessen sich oft ändern und daher nie große Datenmengen
produzieren? Das Problem, mit dem wir konfrontiert sind, ist ein Mangel an Trainingsdaten
für die Machine-Learning-Modelle, was zu einer geringen Qualität der Modelle führt.
Das Ziel, ist eine Möglichkeit, die Größe des Datensatzes mit aussagekräftigen Daten
zu erhöhen. Eine Möglichkeit besteht darin, eine Verteilung zu ermitteln, die die Daten
gut repräsentiert. Dies erfordert jedoch entweder viel Handarbeit und Domänen-Knowhow
oder einen komplexen Aufbau mit umfangreicher Parametrierung. Der Aufwand
hierfür muss wiederholt werden, wenn ein neuer Prozess eingeführt oder ein bestehender
Prozess geändert wird. Das Ziel der vorgeschlagenen Technik besteht darin, einen kleinen
Datensatz als Eingabe zu verwenden, die Eigenschaften der Daten zu lernen und den
Datensatz möglichst automatisiert auf eine gewünschte Größe zu erhöhen. Darüber hinaus
sollte es modular sein und die Verwendung verschiedener Machine-Learning-Modelle
und Schnittstellen ermöglichen, sowie unterschiedliche Eingangsdaten akzeptieren und
verschiedene Ausgabedaten erzeugen zu können. Zusätzlich sollte es möglich sein, Verarbeitungsschritte
hinzuzufügen oder zu entfernen. Der vorgeschlagene Ansatz ist eine
Pipeline, die Ereignisströme in Form von Logdaten als Eingabe verwendet, Vorverarbeitungsschritte
durchführt, Machine-Learning-Modelle trainiert, Zeitreihen generiert und
diese wiederum in die ursprüngliche Logdaten einbettet. Der Ansatz konzentriert sich
auf die Automatisierung aus wirtschaftlicher Sicht und bietet ein Bewertungstool, das
Forschungseinblicke zu den Auswirkungen verschiedener Eingabedaten, Machine-Learning-
Modelle, Qualität und Ressourcenbeanspruchung liefert. Die Ergebnisse zeigen, dass
es möglich ist, sehr kleine Datensätze zu nutzen und sie mit minimalen menschlichen
Eingriffen mit sinnvollen Daten aufzuwerten, indem ein Recurrent neural network (RNN)
verwendet wird, um effizient qualitativ hochwertige Daten zu erzeugen.

Organiser:

SPL 5

Location:
online