Masterprüfung mit Defensio, Jakob Rathmair

10.01.2023 13:00 - 14:30

Universität Wien

Besprechungsraum 5.35

Währinger Str. 29

109 Wien

10.01.2023, 13:00 Uhr
Besprechungsraum 5.35
Währinger Str. 29
1090 Wien

Titel: „Web content mining: towards an adaptable framework
for delivering structured data“

Kurzfassung:
Das World Wide Web setzt sich aus einer riesigen Menge von vernetzten Webseiten
zusammen, welche Informationen über unterschiedlichste Themen bereitstellen. Diese
Informationen werden üblicherweise so dargestellt, dass sie für Menschen übersichtlich und
leicht verständlich sind. Es wird aber selten Wert daraufgelegt, dass diese Informationen
von Computer Programmen automatisiert ausgelesen und interpretiert werden können.
Dafür fehlen oft explizite Angaben über die Bedeutung von dargestellten Informationen.
Außerdem unterscheiden sich Webseiten im Design sehr stark und es ist daher kaum
möglich, allgemeine Darstellungsstrukturen zu identifizieren.
In dieser Arbeit wird diesem Problem nachgegangen und ein System vorgestellt, mit
welchem Informationen von unterschiedlichsten Webseiten extrahiert und in einem einheitlichen
Format abgespeichert werden können. Das vorgestellte Framework ist flexibel
einsetzbar und kann durch die Verwendung einer modularen Microservice Architektur
leicht auf veränderte Anforderungen angepasst werden. Des Weiteren kann das vorgestellte
System in einer modernen Cloudinfrastruktur gehostet werden und somit die verfügbare
Leistung bedarfsorientiert skaliert werden. Letztendlich wird die hohe Flexibilität des
Systems unter Beweis gestellt, indem Daten von einer Reihe von Webseiten mit unterschiedlichen
Darstellungsformen extrahiert werden. Außerdem wird die Beständigkeit des
Systems getestet, indem über einen Zeitraum von einer Woche erfolgreich über 100 000
Webseiten automatisiert verarbeitet werden.
 

Organiser:

SPL 5

Location:

Besprechungsraum 5.35

Währinger Straße 29
1090 Wien