Kontakt & Service

Institut für Informationsmanagement (IIM)

Kontakt

Projektleiter und Geschäftsführender Direktor des IIM

Prof. Dr. Philipp Schaer

Prof. Dr. Philipp Schaer

Institut für Informationswissenschaft (IWS)

Smart Harvesting II

Logo der Deutschen Forschungsgesellschaft (Bild: DFG)

Im DFG-geförderten Projekt Smart Harvesting II werden softwarebasierte Lösungen zur Erfassung und Aufbereitung von semistrukturierten Webdaten, z.B. die Inhaltsverzeichnisse von wissenschaftlichen Zeitschriften oder Konferenzbänden für Literaturdatenbanken wie dblp oder sowiport, entwickelt.

Durch die vorherrschende Heterogenität solcher Rohdaten ist diese Arbeit im Falle der manuellen Erfassung sehr personal- und zeitintensiv. In Fällen, in denen bereits auf technische Unterstützung gesetzt wird, werden hierfür spezialisierte Programme, sogenannte Wrapper, eingesetzt, die von fachkundigen Softwareentwicklern erstellt und gewartet werden müssen. Ein Teil unseres Projektes ist es daher, wartungsarme Wrapper zu entwickeln, die auch von Nicht-Informatikern, z.B. Bibliothekaren oder Dokumentaren, einfach bedient und auf häufig neugestaltete, dynamische Webapplikationen angepasst werden können.
Hierfür setzen wir auf die quelloffene Abfragesprache OXPath – eine Erweiterung von XPath, die eine deklarative Nachahmung der Interaktion mit einer Website erlaubt und in diesem Zuge Daten gezielt extrahieren kann. Erste Erfahrungen in einem Workshop mit Bibliothekaren und in Übungsgruppen mit Studierenden haben gezeigt, dass bereits Grundkenntnisse in XML und XPath ausreichen, um in den Prozess der Erstellung, Wartung und Pflege von OXPath-Wrappern einzusteigen. Die gewonnenen Daten können vielseitig eingesetzt werden. In Smart Harvesting II werden zusätzliche Internetquellen z.B. in das Datenbankmonitoring integriert oder zur Bereinigung und Aufbereitung der
Datenbestände verwendet, z.B. indem weitere Felder wie Kurzbiografien mit Named Entity Recognition nach möglichst vollständigen Autorennamen durchsucht werden, um die Autorendisambiguierung zu verbessern. 

Auf einen Blick

Kategorie Beschreibung
Forschungsprojekt Smart Harvesting II 
Leitung Prof. Dr. Philipp Schaer  Zur Personenseite
Fakultät Informations- und Kommunikationswissenschaften  Mehr
Institut Institut für Informationsmanagement
Institut für Informationswissenschaft 
Beteiligte Mandy Neumann  Zur Personenseite
Projektpartner dblp (http://dblp.uni-trier.de)
GESIS (http://www.gesis.org) 
Fördermittelgeber Deutsche Forschungsgemeinschaft (DFG) – DFG-Förderprogramm Elektronische Publikationen 
Laufzeit 2016 - 2019 
Website
M
M