Forschungskolloquium des IWS: Smart Harvesting II
Vortrag, 24. April 2018
Das Forschungskolloquium Informationswissenschaft richtet sich an alle Hochschulangehörigen (Professoren, Mitarbeiter, Studierende) sowie an externe Teilnehmer, die an den Arbeits- und Forschungsbereichen des Instituts für Informationswissenschaft Interesse haben. Ziel des Kolloquiums ist es, aus aktuellen Forschungsvorhaben, Projekten oder Kooperationen zu berichten.
Auf einen Blick
Mandy Neumann, M.A. – Smart Harvesting II
VortragWann?
- 24. April 2018
- 15.15 Uhr bis 16.45 Uhr
-
in meinen Kalender übertragen
BEGIN:VCALENDAR VERSION:2.0 PRODID:-//hacksw/handcal//NONSGML v1.0//EN CALSCALE:GREGORIAN BEGIN:VTIMEZONE TZID:EUROPE/BERLIN BEGIN:DAYLIGHT TZOFFSETFROM:+0100 TZOFFSETTO:+0200 TZNAME:CEST DTSTART:19700329T020000 RRULE:FREQ=YEARLY;BYMONTH=3;BYDAY=-1SU END:DAYLIGHT BEGIN:STANDARD TZOFFSETFROM:+0200 TZOFFSETTO:+0100 TZNAME:CET DTSTART:19701025T030000 RRULE:FREQ=YEARLY;BYMONTH=10;BYDAY=-1SU END:STANDARD END:VTIMEZONE BEGIN:VEVENT LOCATION:Campus Südstadt\, Claudiusstr. 1\, Raum 147 DESCRIPTION: SUMMARY:Mandy Neumann\, M.A. – Smart Harvesting II DTSTART;TZID=EUROPE/BERLIN:20180424T151500 DTEND;TZID=EUROPE/BERLIN:20180424T164500 DTSTAMP:20241215T115718 UID:675eb60e51cd5 END:VEVENT END:VCALENDAR
Wo?
Campus Südstadt, Claudiusstr. 1, Raum 147
Standorte
Veranstaltungsreihe
Forschungskolloquium Informationswissenschaft
ReferentIn
Mandy Neumann, M.A. Profil auf Projektwebsite
Anmeldung
keine Anmeldung notwendig
Weitere Informationen
Abstract: Im DFG-geförderten Projekt Smart Harvesting II werden softwarebasierte Lösungen zur Erfassung und Aufbereitung von semistrukturierten Webdaten, z.B. die Inhaltsverzeichnisse von wissenschaftlichen Zeitschriften oder Konferenzbänden für Literaturdatenbanken wie dblpoder sowiport, entwickelt. Durch die vorherrschende Heterogenität solcher Rohdaten ist
diese Arbeit im Falle der manuellen Erfassung sehr personal- und zeitintensiv. In Fällen, in denen bereits auf technische Unterstützung gesetzt wird, werden hierfür spezialisierte Programme, sogenannte Wrapper, eingesetzt, die von fachkundigen Softwareentwicklern erstellt
und gewartet werden müssen. Ein Teil unseres Projektes ist es daher, wartungsarme Wrapper zu entwickeln, die auch von Nicht-Informatikern, z.B. Bibliothekaren oder Dokumentaren, einfach bedient und auf häufig neugestaltete, dynamische Webapplikationen angepasst werden können.
Hierfür setzen wir auf die quelloffene Abfragesprache OXPath – eine Erweiterung von XPath, die eine deklarative Nachahmung der Interaktion mit einer Website erlaubt und in diesem Zuge Daten gezielt extrahieren kann. Erste Erfahrungen in einem Workshop mit Bibliothekaren und in
Übungsgruppen mit Studierenden haben gezeigt, dass bereits Grundkenntnisse in XML und XPath ausreichen, um in den Prozess der Erstellung, Wartung und Pflege von OXPath-Wrappern einzusteigen. Die gewonnenen Daten können vielseitig eingesetzt werden. In Smart Harvesting II werden zusätzliche Internetquellen z.B. in das Datenbankmonitoring integriert oder zur Bereinigung und Aufbereitung der Datenbestände verwendet, z.B. indem weitere Felder wie Kurzbiografien mit Named Entity Recognition nach möglichst vollständigen Autorennamen durchsucht werden, um die Autorendisambiguierung zu verbessern.
In dem Vortrag wird das Projekt Smart Harvesting II mit der Ausgangslage und den
Zielstellungen vorgestellt sowie ein Überblick gegeben über Forschungsaktivitäten, die sich aus dem Projekt ergeben haben oder noch für die verbleibende Projektlaufzeit vorgesehen sind.