Verlässliche Suchergebnisse in großen Datenbeständen

In seiner Dissertation „Reproducible Information Retrieval Research: From Principled System-Oriented Evaluations Towards User-Oriented Experimentation“ hat Timo Breuer untersucht, wie digitale Suchanfragen zu immer gleichen Ergebnissen führen und welchen Einfluss das Suchverhalten der Nutzer*innen ausübt. Die Promotion wurde von Prof. Dr. Schaer am Institut für Informationswissenschaft betreut.

Timo Breuer Timo Breuer (Bild: Michael Bause/TH Köln)

Wie erklären Sie Ihr Thema Ihren Nachbarn?

Meine Arbeit befasst sich mit der Reproduzierbarkeit bzw. Wiederholbarkeit im Fachbereich Information Retrieval. Wesentliches Ziel unserer wissenschaftlichen Arbeit ist es, maschinell gespeicherte Daten, zum Beispiel in Datenbanken, auffindbar zu machen. Ich habe mich mit der Frage beschäftigt, ob und wie Suchanfragen in großen Datenbeständen wie digitalen Bibliotheken zu validen und wiederholbaren Ergebnissen führen. Dies zu erreichen ist wichtig, um Suchergebnisse verlässlich auszuwerten und zu optimieren. Mir geht es dabei aber nicht nur um die technischen Grundvoraussetzungen, sondern auch um eine Analyse des Suchverhaltens der Nutzer*innen und deren Einfluss auf die Ergebnisse.


Was haben Sie herausgefunden?

Zunächst habe ich ein bestehendes Klassifikationsschema erweitert. Dieses beschreibt die essentiellen Komponenten eines wissenschaftlichen Experiments in den Datenwissenschaften. Hierbei handelt es sich zum Beispiel um die benutzte Methode oder Plattform. Dieses Rahmenwerk bietet also die Möglichkeit, den Grad der Wiederholbarkeit systematischer zu bestimmen und zu evaluieren.

Außerdem habe ich untersucht, ob die Ergebnisse auch bei unterschiedlichem Suchverhalten gültig bleiben. Dazu habe ich sowohl Simulationen als auch Experimente mit Proband*innen durchgeführt. Im Rahmen des Projekts STELLA von der Deutschen Forschungsgesellschaft haben wir eine technische Infrastruktur entwickelt, um Suchsysteme auf reproduzierbare Art und Weise in digitalen Bibliotheken bewerten zu können. Im Ergebnis steht ein konzeptioneller Rahmen, um die Wiederholbarkeit und Validität umfänglicher zu bestimmen.

Was begeistert Sie an Ihrem Thema?

Die Reproduzierbarkeit von wissenschaftlichen Ergebnissen ist einer der wichtigsten Aspekte guter wissenschaftlicher Praxis. Es war sehr interessant, an einer so grundlegenden Thematik zu arbeiten und gleichzeitig zu berücksichtigen, wie die gewonnenen Erkenntnisse in die Praxis überführt werden können.

Außerdem wird mir die internationale Zusammenarbeit in positiver Erinnerung bleiben. Mein Betreuer Prof. Dr. Schaer ist sehr gut vernetzt und hat mich dabei unterstützt, mit der wissenschaftlichen Community in Kontakt zu kommen. Auch wenn ein Großteil meiner Promotionszeit von der COVID19-Pandemie geprägt war und viele Konferenzen in diesem Zeitraum nur online stattfanden, so war es doch möglich, über digitale Wege einige spannende Projekte gemeinsam mit Kolleg*innen zu realisieren.

Wie kann es mit Ihren Ergebnissen weitergehen?

Das vorgestellte Rahmenwerk kann künftig von der Information Retrieval Community genutzt werden und bestehende Forschungen erweitern. Zusätzlich bin ich im DFG-Forschungsprojekt RESIRE weiterhin an der Hochschule tätig. Dieses Projekt greift einige Ideen aus der Dissertation auf und beschäftigt sich ebenfalls mit der Reproduzierbarkeit und Simulation von Information Retrieval-Experimenten, mit Einbezug des Verhaltens von Benutzer*innen. Nach wie vor treibt mich die Frage an, ob sich die gewonnenen Erkenntnisse aus wissenschaftlichen Experimenten auch in echten Suchumgebungen wiederholen lassen. Letztendlich müssen die Nutzer*innen von Suchsystemen mit den Ergebnissen arbeiten und sollten stärker in den Fokus der Auswertungen rücken.

August 2023

Ein Beitrag von

Philipp Hambach

Team Presse und Öffentlichkeitsarbeit


M
M