Ein Beitrag von

Daniel Schäfer

Daniel Schäfer

Team Presse und Öffentlichkeitsarbeit

  • Telefon+49 221-8275-5465

Neue KI-Software vereinfacht Recherche für Wissenschaftsjournalist*innen

Wissenschaftliche Publikationen enthalten eine Fülle von Informationen in verschiedenen Formaten wie Texten, Abbildungen und Grafiken. Diese sind jedoch oft nur schwer durchsuchbar. Um Journalist*innen bei der Auswertung dieser umfangreichen und komplexen Datenbestände zu unterstützen, haben Forschende der TH Köln eine KI-Software entwickelt, die wie ein Chatbot funktioniert.

Einige Bausteine der Open-Source-Software sind frei zugänglich.

Symbolbild Im Forschungsprojekt „Journalistic Information Extraction“ (JoIE) wurde eine KI-Software entwickelt, die die Recherche von Wissenschaftsjournalist*innen vereinfacht. (Symbolbild) (Bild: AdobeStock / miss irine / KI-generiert)

„Wissenschaftsjournalist*innen stehen vor der Herausforderung, eine schier unüberschaubare Menge an wissenschaftlichen Publikationen zu sichten. Klassische Suchsysteme liefern einfache Trefferlisten, die mühselig einzeln geprüft werden müssen. Das macht die Recherche zeitintensiv. Und da sie zudem meist nur den Volltext durchsuchen, können wichtige Daten, beispielsweise in Tabellen, unentdeckt bleiben“, erklärt Prof. Dr. Philipp Schaer vom Institut für Informationswissenschaft der TH Köln.

Ausgehend von Interviews mit Wissenschaftsjournalist*innen des Science Media Center Germany – einer gemeinnützigen Organisation, die als Vermittler zwischen Wissenschaft und Journalismus fungiert – gewann das Projektteam zunächst ein tieferes Verständnis der Anforderungen und Herausforderungen. Darauf aufbauend entwickelten die Forschenden eine Softwareumgebung, die auf einer Open-Source-Software-Bibliothek basiert. Die Software-Bibliothek ermöglicht es, die Inhalte aus wissenschaftlichen Dokumenten in einem ersten Schritt mithilfe definierter Regeln zu extrahieren und durchsuchbar zu machen. In einem darauffolgenden Schritt wird ein modernerer Ansatz auf Basis von semantischen Textrepräsentationen und Large Language Models genutzt, um Texte und Tabellen auch inhaltlich zu verarbeiten.

„Um diesen Kern herum haben wir eine Software gebaut, die wie ein Chatbot funktioniert. Nutzer*innen stellen eine Anfrage, das System durchsucht den gesamten Dokumentenbestand und stellt die Informationen bereit. Im nächsten Schritt werden diese Daten automatisch verarbeitet, um die Anfrage unter Angabe von Quellen möglichst präzise zu beantworten. Dieser Vorgang nennt sich RAG, das steht für Retrieval Augmented Generation“, beschreibt Schaer die Vorgehensweise des neuen Suchsystems.

Evaluation mit umfangreicher Dokumentensammlung

Um die Software zu evaluieren, wurden Suchanfragen mit einer standardisierten Testkollektion zur COVID-19-Pandemie mit über 160.000 Dokumenten durchgeführt. „Die Auswertung zeigte, dass ein erweiterter Suchzugang mit Tabellen und weiteren nichttextlichen Informationen bei dem RAG-basierten System zu deutlich besseren Ergebnissen führt als klassische Keyword-Suchen. Dies kann zu einer qualitativ besseren und schnelleren journalistischen Aufbereitung wissenschaftlicher Erkenntnisse beitragen“, so Schaer.

Des Weiteren flossen die Ergebnisse der Dissertation des wissenschaftlichen Mitarbeiters Björn Engelmann in das Projekt ein. Er untersuchte, wie verschiedene interne und externe Kontextfaktoren bei der Entwicklung und Evaluation von Informationszugangssystemen berücksichtigt werden können. Hierzu zählen zum Beispiel das Vorwissen der Nutzenden und unterschiedliche Anwendungsgruppen wie Wissenschaftsjournalist*innen sowie die Art der Datenbereitstellung. „Meine Arbeit hat unter anderem geholfen, die Zielgruppe besser zu verstehen und ihre spezifischen Bedürfnisse zu berücksichtigen. Dadurch konnte das im Projekt entstandene Suchsystem zugänglicher gestaltet werden“, erläutert Engelmann.

Simulationen für weitere Verbesserungen der Software

Zudem wurden umfangreiche Simulationen durchgeführt, um das Verhalten von Anwender*innen bei der Suche nach Tabelleninhalten realitätsnah nachzubilden. Dabei erzeugte ein computergestütztes Modell eine Abfolge von Aktionen: vom Formulieren einer Suchanfrage über das Anklicken und Bewerten von Suchergebnissen bis hin zur Auswahl relevanter Informationen. „Durch diese Methode konnten wir verschiedene Szenarien und Parameter testen, etwa wie oft Nutzer*innen neue Anfragen stellen oder wie sie auf unterschiedliche Inhalte reagieren, ohne den hohen Aufwand einer Evaluation mit echten Menschen“, sagt Engelmann.

Über das Projekt

Das Forschungsprojekt „Journalistic Information Extraction“ (JoIE) wurde von Prof. Dr. Philipp Schaer und dem wissenschaftlichen Mitarbeiter Björn Engelmann vom Institut für Informationswissenschaft der TH Köln durchgeführt. Projektpartner war das Science Media Center Germany. Die Klaus Tschira Stiftung gGmbH förderte das Vorhaben über vier Jahre mit rund 380.000 Euro.

Januar 2026

Ein Beitrag von

Daniel Schäfer

Daniel Schäfer

Team Presse und Öffentlichkeitsarbeit

  • Telefon+49 221-8275-5465


M
M