Speakers
Description
RAG-Systeme gelten als Chance, die Exploration größerer Textsammlungen zu erleichtern. Sie sollen es NutzerInnen ermöglichen, sich einen Überblick über deren Inhalte zu verschaffen. Anhand der Briefedition der Carl-Maria-von-Weber-Gesamtausgabe (WeGA) evaluieren wir den Einfluss von domänenspezifischen Anpassungen auf die Qualität gegebener Antworten in einem praxisnahen Szenario. In dem Bestreben nachhaltige und lokal umsetzbare Lösungen zu schaffen, verwenden wir ausschließlich durch die Universität Paderborn bereitgestellte Modelle.
Die WeGA hat zum Ziel, sämtliche Kompositionen, Briefe, Tagebücher und Schriften Carl Maria von Webers in einer wissenschaftlich-kritischen Gesamtausgabe vorzulegen. Seit 2011 macht der Web-Auftritt die Edition der Schriften nach Richtlinien der TEI P5 öffentlich zugänglich. Derzeit umfasst die Edition 10.567 Briefe. Hiervon sind 7.546 bereits vollständig erschlossen; die Erschließung von 3.021 Briefen ist noch nicht abgeschlossen.
Auf der Basis des Releases 4.13.1 (Dezember 2025) evaluieren wir verschiedene RAG-Systeme aus der Perspektive der NutzerInnen. Es soll erprobt werden, welcher Grad an domänenspezifischer Anpassung an die Textgrundlage nötig ist, um befriedigende Ergebnisse zu erzielen. Hierzu vergleichen wir ein Baseline RAG, ein Out-of-the-Box GraphRAG und einen GraphRAG mit Prompt-Engineering, sowie einen GraphRAG-Ansatz mit TEI-Preprocessing.
Zur Untersuchung praxisnaher Nutzungsszenarien, verwenden wir speziell für die Briefe der WeGA entwickelte Fragen. Diese unterscheiden sich hinsichtlich ihrer Komplexität: Einige zielen nur auf die Inhalte einer einzelnen Textquelle ab, andere auf mehrere Quellen; wieder andere können auf mehrere Quellen abzielen. Darüber hinaus stellen wir Fragen, die offene Antworten erwarten, unvollständig sind, d.h. zu unspezifisch, um direkt beantwortet werden zu können, sowie Trickfragen, die aus den Inhalten der Briefe nicht beantwortet werden können.
Um die Qualität der Antworten zu evaluieren, kombinieren wir einen LLM-as-a-jugde-Ansatz mit menschlichem Feedback.