Speakers
Description
Ein vielversprechender Einsatzzweck für LLMs ist die automatische Beantwortung von Fragen. Halluzinationen, Intransparenz bzgl. der Quellen zur Antwortgenerierung sowie fehlende Aktualität der Trainingsdaten erschweren jedoch den produktiven Einsatz vor allem in Spezialdomänen (vgl. Ji et al., 2023) wie beispielsweise der deutschen Grammatik.
Retrieval Augmented Generation (RAG) ist eine vielversprechende Methode, um diese Schwächen abzumildern (bspw. Ram et al., 2023), indem dem generierenden Modell relevante Kontextinformationen zur Verfügung gestellt werden. In der einfachsten Form (Naives RAG) werden diese Informationen per Similarity Search zwischen den Embeddings einer User Frage (Prompt) und den Embeddings von domänenspezifischen Dokumenten aus einer Vektordatenbank extrahiert.
Lang et al. (erscheint 2024) zeigen in einer Pilotstudie, dass Naives RAG die Qualität der automatisch generierten Antworten auf Fragen zur deutschen Grammatik verbessert. Dies trifft jedoch nur auf einen von zwei für diese Domäne typischen Hauptfragetypen zu, nämlich auf Definitionsfragen wie (1) Was sind Abtönungspartikeln?. Gebrauchsfragen dagegen, z. B. (2) Schreibt man Onlineshop oder Online-Shop? und damit der typische Fragetyp interessierter Laien, zeigen hier eine schlechtere Antwortqualität. Ein Grund dafür ist, dass saliente terminologische Elemente, die entscheidend für erfolgreiches Retrieval aus der Vektordatenkbank sind, in Gebrauchsfragen selten auftauchen. Stattdessen finden sich in Gebrauchsfragen vornehmlich Sprachobjekte (Onlineshop, Online-Shop in (2)).
Unser Beitrag präsentiert eine Lösung für diese Problematik: Der Einsatz von mehreren Agenten (bspw. Nan et al., 2024) im RAG-Workflow zur Anbindung geeigneter domänenspezifischer Ressourcen/Tools. Diese Agenten übernehmen (zumeist via Fewshot-Prompting) schrittweise spezialisierte Aufgaben (u. a. die Einordnung in Fragetypen) und stellen die Weichen für die weitere Bearbeitung im Gesamtprozess (Routing, vgl. Jeong et al. 2024). So werden bspw. Gebrauchsfragen zur Rechtschreibung per API der Korpusanalyseplattform KoRAP (Diewald et al., 2016) an das deutsche Referenzkorpus DeReKo (Kupietz et al., 2023) angebunden. Unsere Implementierung verwendet für Agenten und Antwortgenerierung das derzeit leistungsstärkste Open Source LLM Llama 3 (8B, 4bit Quantisierung) via Ollama. Der Workflow gestaltet sich folgendermaßen:
- Der initiale Routing-Agent prüft, ob es sich beim User Input um eine Frage zur Grammatik handelt. Nur Grammatikfragen werden im Workflow weiterverfolgt.
- Ein zweiter Routing-Agent prüft, ob es sich bei der Frage um eine Definitions- oder Gebrauchsfrage handelt. 3. Definitionsfragen: Similarity-Search in der Vektordatenbank nach relevanten Kontextinformationen.
a. Ein Relevanz-Agent prüft, ob das Retrieval erfolgreich war (nur verifizierte Dokumente werden berücksichtigt).
-> Generierung der Antwort - Gebrauchsfragen: Routing-Agent prüft, ob es sich um eine Frage zur Rechtschreibung (RS) handelt (die häufigste Kategorie interessierter Laien; unser Prototyp behandelt nur RSGebrauchsfragen).
a. RS-Gebrauchsfragen: Extraktion der Sprachobjekte. Falls Varianten auftreten (= mehr als ein Sprachobjekt): Nutzung der KorAP-Schnittstelle für Korpusrecherche: eine Frequenzliste der Varianten wird erstellt.
b. Zusätzlich/Ansonsten: Websearch.
c. Editor-Agent fasst Korpusrecherche und Websearch zusammen und präsentiert Zusammenfassung als relevante Kontextinformation.
-> Generierung der Antwort
Erste Auswertungen dieses als Proof of Concept implementierten Workflows zeigen nicht nur eine erhöhte Qualität für Definitionsfragen, sondern speziell auch für Rechtschreib-Gebrauchsfragen. Daher erscheint die zukünftige Anbindung weiterer IDS-Ressourcen für andere Fragetypen als vielversprechendes Unterfangen.
Literaturverzeichnis
-
Nils Diewald, Michael Hanl, Eliza Margaretha, Joachim Bingel, Marc Kupietz, Piotr Bański, and Andreas Witt. 2016. KorAP Architecture ― Diving in the Deep Sea of Corpus Data. In Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), pages 3586–3591, Slowenien. European Language Resources Association (ELRA).
-
Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park. 2024. Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity. https://arxiv.org/abs/2403.14403
-
Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Ye Jin Bang, Andrea Madotto, and Pascale Fung. 2023. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12):1–38.
-
Marc Kupietz, Harald Lüngen, and Nils Diewald. 2023. Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo. In Arnulf Deppermann, Christian Fandrych, Marc Kupietz, and Thomas Schmidt, editors, Korpora in der germanistischen Sprachwissenschaft, pages 1–28. De Gruyter.
-
Christian Lang, Roman Schneider, and Ngoc Duyen Tanja Tu. erscheint 2024. Automatic question answering for the linguistic domain – An evaluation of LLM knowledge base extension with RAG. In Amon Rapp, Luigi Di Caro, Farid Meziane, and Vijayan Sugumaran, editors, Natural Language Processing and Information Systems, A Springer Nature Computer Science book series. Springer Nature Switzerland AG.
-
Linyong Nan, Ellen Zhang, Weijin Zou, Yilun Zhao, Wenfei Zhou, and Arman Cohan. 2024. On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering. In Findings of the Association for Computational Linguistics: NAACL 2024, pages 4556–4579, Mexico City, Mexico. Association for Computational Linguistics.
-
Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, and Yoav Shoham. 2023. In-Context Retrieval-Augmented Language Models. Transactions of the Association for Computational Linguistics, 11:1316–1331.