Speakers
Description
Die Fortschritte in der Entwicklung großer Sprachmodelle und deren Popularisierung sowie breite Anwendbarkeit durch kommerzielle Angebote wie OpenAIs Produktportfolio (ChatGPT) haben das Potenzial zu einer grundlegenden Neugestaltung von Arbeitsprozessen bei der Erstellung sowie bei der Nutzung von digitalen Wörterbüchern. So belegen Studien [1] für Lernerwörterbücher bereits, dass in Lese- und Verständnistests Studierende unter Zuhilfenahme klassischer Lernerwörterbücher gegenüber einem GPT-basierten Chatsystem nicht nur keine besseren Testresultate erzielen, sondern teilweise sogar schlechter abschneiden. Unklar ist derzeit noch, ob sich diese Resultate auch für große einsprachige Wörterbücher übertragen lassen, die im Unterschied zu Lernerwörterbüchern viele seltene Phänomene (Lesarten, Register, Belegkontexte) verzeichnen. Hier ist die Ausgangslage weniger klar [2]. Dementsprechend wollten wir das Potenzial von GPTs und LLM-basierten Verfahren für die Optimierung der eigenen Arbeit im DWDS ausloten. Dabei liegt für die Erstellung von Bedeutungswörterbüchern wie dem DWDS das unmittelbar größte Optimierungspotenzial in der Unterstützung bei der zeitaufwändigen Recherche für bzw. der Formulierung von Definitionsparaphrasen. Wir wollten herausfinden, ob sich dieses Potenzial ähnlich schnell belegen oder gar ausschöpfen lässt wie bei Lernerwörterbüchern.
Hierzu verwenden wir per API ein geschlossenes sowie im Vergleich ein frei verfügbares, lokal betriebenes GPT-Sprachmodell, um per Few-Shot Prompting Definitionsparaphrasen für mehr als 100 Begriffe (monosem, polysem und/oder hoch- bzw. niedrigfrequent in den Korpora des DWDS) generieren zu lassen. Von 25 Studienteilnehmern (professionelle Lexikographinnen und Lexikographen und Studierende) wurden die generierten Paraphrasen hinsichtlich ihrer Korrektheit, Verständlichkeit, ihrem Informationsgehalt sowie des möglichen Halluzinationsgrads bewertet. Die Bewertung erfolgte jeweils entweder vergleichend bezogen auf eine entsprechende, dem DWDS entnommene Definition, oder “blind”, d. h. ohne Bezug auf eine solche Referenz. Zudem wurden die Probandinnen und Probanden aufgefordert, bei der Bewertung keine sonstigen Hilfsmittel zum Verständnis der vorliegenden Begriffe einzusetzen, sondern die Entscheidung einzig und allein auf der Grundlage ihrer eigenen sprachlichen Intuition vorzunehmen.
Unsere im Poster präsentierte Auswertung der Studienergebnisse liefert Aussagen zu qualitativen Unterschieden der beiden genutzten Sprachmodelle, zur Behandlung von Mehrdeutigkeit sowie zum Einfluss von Experten- und Hintergrundwissen auf die Bewertung von generierten Definitionen und auf die Erkennung von Halluzinationen. Insbesondere Halluzinationen, korrekt erscheinende, aber faktisch falsche Definitionen, so ein Studienergebnis, stellen unabhängig vom Vorwissen der Wörterbuchnutzer ein grundsätzliches Problem dar, das die Verlässlichkeit generierter Definitionen und die Notwendigkeit ihrer Überprüfung und Überarbeitung betrifft. Daher bieten wir ferner einen Einblick in eine Anschlussstudie, bei der wir das Few-Shot Prompting um Verfahren der Retrieval-Augmented Generation (RAG) ergänzen. Indem einem Prompt zusätzlich ausgewählte Verwendungsbeispiele für den zu definierenden Begriff aus unseren Korpora beigegeben werden, erhalten wir im Ergebnis oft treffende, besser verwendbare Definitionen, was insbesondere bei der Bearbeitung von Fachwortschätzen unter Verwendung themenspezifischer Korpora zu einer erheblichen Zeit- und Arbeitsersparnis führt. Wir illustrieren diesen Befund anhand von Wörtern und Wendungen, wie beispielsweise Tiki-Taka, VAR oder ruhender Ball, die Teil eines umfangreichen DWDS-Glossars zur diesjährigen Fußball-Europameisterschaft waren, das also unter Zuhilfenahme von KI-Verfahren erstellt wurde.
References
-
Rees, Geraint Paul; Lew, Robert: The Effectiveness of OpenAI GPT-Generated Definitions Versus Definitions from an English Learners’ Dictionary in a Lexically Orientated Reading Task, in: International Journal of Lexicography, 13.12.2023. Online: https://doi.org/10.1093/ijl/ecad030.
-
Miloš Jakubíček, Michael Rundell: The end of lexicography: Can ChatGPT outperform current tools for post-editing lexicography? (Proceedings. elex 2023: p 518-533)