Speakers
Description
Die Korpuslinguistik besitzt jahrzehntelange Erfahrung im Umgang mit großen Textmengen, inklusive ihrer Beschaffung, Aufbereitung und Nutzung. Im Angesicht der aktuellen Trends im Bereich großer Sprachmodelle (large language models, LLMs) und den sich daraus ergebenden neuen Nutzungsszenarien, für die große, hochqualitative Textmengen unabdingbar sind, können von dieser Expertise aktuelle und zukünftige Entwicklungen profitieren (Touvron et al. 2023).
Gleichzeitig wirkt sich die Verfügbarkeit LLM-basierter Anwendungen auch unmittelbar auf die bisherigen Arbeitsprozesse aus: bestehende Anwendungen werden ergänzt oder vollständig ersetzt und neue Ansätze der Korpuserstellung durch entsprechende Sprachmodelle erstmals ermöglicht. Zentrale Triebfedern der Entwicklung sind unter anderem eine beeindruckende inhaltliche Bandbreite, die für praktisch alle Teilbereiche relevante Vorarbeiten umfasst, sowie die in erheblichen Teilen offene Verfügbarkeit von Daten, Modellen und Dokumentationen.
In diesem Poster werden die Auswirkungen am Beispiel des Projekts Wortschatz Leipzig skizziert. Das Projekt besitzt jahrzehntelange einschlägige Erfahrungen die sich u.a. in einer eigenen Crawlinginfrastruktur und einer umfangreichen Verarbeitungspipeline wiederspiegeln. Das Poster stellt Arbeiten der letzten beiden Jahre zur Integration LLM-basierter Anwendungen in die bestehende Infrastruktur vor, zu denen die folgenden Teilbereiche gehören:
● Klassische Textakquisitionsverfahren umfassen diverse Ansätze mit Fokus auf geschriebene Sprache. Mit der Verfügbarkeit effizienter ASR-Modelle (Radford et al. 2022) stehen nun auch Audiofiles und Videodateien im großen Maßstab als Quelle zur Verfügung und werden systematisch für die Datenbeschaffung und Korpusanalyse eingesetzt.
● Daten und deren Qualität spielen eine zentrale Rolle für das Training von LLMs (Penedo et al. 2024). Um die Limitierungen regelbasierter Datenfilterung zu überwinden, wurde zur Gewinnung hochqualitativer Ressourcen aus Web-Crawling-Daten ein Active Learning-basiertes Nachtrainieren von Modellen zur Qualitätsfilterung erforscht (Bley, 2024).
● Eine nützliche Anreicherung von Textdaten ist die Annotation von Entitäten (wie Personen, Organisationen, Orten, ...) und deren Verlinkung mit passenden Einträgen in Wissensbasen (Knowledge Bases), wie etwa Wikidata oder der Gemeinsamen Normdatei (GND). Da ein solches Entity Linking typischerweise einen hohen manuellen Arbeitsaufwand erfordert, haben wir mit automatischen Ansätzen experimentiert, um deren Nutzbarkeit und Performanz zu testen. Ein erprobter Ansatz sind aus Entitäten-Quelltexten erzeugte Textembeddings ("Entity-Embeddings") zur Disambiguierung von Entitäten via gängiger Embedding-Distanzmetriken.
● Ein weiterer Ansatz des Entity Linking bezieht die in vielen Wissensbasen enthaltenen Relationen mit ein: Wir untersuchten dabei, ob mithilfe von GND-Relationen Mikrostrukturen zur Annotation identifiziert werden können, die einerseits eine höhere Zuverlässigkeit und Interpretierbarkeit bezüglich der verlinkten Entitäten ermöglichen und andererseits zur Identifizierung von Belegstellen für Relationen in Wissensbasen dienen können (Richter, 2023).
● Die Nutzung der erschlossenen Daten zur Erstellung neuer Sprachmodelle, insbesondere für das Deutsche, ist ebenfalls ein Desiderat. Hier können wir nach Inkrafttreten des UrhBiMaG im Juni 2021 neue Wege explorieren und pilotieren in laufenden und geplanten Projekten das Sprachmodelltraining mit vollständigen und obfuskierten deutschsprachigen Web- und Nachrichtentexten in Kooperation mit OpenGPT-X (OpenGPT-X,2022), dem ScaDS.AI, der DNB und weiteren Partnern.
Insgesamt ergeben sich neue technologische Möglichkeiten im Bereich der Nutzung Sprachmodell-gestützter Verfahren für die Produktion hochqualitativer Korpora. Zudem bieten sich neuartige Einsatzmöglichkeiten für die entstehenden Korpora zur Verbesserung vorhandener und Erzeugung neuer Sprachmodelle. Die Nutzung eigenständig erarbeiteter Datengrundlagen trägt - im Kontrast zur Nutzung proprietärer Angebote - zur Datensouveränität der jeweiligen Sprachgemeinschaften bei.
References
- Bley, Maximilian (2024). Multi-Label Qualitätsklassifikation von Webdaten mit Active Learning. Masterarbeit. TBP.
- OpenGPT-X (2022). Startschuss für das europäische KI-Sprachmodell OpenGPT-X. https://ki-verband.de/wp-content/uploads/2022/01/Pressemitteilung-zum-Start-von-O penGPT-X.docx.pdf, abgerufen am 30.08.2024.
- Penedo, Guilherme; Kydlíček, Hynek; Ben allal, Loubna; Lozhkov, Anton; Mitchell, Margaret; Raffel, Colin; Von Werra, Leandro; Wolf, Thomas (2024). The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. https://arxiv.org/abs/2406.17557
- Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). Robust Speech Recognition via Large-Scale Weak Supervision. https://arxiv.org/abs/2212.04356
- Richter, Marc (2023). Korpusbasierte Relationsextraktion und Normdaten-Disambiguierung zur Identifizierung von Belegstellen am Beispiel des GND-Netzwerkes, Masterarbeit, https://github.com/MarcPascalRichter/RelationExtraction.
- Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timo-thée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. (2023) Llama: Open and efficient foundation language models. https://arxiv.org/abs/2302.13971