- Indico style
- Indico style - inline minutes
- Indico style - numbered
- Indico style - numbered + minutes
- Indico Weeks View
Text+ ist ein Konsortium der Nationalen Forschungsdateninfrastruktur (NFDI) und hat zum Ziel, sprach- und textbasierte Forschungsdaten langfristig zu erhalten und ihre Nutzung in der Wissenschaft zu ermöglichen.
Am 10. und 11. Oktober 2024 trifft sich das Text+ Konsortium zu einer Konferenz mit allen Mitarbeitenden und Interessierten, darunter auch Delegierte aus Fachverbänden und -verbünden, um sich über den Projektfortschritt und die aktuellen Entwicklungen auszutauschen. Die diesjährige Konferenz zum Thema „Große Sprachmodelle (LLMs) und deren Nutzung“ findet in den Räumen des Schlosses in Mannheim statt.
Angegliedert an diese Konferenz finden auch Treffen der Mitarbeitenden des Konsortiums zu Arbeitsgruppensitzungen statt.
Spätestens seit dem Bekanntwerden von ChatGPT taucht der Begriff Large Language Models (LLMs) auch häufig außerhalb von wissenschaftlichem Kontext auf. LLMs sind allerdings nicht von heute auf morgen entstanden, sondern vielmehr die neuste Entwicklung aus einer ganzen Reihe an Forschung rund um Sprachmodelle. Solche Modelle sind heute die zugrundeliegende Technik vieler Anwendungen in der Verarbeitung natürlicher Sprache (Natural Language Processing), wie beispielsweise Spracherkennung, maschineller Übersetzung oder Textgenerierung.
In dem Pre-Conference-Tutorial am 9. Oktober wollen wir einen Überblick darüber geben, wie sich Sprachmodelle entwickelt haben, worauf sie basieren (Stichworte: Embeddings, Tokenization, Transformer) und wie sie funktionieren. Wir werden über Prompt-Engineering und die Evaluation von LLMs sprechen und stellen außerdem Tools für die Arbeit mit LLMs vor. Das Tutorial soll einen ersten Einstieg in das praktische Arbeiten mit LLMs für die Anwendung auf eigene Aufgabenstellungen bieten. Alle Interessierte mit und ohne Vorwissen sind herzlich eingeladen.
Im Hauptgebäude der Niedersächsischen Staats- und Universitätsbibliothek Göttingen treffen sich parallel das SCC Collections, das SCC Lexical Resources, das SCC Editions und das OCC.
Im Hauptgebäude der Niedersächsischen Staats- und Universitätsbibliothek Göttingen treffen sich parallel das SCC Collections, das SCC Lexical Resources, das SCC Editions und das OCC.
The linguistic analysis and investigation of transformer language models has become an established line of research in recent work on LLMs. Typically, the aim of these analyses is to determine whether existing pre-trained LLMs learn human-like linguistic knowledge and generalise linguistic rules in a human-like manner. While this has been extremely fruitful in terms of revealing the linguistic abilities of existing LLMs, these studies are often inconclusive when it comes to handling apparent limitations and gaps in the linguistic knowledge of LLMs. In this talk, I will discuss how small language models, trained on controlled and plausible amounts of data, might offer new perspectives for linguistically oriented research on language models. I will present experiments on analysing the linguistic capabilities of small language models and show how they can be useful for deeper linguistic insight and hypothesis-driven modelling.
Large Language Models (LLMs) are impressively fluent, and seem to function without any modules specially designed to capture grammar or semantic coherence. This can lead us to question even more the (once broadly presumed) relevance of linguistic expertise in Natural Language Processing (NLP). In this talk, I will explore six key areas where linguistics, in overt and less overt ways, continues to play a crucial role in NLP, encapsulated by the acronym RELIES: Resources, Evaluation, Low-resource settings, Interpretability, Explanation, and the Study of language. On a macro level, these facets show how linguistic insights remain vital for advancing and validating NLP technologies.
Der Vortrag widmet sich dem - insbesondere auch nichtwissenschaftlichen - Impact wissenschaftlicher Forschung und thematisiert inwieweit dieser klassifiziert, analysiert und automatisiert vorhergesagt werden kann.
Während die Erfassung wissenschaftlichen Impacts bisher hauptsächlich auf der Analyse wissenschaftlicher Veröffentlichungen und ihrer Verbreitung beruhte, verwendet der vorgestellte Ansatz Methoden der Korpuslinguistik und des maschinellen Lernens, um den Impact wissenschaftlicher Projekte innerhalb und insbesondere außerhalb der Wissenschaft automatisiert prognostizieren und klassifizieren zu können.
Basis hierfür bildet ein Datensatz bestehend aus knapp 1.200 deutschsprachigen Projektabschlussberichten geförderter Drittmittelprojekte aus den Domänen Mobilität, Künstliche Intelligenz, Germanistische Linguistik und Musikwissenschaften. Der Impact dieser Forschungsberichte wurde im Projekt mittels verschiedener Methoden ausgewertet, deren Ergebnisse im Vortrag vorgestellt werden: durch Impactklassifikationen mittels supervisierter und unsupervisierter maschineller Lernverfahren unter besonderer Berücksichtigung von Large Language Models, mittels korpuslinguistischer Auswertungen medialer Berichterstattung und mittels Online-Umfragen.
Der Vortrag stellt Ergebnisse des bis 2024 vom BMBF geförderten Projekts TextTransfer (https://texttransfer.org/) vor.
The talk discusses prompting as a method to use large language models for applications in the computational literary studies. With examples and experimental results taken from the Q:TRACK project, it will explain assumptions and possibilities, but also pitfalls and challenges. The talk closes with a number of recommendations for users.
Recently, language technology has seen tremendous advancements due to the development and use of large language models, large machine learning models pre-trained on large amounts of textual data. However, while how humans express themselves in language and how they perceive language is largely driven by their individual sociodemographic and sociocultural backgrounds, language models still only partially account for these social aspects. In this talk, I argue that we should consider these social factors more when researching and applying LLMs. Concretely, I will discuss some of our recent works relating to effectiveness, fairness, and inclusiveness, which will illustrate the critical role of social factors in natural language processing.
A brief into on how Sparse Autoencoders (SAE) can be leveraged to extract interpretable, monosemantic features from the opaque intermediate activations of LLMs, providing a window into their internal representations. And we hope to initiate discussions on the methodology of training SAEs on LLM activations, the resulting sparse and high-dimensional representations, and how these can be utilized for model steering tasks."
We’ll examine a case study demonstrating the effectiveness of this approach in changing the level of model “proficiency”. This discussion aims to highlight the potential of SAEs as a scalable, unsupervised method for disentangling LLM behaviors, contributing to the broader goals of AI interpretability and alignment.
In diesem Poster präsentieren wir eine umfassende Darstellung verschiedener abgeleiteter Textformate (ATF) und auch wie diese im Zusammenhang mit großen Sprachmodelle (LLMs) eingesetzt werden können. Abgeleitete Textformate (ATF) sind systematisch generierte Repräsentationen eines Originaltextes, bei dem einerseits die Anwendung bestimmter Verfahren des Text und Data Mining noch möglich sind, andererseits aber urheberrechtlich geschützte Bestandteile des Ausgangstextes nicht mehr repräsentiert sind. Bei der Erzeugung von abgeleiteten Textformaten folgt einer optionalen Anreicherung des ursprünglichen Textes die gezielte Informationsreduktion, so dass die entstehende Repräsentation frei bereitgestellt werden kann. Bei der Beurteilung von ATF sind neben den rechtlichen Aspekten auch Fragen zu klären, welche Anwendungen durch die Bereitstellung unterstützt werden können. Diese variieren zwischen einfachen statistischen Abfragen bis hin zum Training großer Sprachmodelle auf der Basis von ATF.
Vor diesem Hintergrund adressiert das Poster folgende Themen:
Motivation für abgeleitete Textformate: Abgeleitete Textformate können sowohl durch die Informationsanreicherung, z. B. das Parsen und automatische Annotieren, als auch durch Informationsreduktion, also das Entfernen verschiedener Teile der Ursprungsdaten erfolgen. Das Ziel ist in der Regel, eine Repräsentation der Daten zu erhalten, deren Weitergabe und Veröffentlichung sowohl die Rechte Dritter respektiert, als auch für die Bearbeitung von Forschungsfragen genügend Informationen beinhaltet. Dazu erscheint der Begriff der Reproduzierbarkeit des Originals zentral, d.h. das auf Grundlage des ATFs das Original nicht so reproduziert werden kann, dass z.B. das Urheberrecht oder der Datenschutz verletzt werden.
Arten der abgeleiteten Textformate: Die Beschreibung abgeleiteter Textformate enthält Definitionen, Herstellungsprozesse, Anwendungsbereiche und die Reproduzierbarkeit des Originaltexts für jedes Format. Zudem werden Anwendungsbeispiele für bestimmte ATF aufgeführt. Bei den ATF werden die Klassen der tokenbasierten und vektorbasierten Verfahren unterschieden, jeweils mit ihrer Definition, Erstellungsverfahren, Beschreibung der Nutzbarkeit für bestimmte Einsatzwecke und der möglichen Reproduzierbarkeit der Ursprungsdaten basierend auf den ATFs.
Erstellung einer DIN-Norm für abgeleitete Textformate: Um die Grundlage für eine möglichste einheitliche Nutzung in der Wissenschaft und einen wichtigen Beitrag zur Reproduzierbarkeit von Forschungsergebnissen zu legen, müssen diese Beschreibungen so präzise wie möglich sein. Dies ist besonders dann der Fall, wenn Dokumente nur als ATF vorliegen, und möglicherweise aus unterschiedlichen Quellen stammen. Daher hat Text+ sich vorgenommen, eine Norm für ATFs zu entwerfen und in den formalen Standardisierungsprozess einzubringen. In diesem Poster werden wir daher auch den aktuellen Stand der Normungsvorarbeiten vorstellen.
Abgeleitete Textformate und große Sprachmodelle: Die Verwendung urheberrechtlich geschützter Texte für das Training großer Sprachmodelle ist aktuell 1) sehr umstritten und findet 2) dort ihre Grenzen, wo nicht sichergestellt werden kann, dass bei der Nutzung solcher Sprachmodelle die Volltexte rekonstruiert werden können. Daher erscheint es lohnenswert, die Nutzung von ATF als eine spezifische Form der Datenobfuskierung auch für das Training von LLMs zu untersuchen. (Hier ggf. Verweis auf das CORAL- Projekt)
Anwendungsbeispiele: Bereits aktuell werden ATF in der Forschung verwendet, hierzu werden wir Beispiele vorstellen, die gemäß der Arten der ATFs klassifiziert und beschrieben werden. Zu den Anwendungen gehören auch Sprachmodelle sowohl als eine Art der ATFs, als auch als eine Möglichkeit, die ATFs näher zu untersuchen.
This poster delves into the critical role of authority files in advancing AI-based knowledge management, focusing on the context of the German National Library's (DNB) efforts. Authority files of the Gemeinsame Normdatei (https://gnd.network/Webs/gnd/EN/Home/home_node.html) serve as the cornerstone for successful information retrieval, interoperability, and the overall effectiveness of AI applications, such as chatbots. At the DNB for instance we explore how leveraging curated and high-quality datasets from library collections can enhance the deep learning processes of Large Language Models, fostering the development of sophisticated AI tools. In another project, we are currently researching the potential and challenges of Artificial Intelligence (AI) in automatic cataloguing.
Highlighting the challenges, the poster emphasizes the necessity of a community-organizing approach to address the multifaceted issues surrounding the modernisation of the authority record basic concept. Recognizing that reliable authority records demand a diverse range of expertise not solely present within libraries, the DNB advocates for active participation from various expert communities. Moreover, using authority records assumes that they are known, available and their benefits are understood. The poster illustrates pathways for collaborative engagement, demonstrating how an inclusive infrastructure facilitates the co-creation and enrichment of authority records. This includes a platform for the RDA DACH (https://sta.dnb.de/doc/RDA) rule set, that is participatory and a new visual web service for GND research, the GND Explorer (https://explore.gnd.network).
The research underscores that the success of AI applications is intricately tied to the quality and diversity of underlying data, emphasising the significance of standardization and harmonization through authority records. Ultimately, the poster asserts that the community-organizing approach is paramount in improving the abundance and richness of authority records and fostering widespread acceptance and utilisation within scientific communities, ensuring the gold standard for AI-based information management in libraries today and the future.
Das Poster präsentiert Aspekte der Entwicklung eines Sprachmodells für die Normalisierung historischer Texte, die innerhalb von Text+ geschieht. Digitalisierte historische Dokumente sind eine wichtige Datengrundlage für Forschende in den Digital Humanities und anderen textbasierten Disziplinen. Je nach Textalter unterscheidet sich die Schreibung in historischen Texten mehr oder weniger stark vom heutigen Standard (Beispiel 1a). Diese Abweichungen erschweren die Volltextsuche und die Anwendbarkeit von NLP-Werkzeugen, etwa für POS-Tagging oder NER, da diese typischerweise auf gegenwartssprachlichen Daten trainiert sind. Eine Normalisierung überträgt den historischen Text in moderne Schreibung (Beispiel 1b) und verringert so diese Probleme.
1a. Sie giengen beyde in dem koͤniglichen Spatzierhofe auff vnd nider.
1b. Sie gingen beide in dem königlichen Spazierhof auf und nieder.
Für die automatisierte Normalisierung von historischem Deutsch ab ca. 1600, wie es im Deutschen Textarchiv (DTA) vorkommt, nutzt die BBAW gegenwärtig das regel- und lexikonbasierte Tool CAB [1] und bietet dieses auch über einen Webservice an. Im Rahmen von Text+ wird nun an einem Nachfolgetool von CAB gearbeitet, das auf Transformer- Modellen basiert. Mit dieser Methode schließen wir an jüngere Forschung zur historischen Textnormalisierung an [2]. Die Funktionsweise gleicht einem Tool für maschinelle Übersetzung; Satz für Satz wird historischer Text in moderne Schreibweise übertragen. Das Modell wird trainiert, indem ein Finetuning eines vortrainierten, sogenannten „general- purpose“ Large Language Model durchgeführt wird, damit das Modell die Fähigkeit erlernt, zu normalisieren. Als Trainings- und Evaluationsdaten werden hier also Texte benötigt, die sowohl in historischer Originalfassung als auch in einer möglichst guten normalisierten Fassung vorliegen. Diese Art von Daten sind nicht in großem Umfang verfügbar und so ist es eine zentrale Anforderung unserer Arbeit an der BBAW in Text+, die vorhandenen, auf dem DTA basierten Datensätze als auswertbare Trainingsdatensets zu erschließen und zu erweitern.
Die Veröffentlichung fertiger Modelle wird auf der etablierten Plattform Hugging Face Hub erfolgen. So werden diese der Forschungscommunity frei zum Download und zur Nachnutzung zur Verfügung stehen. Zum Zeitpunkt der Einreichung verweise ich auf einen Prototypen, der dort bereits verfügbar ist: huggingface.co/ybracke/transnormer-19c-beta- v01. Die frei verfügbaren Modelle können in projekteigenen Workflows eingesetzt und wenn nötig nachtrainiert werden. Darüber hinaus ist geplant, Modelle in die ebenfalls in Text+ entwickelte MONAPipe einzubauen, sowie über eine API und Webservice zur einfachen Nutzung bereitzustellen.
References
Jurish, Bryan. 2012. „Finite-State Canonicalization Techniques for Historical German“. Dissertation. Universität Potsdam. http://opus.kobv.de/ubp/volltexte/2012/5578/
Bollmann, Marcel. 2019. „A Large-Scale Comparison of Historical Text Normalization Systems“. In Proceedings of the 2019 Conference of the North, Minneapolis, Minnesota: Association for Computational Linguistics, 3885–98. doi:10.18653/v1/N19-1389.
With easy access to APIs that query large language models (LLM), a good number of scientific disciplines explore their use for tasks for which they have previously used human resources or traditional technologies. LLM have also been explored in lexicography to support experts in constructing and maintaining dictionaries. There are some members of the field who even proclaim the death of lexicography because LLMs will soon be able to generate lexical entries and even entire dictionaries [1].
We report our work on testing this claim using a prominent representative of LLMs, ChatGPT, in the context of GermaNet, the largest lexical-semantic wordnet for German [2]. The latest version of GermaNet (18.0) features 215,000 lexical units (nouns, verbs, adjectives) that are attached to 167,163 synsets. It has 181,530 conceptual relations, 12,602 lexical relations (synonymy excluded), and a representation of 121,655 split compounds. GermaNet, hence, covers a large spectrum of the German language. But while all verbs in GermaNet come with at least one example sentence to illustrate the verb’s usage (for a given reading), GermaNet has only few example sentences for nouns and adjectives. It is this gap that we would like to close with the help of LLM.
Since LLM are built using enormous amounts of corpus data, we expect Chat-GPT to perform very well in this task. But while ChatGPT’s performance on generating example sentences for monosemous words is very good, it shows that the language competence of our human experts easily outperforms the language competence of ChatGPT when it comes to the generation of example sentences for polysemous words. In the poster, we show examples where ChatGPT uses incorrect or atypical word collocations, i.e., in verb-object and adjective-noun pairs. Often, ChatGPT displays an incorrect or insufficient understanding at the word (e.g., Erleben vs. Erlebnis, Wirken vs. Wirkung; Ensetzen vs. Entsetzung) and sentence level (e.g., Sie sah atemberaubend aus in ihrem samtigen Abendkleid, das bei jedem Schritt leise raschelte – velvet does not rustle). Sometimes, ChatGPT uses a numerus that is uncommon in a given context (Schuhband vs. Schuhbänder), gives an incorrect historical placing of words (e.g., Disco Roller were popular in the 90s not in the 80s), or makes use of subordinate clauses that fail to contribute to the meaning of sentences. Occasionally, ChatGPT generates orthographic errors, uses the wrong case, or hallucinates on words it does not know (e.g., Nebelkappe as synonym to Tarnkappe, which it explains as a kind of cap that one can wear during fog).
In sum, lexicographers must not fear that LLMs are taking over their entire work. Often however, AI generated content is of high quality and can be used with little, if any edits. As a result, our team embraces the new technology as an effective support for the development and maintenance of GermaNet.
References
[1] Gilles-Maurice de Schryver. Generative AI and Lexicography: The Current State of the Art Using ChatGPT. International Journal of Lexicography, 36(4):355–387, 10 2023.
[2] B. Hamp and H. Feldweg. GermaNet - a Lexical-Semantic Net for German. In Proceedings of the ACL workshop Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications, 1997. Madrid, Spain.
Das Datenkompetenzzentrum HERMES – Humanities Education in Research, Data, and Methods – widmet sich dem Bedarf an Aus-, Weiter- und Fortbildung und praxisorientierter Beratung im Bereich der Datenkompetenzen in der geistes- und kulturwissenschaftlichen Forschung und Lehre sowie in GLAM-Einrichtungen (Galleries, Libraries, Archives and Museums). HERMES etabliert Orte des Forschens, Lernens und Vernetzens, an denen Datenkompetenzen in den Geistes- und Kulturwissenschaften vermittelt, weiterentwickelt und kritisch reflektiert werden.
Der Begriff “Datenkompetenzen” umfasst in HERMES den gesamten Bereich datenwissenschaftlicher Methodik innerhalb der Geistes- und Kulturwissenschaften. Dem Thema “Large Language Models” (LLM) kommt hierbei insofern besondere Relevanz zu, als LLMs aufgrund ihres immensen Fortschritts derzeit je nach Sichtweise als disruptiv empfunden oder aber als unterstützend wahrgenommen werden. Kurz gesagt: Das Thema polarisiert und macht eine fundierte Methodenreflexion nötig, die die Potentiale von LLMs für die geistes- und kulturwissenschaftliche Forschung exploriert. LLMs eröffnen etwa neue Wege zur Analyse und Interpretation von Text- und Sprachdaten, doch ihre effektive Anwendung setzt ein solides Verständnis der zugrundeliegenden Technologien und Methoden voraus. Als Datenkompetenzzentrum trägt HERMES dazu bei, dieses Wissen zu vertiefen und zu verbreiten, indem Workshops und Lehrmaterialien entwickelt werden, die den Zugang zu LLMs erleichtern und deren Einsatzmöglichkeiten in der geistes- und kulturwissenschaftlichen Forschung aufzeigen. Als Datenkompetenzzentrum versteht HERMES sich somit als Inkubator und Transformator, der den mit LLMs verbundenen Kulturwandel fördert und begleitet.
Das Poster soll vermitteln, im Zuge welcher HERMES-Angebote die Datenkompetenz von Forschenden und GLAM-Mitarbeiter*innen im Umgang mit LLMs gestärkt wird. Die verschiedenen HERMES-Angebote ergänzen sich dabei komplementär und gehen beispielhaft folgenden Fragen nach: Inwiefern nehmen LLMs beim Verfassen und Bewerten von Texten Einfluss? (Promotionsnetzwerk) Wie helfen sie bei der Recherche? (OER) Wie können sie zur Untersuchung von Daten eingesetzt werden? (Data Challenges, Bring-Your-Own-Data-Labs) Welchen Nutzen haben LLMs und KI-Tools für den GLAM-Bereich und die für die Sammlungsarbeit relevante Beschreibung, Klassifikation und Kategorisierung von Beständen unterschiedlicher Art? (Transferwerkstatt)
Zentrale Themen wie etwa die Domänenanpassung von LLMs, die Vorverarbeitung von Daten oder die ethischen Implikationen dieser Technologien müssen bei der Beantwortung der oben genannten Fragen berücksichtigt werden; ebenso der Aspekt, weshalb es für geistes- und kulturwissenschaftlich Forschende und GLAM-Mitarbeiter*innen überhaupt wichtig ist, sich mit LLMs auseinanderzusetzen, um aktuelle Forschungstrends zu verstehen und eigene Projekte innovativ zu gestalten. Mit diesen Punkten auf der Agenda trägt HERMES dazu bei, die Brücke zwischen technologischen Entwicklungen und den spezifischen Bedürfnissen der Geistes- und Kulturwissenschaften zu schlagen.
(Das Projekt HERMES wird gefördert durch das Bundesministerium für Bildung und Forschung, sowie durch Zuschüsse der europäischen Union. Das Förderkennzeichen ist 16DKZ2009)
In unserem Beitrag stellen wir Potenziale und konkrete Anwendungsbeispiele mittels Open AIs Whisper und generativen LLMs vor, die für verschiedene Phasen der Aufbereitung und Auswertung gesprochensprachlicher Daten der Projektarbeit darstellen. Unsere Vorschläge wurden an der Universität Hamburg im Rahmen des Text+ Daten und Kompetenzzentrum HZSK erarbeitet.
Konkret liegt der Fokus auf der Unterstützung der sprachwissenschaftlichen Transkription von Audio- oder Videodaten, einem traditionell sehr zeit- und ressourcenintensiven Prozess, durch OpenAIs Whisper-Modell, einem fortschrittlichen Sprachmodell zur automatischen Spracherkennung (ASR). Zusätzlich werden Nutzen und Einbindungsmöglichkeiten anderer LLMs in das Post-Processing und die Weiterverarbeitung vor dem Hintergrund projektabhängiger Fragestellungen beleuchtet und erste Ergebnisse einer Evaluation präsentiert.
Durch den engen Zeitrahmen vieler Datenerhebungsprojekte ist eine inhaltliche und/oder sprachliche Vorauswertung notwendig, um beispielsweise geeignete Ausschnitte im Datenmaterial auszuwählen, Anpassungen für weitere Datenerhebungsphasen vorzunehmen oder einen Überblick über das Vorhandensein relevanter Themen und sprachlicher Phänomene zu gewinnen. Für ein zeiteffizientes Vorgehen ist es erforderlich, nicht ausschließlich auf Audio- oder Videodaten zurückgreifen zu können. Gleichzeit ist der zeitliche Aufwand für die Erstellung manueller Transkripte sehr hoch und eine vollständige Transkription innerhalb der ersten Projektphasen in der Regel nicht leistbar. Die Veröffentlichung von Whisper durch OpenAI als open source ermöglicht es, sensible Audio- und Videodaten lokal zu verarbeiten, was eine wesentliche Anforderung vieler Datenerhebungsprojekte ist. Somit scheinen durch die aktuellen Entwicklungen im Bereich der LLMs vielversprechende Möglichkeiten vorzuliegen, um Workflows in sprachbasierten Datenerhebungsprojekte zu optimieren. Dabei wird nicht nur der Einsatz von Modellen zur automatischen Spracherkennung in den Blick genommen, sondern auch von LLMs zur Verarbeitung automatisch erstellter Transkripte. Diese können beispielsweise genutzt werden, um Gliederungen, Inhaltsübersichten und Schlüsselwörter für Transkripte zu erzeugen.
Das Poster soll zu einer generellen und reflektierten Diskussion beitragen, wie KI-Anwendungen in der linguistischen Forschung eingesetzt werden und möglicherweise zu einer Optimierung datengeleiteter Forschung beitragen können. Gleichzeitig sollen erste Ansätze für Unterstützungs- und Beratungsmöglichkeiten im Bereich „Gesprochene Sprache und KI“ für Forschende aufgezeigt werden.
Die Korpuslinguistik besitzt jahrzehntelange Erfahrung im Umgang mit großen Textmengen, inklusive ihrer Beschaffung, Aufbereitung und Nutzung. Im Angesicht der aktuellen Trends im Bereich großer Sprachmodelle (large language models, LLMs) und den sich daraus ergebenden neuen Nutzungsszenarien, für die große, hochqualitative Textmengen unabdingbar sind, können von dieser Expertise aktuelle und zukünftige Entwicklungen profitieren (Touvron et al. 2023).
Gleichzeitig wirkt sich die Verfügbarkeit LLM-basierter Anwendungen auch unmittelbar auf die bisherigen Arbeitsprozesse aus: bestehende Anwendungen werden ergänzt oder vollständig ersetzt und neue Ansätze der Korpuserstellung durch entsprechende Sprachmodelle erstmals ermöglicht. Zentrale Triebfedern der Entwicklung sind unter anderem eine beeindruckende inhaltliche Bandbreite, die für praktisch alle Teilbereiche relevante Vorarbeiten umfasst, sowie die in erheblichen Teilen offene Verfügbarkeit von Daten, Modellen und Dokumentationen.
In diesem Poster werden die Auswirkungen am Beispiel des Projekts Wortschatz Leipzig skizziert. Das Projekt besitzt jahrzehntelange einschlägige Erfahrungen die sich u.a. in einer eigenen Crawlinginfrastruktur und einer umfangreichen Verarbeitungspipeline wiederspiegeln. Das Poster stellt Arbeiten der letzten beiden Jahre zur Integration LLM-basierter Anwendungen in die bestehende Infrastruktur vor, zu denen die folgenden Teilbereiche gehören:
● Klassische Textakquisitionsverfahren umfassen diverse Ansätze mit Fokus auf geschriebene Sprache. Mit der Verfügbarkeit effizienter ASR-Modelle (Radford et al. 2022) stehen nun auch Audiofiles und Videodateien im großen Maßstab als Quelle zur Verfügung und werden systematisch für die Datenbeschaffung und Korpusanalyse eingesetzt.
● Daten und deren Qualität spielen eine zentrale Rolle für das Training von LLMs (Penedo et al. 2024). Um die Limitierungen regelbasierter Datenfilterung zu überwinden, wurde zur Gewinnung hochqualitativer Ressourcen aus Web-Crawling-Daten ein Active Learning-basiertes Nachtrainieren von Modellen zur Qualitätsfilterung erforscht (Bley, 2024).
● Eine nützliche Anreicherung von Textdaten ist die Annotation von Entitäten (wie Personen, Organisationen, Orten, ...) und deren Verlinkung mit passenden Einträgen in Wissensbasen (Knowledge Bases), wie etwa Wikidata oder der Gemeinsamen Normdatei (GND). Da ein solches Entity Linking typischerweise einen hohen manuellen Arbeitsaufwand erfordert, haben wir mit automatischen Ansätzen experimentiert, um deren Nutzbarkeit und Performanz zu testen. Ein erprobter Ansatz sind aus Entitäten-Quelltexten erzeugte Textembeddings ("Entity-Embeddings") zur Disambiguierung von Entitäten via gängiger Embedding-Distanzmetriken.
● Ein weiterer Ansatz des Entity Linking bezieht die in vielen Wissensbasen enthaltenen Relationen mit ein: Wir untersuchten dabei, ob mithilfe von GND-Relationen Mikrostrukturen zur Annotation identifiziert werden können, die einerseits eine höhere Zuverlässigkeit und Interpretierbarkeit bezüglich der verlinkten Entitäten ermöglichen und andererseits zur Identifizierung von Belegstellen für Relationen in Wissensbasen dienen können (Richter, 2023).
● Die Nutzung der erschlossenen Daten zur Erstellung neuer Sprachmodelle, insbesondere für das Deutsche, ist ebenfalls ein Desiderat. Hier können wir nach Inkrafttreten des UrhBiMaG im Juni 2021 neue Wege explorieren und pilotieren in laufenden und geplanten Projekten das Sprachmodelltraining mit vollständigen und obfuskierten deutschsprachigen Web- und Nachrichtentexten in Kooperation mit OpenGPT-X (OpenGPT-X,2022), dem ScaDS.AI, der DNB und weiteren Partnern.
Insgesamt ergeben sich neue technologische Möglichkeiten im Bereich der Nutzung Sprachmodell-gestützter Verfahren für die Produktion hochqualitativer Korpora. Zudem bieten sich neuartige Einsatzmöglichkeiten für die entstehenden Korpora zur Verbesserung vorhandener und Erzeugung neuer Sprachmodelle. Die Nutzung eigenständig erarbeiteter Datengrundlagen trägt - im Kontrast zur Nutzung proprietärer Angebote - zur Datensouveränität der jeweiligen Sprachgemeinschaften bei.
References
Das Poster stellt ein hybrides Vorhaben an der Schnittstelle von rechtslinguistischer Forschung (Dissertationsvorhaben Universität Heidelberg) und Prototypenentwicklung vor, in dem Daten mit Sachverhaltsbeschreibungen zum Kindeswohl in familiengerichtlichen Verfahren automatisiert erfasst und hinsichtlich ihrer Wahrscheinlichkeit und Relevanz klassifiziert und visualisiert dargestellt werden sollen. Die mithilfe von LLMs und einem kombinierten Ansatz (Finetuning, Retrieval Augmented Generation, kurz: RAG u. a.) vorstrukturierten Daten sollen Familiengerichten eine rasche Orientierung in umfangreichen Gerichtsakten für die juristische Würdigung der Sachverhalte und eine Grundlage für fundierte verantwortliche Entscheidungen zum Wohl des Kindes bieten.
Dazu werden zunächst sprachliche Phänomene in der Domäne des Rechts (Felder & Vogel 2017) sowie in einer textlinguistischen Pilotstudie erhobene sprachliche Auffälligkeiten zur Konstitution und Kommunikation von Sachverhalten im Kindschaftsrecht und daraus resultierende Implikationen für professionelle Akteur:innen im Recht dargestellt (Mundorf 2021). Ausgangspunkt ist zum einen die sozialkonstruktivistische Annahme, dass Fachwissen und die Sachverhalte dieser Wissensdomänen sprachlich konstituiert werden (Felder 2008, Forschungsnetzwerk Sprache und Wissen“), zum anderen, dass sie dabei grundlegenden Perspektivierungsverfahren unterliegen (Köller 2004) und Sachverhalte daher nie vollkommen ‚neutral‘ oder ‚objektiv‘ dargestellt werden können. Eine Analyse der Perspektivierungsmuster und -strategien bei der Vermittlung juristischen Wissens an juristische und nicht-juristische Akteur:innen, Expert:innen und Lai:innen wird als heuristisches Konzept genutzt, um sprachliche Vermittlungsstrategien im Recht zu beschreiben (Mundorf 2024: 277). Diese Erkenntnisse sollen dazu genutzt werden, um Large Language Models durch datengetriebene Analysen mit Fachwissen aus Gerichtsentscheidungen und Daten der Entscheidungsfindung aus Gerichtsakten spezifisch für juristische Anwendungen dezentral zu trainieren und für eine Testphase in familiengerichtlichen Verfahren nutzbar zu machen.
Das Poster gibt Einblick in das laufende Projekt mit einem Ansatz, der rechtslinguistisches Wissen und empirische Studienergebnisse mit der fachspezifischen Datenintegration in verschiedene Open Source-Modelle, einer Visualisierung und Bewertung mittels Graphdatenbanken und regelbasierter Entscheidungsunterstützung verknüpft.
Zielsetzung ist es zum einen, einen methodischen bzw. methodologischen Beitrag innerhalb der Rechtslinguistik mithilfe von Machine Learning-Verfahren und einer Risikobewertung zu leisten, zum anderen eine Brücke zwischen Angewandter Linguistik, Rechtsinformatik und Rechtsanwendung zu schlagen und einen vielversprechenden Ansatz für eine zukunftsfähige Rechtspraxis bereitzustellen.
Literatur
Brodowski, Dominik (2024): Datengestützte Prognose justizieller Entscheidungen. In: Liane Wörner, Rüdiger Wilhelmi, Jochen Glöckner, Marten Breuer und Svenja Behrendt (Hrsg.): Digitalisierung des Rechts: de Gruyter, S. 125–142.
Dahl, Matthew; Magesh, Varun; Suzgun, Mirac; Ho, Daniel E. (2024): Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models. In: Journal of Legal Analysis 16 (1), S. 64–93
Felder, Ekkehard (2008): Das Forschungsnetzwerk „Sprache und Wissen“: Zielsetzung und Inhalte. In: Zeitschrift für Germanistische Linguistik 36 (2), S. 270–276.
Felder, Ekkehard; Vogel, Friedemann Vogel (Hrsg.) (2017): Handbuch Sprache im Recht. Berlin / Boston: de Gruyter.
Mundorf, Margret (2021): Recht autobiografisch. Schreibkompetenz, Sprachbewusstheit und (Selbst-)Reflexivität in Aus- und Weiterbildung. In: Renata Behrendt und David Kreitz (Hrsg.): Autobiografisches Schreiben in Bildungskontexten. Konzepte und Methoden. Stuttgart: wbv/UTB (Theorie und Praxis der Schreibwissenschaft), S. 169–185.
Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan et al. (2023): Survey of Hallucination in Natural Language Generation. In: ACM Computing Surveys 55 (12), S. 1–38.
Köller, Wilhelm (2004): Perspektivität und Sprache. Zur Struktur von Objektivierungsformen in Bildern, im Denken und in der Sprache. Berlin: de Gruyter.
Modellierung eines Wörterbuchs einer in der IT-basierten Linguistik unterrepräsentierten außereuropäischen Sprache als Linguistic Linked Open Data
Das Tamil Lexicon (TL) der Madras University ist ein von 1924-1939 in sechs Bänden und einem Nachtragsband erschienenes historisch-literarisches Wörterbuch und bis heute das umfangreichste lexikographische Werk der südindischen Tamilsprache mit 117801 Einträgen. Seither sind lediglich Einzeluntersuchungen und Spezialwörterbücher erschienen, so dass umfassende Fortschritte in der Tamil-Lexikographie nur auf der digitalen Erschließung dieses komplexen zweisprachigen WB aufbauen können. Das Wörterbuch ist Bestandteil der Cologne Digital Sanskrit Dictionaries (https://www.sanskrit-lexicon.uni- koeln.de/) und somit online verfügbar, gilt aber bereits als “deprecated” und erlaubt nur rudimentäre Suchanfragen an den Datenbestand über ein Web-Frontend. Eine weitere Version des Datenbestands ist online unter der URL https://dsal.uchicago.edu/dictionaries/tamil-lex/ verfügbar, aber weder der direkte Zugriff auf die Daten über Schnittstellen noch Daten-Downloads werden dort angeboten.
Die Wörterbuch-Rohdaten liegen als 20 MB umfassendes, in den 1990er Jahren entstandenes Volltext-Digitalisat vor, in dem die Seiten- und Textstruktur mit proprietären Tags vollständig markiert wurde.
Im Rahmen des geplanten Projekts sollen diese zwar strukturierten, aber nicht in einem offenen Schema/Format vorhandenen Daten in einem ersten Schritt konvertiert werden: Als Zielformat kommt das lemon (The Lexicon Model for Ontologies https://lemon-model.net) RDF-Format zum Einsatz.
Darauf aufbauend soll ein benutzerfreundliches User Interface (UI) erstellt werden, das im Vergleich zu den Cologne Digital Sanskrit Dictionaries und dem Chicago tamil-lex Projekt neue, deutlich erweiterte Funktionalitäten aufweisen wird:
● Verlinkung der TL-Einträge mit entsprechenden Einträgen in Online-Sanskrit- Wörterbüchern.
● Erschließung der literarischen Quellen und Zitate durch Verbindung der zahlreichen Belege aus der klassischen tamilischen Literatur mit dem vorhandenen digitalen Textkorpus.
● Erschließung von Sachgebieten, wie Botanik, Medizin, Epigraphik, Geographie, Geschichte, Religion etc., die eine Generierung von speziellen Vokabularien ermöglichen soll.
● Erweiterungsmodule, die Kommentierung, Verbesserung und Erweiterung von Einträgen bzw. Neueinträge ermöglichen.
Die API erlaubt darüber hinaus maschinenlesbaren Zugriff auf den Datenbestand sowie eine maschinelle Nachnutzung der Daten durch Integration der API in Preprocessing-Workflows, bspw. Lemmatisieren, sowie zur Annotation digitaler Editionen und audiovisueller Materialien. Die Vergabe von URIs für jeden Wörterbucheintrag ermöglicht den Aufbau von projektübergreifenden Wort-Netzwerken sowie föderierter Suchanfragen; die hier generierten Daten werden darüber hinaus ein Baustein der “Linguistic Linked Open Data“ (LLOD) cloud http://linguistic-lod.org/ und sorgen für eine größere Pluralität des Datenbestands.
Alle Daten und Services werden der Fachcommunity unter einer offenen CC BY Lizenz zur Verfügung gestellt.
The poster demonstrates how – within a very short time – LLMs underpinning text-generation and machine translation have become powerful agents for new types of language standardisation. As regards Standard English, LLMs help to entrench North American standards world-wide, although it needs to be borne in mind that the norms engineered into the algorithms do not fully correspond to traditional prescriptive notions of educated usage. As several studies have shown (e. g. Bender et al. 2021, Blaschke et al. 2024, Liu et al. 2024), LLMs tend to discriminate against small and technologically less well-resourced languages and against nonstandard varieties of the larger and well-resourced languages. To this list of targets of potential discrimination the present poster adds Standard British English, currently still one of the two global reference standards for English usage in the offline world. Other current and emerging standard varieties of the pluricentric global language tend to have more limited geographical reach and/or less international prestige and are therefore likely to fare even worse. On the other hand, LLMs can be shown to be a very friendly environment for at least some nonstandard varieties of English and multilingual practices involving English, especially when – as is the case for Jamaican Creole or ‘Spanglish’ – they are associated with the global media and entertainment industries. The poster demonstrates the resulting standardisation paradox for English. It is very likely, though, that similar developments are affecting other pluricentric languages, as well.
References:
Vor dem Hintergrund der rasant fortschreitenden Entwicklung der Large Language Models (LLMs) sieht sich das NFDI-Konsortium Text+ in der Rolle, Perspektiven für die Einsatzmöglichkeiten generativer Sprachmodelle und Transformermodelle in der Wissenschaft aufzuzeigen. Mit beträchtlichen Beständen an Sprach- und Textdaten in seinen Datenzentren sowie leistungsfähigen Rechenzentren in den Reihen seiner Partnerinstitutionen erscheint Text+ prädestiniert, sich des Themas innerhalb der NFDI anzunehmen.
Seit Ende 2023 berät die Task Force Große Sprachmodelle innerhalb von Text+ über Nutzen und Potential von LLMs in der Forschung und die Angebote, die Text+ hierzu beisteuern kann. Die Task Force hat sich zum Ziel gesetzt, Anwendungen und Dienste für die Text+ Communities zur Verfügung stellen, die auf LLMs zurückgreifen. Darüber hinaus wollen die Text+ Zentren gezielt Sprach- und Textressourcen qualitativ für das Training von Sprachmodellen aufbereiten. Modelle (Fine-Tuning vortrainierter Modelle oder RAG) für spezifische Aufgaben sollen von Text+ ebenso bereitgestellt werden wie Ressourcen – also Daten und Rechenleistung – für das Fine-Tuning von Modellen durch Forschende. Ferner will Text+ ausloten, wie Material mit (urheber-)rechtlichen Zugangsbeschränkungen in LLMs integriert werden kann, ob und wie LLMs mit abgeleiteten Textformaten trainiert werden können und für welche Forschungsfragen LLMs geeignet sind.
Dieses Poster skizziert die oben genannten Ziele von Text+ im Hinblick auf LLMs und exemplifiziert diese anhand folgender konkreter Use Cases, die sukzessive umgesetzt werden sollen.
Einleitung
Dieser Beitrag präsentiert erste Ergebnisse des Text+ Kooperationsprojekts zur automatischen Extraktion von Tabellendaten aus historischen Zeitschriften. In diesem Projekt soll am Beispiel der historischen Zeitung “Swinemünder Badeanzeiger” eine Software-Pipeline zur automatischen Extraktion von Tabellendaten aus gescannten Zeitungen entwickelt werden. Der Swinemünder Badeanzeiger erschien zwischen 1910 und 1932 zwei- bis sechsmal wöchentlich und informierte Leser im damaligen drittgrößten deutschen Ostseebad auf Usedom darüber, welche Familien und Persönlichkeiten zu Gast waren. So finden sich in den Tabellen beispielsweise Einträge zu Lyonel Feiniger, der am 12. September 1928 zusammen mit seinem Sohn Andreas Feiniger in Wiends Hotel, sowie Prinz Heinrich von Preußen mit weiteren 14 Personen im Gefolge am 5. Juni 1915 im Hotel zum Walfisch zu Besuch waren.
Datenumfang
Insgesamt liegen in der digitalen Bibliothek Greifswald 4227 gescannte Seiten des Swinemünder Badeanzeigers vor. Erste Schätzung haben ergeben, dass sich auf diesen Seiten insgesamt ca. 6600 Tabellen mit jeweils 50-60 Einträgen befinden, wobei ein Eintrag neben dem Namen, der sozialen Stellung und einer Auflistung der Begleitung auch den Herkunftsort und die hiesigen Wohnort enthält. Auf Basis dieser Schätzungen werden Einträge zu mindestens 400.000 dokumentierten Gästen erwartet. Die Einträge sind in Tabellen angegeben, die sich über die verschiedenen Ausgaben hinweg zum Teil deutlich unterscheiden. Während die Ausgaben von 1910 Spalten zu “Nummer”, “Name und Stand”, “Wohnort”, “Wohnung” und “Personenanzahl” enthalten, sind in späteren Ausgaben dieselben Informationen nur noch in zwei Spalten zu persönlichen Informationen und Anzahl unterteilt.
Datenextraktion und Strukturierung
In Vorbereitung der automatischen Extraktion wurden umfangreiche manuelle Annotationsarbeiten auf einer repräsentativen Datenauswahl vorgenommen. So wurden im ersten Schritt die Tabellenrahmen mithilfe des Annotationstools Labelme annotiert. In darauffolgenden Schritten wurden die in den Tabellenzeilen enthaltenen Informationen manuell transkribiert und anschließend strukturiert. Für der Strukturierung wurden die folgenden Kategorien identifiziert: Vorname, Nachname, Titel, Beruf, Sozialer Stand, Begleitung, Wohnort, Wohnung, Personenanzahl. Hintergrund der aufwändigen Annotation ist es, sowohl jeden Schritt der Softwarepipeline einzeln, als auch alle Schritte zusammen (End-to-End) evaluieren zu können, um objektive Aussagen zur erwartbaren Datenqualität treffen zu können.
Basierend auf den annotierten Daten wurden die folgenden Schritte durchgeführt:
Vorläufige Ergebnisse
Die Evaluation der Schritte 1-3 wurde durch einen Train-Test Split vorgenommen. Bei der Segmentierung der Tabellen wurde einen Average Precision von 0.98 auf den Testdaten erreicht. Die Frakturtexterkennung der unterschiedlichen OCR-Modelle erreichte Character Error Rates zwischen 0.07 und 0.19, welche durch die LLM-basierte Korrektur auf unter 0.05 reduziert werden konnte. Ergebnisse zur Datenstrukturierung auf der Testmenge liegen noch nicht vor, erste Ergebnisse auf den Trainingsdaten deuten aber sehr gute Ergebnisse an. Zukünftige Schritte beinhalten die End-to-End Evaluation, sowie die Disambiguierung und Verlinkung der extrahierten Informationen.
Die UB Bern, ZHB Luzern, ZB Zürich und UB Basel digitalisieren in Zusammenarbeit mit Google Books mit rund 300.000 Bänden einen großen Teil ihrer Bestände von 1700 bis 1900. Dieser digitale Bestand soll neben der Zugänglichkeit auf Google Books neue Möglichkeiten für die digitale und datengetriebene Forschung und Lehre bieten.
Die zentrale Frage ist dabei, wie Bibliotheken als Kultur- und Gedächtnisinstitutionen eine relativ generische Infrastruktur im digitalen Raum anbieten können, die dennoch flexibel genug für ganz spezifische Forschungsfragen und -methoden sein kann und auch die notwendige Transparenz und Persistenz für die Arbeit mit den diversen Datenformen, wie Metadaten, Strukturdaten, Volltext und Bilddaten, bietet.
Gegenwärtig befassen sich institutionsübergreifende Arbeitsgruppen mit vier verschiedenen Aspekten:
Basierend darauf sollen Szenarien entwickelt werden, wie der Bestand, abseits von dem Zugang auf Google Books, zur Verfügung gestellt werden könnte. Dies kann von einfachen Datendumps bis hin zu einer komplexen TDM Umgebung reichen.
Das Vorprojekt ist für die Bibliotheken ebenfalls eine Chance zu experimentieren, welche Möglichkeiten grosse Volltext-Bestände (90 Millionen Seiten) für ihre Rolle im aktuellen Large Language Model (LLM) Hype bieten, in dem diese eine Lösung für so vieles zu sein scheinen. So könnten Bibliotheken hier eine Brücke für die Nutzung von High Performance Computing (HPC) Infrastrukturen, etwa für die Geisteswissenschaften bieten, wodurch auch die Rolle der Data Librarians nochmal einen neuen Zuschnitt erhalten würde.
Während in diesem Bereich viel Potential existiert, stellt die Kerndomäne der Bibliotheken, die Metadaten, eine Herausforderung dar. Ist doch in den meisten Bibliotheken der Bestand von 1700 bis 1900 nur wenig detailliert erschlossen, wodurch es schwer ist, diesen inhaltlich zu beschreiben. Ein zentraler Fokus im Bereich Daten und Anreicherung liegt daher auch darauf, welche Möglichkeiten existieren, um diesen heterogenen Bestand besser für die Forschung greifbar zu machen. Sind doch meist einzelne Subkorpora, die sich oft über Themen, Gattung oder Entitäten definieren, von Relevanz. Unsere Zugänge reichen hier von aussagekräftigen Visualisierungen der vorhanden Metadaten (bzw. der Leerstellen), gedruckten Signatur-Themen Konkordanzen, die von LLMs zu strukturierten Anreicherungen verarbeitet werden, hin zum Testen, ob nicht OpenSource LLMs auf HPC Infrastrukturen neue Einblicke und Anreicherungen für diesen Bestand liefern könnten.
Wir möchten das Poster daher gerne nutzen, die Ergebnisse des Vorprojekts vorzustellen und mit Text+ Partnern über Ihre Erfahrungen in Austausch zu treten und gleichzeitig unsere ersten praktischen Erfahrungen beim Bauen der Brücken und der Nutzung unserer lokalen HPC Infrastruktur vorzustellen.
In den Computational Literary Studies ist der Einsatz von KI-Sprachmodellen mittlerweile etabliert, um verschiedene Fragestellungen, die mit regelbasierten Methoden schwer zu fassen sind, zu untersuchen. Es zeigt sich, dass noch immer traditionelle Sprachmodelle wie BERT (Devlin et al., 2019) als Basis für Machine Learning-Modelle im Gegensatz zu large language models (LLMs) aus verschiedenen Gründen genutzt werden. Diese reichen von Verfügbarkeit von Rechenleistung für die Nutzung von state-of-the-art LLMs bis hin zu dem hartn¨ackigem Problem der Reproduzierbarkeit und (noch schwereren) Nachvollziehbarkeit.
Ein für die meisten Projekte typisches Problem, das häufig auftritt, ist das Fehlen von hochqualitativen Trainingsdaten, in denen komplexe literarische Phänomene operationalisiert werden. Diese werden in solchen Fällen mittels manueller Annotation erstellt, was ein zeitintensiver und anspruchsvoller Prozess. In den meisten Fällen müssen mehrere Expert:innen-Annotator:innen trainiert werden, was neben einem zeitlichen Aufwand auch finanzielle Ressourcen belastet. Eine m¨ogliche L¨osung ist das Erstellen von synthetischen Trainingsdaten mittels LLMs. Für unser Poster untersuchen wir, in wie fern sich aktuelle open source LLMs wie llama7B (Ai@Meta, 2024) anbieten, synthetische Trainingsdaten zu generieren. Mit diesen synthetischen Daten werden eine Reihe von empirischen Experimenten durchgeführt, mit denen empierisch analysiert wird, wie gut die Qualität dieser Daten für das Trainieren von Modellen ist.
Die synthetischen Traininsgdaten werden per one-shot und few-shot prompting (see Brown et al., 2020, p.7) mit promts aus einem manuell annotiertem Datensatz erstellt. Dadurch wird auch überprüft, in wie weit open source LLMs in der Lage sind, mit literarischen Texten, hier spezifisch deutsch-schweizer Texten aus dem 19. und 20. Jahrhundert, umzugehen.
Als Anschaunugsbeispiel soll ein Modell dienen, das zum einen non-named spatial entities (NNSE) erkennt und zum anderen diese in verschiedene Typen einordnen kann. Hierbei handelt es sich um textimmanente Entitäten, die sich theoretisch auf einer Karte verorten lassen würden, aber keinen eigenen Namen haben (z.B. Tisch, Kirche, Berg). Es gibt insgesamt drei verschiedene Typen von NNSE: urban, rural und natural, die von Grisot and Herrmann (2023) etabliert wurden.
Als baseline wird je ein Modell ausschließlich auf Basis der manuellen Annotation trainiert: einmal für die Erkennung von NNSE und einmal für die zusätzliche Kategorisierung in die drei Typen. In weiteren Experimenten werden zu der manuellen Annotation der beiden Modelle synthetische Trainingsdaten hinzugefügt, die mit llama7B erstellt wurden. Dabei wird das Verhältnis von synthetischen zu manuellen Daten graduell erhöht. Für einen empirischen Vergleich sollen jeweils die F1-scores der Modelle verglichen werden.
Das Poster teilt sich demnach in zwei große Abschnitte. Im ersten Abschnitt wir erläutert, wie die synthetischen Daten erstellt wurden, im zweiten wird empirisch analysiert, in wie fern synthetische Traininsgdaten die Performanz von Machine Learning-Modellen beeinflusst.
References
Ai@Meta. Llama 3 Model Card, 2024. URL https : //github.com/meta − llama/llama3/blob/main/MODEL CARD.md.
T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language Models are Few-Shot Learners. 2020. URL http://arxiv.org/abs/2005.14165.
J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. URL http://arxiv.org/abs/1810.04805.
G. Grisot and B. Herrmann. Examining the representation of landscape and its emotional value in German-Swiss fiction between 1840 and 1940. 8(1), 2023. ISSN 2371-4549. doi: 10.22148/001c.84475.
M. K. Schumacher. Orte und Räume im Roman. Ein Beitrag zur digitalen Literaturwissenschaft. J. B. Metzler, 2023.
AI as a Service
Text- and language-based humanities offer extensive use-cases for Large Language Models(LLMs). Text+ currently facilitates access to research data via the Text+ Registry, FederatedContent Search (FCS), and contributing partner’s data repositories. Through GWDG, a nationalhigh-performance computing and AI center, an additional web service will be made available onthe Text+ website providing free access to open-source and custom fine-tuneable LLMs like(Meta) LLaMA, Mixtral, Qwen, and Codestral as well as Open-AI’s Chat-GPT [1].
Text+ aims to be the first NFDI consortium to host an LLM service to its user base ensuringto meet the need of researchers that their data remain private and are not stored without theirconsent [2]. Especially when dealing with sensitive and/orcopyrighted materials, this added emphasis on necessary data protection is met here.
Implementation and Advantages
The LLM service enables users to create, edit and delete custom LLMs. A collaborations sectionallows users to invite collaborators to chat with the custom LLMs. The service offers free use ofvarious open-source models, a sources section on generated answers for users to check andenable citations, retrieval-augmented generation on personal documents, and compliance withlegislative requirements and user privacy interests. Currently, the service is available for projectparticipants who log in via Academic Cloud [3]. The serviceexcels at ensuring that no user related data is transferred externally with the ppen source LLMsas the host servers are GWDG’s [4]. With Open AI’s Chat-GPT,no single user related data is externally transmitted, as the current implementation makes allusers appear as one.
(Future) Use Cases
Within the context of Text+, the service is planned to assist in various domains. Datapreprocessing using Named Entity Recognition (NER), providing APIs with external portsopening in a GPU-supported runtime environment for Docker containers and context knowledgevia Entity Linking are covered. Additional scenarios, to name just a few, include FederatedContent Search backing query formulation based on natural language descriptions, GermaNetentries improvement by generating example sentences, historical normalization throughseq2seq transformer models, and APIs for components offering neural models such as speechreproduction and event detection.
Feedback
As an agile development, the LLM service aims to undergo constant enhancement regardingfunctionality and accessibility over time, with feedback from users playing a major role. Userswill therefore be asked to use the contact form [5] to providetheir experiences and suggestions. Also, this service is just the first step towards a growingnumber of offerings related to LLMs.
References
https://kisski.gwdg.de/leistungen/2-02-llm-service/
Cf. https://www.researchgate.net/publication/381883055_Chat_AI_A_Seamless_Slurm-Native_Solution_for_HPC-Based_Services
https://academiccloud.de/
Cf. https://datenschutz.gwdg.de/services/chatai
https://text-plus.org/helpdesk/#kontaktformular
Ein vielversprechender Einsatzzweck für LLMs ist die automatische Beantwortung von Fragen. Halluzinationen, Intransparenz bzgl. der Quellen zur Antwortgenerierung sowie fehlende Aktualität der Trainingsdaten erschweren jedoch den produktiven Einsatz vor allem in Spezialdomänen (vgl. Ji et al., 2023) wie beispielsweise der deutschen Grammatik.
Retrieval Augmented Generation (RAG) ist eine vielversprechende Methode, um diese Schwächen abzumildern (bspw. Ram et al., 2023), indem dem generierenden Modell relevante Kontextinformationen zur Verfügung gestellt werden. In der einfachsten Form (Naives RAG) werden diese Informationen per Similarity Search zwischen den Embeddings einer User Frage (Prompt) und den Embeddings von domänenspezifischen Dokumenten aus einer Vektordatenbank extrahiert.
Lang et al. (erscheint 2024) zeigen in einer Pilotstudie, dass Naives RAG die Qualität der automatisch generierten Antworten auf Fragen zur deutschen Grammatik verbessert. Dies trifft jedoch nur auf einen von zwei für diese Domäne typischen Hauptfragetypen zu, nämlich auf Definitionsfragen wie (1) Was sind Abtönungspartikeln?. Gebrauchsfragen dagegen, z. B. (2) Schreibt man Onlineshop oder Online-Shop? und damit der typische Fragetyp interessierter Laien, zeigen hier eine schlechtere Antwortqualität. Ein Grund dafür ist, dass saliente terminologische Elemente, die entscheidend für erfolgreiches Retrieval aus der Vektordatenkbank sind, in Gebrauchsfragen selten auftauchen. Stattdessen finden sich in Gebrauchsfragen vornehmlich Sprachobjekte (Onlineshop, Online-Shop in (2)).
Unser Beitrag präsentiert eine Lösung für diese Problematik: Der Einsatz von mehreren Agenten (bspw. Nan et al., 2024) im RAG-Workflow zur Anbindung geeigneter domänenspezifischer Ressourcen/Tools. Diese Agenten übernehmen (zumeist via Fewshot-Prompting) schrittweise spezialisierte Aufgaben (u. a. die Einordnung in Fragetypen) und stellen die Weichen für die weitere Bearbeitung im Gesamtprozess (Routing, vgl. Jeong et al. 2024). So werden bspw. Gebrauchsfragen zur Rechtschreibung per API der Korpusanalyseplattform KoRAP (Diewald et al., 2016) an das deutsche Referenzkorpus DeReKo (Kupietz et al., 2023) angebunden. Unsere Implementierung verwendet für Agenten und Antwortgenerierung das derzeit leistungsstärkste Open Source LLM Llama 3 (8B, 4bit Quantisierung) via Ollama. Der Workflow gestaltet sich folgendermaßen:
Erste Auswertungen dieses als Proof of Concept implementierten Workflows zeigen nicht nur eine erhöhte Qualität für Definitionsfragen, sondern speziell auch für Rechtschreib-Gebrauchsfragen. Daher erscheint die zukünftige Anbindung weiterer IDS-Ressourcen für andere Fragetypen als vielversprechendes Unterfangen.
Literaturverzeichnis
Nils Diewald, Michael Hanl, Eliza Margaretha, Joachim Bingel, Marc Kupietz, Piotr Bański, and Andreas Witt. 2016. KorAP Architecture ― Diving in the Deep Sea of Corpus Data. In Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), pages 3586–3591, Slowenien. European Language Resources Association (ELRA).
Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park. 2024. Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity. https://arxiv.org/abs/2403.14403
Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Ye Jin Bang, Andrea Madotto, and Pascale Fung. 2023. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12):1–38.
Marc Kupietz, Harald Lüngen, and Nils Diewald. 2023. Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo. In Arnulf Deppermann, Christian Fandrych, Marc Kupietz, and Thomas Schmidt, editors, Korpora in der germanistischen Sprachwissenschaft, pages 1–28. De Gruyter.
Christian Lang, Roman Schneider, and Ngoc Duyen Tanja Tu. erscheint 2024. Automatic question answering for the linguistic domain – An evaluation of LLM knowledge base extension with RAG. In Amon Rapp, Luigi Di Caro, Farid Meziane, and Vijayan Sugumaran, editors, Natural Language Processing and Information Systems, A Springer Nature Computer Science book series. Springer Nature Switzerland AG.
Linyong Nan, Ellen Zhang, Weijin Zou, Yilun Zhao, Wenfei Zhou, and Arman Cohan. 2024. On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering. In Findings of the Association for Computational Linguistics: NAACL 2024, pages 4556–4579, Mexico City, Mexico. Association for Computational Linguistics.
Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, and Yoav Shoham. 2023. In-Context Retrieval-Augmented Language Models. Transactions of the Association for Computational Linguistics, 11:1316–1331.
Die Fortschritte in der Entwicklung großer Sprachmodelle und deren Popularisierung sowie breite Anwendbarkeit durch kommerzielle Angebote wie OpenAIs Produktportfolio (ChatGPT) haben das Potenzial zu einer grundlegenden Neugestaltung von Arbeitsprozessen bei der Erstellung sowie bei der Nutzung von digitalen Wörterbüchern. So belegen Studien [1] für Lernerwörterbücher bereits, dass in Lese- und Verständnistests Studierende unter Zuhilfenahme klassischer Lernerwörterbücher gegenüber einem GPT-basierten Chatsystem nicht nur keine besseren Testresultate erzielen, sondern teilweise sogar schlechter abschneiden. Unklar ist derzeit noch, ob sich diese Resultate auch für große einsprachige Wörterbücher übertragen lassen, die im Unterschied zu Lernerwörterbüchern viele seltene Phänomene (Lesarten, Register, Belegkontexte) verzeichnen. Hier ist die Ausgangslage weniger klar [2]. Dementsprechend wollten wir das Potenzial von GPTs und LLM-basierten Verfahren für die Optimierung der eigenen Arbeit im DWDS ausloten. Dabei liegt für die Erstellung von Bedeutungswörterbüchern wie dem DWDS das unmittelbar größte Optimierungspotenzial in der Unterstützung bei der zeitaufwändigen Recherche für bzw. der Formulierung von Definitionsparaphrasen. Wir wollten herausfinden, ob sich dieses Potenzial ähnlich schnell belegen oder gar ausschöpfen lässt wie bei Lernerwörterbüchern.
Hierzu verwenden wir per API ein geschlossenes sowie im Vergleich ein frei verfügbares, lokal betriebenes GPT-Sprachmodell, um per Few-Shot Prompting Definitionsparaphrasen für mehr als 100 Begriffe (monosem, polysem und/oder hoch- bzw. niedrigfrequent in den Korpora des DWDS) generieren zu lassen. Von 25 Studienteilnehmern (professionelle Lexikographinnen und Lexikographen und Studierende) wurden die generierten Paraphrasen hinsichtlich ihrer Korrektheit, Verständlichkeit, ihrem Informationsgehalt sowie des möglichen Halluzinationsgrads bewertet. Die Bewertung erfolgte jeweils entweder vergleichend bezogen auf eine entsprechende, dem DWDS entnommene Definition, oder “blind”, d. h. ohne Bezug auf eine solche Referenz. Zudem wurden die Probandinnen und Probanden aufgefordert, bei der Bewertung keine sonstigen Hilfsmittel zum Verständnis der vorliegenden Begriffe einzusetzen, sondern die Entscheidung einzig und allein auf der Grundlage ihrer eigenen sprachlichen Intuition vorzunehmen.
Unsere im Poster präsentierte Auswertung der Studienergebnisse liefert Aussagen zu qualitativen Unterschieden der beiden genutzten Sprachmodelle, zur Behandlung von Mehrdeutigkeit sowie zum Einfluss von Experten- und Hintergrundwissen auf die Bewertung von generierten Definitionen und auf die Erkennung von Halluzinationen. Insbesondere Halluzinationen, korrekt erscheinende, aber faktisch falsche Definitionen, so ein Studienergebnis, stellen unabhängig vom Vorwissen der Wörterbuchnutzer ein grundsätzliches Problem dar, das die Verlässlichkeit generierter Definitionen und die Notwendigkeit ihrer Überprüfung und Überarbeitung betrifft. Daher bieten wir ferner einen Einblick in eine Anschlussstudie, bei der wir das Few-Shot Prompting um Verfahren der Retrieval-Augmented Generation (RAG) ergänzen. Indem einem Prompt zusätzlich ausgewählte Verwendungsbeispiele für den zu definierenden Begriff aus unseren Korpora beigegeben werden, erhalten wir im Ergebnis oft treffende, besser verwendbare Definitionen, was insbesondere bei der Bearbeitung von Fachwortschätzen unter Verwendung themenspezifischer Korpora zu einer erheblichen Zeit- und Arbeitsersparnis führt. Wir illustrieren diesen Befund anhand von Wörtern und Wendungen, wie beispielsweise Tiki-Taka, VAR oder ruhender Ball, die Teil eines umfangreichen DWDS-Glossars zur diesjährigen Fußball-Europameisterschaft waren, das also unter Zuhilfenahme von KI-Verfahren erstellt wurde.
References
Rees, Geraint Paul; Lew, Robert: The Effectiveness of OpenAI GPT-Generated Definitions Versus Definitions from an English Learners’ Dictionary in a Lexically Orientated Reading Task, in: International Journal of Lexicography, 13.12.2023. Online: https://doi.org/10.1093/ijl/ecad030.
Miloš Jakubíček, Michael Rundell: The end of lexicography: Can ChatGPT outperform current tools for post-editing lexicography? (Proceedings. elex 2023: p 518-533)
Die Postersession mit flankierender System Demonstration der Text+ RAGestry (https://fdm.awhamburg.de/ragestry) führt in die Methoden der Retrieval Augmented Generation (im folgenden RAG), also der Nutzung eigener Datenquellen in Verbindung mit LLM-Technologie, ein. Dabei sollen sowohl die Potenziale eines Zugangs zu Diensten aus Infrastrukturprojekten als auch des disziplinspezifischen Einsatzes von RAG bei der Analyse sprachlicher Ressourcen gezeigt werden.
Beispielhaft zu nennen sind in diesem Zusammenhang:
Zum Zweck der besseren Nachvollziehbarkeit wird die Präsentation eine visuelle Einführung in die Prinzipien der RAG beinhalten, die vor allen Dingen eine Abgrenzung zu anderen Methoden der Anpassung von LLMs, insbesondere dem Fine-Tuning und Prompt Engineering vornimmt.
Darauf aufbauend werden die zentralen Grundbegriffe und Teilschritte der Konzeption und Implementierung eines RAG-Systems, von der Auswahl und Strukturierung der eigenen Datenbasis, der Erstellung von Embeddings durch Vektorisierung, der Wahl geeigneter LLMs für Embedding und Retrieval bis hin zur finalen Anpassung des Systems vorgestellt.
Begleitend findet eine System Demonstration der prototypisch implementierten Text+ RAGestry, einem RAG-basierten Zugang zur Text+ Registry statt, die von Besuchenden praktisch erprobt werden kann.
Auch wenn die großen Entwicklungssprünge der Large Language Models (LLMs) noch nicht lange zurückliegen, wird ihr Potenzial für die Wissenschaft – und insbesondere die Digital Humanities – von vielen Forschenden als bahnbrechend eingeschätzt. Für das NFDI-Konsortium Text+stelltsichdaherdieFrage,wieesaktivzurEntwicklungundNutzunggroßerSprachmodelle beitragen kann. Die konsortiumsinterne Task Force Große Sprachmodelle diskutiert diese Frage bereits intensiv.
Doch wie werden LLMs in der erweiterten Fachcommunity wahrgenommen, genutzt und welche Bedarfe kristallisieren sich heraus? Welche Chancen und Herausforderungen erkennen Expert:innen verschiedener Fachbereiche in der Entwicklung und Anwendung von LLMs? Diese Fragen wurden – neben weiteren Themenfeldern – im Rahmen einer Community-Befragung der Text+ AG Innovation and Software Services mit Expert:innen verschiedener Fachbereiche erörtert.
Zehn Interviews wurden mit Expert:innen aus Fachrichtungen durchgeführt, in denen Text-as- data-Ansätze zentral sind (Korpus- und Computerlinguistik, Digital Humanities), sowie aus Disziplinen, in denen dies weniger stark der Fall ist (Philosophie, Sozialwissenschaften, Theaterwissenschaften, Kunstgeschichte). In den halbstrukturierten leitfadengestützten Interviews setzten die Interviewenden einerseits thematische Impulse, ließen andererseits aber viel Raum für die eigenen Darstellungen und Einschätzungen der befragten Personen, der auch Abwägungenunduneindeutige Antworten zuließ.
Neben Fragen zur alltäglichen Nutzung von Tools und Bedarfen zur Text- und Sprachdatenanalyse wurden die Beteiligten zu ihrer Einschätzung von LMs bzw. LLMs befragt. Nutzen sie diese bereits für ihre Forschung? Sehen die Expert:innen darin Potenziale für die deutsche Wissenschaftslandschaft und wenn ja, welche? Welche Hürden und Fallstricke werden identifiziert und welche Bedarfe ergeben sich daraus? Das Poster widmet sich den skizzierten Fragen, stellt die Antworten überblicksartig dar und leitet Handlungsbedarfe für Text+ ab.
So sahen die Befragten die größten Herausforderungen bei der wissenschaftlichen Nutzung großer Sprachmodelle im Mangel an Zuverlässigkeit und Reproduzierbarkeit der Ergebnisse. Ebenfalls problematisch schätzten sie die Intransparenz sowohl der Funktionsweise als auch der zugrundeliegenden Trainingsdaten von LLMs ein. Darüber hinaus wurden häufig die zum Teil erheblichen Kosten für die Nutzung kommerzieller LLMs wie ChatGPT angeführt sowie die oftmals unzureichende Rechenkapazität, die für eine intensive Nutzung künstlicher Intelligenz notwendig wäre.
Daraus ergab sich ein besonders häufig geäußerter Wunsch: der Zugang zu leistungsfähiger Rechnerinfrastruktur. Die Modelle, die für eine Forschung nach den Prinzipien guter wissenschaftlicher Praxis vonnöten wären, sollten idealerweise nicht-kommerziell und trotzdem mehrsprachigundperformantsein.Siesolltenstabile und reproduzierbare Ergebnisse ausgeben und sowohl datenschutzkonform als auch lokal genutzt werden können. Zudem sollten mindestensTrainingsdatentransparentsein.DarüberhinausbestehteinBedarfnachfürkonkrete Aufgaben trainierten Modellen (Transformermodelle
Auf Basis dieser Daten ergibt sich ein breites Handlungsfeld für Text+. Dieses reicht von der Bereitstellung einer Arbeitsumgebung mit entsprechender Rechenleistung über das Feintuning von Modellen bis zur Aufbereitung von Korpora für das spezifische Training von LLMs – etwa für historische Sprachformen, Dialekte oder unterrepräsentierte Sprachen.
Thema: Spezifikation und Einbindung von Ressourcen-spezifischen Fonts in die FCS-Architektur
Manche Ressourcen benötigen zur korrekten Darstellung der Ergebnisse spezielle Fonts. Beispiele sind historische Schreibweisen (z.B. "KompLett" Font im Wörterbuchnetz), noch nicht standardisierte Hieroglyphen (z.B. im Thesaurus Linguae Aegyptiae) und in der Private Use Area von UTF-8 kodierte Zeichen, wie sie nicht selten in der geisteswissenschaftlichen Forschung Anwendung gefunden haben/finden. Wir laden zur Diskussion eines ersten Modellierungsvorschlages ein und suchen weitere Anwendungsbeispiele und Bedarfe.