9–11 Oct 2024
Mannheim, Schloss
Europe/Berlin timezone

Posters: Text+ Plenary 2024

Angenommene Poster

Detaillierte Beschreibungen der Posterinhalte

More uniformity and more diversity at the same time: LLMs and a 21st century standardisation paradox

Christian Mair (Universität Freiburg)

The poster demonstrates how – within a very short time – LLMs underpinning text-generation and machine translation have become powerful agents for new types of language standardisation. As regards Standard English, LLMs help to entrench North American standards world-wide, although it needs to be borne in mind that the norms engineered into the algorithms do not fully correspond to traditional prescriptive notions of educated usage. As several studies have shown (e. g. Bender et al. 2021, Blaschke et al. 2024, Liu et al. 2024), LLMs tend to discriminate against small and technologically less well-resourced languages and against nonstandard varieties of the larger and well-resourced languages. To this list of targets of potential discrimination the present poster adds Standard British English, currently still one of the two global reference standards for English usage in the offline world. Other current and emerging standard varieties of the pluricentric global language tend to have more limited geographical reach and/or less international prestige and are therefore likely to fare even worse. On the other hand, LLMs can be shown to be a very friendly environment for at least some nonstandard varieties of English and multilingual practices involving English, especially when – as is the case for Jamaican Creole or ‘Spanglish’ – they are associated with the global media and entertainment industries. The poster demonstrates the resulting standardisation paradox for English. It is very likely, though, that similar developments are affecting other pluricentric languages, as well.

References:

  1. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. 2021. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610–623). New York: Association for Computing Machinery.
  2. Blaschke, V., Purschke, Ch., Schütze, H. &. Plank, B. 2024. What do dialect speakers want? A survey of attitudes towards language technology for German dialects. ArXiv preprint, abs/2402.11968.
  3. Liu, Ch., Gurevych, I. & Korhonen, A. 2024. Culturally aware and adapted NLP: A taxonomy and a survey of the state of the art. ArXiv:2406.03930v1 [cs.CL] 6 June.

Zurück nach oben


Synthetische Datensätze in der CLS

Daniel Kababgi (Universität Bielefeld), Emilie Sitter (Universität Bielefeld), Robin Martin Aust (Universität Bielefeld), Marie-Christine Boucher (Universität Bielefeld), Berenike Herrmann (Universität Bielefeld)

In den Computational Literary Studies ist der Einsatz von KI-Sprachmodellen mittlerweile etabliert, um verschiedene Fragestellungen, die mit regelbasierten Methoden schwer zu fassen sind, zu untersuchen. Es zeigt sich, dass noch immer traditionelle Sprachmodelle wie BERT (Devlin et al., 2019) als Basis für Machine Learning-Modelle im Gegensatz zu large language models (LLMs) aus verschiedenen Gründen genutzt werden. Diese reichen von Verfügbarkeit von Rechenleistung für die Nutzung von state-of-the-art LLMs bis hin zu dem hartn¨ackigem Problem der Reproduzierbarkeit und (noch schwereren) Nachvollziehbarkeit.

Ein für die meisten Projekte typisches Problem, das häufig auftritt, ist das Fehlen von hochqualitativen Trainingsdaten, in denen komplexe literarische Phänomene operationalisiert werden. Diese werden in solchen Fällen mittels manueller Annotation erstellt, was ein zeitintensiver und anspruchsvoller Prozess. In den meisten Fällen müssen mehrere Expert:innen-Annotator:innen trainiert werden, was neben einem zeitlichen Aufwand auch finanzielle Ressourcen belastet. Eine m¨ogliche L¨osung ist das Erstellen von synthetischen Trainingsdaten mittels LLMs. Für unser Poster untersuchen wir, in wie fern sich aktuelle open source LLMs wie llama7B (Ai@Meta, 2024) anbieten, synthetische Trainingsdaten zu generieren. Mit diesen synthetischen Daten werden eine Reihe von empirischen Experimenten durchgeführt, mit denen empierisch analysiert wird, wie gut die Qualität dieser Daten für das Trainieren von Modellen ist.

Die synthetischen Traininsgdaten werden per one-shot und few-shot prompting (see Brown et al., 2020, p.7) mit promts aus einem manuell annotiertem Datensatz erstellt. Dadurch wird auch überprüft, in wie weit open source LLMs in der Lage sind, mit literarischen Texten, hier spezifisch deutsch-schweizer Texten aus dem 19. und 20. Jahrhundert, umzugehen.

Als Anschaunugsbeispiel soll ein Modell dienen, das zum einen non-named spatial entities (NNSE) erkennt und zum anderen diese in verschiedene Typen einordnen kann. Hierbei handelt es sich um textimmanente Entitäten, die sich theoretisch auf einer Karte verorten lassen würden, aber keinen eigenen Namen haben (z.B. Tisch, Kirche, Berg). Es gibt insgesamt drei verschiedene Typen von NNSE: urban, rural und natural, die von Grisot and Herrmann (2023) etabliert wurden.

Als baseline wird je ein Modell ausschließlich auf Basis der manuellen Annotation trainiert: einmal für die Erkennung von NNSE und einmal für die zusätzliche Kategorisierung in die drei Typen. In weiteren Experimenten werden zu der manuellen Annotation der beiden Modelle synthetische Trainingsdaten hinzugefügt, die mit llama7B erstellt wurden. Dabei wird das Verhältnis von synthetischen zu manuellen Daten graduell erhöht. Für einen empirischen Vergleich sollen jeweils die F1-scores der Modelle verglichen werden.

Das Poster teilt sich demnach in zwei große Abschnitte. Im ersten Abschnitt wir erläutert, wie die synthetischen Daten erstellt wurden, im zweiten wird empirisch analysiert, in wie fern synthetische Traininsgdaten die Performanz von Machine Learning-Modellen beeinflusst.

References

  1. Ai@Meta. Llama 3 Model Card, 2024. URL https : //github.com/meta − llama/llama3/blob/main/MODEL CARD.md.
  2. T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language Models are Few-Shot Learners. 2020. URL http://arxiv.org/abs/2005.14165.
  3. J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. URL http://arxiv.org/abs/1810.04805.
  4. G. Grisot and B. Herrmann. Examining the representation of landscape and its emotional value in German-Swiss fiction between 1840 and 1940. 8(1), 2023. ISSN 2371-4549. doi: 10.22148/001c.84475.
  5. M. K. Schumacher. Orte und Räume im Roman. Ein Beitrag zur digitalen Literaturwissenschaft. J. B. Metzler, 2023.

Zurück nach oben


SwissGB4Science - ein Volltext Korpus für die Forschung

Eric Dubey (Universität Basel), Matteo Lorenzini (Universität Basel), Martin Reisacher (Universität Basel), Tim Rüdiger (Zentralbibliothek Zürich)

Die UB Bern, ZHB Luzern, ZB Zürich und UB Basel digitalisieren in Zusammenarbeit mit Google Books mit rund 300.000 Bänden einen großen Teil ihrer Bestände von 1700 bis 1900. Dieser digitale Bestand soll neben der Zugänglichkeit auf Google Books neue Möglichkeiten für die digitale und datengetriebene Forschung und Lehre bieten.

Die zentrale Frage ist dabei, wie Bibliotheken als Kultur- und Gedächtnisinstitutionen eine relativ generische Infrastruktur im digitalen Raum anbieten können, die dennoch flexibel genug für ganz spezifische Forschungsfragen und -methoden sein kann und auch die notwendige Transparenz und Persistenz für die Arbeit mit den diversen Datenformen, wie Metadaten, Strukturdaten, Volltext und Bilddaten, bietet.

Gegenwärtig befassen sich institutionsübergreifende Arbeitsgruppen mit vier verschiedenen Aspekten:

  • Erhebung der Bedürfnisse von Forschung und Lehre hinsichtlich umfangreicher digitaler Sammlungen von historischen Quellen
  • State-of-the-Art-Lösungen für die forschungsorientierte Erschließung großer historischer Textbestände
  • Analyse der Datenqualität und mögliche Datenanreicherung, wobei ein Hauptaugenmerk auch darauf gerichtet werden soll, zu beschreiben, welcher Teil digital vorhanden ist bzw. wie fehlende Digitalisate noch aus anderen Repositorien abgeglichen und angereichert werden können
  • Überprüfung vorhandener Infrastrukturen, welche nachgenutzt werden können

Basierend darauf sollen Szenarien entwickelt werden, wie der Bestand, abseits von dem Zugang auf Google Books, zur Verfügung gestellt werden könnte. Dies kann von einfachen Datendumps bis hin zu einer komplexen TDM Umgebung reichen.

Das Vorprojekt ist für die Bibliotheken ebenfalls eine Chance zu experimentieren, welche Möglichkeiten grosse Volltext-Bestände (90 Millionen Seiten) für ihre Rolle im aktuellen Large Language Model (LLM) Hype bieten, in dem diese eine Lösung für so vieles zu sein scheinen. So könnten Bibliotheken hier eine Brücke für die Nutzung von High Performance Computing (HPC) Infrastrukturen, etwa für die Geisteswissenschaften bieten, wodurch auch die Rolle der Data Librarians nochmal einen neuen Zuschnitt erhalten würde.

Während in diesem Bereich viel Potential existiert, stellt die Kerndomäne der Bibliotheken, die Metadaten, eine Herausforderung dar. Ist doch in den meisten Bibliotheken der Bestand von 1700 bis 1900 nur wenig detailliert erschlossen, wodurch es schwer ist, diesen inhaltlich zu beschreiben. Ein zentraler Fokus im Bereich Daten und Anreicherung liegt daher auch darauf, welche Möglichkeiten existieren, um diesen heterogenen Bestand besser für die Forschung greifbar zu machen. Sind doch meist einzelne Subkorpora, die sich oft über Themen, Gattung oder Entitäten definieren, von Relevanz. Unsere Zugänge reichen hier von aussagekräftigen Visualisierungen der vorhanden Metadaten (bzw. der Leerstellen), gedruckten Signatur-Themen Konkordanzen, die von LLMs zu strukturierten Anreicherungen verarbeitet werden, hin zum Testen, ob nicht OpenSource LLMs auf HPC Infrastrukturen neue Einblicke und Anreicherungen für diesen Bestand liefern könnten.

Wir möchten das Poster daher gerne nutzen, die Ergebnisse des Vorprojekts vorzustellen und mit Text+ Partnern über Ihre Erfahrungen in Austausch zu treten und gleichzeitig unsere ersten praktischen Erfahrungen beim Bauen der Brücken und der Nutzung unserer lokalen HPC Infrastruktur vorzustellen.

Zurück nach oben

Empowering AI Knowledge Management: A Community-Organizing Approach to Enhance Fidelity and Quality through Authority File Use in Metadata

Barbara Fischer (Deutsche Nationalbibliothek)

This poster delves into the critical role of authority files in advancing AI-based knowledge management, focusing on the context of the German National Library's (DNB) efforts. Authority files of the Gemeinsame Normdatei (https://gnd.network/Webs/gnd/EN/Home/home_node.html) serve as the cornerstone for successful information retrieval, interoperability, and the overall effectiveness of AI applications, such as chatbots. At the DNB for instance we explore how leveraging curated and high-quality datasets from library collections can enhance the deep learning processes of Large Language Models, fostering the development of sophisticated AI tools. In another project, we are currently researching the potential and challenges of Artificial Intelligence (AI) in automatic cataloguing.

Highlighting the challenges, the poster emphasizes the necessity of a community-organizing approach to address the multifaceted issues surrounding the modernisation of the authority record basic concept. Recognizing that reliable authority records demand a diverse range of expertise not solely present within libraries, the DNB advocates for active participation from various expert communities. Moreover, using authority records assumes that they are known, available and their benefits are understood. The poster illustrates pathways for collaborative engagement, demonstrating how an inclusive infrastructure facilitates the co-creation and enrichment of authority records. This includes a platform for the RDA DACH (https://sta.dnb.de/doc/RDA) rule set, that is participatory and a new visual web service for GND research, the GND Explorer (https://explore.gnd.network).

The research underscores that the success of AI applications is intricately tied to the quality and diversity of underlying data, emphasising the significance of standardization and harmonization through authority records. Ultimately, the poster asserts that the community-organizing approach is paramount in improving the abundance and richness of authority records and fostering widespread acceptance and utilisation within scientific communities, ensuring the gold standard for AI-based information management in libraries today and the future.

Zurück nach oben

Anwendungen und Methoden der Abgeleiteten Textformate (ATF) im Kontext von LLMs

Florian Barth (Georg-August-Universität Göttingen), José Calvo Tello (Georg-August-Universität Göttingen), Keli Du (Universität Würzburg), Philippe Genêt (Deutsche Nationalbibliothek), Peter Leinen (Deutsche Nationalbibliothek), Jörg Knappen (Universität des Saarlandes), Thorsten Trippel (Leibniz-Institut für Deutsche Sprache), Andreas Witt (Leibniz-Institut für Deutsche Sprache)

In diesem Poster präsentieren wir eine umfassende Darstellung verschiedener abgeleiteter Textformate (ATF) und auch wie diese im Zusammenhang mit großen Sprachmodelle (LLMs) eingesetzt werden können. Abgeleitete Textformate (ATF) sind systematisch generierte Repräsentationen eines Originaltextes, bei dem einerseits die Anwendung bestimmter Verfahren des Text und Data Mining noch möglich sind, andererseits aber urheberrechtlich geschützte Bestandteile des Ausgangstextes nicht mehr repräsentiert sind. Bei der Erzeugung von abgeleiteten Textformaten folgt einer optionalen Anreicherung des ursprünglichen Textes die gezielte Informationsreduktion, so dass die entstehende Repräsentation frei bereitgestellt werden kann. Bei der Beurteilung von ATF sind neben den rechtlichen Aspekten auch Fragen zu klären, welche Anwendungen durch die Bereitstellung unterstützt werden können. Diese variieren zwischen einfachen statistischen Abfragen bis hin zum Training großer Sprachmodelle auf der Basis von ATF.

Vor diesem Hintergrund adressiert das Poster folgende Themen:

  1. Motivation für abgeleitete Textformate: Abgeleitete Textformate können sowohl durch die Informationsanreicherung, z. B. das Parsen und automatische Annotieren, als auch durch Informationsreduktion, also das Entfernen verschiedener Teile der Ursprungsdaten erfolgen. Das Ziel ist in der Regel, eine Repräsentation der Daten zu erhalten, deren Weitergabe und Veröffentlichung sowohl die Rechte Dritter respektiert, als auch für die Bearbeitung von Forschungsfragen genügend Informationen beinhaltet. Dazu erscheint der Begriff der Reproduzierbarkeit des Originals zentral, d.h. das auf Grundlage des ATFs das Original nicht so reproduziert werden kann, dass z.B. das Urheberrecht oder der Datenschutz verletzt werden.
  2. Arten der abgeleiteten Textformate: Die Beschreibung abgeleiteter Textformate enthält Definitionen, Herstellungsprozesse, Anwendungsbereiche und die Reproduzierbarkeit des Originaltexts für jedes Format. Zudem werden Anwendungsbeispiele für bestimmte ATF aufgeführt. Bei den ATF werden die Klassen der tokenbasierten und vektorbasierten Verfahren unterschieden, jeweils mit ihrer Definition, Erstellungsverfahren, Beschreibung der Nutzbarkeit für bestimmte Einsatzwecke und der möglichen Reproduzierbarkeit der Ursprungsdaten basierend auf den ATFs.
  3. Erstellung einer DIN-Norm für abgeleitete Textformate: Um die Grundlage für eine möglichste einheitliche Nutzung in der Wissenschaft und einen wichtigen Beitrag zur Reproduzierbarkeit von Forschungsergebnissen zu legen, müssen diese Beschreibungen so präzise wie möglich sein. Dies ist besonders dann der Fall, wenn Dokumente nur als ATF vorliegen, und möglicherweise aus unterschiedlichen Quellen stammen. Daher hat Text+ sich vorgenommen, eine Norm für ATFs zu entwerfen und in den formalen Standardisierungsprozess einzubringen. In diesem Poster werden wir daher auch den aktuellen Stand der Normungsvorarbeiten vorstellen.
  4. Abgeleitete Textformate und große Sprachmodelle: Die Verwendung urheberrechtlich geschützter Texte für das Training großer Sprachmodelle ist aktuell 1) sehr umstritten und findet 2) dort ihre Grenzen, wo nicht sichergestellt werden kann, dass bei der Nutzung solcher Sprachmodelle die Volltexte rekonstruiert werden können. Daher erscheint es lohnenswert, die Nutzung von ATF als eine spezifische Form der Datenobfuskierung auch für das Training von LLMs zu untersuchen. (Hier ggf. Verweis auf das CORAL- Projekt)
  5. Anwendungsbeispiele: Bereits aktuell werden ATF in der Forschung verwendet, hierzu werden wir Beispiele vorstellen, die gemäß der Arten der ATFs klassifiziert und beschrieben werden. Zu den Anwendungen gehören auch Sprachmodelle sowohl als eine Art der ATFs, als auch als eine Möglichkeit, die ATFs näher zu untersuchen.

Zurück nach oben


Wissen, wen man fragt – Agentic RAG für Automatisches Question Answering in der Domäne deutscher Grammatik

Christian Lang (Leibniz-Institut für Deutsche Sprache), Ngoc Duyen Tanja Tu (Leibniz-Institut für Deutsche Sprache), Roman Schneider (Leibniz-Institut für Deutsche Sprache)

Ein vielversprechender Einsatzzweck für LLMs ist die automatische Beantwortung von Fragen. Halluzinationen, Intransparenz bzgl. der Quellen zur Antwortgenerierung sowie fehlende Aktualität der Trainingsdaten erschweren jedoch den produktiven Einsatz vor allem in Spezialdomänen (vgl. Ji et al., 2023) wie beispielsweise der deutschen Grammatik.

Retrieval Augmented Generation (RAG) ist eine vielversprechende Methode, um diese Schwächen abzumildern (bspw. Ram et al., 2023), indem dem generierenden Modell relevante Kontextinformationen zur Verfügung gestellt werden. In der einfachsten Form (Naives RAG) werden diese Informationen per Similarity Search zwischen den Embeddings einer User Frage (Prompt) und den Embeddings von domänenspezifischen Dokumenten aus einer Vektordatenbank extrahiert.

Lang et al. (erscheint 2024) zeigen in einer Pilotstudie, dass Naives RAG die Qualität der automatisch generierten Antworten auf Fragen zur deutschen Grammatik verbessert. Dies trifft jedoch nur auf einen von zwei für diese Domäne typischen Hauptfragetypen zu, nämlich auf Definitionsfragen wie (1) Was sind Abtönungspartikeln?. Gebrauchsfragen dagegen, z. B. (2) Schreibt man Onlineshop oder Online-Shop? und damit der typische Fragetyp interessierter Laien, zeigen hier eine schlechtere Antwortqualität. Ein Grund dafür ist, dass saliente terminologische Elemente, die entscheidend für erfolgreiches Retrieval aus der Vektordatenkbank sind, in Gebrauchsfragen selten auftauchen. Stattdessen finden sich in Gebrauchsfragen vornehmlich Sprachobjekte (Onlineshop, Online-Shop in (2)).

Unser Beitrag präsentiert eine Lösung für diese Problematik: Der Einsatz von mehreren Agenten (bspw. Nan et al., 2024) im RAG-Workflow zur Anbindung geeigneter domänenspezifischer Ressourcen/Tools. Diese Agenten übernehmen (zumeist via Fewshot-Prompting) schrittweise spezialisierte Aufgaben (u. a. die Einordnung in Fragetypen) und stellen die Weichen für die weitere Bearbeitung im Gesamtprozess (Routing, vgl. Jeong et al. 2024). So werden bspw. Gebrauchsfragen zur Rechtschreibung per API der Korpusanalyseplattform KoRAP (Diewald et al., 2016) an das deutsche Referenzkorpus DeReKo (Kupietz et al., 2023) angebunden. Unsere Implementierung verwendet für Agenten und Antwortgenerierung das derzeit leistungsstärkste Open Source LLM Llama 3 (8B, 4bit Quantisierung) via Ollama. Der Workflow gestaltet sich folgendermaßen:

  1. Der initiale Routing-Agent prüft, ob es sich beim User Input um eine Frage zur Grammatik handelt. Nur Grammatikfragen werden im Workflow weiterverfolgt.
  2. Ein zweiter Routing-Agent prüft, ob es sich bei der Frage um eine Definitions- oder Gebrauchsfrage handelt. 3. Definitionsfragen: Similarity-Search in der Vektordatenbank nach relevanten Kontextinformationen. Ein Relevanz-Agent prüft, ob das Retrieval erfolgreich war (nur verifizierte Dokumente werden berücksichtigt). -> Generierung der Antwort
  3. Gebrauchsfragen: Routing-Agent prüft, ob es sich um eine Frage zur Rechtschreibung (RS) handelt (die häufigste Kategorie interessierter Laien; unser Prototyp behandelt nur RSGebrauchsfragen).
    1. RS-Gebrauchsfragen: Extraktion der Sprachobjekte. Falls Varianten auftreten (= mehr als ein Sprachobjekt): Nutzung der KorAP-Schnittstelle für Korpusrecherche: eine Frequenzliste der Varianten wird erstellt.
    2. Zusätzlich/Ansonsten: Websearch.
    3. Editor-Agent fasst Korpusrecherche und Websearch zusammen und präsentiert Zusammenfassung als relevante Kontextinformation. -> Generierung der Antwort

Erste Auswertungen dieses als Proof of Concept implementierten Workflows zeigen nicht nur eine erhöhte Qualität für Definitionsfragen, sondern speziell auch für Rechtschreib-Gebrauchsfragen. Daher erscheint die zukünftige Anbindung weiterer IDS-Ressourcen für andere Fragetypen als vielversprechendes Unterfangen.

Literaturverzeichnis

  1. Nils Diewald, Michael Hanl, Eliza Margaretha, Joachim Bingel, Marc Kupietz, Piotr Bański, and Andreas Witt. 2016. KorAP Architecture ― Diving in the Deep Sea of Corpus Data. In Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), pages 3586–3591, Slowenien. European Language Resources Association (ELRA).
  2. Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park. 2024. Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity. https://arxiv.org/abs/2403.14403
  3. Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Ye Jin Bang, Andrea Madotto, and Pascale Fung. 2023. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12):1–38.
  4. Marc Kupietz, Harald Lüngen, and Nils Diewald. 2023. Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo. In Arnulf Deppermann, Christian Fandrych, Marc Kupietz, and Thomas Schmidt, editors, Korpora in der germanistischen Sprachwissenschaft, pages 1–28. De Gruyter.
  5. Christian Lang, Roman Schneider, and Ngoc Duyen Tanja Tu. erscheint 2024. Automatic question answering for the linguistic domain – An evaluation of LLM knowledge base extension with RAG. In Amon Rapp, Luigi Di Caro, Farid Meziane, and Vijayan Sugumaran, editors, Natural Language Processing and Information Systems, A Springer Nature Computer Science book series. Springer Nature Switzerland AG.
  6. Linyong Nan, Ellen Zhang, Weijin Zou, Yilun Zhao, Wenfei Zhou, and Arman Cohan. 2024. On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering. In Findings of the Association for Computational Linguistics: NAACL 2024, pages 4556–4579, Mexico City, Mexico. Association for Computational Linguistics.
  7. Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, and Yoav Shoham. 2023. In-Context Retrieval-Augmented Language Models. Transactions of the Association for Computational Linguistics, 11:1316–1331.

Zurück nach oben


Evaluation of LLMs to Support the Development of GermaNet

Reinhild Barkey (Eberhard Karls Universität Tübingen), Erhard Hinrichs (Eberhard Karls Universität Tübingen), Marie Hinrichs (Eberhard Karls Universität Tübingen), Kimberly Sharp (Eberhard Karls Universität Tübingen), Claus Zinn (Eberhard Karls Universität Tübingen)

With easy access to APIs that query large language models (LLM), a good number of scientific disciplines explore their use for tasks for which they have previously used human resources or traditional technologies. LLM have also been explored in lexicography to support experts in constructing and maintaining dictionaries. There are some members of the field who even proclaim the death of lexicography because LLMs will soon be able to generate lexical entries and even entire dictionaries [1].

We report our work on testing this claim using a prominent representative of LLMs, ChatGPT, in the context of GermaNet, the largest lexical-semantic wordnet for German [2]. The latest version of GermaNet (18.0) features 215,000 lexical units (nouns, verbs, adjectives) that are attached to 167,163 synsets. It has 181,530 conceptual relations, 12,602 lexical relations (synonymy excluded), and a representation of 121,655 split compounds. GermaNet, hence, covers a large spectrum of the German language. But while all verbs in GermaNet come with at least one example sentence to illustrate the verb’s usage (for a given reading), GermaNet has only few example sentences for nouns and adjectives. It is this gap that we would like to close with the help of LLM.

Since LLM are built using enormous amounts of corpus data, we expect Chat-GPT to perform very well in this task. But while ChatGPT’s performance on generating example sentences for monosemous words is very good, it shows that the language competence of our human experts easily outperforms the language competence of ChatGPT when it comes to the generation of example sentences for polysemous words. In the poster, we show examples where ChatGPT uses incorrect or atypical word collocations, i.e., in verb-object and adjective-noun pairs. Often, ChatGPT displays an incorrect or insufficient understanding at the word (e.g., Erleben vs. Erlebnis, Wirken vs. Wirkung; Ensetzen vs. Entsetzung) and sentence level (e.g., Sie sah atemberaubend aus in ihrem samtigen Abendkleid, das bei jedem Schritt leise raschelte – velvet does not rustle). Sometimes, ChatGPT uses a numerus that is uncommon in a given context (Schuhband vs. Schuhbänder), gives an incorrect historical placing of words (e.g., Disco Roller were popular in the 90s not in the 80s), or makes use of subordinate clauses that fail to contribute to the meaning of sentences. Occasionally, ChatGPT generates orthographic errors, uses the wrong case, or hallucinates on words it does not know (e.g., Nebelkappe as synonym to Tarnkappe, which it explains as a kind of cap that one can wear during fog).

In sum, lexicographers must not fear that LLMs are taking over their entire work. Often however, AI generated content is of high quality and can be used with little, if any edits. As a result, our team embraces the new technology as an effective support for the development and maintenance of GermaNet.

References

  1. Gilles-Maurice de Schryver. Generative AI and Lexicography: The Current State of the Art Using ChatGPT. International Journal of Lexicography, 36(4):355–387, 10 2023.
  2. B. Hamp and H. Feldweg. GermaNet - a Lexical-Semantic Net for German. In Proceedings of the ACL workshop Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications, 1997. Madrid, Spain.

Zurück nach oben


LLOD-isierung des Madras Tamil Lexicon: Modellierung eines Wörterbuchs einer in der IT-basier-ten Linguistik unterrepräsentierten außereuropäischen Sprache als Linguistic Linked Open Data

Liudmila Olalde (Heidelberger Akademie der Wissenschaften), Thomas Malten (Heidelberger Akademie der Wissenschaften), Frank Grieshaber (Heidelberger Akademie der Wissenschaften)

Die API erlaubt darüber hinaus maschinenlesbaren Zugriff auf den Datenbestand sowie eine maschinelle Nachnutzung der Daten durch Integration der API in Preprocessing-Workflows, bspw. Lemmatisieren, sowie zur Annotation digitaler Editionen und audiovisueller Materialien. Die Vergabe von URIs für jeden Wörterbucheintrag ermöglicht den Aufbau von projektübergreifenden Wort-Netzwerken sowie föderierter Suchanfragen; die hier generierten Daten werden darüber hinaus ein Baustein der “Linguistic Linked Open Data“ (LLOD) cloud http://linguistic-lod.org/ und sorgen für eine größere Pluralität des Datenbestands. Alle Daten und Services werden der Fachcommunity unter einer offenen CC BY Lizenz zur Verfügung gestellt.

Zurück nach oben


HERMES – Humanities Education in Research, Data, and Methods

Ruth Reiche (Technische Universität Darmstadt), Andrea Rapp (Technische Universität Darmstadt), Anna Schlander (Technische Universität Darmstadt), Ksenia Stanicka-Brzezicka (Philipps-Universität Marburg), Johanna Konstanciak (Universität Trier)

Das Datenkompetenzzentrum HERMES – Humanities Education in Research, Data, and Methods – widmet sich dem Bedarf an Aus-, Weiter- und Fortbildung und praxisorientierter Beratung im Bereich der Datenkompetenzen in der geistes- und kulturwissenschaftlichen Forschung und Lehre sowie in GLAM-Einrichtungen (Galleries, Libraries, Archives and Museums). HERMES etabliert Orte des Forschens, Lernens und Vernetzens, an denen Datenkompetenzen in den Geistes- und Kulturwissenschaften vermittelt, weiterentwickelt und kritisch reflektiert werden.

Der Begriff “Datenkompetenzen” umfasst in HERMES den gesamten Bereich datenwissenschaftlicher Methodik innerhalb der Geistes- und Kulturwissenschaften. Dem Thema “Large Language Models” (LLM) kommt hierbei insofern besondere Relevanz zu, als LLMs aufgrund ihres immensen Fortschritts derzeit je nach Sichtweise als disruptiv empfunden oder aber als unterstützend wahrgenommen werden. Kurz gesagt: Das Thema polarisiert und macht eine fundierte Methodenreflexion nötig, die die Potentiale von LLMs für die geistes- und kulturwissenschaftliche Forschung exploriert. LLMs eröffnen etwa neue Wege zur Analyse und Interpretation von Text- und Sprachdaten, doch ihre effektive Anwendung setzt ein solides Verständnis der zugrundeliegenden Technologien und Methoden voraus. Als Datenkompetenzzentrum trägt HERMES dazu bei, dieses Wissen zu vertiefen und zu verbreiten, indem Workshops und Lehrmaterialien entwickelt werden, die den Zugang zu LLMs erleichtern und deren Einsatzmöglichkeiten in der geistes- und kulturwissenschaftlichen Forschung aufzeigen. Als Datenkompetenzzentrum versteht HERMES sich somit als Inkubator und Transformator, der den mit LLMs verbundenen Kulturwandel fördert und begleitet.

Das Poster soll vermitteln, im Zuge welcher HERMES-Angebote die Datenkompetenz von Forschenden und GLAM-Mitarbeiter*innen im Umgang mit LLMs gestärkt wird. Die verschiedenen HERMES-Angebote ergänzen sich dabei komplementär und gehen beispielhaft folgenden Fragen nach: Inwiefern nehmen LLMs beim Verfassen und Bewerten von Texten Einfluss? (Promotionsnetzwerk) Wie helfen sie bei der Recherche? (OER) Wie können sie zur Untersuchung von Daten eingesetzt werden? (Data Challenges, Bring-Your-Own-Data-Labs) Welchen Nutzen haben LLMs und KI-Tools für den GLAM-Bereich und die für die Sammlungsarbeit relevante Beschreibung, Klassifikation und Kategorisierung von Beständen unterschiedlicher Art? (Transferwerkstatt)

Zentrale Themen wie etwa die Domänenanpassung von LLMs, die Vorverarbeitung von Daten oder die ethischen Implikationen dieser Technologien müssen bei der Beantwortung der oben genannten Fragen berücksichtigt werden; ebenso der Aspekt, weshalb es für geistes- und kulturwissenschaftlich Forschende und GLAM-Mitarbeiter*innen überhaupt wichtig ist, sich mit LLMs auseinanderzusetzen, um aktuelle Forschungstrends zu verstehen und eigene Projekte innovativ zu gestalten. Mit diesen Punkten auf der Agenda trägt HERMES dazu bei, die Brücke zwischen technologischen Entwicklungen und den spezifischen Bedürfnissen der Geistes- und Kulturwissenschaften zu schlagen.

(Das Projekt HERMES wird gefördert durch das Bundesministerium für Bildung und Forschung, sowie durch Zuschüsse der europäischen Union. Das Förderkennzeichen ist 16DKZ2009)

Zurück nach oben


“Nun sag', wie hast du's mit den LLMs?” – Antworten der Text+ Community auf die Gretchenfrage

Stine Ziegler (Universität Duisburg-Essen), Philippe Genêt (Deutsche Nationalbibliothek)

Auch wenn die großen Entwicklungssprünge der Large Language Models (LLMs) noch nicht lange zurückliegen, wird ihr Potenzial für die Wissenschaft – und insbesondere die Digital Humanities – von vielen Forschenden als bahnbrechend eingeschätzt. Für das NFDI-Konsortium Text+stelltsichdaherdieFrage,wieesaktivzurEntwicklungundNutzunggroßerSprachmodelle beitragen kann. Die konsortiumsinterne Task Force Große Sprachmodelle diskutiert diese Frage bereits intensiv.

Doch wie werden LLMs in der erweiterten Fachcommunity wahrgenommen, genutzt und welche Bedarfe kristallisieren sich heraus? Welche Chancen und Herausforderungen erkennen Expert:innen verschiedener Fachbereiche in der Entwicklung und Anwendung von LLMs? Diese Fragen wurden – neben weiteren Themenfeldern – im Rahmen einer Community-Befragung der Text+ AG Innovation and Software Services mit Expert:innen verschiedener Fachbereiche erörtert.

Zehn Interviews wurden mit Expert:innen aus Fachrichtungen durchgeführt, in denen Text-as- data-Ansätze zentral sind (Korpus- und Computerlinguistik, Digital Humanities), sowie aus Disziplinen, in denen dies weniger stark der Fall ist (Philosophie, Sozialwissenschaften, Theaterwissenschaften, Kunstgeschichte). In den halbstrukturierten leitfadengestützten Interviews setzten die Interviewenden einerseits thematische Impulse, ließen andererseits aber viel Raum für die eigenen Darstellungen und Einschätzungen der befragten Personen, der auch Abwägungenunduneindeutige Antworten zuließ.

Neben Fragen zur alltäglichen Nutzung von Tools und Bedarfen zur Text- und Sprachdatenanalyse wurden die Beteiligten zu ihrer Einschätzung von LMs bzw. LLMs befragt. Nutzen sie diese bereits für ihre Forschung? Sehen die Expert:innen darin Potenziale für die deutsche Wissenschaftslandschaft und wenn ja, welche? Welche Hürden und Fallstricke werden identifiziert und welche Bedarfe ergeben sich daraus? Das Poster widmet sich den skizzierten Fragen, stellt die Antworten überblicksartig dar und leitet Handlungsbedarfe für Text+ ab.

So sahen die Befragten die größten Herausforderungen bei der wissenschaftlichen Nutzung großer Sprachmodelle im Mangel an Zuverlässigkeit und Reproduzierbarkeit der Ergebnisse. Ebenfalls problematisch schätzten sie die Intransparenz sowohl der Funktionsweise als auch der zugrundeliegenden Trainingsdaten von LLMs ein. Darüber hinaus wurden häufig die zum Teil erheblichen Kosten für die Nutzung kommerzieller LLMs wie ChatGPT angeführt sowie die oftmals unzureichende Rechenkapazität, die für eine intensive Nutzung künstlicher Intelligenz notwendig wäre.

Daraus ergab sich ein besonders häufig geäußerter Wunsch: der Zugang zu leistungsfähiger Rechnerinfrastruktur. Die Modelle, die für eine Forschung nach den Prinzipien guter wissenschaftlicher Praxis vonnöten wären, sollten idealerweise nicht-kommerziell und trotzdem mehrsprachigundperformantsein.Siesolltenstabile und reproduzierbare Ergebnisse ausgeben und sowohl datenschutzkonform als auch lokal genutzt werden können. Zudem sollten mindestensTrainingsdatentransparentsein.DarüberhinausbestehteinBedarfnachfürkonkrete Aufgaben trainierten Modellen (Transformermodelle

Auf Basis dieser Daten ergibt sich ein breites Handlungsfeld für Text+. Dieses reicht von der Bereitstellung einer Arbeitsumgebung mit entsprechender Rechenleistung über das Feintuning von Modellen bis zur Aufbereitung von Korpora für das spezifische Training von LLMs – etwa für historische Sprachformen, Dialekte oder unterrepräsentierte Sprachen.

Zurück nach oben


“Computer, was bedeutet ‘Tiki-Taka’?” Eine Studie zur Generierung von Definitionsparaphrasen für Bedeutungswörterbücher am Beispiel des DWDS

Alexander Geyken (Berlin-Brandenburgische Akademie der Wissenschaften), Gregor Middell (Berlin-Brandenburgische Akademie der Wissenschaften)

Die Fortschritte in der Entwicklung großer Sprachmodelle und deren Popularisierung sowie breite Anwendbarkeit durch kommerzielle Angebote wie OpenAIs Produktportfolio (ChatGPT) haben das Potenzial zu einer grundlegenden Neugestaltung von Arbeitsprozessen bei der Erstellung sowie bei der Nutzung von digitalen Wörterbüchern. So belegen Studien [1] für Lernerwörterbücher bereits, dass in Lese- und Verständnistests Studierende unter Zuhilfenahme klassischer Lernerwörterbücher gegenüber einem GPT-basierten Chatsystem nicht nur keine besseren Testresultate erzielen, sondern teilweise sogar schlechter abschneiden. Unklar ist derzeit noch, ob sich diese Resultate auch für große einsprachige Wörterbücher übertragen lassen, die im Unterschied zu Lernerwörterbüchern viele seltene Phänomene (Lesarten, Register, Belegkontexte) verzeichnen. Hier ist die Ausgangslage weniger klar [2]. Dementsprechend wollten wir das Potenzial von GPTs und LLM-basierten Verfahren für die Optimierung der eigenen Arbeit im DWDS ausloten. Dabei liegt für die Erstellung von Bedeutungswörterbüchern wie dem DWDS das unmittelbar größte Optimierungspotenzial in der Unterstützung bei der zeitaufwändigen Recherche für bzw. der Formulierung von Definitionsparaphrasen. Wir wollten herausfinden, ob sich dieses Potenzial ähnlich schnell belegen oder gar ausschöpfen lässt wie bei Lernerwörterbüchern.

Hierzu verwenden wir per API ein geschlossenes sowie im Vergleich ein frei verfügbares, lokal betriebenes GPT-Sprachmodell, um per Few-Shot Prompting Definitionsparaphrasen für mehr als 100 Begriffe (monosem, polysem und/oder hoch- bzw. niedrigfrequent in den Korpora des DWDS) generieren zu lassen. Von 25 Studienteilnehmern (professionelle Lexikographinnen und Lexikographen und Studierende) wurden die generierten Paraphrasen hinsichtlich ihrer Korrektheit, Verständlichkeit, ihrem Informationsgehalt sowie des möglichen Halluzinationsgrads bewertet. Die Bewertung erfolgte jeweils entweder vergleichend bezogen auf eine entsprechende, dem DWDS entnommene Definition, oder “blind”, d. h. ohne Bezug auf eine solche Referenz. Zudem wurden die Probandinnen und Probanden aufgefordert, bei der Bewertung keine sonstigen Hilfsmittel zum Verständnis der vorliegenden Begriffe einzusetzen, sondern die Entscheidung einzig und allein auf der Grundlage ihrer eigenen sprachlichen Intuition vorzunehmen.

Unsere im Poster präsentierte Auswertung der Studienergebnisse liefert Aussagen zu qualitativen Unterschieden der beiden genutzten Sprachmodelle, zur Behandlung von Mehrdeutigkeit sowie zum Einfluss von Experten- und Hintergrundwissen auf die Bewertung von generierten Definitionen und auf die Erkennung von Halluzinationen. Insbesondere Halluzinationen, korrekt erscheinende, aber faktisch falsche Definitionen, so ein Studienergebnis, stellen unabhängig vom Vorwissen der Wörterbuchnutzer ein grundsätzliches Problem dar, das die Verlässlichkeit generierter Definitionen und die Notwendigkeit ihrer Überprüfung und Überarbeitung betrifft. Daher bieten wir ferner einen Einblick in eine Anschlussstudie, bei der wir das Few-Shot Prompting um Verfahren der Retrieval-Augmented Generation (RAG) ergänzen. Indem einem Prompt zusätzlich ausgewählte Verwendungsbeispiele für den zu definierenden Begriff aus unseren Korpora beigegeben werden, erhalten wir im Ergebnis oft treffende, besser verwendbare Definitionen, was insbesondere bei der Bearbeitung von Fachwortschätzen unter Verwendung themenspezifischer Korpora zu einer erheblichen Zeit- und Arbeitsersparnis führt. Wir illustrieren diesen Befund anhand von Wörtern und Wendungen, wie beispielsweise Tiki-Taka, VAR oder ruhender Ball, die Teil eines umfangreichen DWDS-Glossars zur diesjährigen Fußball-Europameisterschaft waren, das also unter Zuhilfenahme von KI-Verfahren erstellt wurde.

References

  1. Rees, Geraint Paul; Lew, Robert: The Effectiveness of OpenAI GPT-Generated Definitions Versus Definitions from an English Learners’ Dictionary in a Lexically Orientated Reading Task, in: International Journal of Lexicography, 13.12.2023. Online: https://doi.org/10.1093/ijl/ecad030.
  2. Miloš Jakubíček, Michael Rundell: The end of lexicography: Can ChatGPT outperform current tools for post-editing lexicography? (Proceedings. elex 2023: p 518-533)

Zurück nach oben


Entwicklung von Transformer-basierten Modellen für historische Textnormalisierung

Yannic Bracke (Berlin-Brandenburgische Akademie der Wissenschaften), Gregor Middell (Berlin-Brandenburgische Akademie der Wissenschaften), Alexander Geyken (Berlin-Brandenburgische Akademie der Wissenschaften)

Das Poster präsentiert Aspekte der Entwicklung eines Sprachmodells für die Normalisierung historischer Texte, die innerhalb von Text+ geschieht. Digitalisierte historische Dokumente sind eine wichtige Datengrundlage für Forschende in den Digital Humanities und anderen textbasierten Disziplinen. Je nach Textalter unterscheidet sich die Schreibung in historischen Texten mehr oder weniger stark vom heutigen Standard (Beispiel 1a). Diese Abweichungen erschweren die Volltextsuche und die Anwendbarkeit von NLP-Werkzeugen, etwa für POS-Tagging oder NER, da diese typischerweise auf gegenwartssprachlichen Daten trainiert sind. Eine Normalisierung überträgt den historischen Text in moderne Schreibung (Beispiel 1b) und verringert so diese Probleme.

  1. Sie giengen beyde in dem koͤniglichen Spatzierhofe auff vnd nider.
  2. Sie gingen beide in dem königlichen Spazierhof auf und nieder.

Für die automatisierte Normalisierung von historischem Deutsch ab ca. 1600, wie es im Deutschen Textarchiv (DTA) vorkommt, nutzt die BBAW gegenwärtig das regel- und lexikonbasierte Tool CAB [1] und bietet dieses auch über einen Webservice an. Im Rahmen von Text+ wird nun an einem Nachfolgetool von CAB gearbeitet, das auf Transformer- Modellen basiert. Mit dieser Methode schließen wir an jüngere Forschung zur historischen Textnormalisierung an [2]. Die Funktionsweise gleicht einem Tool für maschinelle Übersetzung; Satz für Satz wird historischer Text in moderne Schreibweise übertragen. Das Modell wird trainiert, indem ein Finetuning eines vortrainierten, sogenannten „general- purpose“ Large Language Model durchgeführt wird, damit das Modell die Fähigkeit erlernt, zu normalisieren. Als Trainings- und Evaluationsdaten werden hier also Texte benötigt, die sowohl in historischer Originalfassung als auch in einer möglichst guten normalisierten Fassung vorliegen. Diese Art von Daten sind nicht in großem Umfang verfügbar und so ist es eine zentrale Anforderung unserer Arbeit an der BBAW in Text+, die vorhandenen, auf dem DTA basierten Datensätze als auswertbare Trainingsdatensets zu erschließen und zu erweitern.

Die Veröffentlichung fertiger Modelle wird auf der etablierten Plattform Hugging Face Hub erfolgen. So werden diese der Forschungscommunity frei zum Download und zur Nachnutzung zur Verfügung stehen. Zum Zeitpunkt der Einreichung verweise ich auf einen Prototypen, der dort bereits verfügbar ist: huggingface.co/ybracke/transnormer-19c-beta- v01. Die frei verfügbaren Modelle können in projekteigenen Workflows eingesetzt und wenn nötig nachtrainiert werden. Darüber hinaus ist geplant, Modelle in die ebenfalls in Text+ entwickelte MONAPipe einzubauen, sowie über eine API und Webservice zur einfachen Nutzung bereitzustellen.

References

  1. Jurish, Bryan. 2012. „Finite-State Canonicalization Techniques for Historical German“. Dissertation. Universität Potsdam. http://opus.kobv.de/ubp/volltexte/2012/5578/
  2. Bollmann, Marcel. 2019. „A Large-Scale Comparison of Historical Text Normalization Systems“. In Proceedings of the 2019 Conference of the North, Minneapolis, Minnesota: Association for Computational Linguistics, 3885–98. doi:10.18653/v1/N19-1389.

Zurück nach oben


Text+ LLM Service

Alexander Steckel (Georg-August-Universität Göttingen), Umut Basaran (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen), Stefan Buddenbohm (Georg-August-Universität Göttingen), Maik Wegener (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen), Philipp Wieder (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen)

AI as a Service

Text- and language-based humanities offer extensive use-cases for Large Language Models(LLMs). Text+ currently facilitates access to research data via the Text+ Registry, FederatedContent Search (FCS), and contributing partner’s data repositories. Through GWDG, a nationalhigh-performance computing and AI center, an additional web service will be made available onthe Text+ website providing free access to open-source and custom fine-tuneable LLMs like(Meta) LLaMA, Mixtral, Qwen, and Codestral as well as Open-AI’s Chat-GPT [1].

Text+ aims to be the first NFDI consortium to host an LLM service to its user base ensuringto meet the need of researchers that their data remain private and are not stored without theirconsent [2]. Especially when dealing with sensitive and/orcopyrighted materials, this added emphasis on necessary data protection is met here.

Implementation and Advantages

The LLM service enables users to create, edit and delete custom LLMs. A collaborations sectionallows users to invite collaborators to chat with the custom LLMs. The service offers free use ofvarious open-source models, a sources section on generated answers for users to check andenable citations, retrieval-augmented generation on personal documents, and compliance withlegislative requirements and user privacy interests. Currently, the service is available for projectparticipants who log in via Academic Cloud [3]. The serviceexcels at ensuring that no user related data is transferred externally with the ppen source LLMsas the host servers are GWDG’s [4]. With Open AI’s Chat-GPT,no single user related data is externally transmitted, as the current implementation makes allusers appear as one.

(Future) Use Cases

Within the context of Text+, the service is planned to assist in various domains. Datapreprocessing using Named Entity Recognition (NER), providing APIs with external portsopening in a GPU-supported runtime environment for Docker containers and context knowledgevia Entity Linking are covered. Additional scenarios, to name just a few, include FederatedContent Search backing query formulation based on natural language descriptions, GermaNetentries improvement by generating example sentences, historical normalization throughseq2seq transformer models, and APIs for components offering neural models such as speechreproduction and event detection.

Feedback

As an agile development, the LLM service aims to undergo constant enhancement regardingfunctionality and accessibility over time, with feedback from users playing a major role. Userswill therefore be asked to use the contact form [5] to providetheir experiences and suggestions. Also, this service is just the first step towards a growingnumber of offerings related to LLMs.

References

  1. https://kisski.gwdg.de/leistungen/2-02-llm-service/
  2. Cf. https://www.researchgate.net/publication/381883055_Chat_AI_A_Seamless_Slurm-Native_Solution_for_HPC-Based_Services
  3. https://academiccloud.de/
  4. Cf. https://datenschutz.gwdg.de/services/chatai
  5. https://text-plus.org/helpdesk/#kontaktformular

Zurück nach oben


KI-gestützte Workflows im Umgang mit gesprochensprachlichen Daten

Alina Hemmer (Universität Hamburg)

In unserem Beitrag stellen wir Potenziale und konkrete Anwendungsbeispiele mittels Open AIs Whisper und generativen LLMs vor, die für verschiedene Phasen der Aufbereitung und Auswertung gesprochensprachlicher Daten der Projektarbeit darstellen. Unsere Vorschläge wurden an der Universität Hamburg im Rahmen des Text+ Daten und Kompetenzzentrum HZSK erarbeitet.

Konkret liegt der Fokus auf der Unterstützung der sprachwissenschaftlichen Transkription von Audio- oder Videodaten, einem traditionell sehr zeit- und ressourcenintensiven Prozess, durch OpenAIs Whisper-Modell, einem fortschrittlichen Sprachmodell zur automatischen Spracherkennung (ASR). Zusätzlich werden Nutzen und Einbindungsmöglichkeiten anderer LLMs in das Post-Processing und die Weiterverarbeitung vor dem Hintergrund projektabhängiger Fragestellungen beleuchtet und erste Ergebnisse einer Evaluation präsentiert.

Durch den engen Zeitrahmen vieler Datenerhebungsprojekte ist eine inhaltliche und/oder sprachliche Vorauswertung notwendig, um beispielsweise geeignete Ausschnitte im Datenmaterial auszuwählen, Anpassungen für weitere Datenerhebungsphasen vorzunehmen oder einen Überblick über das Vorhandensein relevanter Themen und sprachlicher Phänomene zu gewinnen. Für ein zeiteffizientes Vorgehen ist es erforderlich, nicht ausschließlich auf Audio- oder Videodaten zurückgreifen zu können. Gleichzeit ist der zeitliche Aufwand für die Erstellung manueller Transkripte sehr hoch und eine vollständige Transkription innerhalb der ersten Projektphasen in der Regel nicht leistbar. Die Veröffentlichung von Whisper durch OpenAI als open source ermöglicht es, sensible Audio- und Videodaten lokal zu verarbeiten, was eine wesentliche Anforderung vieler Datenerhebungsprojekte ist. Somit scheinen durch die aktuellen Entwicklungen im Bereich der LLMs vielversprechende Möglichkeiten vorzuliegen, um Workflows in sprachbasierten Datenerhebungsprojekte zu optimieren. Dabei wird nicht nur der Einsatz von Modellen zur automatischen Spracherkennung in den Blick genommen, sondern auch von LLMs zur Verarbeitung automatisch erstellter Transkripte. Diese können beispielsweise genutzt werden, um Gliederungen, Inhaltsübersichten und Schlüsselwörter für Transkripte zu erzeugen.

Das Poster soll zu einer generellen und reflektierten Diskussion beitragen, wie KI-Anwendungen in der linguistischen Forschung eingesetzt werden und möglicherweise zu einer Optimierung datengeleiteter Forschung beitragen können. Gleichzeitig sollen erste Ansätze für Unterstützungs- und Beratungsmöglichkeiten im Bereich „Gesprochene Sprache und KI“ für Forschende aufgezeigt werden.

Zurück nach oben


Perspektiven des Einsatzes von LLM in Text+

Florian Barth (Niedersächsische Staats- und Universitätsbibliothek Göttingen), Yannic Bracke (Berlin-Brandenburgische Akademie der Wissenschaften), Philippe Genêt (Deutsche Nationalbibliothek), Erik Körner (Sächsische Akademie der Wissenschaften), Peter Leinen (Deutsche Nationalbibliothek), Pia Schwarz (Leibniz-Institut für Deutsche Sprache), Claus Zinn (Eberhard Karls Universität Tübingen)

Vor dem Hintergrund der rasant fortschreitenden Entwicklung der Large Language Models (LLMs) sieht sich das NFDI-Konsortium Text+ in der Rolle, Perspektiven für die Einsatzmöglichkeiten generativer Sprachmodelle und Transformermodelle in der Wissenschaft aufzuzeigen. Mit beträchtlichen Beständen an Sprach- und Textdaten in seinen Datenzentren sowie leistungsfähigen Rechenzentren in den Reihen seiner Partnerinstitutionen erscheint Text+ prädestiniert, sich des Themas innerhalb der NFDI anzunehmen.

Seit Ende 2023 berät die Task Force Große Sprachmodelle innerhalb von Text+ über Nutzen und Potential von LLMs in der Forschung und die Angebote, die Text+ hierzu beisteuern kann. Die Task Force hat sich zum Ziel gesetzt, Anwendungen und Dienste für die Text+ Communities zur Verfügung stellen, die auf LLMs zurückgreifen. Darüber hinaus wollen die Text+ Zentren gezielt Sprach- und Textressourcen qualitativ für das Training von Sprachmodellen aufbereiten. Modelle (Fine-Tuning vortrainierter Modelle oder RAG) für spezifische Aufgaben sollen von Text+ ebenso bereitgestellt werden wie Ressourcen – also Daten und Rechenleistung – für das Fine-Tuning von Modellen durch Forschende. Ferner will Text+ ausloten, wie Material mit (urheber-)rechtlichen Zugangsbeschränkungen in LLMs integriert werden kann, ob und wie LLMs mit abgeleiteten Textformaten trainiert werden können und für welche Forschungsfragen LLMs geeignet sind.

Dieses Poster skizziert die oben genannten Ziele von Text+ im Hinblick auf LLMs und exemplifiziert diese anhand folgender konkreter Use Cases, die sukzessive umgesetzt werden sollen.

  1. Daten-Preprocessing am Beispiel Named Entity Recognition (NER): LLMs unterstützen beim Daten-Preprocessing zur späteren Anwendung eines speziell trainierten NER-Modells.
  2. Laufzeitumgebung für NLP-Tools: Klassifikatoren (z.B. aus MONAPipe in Text+) werden in Containern via API bereitgestellt und mit GPU-Nodes zur effektiven Nutzung von Deep Learning-Modellen versehen.
  3. Generierung von Beispielsätzen bzw. von Kontext: Hier sollen LLMs dabei unterstützen, Einträge im lexikalisch-semantischen Wortnetz GermaNet anzureichern.
  4. Query Generation zur Suchunterstützung in der Federated Content Search (FCS) von Text+: Ein LLM-basierter ChatBot soll bei der Exploration der FCS unterstützen und dabei helfen, natürlichsprachliche Anfragen in syntaktisch korrekte Suchanfragen für die FCS zu übersetzen.
  5. Entity Linking: LLMs unterstützen bei der Verknüpfung von Named Entities in Volltexten mit Normdaten wie der GND oder Knowledge Bases wie Wikidata.
  6. Historische Normalisierungen: Mit Daten aus historischen Beständen nachtrainierte LLMs passen abweichende Schreibweisen aus verschiedenen Epochen an.

Zurück nach oben


Korpusproduktion in Zeiten großer Sprachmodelle

Thomas Eckart (Sächsische Akademie der Wissenschaften zu Leipzig), Christopher Schröder (Sächsische Akademie der Wissenschaften zu Leipzig), Erik Körner (Sächsische Akademie der Wissenschaften zu Leipzig), Felix Helfer (Sächsische Akademie der Wissenschaften zu Leipzig), Frank Binder (Sächsische Akademie der Wissenschaften zu Leipzig)

Die Korpuslinguistik besitzt jahrzehntelange Erfahrung im Umgang mit großen Textmengen, inklusive ihrer Beschaffung, Aufbereitung und Nutzung. Im Angesicht der aktuellen Trends im Bereich großer Sprachmodelle (large language models, LLMs) und den sich daraus ergebenden neuen Nutzungsszenarien, für die große, hochqualitative Textmengen unabdingbar sind, können von dieser Expertise aktuelle und zukünftige Entwicklungen profitieren (Touvron et al. 2023).

Gleichzeitig wirkt sich die Verfügbarkeit LLM-basierter Anwendungen auch unmittelbar auf die bisherigen Arbeitsprozesse aus: bestehende Anwendungen werden ergänzt oder vollständig ersetzt und neue Ansätze der Korpuserstellung durch entsprechende Sprachmodelle erstmals ermöglicht. Zentrale Triebfedern der Entwicklung sind unter anderem eine beeindruckende inhaltliche Bandbreite, die für praktisch alle Teilbereiche relevante Vorarbeiten umfasst, sowie die in erheblichen Teilen offene Verfügbarkeit von Daten, Modellen und Dokumentationen.

In diesem Poster werden die Auswirkungen am Beispiel des Projekts Wortschatz Leipzig skizziert. Das Projekt besitzt jahrzehntelange einschlägige Erfahrungen die sich u.a. in einer eigenen Crawlinginfrastruktur und einer umfangreichen Verarbeitungspipeline wiederspiegeln. Das Poster stellt Arbeiten der letzten beiden Jahre zur Integration LLM-basierter Anwendungen in die bestehende Infrastruktur vor, zu denen die folgenden Teilbereiche gehören:

  • Klassische Textakquisitionsverfahren umfassen diverse Ansätze mit Fokus auf geschriebene Sprache. Mit der Verfügbarkeit effizienter ASR-Modelle (Radford et al. 2022) stehen nun auch Audiofiles und Videodateien im großen Maßstab als Quelle zur Verfügung und werden systematisch für die Datenbeschaffung und Korpusanalyse eingesetzt.
  • Daten und deren Qualität spielen eine zentrale Rolle für das Training von LLMs (Penedo et al. 2024). Um die Limitierungen regelbasierter Datenfilterung zu überwinden, wurde zur Gewinnung hochqualitativer Ressourcen aus Web-Crawling-Daten ein Active Learning-basiertes Nachtrainieren von Modellen zur Qualitätsfilterung erforscht (Bley, 2024).
  • Eine nützliche Anreicherung von Textdaten ist die Annotation von Entitäten (wie Personen, Organisationen, Orten, ...) und deren Verlinkung mit passenden Einträgen in Wissensbasen (Knowledge Bases), wie etwa Wikidata oder der Gemeinsamen Normdatei (GND). Da ein solches Entity Linking typischerweise einen hohen manuellen Arbeitsaufwand erfordert, haben wir mit automatischen Ansätzen experimentiert, um deren Nutzbarkeit und Performanz zu testen. Ein erprobter Ansatz sind aus Entitäten-Quelltexten erzeugte Textembeddings (""Entity-Embeddings"") zur Disambiguierung von Entitäten via gängiger Embedding-Distanzmetriken.
  • Ein weiterer Ansatz des Entity Linking bezieht die in vielen Wissensbasen enthaltenen Relationen mit ein: Wir untersuchten dabei, ob mithilfe von GND-Relationen Mikrostrukturen zur Annotation identifiziert werden können, die einerseits eine höhere Zuverlässigkeit und Interpretierbarkeit bezüglich der verlinkten Entitäten ermöglichen und andererseits zur Identifizierung von Belegstellen für Relationen in Wissensbasen dienen können (Richter, 2023).
  • Die Nutzung der erschlossenen Daten zur Erstellung neuer Sprachmodelle, insbesondere für das Deutsche, ist ebenfalls ein Desiderat. Hier können wir nach Inkrafttreten des UrhBiMaG im Juni 2021 neue Wege explorieren und pilotieren in laufenden und geplanten Projekten das Sprachmodelltraining mit vollständigen und obfuskierten deutschsprachigen Web- und Nachrichtentexten in Kooperation mit OpenGPT-X (OpenGPT-X,2022), dem ScaDS.AI, der DNB und weiteren Partnern.

Insgesamt ergeben sich neue technologische Möglichkeiten im Bereich der Nutzung Sprachmodell-gestützter Verfahren für die Produktion hochqualitativer Korpora. Zudem bieten sich neuartige Einsatzmöglichkeiten für die entstehenden Korpora zur Verbesserung vorhandener und Erzeugung neuer Sprachmodelle. Die Nutzung eigenständig erarbeiteter Datengrundlagen trägt - im Kontrast zur Nutzung proprietärer Angebote - zur Datensouveränität der jeweiligen Sprachgemeinschaften bei.

References

  • Bley, Maximilian (2024). Multi-Label Qualitätsklassifikation von Webdaten mit Active Learning. Masterarbeit. TBP.
  • OpenGPT-X (2022). Startschuss für das europäische KI-Sprachmodell OpenGPT-X. https://ki-verband.de/wp-content/uploads/2022/01/Pressemitteilung-zum-Start-von-O penGPT-X.docx.pdf, abgerufen am 30.08.2024.
  • Penedo, Guilherme; Kydlíček, Hynek; Ben allal, Loubna; Lozhkov, Anton; Mitchell, Margaret; Raffel, Colin; Von Werra, Leandro; Wolf, Thomas (2024). The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. https://arxiv.org/abs/2406.17557
  • Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). Robust Speech Recognition via Large-Scale Weak Supervision. https://arxiv.org/abs/2212.04356
  • Richter, Marc (2023). Korpusbasierte Relationsextraktion und Normdaten-Disambiguierung zur Identifizierung von Belegstellen am Beispiel des GND-Netzwerkes, Masterarbeit, https://github.com/MarcPascalRichter/RelationExtraction.
  • Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timo-thée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. (2023) Llama: Open and efficient foundation language models. https://arxiv.org/abs/2302.13971

Zurück nach oben


“fRAG Deine Daten doch selbst” – Potenziale des Einsatzes von Retrieval Augmented Generation für Forschungsdaten und Forschungsdateninfrastrukturen

Timm Lehmberg (Akademie der Wissenschaften in Hamburg)

Die Postersession mit flankierender System Demonstration der Text+ RAGestry (https://fdm.awhamburg.de/ragestry) führt in die Methoden der Retrieval Augmented Generation (im folgenden RAG), also der Nutzung eigener Datenquellen in Verbindung mit LLM-Technologie, ein. Dabei sollen sowohl die Potenziale eines Zugangs zu Diensten aus Infrastrukturprojekten als auch des disziplinspezifischen Einsatzes von RAG bei der Analyse sprachlicher Ressourcen gezeigt werden.

Beispielhaft zu nennen sind in diesem Zusammenhang:

  • Die Möglichkeit, sensible oder proprietäre Forschungsdaten in Verbindung mit LLM-Technologie zu nutzen, ohne diese externen Diensten zugänglich zu machen.
  • Zweckgebundener Einsatz von LLM-Technologie im Hinblick auf ein spezifisches Nutzungs- oder Forschungsszenario.
  • Höhere Relevanz der Informationen, die aus eigenen Ressourcen abgerufen und aus denen präzisere und kontextbezogene Antworten generiert werden können.
  • Verbesserte Nachvollziehbarkeit der Ergebnisse, da die Datenbasis in menschenlesbarer Form (i. d. R. Volltext oder strukturierte Daten) vorliegt
  • Hohes Maß an Anpassungsfähigkeit, da ein RAG-basiertes System kontinuierlich mit neuen (Forschungs-)ergebnissen und Daten aktualisiert werden kann, ohne das gesamte Modell neu trainieren zu müssen.

Zum Zweck der besseren Nachvollziehbarkeit wird die Präsentation eine visuelle Einführung in die Prinzipien der RAG beinhalten, die vor allen Dingen eine Abgrenzung zu anderen Methoden der Anpassung von LLMs, insbesondere dem Fine-Tuning und Prompt Engineering vornimmt.

Darauf aufbauend werden die zentralen Grundbegriffe und Teilschritte der Konzeption und Implementierung eines RAG-Systems, von der Auswahl und Strukturierung der eigenen Datenbasis, der Erstellung von Embeddings durch Vektorisierung, der Wahl geeigneter LLMs für Embedding und Retrieval bis hin zur finalen Anpassung des Systems vorgestellt.

Begleitend findet eine System Demonstration der prototypisch implementierten Text+ RAGestry, einem RAG-basierten Zugang zur Text+ Registry statt, die von Besuchenden praktisch erprobt werden kann.

Zurück nach oben


Legal Linguistic Memos mit Large Language Models: Automatisierte Erfassung und Klassifizierung von Sachverhaltsbeschreibungen im Familienrecht

Margret Mundorf (Universität Heidelberg)

Das Poster stellt ein hybrides Vorhaben an der Schnittstelle von rechtslinguistischer Forschung (Dissertationsvorhaben Universität Heidelberg) und Prototypenentwicklung vor, in dem Daten mit Sachverhaltsbeschreibungen zum Kindeswohl in familiengerichtlichen Verfahren automatisiert erfasst und hinsichtlich ihrer Wahrscheinlichkeit und Relevanz klassifiziert und visualisiert dargestellt werden sollen. Die mithilfe von LLMs und einem kombinierten Ansatz (Finetuning, Retrieval Augmented Generation, kurz: RAG u. a.) vorstrukturierten Daten sollen Familiengerichten eine rasche Orientierung in umfangreichen Gerichtsakten für die juristische Würdigung der Sachverhalte und eine Grundlage für fundierte verantwortliche Entscheidungen zum Wohl des Kindes bieten.

Dazu werden zunächst sprachliche Phänomene in der Domäne des Rechts (Felder & Vogel 2017) sowie in einer textlinguistischen Pilotstudie erhobene sprachliche Auffälligkeiten zur Konstitution und Kommunikation von Sachverhalten im Kindschaftsrecht und daraus resultierende Implikationen für professionelle Akteur:innen im Recht dargestellt (Mundorf 2021). Ausgangspunkt ist zum einen die sozialkonstruktivistische Annahme, dass Fachwissen und die Sachverhalte dieser Wissensdomänen sprachlich konstituiert werden (Felder 2008, Forschungsnetzwerk Sprache und Wissen“), zum anderen, dass sie dabei grundlegenden Perspektivierungsverfahren unterliegen (Köller 2004) und Sachverhalte daher nie vollkommen ‚neutral‘ oder ‚objektiv‘ dargestellt werden können. Eine Analyse der Perspektivierungsmuster und -strategien bei der Vermittlung juristischen Wissens an juristische und nicht-juristische Akteur:innen, Expert:innen und Lai:innen wird als heuristisches Konzept genutzt, um sprachliche Vermittlungsstrategien im Recht zu beschreiben (Mundorf 2024: 277). Diese Erkenntnisse sollen dazu genutzt werden, um Large Language Models durch datengetriebene Analysen mit Fachwissen aus Gerichtsentscheidungen und Daten der Entscheidungsfindung aus Gerichtsakten spezifisch für juristische Anwendungen dezentral zu trainieren und für eine Testphase in familiengerichtlichen Verfahren nutzbar zu machen.

Das Poster gibt Einblick in das laufende Projekt mit einem Ansatz, der rechtslinguistisches Wissen und empirische Studienergebnisse mit der fachspezifischen Datenintegration in verschiedene Open Source-Modelle, einer Visualisierung und Bewertung mittels Graphdatenbanken und regelbasierter Entscheidungsunterstützung verknüpft.

Zielsetzung ist es zum einen, einen methodischen bzw. methodologischen Beitrag innerhalb der Rechtslinguistik mithilfe von Machine Learning-Verfahren und einer Risikobewertung zu leisten, zum anderen eine Brücke zwischen Angewandter Linguistik, Rechtsinformatik und Rechtsanwendung zu schlagen und einen vielversprechenden Ansatz für eine zukunftsfähige Rechtspraxis bereitzustellen.

Literatur

  1. Brodowski, Dominik (2024): Datengestützte Prognose justizieller Entscheidungen. In: Liane Wörner, Rüdiger Wilhelmi, Jochen Glöckner, Marten Breuer und Svenja Behrendt (Hrsg.): Digitalisierung des Rechts: de Gruyter, S. 125–142.
  2. Dahl, Matthew; Magesh, Varun; Suzgun, Mirac; Ho, Daniel E. (2024): Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models. In: Journal of Legal Analysis 16 (1), S. 64–93
  3. Felder, Ekkehard (2008): Das Forschungsnetzwerk „Sprache und Wissen“: Zielsetzung und Inhalte. In: Zeitschrift für Germanistische Linguistik 36 (2), S. 270–276.
  4. Felder, Ekkehard; Vogel, Friedemann Vogel (Hrsg.) (2017): Handbuch Sprache im Recht. Berlin / Boston: de Gruyter.
  5. Mundorf, Margret (2021): Recht autobiografisch. Schreibkompetenz, Sprachbewusstheit und (Selbst-)Reflexivität in Aus- und Weiterbildung. In: Renata Behrendt und David Kreitz (Hrsg.): Autobiografisches Schreiben in Bildungskontexten. Konzepte und Methoden. Stuttgart: wbv/UTB (Theorie und Praxis der Schreibwissenschaft), S. 169–185.
  6. Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan et al. (2023): Survey of Hallucination in Natural Language Generation. In: ACM Computing Surveys 55 (12), S. 1–38.
  7. Köller, Wilhelm (2004): Perspektivität und Sprache. Zur Struktur von Objektivierungsformen in Bildern, im Denken und in der Sprache. Berlin: de Gruyter.
  8. Mundorf, Margret (2024): Recht vermitteln. Perspektivität in der Vermittlung juristischen Wissens in Fort- und Weiterbildung. In: Katja Leyhausen-Seibert, Anna Menzel und Friedemann Vogel (Hrsg.): Wissen in Recht und Sprache – Viele Stimmen, vage Grenzen. Berlin: Duncker & Humblot (Sprache und Medialität des Rechts), S. 257–285.
  9. Vogel, Friedemann (2024): Der Richter, (k)ein Bot?! In: Liane Wörner, Rüdiger Wilhelmi, Jochen Glöckner, Marten Breuer und Svenja Behrendt (Hrsg.): Digitalisierung des Rechts: De Gruyter, S. 9–26.
  10. Wu, Kevin; Wu, Eric; Zou, James (2024): How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior. Online verfügbar unter https://doi.org/10.48550/arXiv.2404.10198.

Zurück nach oben


SwineBad: Tabellenextraktion und Informationsstrukturierung aus dem Swinemünder Badeanzeiger

Steffen Steiner (Hochschule Wismar), Frank Krüger (Hochschule Wismar)

Einleitung

Dieser Beitrag präsentiert erste Ergebnisse des Text+ Kooperationsprojekts zur automatischen Extraktion von Tabellendaten aus historischen Zeitschriften. In diesem Projekt soll am Beispiel der historischen Zeitung “Swinemünder Badeanzeiger” eine Software-Pipeline zur automatischen Extraktion von Tabellendaten aus gescannten Zeitungen entwickelt werden. Der Swinemünder Badeanzeiger erschien zwischen 1910 und 1932 zwei- bis sechsmal wöchentlich und informierte Leser im damaligen drittgrößten deutschen Ostseebad auf Usedom darüber, welche Familien und Persönlichkeiten zu Gast waren. So finden sich in den Tabellen beispielsweise Einträge zu Lyonel Feiniger, der am 12. September 1928 zusammen mit seinem Sohn Andreas Feiniger in Wiends Hotel, sowie Prinz Heinrich von Preußen mit weiteren 14 Personen im Gefolge am 5. Juni 1915 im Hotel zum Walfisch zu Besuch waren.

Datenumfang

Insgesamt liegen in der digitalen Bibliothek Greifswald 4227 gescannte Seiten des Swinemünder Badeanzeigers vor. Erste Schätzung haben ergeben, dass sich auf diesen Seiten insgesamt ca. 6600 Tabellen mit jeweils 50-60 Einträgen befinden, wobei ein Eintrag neben dem Namen, der sozialen Stellung und einer Auflistung der Begleitung auch den Herkunftsort und die hiesigen Wohnort enthält. Auf Basis dieser Schätzungen werden Einträge zu mindestens 400.000 dokumentierten Gästen erwartet. Die Einträge sind in Tabellen angegeben, die sich über die verschiedenen Ausgaben hinweg zum Teil deutlich unterscheiden. Während die Ausgaben von 1910 Spalten zu “Nummer”, “Name und Stand”, “Wohnort”, “Wohnung” und “Personenanzahl” enthalten, sind in späteren Ausgaben dieselben Informationen nur noch in zwei Spalten zu persönlichen Informationen und Anzahl unterteilt.

Datenextraktion und Strukturierung

In Vorbereitung der automatischen Extraktion wurden umfangreiche manuelle Annotationsarbeiten auf einer repräsentativen Datenauswahl vorgenommen. So wurden im ersten Schritt die Tabellenrahmen mithilfe des Annotationstools Labelme annotiert. In darauffolgenden Schritten wurden die in den Tabellenzeilen enthaltenen Informationen manuell transkribiert und anschließend strukturiert. Für der Strukturierung wurden die folgenden Kategorien identifiziert: Vorname, Nachname, Titel, Beruf, Sozialer Stand, Begleitung, Wohnort, Wohnung, Personenanzahl. Hintergrund der aufwändigen Annotation ist es, sowohl jeden Schritt der Softwarepipeline einzeln, als auch alle Schritte zusammen (End-to-End) evaluieren zu können, um objektive Aussagen zur erwartbaren Datenqualität treffen zu können.

Basierend auf den annotierten Daten wurden die folgenden Schritte durchgeführt:

  1. Fine-tuning der Segmentierung der Tabellen durch OCR-D unter Verwendung des Detectron2 Modells
  2. Frakturtexterkennung unter Verwendung verschiedener OCR Modelle innerhalb von Tesseract
  3. Korrektur der unterschiedlichen OCR Resultate mittels des Llama 3.1 70B Instruct Large Language Models
  4. Strukturierung der Einzelinformationen aus den korrigierten Tabelleninhalten in die oben beschriebene Struktur mittels Large Language Model

Vorläufige Ergebnisse

Die Evaluation der Schritte 1-3 wurde durch einen Train-Test Split vorgenommen. Bei der Segmentierung der Tabellen wurde einen Average Precision von 0.98 auf den Testdaten erreicht. Die Frakturtexterkennung der unterschiedlichen OCR-Modelle erreichte Character Error Rates zwischen 0.07 und 0.19, welche durch die LLM-basierte Korrektur auf unter 0.05 reduziert werden konnte. Ergebnisse zur Datenstrukturierung auf der Testmenge liegen noch nicht vor, erste Ergebnisse auf den Trainingsdaten deuten aber sehr gute Ergebnisse an. Zukünftige Schritte beinhalten die End-to-End Evaluation, sowie die Disambiguierung und Verlinkung der extrahierten Informationen.

Zurück nach oben


Zusätzliche Informationen:

Die Abstracts der ausgewählten Poster werden im Veranstaltungsprogramm veröffentlicht. Ein Best-Poster-Award, dotiert mit 150 EUR, wird an das beste Poster verliehen.

Wir freuen uns auf Ihre Beiträge und auf eine spannende Konferenz, die die Auswirkungen von LLMs auf die sprachbasierte Forschung diskutiert!

Zurück nach oben