9–11 Oct 2024
Mannheim, Schloss
Europe/Berlin timezone

Entwicklung von Transformer-basierten Modellen für historische Textnormalisierung

10 Oct 2024, 16:45
1h 15m
O 138 (Fuchs-Petrolub-Saal) (Mannheim, Schloss)

O 138 (Fuchs-Petrolub-Saal)

Mannheim, Schloss

Schloss 68161 Mannheim

Speakers

Yannic Bracke (Berlin-Brandenburgische Akademie der Wissenschaften) Gregor Middell (Berlin-Brandenburgische Akademie der Wissenschaften) Alexander Geyken (Berlin-Brandenburgische Akademie der Wissenschaften)

Description

Das Poster präsentiert Aspekte der Entwicklung eines Sprachmodells für die Normalisierung historischer Texte, die innerhalb von Text+ geschieht. Digitalisierte historische Dokumente sind eine wichtige Datengrundlage für Forschende in den Digital Humanities und anderen textbasierten Disziplinen. Je nach Textalter unterscheidet sich die Schreibung in historischen Texten mehr oder weniger stark vom heutigen Standard (Beispiel 1a). Diese Abweichungen erschweren die Volltextsuche und die Anwendbarkeit von NLP-Werkzeugen, etwa für POS-Tagging oder NER, da diese typischerweise auf gegenwartssprachlichen Daten trainiert sind. Eine Normalisierung überträgt den historischen Text in moderne Schreibung (Beispiel 1b) und verringert so diese Probleme.

1a. Sie giengen beyde in dem koͤniglichen Spatzierhofe auff vnd nider.
1b. Sie gingen beide in dem königlichen Spazierhof auf und nieder.

Für die automatisierte Normalisierung von historischem Deutsch ab ca. 1600, wie es im Deutschen Textarchiv (DTA) vorkommt, nutzt die BBAW gegenwärtig das regel- und lexikonbasierte Tool CAB [1] und bietet dieses auch über einen Webservice an. Im Rahmen von Text+ wird nun an einem Nachfolgetool von CAB gearbeitet, das auf Transformer- Modellen basiert. Mit dieser Methode schließen wir an jüngere Forschung zur historischen Textnormalisierung an [2]. Die Funktionsweise gleicht einem Tool für maschinelle Übersetzung; Satz für Satz wird historischer Text in moderne Schreibweise übertragen. Das Modell wird trainiert, indem ein Finetuning eines vortrainierten, sogenannten „general- purpose“ Large Language Model durchgeführt wird, damit das Modell die Fähigkeit erlernt, zu normalisieren. Als Trainings- und Evaluationsdaten werden hier also Texte benötigt, die sowohl in historischer Originalfassung als auch in einer möglichst guten normalisierten Fassung vorliegen. Diese Art von Daten sind nicht in großem Umfang verfügbar und so ist es eine zentrale Anforderung unserer Arbeit an der BBAW in Text+, die vorhandenen, auf dem DTA basierten Datensätze als auswertbare Trainingsdatensets zu erschließen und zu erweitern.

Die Veröffentlichung fertiger Modelle wird auf der etablierten Plattform Hugging Face Hub erfolgen. So werden diese der Forschungscommunity frei zum Download und zur Nachnutzung zur Verfügung stehen. Zum Zeitpunkt der Einreichung verweise ich auf einen Prototypen, der dort bereits verfügbar ist: huggingface.co/ybracke/transnormer-19c-beta- v01. Die frei verfügbaren Modelle können in projekteigenen Workflows eingesetzt und wenn nötig nachtrainiert werden. Darüber hinaus ist geplant, Modelle in die ebenfalls in Text+ entwickelte MONAPipe einzubauen, sowie über eine API und Webservice zur einfachen Nutzung bereitzustellen.

References

  1. Jurish, Bryan. 2012. „Finite-State Canonicalization Techniques for Historical German“. Dissertation. Universität Potsdam. http://opus.kobv.de/ubp/volltexte/2012/5578/

  2. Bollmann, Marcel. 2019. „A Large-Scale Comparison of Historical Text Normalization Systems“. In Proceedings of the 2019 Conference of the North, Minneapolis, Minnesota: Association for Computational Linguistics, 3885–98. doi:10.18653/v1/N19-1389.

Presentation materials

There are no materials yet.