Speakers
Description
In den Computational Literary Studies ist der Einsatz von KI-Sprachmodellen mittlerweile etabliert, um verschiedene Fragestellungen, die mit regelbasierten Methoden schwer zu fassen sind, zu untersuchen. Es zeigt sich, dass noch immer traditionelle Sprachmodelle wie BERT (Devlin et al., 2019) als Basis für Machine Learning-Modelle im Gegensatz zu large language models (LLMs) aus verschiedenen Gründen genutzt werden. Diese reichen von Verfügbarkeit von Rechenleistung für die Nutzung von state-of-the-art LLMs bis hin zu dem hartn¨ackigem Problem der Reproduzierbarkeit und (noch schwereren) Nachvollziehbarkeit.
Ein für die meisten Projekte typisches Problem, das häufig auftritt, ist das Fehlen von hochqualitativen Trainingsdaten, in denen komplexe literarische Phänomene operationalisiert werden. Diese werden in solchen Fällen mittels manueller Annotation erstellt, was ein zeitintensiver und anspruchsvoller Prozess. In den meisten Fällen müssen mehrere Expert:innen-Annotator:innen trainiert werden, was neben einem zeitlichen Aufwand auch finanzielle Ressourcen belastet. Eine m¨ogliche L¨osung ist das Erstellen von synthetischen Trainingsdaten mittels LLMs. Für unser Poster untersuchen wir, in wie fern sich aktuelle open source LLMs wie llama7B (Ai@Meta, 2024) anbieten, synthetische Trainingsdaten zu generieren. Mit diesen synthetischen Daten werden eine Reihe von empirischen Experimenten durchgeführt, mit denen empierisch analysiert wird, wie gut die Qualität dieser Daten für das Trainieren von Modellen ist.
Die synthetischen Traininsgdaten werden per one-shot und few-shot prompting (see Brown et al., 2020, p.7) mit promts aus einem manuell annotiertem Datensatz erstellt. Dadurch wird auch überprüft, in wie weit open source LLMs in der Lage sind, mit literarischen Texten, hier spezifisch deutsch-schweizer Texten aus dem 19. und 20. Jahrhundert, umzugehen.
Als Anschaunugsbeispiel soll ein Modell dienen, das zum einen non-named spatial entities (NNSE) erkennt und zum anderen diese in verschiedene Typen einordnen kann. Hierbei handelt es sich um textimmanente Entitäten, die sich theoretisch auf einer Karte verorten lassen würden, aber keinen eigenen Namen haben (z.B. Tisch, Kirche, Berg). Es gibt insgesamt drei verschiedene Typen von NNSE: urban, rural und natural, die von Grisot and Herrmann (2023) etabliert wurden.
Als baseline wird je ein Modell ausschließlich auf Basis der manuellen Annotation trainiert: einmal für die Erkennung von NNSE und einmal für die zusätzliche Kategorisierung in die drei Typen. In weiteren Experimenten werden zu der manuellen Annotation der beiden Modelle synthetische Trainingsdaten hinzugefügt, die mit llama7B erstellt wurden. Dabei wird das Verhältnis von synthetischen zu manuellen Daten graduell erhöht. Für einen empirischen Vergleich sollen jeweils die F1-scores der Modelle verglichen werden.
Das Poster teilt sich demnach in zwei große Abschnitte. Im ersten Abschnitt wir erläutert, wie die synthetischen Daten erstellt wurden, im zweiten wird empirisch analysiert, in wie fern synthetische Traininsgdaten die Performanz von Machine Learning-Modellen beeinflusst.
References
-
Ai@Meta. Llama 3 Model Card, 2024. URL https : //github.com/meta − llama/llama3/blob/main/MODEL CARD.md.
-
T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language Models are Few-Shot Learners. 2020. URL http://arxiv.org/abs/2005.14165.
-
J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. URL http://arxiv.org/abs/1810.04805.
-
G. Grisot and B. Herrmann. Examining the representation of landscape and its emotional value in German-Swiss fiction between 1840 and 1940. 8(1), 2023. ISSN 2371-4549. doi: 10.22148/001c.84475.
-
M. K. Schumacher. Orte und Räume im Roman. Ein Beitrag zur digitalen Literaturwissenschaft. J. B. Metzler, 2023.