9–11 Oct 2024
Mannheim, Schloss
Europe/Berlin timezone

Anwendungen und Methoden der Abgeleiteten Textformate (ATF) im Kontext von LLMs

10 Oct 2024, 16:45
1h 15m
O 138 (Fuchs-Petrolub-Saal) (Mannheim, Schloss)

O 138 (Fuchs-Petrolub-Saal)

Mannheim, Schloss

Schloss 68161 Mannheim

Speakers

Florian Barth (Georg-August-Universität Göttingen) José Calvo Tello (Georg-August-Universität Göttingen) Keli Du (Universität Würzburg) Philippe Genêt (Deutsche Nationalbibliothek) Peter Leinen (Deutsche Nationalbibliothek) Jörg Knappen (Universität des Saarlandes) Thorsten Trippel (Leibniz-Institut für Deutsche Sprache) Andreas Witt (Leibniz-Institut für Deutsche Sprache)

Description

In diesem Poster präsentieren wir eine umfassende Darstellung verschiedener abgeleiteter Textformate (ATF) und auch wie diese im Zusammenhang mit großen Sprachmodelle (LLMs) eingesetzt werden können. Abgeleitete Textformate (ATF) sind systematisch generierte Repräsentationen eines Originaltextes, bei dem einerseits die Anwendung bestimmter Verfahren des Text und Data Mining noch möglich sind, andererseits aber urheberrechtlich geschützte Bestandteile des Ausgangstextes nicht mehr repräsentiert sind. Bei der Erzeugung von abgeleiteten Textformaten folgt einer optionalen Anreicherung des ursprünglichen Textes die gezielte Informationsreduktion, so dass die entstehende Repräsentation frei bereitgestellt werden kann. Bei der Beurteilung von ATF sind neben den rechtlichen Aspekten auch Fragen zu klären, welche Anwendungen durch die Bereitstellung unterstützt werden können. Diese variieren zwischen einfachen statistischen Abfragen bis hin zum Training großer Sprachmodelle auf der Basis von ATF.

Vor diesem Hintergrund adressiert das Poster folgende Themen:

  1. Motivation für abgeleitete Textformate: Abgeleitete Textformate können sowohl durch die Informationsanreicherung, z. B. das Parsen und automatische Annotieren, als auch durch Informationsreduktion, also das Entfernen verschiedener Teile der Ursprungsdaten erfolgen. Das Ziel ist in der Regel, eine Repräsentation der Daten zu erhalten, deren Weitergabe und Veröffentlichung sowohl die Rechte Dritter respektiert, als auch für die Bearbeitung von Forschungsfragen genügend Informationen beinhaltet. Dazu erscheint der Begriff der Reproduzierbarkeit des Originals zentral, d.h. das auf Grundlage des ATFs das Original nicht so reproduziert werden kann, dass z.B. das Urheberrecht oder der Datenschutz verletzt werden.

  2. Arten der abgeleiteten Textformate: Die Beschreibung abgeleiteter Textformate enthält Definitionen, Herstellungsprozesse, Anwendungsbereiche und die Reproduzierbarkeit des Originaltexts für jedes Format. Zudem werden Anwendungsbeispiele für bestimmte ATF aufgeführt. Bei den ATF werden die Klassen der tokenbasierten und vektorbasierten Verfahren unterschieden, jeweils mit ihrer Definition, Erstellungsverfahren, Beschreibung der Nutzbarkeit für bestimmte Einsatzwecke und der möglichen Reproduzierbarkeit der Ursprungsdaten basierend auf den ATFs.

  3. Erstellung einer DIN-Norm für abgeleitete Textformate: Um die Grundlage für eine möglichste einheitliche Nutzung in der Wissenschaft und einen wichtigen Beitrag zur Reproduzierbarkeit von Forschungsergebnissen zu legen, müssen diese Beschreibungen so präzise wie möglich sein. Dies ist besonders dann der Fall, wenn Dokumente nur als ATF vorliegen, und möglicherweise aus unterschiedlichen Quellen stammen. Daher hat Text+ sich vorgenommen, eine Norm für ATFs zu entwerfen und in den formalen Standardisierungsprozess einzubringen. In diesem Poster werden wir daher auch den aktuellen Stand der Normungsvorarbeiten vorstellen.

  4. Abgeleitete Textformate und große Sprachmodelle: Die Verwendung urheberrechtlich geschützter Texte für das Training großer Sprachmodelle ist aktuell 1) sehr umstritten und findet 2) dort ihre Grenzen, wo nicht sichergestellt werden kann, dass bei der Nutzung solcher Sprachmodelle die Volltexte rekonstruiert werden können. Daher erscheint es lohnenswert, die Nutzung von ATF als eine spezifische Form der Datenobfuskierung auch für das Training von LLMs zu untersuchen. (Hier ggf. Verweis auf das CORAL- Projekt)

  5. Anwendungsbeispiele: Bereits aktuell werden ATF in der Forschung verwendet, hierzu werden wir Beispiele vorstellen, die gemäß der Arten der ATFs klassifiziert und beschrieben werden. Zu den Anwendungen gehören auch Sprachmodelle sowohl als eine Art der ATFs, als auch als eine Möglichkeit, die ATFs näher zu untersuchen.

Presentation materials

There are no materials yet.