ATF: WTF? Was Sie schon immer über abgeleitete Textformate wissen wollten, aber bisher nicht zu fragen wagten.

Europe/Berlin
virtuell

virtuell

Description

Abgeleitete Textformate (ATFs) sind ein spannendes Werkzeug für die geisteswissenschaftliche Forschung – aber was genau steckt dahinter? Dieser Workshop bietet eine praxisnahe Einführung in das Konzept, die Anwendungsmöglichkeiten und die rechtlichen sowie technischen Rahmenbedingungen von ATFs. Forschende aus verschiedenen Bereichen geben Einblicke in konkrete Workflows, Use Cases und Standards wie DIN 19461.

Am ersten Tag (12. November) stehen Impulsvorträge und Diskussionen im Mittelpunkt, während am zweiten Tag (13. November, AG-intern) gemeinsam Lehr- und Lernmaterialien erarbeitet werden, um das Thema nachhaltig zu verankern.

Der Workshop richtet sich an alle, insbesondere innerhalb von Text+, die mit digitalen Texten arbeiten und neugierig sind, wie man aus ihnen mehr herausholen kann – ganz gleich, ob in der Forschung, Lehre oder Infrastrukturentwicklung. Der zweite Tag richtet sich besonders an die Personen in Text+, aber interessierte Teilnehmende können sich gerne anschließen. 

  • Wednesday 12 November
    • 13:00 13:10
      Begrüßung 10m
    • 13:10 13:30
      Was sind abgeleitete Textformate? 20m

      Abgeleitete Textformate sind Teil einer Strategie, mit der die Digital Humanities auf die folgende Situation reagieren: Das Urheberrecht ermöglicht für viele interessante, aktuelle Textbestände zwar die Analyse, erlaubt aber wichtige Open Science-Praktiken für Transparenz, Reproduzierbarkeit und Nachnutzbarkeit der Daten nicht. Konkret sind Abgeleitete Textformate gezielte Transformationen von Volltexten, bei denen urheberrechtlich relevante Informationen entfernt werden, aber auf eine Weise, dass viele DH-Methoden weiterhin angewandt werden können. Diese ATF können daher anderen Forschenden frei verfügbar gemacht werden.

      Speaker: Christof Schöch (Uni Trier)
    • 13:30 13:50
      Wofür kann man abgeleitete Textformate nutzen? 20m

      In diesem Vortrag werden die allgemeinen Anwendungsszenarien für ATF sowie die folgenden vier Schritte vorgestellt: Auswahl, Vorbereitung, Anwendung und Veröffentlichung der ATF. Ziel des Vortrags ist es, den Teilnehmer:innen die Arbeitsabläufe von ATF näherzubringen, damit sie ATF entsprechend ihren Forschungsanforderungen auswählen und einsetzen können.

      Speaker: Keli Du (Uni Trier)
    • 13:50 14:40
      Welche Forschungsfragen kann ich mit abgeleiteten Textformaten beantworten? 50m

      In diesem Slot beschäftigen wir uns anhand von konkreten Beispielen mit Forschungsfragen, die mit ATF bearbeitet werden können:

      Derivate im Fleischwolf: ATFs für große Sprachmodelle
      Arden Zimmermann (Deutsche Nationalbibliothek)
      Welche rechtlichen und technischen Probleme werfen urheberrechtlich geschützte Texte im Training von großen Sprachmodellen auf? Wie kann der unendende Datenhunger der Machine-Learning-Algorithmen und -Forschenden gestillt werden, ohne die Originaltexte den Nutzenden preiszugeben? Es werden Erkenntnisse aus dem CORAL-Projekt vorgestellt und Lösungswege mit ATFs aufgezeigt.

      Heftromane als ATFs
      Fotis Jannidis/Leo Konle (Uni Würzburg)
      Vorgestellt werden drei Analysen von Heftromanen: die Identifikation kultureller Referenzen, die geografische Aufbereitung von Ortsnennungen und die Untersuchung der Einführung neuer Entitäten in Science-Fiction-Erzählungen. Die Beispiele demonstrieren, wie ATFs skalierbare Einblicke in narrative Muster und das kulturelle Bezugssystem der Texte ermöglichen und wo Grenzen liegen.

      Sentiment-Analyse mit ATFs
      Keli Du (Uni Trier)
      Texte als ATFs können zum Fine-tuning eines BERT-Modells für die Sentiment-Klassifikation verwendet werden und die Genauigkeit der Klassifikation kann bis zu einem gewissen Grad aufrechterhalten werden, solange die Reduzierung der Informationen bestimmte Grenzen einhält. Zum Beispiel, wenn 40% der Token durch POS-Tags ersetzt werden, werden Lesbarkeit und Erkennbarkeit der Texte drastisch, die Leistung der Sentiment-Klassifikation aber nur leicht beeinträchtigt.

      Speakers: Arden Zimmermann (Deutsche Nationalbibliothek), Fotis Jannidis (Uni Würzburg), Keli Du (Uni Trier), Leo Konle (Uni Würzburg)
    • 14:40 15:10
      Kaffeepause 30m
    • 15:10 15:20
      Standardisiert ableiten: DIN 19461 für ATFs 10m

      Der Vortrag gibt einen Einblick in die Struktur, Zielsetzung und Anwendungsmöglichkeiten der DIN 19461, einer Norm zur Beschreibung und Klassifizierung abgeleiteter Textformate. Diese Formate ermöglichen es, digitale Texte rechtssicher und technisch nutzbar für Forschung und Analyse aufzubereiten – etwa durch gezielte Reduktion oder Anreicherung von Informationen. Anhand konkreter Beispiele wird gezeigt, wie die Norm hilft, Transparenz und Wiederverwendbarkeit in der Arbeit mit Textdaten zu fördern, insbesondere im Spannungsfeld zwischen rechtlichen Anforderungen und wissenschaftlicher Nachnutzung.

      Speaker: Thorsten Trippel (Eberhard Karls Universität Tübingen)
    • 15:20 15:40
      Wie ist die rechtliche Situation? 20m

      In diesem Vortrag werden wir einen Überblick über die rechtlichen Grundlagen für die Erstellung und Verwendung von ATFs geben. Hierbei beschäftigen wir uns zunächst mit der Frage, welche urheberrechtlichen Schrankenregelungen die Umwandlung urheberrechtlich geschützten Materials in ein ATF erlauben, und schauen uns dann an, unter welchen Voraussetzungen ein ATF keinem urheberrechtlichen Schutz mehr unterliegt und somit frei verwendet werden kann.

      Speakers: Gianna Iacino (Deutsche Nationalbibliothek), Paweł Kamocki (IDS Mannheim)
    • 15:40 16:30
      Workflows 50m

      Publikations-Workflows für ATFs
      José Calvo Tello, Mathias Göbel, Florian Barth (Niedersächsische Staats- und Universitätsbibliothek Göttingen)
      In diesem Vortrag werden exemplarisch zwei Projekte vorgestellt, die ATFs in TEI modelliert und im TextGrid-Repository (TGR) publiziert haben: "American Drama Korpus" und "CoNSSA: Corpus of Novels of the Spanish Silver Age". Ein Vorteil der TEI-Dokumente ist, dass sie verschiedene Arten von Daten enthalten – Text, Struktur, Metadaten, Annotationen etc. und diese Strukturannotationen in ATFs abgebildet werden können. Im Vortrag wird auch besprochen, wie neue Publikationsworkflows und spezifische Metadatenparameter die Auffindbarkeit von ATFs verbessern.

      Methoden zur Erstellung von ATFs
      Keli Du (Uni Trier), Florian Barth (Niedersächsische Staats- und Universitätsbibliothek Göttingen)
      Im Vortrag werden zentrale Methoden zur Erstellung von ATFs erläutert, die auf einer Kombination konkreter Operationen (“replace”, “randomize”, “keep”) auf verschiedenen Granularitätsebenen des Textes (z.B. Sätze, Teilsätze) basieren. Je nach Operation können bestimmte Strukturelemente ersetzt werden (z.B. POS-Tags). Wir demonstrieren die konkrete Implementierung der Methoden anhand einer Komponente in der Community-basierten NLP-Pipeline MONAPipe.

      Evaluation von Rekonstruierbarkeit und Grundlagenforschung
      Philippe Genêt (Deutsche Nationalbibliothek)
      In diesem Vortrag wird anhand der Heftromane exemplarisch vorgestellt, wie durch experimentelle Evaluation das goldene Mittel-ATF gefunden werden kann, das sowohl den Interessen der Forschenden entgegenkommt und zugleich das Urheberrecht wahrt. In einem Ausblick wird das DFG-Pilotprojekt "Forschen mit Derivaten" vorgestellt, das zum Ziel hat, systematisch geeignete ATFs für bestimmte Forschungsfragen zu identifizieren und diese rechtlich zu bewerten.

      Speakers: Flortian Barth (SUB Göttingen), José Calvo Tello (SUB Göttingen), Keli Du (Uni Trier), Mathias Göbel (SUB Göttingen), Philippe Genêt (Deutsche Nationalbibliothek)
    • 16:30 17:00
      Abschlussdiskussion Tag 1 30m
  • Thursday 13 November
    • 09:00 12:00
      Lehr-, Lern- und Dokumentationsmaterial-Erstellung 3h

      Blog-Posts zu den Themen von Tag 1

      Lernmaterial zu den Themen von Tag 1