3. Text+ Plenary 2024

Name: 3. Text+ Plenary 2024
Start: 2024-10-09T16:00:00+02:00
End: 2024-10-11T14:00:00+02:00
Location: Mannheim, Schloss

9–11 Oct 2024

Mannheim, Schloss

Europe/Berlin timezone

Contact

office@text-plus.org

Session

Text+ Plenary Tag 1

10 Oct 2024, 16:45

O 138, Fuchs-Petrolub-Saal (Schloss, 68161 Mannheim)

O 138, Fuchs-Petrolub-Saal

Schloss, 68161 Mannheim

There are no materials yet.

79. Anwendungen und Methoden der Abgeleiteten Textformate (ATF) im Kontext von LLMs

Florian Barth (Georg-August-Universität Göttingen), José Calvo Tello (Georg-August-Universität Göttingen), Keli Du (Universität Würzburg), Philippe Genêt (Deutsche Nationalbibliothek), Peter Leinen (Deutsche Nationalbibliothek), Jörg Knappen (Universität des Saarlandes), Thorsten Trippel (Leibniz-Institut für Deutsche Sprache), Andreas Witt (Leibniz-Institut für Deutsche Sprache)

10/10/2024, 16:45

In diesem Poster präsentieren wir eine umfassende Darstellung verschiedener abgeleiteter Textformate (ATF) und auch wie diese im Zusammenhang mit großen Sprachmodelle (LLMs) eingesetzt werden können. Abgeleitete Textformate (ATF) sind systematisch generierte Repräsentationen eines Originaltextes, bei dem einerseits die Anwendung bestimmter Verfahren des Text und Data Mining noch möglich sind,...

78. Empowering AI Knowledge Management: A Community-Organizing Approach to Enhance Fidelity and Quality through Authority File Use in Metadata

Barbara Fischer (Deutsche Nationalbibliothek)

10/10/2024, 16:45

This poster delves into the critical role of authority files in advancing AI-based knowledge management, focusing on the context of the German National Library's (DNB) efforts. Authority files of the Gemeinsame Normdatei (https://gnd.network/Webs/gnd/EN/Home/home_node.html) serve as the cornerstone for successful information retrieval, interoperability, and the overall effectiveness of AI...

88. Entwicklung von Transformer-basierten Modellen für historische Textnormalisierung

Yannic Bracke (Berlin-Brandenburgische Akademie der Wissenschaften), Gregor Middell (Berlin-Brandenburgische Akademie der Wissenschaften), Alexander Geyken (Berlin-Brandenburgische Akademie der Wissenschaften)

10/10/2024, 16:45

Das Poster präsentiert Aspekte der Entwicklung eines Sprachmodells für die Normalisierung historischer Texte, die innerhalb von Text+ geschieht. Digitalisierte historische Dokumente sind eine wichtige Datengrundlage für Forschende in den Digital Humanities und anderen textbasierten Disziplinen. Je nach Textalter unterscheidet sich die Schreibung in historischen Texten mehr oder weniger...

81. Evaluation of LLMs to Support the Development of GermaNet

Reinhild Barkey (Eberhard Karls Universität Tübingen), Erhard Hinrichs (Eberhard Karls Universität Tübingen), Marie Hinrichs (Eberhard Karls Universität Tübingen), Kimberly Sharp (Eberhard Karls Universität Tübingen), Claus Zinn (Eberhard Karls Universität Tübingen)

10/10/2024, 16:45

With easy access to APIs that query large language models (LLM), a good number of scientific disciplines explore their use for tasks for which they have previously used human resources or traditional technologies. LLM have also been explored in lexicography to support experts in constructing and maintaining dictionaries. There are some members of the field who even proclaim the death of...

83. HERMES – Humanities Education in Research, Data, and Methods

Ruth Reiche (Technische Universität Darmstadt), Andrea Rapp (Technische Universität Darmstadt), Anna Schlander (Technische Universität Darmstadt), Ksenia Stanicka-Brzezicka (Philipps-Universität Marburg), Johanna Konstanciak (Universität Trier)

10/10/2024, 16:45

Das Datenkompetenzzentrum HERMES – Humanities Education in Research, Data, and Methods – widmet sich dem Bedarf an Aus-, Weiter- und Fortbildung und praxisorientierter Beratung im Bereich der Datenkompetenzen in der geistes- und kulturwissenschaftlichen Forschung und Lehre sowie in GLAM-Einrichtungen (Galleries, Libraries, Archives and Museums). HERMES etabliert Orte des Forschens, Lernens und...

90. KI-gestützte Workflows im Umgang mit gesprochensprachlichen Daten

Alina Hemmer (Universität Hamburg)

10/10/2024, 16:45

In unserem Beitrag stellen wir Potenziale und konkrete Anwendungsbeispiele mittels Open AIs Whisper und generativen LLMs vor, die für verschiedene Phasen der Aufbereitung und Auswertung gesprochensprachlicher Daten der Projektarbeit darstellen. Unsere Vorschläge wurden an der Universität Hamburg im Rahmen des Text+ Daten und Kompetenzzentrum HZSK erarbeitet.

Konkret liegt der...

92. Korpusproduktion in Zeiten großer Sprachmodelle

Thomas Eckart (Sächsische Akademie der Wissenschaften zu Leipzig), Christopher Schröder (Sächsische Akademie der Wissenschaften zu Leipzig), Erik Körner (Sächsische Akademie der Wissenschaften zu Leipzig), Felix Helfer (Sächsische Akademie der Wissenschaften zu Leipzig), Frank Binder (Sächsische Akademie der Wissenschaften zu Leipzig)

10/10/2024, 16:45

Die Korpuslinguistik besitzt jahrzehntelange Erfahrung im Umgang mit großen Textmengen, inklusive ihrer Beschaffung, Aufbereitung und Nutzung. Im Angesicht der aktuellen Trends im Bereich großer Sprachmodelle (large language models, LLMs) und den sich daraus ergebenden neuen Nutzungsszenarien, für die große, hochqualitative Textmengen unabdingbar sind, können von dieser Expertise aktuelle und...

94. Legal Linguistic Memos mit Large Language Models: Automatisierte Erfassung und Klassifizierung von Sachverhaltsbeschreibungen im Familienrecht

Margret Mundorf (Universität Heidelberg)

10/10/2024, 16:45

Das Poster stellt ein hybrides Vorhaben an der Schnittstelle von rechtslinguistischer Forschung (Dissertationsvorhaben Universität Heidelberg) und Prototypenentwicklung vor, in dem Daten mit Sachverhaltsbeschreibungen zum Kindeswohl in familiengerichtlichen Verfahren automatisiert erfasst und hinsichtlich ihrer Wahrscheinlichkeit und Relevanz klassifiziert und visualisiert dargestellt werden...

82. LLOD-isierung des Madras Tamil Lexicon: Modellierung eines Wörterbuchs einer in der IT-basierten Linguistik unterrepräsentierten außereuropäischen Sprache als Linguistic Linked Open Data

Liudmila Olalde (Heidelberger Akademie der Wissenschaften), Thomas Malten (Heidelberger Akademie der Wissenschaften), Frank Grieshaber (Heidelberger Akademie der Wissenschaften)

10/10/2024, 16:45

Modellierung eines Wörterbuchs einer in der IT-basierten Linguistik unterrepräsentierten außereuropäischen Sprache als Linguistic Linked Open Data

Das Tamil Lexicon (TL) der Madras University ist ein von 1924-1939 in sechs Bänden und einem Nachtragsband erschienenes historisch-literarisches Wörterbuch und bis heute das umfangreichste lexikographische Werk der südindischen Tamilsprache mit...

75. More uniformity and more diversity at the same time: LLMs and a 21st century standardisation paradox

Christian Mair (Universität Freiburg)

10/10/2024, 16:45

The poster demonstrates how – within a very short time – LLMs underpinning text-generation and machine translation have become powerful agents for new types of language standardisation. As regards Standard English, LLMs help to entrench North American standards world-wide, although it needs to be borne in mind that the norms engineered into the algorithms do not fully correspond to traditional...

91. Perspektiven des Einsatzes von LLM in Text+

Florian Barth (Niedersächsische Staats- und Universitätsbibliothek Göttingen), Yannic Bracke (Berlin-Brandenburgische Akademie der Wissenschaften), Philippe Genêt (Deutsche Nationalbibliothek), Erik Körner (Sächsische Akademie der Wissenschaften), Peter Leinen (Deutsche Nationalbibliothek), Pia Schwarz (Leibniz-Institut für Deutsche Sprache), Claus Zinn (Eberhard Karls Universität Tübingen)

10/10/2024, 16:45

Vor dem Hintergrund der rasant fortschreitenden Entwicklung der Large Language Models (LLMs) sieht sich das NFDI-Konsortium Text+ in der Rolle, Perspektiven für die Einsatzmöglichkeiten generativer Sprachmodelle und Transformermodelle in der Wissenschaft aufzuzeigen. Mit beträchtlichen Beständen an Sprach- und Textdaten in seinen Datenzentren sowie leistungsfähigen Rechenzentren in den Reihen...

95. SwineBad: Tabellenextraktion und Informationsstrukturierung aus dem Swinemünder Badeanzeiger

Steffen Steiner (Hochschule Wismar), Frank Krüger (Hochschule Wismar)

10/10/2024, 16:45

Einleitung

Dieser Beitrag präsentiert erste Ergebnisse des Text+ Kooperationsprojekts zur automatischen Extraktion von Tabellendaten aus historischen Zeitschriften. In diesem Projekt soll am Beispiel der historischen Zeitung “Swinemünder Badeanzeiger” eine Software-Pipeline zur automatischen Extraktion von Tabellendaten aus gescannten Zeitungen entwickelt werden. Der Swinemünder...

77. SwissGB4Science - ein Volltext Korpus für die Forschung

Eric Dubey (Universität Basel), Matteo Lorenzini (Universität Basel), Martin Reisacher (Universität Basel), Tim Rüdiger (Zentralbibliothek Zürich)

10/10/2024, 16:45

Die UB Bern, ZHB Luzern, ZB Zürich und UB Basel digitalisieren in Zusammenarbeit mit Google Books mit rund 300.000 Bänden einen großen Teil ihrer Bestände von 1700 bis 1900. Dieser digitale Bestand soll neben der Zugänglichkeit auf Google Books neue Möglichkeiten für die digitale und datengetriebene Forschung und Lehre bieten.

Die zentrale Frage ist dabei, wie Bibliotheken als Kultur- und...

76. Synthetische Datensätze in der CLS

Daniel Kababgi (Universität Bielefeld), Emilie Sitter (Universität Bielefeld), Robin Martin Aust (Universität Bielefeld), Marie-Christine Boucher (Universität Bielefeld), Berenike Herrmann (Universität Bielefeld)

10/10/2024, 16:45

In den Computational Literary Studies ist der Einsatz von KI-Sprachmodellen mittlerweile etabliert, um verschiedene Fragestellungen, die mit regelbasierten Methoden schwer zu fassen sind, zu untersuchen. Es zeigt sich, dass noch immer traditionelle Sprachmodelle wie BERT (Devlin et al., 2019) als Basis für Machine Learning-Modelle im Gegensatz zu large language models (LLMs) aus verschiedenen...

89. Text+ LLM Service

Alexander Steckel (Georg-August-Universität Göttingen), Umut Basaran (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen), Stefan Buddenbohm (Georg-August-Universität Göttingen), Maik Wegener (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen), Philipp Wieder (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen)

10/10/2024, 16:45

AI as a Service

Text- and language-based humanities offer extensive use-cases for Large Language Models(LLMs). Text+ currently facilitates access to research data via the Text+ Registry, FederatedContent Search (FCS), and contributing partner’s data repositories. Through GWDG, a nationalhigh-performance computing and AI center, an additional web service will be made available onthe Text+...

80. Wissen, wen man fragt – Agentic RAG für Automatisches Question Answering in der Domäne deutscher Grammatik

Christian Lang (Leibniz-Institut für Deutsche Sprache), Ngoc Duyen Tanja Tu (Leibniz-Institut für Deutsche Sprache), Roman Schneider (Leibniz-Institut für Deutsche Sprache)

10/10/2024, 16:45

Ein vielversprechender Einsatzzweck für LLMs ist die automatische Beantwortung von Fragen. Halluzinationen, Intransparenz bzgl. der Quellen zur Antwortgenerierung sowie fehlende Aktualität der Trainingsdaten erschweren jedoch den produktiven Einsatz vor allem in Spezialdomänen (vgl. Ji et al., 2023) wie beispielsweise der deutschen Grammatik.

Retrieval Augmented Generation (RAG) ist eine...

87. “Computer, was bedeutet ‘Tiki-Taka’?” Eine Studie zur Generierung von Definitionsparaphrasen für Bedeutungswörterbücher am Beispiel des DWDS

Alexander Geyken (Berlin-Brandenburgische Akademie der Wissenschaften), Gregor Middell (Berlin-Brandenburgische Akademie der Wissenschaften)

10/10/2024, 16:45

Die Fortschritte in der Entwicklung großer Sprachmodelle und deren Popularisierung sowie breite Anwendbarkeit durch kommerzielle Angebote wie OpenAIs Produktportfolio (ChatGPT) haben das Potenzial zu einer grundlegenden Neugestaltung von Arbeitsprozessen bei der Erstellung sowie bei der Nutzung von digitalen Wörterbüchern. So belegen Studien [1] für Lernerwörterbücher bereits, dass in Lese-...

93. “fRAG Deine Daten doch selbst” – Potenziale des Einsatzes von Retrieval Augmented Generation für Forschungsdaten und Forschungsdateninfrastrukturen

Timm Lehmberg (Akademie der Wissenschaften in Hamburg)

10/10/2024, 16:45

Die Postersession mit flankierender System Demonstration der Text+ RAGestry (https://fdm.awhamburg.de/ragestry) führt in die Methoden der Retrieval Augmented Generation (im folgenden RAG), also der Nutzung eigener Datenquellen in Verbindung mit LLM-Technologie, ein. Dabei sollen sowohl die Potenziale eines Zugangs zu Diensten aus Infrastrukturprojekten als auch des disziplinspezifischen...

84. “Nun sag', wie hast du's mit den LLMs?” – Antworten der Text+ Community auf die Gretchenfrage

Stine Ziegler (Universität Duisburg-Essen), Philippe Genêt (Deutsche Nationalbibliothek)

10/10/2024, 16:45

Auch wenn die großen Entwicklungssprünge der Large Language Models (LLMs) noch nicht lange zurückliegen, wird ihr Potenzial für die Wissenschaft – und insbesondere die Digital Humanities – von vielen Forschenden als bahnbrechend eingeschätzt. Für das NFDI-Konsortium Text+stelltsichdaherdieFrage,wieesaktivzurEntwicklungundNutzunggroßerSprachmodelle beitragen kann. Die konsortiumsinterne Task...

Building timetable...

Choose timezone

3. Text+ Plenary 2024

Contact

Presentation materials