-
Florian Barth (Georg-August-Universität Göttingen), José Calvo Tello (Georg-August-Universität Göttingen), Keli Du (Universität Würzburg), Philippe Genêt (Deutsche Nationalbibliothek), Peter Leinen (Deutsche Nationalbibliothek), Jörg Knappen (Universität des Saarlandes), Thorsten Trippel (Leibniz-Institut für Deutsche Sprache), Andreas Witt (Leibniz-Institut für Deutsche Sprache)10/10/2024, 16:45
In diesem Poster präsentieren wir eine umfassende Darstellung verschiedener abgeleiteter Textformate (ATF) und auch wie diese im Zusammenhang mit großen Sprachmodelle (LLMs) eingesetzt werden können. Abgeleitete Textformate (ATF) sind systematisch generierte Repräsentationen eines Originaltextes, bei dem einerseits die Anwendung bestimmter Verfahren des Text und Data Mining noch möglich sind,...
Go to contribution page -
Barbara Fischer (Deutsche Nationalbibliothek)10/10/2024, 16:45
This poster delves into the critical role of authority files in advancing AI-based knowledge management, focusing on the context of the German National Library's (DNB) efforts. Authority files of the Gemeinsame Normdatei (https://gnd.network/Webs/gnd/EN/Home/home_node.html) serve as the cornerstone for successful information retrieval, interoperability, and the overall effectiveness of AI...
Go to contribution page -
Yannic Bracke (Berlin-Brandenburgische Akademie der Wissenschaften), Gregor Middell (Berlin-Brandenburgische Akademie der Wissenschaften), Alexander Geyken (Berlin-Brandenburgische Akademie der Wissenschaften)10/10/2024, 16:45
Das Poster präsentiert Aspekte der Entwicklung eines Sprachmodells für die Normalisierung historischer Texte, die innerhalb von Text+ geschieht. Digitalisierte historische Dokumente sind eine wichtige Datengrundlage für Forschende in den Digital Humanities und anderen textbasierten Disziplinen. Je nach Textalter unterscheidet sich die Schreibung in historischen Texten mehr oder weniger...
Go to contribution page -
Reinhild Barkey (Eberhard Karls Universität Tübingen), Erhard Hinrichs (Eberhard Karls Universität Tübingen), Marie Hinrichs (Eberhard Karls Universität Tübingen), Kimberly Sharp (Eberhard Karls Universität Tübingen), Claus Zinn (Eberhard Karls Universität Tübingen)10/10/2024, 16:45
With easy access to APIs that query large language models (LLM), a good number of scientific disciplines explore their use for tasks for which they have previously used human resources or traditional technologies. LLM have also been explored in lexicography to support experts in constructing and maintaining dictionaries. There are some members of the field who even proclaim the death of...
Go to contribution page -
Ruth Reiche (Technische Universität Darmstadt), Andrea Rapp (Technische Universität Darmstadt), Anna Schlander (Technische Universität Darmstadt), Ksenia Stanicka-Brzezicka (Philipps-Universität Marburg), Johanna Konstanciak (Universität Trier)10/10/2024, 16:45
Das Datenkompetenzzentrum HERMES – Humanities Education in Research, Data, and Methods – widmet sich dem Bedarf an Aus-, Weiter- und Fortbildung und praxisorientierter Beratung im Bereich der Datenkompetenzen in der geistes- und kulturwissenschaftlichen Forschung und Lehre sowie in GLAM-Einrichtungen (Galleries, Libraries, Archives and Museums). HERMES etabliert Orte des Forschens, Lernens und...
Go to contribution page -
Alina Hemmer (Universität Hamburg)10/10/2024, 16:45
In unserem Beitrag stellen wir Potenziale und konkrete Anwendungsbeispiele mittels Open AIs Whisper und generativen LLMs vor, die für verschiedene Phasen der Aufbereitung und Auswertung gesprochensprachlicher Daten der Projektarbeit darstellen. Unsere Vorschläge wurden an der Universität Hamburg im Rahmen des Text+ Daten und Kompetenzzentrum HZSK erarbeitet.
Konkret liegt der...
Go to contribution page -
Thomas Eckart (Sächsische Akademie der Wissenschaften zu Leipzig), Christopher Schröder (Sächsische Akademie der Wissenschaften zu Leipzig), Erik Körner (Sächsische Akademie der Wissenschaften zu Leipzig), Felix Helfer (Sächsische Akademie der Wissenschaften zu Leipzig), Frank Binder (Sächsische Akademie der Wissenschaften zu Leipzig)10/10/2024, 16:45
Die Korpuslinguistik besitzt jahrzehntelange Erfahrung im Umgang mit großen Textmengen, inklusive ihrer Beschaffung, Aufbereitung und Nutzung. Im Angesicht der aktuellen Trends im Bereich großer Sprachmodelle (large language models, LLMs) und den sich daraus ergebenden neuen Nutzungsszenarien, für die große, hochqualitative Textmengen unabdingbar sind, können von dieser Expertise aktuelle und...
Go to contribution page -
Margret Mundorf (Universität Heidelberg)10/10/2024, 16:45
Das Poster stellt ein hybrides Vorhaben an der Schnittstelle von rechtslinguistischer Forschung (Dissertationsvorhaben Universität Heidelberg) und Prototypenentwicklung vor, in dem Daten mit Sachverhaltsbeschreibungen zum Kindeswohl in familiengerichtlichen Verfahren automatisiert erfasst und hinsichtlich ihrer Wahrscheinlichkeit und Relevanz klassifiziert und visualisiert dargestellt werden...
Go to contribution page -
Liudmila Olalde (Heidelberger Akademie der Wissenschaften), Thomas Malten (Heidelberger Akademie der Wissenschaften), Frank Grieshaber (Heidelberger Akademie der Wissenschaften)10/10/2024, 16:45
Modellierung eines Wörterbuchs einer in der IT-basierten Linguistik unterrepräsentierten außereuropäischen Sprache als Linguistic Linked Open Data
Das Tamil Lexicon (TL) der Madras University ist ein von 1924-1939 in sechs Bänden und einem Nachtragsband erschienenes historisch-literarisches Wörterbuch und bis heute das umfangreichste lexikographische Werk der südindischen Tamilsprache mit...
Go to contribution page -
Christian Mair (Universität Freiburg)10/10/2024, 16:45
The poster demonstrates how – within a very short time – LLMs underpinning text-generation and machine translation have become powerful agents for new types of language standardisation. As regards Standard English, LLMs help to entrench North American standards world-wide, although it needs to be borne in mind that the norms engineered into the algorithms do not fully correspond to traditional...
Go to contribution page -
Florian Barth (Niedersächsische Staats- und Universitätsbibliothek Göttingen), Yannic Bracke (Berlin-Brandenburgische Akademie der Wissenschaften), Philippe Genêt (Deutsche Nationalbibliothek), Erik Körner (Sächsische Akademie der Wissenschaften), Peter Leinen (Deutsche Nationalbibliothek), Pia Schwarz (Leibniz-Institut für Deutsche Sprache), Claus Zinn (Eberhard Karls Universität Tübingen)10/10/2024, 16:45
Vor dem Hintergrund der rasant fortschreitenden Entwicklung der Large Language Models (LLMs) sieht sich das NFDI-Konsortium Text+ in der Rolle, Perspektiven für die Einsatzmöglichkeiten generativer Sprachmodelle und Transformermodelle in der Wissenschaft aufzuzeigen. Mit beträchtlichen Beständen an Sprach- und Textdaten in seinen Datenzentren sowie leistungsfähigen Rechenzentren in den Reihen...
Go to contribution page -
Steffen Steiner (Hochschule Wismar), Frank Krüger (Hochschule Wismar)10/10/2024, 16:45
Einleitung
Dieser Beitrag präsentiert erste Ergebnisse des Text+ Kooperationsprojekts zur automatischen Extraktion von Tabellendaten aus historischen Zeitschriften. In diesem Projekt soll am Beispiel der historischen Zeitung “Swinemünder Badeanzeiger” eine Software-Pipeline zur automatischen Extraktion von Tabellendaten aus gescannten Zeitungen entwickelt werden. Der Swinemünder...
Go to contribution page -
Eric Dubey (Universität Basel), Matteo Lorenzini (Universität Basel), Martin Reisacher (Universität Basel), Tim Rüdiger (Zentralbibliothek Zürich)10/10/2024, 16:45
Die UB Bern, ZHB Luzern, ZB Zürich und UB Basel digitalisieren in Zusammenarbeit mit Google Books mit rund 300.000 Bänden einen großen Teil ihrer Bestände von 1700 bis 1900. Dieser digitale Bestand soll neben der Zugänglichkeit auf Google Books neue Möglichkeiten für die digitale und datengetriebene Forschung und Lehre bieten.
Die zentrale Frage ist dabei, wie Bibliotheken als Kultur- und...
Go to contribution page -
Daniel Kababgi (Universität Bielefeld), Emilie Sitter (Universität Bielefeld), Robin Martin Aust (Universität Bielefeld), Marie-Christine Boucher (Universität Bielefeld), Berenike Herrmann (Universität Bielefeld)10/10/2024, 16:45
In den Computational Literary Studies ist der Einsatz von KI-Sprachmodellen mittlerweile etabliert, um verschiedene Fragestellungen, die mit regelbasierten Methoden schwer zu fassen sind, zu untersuchen. Es zeigt sich, dass noch immer traditionelle Sprachmodelle wie BERT (Devlin et al., 2019) als Basis für Machine Learning-Modelle im Gegensatz zu large language models (LLMs) aus verschiedenen...
Go to contribution page -
Alexander Steckel (Georg-August-Universität Göttingen), Umut Basaran (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen), Stefan Buddenbohm (Georg-August-Universität Göttingen), Maik Wegener (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen), Philipp Wieder (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen)10/10/2024, 16:45
AI as a Service
Text- and language-based humanities offer extensive use-cases for Large Language Models(LLMs). Text+ currently facilitates access to research data via the Text+ Registry, FederatedContent Search (FCS), and contributing partner’s data repositories. Through GWDG, a nationalhigh-performance computing and AI center, an additional web service will be made available onthe Text+...
Go to contribution page -
Christian Lang (Leibniz-Institut für Deutsche Sprache), Ngoc Duyen Tanja Tu (Leibniz-Institut für Deutsche Sprache), Roman Schneider (Leibniz-Institut für Deutsche Sprache)10/10/2024, 16:45
Ein vielversprechender Einsatzzweck für LLMs ist die automatische Beantwortung von Fragen. Halluzinationen, Intransparenz bzgl. der Quellen zur Antwortgenerierung sowie fehlende Aktualität der Trainingsdaten erschweren jedoch den produktiven Einsatz vor allem in Spezialdomänen (vgl. Ji et al., 2023) wie beispielsweise der deutschen Grammatik.
Retrieval Augmented Generation (RAG) ist eine...
Go to contribution page -
Alexander Geyken (Berlin-Brandenburgische Akademie der Wissenschaften), Gregor Middell (Berlin-Brandenburgische Akademie der Wissenschaften)10/10/2024, 16:45
Die Fortschritte in der Entwicklung großer Sprachmodelle und deren Popularisierung sowie breite Anwendbarkeit durch kommerzielle Angebote wie OpenAIs Produktportfolio (ChatGPT) haben das Potenzial zu einer grundlegenden Neugestaltung von Arbeitsprozessen bei der Erstellung sowie bei der Nutzung von digitalen Wörterbüchern. So belegen Studien [1] für Lernerwörterbücher bereits, dass in Lese-...
Go to contribution page -
Timm Lehmberg (Akademie der Wissenschaften in Hamburg)10/10/2024, 16:45
Die Postersession mit flankierender System Demonstration der Text+ RAGestry (https://fdm.awhamburg.de/ragestry) führt in die Methoden der Retrieval Augmented Generation (im folgenden RAG), also der Nutzung eigener Datenquellen in Verbindung mit LLM-Technologie, ein. Dabei sollen sowohl die Potenziale eines Zugangs zu Diensten aus Infrastrukturprojekten als auch des disziplinspezifischen...
Go to contribution page -
Stine Ziegler (Universität Duisburg-Essen), Philippe Genêt (Deutsche Nationalbibliothek)10/10/2024, 16:45
Auch wenn die großen Entwicklungssprünge der Large Language Models (LLMs) noch nicht lange zurückliegen, wird ihr Potenzial für die Wissenschaft – und insbesondere die Digital Humanities – von vielen Forschenden als bahnbrechend eingeschätzt. Für das NFDI-Konsortium Text+stelltsichdaherdieFrage,wieesaktivzurEntwicklungundNutzunggroßerSprachmodelle beitragen kann. Die konsortiumsinterne Task...
Go to contribution page
Choose timezone
Your profile timezone: