In diesem Poster präsentieren wir eine umfassende Darstellung verschiedener abgeleiteter Textformate (ATF) und auch wie diese im Zusammenhang mit großen Sprachmodelle (LLMs) eingesetzt werden können. Abgeleitete Textformate (ATF) sind systematisch generierte Repräsentationen eines Originaltextes, bei dem einerseits die Anwendung bestimmter Verfahren des Text und Data Mining noch möglich sind,...
This poster delves into the critical role of authority files in advancing AI-based knowledge management, focusing on the context of the German National Library's (DNB) efforts. Authority files of the Gemeinsame Normdatei (https://gnd.network/Webs/gnd/EN/Home/home_node.html) serve as the cornerstone for successful information retrieval, interoperability, and the overall effectiveness of AI...
Das Poster präsentiert Aspekte der Entwicklung eines Sprachmodells für die Normalisierung historischer Texte, die innerhalb von Text+ geschieht. Digitalisierte historische Dokumente sind eine wichtige Datengrundlage für Forschende in den Digital Humanities und anderen textbasierten Disziplinen. Je nach Textalter unterscheidet sich die Schreibung in historischen Texten mehr oder weniger...
With easy access to APIs that query large language models (LLM), a good number of scientific disciplines explore their use for tasks for which they have previously used human resources or traditional technologies. LLM have also been explored in lexicography to support experts in constructing and maintaining dictionaries. There are some members of the field who even proclaim the death of...
Das Datenkompetenzzentrum HERMES – Humanities Education in Research, Data, and Methods – widmet sich dem Bedarf an Aus-, Weiter- und Fortbildung und praxisorientierter Beratung im Bereich der Datenkompetenzen in der geistes- und kulturwissenschaftlichen Forschung und Lehre sowie in GLAM-Einrichtungen (Galleries, Libraries, Archives and Museums). HERMES etabliert Orte des Forschens, Lernens und...
In unserem Beitrag stellen wir Potenziale und konkrete Anwendungsbeispiele mittels Open AIs Whisper und generativen LLMs vor, die für verschiedene Phasen der Aufbereitung und Auswertung gesprochensprachlicher Daten der Projektarbeit darstellen. Unsere Vorschläge wurden an der Universität Hamburg im Rahmen des Text+ Daten und Kompetenzzentrum HZSK erarbeitet.
Konkret liegt der...
Die Korpuslinguistik besitzt jahrzehntelange Erfahrung im Umgang mit großen Textmengen, inklusive ihrer Beschaffung, Aufbereitung und Nutzung. Im Angesicht der aktuellen Trends im Bereich großer Sprachmodelle (large language models, LLMs) und den sich daraus ergebenden neuen Nutzungsszenarien, für die große, hochqualitative Textmengen unabdingbar sind, können von dieser Expertise aktuelle und...
Das Poster stellt ein hybrides Vorhaben an der Schnittstelle von rechtslinguistischer Forschung (Dissertationsvorhaben Universität Heidelberg) und Prototypenentwicklung vor, in dem Daten mit Sachverhaltsbeschreibungen zum Kindeswohl in familiengerichtlichen Verfahren automatisiert erfasst und hinsichtlich ihrer Wahrscheinlichkeit und Relevanz klassifiziert und visualisiert dargestellt werden...
Modellierung eines Wörterbuchs einer in der IT-basierten Linguistik unterrepräsentierten außereuropäischen Sprache als Linguistic Linked Open Data
Das Tamil Lexicon (TL) der Madras University ist ein von 1924-1939 in sechs Bänden und einem Nachtragsband erschienenes historisch-literarisches Wörterbuch und bis heute das umfangreichste lexikographische Werk der südindischen Tamilsprache mit...
The poster demonstrates how – within a very short time – LLMs underpinning text-generation and machine translation have become powerful agents for new types of language standardisation. As regards Standard English, LLMs help to entrench North American standards world-wide, although it needs to be borne in mind that the norms engineered into the algorithms do not fully correspond to traditional...
Vor dem Hintergrund der rasant fortschreitenden Entwicklung der Large Language Models (LLMs) sieht sich das NFDI-Konsortium Text+ in der Rolle, Perspektiven für die Einsatzmöglichkeiten generativer Sprachmodelle und Transformermodelle in der Wissenschaft aufzuzeigen. Mit beträchtlichen Beständen an Sprach- und Textdaten in seinen Datenzentren sowie leistungsfähigen Rechenzentren in den Reihen...
Einleitung
Dieser Beitrag präsentiert erste Ergebnisse des Text+ Kooperationsprojekts zur automatischen Extraktion von Tabellendaten aus historischen Zeitschriften. In diesem Projekt soll am Beispiel der historischen Zeitung “Swinemünder Badeanzeiger” eine Software-Pipeline zur automatischen Extraktion von Tabellendaten aus gescannten Zeitungen entwickelt werden. Der Swinemünder...
Die UB Bern, ZHB Luzern, ZB Zürich und UB Basel digitalisieren in Zusammenarbeit mit Google Books mit rund 300.000 Bänden einen großen Teil ihrer Bestände von 1700 bis 1900. Dieser digitale Bestand soll neben der Zugänglichkeit auf Google Books neue Möglichkeiten für die digitale und datengetriebene Forschung und Lehre bieten.
Die zentrale Frage ist dabei, wie Bibliotheken als Kultur- und...
In den Computational Literary Studies ist der Einsatz von KI-Sprachmodellen mittlerweile etabliert, um verschiedene Fragestellungen, die mit regelbasierten Methoden schwer zu fassen sind, zu untersuchen. Es zeigt sich, dass noch immer traditionelle Sprachmodelle wie BERT (Devlin et al., 2019) als Basis für Machine Learning-Modelle im Gegensatz zu large language models (LLMs) aus verschiedenen...
AI as a Service
Text- and language-based humanities offer extensive use-cases for Large Language Models(LLMs). Text+ currently facilitates access to research data via the Text+ Registry, FederatedContent Search (FCS), and contributing partner’s data repositories. Through GWDG, a nationalhigh-performance computing and AI center, an additional web service will be made available onthe Text+...
Ein vielversprechender Einsatzzweck für LLMs ist die automatische Beantwortung von Fragen. Halluzinationen, Intransparenz bzgl. der Quellen zur Antwortgenerierung sowie fehlende Aktualität der Trainingsdaten erschweren jedoch den produktiven Einsatz vor allem in Spezialdomänen (vgl. Ji et al., 2023) wie beispielsweise der deutschen Grammatik.
Retrieval Augmented Generation (RAG) ist eine...
Die Fortschritte in der Entwicklung großer Sprachmodelle und deren Popularisierung sowie breite Anwendbarkeit durch kommerzielle Angebote wie OpenAIs Produktportfolio (ChatGPT) haben das Potenzial zu einer grundlegenden Neugestaltung von Arbeitsprozessen bei der Erstellung sowie bei der Nutzung von digitalen Wörterbüchern. So belegen Studien [1] für Lernerwörterbücher bereits, dass in Lese-...
Die Postersession mit flankierender System Demonstration der Text+ RAGestry (https://fdm.awhamburg.de/ragestry) führt in die Methoden der Retrieval Augmented Generation (im folgenden RAG), also der Nutzung eigener Datenquellen in Verbindung mit LLM-Technologie, ein. Dabei sollen sowohl die Potenziale eines Zugangs zu Diensten aus Infrastrukturprojekten als auch des disziplinspezifischen...
Auch wenn die großen Entwicklungssprünge der Large Language Models (LLMs) noch nicht lange zurückliegen, wird ihr Potenzial für die Wissenschaft – und insbesondere die Digital Humanities – von vielen Forschenden als bahnbrechend eingeschätzt. Für das NFDI-Konsortium Text+stelltsichdaherdieFrage,wieesaktivzurEntwicklungundNutzunggroßerSprachmodelle beitragen kann. Die konsortiumsinterne Task...