Speakers
Description
Vor dem Hintergrund der rasant fortschreitenden Entwicklung der Large Language Models (LLMs) sieht sich das NFDI-Konsortium Text+ in der Rolle, Perspektiven für die Einsatzmöglichkeiten generativer Sprachmodelle und Transformermodelle in der Wissenschaft aufzuzeigen. Mit beträchtlichen Beständen an Sprach- und Textdaten in seinen Datenzentren sowie leistungsfähigen Rechenzentren in den Reihen seiner Partnerinstitutionen erscheint Text+ prädestiniert, sich des Themas innerhalb der NFDI anzunehmen.
Seit Ende 2023 berät die Task Force Große Sprachmodelle innerhalb von Text+ über Nutzen und Potential von LLMs in der Forschung und die Angebote, die Text+ hierzu beisteuern kann. Die Task Force hat sich zum Ziel gesetzt, Anwendungen und Dienste für die Text+ Communities zur Verfügung stellen, die auf LLMs zurückgreifen. Darüber hinaus wollen die Text+ Zentren gezielt Sprach- und Textressourcen qualitativ für das Training von Sprachmodellen aufbereiten. Modelle (Fine-Tuning vortrainierter Modelle oder RAG) für spezifische Aufgaben sollen von Text+ ebenso bereitgestellt werden wie Ressourcen – also Daten und Rechenleistung – für das Fine-Tuning von Modellen durch Forschende. Ferner will Text+ ausloten, wie Material mit (urheber-)rechtlichen Zugangsbeschränkungen in LLMs integriert werden kann, ob und wie LLMs mit abgeleiteten Textformaten trainiert werden können und für welche Forschungsfragen LLMs geeignet sind.
Dieses Poster skizziert die oben genannten Ziele von Text+ im Hinblick auf LLMs und exemplifiziert diese anhand folgender konkreter Use Cases, die sukzessive umgesetzt werden sollen.
- Daten-Preprocessing am Beispiel Named Entity Recognition (NER): LLMs unterstützen beim Daten-Preprocessing zur späteren Anwendung eines speziell trainierten NER-Modells.
- Laufzeitumgebung für NLP-Tools: Klassifikatoren (z.B. aus MONAPipe in Text+) werden in Containern via API bereitgestellt und mit GPU-Nodes zur effektiven Nutzung von Deep Learning-Modellen versehen.
- Generierung von Beispielsätzen bzw. von Kontext: Hier sollen LLMs dabei unterstützen, Einträge im lexikalisch-semantischen Wortnetz GermaNet anzureichern.
- Query Generation zur Suchunterstützung in der Federated Content Search (FCS) von Text+: Ein LLM-basierter ChatBot soll bei der Exploration der FCS unterstützen und dabei helfen, natürlichsprachliche Anfragen in syntaktisch korrekte Suchanfragen für die FCS zu übersetzen.
- Entity Linking: LLMs unterstützen bei der Verknüpfung von Named Entities in Volltexten mit Normdaten wie der GND oder Knowledge Bases wie Wikidata.
- Historische Normalisierungen: Mit Daten aus historischen Beständen nachtrainierte LLMs passen abweichende Schreibweisen aus verschiedenen Epochen an.