Conveners
Slot #2: Aufbau und KI-gestützte Nutzung klinischer und agrarwissenschaftlicher Textkorpora
- Abanoub Abdelmalak (ZB MED)
- Juliane Fluck (ZB MED)
Slot #2: CLARINs Beitrag zu sensitiven Sprachdaten in Forschung und Therapie an den Beispielen DELAD und SASTA
- Henk van den Heuvel (CLARIN ERIC)
Slot #2: Frühneuzeitliche Ärztebriefe
- Ines Röhrer (Bayerische Akademie der Wissenschaften)
Description
Moderation durch Thorsten Trippel (Universität Tübingen, IDS Mannheim)
Aufbau und KI-gestützte Nutzung klinischer und agrarwissenschaftlicher Textkorpora
Text Mining und KI-gestützte Informationsextraktion werden zu wichtigen Werkzeugen für die Forschung. Die Entwicklung zuverlässiger KI-Systeme hängt jedoch von hochwertigen Trainings- und Evaluierungsdatensätzen ab. Gerade in den deutschen Medizin- und Agrarwissenschaften sind solche Ressourcen nach wie vor rar. In diesem Vortrag stellen wir drei Projekte vor, die einen kurzen Überblick über die entsprechenden Textkorpora geben und zeigen, wie KI-gestützte Informationsextraktion das Forschungsdatenmanagement in ressourcenarmen Umgebungen voranbringen kann: (1) Das Projekt GeMTeX der Medical Informatics Initiative: Entwicklung deutscher klinischer NLP-Datensätze. (2) NFDI4Health: Verknüpfung von Einträgen im Health Study Hub mit den entsprechenden Forschungsveröffentlichungen zur Verbesserung der Transparenz und Nachverfolgbarkeit in der klinischen Forschung. (3) FAIRagro: KI-basierte Metadatenanreicherung für die Agrarforschung im FAIRagro Search Hub. Zusammen zeigen diese Initiativen, wie annotierte Textkorpora und KI-gestütztes Text Mining semantische Informationen verbessern und damit die Dateninfrastrukturen stärken.
Von schwer zugänglichen Altdaten zur Forschungsressource: Ärztebriefe auf dem Weg in Forschungsdatennetzwerke
Von 2009 bis 2023 entstand im Projekt „Frühneuzeitliche Ärztebriefe“ an der Bayerischen Akademie der Wissenschaften eine umfassende Datenbank, die den Briefverkehr frühneuzeitlicher Ärzte im deutschsprachigen Raum erfasst.
Die Daten liegen derzeit in einem schwer zugänglichen und nur teilweise dokumentierten Format vor, was ihre Nachnutzung und Langzeitarchivierung deutlich einschränkt. Gleichzeitig bieten sie über ihre bloße Verfügbarkeit hinaus großes Potenzial für eine Anbindung an bestehende Forschungsdatennetzwerke. Die Aufarbeitung dieser Daten ist jedoch mit erheblichem Aufwand verbunden.
Durch die Unterstützung eines Text+-Kooperationsprojekts sollen die Potenziale der Daten voll ausgeschöpft werden. Im Projekt „FADE – Frühneuzeitliche Ärztebriefe – Aufbereitung, Datenharmonisierung und Einbindung“ werden die Daten entwirrt, in das gängige JSON-Format sowie in eine Datenbank mit neuer Web-Plattform überführt und anschließend weiterverarbeitet, etwa durch die Integration der Briefdaten in CorrespSearch.
Der Workshop gibt einen Überblick über die vorgefundenen Strukturen und ihre Problemstellungen, den bisherigen Werdegang und Zwischenstand des FADE-Projekts, sowie ausgewählte Ausgangsdatensätze zum "Anfassen und Ausprobieren".
CLARINs Beitrag zu sensitiven Sprachdaten in Forschung und Therapie an den Beispielen DELAD und SASTA
Die Verarbeitung sensibler Sprachdaten stellt in der medizinischen und therapeutischen Forschung besondere Herausforderungen an Datenschutz, Einwilligung und sichere Speicherung. Der Vortrag beleuchtet die Rolle von CLARIN als Infrastruktur für den Umgang mit sensiblen Daten und zeigt anhand zweier Beispiele wie von CLARIN aus die Arbeit mit Sprachdaten im klinischen Kontext unterstützt wird. Zunächst wird DELAD vorgestellt, ein Netzwerk, das sich auf die Sammlung und den Austausch von Sprachdaten von Personen mit Sprach- und Sprechstörungen konzentriert. Dabei werden zentrale Aspekte wie Richtlinien zur Einwilligung, sichere Speicherung sowie Datenschutz-Folgenabschätzungen (DPIA) diskutiert. Anschließend liegt der Fokus auf SASTA (Semi-Automatic Speech Therapy Analysis), eine Initiative, die mithilfe halbautomatischer Analyseverfahren die Sprachtherapie vorantreibt.