Speakers
Description
Der ISO-Standard 24624:2016 „Language resource management—Transcription of spoken language” wurde 2016 als ein Vorschlag zu einer Standardisierung von Transkriptionen gesprochener Sprache veröffentlicht. Basierend auf den Richtlinien der Text Encoding Initiative (TEI) spezifiziert er eine XML-Repräsentation von Transkripten audiovisueller Sprachaufnahmen, die kompatibel mit den TEI-Richtlinien, interoperabel mit den gängigsten Toolformaten (ELAN, EXMARaLDA, FOLKER, Transcriber, etc.) und KI-Diensten (wie OpenAI Whisper) und konform mit weit verbreiteten Transkriptionskon-ventionen ist (Schmidt 2011, Schmidt et al. 2009). In CLARIN hat sich der Standard als Austausch-format für Transkriptionen gesprochener Sprache etabliert (Hedeland/Schmidt 2022).
Das Projekt Transcription+ (vollständiger Titel: „ISO 24624:2016 - Transcription of spoken language: Ressourcen, Dokumentation und multilinguales Demokorpus“), das als Kooperationsprojekt von Text+ gefördert wird, hat sich zum Ziel gesetzt, Dokumentation und Tool-Support für diesen Standard zu verbessern. Dazu werden:
(a) bestehende, verteilt vorliegende Dokumentationen gesammelt und aufbereitet;
(b) bestehender, verteilt vorliegender Code und XSLT-Stylesheets zur Verarbeitung von Doku-menten im ISO-Standard gesammelt und aufbereitet;
(c) eine aktualisierte und erweiterte Version der TEILicht-Webservices (Fisseni & Schmidt 2020) über einen Server am Text+-Zentrum der AdWHH entwickelt und bereitgestellt;
(d) eine überarbeitete Version des mehrsprachigen EXMARaLDA-Demokorpus mit ISO-konformen Transkripten erstellt und über das Repositorium des Zentrums für nachhaltiges Forschungsdatenzentrums der Universität Hamburg in Text+ integriert;
(e) das EXMARaLDA-Demokorpus über eine bei der AdWHH aufgesetzte Instanz der Korpus-Plattform ZuMult (Schmidt et al. 2026) bereitgestellt, die das Protokoll der Federated Con-tent Search (FCS) bedient.
Alle Projektergebnisse werden auf einer zentralen Website, die von der AdWHH gehostet wird, zur Verfügung gestellt. Das Poster stellt das Projekt und den aktuellen Stand der Arbeiten vor.
Referenzen:
- Fisseni, Bernhard/Schmidt, Thomas (2020): CLARIN Web Services for TEI-annotated Transcripts of Spoken Lan-guage. In: Simov, Kiril/Eskevich, Maria (Hrsg.): Selected Papers from the CLARIN Annual Conference 2019. Leipzig, 30 September - 2 October 2019. (= Linköping Electronic Conference Proceedings 172). Linköping: Linköping University Electronic Press, 2020. S. 12-22.
- Hedeland, Hanna/Schmidt, Thomas (2022): The TEI-based ISO Standard ‘Transcription of spoken language’ as an Exchange Format within CLARIN and beyond. In: Monachini, Monica/Eskevich, Maria (Hrsg.): Select-ed Papers from the CLARIN Annual Conference 2021. Virtual Event, 2021, 27–29 September. (= Linkö-ping Electronic Conference Proceedings 189). Linköping: Linköping University Electronic Press, 2022. S. 34-45.
- Schmidt, Thomas/Duncan, Susan/Ehmer, Oliver/Hoyt, Jeffrey/Kipp, Michael/Loehr, Dan/Magnusson, Mag-nus/Rose, Travis/Sloetjes, Han (2009): An exchange format for multimodal annotations. In: Kipp, Mi-chael/Martin, Jean-Claude/Paggio, Patrizia/Heylen, Dirk (eds.): Multimodal corpora: from models of natural interaction to systems and applications. Berlin/Heidelberg: Springer, 2009. S. 207-221.
- Schmidt, T. (2011): A TEI-based approach to standardising spoken language transcription. In: Journal of the Text Encoding Initiative 1. 2011. https://doi.org/10.4000/jtei.142
- Schmidt, T. / Ferger, A. / Frick, E. (2026): Putting things on top of other things: The ZuMult platform for multi-modal corpora and its ecosystem. To appear in: Grisot, C. et al.: Selected Papers of the CLARIN Annual Conference 2025 [Preprint at https://tinyurl.com/preprintcac]