Speaker
Description
In unserem Beitrag stellen wir Potenziale und konkrete Anwendungsbeispiele mittels Open AIs Whisper und generativen LLMs vor, die für verschiedene Phasen der Aufbereitung und Auswertung gesprochensprachlicher Daten der Projektarbeit darstellen. Unsere Vorschläge wurden an der Universität Hamburg im Rahmen des Text+ Daten und Kompetenzzentrum HZSK erarbeitet.
Konkret liegt der Fokus auf der Unterstützung der sprachwissenschaftlichen Transkription von Audio- oder Videodaten, einem traditionell sehr zeit- und ressourcenintensiven Prozess, durch OpenAIs Whisper-Modell, einem fortschrittlichen Sprachmodell zur automatischen Spracherkennung (ASR). Zusätzlich werden Nutzen und Einbindungsmöglichkeiten anderer LLMs in das Post-Processing und die Weiterverarbeitung vor dem Hintergrund projektabhängiger Fragestellungen beleuchtet und erste Ergebnisse einer Evaluation präsentiert.
Durch den engen Zeitrahmen vieler Datenerhebungsprojekte ist eine inhaltliche und/oder sprachliche Vorauswertung notwendig, um beispielsweise geeignete Ausschnitte im Datenmaterial auszuwählen, Anpassungen für weitere Datenerhebungsphasen vorzunehmen oder einen Überblick über das Vorhandensein relevanter Themen und sprachlicher Phänomene zu gewinnen. Für ein zeiteffizientes Vorgehen ist es erforderlich, nicht ausschließlich auf Audio- oder Videodaten zurückgreifen zu können. Gleichzeit ist der zeitliche Aufwand für die Erstellung manueller Transkripte sehr hoch und eine vollständige Transkription innerhalb der ersten Projektphasen in der Regel nicht leistbar. Die Veröffentlichung von Whisper durch OpenAI als open source ermöglicht es, sensible Audio- und Videodaten lokal zu verarbeiten, was eine wesentliche Anforderung vieler Datenerhebungsprojekte ist. Somit scheinen durch die aktuellen Entwicklungen im Bereich der LLMs vielversprechende Möglichkeiten vorzuliegen, um Workflows in sprachbasierten Datenerhebungsprojekte zu optimieren. Dabei wird nicht nur der Einsatz von Modellen zur automatischen Spracherkennung in den Blick genommen, sondern auch von LLMs zur Verarbeitung automatisch erstellter Transkripte. Diese können beispielsweise genutzt werden, um Gliederungen, Inhaltsübersichten und Schlüsselwörter für Transkripte zu erzeugen.
Das Poster soll zu einer generellen und reflektierten Diskussion beitragen, wie KI-Anwendungen in der linguistischen Forschung eingesetzt werden und möglicherweise zu einer Optimierung datengeleiteter Forschung beitragen können. Gleichzeitig sollen erste Ansätze für Unterstützungs- und Beratungsmöglichkeiten im Bereich „Gesprochene Sprache und KI“ für Forschende aufgezeigt werden.