Wohin damit? Storing and reusing my language data

Name: Wohin damit? Storing and reusing my language data
Start: 2023-06-22T09:00:00+02:00
End: 2023-06-22T16:00:00+02:00
Location: Leibniz-Institut für Deutsche Sprache (IDS)

22 June 2023

Leibniz-Institut für Deutsche Sprache (IDS)

Europe/Berlin timezone

Contact

office@text-plus.org

Session

Use Case

22 Jun 2023, 09:20

Vortragssaal (Leibniz-Institut für Deutsche Sprache (IDS))

Vortragssaal

Leibniz-Institut für Deutsche Sprache (IDS)

R 5, 6-13 D-68161 Mannheim

Use Case: III: Integration einer Sammlung historischer, deutschsprachiger Texte in die Infrastruktur des Deutschen Textarchivs an der Berlin-Brandenburgischen Akademie der Wissenschaften.

Marko Neumann (Uni Gießen)
Marius Hug (BBAW)

Use Case: II: Soziolinguistik trifft Korpuslinguistk" – Der Weg des Korpus ins Repository

Christoph Draxler (Bayerisches Archiv für Sprachsignale)

Use Case: I: Übrig sind noch 21 Gigabyte: Perspektiven für professionelle Archivierung und Nachnutzung von soziolinguistischen Interviewdaten

Christian Mair (Universität Freiburg)

Use Case: Data Depositing in Text+: Strategie und Voraussetzungen

Andreas Witt (Leibniz-Institut für Deutsche Sprache Mannheim)

Description

Data Depositing in Text+

Use Case I:
Der Vortrag steht im Kontext der Endphase eines DFG-geförderten Projekts, das die Rolle des Englischen als Lingua Franca für westafrikanische Migrantinnen in Deutschland untersucht (DFG-MA 1652/12). An den Interviews nahmen insgesamt 83 Gewährspersonen teil, teils im Individual- und teils im Fokusgruppenformat. Die Daten (ca. 51 Stunden Tonaufnahmen) liegen als .wav-Dateien vor, sind orthographisch transkribiert und selektiv und in variabler Tiefe projektspezifisch annotiert (ELAN). Der Vortrag behandelt zwei Fragen:
(1) Welche Datenzentren kommen die für eine Archivierung solcher Daten prinzipiell in Frage, und nach welchen Kriterien wählt man aus?
(2) Wie fördert man in Zusammenarbeit zwischen Datenzentren und dem Datengeber die produktive Nachnutzung der Daten über ein breites Fächerspektrum hinweg?
Sowohl Archivierung als auch Nachnutzung erweisen sich als kooperative Prozesse, in denen den Datenzentrum eine Schlüsselfunktion zukommt, in der jedoch auch Datengeber und – zum Zeitpunkt der Archivierung nur abstrakt definierbare – Nachnutzerinnen eine aktive Rolle spielen müssen.

Use Case II:
"Soziolinguistik trifft Korpuslinguistik" – das ist der Titel der Abschlusspublikation des Projekts „Language across generations: contact induced change in morphosyntax in German-Polish bilingual speech“ zur deutsch-polnischen und deutsch-tschechischen Zweisprachigkeit der Institute für Slavistik der Universität Regensburg und der polnischen Akademie der Wissenschaften. Im Rahmen des von der DFG und dem NCN geförderten binationalen Projekts ist das deutsch-polnische LangGener-Korpus entstanden. Das Korpus umfasst Sprachaufnahmen, orthographische Transkriptionen sowie vielfältige linguistische und soziolinguistische Annotationen. Von Anfang an wurde auf das Einholen der notwendigen Rechte zur Sprachaufnahme, zur Transkription und Analyse sowie zur dauerhaften Speicherung dieser Daten in einem wissenschaftlichen Repository geachtet.

Die in LangGener erstellten Sprachaufnahmen wurden mit webbasierten Werkzeugen und Diensten des Bayerischen Archivs für Sprachsignale transkribiert und analysiert, und das BAS hat aktiv an der Gestaltung der Workflows mitgearbeitet. Nun steht der Import des Korpus in das BAS Repository an – dieser Prozess kann dank des Webdiensts COALA weitgehend automatisiert werden. Im ersten Schritt werden die wesentlichen Metadaten des Korpus erhoben und in Tabellen abgelegt. Diese Tabellen werden anschließend hochgeladen, in das CMDI-Metadatenformat konvertiert und in das Repository importiert. Das LangGener Korpus wird dort voraussichtlich mit einer freien Lizenz für akademische Nutzer zum Download verfügbar sein.

Mit diesem Korpus steht interessierten Forschenden nun ein aktuelles dreisprachiges und umfangreich annotiertes Korpus zum Download zur Verfügung. Über die Webseite der polnischen Akademie der Wissenschaften ist zusätzlich eine online-Nutzung möglich.

Use Case III:
Der Vortrag zeigt, wie eine im Rahmen einer Dissertation entstandene Textsammlung als Forschungsdaten in die Infrastruktur des Deutschen Textarchivs (DTA) an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) integriert wurde. Marko Neumann hat in seiner Dissertation die „Syntax und Textstruktur in der Alltagsschriftlichkeit unterschiedlicher militärischer Dienstgrade“ an einem Korpus von 170 Soldatenbriefen des 18. und 19. Jahrhunderts untersucht. Diese Briefe wurden im Rahmen von Text+ so aufbereitet, dass sie jetzt als DTA-Korpus bereit gestellt werden können. Mit dieser unter einer CC-Lizenz bereitgestellten Ressource ist nicht nur die langfristige Nachnutzung der Briefe gesichert. Die linguistische Aufbereitung der Texte am Zentrum Sprache der BBAW ermöglicht vielfältige Korpusanalysen und Textvergleiche mit anderen Beständen.
Der Vortrag beleuchtet demnach drei Schwerpunkte:
- Erstellung und Übergabe der Forschungsdaten
- Aufbereitung und Bereitstellung der Forschungsdaten
- Nachnutzung der Forschungsdaten

There are no materials yet.

Building timetable...

Wohin damit? Storing and reusing my language data

Contact

Session

Use Case

Vortragssaal

Leibniz-Institut für Deutsche Sprache (IDS)

Conveners

Use Case: III: Integration einer Sammlung historischer, deutschsprachiger Texte in die Infrastruktur des Deutschen Textarchivs an der Berlin-Brandenburgischen Akademie der Wissenschaften.

Use Case: II: Soziolinguistik trifft Korpuslinguistk" – Der Weg des Korpus ins Repository

Use Case: I: Übrig sind noch 21 Gigabyte: Perspektiven für professionelle Archivierung und Nachnutzung von soziolinguistischen Interviewdaten

Use Case: Data Depositing in Text+: Strategie und Voraussetzungen

Description

Presentation materials

Choose timezone

Wohin damit? Storing and reusing my language data

Contact

Conveners

Use Case: III: Integration einer Sammlung historischer, deutschsprachiger Texte in die Infrastruktur des Deutschen Textarchivs an der Berlin-Brandenburgischen Akademie der Wissenschaften.

Use Case: II: Soziolinguistik trifft Korpuslinguistk" – Der Weg des Korpus ins Repository

Use Case: I: Übrig sind noch 21 Gigabyte: Perspektiven für professionelle Archivierung und Nachnutzung von soziolinguistischen Interviewdaten

Use Case: Data Depositing in Text+: Strategie und Voraussetzungen

Description

Presentation materials