Wohin damit? Storing and reusing my language data

Europe/Berlin
Vortragssaal (Leibniz-Institut für Deutsche Sprache (IDS))

Vortragssaal

Leibniz-Institut für Deutsche Sprache (IDS)

R 5, 6-13 D-68161 Mannheim
Description

Bild von OpenClipart-Vectors auf Pixabay 

 

DFG- und andere Forschungsprojekte stehen vor der Frage, wer ihre Daten langfristig im Rahmen der FAIR-Prinzipien entgegennehmen kann und unter welchen Voraussetzungen dies möglich ist. Dieser Marktplatz bietet für Forschende die Möglichkeit, sich direkt mit Daten- und Kompetenzzentren der Text+-Datendomäne Sammlungen auszutauschen, um nach Möglichkeiten der Datenübernahme zu suchen. Besonders angesprochen sind Forscher:innen, die nach der wissenschaftlich erfolgreichen Durchführung eines Projekts nach Wegen suchen, ihre Datenkorpora professionell zu archivieren und, wo sinnvoll, für Nachnutzungen zur Verfügung zu stellen. Darüber hinaus richtet sich das Event an die Kooperationsprojekte von Text+, die sich mit text- und sprachbasierten Sammlungen beschäftigen, Fachinformationsdienste sowie weitere Interessierte aus Verbänden, Verbünden und der gesamten Fachcommunity. Neben der Vorstellung der Datenzentren werden wir anhand von einigen Beispielen vorstellen, wie eine Datenübernahme erfolgreich erfolgt ist. 

Die Teilnahmegebühr für den Workshop beträgt 20,- €.

Die Anmeldung ist direkt über diese Seite möglich (s.u.).

Bei Fragen wenden Sie sich bitte an office@text-plus.org

    • 1
      Begrüßung
      Speaker: Henning Lobin (Leibniz-Institut für Deutsche Sprache)
    • 2
      Einführung, Vorstellung des Programms
      Speaker: Philippe Genêt (DNB)
    • Use Case: Data Depositing in Text+: Strategie und Voraussetzungen

      Data Depositing in Text+

      Use Case I:
      Der Vortrag steht im Kontext der Endphase eines DFG-geförderten Projekts, das die Rolle des Englischen als Lingua Franca für westafrikanische Migrantinnen in Deutschland untersucht (DFG-MA 1652/12). An den Interviews nahmen insgesamt 83 Gewährspersonen teil, teils im Individual- und teils im Fokusgruppenformat. Die Daten (ca. 51 Stunden Tonaufnahmen) liegen als .wav-Dateien vor, sind orthographisch transkribiert und selektiv und in variabler Tiefe projektspezifisch annotiert (ELAN). Der Vortrag behandelt zwei Fragen:
      (1) Welche Datenzentren kommen die für eine Archivierung solcher Daten prinzipiell in Frage, und nach welchen Kriterien wählt man aus?
      (2) Wie fördert man in Zusammenarbeit zwischen Datenzentren und dem Datengeber die produktive Nachnutzung der Daten über ein breites Fächerspektrum hinweg?
      Sowohl Archivierung als auch Nachnutzung erweisen sich als kooperative Prozesse, in denen den Datenzentrum eine Schlüsselfunktion zukommt, in der jedoch auch Datengeber und – zum Zeitpunkt der Archivierung nur abstrakt definierbare – Nachnutzer
      innen eine aktive Rolle spielen müssen.

      Use Case II:
      "Soziolinguistik trifft Korpuslinguistik" – das ist der Titel der Abschlusspublikation des Projekts „Language across generations: contact induced change in morphosyntax in German-Polish bilingual speech“ zur deutsch-polnischen und deutsch-tschechischen Zweisprachigkeit der Institute für Slavistik der Universität Regensburg und der polnischen Akademie der Wissenschaften. Im Rahmen des von der DFG und dem NCN geförderten binationalen Projekts ist das deutsch-polnische LangGener-Korpus entstanden. Das Korpus umfasst Sprachaufnahmen, orthographische Transkriptionen sowie vielfältige linguistische und soziolinguistische Annotationen. Von Anfang an wurde auf das Einholen der notwendigen Rechte zur Sprachaufnahme, zur Transkription und Analyse sowie zur dauerhaften Speicherung dieser Daten in einem wissenschaftlichen Repository geachtet.

      Die in LangGener erstellten Sprachaufnahmen wurden mit webbasierten Werkzeugen und Diensten des Bayerischen Archivs für Sprachsignale transkribiert und analysiert, und das BAS hat aktiv an der Gestaltung der Workflows mitgearbeitet. Nun steht der Import des Korpus in das BAS Repository an – dieser Prozess kann dank des Webdiensts COALA weitgehend automatisiert werden. Im ersten Schritt werden die wesentlichen Metadaten des Korpus erhoben und in Tabellen abgelegt. Diese Tabellen werden anschließend hochgeladen, in das CMDI-Metadatenformat konvertiert und in das Repository importiert. Das LangGener Korpus wird dort voraussichtlich mit einer freien Lizenz für akademische Nutzer zum Download verfügbar sein.

      Mit diesem Korpus steht interessierten Forschenden nun ein aktuelles dreisprachiges und umfangreich annotiertes Korpus zum Download zur Verfügung. Über die Webseite der polnischen Akademie der Wissenschaften ist zusätzlich eine online-Nutzung möglich.

      Use Case III:
      Der Vortrag zeigt, wie eine im Rahmen einer Dissertation entstandene Textsammlung als Forschungsdaten in die Infrastruktur des Deutschen Textarchivs (DTA) an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) integriert wurde. Marko Neumann hat in seiner Dissertation die „Syntax und Textstruktur in der Alltagsschriftlichkeit unterschiedlicher militärischer Dienstgrade“ an einem Korpus von 170 Soldatenbriefen des 18. und 19. Jahrhunderts untersucht. Diese Briefe wurden im Rahmen von Text+ so aufbereitet, dass sie jetzt als DTA-Korpus bereit gestellt werden können. Mit dieser unter einer CC-Lizenz bereitgestellten Ressource ist nicht nur die langfristige Nachnutzung der Briefe gesichert. Die linguistische Aufbereitung der Texte am Zentrum Sprache der BBAW ermöglicht vielfältige Korpusanalysen und Textvergleiche mit anderen Beständen.
      Der Vortrag beleuchtet demnach drei Schwerpunkte:
      - Erstellung und Übergabe der Forschungsdaten
      - Aufbereitung und Bereitstellung der Forschungsdaten
      - Nachnutzung der Forschungsdaten

      Convener: Andreas Witt (Leibniz-Institut für Deutsche Sprache Mannheim)
    • Use Case: I: Übrig sind noch 21 Gigabyte: Perspektiven für professionelle Archivierung und Nachnutzung von soziolinguistischen Interviewdaten

      Data Depositing in Text+

      Use Case I:
      Der Vortrag steht im Kontext der Endphase eines DFG-geförderten Projekts, das die Rolle des Englischen als Lingua Franca für westafrikanische Migrantinnen in Deutschland untersucht (DFG-MA 1652/12). An den Interviews nahmen insgesamt 83 Gewährspersonen teil, teils im Individual- und teils im Fokusgruppenformat. Die Daten (ca. 51 Stunden Tonaufnahmen) liegen als .wav-Dateien vor, sind orthographisch transkribiert und selektiv und in variabler Tiefe projektspezifisch annotiert (ELAN). Der Vortrag behandelt zwei Fragen:
      (1) Welche Datenzentren kommen die für eine Archivierung solcher Daten prinzipiell in Frage, und nach welchen Kriterien wählt man aus?
      (2) Wie fördert man in Zusammenarbeit zwischen Datenzentren und dem Datengeber die produktive Nachnutzung der Daten über ein breites Fächerspektrum hinweg?
      Sowohl Archivierung als auch Nachnutzung erweisen sich als kooperative Prozesse, in denen den Datenzentrum eine Schlüsselfunktion zukommt, in der jedoch auch Datengeber und – zum Zeitpunkt der Archivierung nur abstrakt definierbare – Nachnutzer
      innen eine aktive Rolle spielen müssen.

      Use Case II:
      "Soziolinguistik trifft Korpuslinguistik" – das ist der Titel der Abschlusspublikation des Projekts „Language across generations: contact induced change in morphosyntax in German-Polish bilingual speech“ zur deutsch-polnischen und deutsch-tschechischen Zweisprachigkeit der Institute für Slavistik der Universität Regensburg und der polnischen Akademie der Wissenschaften. Im Rahmen des von der DFG und dem NCN geförderten binationalen Projekts ist das deutsch-polnische LangGener-Korpus entstanden. Das Korpus umfasst Sprachaufnahmen, orthographische Transkriptionen sowie vielfältige linguistische und soziolinguistische Annotationen. Von Anfang an wurde auf das Einholen der notwendigen Rechte zur Sprachaufnahme, zur Transkription und Analyse sowie zur dauerhaften Speicherung dieser Daten in einem wissenschaftlichen Repository geachtet.

      Die in LangGener erstellten Sprachaufnahmen wurden mit webbasierten Werkzeugen und Diensten des Bayerischen Archivs für Sprachsignale transkribiert und analysiert, und das BAS hat aktiv an der Gestaltung der Workflows mitgearbeitet. Nun steht der Import des Korpus in das BAS Repository an – dieser Prozess kann dank des Webdiensts COALA weitgehend automatisiert werden. Im ersten Schritt werden die wesentlichen Metadaten des Korpus erhoben und in Tabellen abgelegt. Diese Tabellen werden anschließend hochgeladen, in das CMDI-Metadatenformat konvertiert und in das Repository importiert. Das LangGener Korpus wird dort voraussichtlich mit einer freien Lizenz für akademische Nutzer zum Download verfügbar sein.

      Mit diesem Korpus steht interessierten Forschenden nun ein aktuelles dreisprachiges und umfangreich annotiertes Korpus zum Download zur Verfügung. Über die Webseite der polnischen Akademie der Wissenschaften ist zusätzlich eine online-Nutzung möglich.

      Use Case III:
      Der Vortrag zeigt, wie eine im Rahmen einer Dissertation entstandene Textsammlung als Forschungsdaten in die Infrastruktur des Deutschen Textarchivs (DTA) an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) integriert wurde. Marko Neumann hat in seiner Dissertation die „Syntax und Textstruktur in der Alltagsschriftlichkeit unterschiedlicher militärischer Dienstgrade“ an einem Korpus von 170 Soldatenbriefen des 18. und 19. Jahrhunderts untersucht. Diese Briefe wurden im Rahmen von Text+ so aufbereitet, dass sie jetzt als DTA-Korpus bereit gestellt werden können. Mit dieser unter einer CC-Lizenz bereitgestellten Ressource ist nicht nur die langfristige Nachnutzung der Briefe gesichert. Die linguistische Aufbereitung der Texte am Zentrum Sprache der BBAW ermöglicht vielfältige Korpusanalysen und Textvergleiche mit anderen Beständen.
      Der Vortrag beleuchtet demnach drei Schwerpunkte:
      - Erstellung und Übergabe der Forschungsdaten
      - Aufbereitung und Bereitstellung der Forschungsdaten
      - Nachnutzung der Forschungsdaten

      Convener: Christian Mair (Universität Freiburg)
    • Kurzvorstellung Datenzentren: 1-5
    • Pause: Kaffee
    • Use Case: II: Soziolinguistik trifft Korpuslinguistk" – Der Weg des Korpus ins Repository

      Data Depositing in Text+

      Use Case I:
      Der Vortrag steht im Kontext der Endphase eines DFG-geförderten Projekts, das die Rolle des Englischen als Lingua Franca für westafrikanische Migrantinnen in Deutschland untersucht (DFG-MA 1652/12). An den Interviews nahmen insgesamt 83 Gewährspersonen teil, teils im Individual- und teils im Fokusgruppenformat. Die Daten (ca. 51 Stunden Tonaufnahmen) liegen als .wav-Dateien vor, sind orthographisch transkribiert und selektiv und in variabler Tiefe projektspezifisch annotiert (ELAN). Der Vortrag behandelt zwei Fragen:
      (1) Welche Datenzentren kommen die für eine Archivierung solcher Daten prinzipiell in Frage, und nach welchen Kriterien wählt man aus?
      (2) Wie fördert man in Zusammenarbeit zwischen Datenzentren und dem Datengeber die produktive Nachnutzung der Daten über ein breites Fächerspektrum hinweg?
      Sowohl Archivierung als auch Nachnutzung erweisen sich als kooperative Prozesse, in denen den Datenzentrum eine Schlüsselfunktion zukommt, in der jedoch auch Datengeber und – zum Zeitpunkt der Archivierung nur abstrakt definierbare – Nachnutzer
      innen eine aktive Rolle spielen müssen.

      Use Case II:
      "Soziolinguistik trifft Korpuslinguistik" – das ist der Titel der Abschlusspublikation des Projekts „Language across generations: contact induced change in morphosyntax in German-Polish bilingual speech“ zur deutsch-polnischen und deutsch-tschechischen Zweisprachigkeit der Institute für Slavistik der Universität Regensburg und der polnischen Akademie der Wissenschaften. Im Rahmen des von der DFG und dem NCN geförderten binationalen Projekts ist das deutsch-polnische LangGener-Korpus entstanden. Das Korpus umfasst Sprachaufnahmen, orthographische Transkriptionen sowie vielfältige linguistische und soziolinguistische Annotationen. Von Anfang an wurde auf das Einholen der notwendigen Rechte zur Sprachaufnahme, zur Transkription und Analyse sowie zur dauerhaften Speicherung dieser Daten in einem wissenschaftlichen Repository geachtet.

      Die in LangGener erstellten Sprachaufnahmen wurden mit webbasierten Werkzeugen und Diensten des Bayerischen Archivs für Sprachsignale transkribiert und analysiert, und das BAS hat aktiv an der Gestaltung der Workflows mitgearbeitet. Nun steht der Import des Korpus in das BAS Repository an – dieser Prozess kann dank des Webdiensts COALA weitgehend automatisiert werden. Im ersten Schritt werden die wesentlichen Metadaten des Korpus erhoben und in Tabellen abgelegt. Diese Tabellen werden anschließend hochgeladen, in das CMDI-Metadatenformat konvertiert und in das Repository importiert. Das LangGener Korpus wird dort voraussichtlich mit einer freien Lizenz für akademische Nutzer zum Download verfügbar sein.

      Mit diesem Korpus steht interessierten Forschenden nun ein aktuelles dreisprachiges und umfangreich annotiertes Korpus zum Download zur Verfügung. Über die Webseite der polnischen Akademie der Wissenschaften ist zusätzlich eine online-Nutzung möglich.

      Use Case III:
      Der Vortrag zeigt, wie eine im Rahmen einer Dissertation entstandene Textsammlung als Forschungsdaten in die Infrastruktur des Deutschen Textarchivs (DTA) an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) integriert wurde. Marko Neumann hat in seiner Dissertation die „Syntax und Textstruktur in der Alltagsschriftlichkeit unterschiedlicher militärischer Dienstgrade“ an einem Korpus von 170 Soldatenbriefen des 18. und 19. Jahrhunderts untersucht. Diese Briefe wurden im Rahmen von Text+ so aufbereitet, dass sie jetzt als DTA-Korpus bereit gestellt werden können. Mit dieser unter einer CC-Lizenz bereitgestellten Ressource ist nicht nur die langfristige Nachnutzung der Briefe gesichert. Die linguistische Aufbereitung der Texte am Zentrum Sprache der BBAW ermöglicht vielfältige Korpusanalysen und Textvergleiche mit anderen Beständen.
      Der Vortrag beleuchtet demnach drei Schwerpunkte:
      - Erstellung und Übergabe der Forschungsdaten
      - Aufbereitung und Bereitstellung der Forschungsdaten
      - Nachnutzung der Forschungsdaten

      Convener: Christoph Draxler (Bayerisches Archiv für Sprachsignale)
    • Use Case: III: Integration einer Sammlung historischer, deutschsprachiger Texte in die Infrastruktur des Deutschen Textarchivs an der Berlin-Brandenburgischen Akademie der Wissenschaften.

      Data Depositing in Text+

      Use Case I:
      Der Vortrag steht im Kontext der Endphase eines DFG-geförderten Projekts, das die Rolle des Englischen als Lingua Franca für westafrikanische Migrantinnen in Deutschland untersucht (DFG-MA 1652/12). An den Interviews nahmen insgesamt 83 Gewährspersonen teil, teils im Individual- und teils im Fokusgruppenformat. Die Daten (ca. 51 Stunden Tonaufnahmen) liegen als .wav-Dateien vor, sind orthographisch transkribiert und selektiv und in variabler Tiefe projektspezifisch annotiert (ELAN). Der Vortrag behandelt zwei Fragen:
      (1) Welche Datenzentren kommen die für eine Archivierung solcher Daten prinzipiell in Frage, und nach welchen Kriterien wählt man aus?
      (2) Wie fördert man in Zusammenarbeit zwischen Datenzentren und dem Datengeber die produktive Nachnutzung der Daten über ein breites Fächerspektrum hinweg?
      Sowohl Archivierung als auch Nachnutzung erweisen sich als kooperative Prozesse, in denen den Datenzentrum eine Schlüsselfunktion zukommt, in der jedoch auch Datengeber und – zum Zeitpunkt der Archivierung nur abstrakt definierbare – Nachnutzer
      innen eine aktive Rolle spielen müssen.

      Use Case II:
      "Soziolinguistik trifft Korpuslinguistik" – das ist der Titel der Abschlusspublikation des Projekts „Language across generations: contact induced change in morphosyntax in German-Polish bilingual speech“ zur deutsch-polnischen und deutsch-tschechischen Zweisprachigkeit der Institute für Slavistik der Universität Regensburg und der polnischen Akademie der Wissenschaften. Im Rahmen des von der DFG und dem NCN geförderten binationalen Projekts ist das deutsch-polnische LangGener-Korpus entstanden. Das Korpus umfasst Sprachaufnahmen, orthographische Transkriptionen sowie vielfältige linguistische und soziolinguistische Annotationen. Von Anfang an wurde auf das Einholen der notwendigen Rechte zur Sprachaufnahme, zur Transkription und Analyse sowie zur dauerhaften Speicherung dieser Daten in einem wissenschaftlichen Repository geachtet.

      Die in LangGener erstellten Sprachaufnahmen wurden mit webbasierten Werkzeugen und Diensten des Bayerischen Archivs für Sprachsignale transkribiert und analysiert, und das BAS hat aktiv an der Gestaltung der Workflows mitgearbeitet. Nun steht der Import des Korpus in das BAS Repository an – dieser Prozess kann dank des Webdiensts COALA weitgehend automatisiert werden. Im ersten Schritt werden die wesentlichen Metadaten des Korpus erhoben und in Tabellen abgelegt. Diese Tabellen werden anschließend hochgeladen, in das CMDI-Metadatenformat konvertiert und in das Repository importiert. Das LangGener Korpus wird dort voraussichtlich mit einer freien Lizenz für akademische Nutzer zum Download verfügbar sein.

      Mit diesem Korpus steht interessierten Forschenden nun ein aktuelles dreisprachiges und umfangreich annotiertes Korpus zum Download zur Verfügung. Über die Webseite der polnischen Akademie der Wissenschaften ist zusätzlich eine online-Nutzung möglich.

      Use Case III:
      Der Vortrag zeigt, wie eine im Rahmen einer Dissertation entstandene Textsammlung als Forschungsdaten in die Infrastruktur des Deutschen Textarchivs (DTA) an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) integriert wurde. Marko Neumann hat in seiner Dissertation die „Syntax und Textstruktur in der Alltagsschriftlichkeit unterschiedlicher militärischer Dienstgrade“ an einem Korpus von 170 Soldatenbriefen des 18. und 19. Jahrhunderts untersucht. Diese Briefe wurden im Rahmen von Text+ so aufbereitet, dass sie jetzt als DTA-Korpus bereit gestellt werden können. Mit dieser unter einer CC-Lizenz bereitgestellten Ressource ist nicht nur die langfristige Nachnutzung der Briefe gesichert. Die linguistische Aufbereitung der Texte am Zentrum Sprache der BBAW ermöglicht vielfältige Korpusanalysen und Textvergleiche mit anderen Beständen.
      Der Vortrag beleuchtet demnach drei Schwerpunkte:
      - Erstellung und Übergabe der Forschungsdaten
      - Aufbereitung und Bereitstellung der Forschungsdaten
      - Nachnutzung der Forschungsdaten

      Conveners: Marius Hug (BBAW), Marko Neumann (Uni Gießen)
    • Kurzvorstellung Datenzentren: 6-11
    • Pause: Mittag
    • 3
      Marktplatz/Messe der Datenzentren in Collections
    • 4
      Wrap-Up & Ausblick