Speaker
Description
Streamlining Ingest-Prozesse
Arbeitsgruppentreffen beim Frühjahrstreffen von Text+ am 12. März 2024, 15:30 – 18:00
Forschungsdaten leben ewig – wenn man sich darum kümmert. So zum Beispiel die TIMIT Sprachdatenbank, um 1990 zur Entwicklung von Sprachtechnologie entwickelt, die auch mehr als 30 Jahre später immer noch aktuell ist und als Benchmark für die KI-basierte Spracherkennung verwendet wird … Gründe für diese Langlebigkeit gibt es viele: gutes Design, qualitativ hochwertige Primär- und Metadaten – und vielleicht am wichtigsten: von Anfang an ein Fokus auf Nachnutzung.
Die Datenzentren in Text+ sind DER Ort für die langfristige Verfügbarkeit von Sprachressourcen. Hier werden Forschungsdaten, ob in Text+ oder von Dritten erstellt, aufbereitet, gespeichert, erweitert und auffindbar gemacht. Damit dies funktioniert, müssen technische Vorgaben und Prozesse definiert und kommuniziert werden.
In dieser Arbeitsgruppe soll es darum gehen, die verschiedenen Ingest-Prozesse so aufzubereiten, dass sie für Nutzende klar verständlich und möglichst einfach anzuwenden sind.
An allen Datenzentren gibt es Verfahren, wie Forschungsdaten aufgenommen werden, entweder durch (mehr oder weniger) festgelegte Verfahrensabläufe oder sogar implementiert in Software. Die Zusage von Text+ im Antrag beschreibt dabei, dass die Datenzentren die externen Forschungsdaten aufnehmen, die der jeweiligen Spezialisierung entsprechen, festgelegte technische Anforderungen erfüllen, Qualitätskriterien entsprechen und ggf. den Priorisierungen der Coordination Committees entsprechen. Die Darstellung der Datenzentren wird in der AG Reference Implementation besprochen, aktuell ist aber noch unklar, wie potentiellen Nutzenden möglichst einheitlich kommuniziert werden kann, was sie zu tun haben, damit Partner von Text+ ihre Daten hosten können.
Themen für diese Arbeitsgruppe:
- Gemeinsamkeiten der Ingest-Prozesse:
- Datenformate und technische Qualitätssicherung
- Qualitätsbeurteilung
- Beschreibung der Forschungsdaten
- Lizenzklärung
- Data Depositing Agreement / Datenüberlassungsvertrag
- Matchmaking:
- Nutzende und Datenzentren zusammenbringen
- Spezialisierungscheck / Profilbildung bzw. -beschreibung der Zentren
- Umsetzung:
- Erstellung & Nutzung eines gemeinsamen, computergestützten Werkzeugs zum Ingest
- Erstellung und Nutzung eines Matchmaking-Tools zur Vermittlung eines Partners an das passende Datenzentrum
Im Treffen sollten folgende Fragen beantwortet werden:
1. Ist es vorstellbar, über ein gemeinsames Web-Frontend Usern die Möglichkeit zu geben, Daten an spezifische Partner zu übermitteln, die dann in deren Ingest-Prozess einfließen können? Was wäre dafür im Webportal erforderlich?
2. Wie kann die Datenübergabe für User so dargestellt werden, dass sie mit realistischen Erwartungen in den Austausch mit den Datenzentren gehen, um ihre Forschungsdaten (dem richtigen Datenzentrum) zu übergeben?
Diese Arbeitsgruppe richtet sich an alle Partner von Text+, die in den Datensäulen der Measures 1-3 aktiv sind und als Datenzentrum Daten Dritter entgegennehmen sollten.