Am 12. und 13. März 2024 trifft sich das NFDI-Konsortium Text+ zu einem internen Meeting in Präsenz in Frankfurt. Zur Halbzeit der Förderphase – nach 2,5 Jahren – stehen thematische Arbeitstreffen in verschiedenen Konstellationen sowie der Task Area-interne Meetings im Fokus der Tagung.
Werkschau mit Vertreter*innen der drei Datendomänen moderiert von Barbara Fischer (DNB): Erster Erfahrungsaustausch & Motivation zur Anwendung der GND.
Diskussion und Verfeinerung des aktuellen Standes der Text+ Architektur und Beschluss der Version 1.0
Pad für die Session: https://pad.gwdg.de/Dc9lrVYUTJiW97v9D0IlXg?view
Besprechung des aktuellen Arbeitsstandes mit dem Ziel, konkrete Absprachen für die weiteren Planungen zu treffen; Ableitung gemeinsamer Aufgaben, Verantwortlichkeiten
Unterstützung von Suchverfahren über annotierte Entitäten (z.B. basierend auf GND oder Word Senses) in verschiedenen Ressourcentypen
Diskussion der Untersuchungsergebnisse in Bezug auf die Rekonstruierbarkeit der abgeleiteten Textformate
Der Slot wird gestaltet von M1 der TA Editions
Beim Edit-a-thon soll(en)
- Neueinträge in der Registry vorgenommen werden, um diese stetig anwachsen zu lassen
- Aufwände (Zeit) dokumentiert werden, die für einen Eintrag notwendig sind. Hierbei kann zwischen verschiedenen Informationsquellen (Listen, Bibliographien, Projektwebseiten etc.) unterschieden werden
- Probleme mit der Eingabemaske bzw. dem Datenmodell dokumentiert werden
- das Veranstaltungsformat des Edit-a-thons als solches erprobt werden
Voraussetzungen:
- idealerweise sollte ein DARIAH-Account vorhanden sein
- alle Teilnehmen sollten Zugriff auf einen Computer haben
Streamlining Ingest-Prozesse
Arbeitsgruppentreffen beim Frühjahrstreffen von Text+ am 12. März 2024, 15:30 – 18:00
Forschungsdaten leben ewig – wenn man sich darum kümmert. So zum Beispiel die TIMIT Sprachdatenbank, um 1990 zur Entwicklung von Sprachtechnologie entwickelt, die auch mehr als 30 Jahre später immer noch aktuell ist und als Benchmark für die KI-basierte Spracherkennung verwendet wird … Gründe für diese Langlebigkeit gibt es viele: gutes Design, qualitativ hochwertige Primär- und Metadaten – und vielleicht am wichtigsten: von Anfang an ein Fokus auf Nachnutzung.
Die Datenzentren in Text+ sind DER Ort für die langfristige Verfügbarkeit von Sprachressourcen. Hier werden Forschungsdaten, ob in Text+ oder von Dritten erstellt, aufbereitet, gespeichert, erweitert und auffindbar gemacht. Damit dies funktioniert, müssen technische Vorgaben und Prozesse definiert und kommuniziert werden.
In dieser Arbeitsgruppe soll es darum gehen, die verschiedenen Ingest-Prozesse so aufzubereiten, dass sie für Nutzende klar verständlich und möglichst einfach anzuwenden sind.
An allen Datenzentren gibt es Verfahren, wie Forschungsdaten aufgenommen werden, entweder durch (mehr oder weniger) festgelegte Verfahrensabläufe oder sogar implementiert in Software. Die Zusage von Text+ im Antrag beschreibt dabei, dass die Datenzentren die externen Forschungsdaten aufnehmen, die der jeweiligen Spezialisierung entsprechen, festgelegte technische Anforderungen erfüllen, Qualitätskriterien entsprechen und ggf. den Priorisierungen der Coordination Committees entsprechen. Die Darstellung der Datenzentren wird in der AG Reference Implementation besprochen, aktuell ist aber noch unklar, wie potentiellen Nutzenden möglichst einheitlich kommuniziert werden kann, was sie zu tun haben, damit Partner von Text+ ihre Daten hosten können.
Themen für diese Arbeitsgruppe:
Im Treffen sollten folgende Fragen beantwortet werden:
1. Ist es vorstellbar, über ein gemeinsames Web-Frontend Usern die Möglichkeit zu geben, Daten an spezifische Partner zu übermitteln, die dann in deren Ingest-Prozess einfließen können? Was wäre dafür im Webportal erforderlich?
2. Wie kann die Datenübergabe für User so dargestellt werden, dass sie mit realistischen Erwartungen in den Austausch mit den Datenzentren gehen, um ihre Forschungsdaten (dem richtigen Datenzentrum) zu übergeben?
Diese Arbeitsgruppe richtet sich an alle Partner von Text+, die in den Datensäulen der Measures 1-3 aktiv sind und als Datenzentrum Daten Dritter entgegennehmen sollten.
Erarbeitungs eines Redaktionsmodells / Workflows für das Webportal, ggf. zusätzlich auch eine Schulung / Einführung in die Arbeit mit GitLab/HUGO.
(Wie) Geht es weiter? Ziele/Ausrichtung der AG?