Description
Smartes Forschungsdatenmanagement muss alle informationstechnischen Voraussetzungen gewährleisten, um die Qualität von Forschungsdaten jederzeit transparent überprüfen zu können. Dies ermöglicht verantwortungsvolle Entscheidungen zur (Nach-)Nutzung dieser Daten auf dem Weg zu validen Forschungsergebnissen. Datenqualitätsanalysen umfassen typischerweise Indikatoren, die bestimmte Eigenschaften der Forschungsdaten mit definierten Anforderungen vergleichen. Indikatoren betreffen z.B. Datentypfehler, Wertebereichsverletzungen, Ausreißer, Geräte- oder Untersuchereffekte. Um Datenqualitätsanalysen möglichst effizient durchzuführen zu können, sollten die erwarteten Eigenschaften in Form maschinenlesbarer Metadaten formalisiert und standardisiert angelegt werden.
Die Nutzung so verfügbarer Informationen wird bisher allerdings nur von sehr wenigen Tools für Datenqualitätsanalysen unterstützt. Eines von ihnen ist das R-Paket dataquieR. Für dieses Paket können die Datenqualitätsmetadaten in tabellarischer Form, zum Beispiel in einer Excel-Arbeitsmappe, angelegt und editiert werden. Die Analysepipeline gleicht dann automatisiert und reproduzierbar alle in den Metadaten hinterlegten Erwartungen mit den Eigenschaften der Daten ab. Diese Verarbeitung von Metadaten trägt durch ihre leichte Kommunizierbarkeit und Interoperabilität zu einem wesentlich leistungsfähigeren Forschungsdatenmanagement bei.