Speaker
Description
Computergestützte Ansätze sind essenziell für die Verarbeitung großer, hochdimensionaler Datensätze, deren Potenzial durch fragmentierte Speicherung, unzureichenden Wissenstransfer oder nicht-kollaborative Notizen häufig nicht voll ausgeschöpft wird.
Wir präsentieren ein integrierte, modulare Framework, das ein Open-Source elektronisches Laborbuch (EMBL’s LabID) mit einem Workflow-Manager (Apache Airflow) verbindet und die Daten(vor-)verarbeitung mit zeitgleicher Provenienz- und Analysemetadatenerfassung sowie das Reporting automatisiert.
Wir stellen unser Framework an einer neurophysiologischen Pipeline vor, bei welcher bis zu 8 TB an Rohdaten pro Tag anfallen. Airflow erkennt automatisch neue Daten, orchestriert Datentransfers und führt Analysen auf einem HPC-Cluster aus; jeder Schritt wird dabei in LabID über dessen CLI protokolliert.
Provenienz- und Analysemetadaten, wie Probenherkunft, Filter, Hardware- Kanalzuordnung, Softwareversionen (Git Commit), Analyseparameter, etc. - werden als RO-Crate-Objekte gespeichert und sind so leicht exportierbar.
Parallelisierte Ausführung und optimierte Datenlokalität reduzierten die Gesamtanalysezeit dramatisch und eliminierten manuelle Fehler nahezu vollständig.
Das abstrakte, use-case-agnostische Design erfordert nur minimale Anpassungen, um vielfältige weitere Workflows zu unterstützen.