Sprecher
Florian Langhanki
(Julius-Maximilians-Universität Würzburg)
Matthias Boenig
(Berlin-Brandenburgische Akademie der Wissenschaften)
Beschreibung
Durch Optical Character Recognition (OCR) können im Editionsprozess automatisch erstellte Vorlagen entstehen, die die manuelle Transkription erheblich erleichtern. Gleichzeitig erfordert die Erstellung von Ground-Truth-Daten (GT) editorische Entscheidungen, die das Ergebnis beeinflussen. Im Vortrag wird ein Überblick gegeben über Tools für OCR und Nachkorrektur und Nachtraining bis zur Erstellung von GT für (semi-)automatische Texte, die im Ergebnis (nahezu) fehlerfrei sein müssen.