Hands-on „Texterkennung mit OCRopus“

Download iCal

Leitung: Robert Nasarek (Halle)

Die automatische Zeichenerkennung (OCR) von historischen Texten weisen oftmals niedrige Erkennungsraten auf. Mit einem gekonnten Preprocessing und Ocropy, einem modular aufgebauten Kommandozeilenprogramm auf Basis eines neuronalen long short-term memory Netzes, ist es möglich, deutlich bessere Ergebnisse zu erzielen. Ocropy ist in C++ und Python geschrieben und enthält u. a. Module zur Binarisierung (Erzeugung einer Ras­tergrafik), Segmentierung (Dokumentaufspaltung in Zeilen), zum Training neuer Zeichen und natürlich zur  Erkennung von Dokumenten. Ein bedeutender Vorteil dabei ist, dass jedes Modul eine Reihe von nachvollziehbaren Einstellungsmöglichkeiten bietet, um auf die individuellen Herausforderungen jedes Dokumentes einzugehen. Zusätzlich besteht die Möglichkeit ocropy auf die Erkennung einer bestimmten Schriftart, bzw. eines Zeichensatzes zu trainieren. Diese „Hands-On” Session vermittelt einen knappen Einstieg in das Programm Scantailor zum Preprocessing, der Installation und Benutzung von Ocropy und zeigt einige Kniffe zur Steigerung der Erkennungsraten auf.

 

Technische Voraussetzung: Bitte bringen Sie ihren eigenen Rechner mit. Sie müssen hierfür auf ihrem Rechner eine Linuxumgebung erstellen und ocropy (https://github.com/tmbdev/ocropy) installieren. Eine Anleitung für diese Schritte finden Sie unter https://blogs.urz.uni-halle.de/strickdings/2017/05/ocropus-installation/. Gegebenenfalls wird es auch hier eine Lösung über einen Virtuellen Desktop geben.