OCR

Schrifterkennung (OCR = Optical Character Recognition) ist noch immer eine nicht triviale und nicht immer funktionierende Methode, um in Bildern gespeicherten Text zu erkennen und wieder als solchen für Computer zugänglich zu machen.

Unter Ubuntu-Linux kann man sich dazu des Paketes "gocr" bedienen. Möchte man diesem PNG-Bilder füttern, ist auch das Script "pngtopnm" aus dem Paket "netpbm" notwendig, also installiert man letzteres auch noch.

sudo apt-get install gocr netpbm

Ruft man nun das Programm mit dem Dateinamen des zu lesenden Bildes als ersten Parameter auf, so erhält man auf der Standard-Ausgabe den ausgelesenen Text:

gocr /pfad/zu/meinem/bild.png

Tags: Linux