OCR/Optical Character Recognition

OCR (Optical Character Recognition) bezeichnet den Vorgang der automatischen Texterkennung bei einer z. B. per Scanner erfassten, gedruckten Vorlage. Die digitalisierte Vorlage, die meistens in Form einer Bilddatei vorliegt, wird dabei zunächst in wichtige, d. h. Textfragmente enthaltende, und unwichtige, z. B. Weissflächen, Grafiken usw. enthaltende, Bereiche unterteilt. Anschließend findet auf den wichtigen Bereichen die eigentliche Zeichenerkennung mit eventueller Fehlerkorrektur (ICR; Intelligent Character Recognition) statt. Dieser Vorgang beruht im weitesten Sinne auf einem Mustervergleich bekannter, in einer Datenbank gesammelter Buchstaben mit den durch die Unterteilung erfassten Fragmenten.