OCR (Optical Character Recognition)
OCR (Optical Character Recognition) bezeichnet den Vorgang der automatischen
Texterkennung bei einer z. B. per Scanner erfassten gedruckten Vorlage. Die
digitalisierte Vorlage, die meistens in Form einer Bilddatei vorliegt, wird
dabei zunächst in wichtige, d. h. Textfragmente enthaltende, und unwichtige,
z. B. Weißflächen, Grafiken usw. enthaltende Bereiche unterteilt.
Anschließend findet auf den wichtigen Bereichen die eigentliche
Zeichenerkennung mit eventueller Fehlerkorrektur (ICR; Intelligent Character
Recognition) statt. Dieser Vorgang beruht im weitesten Sinne auf einem
Mustervergleich bekannter, in einer Datenbank gesammelter Buchstaben mit den
durch die Unterteilung erfassten Fragmenten.