OCR-Erkennung

Bei der OCR-Erkennung handelt es sich um die „Optical Character Recognition“ – dt. Optische Zeichenerkennung.

Sie ist eine Technologie, anhand der Dokumente in bearbeitbare und durchsuchbare Dateien umgewandelt werden.

Wie funktioniert die OCR-Erkennung?

Im ersten Schritt wird der Text eines Dokuments gescannt bzw. abfotografiert und den Computer bzw. das Mobilgerät eingelesen.
Danach wird das Layout des Dokuments analysiert. Dabei wird die Bilddatei durch die OCR-Erkennung in einzelne Elemente wie Grafiken und Text unterteilt, wobei der Text nochmals in Absätze, Sätze, Wörter und Zeichen aufgegliedert wird.

Als dritter Schritt im Ablauf der OCR-Erkennung folgt die Zeichenerkennung. Dabei lässt sich zwischen zwei Methoden unterscheiden: der Merkmalserkennung und der Mustererkennung – auch Feature Matching und Pattern Matching genannt.

Bei der Merkmalserkennung ist es so, dass jedes Zeichen durch bestimmt Merkmale erkannt erden kann. So besteht ein H aus zwei denkrechten Linien die durch eine horizontale Linie in der Mitte verbunden sind.

Bei der Mustererkennung benutzt die Software ihre eigene Datenbank zum Abgleichen der Zeichen. Hierbei muss die Übereinstimmung zwischen Zeichen und Buchstaben aus der Datenbank zu 100% erfolgen.

Was muss bei der Erfassung mit der OCR-Erkennung beachtet werden?

Zum einen sollte man bei der Erfassung mit der OCR-Erkennung auf den Zustand des Dokuments achten. Zwischen Schrift und Hintergrund sollte ein starker Kontrast sein. Ebenfalls sollte das Dokument nicht gefaltet oder zerknittert sein, um eine gute Erkennbarkeit zu gewährleisten. Auch Markierungen sollten vermieden werden.

Auf der anderen Seite gibt es auch Dinge, die beim Scannen bzw. fotografieren des Dokuments beachtet werden müssen. Die Bilddatei sollte nicht verwackelt sein. Darüber hinaus sollte man für gute Lichtverhältnisse sorgen und die Kamera beim abfotografieren gerade über das Dokument halten.

Warum sollte man die OCR-Erkennung nutzen?

Im Vergleich zum manuellen Prozess in die Dokumente per Hand abgetippt und erfasst werden ist die Geschwindigkeit bei der Nutzung einer entsprechenden Software deutlich schneller und effizienter.

Zurück zum Glossar