Optische Zeichenerkennung (OCR): KI kann lesen!

Innovative Technologien wie Robotic Process Automation (RPA) und Künstliche Intelligenz (KI) verschieben kontinuierlich die digitalen Grenzen für Unternehmen. Sie werden vor allem durch die große Menge an Informationen gebremst, die immer noch in analogen Papierformaten erzeugt und gespeichert werden. Die Lösung für das Problem der Umwandlung analoger Dokumente in digitale Dateiformate ist die optische Zeichenerkennung (OCR).

Der Einsatz von OCR-Systemen ist einer der ersten Schritte in Richtung Automatisierung. Doch OCR ist keineswegs neu. Jeder, der in einem Büro arbeitet, das mit einem modernen Drucker ausgestattet ist, hat höchstwahrscheinlich schon einmal mit OCR zu tun gehabt. Doch wofür steht OCR eigentlich? Wofür kann sie eingesetzt werden? Und wie funktioniert sie überhaupt? Die Antwort auf diese Fragen ist deshalb so wichtig, weil derjenige, der weiß, wie OCR funktioniert, seine Möglichkeiten im Rahmen der Automatisierung und Prozessoptimierung voll ausschöpfen kann.

OCR - Vom analogen zum digitalen Dokument

Die optische Zeichenerkennung ist eine weit verbreitete Technologie zur automatischen Textextraktion aus Dokumenten oder bildbasierten PDF-, TIFF- oder JPG-Dateien und zur Umwandlung des extrahierten Textes in maschinenlesbare Textformen. Die Software zur optischen Zeichenerkennung verarbeitet ein digitales Bild, indem sie Zeichen wie Buchstaben, Zahlen und Symbole sucht und erkennt und sie in bearbeitbaren Text umwandelt.

OCR ist eine Technologie, die analoge in digitale Dokumente umwandelt. Wenn OCR ein Wort scannt, erkennt der Algorithmus bestimmte Teile oder Formen eines digitalisierten Bildes, z. B. die Buchstaben, aber er versteht nicht die Bedeutung des Wortes. Advanced OCR-Software kann auch die Größe und Formatierung des Textes sowie das Layout des Textes extrahieren und exportieren. Sobald ein Dokument mit OCR-Technologie verarbeitet wurde, können die Textdaten leicht bearbeitet, durchsucht, indiziert und abgerufen werden. Die digitalisierten Dokumente können auch in ZIP-Dateien komprimiert, mit Stichworten versehen oder in eine Website eingebettet werden.

Wie funktioniert die optische Zeichenerkennung?

Die grundlegenden Schritte sind Bilderfassung, Vorverarbeitung, Segmentierung, Merkmalsextraktion, Klassifizierung und Nachbearbeitung. Im ersten Schritt werden die physischen Texte gescannt und kopiert und von der OCR-Software in Binärdaten umgewandelt. Im nächsten Schritt analysiert die Software die gescannten Bilder auf helle und dunkle Bereiche. Helle Bereiche werden als Hintergrund und dunkle Bereiche als geschriebene Zeichen erkannt. Anschließend verarbeitet das Programm die dunklen Bereiche, um Buchstaben, Ziffern und Symbole zu finden. Es gibt verschiedene Techniken für OCR-Software, aber die meisten von ihnen beziehen sich auf ein Zeichen, ein Wort oder einen Textblock.

Zwei Methoden - ein Ziel

Bevor die OCR-Software reibungslos arbeiten kann, muss sie einen Mustererkennungsprozess durchlaufen. Bei diesem Verfahren wird das Programm mit Textmustern in verschiedenen Schriftarten und Formaten gefüttert, die dann zum Erkennen und Vergleichen von Zeichen im gescannten Text verwendet werden.

Eine andere Methode ist die Merkmalserkennung. Dabei werden bestimmte Merkmale von Buchstaben, Zahlen oder Symbolen verwendet, um Zeichen im gescannten Bild zu erkennen. Merkmale können die Anzahl der schrägen Linien, Querlinien oder Kurven in einem Schriftzeichen sein. Bei dem Großbuchstaben "A" könnten dies zwei diagonale Linien sein, die in der Mitte auf eine horizontale Linie treffen. Sobald die Zahlen und Zeichen identifiziert wurden, können sie in einen ASCII-Code (American Standard Code for Information Interchange) umgewandelt werden - das gängigste Format für Textdateien in Computern und im Internet.

Vertrauen ist gut, Kontrolle ist besser

Nachdem der Text durch OCR verarbeitet wurde, sollte er jedoch noch einmal überprüft werden, um sicherzustellen, dass der Prozess erfolgreich war und der Text korrekt und vollständig extrahiert und konvertiert wurde. Die Erkennungsgenauigkeit liegt bei 99 Prozent, aber das eine Prozent kann theoretisch einen schwerwiegenden Fehler enthalten, zum Beispiel wenn das Komma im Preisangebot im Originaldokument nicht erkannt wurde. Schlechter Kontrast oder unscharfe Zeichen im Original beeinträchtigen die Erkennungsgenauigkeit erheblich. Dennoch kann die Genauigkeit verbessert werden, wenn die OCR mit einem Lexikon gekoppelt ist, so dass der Algorithmus auf eine Liste von Wörtern zurückgreifen kann, die im gescannten Text vorkommen.

‍

Vorteile von OCR

OCR-Lösungen verbessern die Zugänglichkeit von Informationen für die Nutzer. Bevor es OCR-Software gab, bestand die einzige Möglichkeit, gedruckte Papierdokumente zu digitalisieren, darin, den Text manuell abzutippen. Dies war nicht nur enorm zeitaufwändig, sondern auch mit Ungenauigkeiten und Tippfehlern verbunden.

Die ersten erfolgreichen Schritte mit einer Software zur optischen Zeichenerkennung wurden im Finanzsektor unternommen. Die charakteristische Schriftart, die für die Kontonummer und die Bankleitzahl auf Schecks verwendet wurde - OCR-A genannt - kann noch heute auf Bankschecks bewundert werden. Sie wurde so konzipiert, dass jeder Buchstabe und jede Zahl von den anderen unterschieden werden kann. Die OCR-Technologie wurde in den frühen 1990er Jahren populär, als man versuchte, historische Zeitungen zu digitalisieren.

OCR spart Zeit und Ressourcen

Seitdem wurde die Technologie mehrfach verbessert. Heute liefern die Lösungen nahezu perfekte Ergebnisse. Advanced Methoden, wie z. B. zonale OCR, werden zur Automatisierung komplexer dokumentenbasierter Arbeitsabläufe eingesetzt. Unternehmen, die OCR-Funktionen für die Konvertierung von Bildern und PDFs nutzen, sparen Zeit und Ressourcen, die für die manuelle Verarbeitung nicht scannbarer Daten erforderlich wären.

Einmal übertragen, können OCR-verarbeitete Textinformationen von Unternehmen einfacher und schneller durch Maschinen genutzt werden. Dies bedeutet eine Verringerung der Fehler bei der Datenübertragung, enorme Ressourceneinsparungen und eine verbesserte Produktivität. Dank OCR-Software können Unternehmen nicht nur analoge Dokumente digital speichern und besser organisieren, sondern auch dokumentenbasierte Arbeitsabläufe, die oft stark auf PDF-Formate angewiesen sind, für die Datenextraktion und anschließende Automatisierung vorbereiten. Aber dazu später mehr!

Vom bedruckten Papier zum maschinenlesbaren Dokument

Die optische Zeichenerkennung ist eine Technologie, die hinter vielen bekannten Systemen und Diensten unseres täglichen Lebens steht. Zu den weniger bekannten Anwendungsfällen gehören die Automatisierung der Dateneingabe, die Indizierung von Dokumenten für Suchmaschinen, die automatische Nummernschilderkennung und die Unterstützung von Blinden und Sehbehinderten. Der wohl bekannteste Anwendungsfall für OCR ist die Umwandlung von gedruckten Papierdokumenten in maschinenlesbare Textdokumente. Sobald ein gescanntes Dokument die OCR-Software durchlaufen hat, kann der Text des Dokuments mit Textverarbeitungsprogrammen wie Microsoft Word oder Google Docs verarbeitet werden.

Mehr Transaktionssicherheit für Banken

Optische Zeichenerkennung wird am häufigsten von Banken eingesetzt, um die Sicherheit von Transaktionen und das Risikomanagement zu verbessern. OCR kann verwendet werden, um wichtige handschriftliche Garantiedokumente von Kunden zu scannen, z. B. Kreditdokumente. Die internationale Kontonummer (International Bank Account Number, IBAN) wird verwendet, um Bankkonten grenzüberschreitend zu identifizieren. Die IBAN kann unterschiedlich lang sein und sowohl aus Zahlen als auch aus Buchstaben bestehen. Um grenzüberschreitende Transaktionen zu erleichtern, können Banking-Apps mit integrierter OCR-Software die IBAN für die weitere Transaktionsverarbeitung einscannen, anstatt sie mühsam einzutippen. Verschiedene Anbieter bieten spezielle anwendungsorientierte OCR-Systeme an, die z. B. Geschäftsregeln, Standardausdrücke oder umfangreiche Brancheninformationen nutzen.

Vereinfachte Dateneingabe und Datenkategorisierung

OCR kann für eine Vielzahl von Dateneingabe- und Datenkategorisierungsaufgaben verwendet werden. So kann beispielsweise die Dateneingabe von Geschäftsdokumenten automatisiert werden, indem Papierausdrucke von juristischen oder historischen Dokumenten in PDF-Dateien umgewandelt werden, die dann bearbeitet, formatiert und durchsucht werden können. OCR kann aber auch zur Datenkategorisierung eingesetzt werden, beispielsweise um die Sortierung von Briefen für die Postzustellung zu automatisieren oder um Schecks elektronisch einzureichen, ohne dass ein Bankangestellter benötigt wird.

Datenindizierung und Mustererkennung

Andere Anwendungsfälle sind das Hinzufügen beglaubigter juristischer Dokumente zu einer elektronischen Datenbank und die Indizierung von gedrucktem Material für Suchmaschinen oder der Einsatz in Sicherheitskameras zur Erkennung von Nummernschildern. Von der Erfassung von Visitenkarten bis hin zum Extrahieren von Eingangsrechnungen aus Lieferanten-E-Mails - optische Zeichenerkennungssysteme sind darauf spezialisiert, Ausdrucke durch Mustererkennung und elektronische Erfassung visueller Informationen in Pixel umzuwandeln. OCR wird seit langem in der Rechnungsverarbeitung eingesetzt, um die Mitarbeiter von der mühsamen Neueingabe von Rechnungsdaten zu befreien, und ist eine Schlüsselkomponente von umfassenderen Automatisierungslösungen.

OCR und RPA zur Prozessoptimierung

Auch die optische Zeichenerkennung ist ein Schlüsselelement für jede gute RPA-Lösung. Dabei werden unstrukturierte Daten aus gescannten oder gesendeten Textvorlagen in strukturierte, digitalisierte Daten umgewandelt, die wiederum in digitale Geschäftsprozesse einfließen können, ohne dass manuelle Eingriffe erforderlich sind. OCR in Kombination mit RPA ermöglicht es Unternehmen somit, operative Geschäftsprozesse, die noch stark von ausgefüllten Formularen geprägt sind, in einem deutlich höheren Maße zu automatisieren. Die mit OCR gewonnenen Daten können dann an die verschiedenen Unternehmensanwendungen wie CRM, ERP oder Legacy-System weitergeleitet werden. Eine OCR-Engine, die vollständig in den Workflow komplexer Geschäftsprozessautomatisierungen eingebettet ist, kann beispielsweise die zeitaufwändigen Aufgaben automatisieren, die mit der manuellen Verarbeitung von Rechnungen in lesbare Daten verbunden sind.

Was hat NLP mit OCR zu tun?

Für unstrukturierte Dokumente hat sich eine Kombination aus optischer Zeichenerkennung tool und Natural Language Processing (NLP ) bewährt. Sie verbessert die Lesbarkeit von Dokumenten, ohne den Kontext, das Format oder die regionale Umgangssprache zu kennen, und berücksichtigt abgekürzte Wörter, kurze Texte oder sogar Hashtags. Diese Lösungen verfügen über einen schnell aufzubauenden technischen Kern und bieten eine gute Assimilation von Daten. Kurz gesagt, NLP hilft bei der Verbesserung der Wortgenauigkeit, indem falsche Wörter durch richtige ersetzt werden.

Denn NLP ist ein Bestandteil der künstlichen Intelligenz (KI) und ermöglicht es Computern, die gesprochene und geschriebene menschliche Sprache zu erfassen, zu verarbeiten und zu verstehen. Zu diesem Zweck verwendet NLP zwei Techniken: die Syntaxanalyse und die semantische Analyse. Bei der Syntaxanalyse bewertet NLP die Bedeutung einer Sprache auf der Grundlage grammatikalischer Regeln. Die semantische Analyse arbeitet mit Algorithmen, um die Bedeutung und Struktur von Sätzen zu verstehen.

ICR erkennt sogar krakelige Handschrift

Viele Unternehmen haben mit großen Mengen von handschriftlich ausgefüllten Formularen zu kämpfen, wie z. B. Anmeldeformulare und Kreditanträge, die gescannt, digitalisiert und transkribiert werden müssen. Aber auch handschriftliche Kritzeleien und unterschiedliche Handschriftstile oder Schriftarten stellen für die optische Zeichenerkennung kein besonders großes Problem mehr dar. Die intelligente Zeichenerkennung (Intelligent Character Recognition, ICR), die logische Weiterentwicklung der OCR, nutzt neuronale Netze, eine Technologie des maschinellen Lernens (ML), um zu lernen und sich mit der Zeit selbst zu korrigieren.

Zu diesem Zweck verwenden neuronale Netze große Mengen handschriftlicher Trainingsdaten mit einer Vielzahl unterschiedlicher Stile und Formate und vergleichen dann jedes Zeichen mit den Trainingsdaten, um die beste Übereinstimmung und die genaueste Transkription zu finden. Dabei analysiert und bewertet die ICR das Scan-Ergebnis auch im Hinblick auf den semantischen Kontext. ICR prüft innerhalb des Textes, ob es inhaltlich sinnvoll ist, einen bestimmten Buchstaben zu verwenden. Auf diese Weise kann ICR sogar handschriftliche Notizen erkennen, die kein Mensch mehr lesen kann.

End-To-End-Automatisierung des Transkriptionsprozesses

Durch den Einsatz von ICR zur Digitalisierung handschriftlicher Formulare und Dokumente können Unternehmen den Transkriptionsprozess durchgängig automatisieren und damit erheblich beschleunigen und vereinfachen. ICR und OCR können nun auch eingesetzt werden, um bestehende Papierarchive und wichtige Inhalte historischer Dokumente in bruchstückhafter Schrift, die vom Verfall bedroht sind, zu schützen und rechtssicher zugänglich zu machen. Unternehmen wie das Genealogie-Portal Ancestry machen sich dies zunutze, um ihren Mitgliedern historische Dokumente für die persönliche Recherche zur Verfügung zu stellen, ohne dass diese stundenlang in den Dokumenten nach Informationen suchen müssen. OCR/ICR eignet sich auch für den Einsatz bei Sortiervorgängen im Posteingang. Selbst handschriftliche Notizen auf Briefumschlägen oder anderen Postsendungen können erkannt und entsprechend weitergeleitet werden.

‍

Optische Zeichenerkennung Tools Das sollten Sie wissen

Die wichtigsten Lösungen zur optischen Zeichenerkennung sind Adobe Acrobat Pro DC, OmniPage Ultimate, Abbyy FineReader, Readiris und Rossum. Während in der Vergangenheit die Menge der noch zu scannenden Dokumente dem papierlosen Büro im Wege stand, können moderne OCR tools Dokumente sowohl einzeln als auch in Stapeln scannen, was den Prozess wesentlich effizienter macht.

Adobe Acrobat Pro DC

Adobe Acrobat Pro DC bietet eine umfangreiche Liste von Optionen. Das DC steht für Document Cloud. So können Benutzer von jedem Computer aus auf ihre Dateien zugreifen. Neben den grundlegenden OCR-Funktionen bietet die Pro-Version auch die Möglichkeit, Dokumente mit Anmerkungen zu versehen und stellt spezielle Werkzeuge zum Scannen von Tabellenkalkulationen und Vergleichen von Dokumenten bereit. Innerhalb von Sekunden nach dem Scannen können die Dokumente direkt auf dem Bildschirm als PDF-Dateien bearbeitet werden.

OmniPage Ultimate

OmniPage Ultimate bietet eine breite Palette von Eingabe-, Ausgabe- und Workflow-Optionen, die weit über das hinausgehen, was man normalerweise erwarten würde. Einzelne Papierdokumente oder auch Papierstapel lassen sich schnell und einfach in ein beliebiges digitales Dateiformat konvertieren. OmniPage Ultimate besticht durch seine hohe Konvertierungsgenauigkeit. Benutzerdefinierte Arbeitsabläufe können so eingerichtet werden, dass die Dokumente bei Bedarf automatisch im richtigen Format an die richtige Stelle geliefert werden.

Abbyy FineReader

In den letzten Jahren hat Abbyy eine umfassende Textdateiverwaltungs-Toolbox zum Scannen, Organisieren und Erstellen digitalisierter Papierdokumente entwickelt. Neben der Textkonvertierung in alle gängigen Formate können Textdateien in der Enterprise-Version auch verglichen und mit Anmerkungen versehen werden.

Readiris

Readiris verfügt über eine durchdachte Benutzeroberfläche und bietet viele nützliche Funktionen. Readiris unterstützt eine Vielzahl von Dateiformaten und bietet die Möglichkeit, sich den Text vorlesen zu lassen. Darüber hinaus kann Readiris verwendet werden, um gescannte Dokumente zu signieren und fertige digitale Dokumente mit einem Sicherheitsschutz zu versehen, sowie Wasserzeichen-, Kommentar- und Anmerkungsfunktionen.

Rossum

Rossum ist auf das Scannen und Digitalisieren von Rechnungen spezialisiert und richtet sich mit seiner OCR-Lösung vor allem an Unternehmen, die noch mit einer großen Anzahl von Papierrechnungen arbeiten und vor allem schnell und einfach Zahlen extrahieren müssen. Die OCR-Lösung von Rossum verwendet kein Vorlagenformat, sondern stützt sich auf den Einsatz von künstlicher Intelligenz, um wichtige Informationen zu scannen.

Schlussfolgerung

Unternehmen, die sich von der papierbasierten Dokumentation und den damit verbundenen Kosten, Umweltauswirkungen und Ineffizienzen befreien wollen, nutzen OCR, um vorhandene Informationen zu digitalisieren und neue Arbeitsabläufe zu schaffen, die neue Informationen automatisch erfassen und speichern. Es wird erwartet, dass KI und ML das Scannen und die Zeichenerkennung verändern werden. Diese Kombination wird es ermöglichen, Daten zu analysieren und Systemen beizubringen, Unstimmigkeiten in großen Datenbeständen zu erkennen. KI-gesteuerte OCR-Technologien können nicht nur dabei helfen, vollständige Texte zu digitalisieren, sondern auch den Kontext solcher Texte zu erfassen und zu verstehen, um wertvolle Ressourcen für das Unternehmen zu sparen.