Automatische Dokumentenerkennung - bit

Transcription

Automatische Dokumentenerkennung - bit
Automatische Dokumentenerkennung
Autoren: Thorsten Brand, Jobst Eckardt
Mehr und mehr Informationen liegen in elektronischer Form vor. Rechnungen werden
elektronisch versendet, Kundenanfragen oder -benachrichtigungen werden komplett mit dem
E-Mail-System abgewickelt und Papierdokumente werden am Posteingang gescannt. Die
Vermeidung von Papier in der Sachbearbeitung ist hierbei ein wichtiger Motivator, um
Prozesse zu beschleunigen und die Auskunftsfähigkeit zu erhöhen.
Die elektronische Ablage dieser Dokumente alleine reicht oft nicht aus. E-Mail-Archive, in
denen tausende E-Mails nur über die Suchfeldern des E-Mail-Systems (Von, An, Betreff,
Datum) und dem Volltext gefunden werden können, erhöhen nicht die Transparenz der
Ablage und führen zu einem Datengrab.
Die sachliche Zuordnung der Dokumente muss her: Der Zusammenhang zum Kunden, zum
Projekt, zum Schaden oder zur Bestellung – was auch immer für den fachlichen Kontext oder
die Suche erforderlich ist. Um diese Zuordnungen nicht manuell durch die Sachbearbeiter
durchführen zu müssen, gibt es Technologien, die Dokumente klassifizieren und
erschließbar machen. Hierbei handelt es sich nicht nur um eine OCR (Optical Character
Recognition), die im einfachsten Fall eine gescannte PDF-Datei um ein Text-Layer mit den
erkannten Zeichen ergänzt. Gefragt ist eine intelligente Analyse von Text, Layout und
Struktur eines Dokumentes, um die Inhalte zu ermitteln, die für die weitere Verarbeitung
erforderlich sind.
Triebfedern
Die Motivation für die automatische Dokumentverarbeitung ist klar: Kosten sparen. Dies trifft
für die Tätigkeiten, wie Sortierung, Klassifizierung oder Datenerfassung zu. Ergebnis ist
hierbei die Beschleunigung von Transport- und Verteilprozessen mit dem angenehmen
Nebeneffekt der Zentralisierung von Verarbeitungs- und Korrekturregeln. Wer kennt nicht die
Eingangsrechnung, die bereits Wochen durch das Haus gewandert ist, bis sie beim richtigen
Ansprechpartner eintrifft?
Im Idealfall ist eine sogenannte Dunkelverarbeitung ohne manuellen Eingriff möglich.
Paradebeispiel ist auch hier wieder die Eingangsrechnung: Wenn hierzu eine passende
Bestellung und ein passender Wareneingang im ERP-System existiert, kann auf manuelle
Prüfungen weitgehend verzichtet werden und eine automatisierte Buchung erfolgen. Weitere
Beispiele sind einfache Bestellvorgänge, Stammdaten- oder Adressänderungen, aber auch
die Indizierung von Altakten.
Unterschiedliche Aufgabenstellungen
Die Aufgabenstellung für eine OCR-Software kann unterschiedlich sein. Benötigt der
Anwender nur eine Möglichkeit zur Suche über Dokumentinhalte, hilft eine reine VolltextErkennung, die möglichst viele Formate, bspw. auch in PDF eingebettete Grafiken
verarbeiten kann. Zielformat ist typischerweise wieder PDF, da hier der erkannte Text als
Layer hinter die Grafiken gelegt und von der Volltext-Datenbank übernommen werden kann.
Gerade bei einer elektronischen Sachbearbeitung (mit elektronischem Postkorb) müssen
oftmals komplexe Informationen wie z.B. Bestellnummern, Adressdaten,
Rechnungspositionen etc. aus gescannten Dokumenten in eine DMS- oder Fachanwendung
manuell erfasst werden. Hierfür gibt es einfach zu nutzende, Client-basierte OCR-Lösungen,
die „Tipparbeit“ spart, vor allem bei komplexen Zeichenketten. Anspruchsvoller wird es, wenn
aus Dokumenten automatisiert Daten ausgelesen werden müssen. Sind diese strukturiert
und standardisiert, wie bei Meldezetteln oder Bestellformularen, besteht die Möglichkeit,
exakt zu definieren, an welcher Stelle eines Formulars sich ein Wert befindet.
Viele Dokumentarten besitzen aber keine feste Struktur, so dass diese formularbasierte
Definition nicht möglich ist. Die relevanten Informationen in einer Rechnung sind zwar
definiert, befinden sich aber je nach Lieferant immer an unterschiedlichen Positionen. Hier
eine formularbasierte Software einzusetzen ist unsinnig, da eine Vielzahl von
Formulardefinitionen erstellt werden müssten – schlimmstenfalls für jeden Kreditor und jede
Rechnungsvariante. Ändert sich das Layout, muss auch noch nachadministriert werden.
Gefordert sind an dieser Stelle Produkte, die in der Lage sind, den OCR-erkannten Text
nach definierten Regeln zu analysieren. Man nennt dies Freiformerkennung, da keine feste
Struktur eines Dokumentes vorgegeben werden muss, sondern bspw. nur Regeln wie:



Eine Rechnungsnummer befindet sich hinter oder unter Texten, wie „Rech-Nr.:“,
„Rechnungsnummer“ oder „Unser Zeichen“
Bei einem numerischen Wert mit dem Aufbau „xx-xxxx-xx“ und der Länge 8 handelt es
sich um eine Schadennummer
Bei der Kontonummer „130328“ handelt es sich um den Kreditor „Müller AG“
Viele Anwender stellen sich so eine vollautomatisierte Verarbeitung der gesamten
Eingangspost vor. Je nach Dokumentart sind aber unterschiedliche Inhalte für eine
Sachbearbeitung von Interesse. Für einen Eingangsbrief ist ggfs. nur der interne
Ansprechsprechpartner für die Weiterleitung relevant, für Eingangsrechnungen sind aber die
Mindestangaben einer Rechnung ein KO-Kriterium. Vor dem eigentlichen Auslesen von
relevanten Daten ist ebenso wie der manuellen Sortierung von Eingangspost eine
Klassifizierung in Dokumentarten erforderlich.
Diese automatische Klassifizierung auch für E-Mails einzusetzen, scheint aufgrund bereits
vorliegender elektronischer Daten eher einfacher zu sein als bei Papierdokumenten. In der
Praxis sind aber E-Mails aufgrund fehlender Vorgaben für die Strukturierung von Inhalten
eher komplizierter zu verarbeiten. Eine per Ping Pong-Verfahren hin- und hergeschickte EMail enthält mit großer Wahrscheinlichkeit Inhalte, die den letzten Sachstand nicht
widerspiegeln. Für eine Klassifizierung wichtige Informationen wie Kundennummer,
Auftragsnummer, Adressangeben etc. sind oftmals gar nicht vorhanden.
Die Klassifikation in Dokumentarten oder Vorgangstypen ist aber auch für Papierdokumente
nicht trivial. Nicht immer sind alle Entscheidungskriterien eindeutig definierbar. Dokumente
mit der Phrase „hiermit kündige ich“, sind nicht in jedem Fall Kündigungen: „hiermit kündige
ich an, dass ich den Vertrag verlängern werde“.
Die typischen Prozessschritte einer Erfassungsstrecke sind in der folgenden Darstellung
noch einmal zusammengefasst:
Verarbeitungsschritte bei der automatischen Dokumentenerkennung
Scannen

Schnittstellen
Typische Funktionen





Konvertieren in
digitale Images
Dokumenttrennung
Ggfs. Endorisierung
Vollständigkeitsprüfung Scannen
Weitergabe an die
OCR-/ICR-Umgebung
Multistream-Verfahren
zur Weitergabe
unterschiedlicher
Formate (SW für
Archiv, Farbe für OCR)
Optimierung


Leerseitenerkennung
Kontrastoptimierung

Elektronisches
Zuschneiden und
Ausrichten
In Leserichtung
drehen
Geraderücken
Eliminierung
ungewollter Linien
Herausfiltern kleiner
Punkte








Scan-Anwendung
Import-Schnittstelle
für Dokumente von
Dritten

Klassifikation



Automatisches
Sortieren des
Beleggutes
Erkennung der
Dokument- oder
Vorgangsarten
(oft nur Feld
„Dokumentart“)



Erkennung
Dokumentsprache

Herausfiltern
Hintergrund/
Rückseite
Blindfarbenerkennung/-filterung
Drittsoftware zur
Belegoptimierung, oft
aber in Scan-Software
integriert
Beleglesung


Externe Datenbanken
zur Erkennung von
Kunden, Lieferanten,
etc.

Weitergabe,
Export
Korrektur
Erkennung der
relevanten Daten
Umfang kann sein:
Kopfdaten,
Positionsdaten,
einzelne Felder,
Zeilen, komplett

Techniken: Barcode,
OCR, OMR,
Handblockschrift,
Logos
Methoden:
formularbasiert,
regelbasiert,
selbstlernend
Voting-Verfahren:
Bewertung der
Leseergebnisse durch
mehrere Umgebungen


„Lernen“ von
korrigierten Inhalten
keine

Externe Datenbanken

zur Werteprüfung oder
-ergänzung

Fachanwendungen für
die Weiterverarbeitung
der Daten
DMS-Umgebungen für
die Archivierung

Postkorb-Umgebungen
zur Sachbearbeitung
Volltext an Volltext-DB





Automatische und
manuelle Korrekturen
Normalisierung LeseErgebnisse (Bsp.
Datum, Beträge)

Syntax-Prüfung Felder
(Format, Länge etc.)
Abgleich mit externen
Datenquellen
Prüfung Muss- und
Kannfelder
Logik-Prüfungen, bsp.
Summen, Pos. x Preis
Manuelle QS bei
„Unsicherheit“ oder
Fehlern





Weitergabe Daten an
Fachanwendungen
Weitergabe Dokumente
an Postkorb oder DMSUmgebung
Start von Workflows
Rücksenden
Dokumente an
Scananwendung
(Neu Scannen)
Bereitstellung
Protokoll- und
Statistikdaten
Einflußfaktoren auf Erkennungsergebnisse
Eine automatisierte Erkennung lebt von der Qualität der bereitgestellten Daten und einer
Minimierung von manuellen Nachbearbeitungsaufwänden. Eine wesentliche Maßnahme
stellt die Validierung gelesener Informationen in führenden Fachanwendungen dar: Existiert
die gelesene Bestellnummer im ERP-System? Ist die im Antrag erkannte Kundennummer
bereits in der Partnerdatenbank? Haben wir eine solche Schadennummer im System?
Oft können auch Syntax-Definitionen, Summenprüfungen oder einfache Berechnungen zur
Verbesserung der Ergebnisse führen. Je nach Schriftgut macht der Einsatz von VotingVerfahren Sinn, bei denen mehrere OCR-Engines parallel Ergebnisse erarbeiten und diese
Ergebnisse dann gewichtet und verglichen werden.
Weitere Optimierungen basieren auf dem Eingriff eines Benutzers. Dieser korrigiert die
Klassifikation oder die erkannten Werte und trainiert die Anwendung für die zukünftige
Verarbeitung. Beispiele sind formularspezifische Regeldefinitionen: „Bei der Müller AG steht
die die Rechnungsnummer unter dem Text „SAP-Nr.““ oder allgemeine Erweiterung der
Regelbasis: „Bei Dokumenten mit dem Begriff „kündige“ ist ein manueller Eingriff vor der
Klassifikation erforderlich“.
Natürlich hilft es auch immer, einen Blick auf das Beleggut selbst zu werfen. Bei
Dokumenten von Dritten, wie Lieferanten oder Kunden sind die Möglichkeiten der
Optimierung oftmals beschränkt. Anders verhält es sich jedoch bei Rückläufern, d.h.
selbsterstellten Dokumenten die wieder in das Unternehmen zurückkommen. Hier kann
durch unterschiedliche Maßnahmen leicht eine Erhöhung der Erkennungs-Qualität erreicht
werden kann.
Möglichkeiten zur Erhöhung der Lesequalität:
Bei Dokumenten von Dritten

Erfassung in Farbe /Multi-Stream

Vermeidung von Eingangsstempeln oder
Textmarkern

Vorsortierung nach Dokumenttypen
Bei Eingangs-Dokumenten von Dritten kann das
Layout selbst nicht optimiert werden.

Alternative: Info an den Versender:
– „Für jede Bestellung bitte eine eigene
Rechnung“
– „Wir akzeptieren keine Lieferscheine
ohne Auftragsnummer“
– Alternative oder parallele Lieferung
eines elektronischen Datensatzes
Bei selbst erstellten Dokumenten

Verwendung von Blindfarben, Vermeidung
von Schattierungen

Eindeutige Identifizierungsmerkmale
(Barcode, Nummer, Kennung etc.)

Formularvarianten vermeiden,
Formularversion auf das Dokument

Markierungen zum Ausgleich von
Verzerrungen bei Fax-Formularen

Vermeidung von Fließhandschrift z.B. durch
Markierungen/Ausfüllkämme

Ausreichend Raum für die relevanten
Informationen

Bestimmte Formate für vorgedruckte
Informationen (z.B. Adressdaten,
Kreditkarten-Nummer etc.) definieren

Bei dünnem Papier das Bedrucken der
Rückseite vermeiden

Nicht Streichen oder Korrigieren auf dem
Formular, sondern zweites Feld

Bereitstellung elektronische Formulare zum
Ausfüllen und Ausdrucken
Stolpersteine in der Praxis
Trotz aller Technologie gibt es einige Probleme in der Praxis, die auch auftreten, wenn eine
OCR zu 100% arbeitet. Dies fängt bei der Trennung der einzelnen Dokumente im ScanStapel an. Gerade gemischtes Beleggut verlangt oftmals eine Zusortierung von
Trennblättern, da die Software-Regeln für die Erkennung von Dokumentgrenzen nicht richtig
greifen. Schwierig wird es auch bei der Mehrfachklassifikation von Dokumenten, also der
Identifikation mehrerer Geschäftsvorfälle in einem Dokument („anbei finden Sie die
Abrechnung und ich bitte um die Zusendung von Information zum Produkt …“). Hier lassen
sich Dokumentenklassen nicht immer ausreichend genau unterscheiden. Wichtig sind dann
aussagefähige Statistik-Funktionen, um schnell einen Überblick über typische Problemfälle
zu bekommen.
Apropos 100% OCR: Oft hört man die Aussagen: „Unsere Erkennnungsrate liegt bei 99%“.
Forscht man hier weiter, stellt man leicht fest, dass bei dieser Aussage die Bezugsgröße
wichtig ist: Geht es um Dokumente, Seiten, Felder oder Zeichen?
Bei einer Modellrechnung mit 500 Belegen à 2 Seiten (insg. 1.000 Seiten) mit jeweils 3
Feldern pro Seite und insg. 24 Zeichen pro Seite kann hierbei ein deutlicher Unterschied für
den Aufwand zur Nachbearbeitung entstehen:
Bezug
Erkennungsrate = 99%
Beleg-Nachbearbeitung
Beleg
Von 500 Belegen werden 5 nicht vollständig
korrekt verarbeitet
5 Belege (1%)
Seite
Von 1.000 Seiten werden 10 Seiten nicht
erkannt
Worst case:
10 Belege (2%)
Feld
Von 3.000 Feldern werden 30 Felder nicht
erkannt
Worst Case:
30 Belege (6%)
Zeichen
Von 24.000 Zeichen werden 240 Zeichen nicht
erkannt
Worst case:
240 Belege (48%)
Im schlimmsten Fall sind also fast die Hälfte der Belege zu korrigieren, was so in der Praxis
zwar nicht vorkommt, doch es zeigt, dass man bei entsprechenden Aussagen in die Details
gehen muss. Das trifft übrigens für das gesamte Thema Produktbewertung zu: Allgemeine
Produkt-Demos oder lange Feature-Listen helfen bei der Bewertung und Auswahl
entsprechender Software nicht weiter.
Produktauswahl
Wichtig ist die Prüfung der Verarbeitung mit eigenen, repräsentativen Dokumenten und
Dokument-Stapeln – möglichst mit den eigenen Scannern gescannt. Der Anbieter sollte auch
das Regelwerk für die Erkennung und Prüfung kennen und passende Datensätze zur
Verfügung gestellt bekommen. Hiermit kann das System vortrainiert werden.
Anbieter-Übersicht
Anbieter
Formular-Verarbeitung
Freiform-Verarbeitung
Autonomy Cardiff
TeleForm
ABBYY
FormReader
FlexiCapture
AnyDoc Software GmbH
OCR for AnyDoc®
AnyDoc®INVOICE
BancTec Inc.
eFirst Capture
eFirst Capture
Beta Systems Software AG
FormsRec
FrontCollect Invoice
FrontCollect Mailroom
B&L OCR-Systeme GmbH
FormStar, AdressStar
DokuStar
Open Text
Capture Recognition Engine
(RecoStar)
Capture Document Reader
(DOKuStar),
Invoice Capture Center
Comline AG
helic Recognition
d.velop AG
d.classify
Docutec AG
X4D (Xtract for documents)
X4D (Xtract for documents)
(Tochter der I.R.I.S Group)
EASY Software AG
EASY CAPTURE mit
EASY IQ classify
ELO Digital Office GmbH
DocXtractor II
DocXtractor II
EMC
Captiva FormWare
Captiva Dispatcher
Captiva InputAccel
Future Software GmbH
JustScan Enterprise
JustScan Next Generation
I.R.I.S Group
IRISCapture Pro for Forms
IRISCapture Pro for Invoices
Insiders Technologies GmbH
smartFIX
smartFIX
ISIS Papyrus
Papyrus FixForm
Papyrus FreeForm®
Anbieter
Formular-Verarbeitung
Freiform-Verarbeitung
ITESOFT
FreeMind for Business
FreeMind Enterprise
K7 it Solutions GmbH
WANDO®
WANDO® invoice
Papyrus Classify
WANDO® info center
KOFAX
Transformation Modules
Transformation Modules
Paradatec GmbH
PROSAR-AIDA
PROSAR-AIDA
ReadSoft GmbH
Documents for Forms
Documents for Invoices
Documents for Mailrooms
Saperion AG
Scalaris AG
Inbound Suite
Application Forms
Seeburger
Invoice, Letter Post, Files &
Correspondence
4invoice
SER Solutions Deutschland
GmbH
DOXiS Inbound Master
Top Image Systems
eFLOW Integra
DOXiS Inbound Master
DOXiS InvoiceMaster
eFLOW Freedom
eFLOW Smart
TCG Informatik AG
FreeFormStar®
FreeFormStar®
Zu Beginn einer Produkt-Demonstration wird dann ein weiterer Dokumentstapel übergeben.
Nach der Verarbeitung muss nun im Detail verglichen, geprüft und gezählt werden. Es erfolgt
hierbei auch eine Bewertung, wie einfach eine Korrektur möglich ist. Interessant ist natürlich
das Verhalten beim zweiten übergebenen Dokumentenstapel, da hier die Optimierungen, die
für den ersten Stapel bereits durch den Anbieter erfolgt sind, nun gemeinsam erfolgen.
Man stellt meist schnell fest, ob ein Produkt Endbenutzer-tauglich ist oder ob
Programmierkenntnisse für die Optimierung erforderlich sind. Dies ist übrigens neben der
Erkennungs-Qualität das ausschlaggebende Bewertungskriterium.
Übersicht Bewertungskriterien

Erkennungsraten bei Verarbeitung des eigenen Belegguts
– Test-Stapel zur Vorbereitung und im Rahmen eines Anbieter-Termins
– Qualität der Erkennung geht vor Geschwindigkeit

Aufwände für Administration
– Definition, Training neuer Dokumentenarten
– Übersichtlichkeit und Funktionalität der Admin-Anwendung

Ergonomie der Korrekturanwendung
– Customizing und Anpassung ohne Programmierung
– Komplette und einfache Bedienung über Tastatur

Transaktionsschutz
– Mechanismen zur Vollständigkeitskontrolle
Anzahl gescannter Dokumente = Anzahl bearbeiteter Dokumente
= Anzahl exportierter Dokumente

Integration in führende Zielsysteme (Schnittstellen)
– DMS-Lösungen
– ERP-Systeme oder andere Systeme für Prüfdaten oder Weiterverarbeitung

Wirtschaftlichkeit
– Lizenzkosten der Software
– Kosten für das Training und Optimierung der Dokumente

Manchmal wichtig: Architektur / Skalierbarkeit bei Anforderungen mit hohen
Volumen
Fazit
Bedarf an Technologien zur automatischen Dokumentenerkennung gibt es in vielen
Anwendungsbereichen wie bspw. beim zentralen Posteingang, bei der Rechnungsverarbeitung, bei Bestellungen und Anträgen, Auswertung von Fragebögen/Umfragen oder
Meldezettel (Strom, Wasser, Gas). Gute OCR-Lösung reduzieren hier Sortier- und
Erfassungsaufwände deutlich.
Eine pauschal beste Lösung gibt es nicht. Dies wird schon durch die unterschiedlichen
Technologieansätze deutlich, mit denen die Produkte arbeiten. Es gibt formularbasierte
Lösung, Freiform-Verarbeitung mit Regelwerken oder auf Basis von neuronalen Netzen.
Daher ist der Test unter eigenen Rahmenbedingungen und mit dem eigenen Beleggut
Pflicht.
Abschließend muss aber noch der Hinweis erlaubt sein, dass diese gesamte Technologie
zwar bei der Kostenreduzierung der Dokumentverarbeitung hilft, aber doch nicht den
Königsweg darstellt. Erster Schritt sollte immer die Vermeidung des Medienbruchs von
Papier zu elektronischen Informationen sein. Die direkte elektronische Verarbeitung bspw.
über ein elektronisches Formular, über EDI oder FTP, ist immer effizienter als der Einsatz
von OCR-Technik. Allerdings wurde das papierlose Büro auch schon vor vielen Jahren
propagiert, ist aber noch lange nicht Realität…
Quellennachweis: von Thorsten Brand und Jobst Eckard, Berater der Zöller & Partner
GmbH. Dieser Artikel stammt aus dem Zöller & Partner Newsletter, Ausgabe Dezember
2009. Internet: www.zoeller.de