Automatische Dokumentenerkennung - bit
Transcription
Automatische Dokumentenerkennung - bit
Automatische Dokumentenerkennung Autoren: Thorsten Brand, Jobst Eckardt Mehr und mehr Informationen liegen in elektronischer Form vor. Rechnungen werden elektronisch versendet, Kundenanfragen oder -benachrichtigungen werden komplett mit dem E-Mail-System abgewickelt und Papierdokumente werden am Posteingang gescannt. Die Vermeidung von Papier in der Sachbearbeitung ist hierbei ein wichtiger Motivator, um Prozesse zu beschleunigen und die Auskunftsfähigkeit zu erhöhen. Die elektronische Ablage dieser Dokumente alleine reicht oft nicht aus. E-Mail-Archive, in denen tausende E-Mails nur über die Suchfeldern des E-Mail-Systems (Von, An, Betreff, Datum) und dem Volltext gefunden werden können, erhöhen nicht die Transparenz der Ablage und führen zu einem Datengrab. Die sachliche Zuordnung der Dokumente muss her: Der Zusammenhang zum Kunden, zum Projekt, zum Schaden oder zur Bestellung – was auch immer für den fachlichen Kontext oder die Suche erforderlich ist. Um diese Zuordnungen nicht manuell durch die Sachbearbeiter durchführen zu müssen, gibt es Technologien, die Dokumente klassifizieren und erschließbar machen. Hierbei handelt es sich nicht nur um eine OCR (Optical Character Recognition), die im einfachsten Fall eine gescannte PDF-Datei um ein Text-Layer mit den erkannten Zeichen ergänzt. Gefragt ist eine intelligente Analyse von Text, Layout und Struktur eines Dokumentes, um die Inhalte zu ermitteln, die für die weitere Verarbeitung erforderlich sind. Triebfedern Die Motivation für die automatische Dokumentverarbeitung ist klar: Kosten sparen. Dies trifft für die Tätigkeiten, wie Sortierung, Klassifizierung oder Datenerfassung zu. Ergebnis ist hierbei die Beschleunigung von Transport- und Verteilprozessen mit dem angenehmen Nebeneffekt der Zentralisierung von Verarbeitungs- und Korrekturregeln. Wer kennt nicht die Eingangsrechnung, die bereits Wochen durch das Haus gewandert ist, bis sie beim richtigen Ansprechpartner eintrifft? Im Idealfall ist eine sogenannte Dunkelverarbeitung ohne manuellen Eingriff möglich. Paradebeispiel ist auch hier wieder die Eingangsrechnung: Wenn hierzu eine passende Bestellung und ein passender Wareneingang im ERP-System existiert, kann auf manuelle Prüfungen weitgehend verzichtet werden und eine automatisierte Buchung erfolgen. Weitere Beispiele sind einfache Bestellvorgänge, Stammdaten- oder Adressänderungen, aber auch die Indizierung von Altakten. Unterschiedliche Aufgabenstellungen Die Aufgabenstellung für eine OCR-Software kann unterschiedlich sein. Benötigt der Anwender nur eine Möglichkeit zur Suche über Dokumentinhalte, hilft eine reine VolltextErkennung, die möglichst viele Formate, bspw. auch in PDF eingebettete Grafiken verarbeiten kann. Zielformat ist typischerweise wieder PDF, da hier der erkannte Text als Layer hinter die Grafiken gelegt und von der Volltext-Datenbank übernommen werden kann. Gerade bei einer elektronischen Sachbearbeitung (mit elektronischem Postkorb) müssen oftmals komplexe Informationen wie z.B. Bestellnummern, Adressdaten, Rechnungspositionen etc. aus gescannten Dokumenten in eine DMS- oder Fachanwendung manuell erfasst werden. Hierfür gibt es einfach zu nutzende, Client-basierte OCR-Lösungen, die „Tipparbeit“ spart, vor allem bei komplexen Zeichenketten. Anspruchsvoller wird es, wenn aus Dokumenten automatisiert Daten ausgelesen werden müssen. Sind diese strukturiert und standardisiert, wie bei Meldezetteln oder Bestellformularen, besteht die Möglichkeit, exakt zu definieren, an welcher Stelle eines Formulars sich ein Wert befindet. Viele Dokumentarten besitzen aber keine feste Struktur, so dass diese formularbasierte Definition nicht möglich ist. Die relevanten Informationen in einer Rechnung sind zwar definiert, befinden sich aber je nach Lieferant immer an unterschiedlichen Positionen. Hier eine formularbasierte Software einzusetzen ist unsinnig, da eine Vielzahl von Formulardefinitionen erstellt werden müssten – schlimmstenfalls für jeden Kreditor und jede Rechnungsvariante. Ändert sich das Layout, muss auch noch nachadministriert werden. Gefordert sind an dieser Stelle Produkte, die in der Lage sind, den OCR-erkannten Text nach definierten Regeln zu analysieren. Man nennt dies Freiformerkennung, da keine feste Struktur eines Dokumentes vorgegeben werden muss, sondern bspw. nur Regeln wie: Eine Rechnungsnummer befindet sich hinter oder unter Texten, wie „Rech-Nr.:“, „Rechnungsnummer“ oder „Unser Zeichen“ Bei einem numerischen Wert mit dem Aufbau „xx-xxxx-xx“ und der Länge 8 handelt es sich um eine Schadennummer Bei der Kontonummer „130328“ handelt es sich um den Kreditor „Müller AG“ Viele Anwender stellen sich so eine vollautomatisierte Verarbeitung der gesamten Eingangspost vor. Je nach Dokumentart sind aber unterschiedliche Inhalte für eine Sachbearbeitung von Interesse. Für einen Eingangsbrief ist ggfs. nur der interne Ansprechsprechpartner für die Weiterleitung relevant, für Eingangsrechnungen sind aber die Mindestangaben einer Rechnung ein KO-Kriterium. Vor dem eigentlichen Auslesen von relevanten Daten ist ebenso wie der manuellen Sortierung von Eingangspost eine Klassifizierung in Dokumentarten erforderlich. Diese automatische Klassifizierung auch für E-Mails einzusetzen, scheint aufgrund bereits vorliegender elektronischer Daten eher einfacher zu sein als bei Papierdokumenten. In der Praxis sind aber E-Mails aufgrund fehlender Vorgaben für die Strukturierung von Inhalten eher komplizierter zu verarbeiten. Eine per Ping Pong-Verfahren hin- und hergeschickte EMail enthält mit großer Wahrscheinlichkeit Inhalte, die den letzten Sachstand nicht widerspiegeln. Für eine Klassifizierung wichtige Informationen wie Kundennummer, Auftragsnummer, Adressangeben etc. sind oftmals gar nicht vorhanden. Die Klassifikation in Dokumentarten oder Vorgangstypen ist aber auch für Papierdokumente nicht trivial. Nicht immer sind alle Entscheidungskriterien eindeutig definierbar. Dokumente mit der Phrase „hiermit kündige ich“, sind nicht in jedem Fall Kündigungen: „hiermit kündige ich an, dass ich den Vertrag verlängern werde“. Die typischen Prozessschritte einer Erfassungsstrecke sind in der folgenden Darstellung noch einmal zusammengefasst: Verarbeitungsschritte bei der automatischen Dokumentenerkennung Scannen Schnittstellen Typische Funktionen Konvertieren in digitale Images Dokumenttrennung Ggfs. Endorisierung Vollständigkeitsprüfung Scannen Weitergabe an die OCR-/ICR-Umgebung Multistream-Verfahren zur Weitergabe unterschiedlicher Formate (SW für Archiv, Farbe für OCR) Optimierung Leerseitenerkennung Kontrastoptimierung Elektronisches Zuschneiden und Ausrichten In Leserichtung drehen Geraderücken Eliminierung ungewollter Linien Herausfiltern kleiner Punkte Scan-Anwendung Import-Schnittstelle für Dokumente von Dritten Klassifikation Automatisches Sortieren des Beleggutes Erkennung der Dokument- oder Vorgangsarten (oft nur Feld „Dokumentart“) Erkennung Dokumentsprache Herausfiltern Hintergrund/ Rückseite Blindfarbenerkennung/-filterung Drittsoftware zur Belegoptimierung, oft aber in Scan-Software integriert Beleglesung Externe Datenbanken zur Erkennung von Kunden, Lieferanten, etc. Weitergabe, Export Korrektur Erkennung der relevanten Daten Umfang kann sein: Kopfdaten, Positionsdaten, einzelne Felder, Zeilen, komplett Techniken: Barcode, OCR, OMR, Handblockschrift, Logos Methoden: formularbasiert, regelbasiert, selbstlernend Voting-Verfahren: Bewertung der Leseergebnisse durch mehrere Umgebungen „Lernen“ von korrigierten Inhalten keine Externe Datenbanken zur Werteprüfung oder -ergänzung Fachanwendungen für die Weiterverarbeitung der Daten DMS-Umgebungen für die Archivierung Postkorb-Umgebungen zur Sachbearbeitung Volltext an Volltext-DB Automatische und manuelle Korrekturen Normalisierung LeseErgebnisse (Bsp. Datum, Beträge) Syntax-Prüfung Felder (Format, Länge etc.) Abgleich mit externen Datenquellen Prüfung Muss- und Kannfelder Logik-Prüfungen, bsp. Summen, Pos. x Preis Manuelle QS bei „Unsicherheit“ oder Fehlern Weitergabe Daten an Fachanwendungen Weitergabe Dokumente an Postkorb oder DMSUmgebung Start von Workflows Rücksenden Dokumente an Scananwendung (Neu Scannen) Bereitstellung Protokoll- und Statistikdaten Einflußfaktoren auf Erkennungsergebnisse Eine automatisierte Erkennung lebt von der Qualität der bereitgestellten Daten und einer Minimierung von manuellen Nachbearbeitungsaufwänden. Eine wesentliche Maßnahme stellt die Validierung gelesener Informationen in führenden Fachanwendungen dar: Existiert die gelesene Bestellnummer im ERP-System? Ist die im Antrag erkannte Kundennummer bereits in der Partnerdatenbank? Haben wir eine solche Schadennummer im System? Oft können auch Syntax-Definitionen, Summenprüfungen oder einfache Berechnungen zur Verbesserung der Ergebnisse führen. Je nach Schriftgut macht der Einsatz von VotingVerfahren Sinn, bei denen mehrere OCR-Engines parallel Ergebnisse erarbeiten und diese Ergebnisse dann gewichtet und verglichen werden. Weitere Optimierungen basieren auf dem Eingriff eines Benutzers. Dieser korrigiert die Klassifikation oder die erkannten Werte und trainiert die Anwendung für die zukünftige Verarbeitung. Beispiele sind formularspezifische Regeldefinitionen: „Bei der Müller AG steht die die Rechnungsnummer unter dem Text „SAP-Nr.““ oder allgemeine Erweiterung der Regelbasis: „Bei Dokumenten mit dem Begriff „kündige“ ist ein manueller Eingriff vor der Klassifikation erforderlich“. Natürlich hilft es auch immer, einen Blick auf das Beleggut selbst zu werfen. Bei Dokumenten von Dritten, wie Lieferanten oder Kunden sind die Möglichkeiten der Optimierung oftmals beschränkt. Anders verhält es sich jedoch bei Rückläufern, d.h. selbsterstellten Dokumenten die wieder in das Unternehmen zurückkommen. Hier kann durch unterschiedliche Maßnahmen leicht eine Erhöhung der Erkennungs-Qualität erreicht werden kann. Möglichkeiten zur Erhöhung der Lesequalität: Bei Dokumenten von Dritten Erfassung in Farbe /Multi-Stream Vermeidung von Eingangsstempeln oder Textmarkern Vorsortierung nach Dokumenttypen Bei Eingangs-Dokumenten von Dritten kann das Layout selbst nicht optimiert werden. Alternative: Info an den Versender: – „Für jede Bestellung bitte eine eigene Rechnung“ – „Wir akzeptieren keine Lieferscheine ohne Auftragsnummer“ – Alternative oder parallele Lieferung eines elektronischen Datensatzes Bei selbst erstellten Dokumenten Verwendung von Blindfarben, Vermeidung von Schattierungen Eindeutige Identifizierungsmerkmale (Barcode, Nummer, Kennung etc.) Formularvarianten vermeiden, Formularversion auf das Dokument Markierungen zum Ausgleich von Verzerrungen bei Fax-Formularen Vermeidung von Fließhandschrift z.B. durch Markierungen/Ausfüllkämme Ausreichend Raum für die relevanten Informationen Bestimmte Formate für vorgedruckte Informationen (z.B. Adressdaten, Kreditkarten-Nummer etc.) definieren Bei dünnem Papier das Bedrucken der Rückseite vermeiden Nicht Streichen oder Korrigieren auf dem Formular, sondern zweites Feld Bereitstellung elektronische Formulare zum Ausfüllen und Ausdrucken Stolpersteine in der Praxis Trotz aller Technologie gibt es einige Probleme in der Praxis, die auch auftreten, wenn eine OCR zu 100% arbeitet. Dies fängt bei der Trennung der einzelnen Dokumente im ScanStapel an. Gerade gemischtes Beleggut verlangt oftmals eine Zusortierung von Trennblättern, da die Software-Regeln für die Erkennung von Dokumentgrenzen nicht richtig greifen. Schwierig wird es auch bei der Mehrfachklassifikation von Dokumenten, also der Identifikation mehrerer Geschäftsvorfälle in einem Dokument („anbei finden Sie die Abrechnung und ich bitte um die Zusendung von Information zum Produkt …“). Hier lassen sich Dokumentenklassen nicht immer ausreichend genau unterscheiden. Wichtig sind dann aussagefähige Statistik-Funktionen, um schnell einen Überblick über typische Problemfälle zu bekommen. Apropos 100% OCR: Oft hört man die Aussagen: „Unsere Erkennnungsrate liegt bei 99%“. Forscht man hier weiter, stellt man leicht fest, dass bei dieser Aussage die Bezugsgröße wichtig ist: Geht es um Dokumente, Seiten, Felder oder Zeichen? Bei einer Modellrechnung mit 500 Belegen à 2 Seiten (insg. 1.000 Seiten) mit jeweils 3 Feldern pro Seite und insg. 24 Zeichen pro Seite kann hierbei ein deutlicher Unterschied für den Aufwand zur Nachbearbeitung entstehen: Bezug Erkennungsrate = 99% Beleg-Nachbearbeitung Beleg Von 500 Belegen werden 5 nicht vollständig korrekt verarbeitet 5 Belege (1%) Seite Von 1.000 Seiten werden 10 Seiten nicht erkannt Worst case: 10 Belege (2%) Feld Von 3.000 Feldern werden 30 Felder nicht erkannt Worst Case: 30 Belege (6%) Zeichen Von 24.000 Zeichen werden 240 Zeichen nicht erkannt Worst case: 240 Belege (48%) Im schlimmsten Fall sind also fast die Hälfte der Belege zu korrigieren, was so in der Praxis zwar nicht vorkommt, doch es zeigt, dass man bei entsprechenden Aussagen in die Details gehen muss. Das trifft übrigens für das gesamte Thema Produktbewertung zu: Allgemeine Produkt-Demos oder lange Feature-Listen helfen bei der Bewertung und Auswahl entsprechender Software nicht weiter. Produktauswahl Wichtig ist die Prüfung der Verarbeitung mit eigenen, repräsentativen Dokumenten und Dokument-Stapeln – möglichst mit den eigenen Scannern gescannt. Der Anbieter sollte auch das Regelwerk für die Erkennung und Prüfung kennen und passende Datensätze zur Verfügung gestellt bekommen. Hiermit kann das System vortrainiert werden. Anbieter-Übersicht Anbieter Formular-Verarbeitung Freiform-Verarbeitung Autonomy Cardiff TeleForm ABBYY FormReader FlexiCapture AnyDoc Software GmbH OCR for AnyDoc® AnyDoc®INVOICE BancTec Inc. eFirst Capture eFirst Capture Beta Systems Software AG FormsRec FrontCollect Invoice FrontCollect Mailroom B&L OCR-Systeme GmbH FormStar, AdressStar DokuStar Open Text Capture Recognition Engine (RecoStar) Capture Document Reader (DOKuStar), Invoice Capture Center Comline AG helic Recognition d.velop AG d.classify Docutec AG X4D (Xtract for documents) X4D (Xtract for documents) (Tochter der I.R.I.S Group) EASY Software AG EASY CAPTURE mit EASY IQ classify ELO Digital Office GmbH DocXtractor II DocXtractor II EMC Captiva FormWare Captiva Dispatcher Captiva InputAccel Future Software GmbH JustScan Enterprise JustScan Next Generation I.R.I.S Group IRISCapture Pro for Forms IRISCapture Pro for Invoices Insiders Technologies GmbH smartFIX smartFIX ISIS Papyrus Papyrus FixForm Papyrus FreeForm® Anbieter Formular-Verarbeitung Freiform-Verarbeitung ITESOFT FreeMind for Business FreeMind Enterprise K7 it Solutions GmbH WANDO® WANDO® invoice Papyrus Classify WANDO® info center KOFAX Transformation Modules Transformation Modules Paradatec GmbH PROSAR-AIDA PROSAR-AIDA ReadSoft GmbH Documents for Forms Documents for Invoices Documents for Mailrooms Saperion AG Scalaris AG Inbound Suite Application Forms Seeburger Invoice, Letter Post, Files & Correspondence 4invoice SER Solutions Deutschland GmbH DOXiS Inbound Master Top Image Systems eFLOW Integra DOXiS Inbound Master DOXiS InvoiceMaster eFLOW Freedom eFLOW Smart TCG Informatik AG FreeFormStar® FreeFormStar® Zu Beginn einer Produkt-Demonstration wird dann ein weiterer Dokumentstapel übergeben. Nach der Verarbeitung muss nun im Detail verglichen, geprüft und gezählt werden. Es erfolgt hierbei auch eine Bewertung, wie einfach eine Korrektur möglich ist. Interessant ist natürlich das Verhalten beim zweiten übergebenen Dokumentenstapel, da hier die Optimierungen, die für den ersten Stapel bereits durch den Anbieter erfolgt sind, nun gemeinsam erfolgen. Man stellt meist schnell fest, ob ein Produkt Endbenutzer-tauglich ist oder ob Programmierkenntnisse für die Optimierung erforderlich sind. Dies ist übrigens neben der Erkennungs-Qualität das ausschlaggebende Bewertungskriterium. Übersicht Bewertungskriterien Erkennungsraten bei Verarbeitung des eigenen Belegguts – Test-Stapel zur Vorbereitung und im Rahmen eines Anbieter-Termins – Qualität der Erkennung geht vor Geschwindigkeit Aufwände für Administration – Definition, Training neuer Dokumentenarten – Übersichtlichkeit und Funktionalität der Admin-Anwendung Ergonomie der Korrekturanwendung – Customizing und Anpassung ohne Programmierung – Komplette und einfache Bedienung über Tastatur Transaktionsschutz – Mechanismen zur Vollständigkeitskontrolle Anzahl gescannter Dokumente = Anzahl bearbeiteter Dokumente = Anzahl exportierter Dokumente Integration in führende Zielsysteme (Schnittstellen) – DMS-Lösungen – ERP-Systeme oder andere Systeme für Prüfdaten oder Weiterverarbeitung Wirtschaftlichkeit – Lizenzkosten der Software – Kosten für das Training und Optimierung der Dokumente Manchmal wichtig: Architektur / Skalierbarkeit bei Anforderungen mit hohen Volumen Fazit Bedarf an Technologien zur automatischen Dokumentenerkennung gibt es in vielen Anwendungsbereichen wie bspw. beim zentralen Posteingang, bei der Rechnungsverarbeitung, bei Bestellungen und Anträgen, Auswertung von Fragebögen/Umfragen oder Meldezettel (Strom, Wasser, Gas). Gute OCR-Lösung reduzieren hier Sortier- und Erfassungsaufwände deutlich. Eine pauschal beste Lösung gibt es nicht. Dies wird schon durch die unterschiedlichen Technologieansätze deutlich, mit denen die Produkte arbeiten. Es gibt formularbasierte Lösung, Freiform-Verarbeitung mit Regelwerken oder auf Basis von neuronalen Netzen. Daher ist der Test unter eigenen Rahmenbedingungen und mit dem eigenen Beleggut Pflicht. Abschließend muss aber noch der Hinweis erlaubt sein, dass diese gesamte Technologie zwar bei der Kostenreduzierung der Dokumentverarbeitung hilft, aber doch nicht den Königsweg darstellt. Erster Schritt sollte immer die Vermeidung des Medienbruchs von Papier zu elektronischen Informationen sein. Die direkte elektronische Verarbeitung bspw. über ein elektronisches Formular, über EDI oder FTP, ist immer effizienter als der Einsatz von OCR-Technik. Allerdings wurde das papierlose Büro auch schon vor vielen Jahren propagiert, ist aber noch lange nicht Realität… Quellennachweis: von Thorsten Brand und Jobst Eckard, Berater der Zöller & Partner GmbH. Dieser Artikel stammt aus dem Zöller & Partner Newsletter, Ausgabe Dezember 2009. Internet: www.zoeller.de