Bericht DOVER (PDF, GER)
Transcription
Bericht DOVER (PDF, GER)
Forschungsergebnisse zum FuE-Vorhaben Reg.-Nr. : IW041258 FuE-Einrichtung : Gesellschaft zur Förderung angewandter Informatik e.V. (GFaI) Titel : Dokumentenlese- und -verarbeitungssystem (DOVER) Projektlaufzeit : 01.09.2004 - 30.09.2006 Berichtszeitraum : 01.01.2006 - 30.09.2006 Dr. Wolfgang Schade, Tel. 030-63921605 Name und Telefonnummer des Projektleiters 1 1. Zielstellung Heute eingesetzte OCR-Software leistet sehr gute Erkennungsergebnisse (>98%) bei gut konditionierten Vorlagen (z.B. Ausdrucke von Tintenstrahl- und Laserdruckern), unter Zuhilfenahme von Wörterbüchern und durch Einschränkung der möglichen Erkennungsergebnisse durch Festlegung der OCR-Antwort auf bestimmte Erkennungsklassen (z.B. nur Ziffern, E-Mail-Adressen, etc.). Die meiste OCR-Software ist auch darauf trainiert, auf Dokumente mit variablem Inhalt zu reagieren. Sie ist in der Lage, sowohl eingebettete Bilder als auch Änderungen im verwendeten Schriftfont zu erkennen und entsprechend darauf zu reagieren. Ziel der OCR-Software ist es dabei, die Dokumentenstruktur möglichst originalgetreu zu erhalten und in ein elektronisches Dokument (PDF oder DOC) zu überführen. Der Großteil der OCR-Software arbeitet auf Binärbildern, das heißt, dass nur noch zwei Farbstufen (Schwarz und Weiß) im Bild unterschieden werden. Ziel des Projektes DOVER ist die Erkennung von historischen, teilweise sehr schlecht konditionierten Vorlagen. Die zur Verfügung stehenden Dokumente konnten grob in 3 Hauptklassen unterteilt werden. Sehr gut erhaltene Dokumente lieferten (wie erwartet) im Mittel Erkennungsleistungen > 90%. Bei sehr schlechten Dokumenten lag die Erkennungsleistung größtenteils unter 70%, teilweise bis zum völligen Versagen der OCR-Software, die Dokumente mittlerer Qualität lagen in der Erkennungsleistung im Bereich von 70-90%. Da es im Projekt um die Verarbeitung von Massendokumenten geht, ist der stabilen Erkennungsleistung eine sehr hohe Bedeutung zuzumessen. Um eine sehr hohe Erkennungsleistung zu erreichen, werden verschiedene Verfahren angewandt und kombiniert. Das sind: - Nutzung von Informationen, die im Echtfarbenbild/Grauwertbild vorhanden sind, im Binärbild aber teilweise verschwinden verbesserte Bildvorverarbeitung durch inhaltsabhängige Binarisierungsschwellen Ausnutzen von Informationen, die sich aus Hintergrundwissen herleiten und so in keiner OCR-Software implementiert sind nachträgliches, wörterbuchbasiertes, Prüfen der erkannten Zeichen auf Korrektheit 2. Ergebnisse AP1 Bildgewinnung vom Mikrofilm Unter dieser Überschrift sind zwei Zielrichtungen vereint, die jedoch eine völlig unterschiedliche Herangehensweise erfordern. Einerseits sind in Anlehnung an die Ergebnisse des EU-Projekts MEMORIAL die Vervollkommnung der mit OCR verbundenen Prozesse für eine höhere Erkennungssicherheit bei Schreibmaschinenschrift ein wichtiger Untersuchungsgegenstand. Für diese Untersuchungen, die vor allem in Punkt 1.2 (Verbesserung der Inhaltserfassung durch Multispektraltechniken) erfolgen, wurden entsprechende Testmaterialien (Originale) zusammengestellt Für 2 diese Teilaufgabe (Analyse von Schreib-maschinenseiten) Originalseiten auf Durchschlagpapier geschrieben bereit gestellt wurden einzelne Die zweite Untersuchungsrichtung betrifft die Eignung von auf Mikrofilm vorliegenden Kopien von Zeitungen und den Einfluss von Film- und Verfilmungsparametern sowie der Filmscannereinstellungen und -qualität auf die Erkennung von Textinhalten. Für diese Untersuchungen wurden ebenfalls Materialien zusammengestellt und entsprechende Vergleiche vorgenommen. Für die erste Analyse der Wiedergabe von Zeitungen aus digitalisierten Mikrofilmen wurden verfilmte Ausgaben des „Luxemburger Wort“ von 1937 gewählt Im Vorfeld der Analyse der Digitalisierung von Mikrofilmen wurde außerdem mit vier Herstellern von Mikrofilmscannern Kontakt aufgenommen, die sich bereit erklärt haben Testscans für unser Projekt vorzunehmen. Es handelt sich dabei um die Firmen AGFA (Copex HDP13), Kodak (LC und NextScan „eclipse“), Zeutschel (OM1200, einem US-amerikanischen Scanner) und Planeta (µScan). Verbesserung der Inhaltserfassung durch Multispektraltechnik Der Grundgedanke der Optimierung der Digitalisierung von Schreibmaschinenseiten für eine nachfolgende Buchstabenerkennung geht davon aus, dass sowohl die Objekte selbst, als auch die Aufnahmen schlechte Vorbedingungen liefern, die durch nachgeschaltete Bildverarbeitungsalgorithmen nur schwer zu korrigieren sind. Dazu gehört in erster Linie der Kontrast zwischen Buchstabe und Hintergrund, der durch Papierfarbe, Papiermaterial, Durchschlagen der Rückseite und die Besonderheiten des Buchstabenabdrucks (Anschlagstärke, Letterqualität bzw. –abnutzung, Druckbzw. Kopierfarbe) bestimmt wird. Aus oben genannten Gründen wird eine Untersuchung des Einflusses der Beleuchtungsbedingungen, der Farben und der Aufnahmebedingungen große Bedeutung beigemessen. Der Ansatz in einem EU-Projekt, eine multispektrale Aufnahmetechnik zu nutzen, die dort nur für Fragmente einer Seite zur Schadenserkennung bei sehr geringer geometrischer Auflösung eingesetzt wurde, kann bei entsprechender Weiterentwicklung nutzbare Ergebnisse für unsere Aufgabenstellung ergeben. Der erste Schritt in dieser Richtung war die Bestimmung der erforderlichen Filterparameter und die Beschaffung entsprechender Spezialfilter. Normale Farbfilter aus Glas oder mit Gelatine beschichtet haben einen relativ breiten spektralen Verlauf. Durchgeführte Vorversuche ergaben keine befriedigenden Ergebnisse. Aus diesem Grund erscheinen Versuche mit gut definierten Interferenzfiltern aussichtsreicher. Andererseits weisen übliche Interferenzfilter nur Bandbreiten zwischen 5 und 10 nm auf, was für fototechnische Anwendungen (egal ob analog oder digital) auf Grund der geringen Energieausbeute eindeutig zu schmal ist. Die Wahl fiel auf Interferenzfilter der Firma Carl Zeiss Jena, die seit ca. 1977 für in Luft- und Raumfahrt eingesetzten Multispektralkameras (MKF-6, MSK-4) entsprechende Filter produzierte. Die Luftbildfirma Bild- und Spezialflug GmbH stellte uns für eine Testphase einen Filtersatz zur Verfügung, der in Abb. 3 gezeigt ist. 3 Abb. 3: MSK-4-Interferenzfiltersatz für den sichtbaren und nahen IR-Bereich Der optisch aktive Durchmesser beträgt 78 mm bei einem Halterungsinnendurchmesser von 85mm. Die jeweiligen Filterparameter sind in Tabelle 1 zusammengefasst. Lfd. No. 1 2 3 4 5 6 Mittlere Wellenlänge (nm) 480 540 600 660 720 840 Halbwertsbreite (nm) 40 40 40 40 40 100 Tab. 1: Parameter der Interferenzfilter Eine weitere Aufgabe bestand in der Vorbereitungsphase in der Absicherung der Verfügbarkeit der erforderlichen Auswertesoftware. In der Folge der Experimente besteht die Aufgabe darin, mit geeigneter Software die entstehenden Multispektralaufnahmen auszuwerten. Neben üblichen Kanalkombinationen (Addition, Subtraktion, Division), die auch mit vorliegender StandardBildverarbeitungssoftware (beispielsweise Adobe Photoshop) sollen auch spezifische Algorithmen, wie die Hauptkomponentenanalyse, zum Einsatz kommen. Diese sind jedoch nur in speziellen, meist sehr teuren Bildverarbeitungspaketen, beispielsweise für die Satellitenfernerkundung, enthalten. Aus diesem Grund wurde Kontakt mit Kollegen des Deutschen Zentrums für Luft- und Raumfahrt (DLR) aufgenommen. Es konnte vereinbart werden, dass von uns entsprechende Versuche mit unseren Bilddaten an einem Bildverarbeitungssystem der DLR durchgeführt werden. 4 Grundlage für die Aufgabenstellung waren die physikalischen Parameter von Papier und Beschreib- bzw. Druckstoffen. Die Kontrastierung kann durch einige Grundeigenschaften der genannten Stoffe erhöht werden: - Absorption - Reflektion - Fluoreszenz Eine Optimierung der Ergebnisse ist durch die Wahl und Variation der Beleuchtungsquelle möglich. Dazu sind die Art der Quelle sowie folgende Parameter entscheidend: - Wellenlänge - Intensität (Abstand) - Einfalls- und Aufnahmewinkel - Polarisation - Kombination der Parameter Bei der Herstellung der Aufnahmen zeigten sich deutliche spektrale Unterschiede bei den Vorlagen. Im Zuge der Bearbeitung konnten diese noch verstärkt werden. Als problematisch erwies sich der nahe Infrarotbereich, da einerseits die Halbwertsbreite der Filter nur 40nm (bei 720nm) bzw. 100nm (bei 840nm). Es konnte bei der üblichen Reprobeleuchtung mit Fluoreszenzlampen nicht die erforderliche Energie für eine ausgewogene Belichtung bereitgestellt werden. Erst bei einem Test mit Halogenlampen verbesserte sich erwartungsgemäß die Wiedergabe. Die Abbildung 4 zeigt das Fragment einer mit ca. 280dpi vollständig aufgenommenen A4-Seite in drei verschiedenen Bearbeitungen. Dazu wurde eine Nikon CP8700 mit 8 Mpixel (3264 x 2448 Pixel) verwendet. Diese Auflösung ist nominell für die nachfolgende Bearbeitung mit OCR-Programmen, die i.a. 300dpi voraussetzen, ausreichend. Um jedoch für zukünftige Projekte auf der sicheren Seite zu sein, empfiehlt es sich, die neue Sony DSC-R1 zu benutzen, die sowohl durch ihren 10 Mpixel-Sensor die erforderliche geometrische Auflösung übertrifft, als auch durch den Übergang zu CMOS ein deutlich geringeres Rauschen aufweist (was bei der Schwächung der Lichtenergie durch die Filter sehr hilfreich ist). Normalaufnahme Differenz Rot-Blau Kanalmischung Abb. 4: Fragment einer vollständig aufgenommenen A4-Seite in drei verschiedenen Bearbeitungen 5 Die Überlegenheit der Multispektralaufnahme zeigt sich schon in der ersten Bearbeitung. Die Aufnahmen im blauen und roten Spektralbereich zeigen bereits Unterschiede in der Detaillierung des Hintergrunds. Die Differenzaufnahme zwischen den zwei Kanälen löscht dann die durchschlagende Schrift aus, betont jedoch andererseits den in einem Kanal vorherrschenden Hintergrunddetails (bis hin zur Struktur) UND die Schrift. Die dritte Bearbeitung zeigt eine Berechnung mit weiteren Kanälen, wodurch der Hintergrund und die durchschlagende Schrift zurückgedrängt werden konnten. Die anschließende Anwendung des Buchstabenerkennungstools (einkästeln der Buchstaben) ermöglicht eine gegenüber dem Original deutlich gesteigerte Erkennungssicherheit. Die Diskussion der Ergebnisse mit Kollegen des Deutschen Zentrums für Luft- und Raumfahrt (DLR) und des Multispektralen Messlabors der Handschriftenabteilung der Russischen Nationalbibliothek (MM/RNB) führten zu dem Schluss, dass trotz vielfältiger Ansätze (besonders auch in Italien und den Niederlanden, exemplarisch im EU-Projekt ISYREADET beschrieben) eine effektive großflächige Multispektralaufnahme – wie für Zeitschriften erforderlich – nicht verfügbar ist. Entsprechende Aufnahmetechnik für den wirklichen nahen IR-Bereich oder gar das mittlere IR (bis ca. 5000nm) sind entsprechend teuer (ca. 50.–70.000 EURO). Die vorhandenen Laborausrüstungen gestatten jedoch qualitative Aussagen über die Realisierbarkeit der gewählten Ansätze. Der nahe und mittlere IR-Bereich ist für besondere Aufgabenstellung, wie die Verbesserung und Erkennung von Schrift auf Thermopapier (ZnO) geeignet, da bei geeigneter Strahlungsquelle (Halogen) das Papier die Strahlung reflektiert, während der Bedruckstoff die Reflektion vermindert. Untersuchung von Verfilmungsparametern Die weltweit empfohlenen grundsätzlichen Verfilmungsparameter für Bibliotheks- und Archivbestände (von der DFG, der RLG oder der Schweizer Landesbibliothek) sind schon für sich genommen nicht unproblematisch und verschärfen sich bei einer nachfolgenden Digitalisierung. Dies soll am Beispiel von Empfehlungen für Bücher (Text) und Strichvorlagen verdeutlicht werden. Für solche Vorlagen werden High Contrast – Filme empfohlen, die auch steil entwickelt werden. Die nachfolgende Digitalisierung soll demzufolge mit 600dpi und 1bit (Speicherung als TIFF) erfolgen. Genau diesem Ansatz folgte ein Verfilmungsund Digitalisierungsprojekt in Berlin. Das Ergebnis war für eine visuelle Lesbarkeit unbefriedigend, da auf ca. 10% der verfilmten und nachfolgend digitalisierten Seiten Stellen nicht erkennbar/ interpretierbar waren. Für eine automatische Erkennung sind die Folgen desaströs, da die Binarisierungsschwelle fest voreingestellt worden war (Grauwert 128) und selbst bei automatischer Wahl (nach Messung) zu viel Information verloren geht. Die Abbildung 5 zeigt ein Beispiel mit unterschiedlichen Binarisierungsschwellen. 6 Originalaufnahme Autom. Schwelle: 128 Max. Kontrastspreizung Manuelle Schwelle: 145 Vier manuelle Schwellen Abb.5: Beispiel des Einflusses der Binarisierungsschwelle auf die visuelle Erkennbarkeit Die Schweizer Landesbibliothek stellt in ihren Normen für die Zeitungsverfilmung folgende Forderungen, die deshalb zitiert werden sollen, weil sie auch eine direkte Bemerkung zur nachfolgenden Digitalisierung beinhalten: „Normen zur fotografischen Qualität: Optische Dichte des Hintergrundes, gemessen "im Bild": In leichter Abänderung von DIN 19057 wird hier ein erhöhter Grenzwert für die Minimaldichte verlangt. Dmin = geforderte Minimaldichte 1.10 Dmax = geforderte Maximaldichte 1.40 ∆D = Unterschied zwischen den hellsten und dunkelsten Bildteilen ( meistens nicht messbar; ein genügender Kontrast ergibt jedoch eine befriedigende Reproduzierbarkeit). Die Dichte ist auch vor allem im Hinblick auf eine eventuell später erfolgende Digitalisierung ein sehr wichtiger Faktor, da große Dichteunterschiede beim Scannen des Films eine markant vergrößerte Datenmenge bewirken. Die Schärfe und die Lesbarkeit lässt sich mit der ISO-Testtafel nach DIN 19051, Teil 1 & 2, leicht kontrollieren. Es muss mindestens die Lesbarkeit, unabhängig vom Verkleinerungsfaktor, bei Testzeichen 84 erreicht werden, d.h. bei 7 von 8 Symbolen einer Reihe muss die Richtung der Linien einwandfrei erkennbar sein.“ (Hervorhebung durch GfaI) http://www.snl.ch/d/download/mikro.pdf Allerdings ist die Begründung mit der Datenmenge eher nicht mehr zeitgemäß und erinnert an die unrühmlichen Festlegungen zur Binarisierung (die ebenfalls mit Speicherplatzeinsparung begründet wurde). Während bei der Festlegung der Speicherform schon stets auf die verlustfreie Speicherung (TIFF) höchster Wert gelegt wurde, ist der durch die Binarisierung auftretende Informationsverlust für diese Fachleute offensichtlich zu verschmerzen. 7 Da sich die hochqualitative Verfilmung mit einer hohen Anzahl von reproduzierbaren Grauwerten durchgesetzt hat, die Festlegung für die Digitalisierung jedoch von der Nutzung nicht des Originalfilms sondern des print masters (2 Generation, Negativfilm) ausgeht, ist ein weiterer Qualitätsverlust nicht zu umgehen. Die Nutzung des Negativs ist wichtig, da die meisten Mikrofilmscanner auf Grund ihrer beschränkten maximalen Dichteerkennbarkeit bei Negativen bessere Digitalisierungsergebnisse (Grauwertdynamik) liefern. Die wird auch in einer Publikation der Research Libraries Group (RLG) aus dem Jahre 2003 bestätigt. http://www.rlg.org/preserv/microsuppl.pdf Aus den oben genannten Gründen wurden Testfilme hergestellt, die verschiedene Objekte (Bücher, Zeitungen, Fotos, Test-Charts) mit unterschiedlichen Belichtungen beinhalten. Abb.6: Test-Chart nach DIN 19051 mit Testzeichen 84 (s.o.) / Ausschnitt zweier Mikrofilmaufnahmen mit einer Blende Unterschied (ohne Bearbeitung) Die Abb.6 zeigt die verfilmte und danach gescannte Aufnahme der Test-Charts nach DIN 19051. Wie weiter oben beschrieben, ist das Testfeld 84 in der mehr belichteten Aufnahme (oben) besser zu erkennen, entspricht jedoch auch unten rechts, in der unterbelichteten Aufnahme, den erforderlichen Kriterien. Entsprechend den Ergebnissen wurde entschieden, die weiteren Probebelichtungen mit einer um eine Blendenstufe weiter geöffneten Blende aufzunehmen Die Diskussion der optimalen Filmherstellung für die nachfolgende Digitalisierung erfolgte auch im Rahmen des Metamorfoze-Projekts. In dessen Richtlinien von 2004 wird die folgende Empfehlung gegeben: “The Kodak Gray Scale Q-13 consists of a gray scale of 20 patches, going from white (patch A with an appearance density of about 0.05) to black (patch no. 19 with an appearance density of about 1.95). The difference in appearance density between the individual patches is 0.10. A visual check of the Kodak Gray Scale exposure on a microfilm negative will show that not all 20 patches are separately visible. The number of discernable patches will depend on the type of film used, in combination with the applied development method. In other words, the number of discernable patches will depend on the gamma value or the contrast factor of the film. The gamma value indicates in a simple manner the relationship between the contrast range of the original and that of the negative. Apart from the gamma value, the number of discernable patches will depend largely on the density of patch A on the microfilm negative. Patch A renders the maximum density. For a correct assessment of the gray scale, the density of patch A is of essential importance. Not only maximum density but also minimum density is of vital 8 importance. Minimum density must always be 0.00. The patch for which this value is measured depends on the gamma value of the film and the density of patch A. The densitometer must be set to zero on the film before taking any density readings. … Assessment and calculation in the case of high contrast filming For a correct assessment of the gray scale, patch A must have a density of about 1.50. For a correct calculation of the gamma value it is important to assume minimum and maximum densities for the area for which the gamma value has to be calculated. In the case of high contrast filming, the gamma value must be determined from a density of c. 1.50 (patch A) to a density of c. 0.80. These films should have a gamma value between 2.5 and 3.5. The difference in density between the consecutive patches of the Kodak Gray Scale must be no more than 0.35. In other words, the steps should not be bigger than 0.35. The number of visually discernable patches following patch A will be at least seven for these films. To calculate the gamma value, the densities (without the 0) of the steps between 1.50 and 0.80 are simply added up. Next, they are divided by the sum of the densities (without the 0) of the same steps of the original Kodak Gray Scale.” (Hervorhebung durch GfaI) http://www.metamorfoze.nl/publicaties/richtlijnen/english/guidelines.pdf Schlussfolgerung: Die eigenen Produktionserfahrungen unseres Kooperationspartners „Preservation Academy GmbH Leipzig zeigen, dass Zeitungen mit High-Contrast-Film aufgenommen und flacher entwickelt werden, die besten Resultate liefern. Für die besten Digitalisierungsresultate empfiehlt sich eine leichte Erhöhung der maximalen Dichte gegenüber den gängigen Verfilmungsstandards um ca. 0,2. Wichtig ist auch die Einhaltung der Auflösungskriterien entsprechend DIN 19051. Die unbearbeitete Abb.7 zeigt ein weiteres Test-Chart, wie es von uns zur Verfilmung genutzt wurde. Dabei ist die gute Unterscheidbarkeit der Grauwerte auf dem KodakGraukeil (ausgehend von Patch A), mit mehr als 7 Graustufen, zu erkennen. Oben links in dem Test-Chart ist ein Schrifttest mit unterschiedlichen Schriftgrößen und – typen angebracht, der ebenfalls im weiteren Verlauf der Untersuchungen für Tests der Erkennbarkeit benutzt wurde. Abb.7: Weiteres Test-Chart für Verfilmung und Digitalisierung mit Schriftgrößen (oben links) und dem Kodak-Graukeil (Pfeil zeigt Patch A) 9 Untersuchung der Abhängigkeit der Parameter von der Scannerart Einleitung Es liegen eine Reihe von Standards und Empfehlungen zur Verfilmung von Materialien vor, die anschließend vom Mikrofilm digitalisiert werden sollen, so dass dieses Kapitel nicht weiter vertieft werden muss. Dazu gehören vor allem die „RLG Guidelines for Microfilming to Support Digitization“ der Research Libraries Group1) , die “Preservation Microfilming Guidelines” des Metamorfoze Projekts2) und die „Normen und Standards für die Mikroverfilmung von Zeitungen“ der Schweizerischen Landesbibliothek3). Neben den technisch-organisatorischen Bedingungen (Leerbilder, Anfang, Ende, Titel, Miren, Angabe vom Maßstab usw.) werden vor allem die Wahl der Filmmaterialien und Entwicklung in Abhängigkeit vom Objekt behandelt. Ein Kernsatz der Metamorfoze-Empfehlungen ist: All information in the original must also be present in the service copy. Dies setzt, besonders bei Archivmaterialien und Zeitungen, low contrast filming oder zumindest entsprechende Entwicklung voraus. Für die anschließende Digitalisierung verbietet sich aus demselben Grunde eine Binarisierung. Bei der praktischen Realisierung muss im Gegensatz zu den Voraussetzungen der o.g. Empfehlungen davon ausgegangen werden, dass die Herstellung von älteren Mikrofilmen nicht optimal für eine spätere Digitalisierung erfolgte. Um die Bedingungen für eine maximale Informationsübertragung zu verbessern, kann in Sonderfällen die einmalige Digitalisierung vom Master in Erwägung gezogen werden. 1) „RLG Guidelines for Microfilming to Support Digitization“ , Research Libraries Group, 2003, Mounain View, USA (www.rlg.org) 2) “Preservation Microfilming Guidelines”, Hans van Dormolen, Metamorfoze Office, Koninklijke Bibliotheek, National Library of the Netherlands, The Hague, 2004 3) „Normen und Standards für die Mikroverfilmung von Zeitungen“, MIKO Koordination, Schweizerische Landesbibliothek, Bern 2004 Beschreibung des Tests Für die Tests wurde ein Mikrofilm von Testvorlagen, Zeitungen und Dokumenten hergestellt, bei dem high contrast film weicher entwickelt wurde und ein Objekt jeweils mit mehreren Belichtungszeiten (bei gleicher Blende) abgebildet worden war. Dieser Testfilm wurde (nach sorgfältiger Vorauswahl) vier Mikrofilmscanner-Firmen zur Digitalisierung übergeben. Dabei handelte es sich um AGFA, KODAK, PLANETA und ZEUTSCHEL. Die Testvorlagen, aufgenommen nach der Digitalisierung, sind auf der folgenden Seite in Abbildung 1-4 dargestellt. Auf Grund der Kompliziertheit der Vorlagen auf einem einzigen Film (Änderung der Dichte in Folge veränderter Filmbelichtung, verschiedene Objekte (Testvorlagen, Zeitungen mit Fotos, Halbtonvorlagen, Stiche, Fotos) haben die Automatiken der Anbieter AGFA und PLANETA versagt, so dass keine vergleichbaren Resultate erzielt werden konnten. Allerdings liegen von AGFA vergleichbare Resultate einer Testkarte vor. Zur Erläuterung wird im Folgenden eine kurze Einführung in die Steuerbarkeit von Mikrofilmscannern am Beispiel des Zeutschel OS1200 gegeben, die prinzipiell auch auf alle anderen Modelle anwendbar ist. 10 Das Grundprinzip der Aufnahme besteht in der optischen Abbildung eines (Quer-) Streifens des Films auf einer CCD-Zeile mit ca. 8000 Pixeln. Damit ergibt sich für ein Zeitungsformat von 40cm x 60cm die Grenzauflösung von 20 Pixeln/mm, also 10 LP/mm, was die Voraussetzung für eine anschließende OCR darstellt. Bei größeren Vorlagen kann diese für eine erfolgreiche OCR erforderliche optische Auflösung nicht erreicht werden. Allerdings muss betont werden, dass es sich hier um theoretische Werte handelt. Die praktischen Werte liegen wegen der Verluste bei den Vorlagen selbst (Verfilmung) und der Digitalisierung (Optik, Signalverarbeitung) darunter. Die X-Richtung des Bildes wird durch die Vorwärtsbewegung des Films mit einer der geometrischen Auflösung entsprechenden Geschwindigkeit realisiert. Damit ist die Belichtungszeit fest definiert. In einigen Fällen ist durch doppelte Geschwindigkeit ein Subsampling mit doppelter Auflösung in X-Richtung realisiert. Zur Steuerung der Aufnahme steht somit hardwareseitig nur ein Parameter zur Verfügung: Die Lichtintensität der auf den zu scannenden Film fallenden Lichtes. Dies kann durch zwei Techniken erfolgen; entweder über eine gesteuerte Blende an der Abbildungsoptik der CCD oder über eine direkte Regelung des Stromes der beleuchtenden Lampe. Die Ausgangsinformation für die automatische Regelung wird durch die Messung und (automatische oder manuelle) Einstellung des Weiß- und Schwarzwertes an einem Bild des Films für den gesamten Film gewonnen und eingestellt. Abb.1: DIN-Testvorlage Beiblatt 2, 19051, Teil 4, unbearbeitet 11 Abb.2: Auflösungsmire, bearbeitet Abb.3: Auflösungsmire oben rechts, bearbeitet Abb.4: AIIM Scanner Test Card 2 sowie Kodak Grau- und Farbtafeln In den Tests hat sich erwiesen, dass die manuelle Messung und somit Vorgabe der Lampenhelligkeit der automatischen überlegen ist, da die visuelle Auswahl beispielsweise des Weißpunktes nicht statistisch oder messtechnisch absolut erfolgt, sondern den Kontext des Originals berücksichtigt. Dieser Sachverhalt wird an der Testvorlage Abb.4 sichtbar. Das orangene Quadrat war der hellste Bereich im Bild. Wenn dieser Wert auf „Weiß“ (255) gesetzt wird, liegt der weiße Bildbereich der Kodak-ColorKarte (rotes Quadrat) bei einem hellen Grau (238). Wird dieser Bereich auf „Weiß“ gesetzt, ergibt sich die Gefahr des „Ausfressens“ der äußersten grauen Linie, die blau umrandet ist. Was für die Darstellung von Bildern gut ist, kann für die Wiedergabe (und nachfolgender Erkennung mit OCR) von Buchstaben verheerend sein. In diesem Falle war die Automatik besser. Der beschriebene Testfall einer inhomogenen Hintergrundsverteilung (in unserem Falle „Weiß“) ist die Folge der Randabschattung des Aufnahmeobjektives bei der Verfilmung (in Abb.4 durch die konzentrischen Kreise symbolisiert) sowie die Inhomogenität der Beleuchtung der Vorlage beim Verfilmen. Aus diesem Grund wird 12 gegenwärtig für die nächste Generation von Mikrofilmscannern an einer automatischen Shadingkorrektur gearbeitet. Resultate der Tests Abschließend soll der visuelle und OCR-Vergleich der Ergebnisse der beiden Mikrofilmscanner von KODAK (LC) und ZEUTSCHEL (OM1200) am Beispiel einer Zeitungstestseite dargestellt werden. Auf der folgenden Seite sind in den Abbildungen 5 und 6 die Digitalisate desselben Bildes des Test-Mikrofilms demonstriert. Während bei Zeutschel der Weiß- und Schwarzpunkt manuell im Bild gesetzt worden war und das Bild absolut scharf abgebildet wurde (im Original-Digitalisat sind die Rasterpunkte der abgebildeten Fotos sichtbar) ist bei Kodak die automatische Messung des Schwarzwertes am Filmrand (Schleier) erfolgt. Außerdem ist das Kodakdigitalisat etwas unscharf. Zur Verdeutlichung der Reserven ist im roten Kästchen eine Kontrastspreizung realisiert worden, die den Zeitungshintergrund auf „Weiß“ setzt. Die visuelle Erkennbarkeit wird deutlich verbessert. In der blauen Abgrenzung erfolgte eine Binarisierung bei der (optimalen) Schwelle 128, wobei die „angefressenen“ Buchstaben die Erkennbarkeit zumindest für eine anschließende OCR deutlich verringern. Abb.5: ZEUTSCHEL: Bei optimaler Belichtung, Weiß- und Schwarzpunkt manuell im Bild gesetzt. Abb.6: KODAK: Bei optimaler Belichtung, Weiß- und Schwarzpunkt automatisch im Filmhintergrund und im Bild gesetzt. 13 Abb.7: Bestes OCR-Ergebnis der Digitalisate: Zeutschel (links) und Kodak (rechts) Die Ergebnisse aus der OCR (Abbyy Finereader) der zweiten Spalte des Originaldigitalisats sind in Abbildung 7 und der Tabelle 1 wiedergegeben. Bei der Abbildung 7 ist zu beachten, dass das relativ gute Kodakresultat NICHT von dem visuell besten Digitalisat (Abb.6) stammt, sondern von der dichteren Wiedergabe derselben Seite auf dem Mikrofilm, die etwas überbelichtet ist. Tab.1: OCR mit Finereader an den visuell besten Digitalisaten (Zeutschel/Kodak) Wahrend : Sit/unu. berieten die Während der Sitzung berieten die Mitglieder des Rates und Eisenbahner über Mitj! v i nbah ner ur • Reserven und die weitere Reserven und die Zusammenarbeit au Terntonum und D> -ehe zwischen Territorium und Deutsche Reichsbahn. So stellt -:at der Stadt Reichsbahn. So stellt z.B. der Rat der Stadt 1982 vorrangig W Ahnungen, Kmdcrgarten 1982 vorrangig Wohnungen. Kindergarten- und K" nplatze bere1,' B.u'k t] für Rationahsie und Krippenplätze bereit, setzt i ungsvorh.t: • ein, unter and für eil Baukapazitäten für Rationalisie ••isbremsengcbaudc rungsvorhaben ein, unter anderem für ein Gencsse K! ps Schlestem, 1. StellVertreter t. neues Gleisbremsengebäude. !. Oberburgerm.:dankte den Ccncssc Klaus Schlcstein, 1. Stellvertreter .isenbahnern für die des Oberbürgermeisters, dankte den gute • -äglich vollbracht Eisenbahnern für die öüte* Arfceif die' wird jcn Mitcin.. WicK 'Vollmacht wird. Ziel des enge« .: tretung, Rat der Miteinander zwischen Volksvertretung, Rat Stadt itk- {• ; leben sei es. auch der Stadt und Betrieben sei es, auch künftig künftig für u::en hohen Leistungs .-n-tu g dl r • ikswirt.schaft für einen hohen Leistungsanstieg der /u ti,. müssen weil 14 Volkswirtschaft Sorge zu tragen. Jetzt müssen weiterreichende Schritte entsprechend der höheren Mafjstäbe abgesteckt werden, um die territoriale Rationalisierung und die Zusammenarbeit der Verkehrsträger zu fördern und neue komplexe Lösungen für die anspruchsvollen Ziele zu schaffen chend; - entsprechen l hoher .- alnieste.k' den. um di t, rntonale Ratior.. rung und du- Zusammenarbeit der Verkehi st i igei ^u fordern und neue körn p!'. qen für die an spruch«, v :. Bei der OCR-Anwendung auf das Digitalisat der Scanner-Test-Card 2 (in Abb.4 links oben) konnten der AGFA (Copex HDP13) und der Kodak (LC) verglichen werden. Das Resultat ist für 10 pt-Schrift in Abbildung 8 dargestellt. Abb.8: Ausschnitt von jeweils drei 10 pt-Schriften der Testkarte, erstellt mit dem Kodak- und Agfa-Mikrofilmscanner nach der OCR-Bearbeitung (ohne Bildverbesserung). Schlussfolgerung Von den vier untersuchten Mikrofilmscannern zeigen das AGFA- und das Zeutschelmodell die besten Resultate. Fern jeder Theorie über Standards ergeben sich in der Praxis auf Grund der Vorlagen und der realen Mikrofilme Digitalisate, von denen eine führende OCR-Software stets fehlerbehaftete Ergebnisse liefert. Die manuelle Weiß- und Schwarzwertbestimmung und Einstellung liefert die besten Resultate. Unter der Voraussetzung der Weiterentwicklung der Mikrofilmscanner (etwas höhere geometrische Auflösung bis ca. 14.000 Pixel/Zeile, verbesserte automatische Weiß- und Schwarzwertbestimmung, bessere Nutzung des Dynamikbereiches durch manuelle und/oder automatische Anpassung, Angleichung des durch Randabschattung und inhomogene Beleuchtung ungleichmäßigen Hintergrundes) sowie der Erkennungssoftware (adaptive Schwellwerte in verschiedenen Textbereichen oder Buchstaben, geometrische Bestimmung der Zeilen- und Buchstabenlage, Erkennung gemischter Buchstabenfonds einschließlich Frakturschrift) ist eine Digitalisierung vom Mikrofilm die beste Möglichkeit, sowohl die Erhaltung (Mikrofilm, Langzeitspeicherung) als auch den Zugriff (Digitalisat, Internet) preiswert zu realisieren. Die günstigen Kosten der Mikrofilmdigitalisierung durch Automatisierung dürfen jedoch nicht darüber hinwegtäuschen, dass die manuelle Optimierung der Scanparameter (und damit die Einbeziehung einer Fachkraft zum Einrichten und Abgleichen des Scanners) bisher und in naher Zukunft die besten Resultate ergibt. 15 AP 2 Umgang mit Hintergrundstörungen Anwendung von Verfahren zum überwachten Lernen zur Verbesserung der Erkennung von Schreibmaschinenschrift Im Rahmen dieser Gruppe von Arbeitspaketen wurde eine Vorverarbeitung für die gescannten Bilder entwickelt, welche eine verbesserte Trennung von Vorder- und Hintergrund zum Ziel hat. Die deutlich verbesserte Hervorhebung der Schreibmaschinenanschläge (Vordergrund) im Rahmen der Vorverarbeitung ermöglicht eine ebenfalls stark verbesserte Erkennungsrate der Buchstaben in der folgenden OCR-Stufe. Klärung der Schnittstellen Da die entwickelte Software eine Vorverarbeitung der gescannten Bilder durchführt, muß sie sich in den vorhandenen Workflow integrieren. Die Bildformate für Input und Output sind durch die vom Scanner gelieferten Bilder und die von der Workbench erwarteten Bilder festgelegt. Es werfen dreikanalige Farbbilder mit den Farbkanälen Rot, Grün und Blau verwendet. In Zusammenarbeit mit dem Endanwender wurden drei Schnittstellen für den Zugriff auf die implementierten Funktionen geschaffen: 1. Aufruf eines separaten Programms: Da die entwickelten Funktionen den bisherigen Arbeitsschritten der Workbench vorgeschaltet sind, ist es für Testzwecke möglich, die nach dem Scannen temporär gespeicherten Bilder mit einem eigenständigen Programm zu überarbeiten und die Ergebnisse in die Workbench zu übernehmen. Diese Lösung erforderte für Testzwecke keine Eingriffe in die vorhandene Software. 2. Dateibasiertes Interface: Es wurde eine Funktion implementiert, welche Dateien für den Input und Output verwendet. Es werden vom aufrufenden Programm lediglich die Namen der zu lesenden und zu schreibenden Dateien übergeben. Diese Lösung erfordert nur geringen Eingriffe in die vorhandene Software und läßt sich gut in den Workflow integrieren. In der Regel liegen die gescannten Dokumente als temporäre Dateien vor und können nachbearbeitet werden. 3. Imagebasiertes Interface: Für eine hohe Integration in vorhandene Software steht dem Endanwender ein Interface auf Basis einer Datenstruktur im Hauptspeicher zur Verfügung. Als Datenstruktur wurde IPL-Image gewählt. Die Übergabe der Bilddaten im Hauptspeicher ermöglicht eine höhere Bearbeitungsgeschwindigkeit, erfordert jedoch tiefe Eingriffe in die vorhandene Software. Dieses Interface wird bisher vom Endanwender noch nicht genutzt. Farbraumquantisierung Die vorliegenden Dokumente sind dreikanalige Farbbilder mit 24 Bit Farbtiefe. Bei dieser Farbtiefe existiert für eine definierte Farbe keine hinreichende Statistik. Das ist jedoch für die folgenden statistischen und Informationstheoretischen Auswertungen 16 erforderlich. Eine Reduktion auf ca. 128 Farben (7 Bit Farbtiefe) ist für die nachfolgenden Auswertungen optimal. Daher wurden verschiedene Farbreduktionsverfahren untersucht: Clusterung der Farben mit dem K-Means-Algorithmus Diversity Color Reduction Algorithmus Median Cut Algorithmus Die Ergebnisse der verschieden Farbreduktionen wurden analysiert. Es zeigte sich, daß alle drei Algorithmen ähnlich Farbcluster generieren und daß diese Cluster für alle Dokumente ähnlich sind, wenn der Scan sorgfältig kalibriert wurde. Diese Sorgfalt ist für eine hohe Erkennungsrate bei derart schwierigen Dokumenten Voraussetzung und kann als gegeben angenommen werden. Die Farbreduktion kann damit anhand folgender Formel erfolgen: R − 32 + 0.0635 * G + 0.0625 * B 2 Diese Variante der Farbreduktion kann sehr schnell berechnet werden, da die aufwendige Berechnung der Cluster entfällt. Ein Nachteil dieses Verfahrens ist, dass nicht alle Cluster besetzt sind. Dies ist in den folgenden Schritten insbesondere beim Struktur-Entropie-Algorithmus zu beachten. GW = Anhand des Originalbildes wird geprüft, ob die Voraussetzungen für eine hohe Erkennungsrate eingehalten wurden (keine Überbelichtung oder mangelnder Kontrast). Eine Warnung wird bei Auftreten derartiger Fehler generiert. Analyse der fraktalen Eigenschaften Das folgende Bild zeigt einen typischen Ausschnitt eines Dokumentes. Da das Scannen der Dokumente stets mit 300 dpi erfolgt, ergeben sich nahezu konstante Werte für Buchstaben-höhe und Strichbreite. Der Hintergrund weist eine deutlich erkennbare Textur und störende Flecken auf. Außerdem ist mit technisch bedingten Fehlern zu rechnen (die weiße und rote Linie im Bild 2.1). Abb. 2.2 ein typisches Beispiel Die Analyse der fraktalen Eigenschaften bot nur unzureichende Ansätze, die Trennung von Vorder- und Hintergrund zu verbessern. 17 Wesentlich bessere Ergebnisse wurden mit der Ortsfrequenzanalyse erzielt. Drei Operatoren aus der Ortsfrequenzanalyse wurden genutzt, um einerseits die charakteristischen Eigenschaften der mit Schreibmaschine geschriebenen Buchstaben und Zahlen hervor zu heben und andererseits die Textur des Hintergrundes zu unterdrücken: 1. Reduce-Operator: Hohe Frequenzen werden aus dem Bild entfernt. Die verbleibenden Informationen können in einem Bild mit halber Breite und Höhe und somit ¼ der Pixel dargestellt werden. Diese Bildverkleinerung führt zu einem deutlichen Gewinn an Performance für folgende Berechnungen. 2. Expand-Operator: Es wird die ursprüngliche Bildgröße wieder hergestellt. 3. HDC-Operator: Auf der Basis lokaler Pixelfrequenzen werden Texturen unterdrückt und vom Vordergrund getrennt. Diese drei Operatoren wurden zur Verbesserung der Trennung von Vorder- und Hintergrund wie in Bild 2.2 gezeigt, zu einem effektiven Algorithmus zusammengesetzt. In der ersten Stufe wird hochfrequentes Rauschen entfernt. Die zweite Stufe dient der Extraktion typischer Ortsfrequenzen für Schreibmaschinenanschläge. In der dritten Bearbeitungsstufe werden Texturmuster des Hintergrundes unterdrückt und in der vierten Stufe wird die ursprüngliche Bildgröße wieder hergestellt. Abb. 2.2: Ablaufplan der Ortsfrequenz-Analyse Statistische Charakterisierung von Vorder- und Hintergrund Ausgangspunkt für statistische Untersuchungen bildet die Überlegung, dass Vordergrundpixel (Schreibmaschinenanschläge) wesentlich seltener auftreten als Hintergrundpixel. Außerdem treten Vordergrundpixel nicht einzeln auf, sondern immer zusammengefasst in lokalen Häufungen. Ein geeignetes Verfahren, um diese Eigenschaften hervorzuheben, ist die Analyse der Struktur-Entropie. Mit geringer Wahrscheinlichkeit (< 10%) im Bild vorhandene Farbwerte, die zudem mit lokalen Häufungen auftreten, haben eine hohe Entropie. Dem Hintergrund zuzuordnende Farbwerte haben eine geringe Entropie. In unmittelbarer Umgebung der Schreibmaschinenanschläge treten typische dunkle Verfärbungen auf. Abb 2.3 zeigt ein Beispiel. 18 Abb. 2.3: Deutlich erkennbare dunkle Verfärbungen in der Umgebung der Schreibmaschinenanschläge Diese Verfärbungen haben ähnlich statistische Eigenschaften, wie die Anschläge selbst. Es ist damit nicht möglich, die exakten Schreibmaschinenanschläge anhand der Entropie zu extrahieren. Lediglich die Bereiche, in denen Buchstaben oder Zahlen zu finden sind, können mit hoher Genauigkeit extrahiert werden. Bild 2.4 zeigt das Ergebnis der Entropie-Analyse mit nachfolgendem Tresholding und morphologischer Nachbearbeitung. Der Schwellwert für das Thresholding wird adaptiv anhand des Histogramms berechnet, als morphologischer Operator kommt Dilate mit einem 3x3 Pixel großem Kern zum Einsatz. Abb. 2.4: Ergebnis der Entropie-Analyse Das Beispiel zeigt, dass mit Hilfe des Struktur-Entropie-Algorithmus eine effektive Erkennung des Hintergrundes möglich ist und Bereiche der Schreibmaschinenanschläge mit hoher Genauigkeit erkannt werden können. Das Ergebnis wird zur Maskierung des Hintergrundes genutzt. Binarisierung Das Ergebnis der Ortsfrequenz-Analyse wird zur Verbesserung der Trennung von Schreibmaschinenanschlägen und Hintergrund mittels Histogramm-EqualizeOperator nachbearbeitet und mit dem Ergebnisbild der Entropie-Analyse maskiert. Nicht maskierte Bereiche werden anschließend mit einem lokal-adaptiven Schwellwert binarisiert. Für jeden nicht maskierten Pixel wird der Mittelwert einer 11x9 Pixel großen Umgebung berechnet. Liegt der Wert des Pixels unterhalb dieses Mittelwertes, wird der Pixelwert auf NULL gesetzt, anderenfalls auf 255. Die empirisch ermittelte Größe der Umgebung von 11x9 Pixel respektiert bestmöglich die typische Größe elementarer Elemente, aus denen sich die Buchstaben und Zahlen zusammensetzen lassen und den typischen Abstand zweier benachbarter Anschläge. 19 Kombination der Teillösungen Die Teillösungen wurden zu einem Gesamtalgorithmus kombiniert. Das Bild oder Dateiname wird vom aufrufenden Programm übergeben. Anschließend erfolgt eine Tiefpass-Filterung, um Scannerfehler und nicht benötigte Frequenzanteile zu entfernen. Das resultierende Bild enthält nur ¼ der Pixel des Originalbildes. Im Anschluss erfolgt eine Reduzierung der Farben. Dieses Bild mit reduzierten Farben wird als Ausgangsbild sowohl für die Ortsfrequenz-Analyse als auch die EntropieAnalyse genutzt. Das Ergebnis der Entropie-Analyse wird binarisiert und als Maske für das Ergebnis der Ortsfrequenzanalyse verwendet. Abschließend erfolgt eine lokal-adaptive Binarisierung, die ursprüngliche Größe wird wieder hergestellt und das Ergebnis zur Weiterverarbeitung als Datenstruktur oder Datei übergeben. Überführung in die kommerzielle Anwendung Die Einbindung dieses Verfahrens in das Gesamtsystem ergab in der Regel deutlich verbesserte Resultate. Die Analyse der images mit trotzdem noch nicht befriedigenden Ergebnissen ergab, dass für das Erfassen der images eine andere Scannererfassung notwendig gewesen wäre. Als Folgerung daraus wurde ein Analyseprogramm entwickelt, das – bei Erstellung einiger Probescans – Hinweise für die Veränderung des Scanverfahrens gibt (s.a. AP6). 20 AP3 Verbesserung der Erkennung durch Zeichenmatching Festlegung von Eingabe- und Ausgabe-Interfaces Entsprechend den Zielstellungen des Projektes (siehe auch Zwischenbericht von 12/2004) ist die Funktionalität des Arbeitspaketes möglichst transparent in das Gesamtsystem einzubinden. Auf folgende Aspekte ist besonders zu achten: - Transparenz der Integration - leichte Integration in häufig verwendete Programmiersysteme - transparenter Austausch des Arbeitspaketes bei Funktionserweiterungen, Fehlerbeseitigungen etc. Die programmtechnische Integration der Inhalte des Arbeitspaketes erfolgt für den Anwender transparent in Form einer dynamischen Linkbibliothek, auf eine Implementierung mit anderen Mechanismen (z.B. COM) wird bewusst verzichtet, um eine Portabilität auf andere Plattformen offen zu halten. Die dynamische Bibliothek stellt eine Schnittstelle nach außen bereit, um in das Gesamtprojekt integriert zu werden. Die Integration der DLL erfolgt direkt nach der OCR, vor Übernahme des Erkennungsergebnisses an die nachfolgenden Algorithmen. Aufrufkonvention der DLL ist stdcall, die Funktion wird ohne zusätzliche Funktionsdekoration exportiert um eine Integration in verschiedene Programmierumgebungen sicherzustellen. Die DLL stellt dem Gesamtprojekt eine Funktion zur Verfügung, diese ist wie folgt deklariert: function ocr_pruef ( pRGB: PBITMAPINFO; pData24: Pointer; pGray: PBITMAPINFO; pData8: Pointer; pFont: PChar; pRegionDefs : PRegionDef; pOCRResult: Pointer ):Integer; stdcall; Die ersten vier Parameter übergeben dabei jeweils einen Zeiger auf das RGB- und auf das Grauwertbild des Originals. Der fünfte Parameter kennzeichnet die auf diesem Dokument verwendete Schriftart, bzw. ist NULL, falls dies nicht vorherbestimmt werden kann. Der nächste Parameter beinhaltet die Definitionen der Regionen im Dokument. Im folgenden Parameter wird noch das Erkennungsergebnis der OCR in der von der OCR vorgegebenen Struktur RepData übergeben. Die Struktur RepData enthält das OCR Erkennungsergebnis einer kompletten Textseite. Zusätzlich exportiert die Funktion folgende zwei Funktionen, die fast mit der Funktion ocr_pruef() übereinstimmen. Die Funktion ocr_pruef_p() benötigt als letzten Parameter das OCR Erkennungsergebnis als LpRepData und die Funktion 21 ocr_pruef_l() als LpRelData. Die Funktion ocr_pruef_l() ermöglicht es das OCR Erkennungsergebnis einer einzelnen Textzeile zu überprüfen. function ocr_pruef_p( pRGB: PBITMAPINFO; pData24: Pointer; pGray: PBITMAPINFO; pData8: Pointer; pFont: PChar; pRegionDefs : PRegionDef; pOCRResult: LpRepData ):Integer; stdcall; function ocr_pruef_l( pRGB: PBITMAPINFO; pData24: Pointer; pGray: PBITMAPINFO; pData8: Pointer; pFont: PChar; pRegionDefs : PRegionDef; pOCRResult: LpRelData ):Integer; stdcall; Da der Aufbau und das Management der Fontbibliothek nur in diesem Arbeitspaket benötigt wird, wurde die Schnittstelle in dieser Hinsicht vereinfacht. Das Modul übernimmt selbständig den Aufbau und die Pflege dieser Bibliothek – eine Interaktion ist nicht erforderlich, bzw. wird gegebenenfalls über vom Modul bereitgestellte Dialoge realisiert. Entwicklung eines Fonts-Werkzeugkastens Dazu ist ein Modul zu schaffen, mit dem Beispielfonts erfasst und in einer Fontsbibliothek abgelegt werden können. Das Programm muss es ermöglichen, durch Adaption neuer Fonts nachzulernen und dadurch die nachfolgende Erkennungsleistung zu steigern. Struktur der Bibliothek und nutzerfreundliche Bedienoberfläche für die Adaption müssen entwickelt werden. Für das Matchingmodul ist es notwendig Referenzbilder der zu untersuchenden Schriften abzulegen. Da auf den heutigen Rechnern viele der damals verwendeten Schriftarten nicht mehr verfügbar sind, können die Referenzbilder nicht durch den Rechner erzeugt werden. Stattdessen ist es notwendig, die Referenzbilder aus den besten Bildern des vorhandenen Datenmaterials zu ermitteln und im BMP-Format abzuspeichern. Damit von einer beliebigen Anzahl von Schriftarten Referenzbilder erfasst werden können, wurde ein einfacher Mechanismus geschaffen. Im gleichen Verzeichnis wie die DLL befindet sich eine Ini-Datei „ocrpruef.ini“ mit beispielsweise folgendem Inhalt: [FONT] TestFont1=c:\Projekte\Dover\_Bin\TestFont1\ TestFont2=c:\Projekte\Dover\_Bin\TestFont2\ 22 Für jede Schriftart ist in der Ini-Datei ein Eintrag vorhanden. Dieser Eintrag stellt die Verknüpfung zwischen Schriftnamen und dem Verzeichnis, indem sich die Vergleichsbilder befinden, her. Der Namen für die Schriftarten kann frei gewählt werden. Beim Aufruf der Funktion ocr_pruef() muss der Schriftartname im Parameter „pFont“ übergeben werden. Im Beispiel sind 2 Schriftarten „TestFont1“ und „TestFont2“ definiert worden. Die zum „TestFont1“ gehörenden Referenzbilder befinden sich im Verzeichnis „c:\Projekte\Dover\_Bin\TestFont1\“ und die Referenzbilder von „TestFont2“ liegen im Verzeichnis „c:\Projekte\Dover\_Bin\TestFont2\“ Die Vergleichsbilder werden in den jeweiligen Verzeichnissen als 8-Bit BMP gespeichert. Für die Dateinamen gelten folgende Namenskonventionen: 1. Bilder von Ziffern werden als „0.bmp“ bis „9.bmp“ benannt. 2. Bilder von kleinen Buchstaben werden als „k_a.bmp“ bis „k_z.bmp“ benannt. 3. Bilder von großen Buchstaben werden als „g_a.bmp“ bis „g_z.bmp“ benannt. Es müssen nicht zwingend für alle Zeichen Vergleichsbilder vorhanden sein. Wird vom Prüfalgorithmus ein Vergleichsbild nicht gefunden, wird die Berechnung dieser Korrelation übersprungen. Detektion der Zeichenbox Die Erkennung der umschreibenden Rechtecke von Wörtern und Einzelzeichen bilden die Grundlage für: - Test der inhaltlichen Korrektheit des Erkennungsergebnisses - Einbeziehung von a Priori Wissen zum Dokument (Proportional- / Nichtproportionalschrift) - Einbeziehung von Informationen zum Dokumentenaufbau (Spalten mit Namen, Ortsnamen, Berufen, etc.) - Adaptierbarkeit der verwendeten Algorithmen zum Zeichen/Fontmatching Eine stabile Erkennung der umschreibenden Rechtecke ist damit Grundlage der nachfolgenden Algorithmik. Die Erkennung muss für Bilder unterschiedlicher Qualität und unterschiedlicher Auflösung stabile Ergebnisse liefern. Es ist zu untersuchen, in wie weit die Auflösung des Quellbildes die Stabilität der umschreibenden Rechtecke beeinflusst bzw. welche Auflösung für ein stabiles Erkennungsergebnis ausreicht. Eine stabile Erkennung der umschreibenden Rechtecke der Einzelzeichen ist Voraussetzung für ein späteres Matching der erkannten Einzelzeichen. Die verwendete OCR liefert teilweise Beschreibungen über die Rechtecke mit, die der Trennalgorithmus der OCR zur Trennung verwenden wird. Wie in der Abbildung zu sehen ist, wird in der OCR das Hintergrundwissen, dass es sich um eine Nichtproportionalschrift handelt nicht korrekt ausgewertet. Einzelne Zeichen werden zerschnitten, andere können verschmolzen werden. 23 Dieses typische Problem einer OCR-Entscheidung soll mit einem Algorithmus, der die umschreibenden Rechtecke der Einzelzeichen – unter Berücksichtigung von Nichtproportionalschrift – behoben werden. Dazu werden statistische Auswertungen der Grauwertverteilung in horizontaler und vertikaler Richtung vorgenommen und daraus ein Gitter bestimmt. Vorteil dieser statistischen Auswertung ist, dass diese nicht lokal begrenzt arbeitet, sondern eine globale Verteilung der Grauwerte in horizontaler/vertikaler Richtung berücksichtigt und dass diese auch auf das Grauwert- oder Farbbild anwendbar ist, um bessere Trennungen zu erreichen. eine (hier am Zweifarbenbild) ermittelte horizontale Projektion der Grauwerte eine (hier am Zweifarbenbild) ermittelte vertikale Projektion der Grauwerte 24 durch Vorkenntnis – Nichtproportionalschrift, minimaler Buchstabenbreite, maximale Buchstabenbreite und Variation der Anfangsposition und der Gitterbreite lässt sich ein für das Dokument optimales Schnittgitter bestimmen Schnelltest zur Einschränkung der Suche Das Gesamtziel des Arbeitspaketes besteht in der Korrektur des OCR-Ergebnisses anhand von a Priori Wissen über das Dokument, inhaltliche Einschränkungen des zu erwartenden Textes sowie der Kenntnis über verwendete Typen von Schreibmaschinen und der daraus bestehenden Möglichkeit, über Einzelzeichenvergleich (Font/Einzelzeichen) das Ergebnis zu verbessern. Das letzte Verfahren (Einzelzeichenvergleich bei bekannter Schriftart bzw. Schriftartenpool) ist das rechnerisch aufwendigste Verfahren. Um diesen Aufwand zu minimieren ist zunächst ein Schnelltest, der die anderen Vorkenntnisse berücksichtigt zu implementieren, das sind im speziellen: Nutzung der Kenntnis, das es sich um Nichtproportionalschriften handelt Nutzung von Wörterbüchern / lexikalischen Klassen Nutzung von Informationen über häufige Fehlerklassen bei der Analyse von Trennmöglichkeiten der Einzelzeichen (rn, Ic,...) Der umgesetzte Prüfalgorithmus basiert auf der Vorraussetzung, dass die zu erkennenden Dokumente Nichtproportionalschriften enthalten. Nichtproportionalschriften sind Schriften, bei dem jedes Zeichen eine – in der Breite konstante – Zelle belegt. In der Datenstruktur des OCR Erkennungsergebnisses werden 2 aufeinander folgende segmentierte Bildbereiche gesucht, die jeweils in der Größe von einem Zeichen der Nichtproportionalschrift abweichen. Bei der Suche werden diejenigen Zeichen ausgewählt, die zu schmal für ein Zeichen sind und deren Abstand zueinander zu gering ist. Bei gefunden Zeichen wird überprüft, welche Zeichen die OCR erkannt hat. Sofern die erkannte Zeichenfolge, eine der in der folgenden Tabelle aufgeführten 25 Ausgangszeichenfolgen entspricht, wird eine Ersetzung Zeichenfolge „rn“ wird zum Beispiel dann durch ein „m“ ersetzt. Ausgangszeichen () ii rn ni cl li oi vv IC VV NI LI I) I( durchgeführt. Die Ersetzt durch: 0 u m m d h a w K W M U D K Damit nachvollzogen werden kann, welche Zeichen der Algorithmus erkannt und ersetzt hat, werden Informationen in das übergebene Echtfarbenbild gezeichnet. Erkannte Zeichenketten, die nicht der Nichtproportionalschrift entsprechen, werden durch eine rote Umrandung gekennzeichnet. Wurde eine Ersetzung durchgeführt, ist die Umrandung in Blau. Entwicklung von Matchingverfahren und Entwicklung von Bewertungskriterien Verfahren zur Feststellung der bestmöglichen Übereinstimmung müssen entwickelt und auf ihre Anwendbarkeit getestet werden. Eine sich zunächst anbietende Möglichkeit ist, die Bildpunktmenge (Α∪Β) \ (Α∩Β) zu bewerten. Mit AP 3.6 wurde ein erster Prüfalgorithmus entwickelt und implementiert, der aus unterbrochenen und damit aus fälschlicherweise zwei „erkannten“ Zeichen wieder versucht, dieses durch das eigentliche zu ersetzen (s. Zwischenbericht 2006). Der unter 3.7. entwickelte zweite Prüfalgorithmus vergleicht den Bildausschnitt, den die OCR als Zeichen erkannt hat, mit bekannten Referenzbildern. Zum Vergleichen der Bilder wird die Korrelation der Bilder genutzt. In der Datenstruktur der OCR werden für jedes erkannte Zeichen bis zu 8 mögliche Klassifizierungsergebnisse zurückgeliefert. Außerdem bestimmt die OCR für jedes mögliche Klassifizierungsergebnis einen Faktor, der beschreibt wie wahrscheinlich die Korrektheit des Klassifikationsergebnis ist. Die 8 möglichen Klassifizierungsergebnisse sind nach der Wahrscheinlichkeit sortiert. Zur Überprüfung werden nun die, zu den 8 Ergebnissen gehörenden Referenzbildern, jeweils mit dem zu erkennenden Bildausschnitt verglichen. Die dazu errechneten Korrelationswerte werden sortiert. Stammt der kleinste Korrelationswert 26 von einem anderen Zeichen als die OCR als wahrscheinlichstes Ergebnis erkannt hat, werden die Zeichen im OCR-Ergebnis getauscht. Ein Sonderfall ist, wenn die OCR nicht ein einziges Klassifikationsergebnis zurückliefert. In so einem Fall wird der Bildausschnitt mit allen Referenzbildern verglichen. Im OCR-Ergebnis wird das Zeichen eingetragen, wo die kleinste Korrelation bestimmt werden konnte. Die Stellen im Bild, an denen der Prüfalgorithmus Vertauschungen vorgenommen hat, sind auf dem Echtfarbbild durch einen grünen Rahmen gekennzeichnet. AP4 Verbesserung der Erkennung durch Wörterbücher Ermittlung geeigneter Free-Ware- Wörterbücher und zeitabhängiger Rechtschreibregeln Die zu untersuchenden Wörterbücher sollten zu zwei Zwecken genutzt werden. 1. Sie sollen in das Programmsystem zur Verbesserung des Erkennungsergebnisses bzw. zur Unterstützung der interaktiven Korrekturtätigkeit eingebunden werden. Bei der Suche nach einer geeigneten Lösung fanden wir das freiverfügbare Produkt Aspell, dessen Programmbibliothek auch für die Windows-Plattform vorhanden war. Für Aspell gibt es Wörterbücher in mehreren Sprachen, so ist der Einsatz nicht auf Dokumente in deutscher Sprache beschränkt, was bei der Mehrsprachigkeit eines Teils unserer Testdokumente von Vorteil sein könnte. Zum Einsatz kam bisher nur das deutsche Wörterbuch. 2. Zum Auffinden von Wörtern, die Umlaute enthalten, damit diese ersetzt werden können (zur Verbesserung der Schrifterkennung von Schreibmaschinen, die keine Umlaute oder “ß“ enthalten). Hierfür eignen sich jedoch weder die Free-Ware-Wörterbücher noch diejenigen, welche von den kommerziellen Systemen mitgeliefert werden. Die Wörterbücher sind verschlüsselt, so dass ein Durchsuchen nicht möglich ist. Um dem Anliegen dieses Arbeitspaketkomplexes hinreichend Genüge zu tun, musste deshalb auf die Stichwörter von Wikipedia.de zurückgegriffen werden. Nach unseren Nachforschungen fanden bis zum Ende des 20. Jahrhunderts – also zu Zeiten der Anwendung von Schreibmaschinen – keine gravierenden Rechtschreibänderungen statt. Die im 20. Jahrhundert im deutschen Sprachgebiet verwendete Rechtschreibung geht zurück auf das „Vollständige Orthographische Wörterbuch der deutschen Sprache“ von Konrad Duden (1880). Die 1901 in Berlin tagende 2. 27 Orthographische Konferenz schloss mit der Festlegung einiger strittiger Regeln den Prozess der Vereinheitlichung der deutschen Rechtschreibung ab. Einbindung des Wörterbuches in den interaktiven Korrekturprozess der DDW Die Korrektur der OCR-Ergebnisse findet in den DDW-Tools in der Akzeptanzphase statt. Eine Erweiterung dieser Phase um automatische Korrekturvorschläge schien uns wünschenswert. Allerdings lassen die DDW-Tools wegen fehlender Quellen ein Hinzufügen von Schnittstellen nicht zu. Als vorhandene Schnittstelle ist jedoch die XML-Datei, die alle Phasen-Ergebnisse vom Bearbeitungszyklus des Dokumentes enthält, für die wörterbuchgestützte Korrektur nutzbar. Diese Korrektur erfolgt deshalb in einer separaten Anwendung interaktiv. Für ein inkorrekt erkanntes Wort c Lagerarxt - incorrect bietet Aspell die Anzeige von Vorschlägen an, aus denen der Nutzer das richtige Wort auswählen kann. s Lagerarxt Lagerarzt Lagerst Lagert Lagertet Lagerist Bei dieser Vorgehensweise ist jedoch eine gute Erkennung durch die OCR Voraussetzung. Hat das Erkennungsergebnis überhaupt keine Ähnlichkeit mit dem ursprünglichen Wort, versagen auch die Vorschlagsalgorithmen. Verfahren zum Auffinden und Umbilden von Wörtern Im Bearbeitungszyklus der im Projekt getesteten Dokumente sollte das Erkennungsergebnis der OCR durch Einsatz von Wörterbüchern verbessert werden. Diese Wörterbücher mussten sowohl vom Kontext (Begriffe der NS-Zeit) als auch von der Orthographie (Einsatz von Schreibmaschinen ohne Umlaute) den vorliegenden Papierdokumenten so gut wie möglich entsprechen. Zu diesem Zweck wurden frei verfügbare Wörterlisten als Textdateien in eine Datenbank importiert. Mit den Abfragemöglichkeiten für Datenbanken konnten beispielsweise alle Wörter, die einen Umlaut enthielten, separiert werden und der Umlaut durch einen Doppelvokal bzw. "ß" durch "ss" ersetzt werden. Wörter, die solche Sonderzeichen nicht enthalten, werden verworfen. 28 Abb.: Ausschnitt aus einer modifizierten Wortliste Nach dem Export aus der Datenbank lassen sich die so gewonnenen Wortlisten in die frei verfügbare Rechtschreibprüfung "Aspell" einbinden, womit das dort vorhandene Wortmaterial erweitert wird. Die Datenbank bleibt hier nur ein Zwischenschritt, aber die Mächtigkeit der Datenbankabfragen erlaubt eine bequeme Auswahl, Umordnung und Veränderung von Wortlisten. OCR-Produkte, die eigene Wörterbücher zur Verfügung stellen, erlauben teilweise den Aufbau eines nutzereigenen Wörterbuches, der dann auch mit Hilfe von vorhandenen Wortlisten vereinfacht werden kann. Entwicklung von Zuordnungsverfahren Zuverlässige Korrekturvorschläge lassen sich nur finden, wenn der erkannte Text nur unwesentlich (1 falscher Buchstabe oder 1 Zeichen Längendifferenz) vom richtigen Text abweicht. Eine gute Zuordnung ist über die Indexierung des 1. Buchstabens, ggf. noch über den zweiten Buchstaben möglich. Die Abbildung zeigt einen typischen Erkennungsfehler und die Korrekturmöglichkeit. 29 Weicht die Länge des erkannten Wortes stark von der wirklichen Länge ab, werden die Korrekturvorschläge nur unwahrscheinlich den richtigen Begriff treffen. Enthält das Wort mehrere Fehler, ist eine Berichtigung durch Trigramm-Vergleich möglich. Dabei wird das gesuchte Wort in Tripel zerlegt, die mit den Einträgen des Wörterbuches verglichen werden. Lufibi1d ->luf-ufi-fib-ibi-bi1-i1d Lufibi1dsamm1ung->luf-ufi-fib-ibibi1-i1d-1ds-dsa-sam-amm-mm1-m1u1un-ung Luftbild->luf-uft-ftb-tbi-bil-ild Luftfahrt->luf-uft-ftf-tfa-fah-ahr-hrt Luftbildsammlung->luf-uft-ftb-tbibil-ild-lds-das-sam-amm-mml-mlulun-ung Luftansammlung->luf-uft-fta-tanans-nsa-sam-amm-mml-mlu-lun-ung 1 1 5 4 In den ersten beiden Zeilen ist zu sehen, dass die Fehler so liegen, dass auch fast alle Trigramme betroffen sind und eine Übereinstimmung mit dem richtigen Wort nur bei einem Trigramm vorliegt, genau so wie bei dem folgenden Wörterbucheintrag. Deshalb ist eine Zuordnung in diesem Fall unzuverlässig. Die folgende Zeile enthält ein längeres Wort, dadurch sind mehr Übereinstimmungen vorhanden und die richtige Zuordnung ist wahrscheinlicher. Jedoch auch der Vergleich mit 'Luftansammlung' bringt noch 4 Übereinstimmungen. Die Anzahl der Übereinstimmungen muss also sehr genau mit der Wortlänge in Beziehung gesetzt werden, um Fehlzuordnungen auszuschließen. Ein Vergleich von deutlich ungleich langen Wörtern ist auch beim Trigramm-Verfahren uneffektiv. Während der Projektlaufzeit wurde von Re-recognition eine neue Kadmos-Version mit optionaler Rechtschreibprüfung angekündigt. Die Tests werden ergeben, welche zusätzlichen Korrekturvorschlagsverfahren noch sinnvoll sind. Nutzerfreundliche Bedienoberfläche Die zu Beginn des Projektes gehegte Vorstellung, die Nutzeroberfläche der im EUProjekt MEMORIAL geschaffenen DDW so umzugestalten, dass alle in DOVER geschaffenen Tools integriert und – teilweise alternativ zu Programmen der DDW genutzt werden können, musste verworfen werden, da die in Frage kommenden Tools der DDW von ausländischen Partnern (Universität Liverpool, Technische Universität Gdansk) erstellt wurden, die uns übergebenen Schnittstellenbeschreibungen veraltet bzw. unzureichend waren und die eigentlichen Bearbeiter nicht mehr an der Universität weilen. Das hat zur Folge, dass nunmehr zweigleisig gefahren werden muss. Zum einen werden die neu geschaffenen Tools so umfangreich wie möglich auch für die DDW nutzbar gemacht (z.B. durch Verwendung der im Paket 2 stark verbesserten Images als Eingabe in die DDW, wozu die Binärbilder wieder künstlich in Farbbilder 30 umgewandelt werden müssen), zum anderen wird ein System erstellt, das ohne die Tools der DDW auskommen muss. Damit ist die Anforderung verbunden, dass zumindest ein kleiner Editor geschaffen werden musste, um die zu erkennenden Bereiche auf dem Schriftstück-Image zu kennzeichnen. Zusammen mit dem verbesserten Image wird diese Information dann an die OCR (mit einbindbaren Wörterbüchern) übergeben und das Ergebnis wird durch die Anwendung der Tools aus Paket 3 nochmals einer Verbesserung unterzogen. AP 5 Verschlagwortung Erstellung des Schlagwortkatalogs Aus den erkannten und korrigierten Texten wurde durch Textanalyse am Beispiel eines Karteikasten-Bestandes des Herder-Instituts Marburg ein Schlagwortkatalog für ein relationales DB-System aufgebaut und für die Suche nutzbar gemacht. So genannte Stoppwörter (Artikel, Pronomen, Präpositionen usw.) wurden nicht aufgenommen. Für jedes Schlagwort (Tabelle T_SW) wurden die Inventarnummern der relevanten Bilder als Identifikator in einer eigenen Relation (T_SWBild) gespeichert. Damit ist dann der Zugriff auf alle für das Schlagwort relevanten Bilder möglich. Die Bilder sind in diesem Testfall nicht in der Datenbank enthalten. Eine Verknüpfung zu den Bildern wird über den Dateinamen hergestellt. Durch die (direkte) Schlagwortsuche ist ein sehr schnelles Auffinden der gewünschten Bilder möglich. Durch eine anschließende Volltextsuche (langsamer) kann die Resultatmenge noch eingeschränkt werden. Ein Formular zeigt sowohl das Bild als auch den erkannten Text an, der in einer DB-Tabelle (T_Karten) abgelegt wurde. 31 AP 6 Umfangreicher Test der Ergebnisse Die folgende Tabelle zeigt die Verbesserung der Texterkennungsergebnisse an 4 Referenzbildern, deren Scanqualität als schlecht eingestuft wurde und die bei den Tests als Referenzbilder dienten. Dabei ist bei dem Bildnamen die Anzahl der auf dem Bild vorhandenen Textzeichen angegeben. In den Spalten danach sind die Werte zu korrigierender/ (angeblich) erkannter Textzeichen angegeben. Die ersten beiden Spalten zeigen das Erkennungsergebnis mit der DDW, die folgenden mit dem vorgeschalteten Bildverbesserungsschritt. Durch Anpassung des Algorithmus an die konkreten Bildeigenschaften konnte das Ergebnis weiter verbessert werden. Bild F0001_ref.tif (119) F0002_ref.tif (140) F0003_ref.tif (187) F0009_ref.tif (157) Mittelwert ohne ohne amspr1 amspr1 amspr2 amspr2 amspr3 amspr3 47/127 0,39 28/125 0,24 21/117 0,18 18/119 0,15 33/154 0,24 23/149 0,16 20/142 0,14 16/147 0,11 26/194 0,14 25/194 0,13 20/183 0,11 20/188 0,11 49/151 0,31 50/141 0,32 34/149 0,22 34/149 0,22 0,27 0,21 0,16 0,15 32 Keine Verbesserung konnte erzielt werden, wenn die Qualität der Scans schon gut war (einfarbiger Hintergrund ohne Störungen), was aber bei älteren Archivalien selten ist. Im Zuge eines umfangreicheren Tests (6 000 Karteikarten des Herder-Instituts Marburg) wurde die Leistungsfähigkeit des neuen Systems gegenüber den von der DDW gelieferten Ergebnissen erprobt. Für diese Karten konnte eine Erkennungsrate von über 90% für ca 80% der Scans ermittelt werden. Darunter war ein Karteikasten, bei dem Erkennungsrate zwar besser als bei der DDW war, das Ergebnis jedoch nicht befriedigen konnte. Eine Analyse der images ergab, dass hierbei eine andere Scannereinstellung nötig gewesen wäre. Das deshalb noch entwickelte „Analyseprogramm“ kann daher, zukünftig vor dem Massenscannen eingesetzt, zu einer besseren Scannereinstellung und damit zur weiteren Verbesserung beitragen. Eine Aufstellung der Scanqualität der Bilder am Beispiel dieses Karteikastens von Dokumenten (1268 Karteikarten) des Herderinstituts Marburg zeigte die Abweichungen von den Werten, die für eine optimale Bildverbesserung (AP2) notwendig wären: \Helligkeit Kontrast\ deutlich zu gering (-2) zu gering (-1) gut (0) zu hoch (1) deutlich zu hoch (2) deutlich zu gering (-20) gut (0) 0 0 0 0 0 0 54 0 313 12 zu gering (-10) zu hoch (10) 0 0 0 0 0 0 205 106 449 129 3. Zusammenfassung und Bewertung des Vorhabens Nach Ablauf des Projektes stehen der GFaI nunmehr ein zwei Programmsysteme zur Verfügung, die zum Erfassen von Schreibmaschinenseiten geeignet sind. Zum einen das ursprünglich vorhandene (die im Rahmen des EU-Projektes MEMORIAL entwickelte Digital Document Workbench), zum anderen das im Rahmen dieses Projektes neu geschaffene System mit eigener Benutzeroberfläche. Durch die neu geschaffenen Module, insbesondere der Image-Vorbehandlung, wurde gegenüber den Erkennungsraten der kommerziellen OCR (ca. 50%) und der DDW (etwa 70%) mit ca 90% ein wesentlicher Fortschritt erreicht (Werte gemessen an hand des erwähnten Bestandes des Herder-Instituts). Damit sind die bei der Antragstellung formulierten Ziele im Wesentlichen erreicht. Die sehr optimistische Hoffnung, eventuell auf die Einbindung eines kommerziellen OCR-Systems durch hohe Leistungen der Matching-Verfahren verzichten zu können, ließ sich allerdings nicht realisieren. Dazu war allein schon die Realisierungszeit nicht ausreichend, so dass die Arbeiten nur auf die Korrektur der durch die OCR erkannten Texte konzentriert wurden. 33