Bericht DOVER (PDF, GER)

Transcription

Bericht DOVER (PDF, GER)
Forschungsergebnisse zum FuE-Vorhaben
Reg.-Nr.
: IW041258
FuE-Einrichtung : Gesellschaft zur Förderung angewandter
Informatik e.V. (GFaI)
Titel
: Dokumentenlese- und -verarbeitungssystem
(DOVER)
Projektlaufzeit
: 01.09.2004 - 30.09.2006
Berichtszeitraum : 01.01.2006
- 30.09.2006
Dr. Wolfgang Schade, Tel. 030-63921605
Name und Telefonnummer des Projektleiters
1
1. Zielstellung
Heute eingesetzte OCR-Software leistet sehr gute Erkennungsergebnisse (>98%)
bei gut konditionierten Vorlagen (z.B. Ausdrucke von Tintenstrahl- und
Laserdruckern), unter Zuhilfenahme von Wörterbüchern und durch Einschränkung
der möglichen Erkennungsergebnisse durch Festlegung der OCR-Antwort auf
bestimmte Erkennungsklassen (z.B. nur Ziffern, E-Mail-Adressen, etc.). Die meiste
OCR-Software ist auch darauf trainiert, auf Dokumente mit variablem Inhalt zu
reagieren. Sie ist in der Lage, sowohl eingebettete Bilder als auch Änderungen im
verwendeten Schriftfont zu erkennen und entsprechend darauf zu reagieren. Ziel der
OCR-Software ist es dabei, die Dokumentenstruktur möglichst originalgetreu zu
erhalten und in ein elektronisches Dokument (PDF oder DOC) zu überführen.
Der Großteil der OCR-Software arbeitet auf Binärbildern, das heißt, dass nur noch
zwei Farbstufen (Schwarz und Weiß) im Bild unterschieden werden.
Ziel des Projektes DOVER ist die Erkennung von historischen, teilweise sehr
schlecht konditionierten Vorlagen.
Die zur Verfügung stehenden Dokumente konnten grob in 3 Hauptklassen unterteilt
werden. Sehr gut erhaltene Dokumente lieferten (wie erwartet) im Mittel
Erkennungsleistungen > 90%.
Bei sehr schlechten Dokumenten lag die Erkennungsleistung größtenteils unter 70%,
teilweise bis zum völligen Versagen der OCR-Software, die Dokumente mittlerer
Qualität lagen in der Erkennungsleistung im Bereich von 70-90%.
Da es im Projekt um die Verarbeitung von Massendokumenten geht, ist der stabilen
Erkennungsleistung eine sehr hohe Bedeutung zuzumessen. Um eine sehr hohe
Erkennungsleistung zu erreichen, werden verschiedene Verfahren angewandt und
kombiniert. Das sind:
-
Nutzung von Informationen, die im Echtfarbenbild/Grauwertbild vorhanden
sind, im Binärbild aber teilweise verschwinden
verbesserte Bildvorverarbeitung durch inhaltsabhängige
Binarisierungsschwellen
Ausnutzen von Informationen, die sich aus Hintergrundwissen herleiten und so
in keiner OCR-Software implementiert sind
nachträgliches, wörterbuchbasiertes, Prüfen der erkannten Zeichen auf
Korrektheit
2. Ergebnisse
AP1 Bildgewinnung vom Mikrofilm
Unter dieser Überschrift sind zwei Zielrichtungen vereint, die jedoch eine völlig
unterschiedliche Herangehensweise erfordern. Einerseits sind in Anlehnung an die
Ergebnisse des EU-Projekts MEMORIAL die Vervollkommnung der mit OCR
verbundenen Prozesse für eine höhere Erkennungssicherheit bei Schreibmaschinenschrift ein wichtiger Untersuchungsgegenstand. Für diese Untersuchungen, die vor
allem in Punkt 1.2 (Verbesserung der Inhaltserfassung durch Multispektraltechniken)
erfolgen, wurden entsprechende Testmaterialien (Originale) zusammengestellt Für
2
diese Teilaufgabe (Analyse von Schreib-maschinenseiten)
Originalseiten auf Durchschlagpapier geschrieben bereit gestellt
wurden
einzelne
Die zweite Untersuchungsrichtung betrifft die Eignung von auf Mikrofilm vorliegenden
Kopien von Zeitungen und den Einfluss von Film- und Verfilmungsparametern sowie
der Filmscannereinstellungen und -qualität auf die Erkennung von Textinhalten. Für
diese Untersuchungen wurden ebenfalls Materialien zusammengestellt und
entsprechende Vergleiche vorgenommen. Für die erste Analyse der Wiedergabe von
Zeitungen aus digitalisierten Mikrofilmen wurden verfilmte Ausgaben des
„Luxemburger Wort“ von 1937 gewählt
Im Vorfeld der Analyse der Digitalisierung von Mikrofilmen wurde außerdem mit vier
Herstellern von Mikrofilmscannern Kontakt aufgenommen, die sich bereit erklärt
haben Testscans für unser Projekt vorzunehmen. Es handelt sich dabei um die
Firmen AGFA (Copex HDP13), Kodak (LC und NextScan „eclipse“), Zeutschel (OM1200, einem US-amerikanischen Scanner) und Planeta (µScan).
Verbesserung der Inhaltserfassung durch Multispektraltechnik
Der Grundgedanke der Optimierung der Digitalisierung von Schreibmaschinenseiten
für eine nachfolgende Buchstabenerkennung geht davon aus, dass sowohl die
Objekte selbst, als auch die Aufnahmen schlechte Vorbedingungen liefern, die durch
nachgeschaltete Bildverarbeitungsalgorithmen nur schwer zu korrigieren sind. Dazu
gehört in erster Linie der Kontrast zwischen Buchstabe und Hintergrund, der durch
Papierfarbe, Papiermaterial, Durchschlagen der Rückseite und die Besonderheiten
des Buchstabenabdrucks (Anschlagstärke, Letterqualität bzw. –abnutzung, Druckbzw. Kopierfarbe) bestimmt wird.
Aus oben genannten Gründen wird eine Untersuchung des Einflusses der
Beleuchtungsbedingungen, der Farben und der Aufnahmebedingungen große
Bedeutung beigemessen.
Der Ansatz in einem EU-Projekt, eine multispektrale Aufnahmetechnik zu nutzen, die
dort nur für Fragmente einer Seite zur Schadenserkennung bei sehr geringer
geometrischer
Auflösung
eingesetzt
wurde,
kann
bei
entsprechender
Weiterentwicklung nutzbare Ergebnisse für unsere Aufgabenstellung ergeben.
Der erste Schritt in dieser Richtung war die Bestimmung der erforderlichen
Filterparameter und die Beschaffung entsprechender Spezialfilter.
Normale Farbfilter aus Glas oder mit Gelatine beschichtet haben einen relativ breiten
spektralen Verlauf. Durchgeführte Vorversuche ergaben keine befriedigenden
Ergebnisse. Aus diesem Grund erscheinen Versuche mit gut definierten
Interferenzfiltern aussichtsreicher. Andererseits weisen übliche Interferenzfilter nur
Bandbreiten zwischen 5 und 10 nm auf, was für fototechnische Anwendungen (egal
ob analog oder digital) auf Grund der geringen Energieausbeute eindeutig zu schmal
ist. Die Wahl fiel auf Interferenzfilter der Firma Carl Zeiss Jena, die seit ca. 1977 für
in Luft- und Raumfahrt eingesetzten Multispektralkameras (MKF-6, MSK-4)
entsprechende Filter produzierte. Die Luftbildfirma Bild- und Spezialflug GmbH stellte
uns für eine Testphase einen Filtersatz zur Verfügung, der in Abb. 3 gezeigt ist.
3
Abb. 3: MSK-4-Interferenzfiltersatz für den sichtbaren und nahen IR-Bereich
Der optisch aktive Durchmesser beträgt 78 mm bei einem
Halterungsinnendurchmesser von 85mm.
Die jeweiligen Filterparameter sind in Tabelle 1 zusammengefasst.
Lfd. No.
1
2
3
4
5
6
Mittlere Wellenlänge (nm)
480
540
600
660
720
840
Halbwertsbreite (nm)
40
40
40
40
40
100
Tab. 1: Parameter der Interferenzfilter
Eine weitere Aufgabe bestand in der Vorbereitungsphase in der Absicherung der
Verfügbarkeit der erforderlichen Auswertesoftware. In der Folge der Experimente
besteht die Aufgabe darin, mit geeigneter Software die entstehenden
Multispektralaufnahmen auszuwerten. Neben üblichen Kanalkombinationen
(Addition, Subtraktion, Division), die auch mit vorliegender StandardBildverarbeitungssoftware (beispielsweise Adobe Photoshop) sollen auch spezifische
Algorithmen, wie die Hauptkomponentenanalyse, zum Einsatz kommen. Diese sind
jedoch nur in speziellen, meist sehr teuren Bildverarbeitungspaketen, beispielsweise
für die Satellitenfernerkundung, enthalten. Aus diesem Grund wurde Kontakt mit
Kollegen des Deutschen Zentrums für Luft- und Raumfahrt (DLR) aufgenommen. Es
konnte vereinbart werden, dass von uns entsprechende Versuche mit unseren
Bilddaten an einem Bildverarbeitungssystem der DLR durchgeführt werden.
4
Grundlage für die Aufgabenstellung waren die physikalischen Parameter von Papier
und Beschreib- bzw. Druckstoffen. Die Kontrastierung kann durch einige
Grundeigenschaften der genannten Stoffe erhöht werden:
- Absorption
- Reflektion
- Fluoreszenz
Eine Optimierung der Ergebnisse ist durch die Wahl und Variation der
Beleuchtungsquelle möglich. Dazu sind die Art der Quelle sowie folgende Parameter
entscheidend:
- Wellenlänge
- Intensität (Abstand)
- Einfalls- und Aufnahmewinkel
- Polarisation
- Kombination der Parameter
Bei der Herstellung der Aufnahmen zeigten sich deutliche spektrale Unterschiede bei
den Vorlagen. Im Zuge der Bearbeitung konnten diese noch verstärkt werden. Als
problematisch erwies sich der nahe Infrarotbereich, da einerseits die Halbwertsbreite
der Filter nur 40nm (bei 720nm) bzw. 100nm (bei 840nm). Es konnte bei der üblichen
Reprobeleuchtung mit Fluoreszenzlampen nicht die erforderliche Energie für eine
ausgewogene Belichtung bereitgestellt werden. Erst bei einem Test mit
Halogenlampen verbesserte sich erwartungsgemäß die Wiedergabe.
Die Abbildung 4 zeigt das Fragment einer mit ca. 280dpi vollständig aufgenommenen
A4-Seite in drei verschiedenen Bearbeitungen. Dazu wurde eine Nikon CP8700 mit 8
Mpixel (3264 x 2448 Pixel) verwendet. Diese Auflösung ist nominell für die
nachfolgende Bearbeitung mit OCR-Programmen, die i.a. 300dpi voraussetzen,
ausreichend. Um jedoch für zukünftige Projekte auf der sicheren Seite zu sein,
empfiehlt es sich, die neue Sony DSC-R1 zu benutzen, die sowohl durch ihren 10
Mpixel-Sensor die erforderliche geometrische Auflösung übertrifft, als auch durch den
Übergang zu CMOS ein deutlich geringeres Rauschen aufweist (was bei der
Schwächung der Lichtenergie durch die Filter sehr hilfreich ist).
Normalaufnahme
Differenz Rot-Blau
Kanalmischung
Abb. 4: Fragment einer vollständig aufgenommenen A4-Seite in drei verschiedenen
Bearbeitungen
5
Die Überlegenheit der Multispektralaufnahme zeigt sich schon in der ersten
Bearbeitung. Die Aufnahmen im blauen und roten Spektralbereich zeigen bereits
Unterschiede in der Detaillierung des Hintergrunds. Die Differenzaufnahme zwischen
den zwei Kanälen löscht dann die durchschlagende Schrift aus, betont jedoch
andererseits den in einem Kanal vorherrschenden Hintergrunddetails (bis hin zur
Struktur) UND die Schrift. Die dritte Bearbeitung zeigt eine Berechnung mit weiteren
Kanälen, wodurch der Hintergrund und die durchschlagende Schrift zurückgedrängt
werden konnten. Die anschließende Anwendung des Buchstabenerkennungstools
(einkästeln der Buchstaben) ermöglicht eine gegenüber dem Original deutlich
gesteigerte Erkennungssicherheit.
Die Diskussion der Ergebnisse mit Kollegen des Deutschen Zentrums für Luft- und
Raumfahrt (DLR) und des Multispektralen Messlabors der Handschriftenabteilung der
Russischen Nationalbibliothek (MM/RNB) führten zu dem Schluss, dass trotz
vielfältiger Ansätze (besonders auch in Italien und den Niederlanden, exemplarisch
im
EU-Projekt
ISYREADET
beschrieben)
eine
effektive
großflächige
Multispektralaufnahme – wie für Zeitschriften erforderlich – nicht verfügbar ist.
Entsprechende Aufnahmetechnik für den wirklichen nahen IR-Bereich oder gar das
mittlere IR (bis ca. 5000nm) sind entsprechend teuer (ca. 50.–70.000 EURO). Die
vorhandenen Laborausrüstungen gestatten jedoch qualitative Aussagen über die
Realisierbarkeit der gewählten Ansätze.
Der nahe und mittlere IR-Bereich ist für besondere Aufgabenstellung, wie die
Verbesserung und Erkennung von Schrift auf Thermopapier (ZnO) geeignet, da bei
geeigneter Strahlungsquelle (Halogen) das Papier die Strahlung reflektiert, während
der Bedruckstoff die Reflektion vermindert.
Untersuchung von Verfilmungsparametern
Die weltweit empfohlenen grundsätzlichen Verfilmungsparameter für Bibliotheks- und
Archivbestände (von der DFG, der RLG oder der Schweizer Landesbibliothek) sind
schon für sich genommen nicht unproblematisch und verschärfen sich bei einer
nachfolgenden Digitalisierung. Dies soll am Beispiel von Empfehlungen für Bücher
(Text) und Strichvorlagen verdeutlicht werden.
Für solche Vorlagen werden High Contrast – Filme empfohlen, die auch steil
entwickelt werden. Die nachfolgende Digitalisierung soll demzufolge mit 600dpi und
1bit (Speicherung als TIFF) erfolgen. Genau diesem Ansatz folgte ein Verfilmungsund Digitalisierungsprojekt in Berlin. Das Ergebnis war für eine visuelle Lesbarkeit
unbefriedigend, da auf ca. 10% der verfilmten und nachfolgend digitalisierten Seiten
Stellen nicht erkennbar/ interpretierbar waren. Für eine automatische Erkennung sind
die Folgen desaströs, da die Binarisierungsschwelle fest voreingestellt worden war
(Grauwert 128) und selbst bei automatischer Wahl (nach Messung) zu viel
Information verloren geht. Die Abbildung 5 zeigt ein Beispiel mit unterschiedlichen
Binarisierungsschwellen.
6
Originalaufnahme
Autom. Schwelle: 128
Max. Kontrastspreizung
Manuelle Schwelle: 145
Vier manuelle Schwellen
Abb.5: Beispiel des Einflusses der Binarisierungsschwelle auf die visuelle
Erkennbarkeit
Die Schweizer Landesbibliothek stellt in ihren Normen für die Zeitungsverfilmung
folgende Forderungen, die deshalb zitiert werden sollen, weil sie auch eine direkte
Bemerkung zur nachfolgenden Digitalisierung beinhalten:
„Normen zur fotografischen Qualität:
Optische Dichte des Hintergrundes, gemessen "im Bild": In leichter Abänderung von DIN 19057 wird
hier ein erhöhter Grenzwert für die Minimaldichte verlangt.
Dmin = geforderte Minimaldichte 1.10
Dmax = geforderte Maximaldichte 1.40
∆D = Unterschied zwischen den hellsten und dunkelsten Bildteilen ( meistens nicht
messbar; ein genügender Kontrast ergibt jedoch eine befriedigende Reproduzierbarkeit). Die Dichte
ist auch vor allem im Hinblick auf eine eventuell später erfolgende Digitalisierung ein sehr
wichtiger Faktor, da große Dichteunterschiede beim Scannen des Films eine markant vergrößerte
Datenmenge bewirken.
Die Schärfe und die Lesbarkeit lässt sich mit der ISO-Testtafel nach DIN 19051, Teil 1 & 2, leicht
kontrollieren. Es muss mindestens die Lesbarkeit, unabhängig vom Verkleinerungsfaktor, bei
Testzeichen 84 erreicht werden, d.h. bei 7 von 8 Symbolen einer Reihe muss die Richtung der Linien
einwandfrei erkennbar sein.“ (Hervorhebung durch GfaI)
http://www.snl.ch/d/download/mikro.pdf
Allerdings ist die Begründung mit der Datenmenge eher nicht mehr zeitgemäß und
erinnert an die unrühmlichen Festlegungen zur Binarisierung (die ebenfalls mit
Speicherplatzeinsparung begründet wurde). Während bei der Festlegung der
Speicherform schon stets auf die verlustfreie Speicherung (TIFF) höchster Wert
gelegt wurde, ist der durch die Binarisierung auftretende Informationsverlust für diese
Fachleute offensichtlich zu verschmerzen.
7
Da sich die hochqualitative Verfilmung mit einer hohen Anzahl von reproduzierbaren
Grauwerten durchgesetzt hat, die Festlegung für die Digitalisierung jedoch von der
Nutzung nicht des Originalfilms sondern des print masters (2 Generation,
Negativfilm) ausgeht, ist ein weiterer Qualitätsverlust nicht zu umgehen. Die Nutzung
des Negativs ist wichtig, da die meisten Mikrofilmscanner auf Grund ihrer
beschränkten
maximalen
Dichteerkennbarkeit
bei
Negativen
bessere
Digitalisierungsergebnisse (Grauwertdynamik) liefern. Die wird auch in einer
Publikation der Research Libraries Group (RLG) aus dem Jahre 2003 bestätigt.
http://www.rlg.org/preserv/microsuppl.pdf
Aus den oben genannten Gründen wurden Testfilme hergestellt, die verschiedene
Objekte (Bücher, Zeitungen, Fotos, Test-Charts) mit unterschiedlichen Belichtungen
beinhalten.
Abb.6: Test-Chart nach DIN 19051 mit Testzeichen 84 (s.o.) / Ausschnitt zweier Mikrofilmaufnahmen
mit einer Blende Unterschied (ohne Bearbeitung)
Die Abb.6 zeigt die verfilmte und danach gescannte Aufnahme der Test-Charts nach
DIN 19051. Wie weiter oben beschrieben, ist das Testfeld 84 in der mehr belichteten
Aufnahme (oben) besser zu erkennen, entspricht jedoch auch unten rechts, in der
unterbelichteten Aufnahme, den erforderlichen Kriterien.
Entsprechend den Ergebnissen wurde entschieden, die weiteren Probebelichtungen
mit einer um eine Blendenstufe weiter geöffneten Blende aufzunehmen
Die Diskussion der optimalen Filmherstellung für die nachfolgende Digitalisierung
erfolgte auch im Rahmen des Metamorfoze-Projekts. In dessen Richtlinien von 2004
wird die folgende Empfehlung gegeben:
“The Kodak Gray Scale Q-13 consists of a gray scale of 20 patches, going from white (patch A with an
appearance density of about 0.05) to black (patch no. 19 with an appearance density of about 1.95).
The difference in appearance density between the individual patches is 0.10.
A visual check of the Kodak Gray Scale exposure on a microfilm negative will show that not all 20
patches are separately visible. The number of discernable patches will depend on the type of film
used, in combination with the applied development method. In other words, the number of discernable
patches will depend on the gamma value or the contrast factor of the film. The gamma value indicates
in a simple manner the relationship between the contrast range of the original and that of the negative.
Apart from the gamma value, the number of discernable patches will depend largely on the density of
patch A on the microfilm negative.
Patch A renders the maximum density. For a correct assessment of the gray scale, the density of
patch A is of essential importance. Not only maximum density but also minimum density is of vital
8
importance. Minimum density must always be 0.00. The patch for which this value is measured
depends on the gamma value of the film and the density of patch A. The densitometer must be set to
zero on the film before taking any density readings. …
Assessment and calculation in the case of high contrast filming
For a correct assessment of the gray scale, patch A must have a density of about 1.50. For a correct
calculation of the gamma value it is important to assume minimum and maximum densities for the
area for which the gamma value has to be calculated. In the case of high contrast filming, the gamma
value must be determined from a density of c. 1.50 (patch A) to a density of c. 0.80. These films
should have a gamma value between 2.5 and 3.5. The difference in density between the consecutive
patches of the Kodak Gray Scale must be no more than 0.35. In other words, the steps should not be
bigger than 0.35. The number of visually discernable patches following patch A will be at least
seven for these films. To calculate the gamma value, the densities (without the 0) of the steps
between 1.50 and 0.80 are simply added up. Next, they are divided by the sum of the densities
(without the 0) of the same steps of the original Kodak Gray Scale.” (Hervorhebung durch GfaI)
http://www.metamorfoze.nl/publicaties/richtlijnen/english/guidelines.pdf
Schlussfolgerung:
Die eigenen Produktionserfahrungen unseres Kooperationspartners „Preservation
Academy GmbH Leipzig zeigen, dass Zeitungen mit High-Contrast-Film
aufgenommen und flacher entwickelt werden, die besten Resultate liefern. Für die
besten Digitalisierungsresultate empfiehlt sich eine leichte Erhöhung der
maximalen Dichte gegenüber den gängigen Verfilmungsstandards um ca. 0,2.
Wichtig ist auch die Einhaltung der Auflösungskriterien entsprechend DIN 19051.
Die unbearbeitete Abb.7 zeigt ein weiteres Test-Chart, wie es von uns zur Verfilmung
genutzt wurde. Dabei ist die gute Unterscheidbarkeit der Grauwerte auf dem KodakGraukeil (ausgehend von Patch A), mit mehr als 7 Graustufen, zu erkennen. Oben
links in dem Test-Chart ist ein Schrifttest mit unterschiedlichen Schriftgrößen und –
typen angebracht, der ebenfalls im weiteren Verlauf der Untersuchungen für Tests
der Erkennbarkeit benutzt wurde.
Abb.7: Weiteres Test-Chart für Verfilmung und Digitalisierung mit Schriftgrößen
(oben links) und dem Kodak-Graukeil (Pfeil zeigt Patch A)
9
Untersuchung der Abhängigkeit der Parameter von der Scannerart
Einleitung
Es liegen eine Reihe von Standards und Empfehlungen zur Verfilmung von Materialien vor, die anschließend vom Mikrofilm digitalisiert werden sollen, so dass dieses
Kapitel nicht weiter vertieft werden muss. Dazu gehören vor allem die „RLG Guidelines for Microfilming to Support Digitization“ der Research Libraries Group1) , die
“Preservation Microfilming Guidelines” des Metamorfoze Projekts2) und die „Normen
und Standards für die Mikroverfilmung von Zeitungen“ der Schweizerischen Landesbibliothek3).
Neben den technisch-organisatorischen Bedingungen (Leerbilder, Anfang, Ende,
Titel, Miren, Angabe vom Maßstab usw.) werden vor allem die Wahl der Filmmaterialien und Entwicklung in Abhängigkeit vom Objekt behandelt.
Ein Kernsatz der Metamorfoze-Empfehlungen ist: All information in the original must
also be present in the service copy. Dies setzt, besonders bei Archivmaterialien und
Zeitungen, low contrast filming oder zumindest entsprechende Entwicklung voraus.
Für die anschließende Digitalisierung verbietet sich aus demselben Grunde eine
Binarisierung.
Bei der praktischen Realisierung muss im Gegensatz zu den Voraussetzungen der
o.g. Empfehlungen davon ausgegangen werden, dass die Herstellung von älteren
Mikrofilmen nicht optimal für eine spätere Digitalisierung erfolgte. Um die Bedingungen für eine maximale Informationsübertragung zu verbessern, kann in Sonderfällen
die einmalige Digitalisierung vom Master in Erwägung gezogen werden.
1) „RLG Guidelines for Microfilming to Support Digitization“ , Research Libraries
Group, 2003, Mounain View, USA (www.rlg.org)
2) “Preservation Microfilming Guidelines”, Hans van Dormolen, Metamorfoze Office,
Koninklijke Bibliotheek, National Library of the Netherlands, The Hague, 2004
3) „Normen und Standards für die Mikroverfilmung von Zeitungen“, MIKO
Koordination, Schweizerische Landesbibliothek, Bern 2004
Beschreibung des Tests
Für die Tests wurde ein Mikrofilm von Testvorlagen, Zeitungen und Dokumenten
hergestellt, bei dem high contrast film weicher entwickelt wurde und ein Objekt
jeweils mit mehreren Belichtungszeiten (bei gleicher Blende) abgebildet worden war.
Dieser Testfilm wurde (nach sorgfältiger Vorauswahl) vier Mikrofilmscanner-Firmen
zur Digitalisierung übergeben. Dabei handelte es sich um AGFA, KODAK, PLANETA
und ZEUTSCHEL. Die Testvorlagen, aufgenommen nach der Digitalisierung, sind auf
der folgenden Seite in Abbildung 1-4 dargestellt. Auf Grund der Kompliziertheit der
Vorlagen auf einem einzigen Film (Änderung der Dichte in Folge veränderter Filmbelichtung, verschiedene Objekte (Testvorlagen, Zeitungen mit Fotos, Halbtonvorlagen, Stiche, Fotos) haben die Automatiken der Anbieter AGFA und PLANETA
versagt, so dass keine vergleichbaren Resultate erzielt werden konnten. Allerdings
liegen von AGFA vergleichbare Resultate einer Testkarte vor. Zur Erläuterung wird
im Folgenden eine kurze Einführung in die Steuerbarkeit von Mikrofilmscannern am
Beispiel des Zeutschel OS1200 gegeben, die prinzipiell auch auf alle anderen
Modelle anwendbar ist.
10
Das Grundprinzip der Aufnahme besteht in der optischen Abbildung eines (Quer-)
Streifens des Films auf einer CCD-Zeile mit ca. 8000 Pixeln. Damit ergibt sich für ein
Zeitungsformat von 40cm x 60cm die Grenzauflösung von 20 Pixeln/mm, also 10
LP/mm, was die Voraussetzung für eine anschließende OCR darstellt.
Bei größeren Vorlagen kann diese für eine erfolgreiche OCR erforderliche optische
Auflösung nicht erreicht werden. Allerdings muss betont werden, dass es sich hier
um theoretische Werte handelt. Die praktischen Werte liegen wegen der Verluste bei
den Vorlagen selbst (Verfilmung) und der Digitalisierung (Optik, Signalverarbeitung)
darunter.
Die X-Richtung des Bildes wird durch die Vorwärtsbewegung des Films mit einer der
geometrischen Auflösung entsprechenden Geschwindigkeit realisiert. Damit ist die
Belichtungszeit fest definiert. In einigen Fällen ist durch doppelte Geschwindigkeit ein
Subsampling mit doppelter Auflösung in X-Richtung realisiert. Zur Steuerung der
Aufnahme steht somit hardwareseitig nur ein Parameter zur Verfügung: Die Lichtintensität der auf den zu scannenden Film fallenden Lichtes. Dies kann durch zwei
Techniken erfolgen; entweder über eine gesteuerte Blende an der Abbildungsoptik
der CCD oder über eine direkte Regelung des Stromes der beleuchtenden Lampe.
Die Ausgangsinformation für die automatische Regelung wird durch die Messung und
(automatische oder manuelle) Einstellung des Weiß- und Schwarzwertes an einem
Bild des Films für den gesamten Film gewonnen und eingestellt.
Abb.1: DIN-Testvorlage Beiblatt 2, 19051, Teil 4, unbearbeitet
11
Abb.2: Auflösungsmire, bearbeitet
Abb.3: Auflösungsmire oben rechts, bearbeitet
Abb.4: AIIM Scanner Test Card 2 sowie Kodak Grau- und Farbtafeln
In den Tests hat sich erwiesen, dass die manuelle Messung und somit Vorgabe der
Lampenhelligkeit der automatischen überlegen ist, da die visuelle Auswahl beispielsweise des Weißpunktes nicht statistisch oder messtechnisch absolut erfolgt, sondern
den Kontext des Originals berücksichtigt. Dieser Sachverhalt wird an der Testvorlage
Abb.4 sichtbar. Das orangene Quadrat war der hellste Bereich im Bild. Wenn dieser
Wert auf „Weiß“ (255) gesetzt wird, liegt der weiße Bildbereich der Kodak-ColorKarte (rotes Quadrat) bei einem hellen Grau (238). Wird dieser Bereich auf „Weiß“
gesetzt, ergibt sich die Gefahr des „Ausfressens“ der äußersten grauen Linie, die
blau umrandet ist. Was für die Darstellung von Bildern gut ist, kann für die
Wiedergabe (und nachfolgender Erkennung mit OCR) von Buchstaben verheerend
sein. In diesem Falle war die Automatik besser.
Der beschriebene Testfall einer inhomogenen Hintergrundsverteilung (in unserem
Falle „Weiß“) ist die Folge der Randabschattung des Aufnahmeobjektives bei der
Verfilmung (in Abb.4 durch die konzentrischen Kreise symbolisiert) sowie die Inhomogenität der Beleuchtung der Vorlage beim Verfilmen. Aus diesem Grund wird
12
gegenwärtig für die nächste Generation von Mikrofilmscannern an einer automatischen Shadingkorrektur gearbeitet.
Resultate der Tests
Abschließend soll der visuelle und OCR-Vergleich der Ergebnisse der beiden Mikrofilmscanner von KODAK (LC) und ZEUTSCHEL (OM1200) am Beispiel einer
Zeitungstestseite dargestellt werden. Auf der folgenden Seite sind in den Abbildungen 5 und 6 die Digitalisate desselben Bildes des Test-Mikrofilms demonstriert.
Während bei Zeutschel der Weiß- und Schwarzpunkt manuell im Bild gesetzt worden
war und das Bild absolut scharf abgebildet wurde (im Original-Digitalisat sind die
Rasterpunkte der abgebildeten Fotos sichtbar) ist bei Kodak die automatische Messung des Schwarzwertes am Filmrand (Schleier) erfolgt. Außerdem ist das Kodakdigitalisat etwas unscharf. Zur Verdeutlichung der Reserven ist im roten Kästchen
eine Kontrastspreizung realisiert worden, die den Zeitungshintergrund auf „Weiß“
setzt. Die visuelle Erkennbarkeit wird deutlich verbessert. In der blauen Abgrenzung
erfolgte eine Binarisierung bei der (optimalen) Schwelle 128, wobei die „angefressenen“ Buchstaben die Erkennbarkeit zumindest für eine anschließende OCR
deutlich verringern.
Abb.5: ZEUTSCHEL: Bei optimaler Belichtung, Weiß- und Schwarzpunkt manuell im
Bild gesetzt.
Abb.6: KODAK: Bei optimaler Belichtung,
Weiß- und Schwarzpunkt automatisch im
Filmhintergrund und im Bild gesetzt.
13
Abb.7: Bestes OCR-Ergebnis der Digitalisate: Zeutschel (links) und Kodak (rechts)
Die Ergebnisse aus der OCR (Abbyy Finereader) der zweiten Spalte des Originaldigitalisats sind in Abbildung 7 und der Tabelle 1 wiedergegeben.
Bei der Abbildung 7 ist zu beachten, dass das relativ gute Kodakresultat NICHT von
dem visuell besten Digitalisat (Abb.6) stammt, sondern von der dichteren Wiedergabe derselben Seite auf dem Mikrofilm, die etwas überbelichtet ist.
Tab.1: OCR mit Finereader an den visuell besten Digitalisaten (Zeutschel/Kodak)
Wahrend : Sit/unu. berieten die
Während der Sitzung berieten die
Mitglieder des Rates und Eisenbahner über Mitj! v i nbah
ner ur • Reserven und die
weitere Reserven und die Zusammenarbeit au Terntonum und D> -ehe
zwischen Territorium und Deutsche
Reichsbahn. So stellt -:at der Stadt
Reichsbahn. So stellt z.B. der Rat der Stadt 1982 vorrangig W Ahnungen, Kmdcrgarten
1982 vorrangig Wohnungen. Kindergarten- und K" nplatze bere1,'
B.u'k t] für Rationahsie
und Krippenplätze bereit, setzt
i ungsvorh.t: • ein, unter and für eil
Baukapazitäten für Rationalisie
••isbremsengcbaudc
rungsvorhaben ein, unter anderem für ein
Gencsse K! ps Schlestem, 1. StellVertreter t.
neues Gleisbremsengebäude.
!. Oberburgerm.:dankte den
Ccncssc Klaus Schlcstein, 1. Stellvertreter .isenbahnern für die
des Oberbürgermeisters, dankte den
gute • -äglich vollbracht
Eisenbahnern für die öüte* Arfceif die'
wird jcn Mitcin..
WicK 'Vollmacht wird. Ziel des enge«
.: tretung, Rat der
Miteinander zwischen Volksvertretung, Rat Stadt itk- {• ; leben sei es. auch
der Stadt und Betrieben sei es, auch künftig künftig für u::en hohen Leistungs
.-n-tu g dl r • ikswirt.schaft
für einen hohen Leistungsanstieg der
/u ti,. müssen weil
14
Volkswirtschaft Sorge zu tragen. Jetzt
müssen weiterreichende Schritte
entsprechend der höheren Mafjstäbe
abgesteckt werden, um die territoriale
Rationalisierung und die Zusammenarbeit
der Verkehrsträger zu fördern und neue
komplexe Lösungen für die anspruchsvollen Ziele zu schaffen
chend; - entsprechen l
hoher .- alnieste.k'
den. um di t, rntonale Ratior..
rung und du- Zusammenarbeit der
Verkehi st i igei ^u fordern und neue
körn p!'. qen für die an
spruch«, v :.
Bei der OCR-Anwendung auf das Digitalisat der Scanner-Test-Card 2 (in Abb.4 links
oben) konnten der AGFA (Copex HDP13) und der Kodak (LC) verglichen werden.
Das Resultat ist für 10 pt-Schrift in Abbildung 8 dargestellt.
Abb.8: Ausschnitt von jeweils drei 10 pt-Schriften der Testkarte, erstellt mit dem
Kodak- und Agfa-Mikrofilmscanner nach der OCR-Bearbeitung (ohne Bildverbesserung).
Schlussfolgerung
Von den vier untersuchten Mikrofilmscannern zeigen das AGFA- und das
Zeutschelmodell die besten Resultate. Fern jeder Theorie über Standards
ergeben sich in der Praxis auf Grund der Vorlagen und der realen Mikrofilme
Digitalisate, von denen eine führende OCR-Software stets fehlerbehaftete
Ergebnisse liefert. Die manuelle Weiß- und Schwarzwertbestimmung und Einstellung liefert die besten Resultate. Unter der Voraussetzung der
Weiterentwicklung der Mikrofilmscanner (etwas höhere geometrische
Auflösung bis ca. 14.000 Pixel/Zeile, verbesserte automatische Weiß- und
Schwarzwertbestimmung, bessere Nutzung des Dynamikbereiches durch
manuelle und/oder automatische Anpassung, Angleichung des durch
Randabschattung
und
inhomogene
Beleuchtung
ungleichmäßigen
Hintergrundes) sowie der Erkennungssoftware (adaptive Schwellwerte in
verschiedenen Textbereichen oder Buchstaben, geometrische Bestimmung
der Zeilen- und Buchstabenlage, Erkennung gemischter Buchstabenfonds
einschließlich Frakturschrift) ist eine Digitalisierung vom Mikrofilm die beste
Möglichkeit, sowohl die Erhaltung (Mikrofilm, Langzeitspeicherung) als auch
den Zugriff (Digitalisat, Internet) preiswert zu realisieren. Die günstigen Kosten
der Mikrofilmdigitalisierung durch Automatisierung dürfen jedoch nicht darüber
hinwegtäuschen, dass die manuelle Optimierung der Scanparameter (und
damit die Einbeziehung einer Fachkraft zum Einrichten und Abgleichen des
Scanners) bisher und in naher Zukunft die besten Resultate ergibt.
15
AP 2 Umgang mit Hintergrundstörungen
Anwendung von Verfahren zum überwachten Lernen zur Verbesserung der
Erkennung von Schreibmaschinenschrift
Im Rahmen dieser Gruppe von Arbeitspaketen wurde eine Vorverarbeitung für die
gescannten Bilder entwickelt, welche eine verbesserte Trennung von Vorder- und
Hintergrund zum Ziel hat. Die deutlich verbesserte Hervorhebung der
Schreibmaschinenanschläge (Vordergrund) im Rahmen der Vorverarbeitung
ermöglicht eine ebenfalls stark verbesserte Erkennungsrate der Buchstaben in der
folgenden OCR-Stufe.
Klärung der Schnittstellen
Da die entwickelte Software eine Vorverarbeitung der gescannten Bilder durchführt,
muß sie sich in den vorhandenen Workflow integrieren. Die Bildformate für Input und
Output sind durch die vom Scanner gelieferten Bilder und die von der Workbench
erwarteten Bilder festgelegt. Es werfen dreikanalige Farbbilder mit den Farbkanälen
Rot, Grün und Blau verwendet.
In Zusammenarbeit mit dem Endanwender wurden drei Schnittstellen für den Zugriff
auf die implementierten Funktionen geschaffen:
1. Aufruf eines separaten Programms: Da die entwickelten Funktionen den
bisherigen Arbeitsschritten der Workbench vorgeschaltet sind, ist es für
Testzwecke möglich, die nach dem Scannen temporär gespeicherten
Bilder mit einem eigenständigen Programm zu überarbeiten und die
Ergebnisse in die Workbench zu übernehmen. Diese Lösung erforderte für
Testzwecke keine Eingriffe in die vorhandene Software.
2. Dateibasiertes Interface: Es wurde eine Funktion implementiert, welche
Dateien für den Input und Output verwendet. Es werden vom aufrufenden
Programm lediglich die Namen der zu lesenden und zu schreibenden
Dateien übergeben. Diese Lösung erfordert nur geringen Eingriffe in die
vorhandene Software und läßt sich gut in den Workflow integrieren. In der
Regel liegen die gescannten Dokumente als temporäre Dateien vor und
können nachbearbeitet werden.
3. Imagebasiertes Interface: Für eine hohe Integration in vorhandene
Software steht dem Endanwender ein Interface auf Basis einer
Datenstruktur im Hauptspeicher zur Verfügung. Als Datenstruktur wurde
IPL-Image gewählt. Die Übergabe der Bilddaten im Hauptspeicher
ermöglicht eine höhere Bearbeitungsgeschwindigkeit, erfordert jedoch tiefe
Eingriffe in die vorhandene Software. Dieses Interface wird bisher vom
Endanwender noch nicht genutzt.
Farbraumquantisierung
Die vorliegenden Dokumente sind dreikanalige Farbbilder mit 24 Bit Farbtiefe. Bei
dieser Farbtiefe existiert für eine definierte Farbe keine hinreichende Statistik. Das ist
jedoch für die folgenden statistischen und Informationstheoretischen Auswertungen
16
erforderlich. Eine Reduktion auf ca. 128 Farben (7 Bit Farbtiefe) ist für die
nachfolgenden
Auswertungen
optimal.
Daher
wurden
verschiedene
Farbreduktionsverfahren untersucht:
Clusterung der Farben mit dem K-Means-Algorithmus
Diversity Color Reduction Algorithmus
Median Cut Algorithmus
Die Ergebnisse der verschieden Farbreduktionen wurden analysiert. Es zeigte sich,
daß alle drei Algorithmen ähnlich Farbcluster generieren und daß diese Cluster für
alle Dokumente ähnlich sind, wenn der Scan sorgfältig kalibriert wurde. Diese
Sorgfalt ist für eine hohe Erkennungsrate bei derart schwierigen Dokumenten
Voraussetzung und kann als gegeben angenommen werden. Die Farbreduktion kann
damit anhand folgender Formel erfolgen:
R − 32 + 0.0635 * G + 0.0625 * B
2
Diese Variante der Farbreduktion kann sehr schnell berechnet werden, da die
aufwendige Berechnung der Cluster entfällt. Ein Nachteil dieses Verfahrens ist, dass
nicht alle Cluster besetzt sind. Dies ist in den folgenden Schritten insbesondere beim
Struktur-Entropie-Algorithmus zu beachten.
GW =
Anhand des Originalbildes wird geprüft, ob die Voraussetzungen für eine hohe
Erkennungsrate eingehalten wurden (keine Überbelichtung oder mangelnder Kontrast). Eine Warnung wird bei Auftreten derartiger Fehler generiert.
Analyse der fraktalen Eigenschaften
Das folgende Bild zeigt einen typischen Ausschnitt eines Dokumentes. Da das
Scannen der Dokumente stets mit 300 dpi erfolgt, ergeben sich nahezu konstante
Werte für Buchstaben-höhe und Strichbreite. Der Hintergrund weist eine deutlich
erkennbare Textur und störende Flecken auf. Außerdem ist mit technisch bedingten
Fehlern zu rechnen (die weiße und rote Linie im Bild 2.1).
Abb. 2.2 ein typisches Beispiel
Die Analyse der fraktalen Eigenschaften bot nur unzureichende Ansätze, die
Trennung von Vorder- und Hintergrund zu verbessern.
17
Wesentlich bessere Ergebnisse wurden mit der Ortsfrequenzanalyse erzielt. Drei
Operatoren aus der Ortsfrequenzanalyse wurden genutzt, um einerseits die
charakteristischen Eigenschaften der mit Schreibmaschine geschriebenen
Buchstaben und Zahlen hervor zu heben und andererseits die Textur des
Hintergrundes zu unterdrücken:
1. Reduce-Operator: Hohe Frequenzen werden aus dem Bild entfernt. Die
verbleibenden Informationen können in einem Bild mit halber Breite und
Höhe und somit ¼ der Pixel dargestellt werden. Diese Bildverkleinerung
führt zu einem deutlichen Gewinn an Performance für folgende
Berechnungen.
2. Expand-Operator: Es wird die ursprüngliche Bildgröße wieder hergestellt.
3. HDC-Operator: Auf der Basis lokaler Pixelfrequenzen werden Texturen
unterdrückt und vom Vordergrund getrennt.
Diese drei Operatoren wurden zur Verbesserung der Trennung von Vorder- und
Hintergrund wie in Bild 2.2 gezeigt, zu einem effektiven Algorithmus
zusammengesetzt.
In der ersten Stufe wird hochfrequentes Rauschen entfernt. Die zweite Stufe dient
der Extraktion typischer Ortsfrequenzen für Schreibmaschinenanschläge. In der
dritten Bearbeitungsstufe werden Texturmuster des Hintergrundes unterdrückt und in
der vierten Stufe wird die ursprüngliche Bildgröße wieder hergestellt.
Abb. 2.2: Ablaufplan der Ortsfrequenz-Analyse
Statistische Charakterisierung von Vorder- und Hintergrund
Ausgangspunkt für statistische Untersuchungen bildet die Überlegung, dass
Vordergrundpixel (Schreibmaschinenanschläge) wesentlich seltener auftreten als
Hintergrundpixel. Außerdem treten Vordergrundpixel nicht einzeln auf, sondern
immer zusammengefasst in lokalen Häufungen. Ein geeignetes Verfahren, um diese
Eigenschaften hervorzuheben, ist die Analyse der Struktur-Entropie. Mit geringer
Wahrscheinlichkeit (< 10%) im Bild vorhandene Farbwerte, die zudem mit lokalen
Häufungen auftreten, haben eine hohe Entropie. Dem Hintergrund zuzuordnende
Farbwerte haben eine geringe Entropie.
In unmittelbarer Umgebung der Schreibmaschinenanschläge treten typische dunkle
Verfärbungen auf. Abb 2.3 zeigt ein Beispiel.
18
Abb. 2.3: Deutlich erkennbare dunkle Verfärbungen in
der Umgebung der Schreibmaschinenanschläge
Diese Verfärbungen haben ähnlich statistische Eigenschaften, wie die Anschläge
selbst. Es ist damit nicht möglich, die exakten Schreibmaschinenanschläge anhand
der Entropie zu extrahieren. Lediglich die Bereiche, in denen Buchstaben oder
Zahlen zu finden sind, können mit hoher Genauigkeit extrahiert werden. Bild 2.4 zeigt
das Ergebnis der Entropie-Analyse mit nachfolgendem Tresholding und
morphologischer Nachbearbeitung. Der Schwellwert für das Thresholding wird
adaptiv anhand des Histogramms berechnet, als morphologischer Operator kommt
Dilate mit einem 3x3 Pixel großem Kern zum Einsatz.
Abb. 2.4: Ergebnis der Entropie-Analyse
Das Beispiel zeigt, dass mit Hilfe des Struktur-Entropie-Algorithmus eine effektive
Erkennung
des
Hintergrundes
möglich
ist
und
Bereiche
der
Schreibmaschinenanschläge mit hoher Genauigkeit erkannt werden können. Das
Ergebnis wird zur Maskierung des Hintergrundes genutzt.
Binarisierung
Das Ergebnis der Ortsfrequenz-Analyse wird zur Verbesserung der Trennung von
Schreibmaschinenanschlägen und Hintergrund mittels Histogramm-EqualizeOperator nachbearbeitet und mit dem Ergebnisbild der Entropie-Analyse maskiert.
Nicht maskierte Bereiche werden anschließend mit einem lokal-adaptiven
Schwellwert binarisiert. Für jeden nicht maskierten Pixel wird der Mittelwert einer
11x9 Pixel großen Umgebung berechnet. Liegt der Wert des Pixels unterhalb dieses
Mittelwertes, wird der Pixelwert auf NULL gesetzt, anderenfalls auf 255. Die
empirisch ermittelte Größe der Umgebung von 11x9 Pixel respektiert bestmöglich die
typische Größe elementarer Elemente, aus denen sich die Buchstaben und Zahlen
zusammensetzen lassen und den typischen Abstand zweier benachbarter
Anschläge.
19
Kombination der Teillösungen
Die Teillösungen wurden zu einem Gesamtalgorithmus kombiniert. Das Bild oder
Dateiname wird vom aufrufenden Programm übergeben. Anschließend erfolgt eine
Tiefpass-Filterung, um Scannerfehler und nicht benötigte Frequenzanteile zu
entfernen. Das resultierende Bild enthält nur ¼ der Pixel des Originalbildes. Im
Anschluss erfolgt eine Reduzierung der Farben. Dieses Bild mit reduzierten Farben
wird als Ausgangsbild sowohl für die Ortsfrequenz-Analyse als auch die EntropieAnalyse genutzt. Das Ergebnis der Entropie-Analyse wird binarisiert und als Maske
für das Ergebnis der Ortsfrequenzanalyse verwendet. Abschließend erfolgt eine
lokal-adaptive Binarisierung, die ursprüngliche Größe wird wieder hergestellt und das
Ergebnis zur Weiterverarbeitung als Datenstruktur oder Datei übergeben.
Überführung in die kommerzielle Anwendung
Die Einbindung dieses Verfahrens in das Gesamtsystem ergab in der Regel deutlich
verbesserte Resultate.
Die Analyse der images mit trotzdem noch nicht befriedigenden Ergebnissen ergab,
dass für das Erfassen der images eine andere Scannererfassung notwendig gewesen wäre. Als Folgerung daraus wurde ein Analyseprogramm entwickelt, das – bei
Erstellung einiger Probescans – Hinweise für die Veränderung des Scanverfahrens
gibt (s.a. AP6).
20
AP3 Verbesserung der Erkennung durch Zeichenmatching
Festlegung von Eingabe- und Ausgabe-Interfaces
Entsprechend den Zielstellungen des Projektes (siehe auch Zwischenbericht von
12/2004) ist die Funktionalität des Arbeitspaketes möglichst transparent in das
Gesamtsystem einzubinden. Auf folgende Aspekte ist besonders zu achten:
- Transparenz der Integration
- leichte Integration in häufig verwendete Programmiersysteme
- transparenter Austausch des Arbeitspaketes bei Funktionserweiterungen,
Fehlerbeseitigungen etc.
Die programmtechnische Integration der Inhalte des Arbeitspaketes erfolgt für den
Anwender transparent in Form einer dynamischen Linkbibliothek, auf eine
Implementierung mit anderen Mechanismen (z.B. COM) wird bewusst verzichtet, um
eine Portabilität auf andere Plattformen offen zu halten.
Die dynamische Bibliothek stellt eine Schnittstelle nach außen bereit, um in das
Gesamtprojekt integriert zu werden. Die Integration der DLL erfolgt direkt nach der
OCR, vor Übernahme des Erkennungsergebnisses an die nachfolgenden
Algorithmen.
Aufrufkonvention der DLL ist stdcall, die Funktion wird ohne zusätzliche
Funktionsdekoration
exportiert
um
eine
Integration
in
verschiedene
Programmierumgebungen sicherzustellen.
Die DLL stellt dem Gesamtprojekt eine Funktion zur Verfügung, diese ist wie folgt
deklariert:
function ocr_pruef ( pRGB: PBITMAPINFO;
pData24: Pointer;
pGray: PBITMAPINFO;
pData8: Pointer;
pFont: PChar;
pRegionDefs : PRegionDef;
pOCRResult: Pointer ):Integer; stdcall;
Die ersten vier Parameter übergeben dabei jeweils einen Zeiger auf das RGB- und
auf das Grauwertbild des Originals. Der fünfte Parameter kennzeichnet die auf
diesem Dokument verwendete Schriftart, bzw. ist NULL, falls dies nicht
vorherbestimmt werden kann. Der nächste Parameter beinhaltet die Definitionen der
Regionen im Dokument. Im folgenden Parameter wird noch das Erkennungsergebnis
der OCR in der von der OCR vorgegebenen Struktur RepData übergeben. Die
Struktur RepData enthält das OCR Erkennungsergebnis einer kompletten Textseite.
Zusätzlich exportiert die Funktion folgende zwei Funktionen, die fast mit der Funktion
ocr_pruef() übereinstimmen. Die Funktion ocr_pruef_p() benötigt als letzten
Parameter das OCR Erkennungsergebnis als LpRepData und die Funktion
21
ocr_pruef_l() als LpRelData. Die Funktion ocr_pruef_l() ermöglicht es das OCR
Erkennungsergebnis einer einzelnen Textzeile zu überprüfen.
function ocr_pruef_p( pRGB: PBITMAPINFO;
pData24: Pointer;
pGray: PBITMAPINFO;
pData8: Pointer;
pFont: PChar;
pRegionDefs : PRegionDef;
pOCRResult: LpRepData ):Integer; stdcall;
function ocr_pruef_l( pRGB: PBITMAPINFO;
pData24: Pointer;
pGray: PBITMAPINFO;
pData8: Pointer;
pFont: PChar;
pRegionDefs : PRegionDef;
pOCRResult: LpRelData ):Integer; stdcall;
Da der Aufbau und das Management der Fontbibliothek nur in diesem Arbeitspaket
benötigt wird, wurde die Schnittstelle in dieser Hinsicht vereinfacht. Das Modul
übernimmt selbständig den Aufbau und die Pflege dieser Bibliothek – eine Interaktion
ist nicht erforderlich, bzw. wird gegebenenfalls über vom Modul bereitgestellte
Dialoge realisiert.
Entwicklung eines Fonts-Werkzeugkastens
Dazu ist ein Modul zu schaffen, mit dem Beispielfonts erfasst und in einer
Fontsbibliothek abgelegt werden können.
Das Programm muss es ermöglichen, durch Adaption neuer Fonts nachzulernen und
dadurch die nachfolgende Erkennungsleistung zu steigern. Struktur der Bibliothek
und nutzerfreundliche Bedienoberfläche für die Adaption müssen entwickelt werden.
Für das Matchingmodul ist es notwendig Referenzbilder der zu untersuchenden
Schriften abzulegen. Da auf den heutigen Rechnern viele der damals verwendeten
Schriftarten nicht mehr verfügbar sind, können die Referenzbilder nicht durch den
Rechner erzeugt werden. Stattdessen ist es notwendig, die Referenzbilder aus den
besten Bildern des vorhandenen Datenmaterials zu ermitteln und im BMP-Format
abzuspeichern.
Damit von einer beliebigen Anzahl von Schriftarten Referenzbilder erfasst werden
können, wurde ein einfacher Mechanismus geschaffen. Im gleichen Verzeichnis wie
die DLL befindet sich eine Ini-Datei „ocrpruef.ini“ mit beispielsweise folgendem Inhalt:
[FONT]
TestFont1=c:\Projekte\Dover\_Bin\TestFont1\
TestFont2=c:\Projekte\Dover\_Bin\TestFont2\
22
Für jede Schriftart ist in der Ini-Datei ein Eintrag vorhanden. Dieser Eintrag stellt die
Verknüpfung zwischen Schriftnamen und dem Verzeichnis, indem sich die
Vergleichsbilder befinden, her. Der Namen für die Schriftarten kann frei gewählt
werden. Beim Aufruf der Funktion ocr_pruef() muss der Schriftartname im Parameter
„pFont“ übergeben werden.
Im Beispiel sind 2 Schriftarten „TestFont1“ und „TestFont2“ definiert worden. Die zum
„TestFont1“ gehörenden Referenzbilder befinden sich im Verzeichnis
„c:\Projekte\Dover\_Bin\TestFont1\“ und die Referenzbilder von „TestFont2“ liegen im
Verzeichnis „c:\Projekte\Dover\_Bin\TestFont2\“
Die Vergleichsbilder werden in den jeweiligen Verzeichnissen als 8-Bit BMP
gespeichert. Für die Dateinamen gelten folgende Namenskonventionen:
1. Bilder von Ziffern werden als „0.bmp“ bis „9.bmp“ benannt.
2. Bilder von kleinen Buchstaben werden als „k_a.bmp“ bis „k_z.bmp“ benannt.
3. Bilder von großen Buchstaben werden als „g_a.bmp“ bis „g_z.bmp“ benannt.
Es müssen nicht zwingend für alle Zeichen Vergleichsbilder vorhanden sein. Wird
vom Prüfalgorithmus ein Vergleichsbild nicht gefunden, wird die Berechnung dieser
Korrelation übersprungen.
Detektion der Zeichenbox
Die Erkennung der umschreibenden Rechtecke von Wörtern und Einzelzeichen
bilden die Grundlage für:
- Test der inhaltlichen Korrektheit des Erkennungsergebnisses
- Einbeziehung von a Priori Wissen zum Dokument (Proportional- /
Nichtproportionalschrift)
- Einbeziehung von Informationen zum Dokumentenaufbau (Spalten mit
Namen, Ortsnamen, Berufen, etc.)
- Adaptierbarkeit der verwendeten Algorithmen zum Zeichen/Fontmatching
Eine stabile Erkennung der umschreibenden Rechtecke ist damit Grundlage der
nachfolgenden Algorithmik. Die Erkennung muss für Bilder unterschiedlicher Qualität
und unterschiedlicher Auflösung stabile Ergebnisse liefern. Es ist zu untersuchen, in
wie weit die Auflösung des Quellbildes die Stabilität der umschreibenden Rechtecke
beeinflusst bzw. welche Auflösung für ein stabiles Erkennungsergebnis ausreicht.
Eine stabile Erkennung der umschreibenden Rechtecke der Einzelzeichen ist
Voraussetzung für ein späteres Matching der erkannten Einzelzeichen. Die
verwendete OCR liefert teilweise Beschreibungen über die Rechtecke mit, die der
Trennalgorithmus der OCR zur Trennung verwenden wird. Wie in der Abbildung zu
sehen ist, wird in der OCR das Hintergrundwissen, dass es sich um eine
Nichtproportionalschrift handelt nicht korrekt ausgewertet. Einzelne Zeichen werden
zerschnitten, andere können verschmolzen werden.
23
Dieses typische Problem einer OCR-Entscheidung soll mit einem Algorithmus, der
die umschreibenden Rechtecke der Einzelzeichen – unter Berücksichtigung von
Nichtproportionalschrift – behoben werden. Dazu werden statistische Auswertungen
der Grauwertverteilung in horizontaler und vertikaler Richtung vorgenommen und
daraus ein Gitter bestimmt. Vorteil dieser statistischen Auswertung ist, dass diese
nicht lokal begrenzt arbeitet, sondern eine globale Verteilung der Grauwerte in
horizontaler/vertikaler Richtung berücksichtigt und dass diese auch auf das
Grauwert- oder Farbbild anwendbar ist, um bessere Trennungen zu erreichen.
eine (hier am Zweifarbenbild) ermittelte horizontale Projektion der Grauwerte
eine (hier am Zweifarbenbild) ermittelte vertikale Projektion der Grauwerte
24
durch Vorkenntnis – Nichtproportionalschrift, minimaler Buchstabenbreite, maximale
Buchstabenbreite und Variation der Anfangsposition und der Gitterbreite lässt sich
ein für das Dokument optimales Schnittgitter bestimmen
Schnelltest zur Einschränkung der Suche
Das Gesamtziel des Arbeitspaketes besteht in der Korrektur des OCR-Ergebnisses
anhand von a Priori Wissen über das Dokument, inhaltliche Einschränkungen des zu
erwartenden Textes sowie der Kenntnis über verwendete Typen von
Schreibmaschinen
und
der
daraus
bestehenden
Möglichkeit,
über
Einzelzeichenvergleich (Font/Einzelzeichen) das Ergebnis zu verbessern. Das letzte
Verfahren (Einzelzeichenvergleich bei bekannter Schriftart bzw. Schriftartenpool) ist
das rechnerisch aufwendigste Verfahren. Um diesen Aufwand zu minimieren ist
zunächst ein Schnelltest, der die anderen Vorkenntnisse berücksichtigt zu
implementieren, das sind im speziellen:
Nutzung der Kenntnis, das es sich um Nichtproportionalschriften handelt
Nutzung von Wörterbüchern / lexikalischen Klassen
Nutzung von Informationen über häufige Fehlerklassen bei der Analyse von
Trennmöglichkeiten der Einzelzeichen (rn, Ic,...)
Der umgesetzte Prüfalgorithmus basiert auf der Vorraussetzung, dass die zu
erkennenden
Dokumente
Nichtproportionalschriften
enthalten.
Nichtproportionalschriften sind Schriften, bei dem jedes Zeichen eine – in der Breite
konstante – Zelle belegt.
In der Datenstruktur des OCR Erkennungsergebnisses werden 2 aufeinander
folgende segmentierte Bildbereiche gesucht, die jeweils in der Größe von einem
Zeichen der Nichtproportionalschrift abweichen. Bei der Suche werden diejenigen
Zeichen ausgewählt, die zu schmal für ein Zeichen sind und deren Abstand
zueinander zu gering ist.
Bei gefunden Zeichen wird überprüft, welche Zeichen die OCR erkannt hat. Sofern
die erkannte Zeichenfolge, eine der in der folgenden Tabelle aufgeführten
25
Ausgangszeichenfolgen entspricht, wird eine Ersetzung
Zeichenfolge „rn“ wird zum Beispiel dann durch ein „m“ ersetzt.
Ausgangszeichen
()
ii
rn
ni
cl
li
oi
vv
IC
VV
NI
LI
I)
I(
durchgeführt.
Die
Ersetzt durch:
0
u
m
m
d
h
a
w
K
W
M
U
D
K
Damit nachvollzogen werden kann, welche Zeichen der Algorithmus erkannt und
ersetzt hat, werden Informationen in das übergebene Echtfarbenbild gezeichnet.
Erkannte Zeichenketten, die nicht der Nichtproportionalschrift entsprechen, werden
durch eine rote Umrandung gekennzeichnet. Wurde eine Ersetzung durchgeführt, ist
die Umrandung in Blau.
Entwicklung von Matchingverfahren und Entwicklung von
Bewertungskriterien
Verfahren zur Feststellung der bestmöglichen Übereinstimmung müssen entwickelt
und auf ihre Anwendbarkeit getestet werden. Eine sich zunächst anbietende
Möglichkeit ist, die Bildpunktmenge (Α∪Β) \ (Α∩Β) zu bewerten.
Mit AP 3.6 wurde ein erster Prüfalgorithmus entwickelt und implementiert, der aus
unterbrochenen und damit aus fälschlicherweise zwei „erkannten“ Zeichen wieder
versucht, dieses durch das eigentliche zu ersetzen (s. Zwischenbericht 2006). Der
unter 3.7. entwickelte zweite Prüfalgorithmus vergleicht den Bildausschnitt, den die
OCR als Zeichen erkannt hat, mit bekannten Referenzbildern. Zum Vergleichen der
Bilder wird die Korrelation der Bilder genutzt.
In der Datenstruktur der OCR werden für jedes erkannte Zeichen bis zu 8 mögliche
Klassifizierungsergebnisse zurückgeliefert. Außerdem bestimmt die OCR für jedes
mögliche Klassifizierungsergebnis einen Faktor, der beschreibt wie wahrscheinlich
die
Korrektheit
des
Klassifikationsergebnis
ist.
Die
8
möglichen
Klassifizierungsergebnisse sind nach der Wahrscheinlichkeit sortiert.
Zur Überprüfung werden nun die, zu den 8 Ergebnissen gehörenden
Referenzbildern, jeweils mit dem zu erkennenden Bildausschnitt verglichen. Die dazu
errechneten Korrelationswerte werden sortiert. Stammt der kleinste Korrelationswert
26
von einem anderen Zeichen als die OCR als wahrscheinlichstes Ergebnis erkannt
hat, werden die Zeichen im OCR-Ergebnis getauscht.
Ein Sonderfall ist, wenn die OCR nicht ein einziges Klassifikationsergebnis
zurückliefert. In so einem Fall wird der Bildausschnitt mit allen Referenzbildern
verglichen. Im OCR-Ergebnis wird das Zeichen eingetragen, wo die kleinste
Korrelation bestimmt werden konnte.
Die Stellen im Bild, an denen der Prüfalgorithmus Vertauschungen vorgenommen
hat, sind auf dem Echtfarbbild durch einen grünen Rahmen gekennzeichnet.
AP4 Verbesserung der Erkennung durch Wörterbücher
Ermittlung geeigneter Free-Ware- Wörterbücher und zeitabhängiger
Rechtschreibregeln
Die zu untersuchenden Wörterbücher sollten zu zwei Zwecken genutzt werden.
1. Sie
sollen
in
das
Programmsystem
zur
Verbesserung
des
Erkennungsergebnisses
bzw.
zur
Unterstützung
der
interaktiven
Korrekturtätigkeit eingebunden werden. Bei der Suche nach einer geeigneten
Lösung fanden wir das freiverfügbare Produkt Aspell, dessen
Programmbibliothek auch für die Windows-Plattform vorhanden war. Für
Aspell gibt es Wörterbücher in mehreren Sprachen, so ist der Einsatz nicht auf
Dokumente in deutscher Sprache beschränkt, was bei der Mehrsprachigkeit
eines Teils unserer Testdokumente von Vorteil sein könnte. Zum Einsatz kam
bisher nur das deutsche Wörterbuch.
2. Zum Auffinden von Wörtern, die Umlaute enthalten, damit diese ersetzt
werden
können
(zur
Verbesserung
der
Schrifterkennung
von
Schreibmaschinen, die keine Umlaute oder “ß“ enthalten). Hierfür eignen sich
jedoch weder die Free-Ware-Wörterbücher noch diejenigen, welche von den
kommerziellen Systemen mitgeliefert werden. Die Wörterbücher sind
verschlüsselt, so dass ein Durchsuchen nicht möglich ist. Um dem Anliegen
dieses Arbeitspaketkomplexes hinreichend Genüge zu tun, musste deshalb
auf die Stichwörter von Wikipedia.de zurückgegriffen werden.
Nach unseren Nachforschungen fanden bis zum Ende des 20. Jahrhunderts –
also zu Zeiten der Anwendung von Schreibmaschinen – keine gravierenden
Rechtschreibänderungen statt.
Die im 20. Jahrhundert im deutschen Sprachgebiet verwendete Rechtschreibung
geht zurück auf das „Vollständige Orthographische Wörterbuch der deutschen
Sprache“
von Konrad Duden (1880). Die 1901 in Berlin tagende 2.
27
Orthographische Konferenz schloss mit der Festlegung einiger strittiger Regeln
den Prozess der Vereinheitlichung der deutschen Rechtschreibung ab.
Einbindung des Wörterbuches in den interaktiven Korrekturprozess der
DDW
Die Korrektur der OCR-Ergebnisse findet in den DDW-Tools in der Akzeptanzphase
statt. Eine Erweiterung dieser Phase um automatische Korrekturvorschläge schien
uns wünschenswert. Allerdings lassen die DDW-Tools wegen fehlender Quellen ein
Hinzufügen von Schnittstellen nicht zu. Als vorhandene Schnittstelle ist jedoch die
XML-Datei, die alle Phasen-Ergebnisse vom Bearbeitungszyklus des Dokumentes
enthält, für die wörterbuchgestützte Korrektur nutzbar. Diese Korrektur erfolgt
deshalb in einer separaten Anwendung interaktiv.
Für ein inkorrekt erkanntes Wort
c Lagerarxt - incorrect
bietet Aspell die Anzeige von Vorschlägen an, aus denen der Nutzer das richtige
Wort auswählen kann.
s Lagerarxt
Lagerarzt
Lagerst
Lagert
Lagertet
Lagerist
Bei dieser Vorgehensweise ist jedoch eine gute Erkennung durch die OCR
Voraussetzung. Hat das Erkennungsergebnis überhaupt keine Ähnlichkeit mit dem
ursprünglichen Wort, versagen auch die Vorschlagsalgorithmen.
Verfahren zum Auffinden und Umbilden von Wörtern
Im Bearbeitungszyklus der im Projekt getesteten Dokumente sollte das
Erkennungsergebnis der OCR durch Einsatz von Wörterbüchern verbessert werden.
Diese Wörterbücher mussten sowohl vom Kontext (Begriffe der NS-Zeit) als auch
von der Orthographie (Einsatz von Schreibmaschinen ohne Umlaute) den
vorliegenden Papierdokumenten so gut wie möglich entsprechen. Zu diesem Zweck
wurden frei verfügbare Wörterlisten als Textdateien in eine Datenbank importiert. Mit
den Abfragemöglichkeiten für Datenbanken konnten beispielsweise alle Wörter, die
einen Umlaut enthielten, separiert werden und der Umlaut durch einen Doppelvokal
bzw. "ß" durch "ss" ersetzt werden. Wörter, die solche Sonderzeichen nicht
enthalten, werden verworfen.
28
Abb.: Ausschnitt aus einer modifizierten Wortliste
Nach dem Export aus der Datenbank lassen sich die so gewonnenen Wortlisten in
die frei verfügbare Rechtschreibprüfung "Aspell" einbinden, womit das dort
vorhandene Wortmaterial erweitert wird. Die Datenbank bleibt hier nur ein
Zwischenschritt, aber die Mächtigkeit der Datenbankabfragen erlaubt eine bequeme
Auswahl, Umordnung und Veränderung von Wortlisten. OCR-Produkte, die eigene
Wörterbücher zur Verfügung stellen, erlauben teilweise den Aufbau eines
nutzereigenen Wörterbuches, der dann auch mit Hilfe von vorhandenen Wortlisten
vereinfacht werden kann.
Entwicklung von Zuordnungsverfahren
Zuverlässige Korrekturvorschläge lassen sich nur finden, wenn der erkannte Text nur
unwesentlich (1 falscher Buchstabe oder 1 Zeichen Längendifferenz) vom richtigen
Text abweicht. Eine gute Zuordnung ist über die Indexierung des 1. Buchstabens,
ggf. noch über den zweiten Buchstaben möglich. Die Abbildung zeigt einen typischen
Erkennungsfehler und die Korrekturmöglichkeit.
29
Weicht die Länge des erkannten Wortes stark von der wirklichen Länge ab, werden
die Korrekturvorschläge nur unwahrscheinlich den richtigen Begriff treffen.
Enthält das Wort mehrere Fehler, ist eine Berichtigung durch Trigramm-Vergleich
möglich. Dabei wird das gesuchte Wort in Tripel zerlegt, die mit den Einträgen des
Wörterbuches verglichen werden.
Lufibi1d ->luf-ufi-fib-ibi-bi1-i1d
Lufibi1dsamm1ung->luf-ufi-fib-ibibi1-i1d-1ds-dsa-sam-amm-mm1-m1u1un-ung
Luftbild->luf-uft-ftb-tbi-bil-ild
Luftfahrt->luf-uft-ftf-tfa-fah-ahr-hrt
Luftbildsammlung->luf-uft-ftb-tbibil-ild-lds-das-sam-amm-mml-mlulun-ung
Luftansammlung->luf-uft-fta-tanans-nsa-sam-amm-mml-mlu-lun-ung
1
1
5
4
In den ersten beiden Zeilen ist zu sehen, dass die Fehler so liegen, dass auch fast
alle Trigramme betroffen sind und eine Übereinstimmung mit dem richtigen Wort nur
bei einem Trigramm vorliegt, genau so wie bei dem folgenden Wörterbucheintrag.
Deshalb ist eine Zuordnung in diesem Fall unzuverlässig. Die folgende Zeile enthält
ein längeres Wort, dadurch sind mehr Übereinstimmungen vorhanden und die
richtige Zuordnung ist wahrscheinlicher. Jedoch auch der Vergleich mit
'Luftansammlung' bringt noch 4 Übereinstimmungen. Die Anzahl der
Übereinstimmungen muss also sehr genau mit der Wortlänge in Beziehung gesetzt
werden, um Fehlzuordnungen auszuschließen. Ein Vergleich von deutlich ungleich
langen Wörtern ist auch beim Trigramm-Verfahren uneffektiv.
Während der Projektlaufzeit wurde von Re-recognition eine neue Kadmos-Version
mit optionaler Rechtschreibprüfung angekündigt. Die Tests werden ergeben, welche
zusätzlichen Korrekturvorschlagsverfahren noch sinnvoll sind.
Nutzerfreundliche Bedienoberfläche
Die zu Beginn des Projektes gehegte Vorstellung, die Nutzeroberfläche der im EUProjekt MEMORIAL geschaffenen DDW so umzugestalten, dass alle in DOVER
geschaffenen Tools integriert und – teilweise alternativ zu Programmen der DDW genutzt werden können, musste verworfen werden, da die in Frage kommenden
Tools der DDW von ausländischen Partnern (Universität Liverpool, Technische
Universität Gdansk) erstellt wurden, die uns übergebenen Schnittstellenbeschreibungen veraltet bzw. unzureichend waren und die eigentlichen Bearbeiter nicht mehr
an der Universität weilen.
Das hat zur Folge, dass nunmehr zweigleisig gefahren werden muss. Zum einen
werden die neu geschaffenen Tools so umfangreich wie möglich auch für die DDW
nutzbar gemacht (z.B. durch Verwendung der im Paket 2 stark verbesserten Images
als Eingabe in die DDW, wozu die Binärbilder wieder künstlich in Farbbilder
30
umgewandelt werden müssen), zum anderen wird ein System erstellt, das ohne die
Tools der DDW auskommen muss. Damit ist die Anforderung verbunden, dass
zumindest ein kleiner Editor geschaffen werden musste, um die zu erkennenden
Bereiche auf dem Schriftstück-Image zu kennzeichnen.
Zusammen mit dem verbesserten Image wird diese Information dann an die OCR
(mit einbindbaren Wörterbüchern) übergeben und das Ergebnis wird durch die
Anwendung der Tools aus Paket 3 nochmals einer Verbesserung unterzogen.
AP 5 Verschlagwortung
Erstellung des Schlagwortkatalogs
Aus den erkannten und korrigierten Texten wurde durch Textanalyse am Beispiel
eines Karteikasten-Bestandes des Herder-Instituts Marburg ein Schlagwortkatalog für
ein relationales DB-System aufgebaut und für die Suche nutzbar gemacht. So
genannte Stoppwörter (Artikel, Pronomen, Präpositionen usw.) wurden nicht
aufgenommen.
Für jedes Schlagwort (Tabelle T_SW) wurden die Inventarnummern der relevanten
Bilder als Identifikator in einer eigenen Relation (T_SWBild) gespeichert. Damit ist
dann der Zugriff auf alle für das Schlagwort relevanten Bilder möglich.
Die Bilder sind in diesem Testfall nicht in der Datenbank enthalten. Eine Verknüpfung
zu den Bildern wird über den Dateinamen hergestellt.
Durch die (direkte) Schlagwortsuche ist ein sehr schnelles Auffinden der
gewünschten Bilder möglich. Durch eine anschließende Volltextsuche (langsamer)
kann die Resultatmenge noch eingeschränkt werden. Ein Formular zeigt sowohl das
Bild als auch den erkannten Text an, der in einer DB-Tabelle (T_Karten) abgelegt
wurde.
31
AP 6 Umfangreicher Test der Ergebnisse
Die folgende Tabelle zeigt die Verbesserung der Texterkennungsergebnisse an 4
Referenzbildern, deren Scanqualität als schlecht eingestuft wurde und die bei den
Tests als Referenzbilder dienten. Dabei ist bei dem Bildnamen die Anzahl der auf
dem Bild vorhandenen Textzeichen angegeben. In den Spalten danach sind die
Werte zu korrigierender/ (angeblich) erkannter Textzeichen angegeben. Die ersten
beiden Spalten zeigen das Erkennungsergebnis mit der DDW, die folgenden mit dem
vorgeschalteten Bildverbesserungsschritt. Durch Anpassung des Algorithmus an die
konkreten Bildeigenschaften konnte das Ergebnis weiter verbessert werden.
Bild
F0001_ref.tif
(119)
F0002_ref.tif
(140)
F0003_ref.tif
(187)
F0009_ref.tif
(157)
Mittelwert
ohne
ohne
amspr1 amspr1 amspr2 amspr2 amspr3 amspr3
47/127
0,39 28/125
0,24 21/117
0,18 18/119
0,15
33/154
0,24 23/149
0,16 20/142
0,14 16/147
0,11
26/194
0,14 25/194
0,13 20/183
0,11 20/188
0,11
49/151
0,31 50/141
0,32 34/149
0,22 34/149
0,22
0,27
0,21
0,16
0,15
32
Keine Verbesserung konnte erzielt werden, wenn die Qualität der Scans schon gut
war (einfarbiger Hintergrund ohne Störungen), was aber bei älteren Archivalien
selten ist.
Im Zuge eines umfangreicheren Tests (6 000 Karteikarten des Herder-Instituts
Marburg) wurde die Leistungsfähigkeit des neuen Systems gegenüber den von der
DDW gelieferten Ergebnissen erprobt. Für diese Karten konnte eine Erkennungsrate
von über 90% für ca 80% der Scans ermittelt werden. Darunter war ein Karteikasten,
bei dem Erkennungsrate zwar besser als bei der DDW war, das Ergebnis jedoch
nicht befriedigen konnte. Eine Analyse der images ergab, dass hierbei eine andere
Scannereinstellung nötig gewesen wäre. Das deshalb noch entwickelte
„Analyseprogramm“ kann daher, zukünftig vor dem Massenscannen eingesetzt, zu
einer besseren Scannereinstellung und damit zur weiteren Verbesserung beitragen.
Eine Aufstellung der Scanqualität der Bilder am Beispiel dieses Karteikastens von
Dokumenten (1268 Karteikarten) des Herderinstituts Marburg zeigte die
Abweichungen von den Werten, die für eine optimale Bildverbesserung (AP2)
notwendig wären:
\Helligkeit
Kontrast\
deutlich zu
gering (-2)
zu gering (-1) gut (0)
zu hoch (1)
deutlich zu
hoch (2)
deutlich zu
gering (-20)
gut (0)
0
0
0
0
0
0
54
0
313
12
zu gering (-10)
zu hoch (10)
0
0
0
0
0
0
205
106
449
129
3. Zusammenfassung und Bewertung des Vorhabens
Nach Ablauf des Projektes stehen der GFaI nunmehr ein zwei Programmsysteme zur
Verfügung, die zum Erfassen von Schreibmaschinenseiten geeignet sind. Zum einen
das ursprünglich vorhandene (die im Rahmen des EU-Projektes MEMORIAL
entwickelte Digital Document Workbench), zum anderen das im Rahmen dieses
Projektes neu geschaffene System mit eigener Benutzeroberfläche.
Durch die neu geschaffenen Module, insbesondere der Image-Vorbehandlung,
wurde gegenüber den Erkennungsraten der kommerziellen OCR (ca. 50%) und der
DDW (etwa 70%) mit ca 90% ein wesentlicher Fortschritt erreicht (Werte gemessen
an hand des erwähnten Bestandes des Herder-Instituts).
Damit sind die bei der Antragstellung formulierten Ziele im Wesentlichen
erreicht. Die sehr optimistische Hoffnung, eventuell auf die Einbindung eines
kommerziellen OCR-Systems durch hohe Leistungen der Matching-Verfahren
verzichten zu können, ließ sich allerdings nicht realisieren. Dazu war allein schon die
Realisierungszeit nicht ausreichend, so dass die Arbeiten nur auf die Korrektur der
durch die OCR erkannten Texte konzentriert wurden.
33