Verstehen und Verarbeiten von Bildern - Goethe

Transcription

Verstehen und Verarbeiten von Bildern - Goethe
Verstehen und Verarbeiten von Bildern
J. Baumeister∗
2. Mai 2000
Zusammenfassung: Mit der Zunahme der Rechnerleistung moderner Computer gewinnt die digitale Verarbeitung von Bildern eine überragende Bedeutung; sie ist Kerntechnologie“ unserer Informa”
tionsgesellschaft. Auch komplexe Bildverarbeitungsverfahren können inzwischen an einem normalen PC
realisiert werden. Zielrichtung der (digitalen) Bildverarbeitung ist es, Bilder zu speichern und zu transportieren, aus Bildern wieder Bilder zu erstellen und Bilder automatisch zu erkennen. Wir skizzieren die
wesentlichen Bausteine einer Theorie:1 Bildverstehen, Bildcodierung, Bildkompression, Bildrekonstruktion, Bildverbeserung, Mustererkennung. Zwei Anwendungsbeispiele sollen aufzeigen, in welchen mathematischen Forschungsfeldern mit Berührungspunkten zur Bildverarbeitung aktuell gearbeitet wird. Die
zum Verständnis dafür nötigen Werkzeuge aus der Mathematik bzw. Informatik sind sehr elementar, die
obigen Themen können daher ohne große Schwierigkeiten an der Schule behandelt werden; abschließend
gehen wir konkret und abstrakt darauf ein.2
Abbildung 1: Der fraktale Farn
∗
Fachbereich Mathematik Johann Wolfgang Goethe – Universität, Robert Mayer Strasse 6 – 10, D 60054
Frankfurt/Main, e-mail: [email protected]–frankfurt.de
1
Der Titel des Sammelbandes Radig, B. (Hrsg.), Verarbeiten und Verstehen von Bildern, Oldenbourg-Verlag,
”
München, 1993“ stand Pate für den Titel des Manuskriptes. Es ist entstanden anlässlich eines Vortrags im
Lehrerkolloquium des Fachbereichs am 3. Mai 2000.
2
Die nun folgende Figur ist ein Farn, codiert mit IFS und gerechnet mit Maple V; siehe Abschnitt 4.1.
1
INHALTSVERZEICHNIS
Inhaltsverzeichnis
1 Einführung
1.1 Bilder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Was ist Sehen? Was ist Bildverstehen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Bilder als Datensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
4
4
2 Bilderfassung
2.1 Bilddigitalisierung . . . . . .
2.2 Darstellung von Bildern . . .
2.3 Bildaufnahmegeräte . . . . .
2.4 Eine Übersicht über Formate
2.5 Bildvorverarbeitung . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
7
7
8
3 Datenkompression und Datenreduktion
3.1 Die Bitreduzierung . . . . . . . . . . . . . . .
3.2 Berücksichtigung von Zeichenwiederholungen
3.3 Reduktion durch Differenzbildung . . . . . .
3.4 Die Huffmann–Kompression . . . . . . . . . .
3.5 GIF, JPEG und MPEG . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
10
10
10
12
4 Fraktale Kompression
4.1 Das Vorwärtsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Das inverse Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
15
5 (Diskrete) Bildtransformationen
5.1 Fouriertransformation . . . . . .
5.2 Diskrete Fouriertransformation .
5.3 Diskrete Cosinus–Transformation
5.4 Wavelet–Transformation . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
17
18
20
21
6 Bildverbesserung und Klassifikation
6.1 Bildpunktverbesserungen . . . . . .
6.2 Segmentierung . . . . . . . . . . . .
6.3 Kanten . . . . . . . . . . . . . . . . .
6.4 Klassifizierung und Interpretation . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
25
26
27
7 Anwendungen: Bildgebende Verfahren
7.1 Computertomographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Impedanztomographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
27
30
8 Was kann davon in den Schulunterricht eingehen?
8.1 Alphabete und Codes . . . . . . . . . . . . . . . . .
8.2 Graphen . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Algorithmen . . . . . . . . . . . . . . . . . . . . . . .
8.4 Koordinaten . . . . . . . . . . . . . . . . . . . . . . .
8.5 Gleichungssysteme . . . . . . . . . . . . . . . . . . .
8.6 Thesen . . . . . . . . . . . . . . . . . . . . . . . . . .
31
31
32
33
34
35
37
.
.
.
.
9 Literatur
Stand: 2. Mai 2000
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
2
c J. Baumeister
1
1
1.1
EINFÜHRUNG
Einführung
Bilder
Was assoziieren wir mit Bild, Bildern?
Höhlenmalerei Die Bilder in der Höhle von Lascaux, die 1940 entdeckt wurden, gehören zu
den bedeutendsten ihrer Art. Sie wurden geschaffen zwischen 17 000 und 15 000 v.Chr. An
den Wänden tummelt sich eine Schar von Tieren mit unverhältnismäßigen Proportionen,
ihre Anordnung und ihre Umrahmung durch geometrische Zeichen sprechen dafür, dass es
sich bei den Höhlen um eine Kultstätte handelte.
Platons Höhlengleichnis Das Höhlengleichnis ist gedacht als Anleitung für die Ausbildung
von Funktionsträgern des Staates. Eine seiner Kernthesen ist die Aussage, dass wir nur
schattenhaft die Wirklichkeit wahrnehmen. Die Bilder an der Wand der Höhle, in die die
Welt der Menschheit verlegt wird, lassen nur einen kleinen Ausschnitt der Wirklichkeit
erkennen.
Religiöse Bilder Wir verknüpfen damit Zeugnisse der religiösen Malerei, etwa der karolingischen Buchmalerei, z.B. das Godescalc–Evangelistar, geschaffen von einem Anonymus im
Auftrag von Karl dem Großen (781–783); siehe [go].
Bilder als Stationen der Kunstgeschichte Graphiken von Albrecht Dürer, die ersten“ na”
turwissenschaftlichen Zeichnungen von Leonardo da Vinci, die voluminösen Bilder von Rubens, die farblich so beeindruckenden (religiösen) Kompositionen von Marc Chagall, die
irritierenden und provozierenden Kunstprodukte von Beuys.
Bilder der Imagination Imagination bedeutet bildhafte Einbildungskraft, bildhaftes Denken:
Hier sind Bilder gemeint, die wir uns von etwas machen. Das englische Wort image“ für
”
Bild ist ein Wort, das in der Bildverarbeitung seinen Platz hat. In der Marktforschung hat
das Wort Image“ als ein Begriff Einzug genommen, der ein Vorstellungsbild bezeichnet,
”
das Erwartungen umfasst. Damit grenzt es sich ganz deutlich von dem englischen Wort
picture“ ab, das für ein Bild“ in einer sehr distanzierten Weise steht.
”
”
Fotographie Bilder, die wir von Szenen als Stützen für unsere Erinnerungen festhalten, sammeln wir in Alben. Sie sind, soweit sie noch der analogen Generation angehören, unveränderliche Abbilder einer Situation oder einer gestellten Wirklichkeit.
Röntgenbilder Röntgenbilder sind die erste Klasse von (nicht ganz ungefährlichen) Diagnoseinstrumente der bildgebenden medizinischen Geräte. Damit sind verbunden Angst und
Hoffnung, wenn sie nicht anonyme Bilder sind, sondern mit unserer Existenz zu tun haben.
Ihre ungefährlichere Variante Ultraschalltechnik“, Computertomographie“ und NMR–
”
”
”
Spektroskopie“ (nuclear magnetic resonance spectroscopy) sind schon Kombinationen von
analoger und digitaler Technik.
Satellitenbilder Die globale Erderkundung wird durch Satelliten möglich: Abtastergebnisse
der Erdoberfläche durch Radarsignale lassen sich zu einer Landkarte“ der Erde von un”
gewöhnlicher Genauigkeit aufbauen. Der Erkundung von Planeten und des Kosmos liegt
ein vergleichbares Vorgehen zugrunde.
Sonogramme Sonogramme sind Aufzeichnungen von Frequenzen, die beim Sprechen aufgezeichnet werden. Aus den rein physikalischen Aufzeichnungen lässt sich aber durchaus ein
Bild“ von dem das Sonogramm Liefernden ableiten.
”
Stand: 2. Mai 2000
3
c J. Baumeister
1.2
1.2
Was ist Sehen? Was ist Bildverstehen?
Was ist Sehen? Was ist Bildverstehen?
Sehen ist eine Leistung, die durch das Zusammenwirken optischer, biochemischer, nervlicher und
psychologischer Prozesse zustande kommt. Als Ergebnis sehen wir ein Bild, ein Abbild einer
Wirklichkeit in unserem Gesichtsfeld. Das Verstehen eines Bildes durch das visuelle System ist
ein (zumindest) dreistufiger Prozess:
Sehen
Erkennen
Entscheiden
Durch unsere Beobachtung einer Bildszene stellen wir einen Zusammenhang mit schon (in unserem Bewusstsein) vorhandenen Modellen der Welt her. Beim Erkennen begreifen und erfahren
wir ursächliche und intuitive Zusammenhänge. Mit der Entscheidung treffen wir die Auswahl
der Modelle, die wir als in Übereinstimmung mit unserer Bobachtung erachten.
Wenn wir beispielsweise die Straße lang fahren und am rechten Straßenrand ein Kind, am
linken Straßenrand einen Ball wahrnehmen, sind wir geneigt, sofort einen Zusammenhang herzustellen, insbesondere dann, wenn wir noch Bewegung beim Kind feststellen. Wir wählen aus
unserem Erkenntnisvorrat das Modell aus, das beide Beobachtungen zusammenfügt zum Bild:
Kind will über die Straße laufen, um den Ball zu holen“. Ein Computer, der mit dieser Szene
”
gefüttert“ wird, wird schwerlich die beiden Merkmale der Szene, Kind und Ball, zusammen
”
fügen, selbst wenn er mit Software der Künstlichen Intelligenz“ ausgestattet ist.
”
Was entspricht dem visuellen System in der digitalen Bildverarbeitung? Wie können wir
ähnlich dem visuellen System aus digitalen Bildern die physikalische Welt (um uns herum wieder)
herstellen? Dies ist zum Beispiel in der Robotik eine unerlässliche Aufgabe.
• Wie ist es möglich Konturen zu definieren aus der Kenntnis von Variationen der Lichintensität?
• Wie ist es möglich, Tiefe zu erfassen?
• Wie ist es möglich, Bewegung zu erkennen?
Wir nennen die wesentlichen Stufen maschinellen Sehens.
Bilderfassung, Bildvorverarbeitung (Sehen)
Merkmalsextraktion, Segmentierung (Erkennen)
Klassifikation (Entscheiden)
Sehen unterscheidet sich in den Disziplinen der Wissenschaften:
Mathematik
Physik
Physiologie
Nachrichtentechnik
Biologie
Informatik
1.3
Frequenzen, Übertragungsfunktion;
Radiometrie (Wärmestrahlung), Optik;
Fotometrie (Lichtstärke, Leuchtdichte), Farben;
Sensoren, Abtastung;
Perzeptoren, Neuronen;
Strukturen, Programme.
Bilder als Datensatz
Wenn wir die Liste aus 1.1 analysieren, erkennen wir sehr unterschiedliche Medien/Mechanismen
ihrer Speicherung: Vorstellungskraft bzw. Bewusstsein, Gedächtnis, analoge Aufzeichnung, digitale Aufzeichnung. Wir wollen uns fast ausschließlich auf digitale Bilder beschränken, also solche,
deren Informationsgehalt umgewandelt ist in ein Wort oder in Wörter über einem Alphabet; der
Stand: 2. Mai 2000
4
c J. Baumeister
2
BILDERFASSUNG
Vorgang ist Teil der Bildigitalisierung; siehe unten. Eine herkömmliche Bildbeschreibung
wäre somit eine Beschreibung eines Bildes über dem Alphabet unserer Sprache. Wir haben aber
eher das binäre Alphabet A im Auge: A := {0, 1}. Die Wörter über diesem Alphabet sind also
Zeichenfolgen bestehend aus den Buchstaben 0, 1; ein Buchstabe hat den Informationsgehalt
eines Bits.
Beispiele:
• Morsealphabet A := {−, ·} .
Worte, die mit den Buchstaben dieses Alphabets geschrieben werden, sind unterschiedlich
lang; etwa S O S =
ˆ · · · − − − · · · ; siehe [sm].
• Binäralphabet“ A := {Loch, kein Loch} .
”
Worte dieses Lochstreifencodes sind Wörter der Länge 5, angeordnet in senkrechten Reihen
auf dem Lochstreifen. Es gibt also 25 = 32 Worte (und ein leeres Wort). Damit können
die 26 Buchstaben, Sonderzeichen und Ziffern, 0, . . . , 9 dargestellt werden, da es gelingt,
durch das Vorwegstellen eines Sonderzeichens mehr als 32 Zeichen zu verwirklichen.
• Binäralphabet A := {0, 1} .
Es gibt 28 = 256 Worte der Länge 8 (und ein leeres Wort). Darin findet man den ASCII–
Code der Buchstaben, Ziffern und Sonderzeichen. Etwa steht das Byte 00100001 für A .
Nun sind ja Bilder keine eindimensionalen“ Gebilde, sondern zweidimensional (Höhe, Brei”
te) und möglicherweise mehrdimensional“ in der Tiefe“ (Grauwerte, Helligkeit, Farben). Der
”
”
Zeichensatz, der ein solches Bild beschreiben kann, ist also im allgemeinen eine Liste von Vektoren, bestehend aus Wörtern über einem Alphabet. In dieser Hinsicht können wir dann für eine
grundsätzliche Betrachtung der Verarbeitung von solchen Datensätzen ganz darauf verzichten,
nur Bilder im Auge zu haben, sondern allgemein
• Audio—Musik und Sprache
• Video—Bilder, Television
• Daten—Zahlen, Texte, Graphiken
betrachten. Bildverarbeitung ist also Datenverarbeitung, wobei Datenverarbeitung“ nicht im
”
alten verstaubten Sinne verstanden werden darf.
Das größte Problem, das heutzutage bei der Verarbeitung von Bildern herrscht, ist das Komplexitätsproblem: Welcher Platzaufwand ist für die Speicherung nötig, welcher Zeitaufwand ist
für eine Übertragung erforderlich, wie schnell lassen sich Bilder in digitale Datensätze und sicher
daraus zurückverwandeln. Beispielsweise findet die Suchmaschine http://www.altavista.de
unter dem Stichwort art“ im gesamten Netz 129 327 Bilder (März 2000).
”
Damit sind nun die Grundbegriffe, mit denen wir uns beschäftigen wollen, angesprochen:
Bilderfassung, Bildverbeserung, Bildcodierung, Bildtransformation, Datenkompression, Datenreduktion.
2
2.1
Bilderfassung
Bilddigitalisierung
Die bildgebenden Geräte liefern entweder direkt einen Datensatz, bestehend aus Wörtern über
dem binären Alphabet, oder können durch die Zwischenschaltung eines Analog/Digital–Wandlers
Stand: 2. Mai 2000
5
c J. Baumeister
2.2
Darstellung von Bildern
(A/D–Wandlers) dazu gebracht werden. Fotos können etwa über eine eine digitale Fotokamera
oder über einen Scanner in den Computer eingebracht werden; siehe unten.
Digitalisierung/Rasterung
Das Bild wird gerastert. Dabei wird das Bild mit einem Gitter überzogen, das es in (im
allgemeinen) quadratische Bildzellen, so genannte Pixel (picture elements) einteilt; etwa
bedeutet eine Rasterung von 512 × 512, dass Breite“ und Höhe“ in 512 äquidistante
”
”
Abschnitte zerlegt werden und so 512 · 512 Pixel entstehen. Bei der digitalen Camera und
bei einem Scanner kann man im allgemeinen die Qualität der Rasterung wählen. Hat man
ein Musikbild“ zur Rasterung, so spricht man auch von Sampling. Die Abtastfrequenz
”
gibt an, wie oft etwa pro Sekunde eine Rasterung der Töne im Frequenzraum (siehe unten)
vorgenommen wird. Bei bildgebenden Verfahren (siehe 7) muß das digitalisierte Bild meist
erst noch errechnet werden.
Digitalisierung/Quantisierung
Einem Bildpixel wird bei Schwarz/Weiss–Aufnahmen ein Grauwert und bei Farbaufnahmen ein Farbwert, bestehend aus Anteilen R (rot), G (grün), B (blau) und eventuell
ein Helligkeitswert I (Luminanz) zugeordnet; siehe unten. Z.B. sind 28 = 256 (8 Bits)
Graustufen schon eine recht ausreichende Quantisierung; der Mensch kann höchstens 200
Graustufen unterscheiden.
Die Auflösung (resolution) eines Bildes wird beschrieben durch sie die Anzahl der Pixel und
die Feinheit der Quantisierung. Nimmt man 28 = 256 Farbstufen an bei einem Farbbild, dann
wird deutlich, mit welchem Speichervolumen und mit welchem Datendurchsatz bei der Bildverarbeitung zu rechnen ist, insbesondere dann, wenn Bildfolgen (Filme, Videos) etwa mit einem
Bildtakt von 25 Bildern pro Sekunde beherrscht werden sollen; Reduktion der Daten von 1 : 50
ist erreichbar (siehe unten).
2.2
Darstellung von Bildern
Grauwertbilder lassen sich gut mit Bildmatrizen beschreiben:
x = 0, . . ., m − 1
y = 0, . . . , n − 1
(x, y)
s(x, y) ∈ G
G
S = (s(x, y))x=0,...,m−1,y=0,...,n−1
Bildzeilen
Bildspalten
Ortskoordinaten des Bildpunktes
Grauwert in (x, y)
Grauwertmenge
Bildmatrix des Grauwertbildes
Üblicherweise verwendet man als Grauwertmenge G = {0, . . ., 255} . Ein binäres Bild, also
ein schwarz/weiss Bild, ist dadurch formal erfasst, indem man nur die Werte 0 und 255 zulässt.
Mehrkanalige Bilder können als dreidimensionale Matrizen“ beschrieben werden:
”
x = 0, . . ., m − 1
Bildzeilen
y = 0, . . . , n − 1
Bildspalten
k = 0, . . ., K − 1
Kanalzähler
(x, y, k)
Koordinaten des Bildpunktes
s(x, y, k) ∈ G
Bildwert in (x, y) auf dem Kanal k
G
Bildwertmenge
S = (s(x, y, k))x=0,...,m−1,y=0,...,n−1,k=0,...,K−1 Bildmatrix des Bildes
Stand: 2. Mai 2000
6
c J. Baumeister
2.3
Bildaufnahmegeräte
Der derzeitige Standard sind Darstellungen mit drei Kanälen (Rot, Grün, Blau) und Grauwertmenge G = {0, . . ., 255} . Mit einer geeigneten Displaystation können 16 777 216 = 224 Farben
dargestellt werden.
Überträgt man Bildfolgen, so hat man die (diskrete) Zeitkoordinate t = 0, . . ., T − 1 hinzuzufügen: Der Bildwert ist dann eine Funktion der Variablen (x, y) (Ortskoordinaten), k (Kanal),
t (Zeit); also
s : {0, . . ., m − 1} × {0, . . ., n − 1} × {0, . . ., K − 1} × {0, . . ., T − 1} −→ G .
Einfache Maßzahlen zur Charakterisierung etwa von Grauwertbildern sind der Mittelwert
der Bildwerte und die zugehörige quadratische Abweichung, definiert wie in der Statistik der
Stichproben.
2.3
Bildaufnahmegeräte
Eine sehr direkte Art, ein Bild zu erfassen, ist über eine digitale Camera. Sie hat einen
Halbleiterchip (CCD) und ein Speichermedium (memory card) für die Aufzeichnung des digitalen
Bildes. Der Chip ist in der Lage Licht in elektrische Signale umzuwandeln. Mit einem Kabel
kann das aufgezeichnete Bild von der Camera auf den Computer übertragen werden.
(Flachbett–)Scanner verwandeln eine Vorlage in einen digitalen Datensatz auf folgende Weise:
Weisses Licht wird auf das eingelegte Objekt gestrahlt und das reflekte Licht wird in Intensität
und Farbe aufgezeichnet, gewöhnlich Zeile für Zeile; das Ergebnis wird pixelweise im Computer
abgelegt. Moderne Scanner zeichnen Farbbilder in einem Durchlauf auf.
Die Auflösung kann man bei beiden Aufnahmegeräten wählen.
2.4
Eine Übersicht über Formate
Mit Format wird eine Methode für die Abspeicherung von Bildern (und Musik) umschrieben,
das Resultat ist dann ein Bild–File. Für Bilder und Graphiken sind folgende Basisformate
bekannt:
Bitmap–Files Bei Bitmap–Files (auch Raster–Files genannt) wird ein Bild als Matrix (Reihen,
Spalten) der Pixel, jedes versehen mit Grau– oder Farbwerten, abgespeichert. Wohlbekannte Formate sind GIF (Graphics Interchange Format von Compuserve, Filetyp .gif“),
”
TIFF (Tagged Image File Format), JPEG (Joint Photographic Expert Group, Filetyp
.jpg“, sprich jaypeg“), BMP (Windows BitMaP), PCX (PC Paintbrush).
”
”
Vektor–Files Das Bild ist aufgebaut aus geometrischen Objekten wie Linien, Polygonen, Bögen,
und die Daten dazu sind beschrieben durch einfache mathematische Operationen ( starte
”
in x und ziehe eine Linie bis y“). Solche Files sind typisch für CAD–Informationen. Ein
Format dieser Klasse ist DFX (Data eXchange Format).
Meta–Files Solche Files können sowohl Raster– als auch Vektor–Daten enthalten. Beispiele sind CGM (Computer Graphics Meta–file), EPS (Encapsulated PostScript, Filetyp
.eps“), PDF (Portable Document File, Filetyp .pdf“), PICT (MacIntosh PICTure file).
”
”
Einige der obigen Files sind strikt an Systeme gebunden, andere in keinster Weise. Z.B. ist
das Format WMF (Microsoft Windows Metafile) an Windows gebunden, PICT an MacIntosh,
EPS–Files sind ein perfektes Beispiel für systemunabhängige graphische Files.
Stand: 2. Mai 2000
7
c J. Baumeister
2.5
Bildvorverarbeitung
Die unterschiedlichen Formate sind entworfen für unterschiedliche Aufgaben: BMP, um Files in Windows sichtbar“ zu machen, Drucken ist eine ungeeignete Anwendung; EPS und
”
TIFF sind gut geeignet für hoch auflösende Drucker, GIF und JPEG sind gut geeignet für
Bildübertragungen in einer kompakten Weise. Im Internet werden hauptsächlich die Formate
GIF und JPEG benutzt; ein Format der Zukunft ist PNG (Portable Network Graphics, sprich
ping“).
”
2.5
Bildvorverarbeitung
Bildvorverarbeitung vermittelt“ zwischen der Hardware des Bildaufnahmesystems und der ei”
gentlichen Bildverarbeitung. Man kann unterscheiden: Bildrestauration, Bildverbesserung.
Bildrestauration versucht, die Veränderungen, die durch Aufnahme- und Transportsysteme
der Bilddaten hervorgerufen werden, rückgängig zu machen. Hierzu gehören die Aufgaben Ent”
fernung von Rauschen“, Beseitigung von perspektivischen Verzerrungen, Wehnahme der Verwaschung aufgrund von Bewegungen des Objekts, Wiederherstellen von ausgefallenen Pixeln.
Bildverbesserung hat zum Ziel, die Informationen in den Daten zu betonen, die für die gezielte Wortverarbeitung erforderlich sind, und irrelevante oder gar störende zu entfernen. Die
Aufgaben der Bildrestauration und Bildverbesserung lassen sich nicht strikt trennen.
Eine Bemerkung zum Begriff Rauschen“, weisses Rauschen“. Mit Rauschen“ wurde ur”
”
”
sprünglich der durch Schwankungen der Luftdrucks hervorgerufene Schalleindruck bezeichnet.
Heute ist es seine Bezeichnung für zufällige/stochastische Störungen von Signalen der informationsverarbeitenden elektronischen Anlagen. Die Bezeichnung weiss“ ist in Anlehnung an
”
das weisse Licht gewählt. Ebenso wie weisses Licht ein breites Gemisch von unterschiedlichen
Wellenlängen/Frequenzen ist – zumindest rotes, grünes und baues Licht ist enthalten – enthält
weisses Rauschen ein breites Frequenzspektrum; siehe unten.
Mit
g(x, y) = (Hs)(x, y) + ω(x, y)
ist eine mathematische Formulierung gefunden, die für die Betrachtung von Graubildern meist
ausreicht, wenn wir aufschreiben wollen, welchen Veränderungen Bildaufnahmen unterworfen
sind. Dabei ist s die aufgenommene Bildfunktion, die durch den Operator“ H transformiert
”
(verzerrt, . . . ) wird, mit ω(x, y) wird dann die transformierte Bildfunktion überlagert“, die
”
resultierende Bildfunktion, die im Computer ankommt, ist dann g. Bildrestauration bedeutet
dann, mit Hilfe von g und dem Wissen über den Transformationsprozess H (qualitativ, quantitativ) die Bildfunktion s zu rekonstruieren. Dabei hat man über ω meist nur sehr eingeschränkte
stochastische Information zur Verfügung. In der analogen und digitalen Informationstechnologie ist die Grösse signal–to–noise–ratio (SNR) ein Maß für die Stärke eines Signals relativ
zum Hintergrundrauschen. SNR wird gewöhnlich in Dezibel (dB) gemessen. Ist das eingehende
Singal (Vs) und das Rauschsignal (Vn) in Mikrovolt gemessen, dann ist
SNR = 20 log10 (
Vs
).
Vn
Es ist klar, ein großer positiver Wert von SNR bei der Signalübertragung ist wünschenswert.
Die Korrektur geometrischer Verzerrungen kann mitunter schon mit ganz einfachen Abbildungen erfolgen, zum Beispiel schon mit affinen Abbildungen:
x0 = a0 + a1 x + a2 y , y 0 = b0 + b1 x + b2y.
Sie enthalten schon
Stand: 2. Mai 2000
8
c J. Baumeister
3
Drehungen:
Skalierung:
Skewing:
Translation:
x0
x0
x0
x0
DATENKOMPRESSION UND DATENREDUKTION
= x cos ϑ + sin ϑ , y 0 = −x sin ϑ + y cos ϑ
= ax , y 0 = by
= x + y tan ϑ , y 0 = y
= a + x , y0 = b + y
Bei Aufnahmen von Wettersatelliten ist die Aufgabe, geometrische Korrekturen vornehmen zu
müssen, ganz augenscheinlich (Drehbewegungen der Erde, perspektivische Verzerrung am Bildrand).
Sind neue oder fehlene Bildpunkte zu ermitteln, dann kann man die Methoden der Bildverbesserung durch Nachbarschaftsoperationen heranziehen.
Rauschunterdrückung erfolgt üblicherweise durch Filtertechnik. Ein Filter ist eine Vorrichtung, die unerwünschte Daten zurückhält, erwünschte/korrekte durchlässt. Sie sind mathematisch sauber und einsichtig darzustellen nur bei Verwendung des Spektrumbegriffs. Diesen
wollen wir später einführen. Jedoch reicht oft schon eine einfache Mittelung der Bildwerte über
benachbarte Pixel, um eine wesentliche Verbesserung zu erreichen.
3
Datenkompression und Datenreduktion
Ein Bild mit 24 Bits Farbtiefe und 256 × 256 Pixel benötigt 0.2 MByte Speicherplatz. Das FBI
hat in seiner Datenbank etwa 30 Millionen Fingerabdrücke gespeichert; Zuwachs pro Tag etwa 30
000 Abdrücke. Für einen einzigen Abdruck benötigt man ca. 0.6 MByte Speicherplatz. Damit
wird die Notwendigkeit, Daten zu komprimieren und zu reduzieren wohl eindringlich klar; man
rechne den Preis für das Speichermedium aus!
Unter Datenkompression (Datenverdichtung) verstehen wir die Transformation eines Datensatzes/einer Nachricht in einer vorkodierten Form in eine andere vorkodierte Form, die mit
weniger Zeichen des gewählten Darstellungsalphabets dieselbe Nachricht darzustellen vermag.
Wenn wir ein binäres Alphabet verwenden, bedeutet dies, eine Bitfolge in eine andere Bitfolge umzusetzen, so dass die Information wieder vollständig hergestellt werden kann, jedoch die
transformierte Folge von Bits eine (wesentlich) geringere Länge hat. Davon zu unterscheiden ist
die Datenreduktion. Hier wird ebenfalls – in binärer Betrachtungsweise – eine Bitfolge auf
eine kürzere Bitfolge transformiert, aber es ist anschließend nicht mehr möglich, die gesamte
Information wiederherzustellen; meist geht mehr oder minder redundante Information verloren.
Datenkompression und Datenreduktion kann in der Praxis nicht strikt getrennt werden.
3.1
Die Bitreduzierung
Der normale ASCII–Zeichensatz besteht aus 256 Zeichen. Alle Buchstaben, Sonderzeichen und
Umlaute sind in den ersten 128 Zeichen enthalten. Für viele Texte müssen also die Zeichen 129
– 256 nicht berücksichtigt werden. Für die ersten 128 Zeichen sind also nur 7 Bits nötig. Man
kann solche Textdateien daher auf 78 ihrer ursprünglichen Größe reduzieren:
vorher:
nachher:
A
00100001
0100001
B
00100010
0100010
Beispielsweise sind HTML–Dateien3 reine ASCII–Dateien, die nur ASCII–Zeichen bis zur Nummer 127 enthalten.
3
HTML (HyperText Markup Language) ist eine Sprache, die es gestattet, Texte mit Querverweisen (Links) zu
verfassen. Web–Seiten machen davon ausgiebig Gebrauch.
Stand: 2. Mai 2000
9
c J. Baumeister
3.2
3.2
Berücksichtigung von Zeichenwiederholungen
Berücksichtigung von Zeichenwiederholungen
Viele Daten weisen eine große Wiederholungsfrequenz einzelner Zeichen auf. Bei Binärbildern
ist dies besonders häufig der Fall. Dies macht man sich beim RLE–Algorithmus (Run length
Encoding–Algorithmus) zunutze, in dem sich (oft) wiederholende Zeichen durch deren Anzahl
ersetzt werden. Um anzuzeigen, dass eine Zeichenwiederholung folgt, wird ein Zeichen als Markierung verwendet. Darauf folgt das Zeichen, das wiederholt wird und dessen Anzahl. Taucht
das Markierungszeichen in der ursprünglichen Datei auf, wird es durch Zeichenwiederholung mit
einem Zeichen ersetzt. Im folgenden Beispiel wird x“ als Markierung verwendet:
”
vorher : AAAAbbx1AAxxx
nachher : xA4xb2xx1xA2xx3
Statistische Aussagen zu Zeichenwiederholungen nutzt man in einem etwas anderen Sinne beim
Brechen von Codes.
3.3
Reduktion durch Differenzbildung
Graphiken (und Texte) weisen oft nur geringe Differenzen zwischen zwei nebeneinanderliegenden Zeichen auf. Zur Speicherung dieser Differenzen werden meist weniger Bits benötigt, als zur
Speicherung des ganzen folgenden Zeichens. Die Differenzenmethode geht nun so: Es wird eine
bestimmte Anzahl n von Bits festgelegt, welche die Differenz höchstens haben darf. Die Codierung beginnt mit dem ersten Zeichen. Dann wird die Differenz zum nächsten Zeichen berechnet;
werden nicht mehr als n Bits für die Differenz benötigt, so wird die Differenz gespeichert, würden
mehr als n Bits benötigt, dann notiert man als Markierung die maximale Abweichung und dann
das nächste Zeichen. Hier ist ein Beispiel mit n=4 in nicht codierter Schreibweise:
Text:
Codierung:
3.4
DIFFERENZ
D+7I-3+0-1+7R+7E+7N+7Z
Die Huffmann–Kompression
Der ASCII-Code codiert jedes Zeichen mit 8 Bits.
Bei dem nun zu besprechenden Huffmann-Verfahren
(1952) dagegen werden häufig vorkommende Zeichen mit wenig Bits, selten vorkommende Zeichen
mit mehr Bits codiert. Zur Festlegung, welches Zeichen mit wieviel Bits codiert werden soll, müssen
also Informationen über die Zeichenhäufigkeit vorhanden sein, wofür drei Möglichkeiten in Erwägung
gezogen werden können:
s
e
w
i
Statisch: Die Zeichenhäufigkeit wird vorher festgelegten Tabellen entnommen.
Dynamisch: Die Daten werden einmal ganz gelesen, um die vorkommenden Häufigkeiten zu
bestimmen.
k
a
Abbildung 2: Symbolbaum
Adaptierend: Es wird mit festen Vorgaben begonnen, diese werden im Laufe der Codierung
den Gegebenheiten angepasst.
Stand: 2. Mai 2000
10
c J. Baumeister
3.4
Die Huffmann–Kompression
Nach solchen Häufigkeitstabellen ist etwa das Morse–Alphabet zusammengestellt. Da die Übertragung eines dash/–“ dreimal solange dauert wie ein dot/·“, war es naheliegend häufige
”
”
Buchstaben mit kurzen Ketten, in denen viele dots“ vorkommen, zu codieren. Beispielsweise
”
haben wir:
e= · , z = −−·· .
Betrachten wir etwa die Codierung von
weisse Kasse
in der dynamischen Variante. Die Häufigkeiten sind:
4 × s, 3 × e, 1 × w, 1 × i, 1 × k, 1 × a
Zur Codierung bauen wir einen Symbolbaum auf; das Leerzeichen übergehen wir. Dazu beginnen wir mit zwei seltensten“ Zeichen (hier nicht eindeutig !) und codieren zunächst k mit 0
”
und a mit 1. Nun fassen wir k und a zusammen und suchen das nächst seltene Zeichen, also i.
Wir codieren neu:
i : 0 , k : 01 , a : 11 .
Nun setzen wir entsprechend fort. Wir schreiben die Schritte in Tabelle 3 vollständig auf.
Wir haben nach der Codierung also das
Wort
s e
w
i
k
a
11010111000001011101111110010
1. Schritt
0
1
2. Schritt
0
10
11
erhalten, seine Länge ist 29 Bits. Bei
3. Schritt
0
10
110
111
der herkömmlichen ASCII–Codierung
4. Schritt
0
10
110
1110
1111
benötigen wir 88 Bits. Selbst wenn wir
5. Schritt 0 10 110 1110 11110 11111
berücksichtigen, dass es nur 6 verschiedene Zeichen sind und wir daher mit
Abbildung 3: weisse kasse“ codiert
”
Worten der Länge drei Bits auskommen,
benötigen wir 32 Bits.
Die Konstruktion der obigen Tabelle können wir auch in einem Binärbaum festhalten (siehe
Abbildung 2): Ein Schritt nach links bedeutet 0, eine Schritt nach rechts bedeutet 1. Wird
ein Datensatz nun so codiert, so ist für den Decodierer der Symbolbaum an den Datensatz
anzuhängen. Zur Decodierung lesen wir den codierten Text Bit für Bit und wandern dabei
jeweils durch den Binärbaum: wenn wir ein Zeichen, das ein Blatt im Binärbaum ist, gefunden
haben, ist dieses decodiert.
Die nun beschriebene Idee der Huffmann–Kompression ist noch nicht die endgültige praktikable Form, denn der Symbolbaum kann noch effizienter organisiert werden; wir verzichten auf
die Erläuterung.
Eine adaptive Variante ist, beim Start einen Baum zu verwenden, in dem alle Zeichen die
gleiche Wahrscheinlichkeit des Auftretens haben. Während der Kompression wird der Baum ja
nach Häufigkeit der komprimierten Zeichen modifiziert. Da bei der Datenkompression auf beiden
Seiten (Codierer, Decodierer) die gleichen Modifikationen stattfinden, entsteht auf beiden Seiten
der gleiche Baum. Allerdings ist dieses Vorgehen ineffizient, wenn das Alphabet sehr groß ist.
Dann ist bei jeder Modifkation der komplette Baum neu zu konstruieren. Aber auch dafür gibt
es eine praktikable Lösung.
Stand: 2. Mai 2000
11
c J. Baumeister
3.5
3.5
GIF, JPEG und MPEG
GIF, JPEG und MPEG
GIF (Graphics Interchange Format) ist ein Graphikstandard, dessen Vorteil es ist, dass er
praktisch von allen Web–Browsern unterstützt wird. Er erlaubt transparenten Hintergrund, was
wichtig ist, da der Hintergrund bei Web–Browsern auch Farbe hat, schwach aufgelösten Preview
(interlacing), und kann wie ein Link behandelt werden. Der Nachteil von GIF–Darstellungen
ist, dass nur wenige Farben verwendet werden können (maximal 256) und dass sie in der Regel
nicht für Fotographien geeignet sind. Im allgemeinen ist GIF für Bilder mit scharfen Kanten
und starken Farbänderungen geeignet. Die Kompressionsrate bei GIF ist etwa 1 : 5 (wesentlich
auf Kosten der Farben).
JPEG (Joint Photographers Experts Group) ist ein Graphikstandard, der vorteilhaft für
die Wiedergabe von Farben (praktisch keine Einschränkung der Farbpalette, jedenfalls 24 Bits
Farbtiefe) und Details in Fotographien. Ein weiterer Vorteil ist, dass ein breites Spektrum
von Kompressionsoptionen gegeben ist (siehe unten). Der Nachteil ist, dass JPEG–Bilder nur
schlecht auf Monitoren mit wenig Farben wiederzugeben sind.
Ein Standardbild bei CCIR (International Radio Consultative Committee) sieht 720 × 576
Pixel mit 16 Farbinformationen pro Pixel vor, also 828 KByte. Über eine 64 Kbit/Sec–Leitung
können in 10 Sekunden 640 Kbit übertragen werden. Will man also ein solches Bild in 10
Sekunden über diese Leitung übertragen, ist eine Datenkompression von 1 : 10 zu erreichen.
Eine Idee, die einer Datenkompression im JPEG–Standard zu Grunde liegt, ist die, statt Farbinformation pro Pixel nicht R (rot), G (grün), B (blau) anzusehen, sondern als Information
die Werte Y, U, V (3 Bytes) zu übertragen: Y steht für Luminance (Helligkeit), U steht für
einen Farbwert und V für einen Sättigungsgrad. Die mathematische Umrechnung geschieht
durch eine einfache Formel. Der Vorteil besteht nun darin, dass nur in zwei Bytes (U, V ) Farbinformation steckt, die besser komprimiert werden darf, da das menschliche Auge empfindlicher
auf Qualitätsverluste in der Helligkeit reagiert als auf solche bei den Farben. Die Farbkompression geschieht nun durch Zusammenfassung von benachbarten Pixeln, also einer Vergrößerung
der Rasterung bezüglich der Farben, eine Reduktion auf 23 bis 14 der Daten ist erreichbar. Der
nächste Kompressionsschritt besteht darin, nun 8 × 8 Pixel–Blöcke zu betrachten; diese Einteilung ist mitunter in rekonstruierten Bildern als sogenannte Blockartefakte zu erkennen. In
diesen Blöcken werden nun mit der diskreten Cosinus–Transformation (DCT, siehe Abschnitt 5.3) und einer Quantisierung die Änderungen in Helligkeit und Farben identifiziert und
gerundet. Anschließend können die Daten verlustfrei nach einer gängigen Methode (siehe Abschnitte 3.1, 3.2, 3.4) komprimiert werden. Faktoren, die die Qualität von JPEG–Bildern bei
der Wiedergabe beeinflussen, sind:
• Datenreduktionsfaktoren während der Mittelung von Farbwerten über benachbarte Pixel
(Subsampling–Phase).
• Quantisierung auf den 8 × 8 Blöcken.
• Einschränkung bei der Rückrechnung zur Wiedergabe (Inversion der diskreten Cosinus–
Transformation) zugunsten von Schnelligkeit.
• Farbpalette des Wiedergabegeräts.
Die Kompressionsalgorithmen im JPEG–Standard sind:
lossless compression mode Kompressionsrate 1 : 2 (Röntgenbilder sind so zu übertragen)
lossy compression mode Kompressionsraten 1 : 10 bis 1 : 20 .
Stand: 2. Mai 2000
12
c J. Baumeister
4
FRAKTALE KOMPRESSION
progressive mode Das Bild wird in mehreren Schichten übertragen. Mit jeder weiteren Schicht
verbessert sich die Qualität des empfangenen Bildes. (Dies ist aber keine interlacing–
”
Technik“.)
hierarchical mode Das Bild wird in verschiedenen Auflösungen gespeichert. Das kleinste Bild
(im Sinne der Pixelanzahl) wird im lossy mode“ komprimiert – man kann es verwenden für
”
Inhalts–/Katalogverzeichnisse – , von den größeren Bildern werden nur die Unterschiede
zum nächstkleineren komprimiert.
Bei einer Kompressionsrate von 1 : 10 bis 1 : 20 werden also die durchschnittlichen Bits pro
Pixel im JPEG–Standard von 24 auf 1 bis 2 reduziert. 1 : 30 ist eine typische Kompressionsrate
mit guten Ergebnissen.
Im MPEG–Standard ist ein Standard für digitales Video und digitales Audio festgelegt. Die
der Audiokompression beruht darauf, dass die Teile des Tons, die das menschliche Ohr nicht
hören kann, weggelassen werden. Die Grundlage für die Video–Kompression ist der JPEG–
Standard für unbewegte Bilder. Aus der Realisierung MPEG–1 Audio Layer 3 hat sich das
MP3–Format entwickelt, das von der Frauenhofer Gesellschaft patentiert wurde. Es erreicht
die Kompressionsrate 1 : 10 .
4
Fraktale Kompression
Die Methode, die wir nun besprechen wollen, geht weit darüber hinaus, eine Kompressionsmethode zu sein; sie ist auch eine Methode, Bilder von verblüffender Formenvielfalt zu erzeugen,
die sogenannten Fraktale; Mandelbrot– und Juliamengen gehören dazu. Der Sturm“, der die
”
letzten 20 Jahre Chaos–Mathematik durch die Literatur gefegt hat, hat diese Bilder mitgebracht. Sie unterscheiden sich als Figuren wesentlich von den klassischen geometrischen Figuren:
Flächen– und Längenberechnungen in solchen Bildern sind schwierig, die übliche Darstellung
durch einfache Funktionen ist nicht möglich. Das Wort fraktal“ bedeutet ja gerade zerbrech”
”
lich“, der Bruchrand eines Körpers ist mitunter nicht unähnlich dem Rand von Fraktalen.
4.1
Das Vorwärtsproblem
Betrachten wir zunächst eine hinführende Analogie. Sie bezieht sich nur auch schwarz/weiss
Bilder; o.E. sei das Bild in K := [0, 1] × [0, 1] enthalten. Eine Kopiermaschine“ mit drei
”
Linsensystemen habe zwei Fähigkeiten:
• Herstellen einer verkleinerten Kopie
• Anordnung der verkleinerten Kopie im Bildausschnitt
Bei jedem Kopiervorgang entstehen dann im Bildausschnitt drei verkleinerte Kopien des ursprünglichen
Bildes. Nun stecken wir dieses erzeugte Bild wieder in die Kopiermaschine und so weiter. Als Beispiel
betrachten wir eine Kopiermaschine,
die so konstruiert ist, dass sie auf
25% verkleinert und so anordnet:
Stand: 2. Mai 2000
Abbildung 4: Die Kopiermaschine für Quadrate“
”
13
c J. Baumeister
4.1
Das Vorwärtsproblem
links unten, links oben, rechts unten
Solche Anordnungen kann man in der (euklidischen) Ebene durch affine Abbildungen beschreiben. Da Kontraktion wesentlich ist, schreiben wir eine solche Abbildung so auf:
T : R2 3 x 7−→ sAx + b ∈ R2
Dabei ist s der Kontraktionsparameter, b ∈ R2 ein Verschiebungsvektor und A eine Matrix
in R2,2. Es ist naheliegend, A als eine Drehung zu wählen:
cos ϕ sin ϕ
A=
(ϕ Drehwinkel)
− sin ϕ cos ϕ
Allerdings wollen wir etwas flexibler sein und dies nicht allgemein verlangen. Jedenfalls wird
eine Abbildung T der obigen Form durch sechs Parameter beschrieben: 4 Einträge in der Matrix,
2 Einträge im Verschiebungsvektor.
Die obige Kopiermaschine wird durch drei affine Abbildungen realisiert:
0
1
1 0
, b1 =
T1 : A1 =
,s=
0 1
0
2
1
1
1 0
, b2 = 2 , s =
T2 : A2 =
0 1
2
0
1
0
1 0
T3 : A3 =
, b3 = 1 , s =
0 1
2
2
In den Abbildungen 4, 5 sehen wir vier bzw.
drei iterierte Figuren. Die Überraschung
ist die – sie ist aus den Abbildungen schon
zu erahnen – , dass das Ergebnis des
unendlich oft“ wiederholten Kopiervor”
ganges unabhängig von der Ausgangsfigur
ist, nämlich das so genannte SierpinskiDreieck; siehe [wu]. Wie ist dies zu versteAbbildung 5: Die Kopiermaschine für Kreise“
”
hen? Mit den drei Abbildungen T1 , T2 , T3
ist die so genannte Bildabbildung W für
Figuren in Kgemäß
W (A) := T1(A) ∪ T2(A) ∪ T3(A) , A ⊂ K,
verbunden. Der Banachsche Fixpunktsatz, angewendet auf geeignete Figuren in K, liefert
die Aussage, dass die Folge der Bilder W (A), W (W (A)), W (W (W (A))), . . . gegen einen so genannten Attraktor A† konvergiert. Wesentlich ist natürlich die Eigenschaft der Kontraktion
von T1, T2, T3, die sich dann in einer Kontraktionseigenschaft der Bildabbildung W wiederspiegelt (, wenn wir einen Abstandsbegriff für Figuren einführen).
Allgemein spricht man bei einer Familie T1 , . . ., TN von affinen Kontraktionen von einem iterierten Funktionensystem (IFS) und bei der entsprechend definierten Abbildung W := WT1 ,...,TN
von der zugehörigen Bildabbildung.
Das erzeugte Sierpinski–Dreieck sieht sicherlich ziemlich komplex aus. Die wesentliche Eigenschaft, die zu entdecken ist, ist die, dass in einem Aussschnitt des Attraktors wieder das ganze
Bild auf kleiner Skala zu sehen ist, eine Eigenschaft, die man Selbstähnlichkeit nennt. Diese
Selbstähnlichkeit beobachtet man (mit gewissen Abstrichen) auch anderswo: Selbstähnlichkeit
Stand: 2. Mai 2000
14
c J. Baumeister
4.2
Das inverse Problem
von Haufenwolken, Blättern, Küstenlinien, Fraktalen (in der Dynamik). Das bekannteste Beispiel ist wohl der Farn (siehe [wu]). Diesen Farn kann man mit einem IFS erzeugen, nämlich mit
4 affinen Kontraktionen; siehe unten. Zur Verschickung dieses Bildes benötigt man also 24 Parameter. Übergibt man einen Parameter mit 32 Bits, so benötigt man 768 Bits. Speichert man
das Bild mit 256 × 256 schwarz/weiss Werten, benötigt man 65 536 Bits; die fraktale Codierung
des Bildes ergibt also eine Einsparungsrate von 1 : 85 .
Iterierte Funktionensysteme lassen noch eine interessante Erweiterung zu, nämlich die Steuerung der Auswahl der einzelnen Abbildungen. Die Überraschung ist die, dass man für jede
Abbildung eine Wahrscheinlichkeit vorgeben kann, mit der sie zur Bilderzeugung heranzuziehen
ist, und trotzdem wieder der Attraktor approximiert wird. Dazu nehmen wir eine Abänderung
der Erzeugung des Attraktors vor; in Algorithmenschreibweise:
Algorithmus 1
Erzeugung (fraktaler) schwarz/weiss Bilder
EIN: Affine Kontraktionen T1, . . . , TN ; Wahrscheinlichkeiten p1 > 0, . . ., pN > 0 mit
N
P
pi = 1 ;
i=1
Startpunkt x0 .
SCHRITT 1: Wähle eine Abbildung Ti gemäß Wahrscheinlichkeit pi aus ( Würfeln“).
”
n
n−1
SCHRITT 2: Berechne x := Ti(x ) ; setze n := n + 1 und gehe zu Schritt 1.
AUS: Folge {x0 , x1, x2, . . . } .
Man macht nun die Beobachtung, dass – bis auf ein Anfangsstück {x0, . . . , xM −1} – die Punkt”
wolke“ {xM , xM +1, . . . } eine Figur A† approximiert, die Attraktor der Bildabbildung ist. Beispielsweise wird der Farn durch die folgenden affinen Kontraktionen Ti , 1 ≤ i ≤ 4, erzeugt (siehe
[os]):
0.85 0.04
0.0
85 ,
, b1 =
, p1 = 100
T1 : A1 =
−0.04 0.85
10.6
0.20 −0.26
0.0
7 ,
T2 : A2 =
, b2 =
, p2 = 100
0.23
0.22
10.6
−0.15 0.28
0.0
7 ,
T3 : A3 =
, b3 =
, p3 = 100
0.26 0.24
4.4
0.00 0.00
0.0
1 .
T4 : A4 =
,
b4 =
, p4 = 100
0.00 0.16
0.0
Man benötigt also nun noch weitere 128 Bits für die Bildcodierung. Siehe Seite 1.
Bisher haben wir nur über schwarz/weiss Bilder geredet. Die obigen Ideen lassen sich aber
auf mehrkanalige Bilder ausdehnen. Die Kontraktionsabbildungen sind dann auf Vektoren auszudehnen, die noch eine weitere Koordinate enthalten; siehe [Fi].
4.2
Das inverse Problem
Bisher haben wir nur über Bilder geredet, die entstehen, wenn wir ein IFS vorgeben. Barnsley
hat 1986 die Frage andersherum gestellt: Lässt sich zu einem Bild (das in K enthalten ist),
ein IFS finden, das dieses Bild erzeugt. (Barnsley hat nun mehrere Patente für die Umsetzung
Stand: 2. Mai 2000
15
c J. Baumeister
5
(DISKRETE) BILDTRANSFORMATIONEN
dieser Idee der Datenkompression mit z.T. überraschenden Kompressionsraten.) Einen Hinweis,
wie man das anzustellen hat, liefert das so genannte
Collage–Theorem: Man suche unter einer Familie von affinen Kontraktionen diejenigen endlich vielen heraus, die als Bild unter der zugehörigen Bildabbildung W
(nun wieder zunächst ohne Wahrscheinlichkeiten) den Abstand dist(A, W (A))4 vom
gewünschten Bild A zum Bild W (A) klein/minimal machen.
Klar, eine Bildabbildung in der Nähe der Identität ist ein Kandidat dafür, aber eine solche
Bildabbildung hat eine Kontraktionskonstante L, die nahe 1 sein muss. Da der Abstand
dist(A†, A) des Attraktors A† eines solchen IFS von dem gegebenen Bild A wie folgt
dist(A† , A) ≤
1
· dist(A, W (A))
1−L
abgeschätzt werden kann – dies ist eine leichte Übungsaufgabe – , wobei L die Kontraktionskonstante der Bildabbildung ist, wäre keine Aussage über die Güte des resultierenden Attraktors
1
sehr gross wäre.
gewonnen, da ja 1−L
Bisher sind keine allgemeingültigen Vorgehensweisen für die Konstruktion eines IFS bekannt,
aber sehr gute Ansätze. Große Bedeutung fällt dabei der Frage zu, wie misst man Abstände zu
realistischen Bildern. Eine Verallgemeinerung auf Wahrscheinlichkeiten und Bilder mit Grauwerten ja sogar Farben ist möglich.
Die bisherige Diskussion vermittelt den Eindruck, dass wohl nur Bilder, die Selbstähnlichkeit
zeigen, so komprimiert werden können. Dem ist nicht so! Die so genannten PIFS (partioned
iterated function systems), bei denen die Idee der IFS nicht auf das gesamte Bild, sondern nur
auf einen Ausschnitt angewendet wird, macht es möglich, dieses Kompressionsprinzip auf nahezu
beliebige Bilder auszudehnen, da jedes Bild in ausreichend wenige Bildausschnitte zerlegt werden
kann, so dass für jeden Ausschnitt eine passende Bildabbildung gefunden werden kann. Diese
Kompression besteht also darin, das Bild in möglichst große Bereiche zu unterteilen und für
jeden Bereich die Bildabbildung zu finden. Zur Rekonstruktion müssen die einzelnen Bereiche
und für jeden Bereich die ausgewählte Bildabbildung gespeichert/übermittelt werden.
In [th] ist das berühmte Portait der immer jungen Lena (stets verwendet als Benchmark–Bild)
zu sehen, bei dem man nun wirklich keine Selbstähnlichkeit vermuten würde. Es gibt dazu eine
sehr gute fraktale Codierung mittels PIFS.
Im Abschnitt 5.4 gehen wir skizzenhaft auf einen Vergleich der dann besprochenen Kompressionsverfahren ein; siehe [th]. Ein überragender Vorteil der fraktalen Kompression gegenüber
anderen Verfahren (JPEG, wavelets (siehe unten)) ist zweifellos der, dass das komprimierte Bild
unabhängig von der Auflösung des Ursprungsbildes ist: man kann das Bild immer weiter vergrößern und erhält immer mehr Details, die ab einem gewissen Grad natürlich nicht mehr dem
Original entsprechen (zoomen).
Bei der fraktalen Kompression besteht ein grosser Aufwandsunterschied bei der Kodierung
und Dekodierung: Selbst mit Spezialhardware dauert die Kodierung einige Minuten, die Dekodierung dagegen ist sehr schnell, einige Iterationen der Bildabbildung reichen aus.
5
(Diskrete) Bildtransformationen
Transformationen werden auf Signale, Bilder – wir bezeichnen sie hier als Rohsignale – angewendet, um weieter Informationen zu gewinnen, die nicht aus dem gegebenen Signal, Bild
4
dist(x, B) := inf{|x − b||b ∈ B} mit dem euklidischen Abstand | · | .
Stand: 2. Mai 2000
16
c J. Baumeister
5.1
Fouriertransformation
abzulesen sind. Ein irgendwie transformiertes Rohsignal nennen wir ein verarbeitetes Signal. Meist legt ein Rohsignal im Zeitraum vor, d.h. als Funktion der Zeit. Die wesentlichen
Transformationen versuchen Informationen aufzuspüren, die im Frequenz–Spektrum verborgen
sind. Was sind Frequenzen? Wenn eine Grösse sich sehr schnell ändert, sprechen wir von hoher Frequenz; etwa: die Erscheinungsfrequenz eines Wochenmagazins ist geringer als die einer
tageszeitung. Frequenzen werden gemessen in Zyklen pro Sekunde; diese Dimension wird auch
als Hertz (Hz) bezeichnet. Zum Beispiel ist die Frequenz unseres Hausstroms 50 Hz, die
Taktfrequenz derzeitiger PCs liegt in der Spitze schon bei 800 MHz. Wie finden wir nun den
Frequenzinhalt in einem Rohsignal? Mit der Fouriertransformation!
5.1
Fouriertransformation
Gegeben sei ein Signal S : R −→ C . Die Fouriertransformierte Ŝ von S ist gegeben durch
Z∞
1
S(t)e−iωt dt , ω ∈ R .
Ŝ(ω) := √
2π
−∞
Wir sagen, dass die Frequenz ω mit der Amplitude |Ŝ(ω)| im Signal vorhanden ist. Die Umkehrformel ist
Z∞
1
S(t) = √
Ŝ(ω)eiωtdω , t ∈ R .
2π
−∞
Wann gelten diese Formeln? Jedenfalls dann, wenn das Signal in L2 (R) liegt, d.h. wenn
Z∞
|S(t)|2dt < ∞
−∞
gilt. (Richtig bei geeigneter Interpretation der uneigentlichen Integrale.) Ist
Ŝ(ω) = 0 für |ω| > Ω ,
so spricht man bei S von einem Signal mit Bandbreite Ω . Das Abtasttheorem von Shannon
besagt, dass ein Signal mit Bandbreite Ω (unter schwachen Bedingungen an S) folgendermaßen
dargestellt werden kann:
S(t) =
∞
X
S(kT ) sinc(Ω(t − kT )) , t ∈ R ;
(1)
k=−∞
π und
dabei ist T = Ω
(
sinc(x) :=
sin(x)
x
1
, falls x 6= 0
.
, falls x = 0
Die Grösse T −1 = Ω
π heisst Nyquist–Abtastrate; sie ist die Anzahl der Abfragen pro Zeiteinheit.
Ein wichtiger Sachverhalt ist die Unschärferelation. Sie besagt:
 ∞
1  ∞
1
2
2
Z
Z
Z∞
1
2
2

|tS(t)| dt · 
|ω Ŝ(ω)| dω  ≥
|S(t)|2dt .
2
−∞
−∞
−∞
|
{z
} |
{z
}
O
Stand: 2. Mai 2000
I
17
c J. Baumeister
5.2
Diskrete Fouriertransformation
In der Quantenmechanik ist das Signal die Wellenfunktion eines Teilchens und die dann nach
Heisenberg benannte Ungleichung besagt, dass Ort und Impuls gleichzeitig nicht beliebig genau
gemessen werden können, da sie nicht gleichzeitig eine ausgeprägte Spitze haben können; oben
steht das Integral O für die Ortsverteilung, I für die Impulsverteilung.
In (1) liegt die Darstellung eines Band–beschränkten Signals durch eine abzählbare Familie
von einfachen Signalen. Dies ist ebenso der Fall bei Signalen, die auf einem beschränkten Zeitintervall definiert sind. Hier arbeitet man mit Fourierreihen.
Betrachte ein Signal S über einem endlichen Definitionsbereich (Zeitbereich), so kann man es
als eine in ganz R definierte periodische Funktion auffassen, indem man es unendlich oft aneinandersetzt; ohne Einschränkungen nehmen wir an, dass die Periode 2π ist. Fourier begann 1807
die Erfolgsgeschichte Fourierreihen“, die folgende Gestalt haben:
”
∞
X
S(t) =
ck e−ikt , t ∈ R .
(2)
k=−∞
Wir wissen nun, und noch viel mehr, dass sich jedes f ∈ L2 [0, 2π] durch eine Fourierreihe der
Form (3) darstellen lässt;5 die Koeffizienten ck berechnen sich durch
1
ck := ck (f ) := fˆk :=
2π
Z2π
f (t)e−ikt dt , k ∈ Z .
(3)
0
Was darstellen“ heisst, ist zu hinterfragen, ist aber gut geklärt. Ein f durch
”
∞
X
fˆk eikt , t ∈ R ,
f (t) =
(4)
k=−∞
darstellen, heisst Analyse von f, ein Signal S durch (3) mit gegebenen Koeffizienten ck hinzuschreiben, heisst Synthese. Die Basisfunktionen eikt , k ∈ Z , bilden in L2 [0, 2π] ein Orthonormalsystem.6
Es ist so, dass für die Konvergenz einer Fourierreihe ja sicher die Tatsache, dass lim|k|→∞ |fˆk | =
0 notwendig ist. Je glatter f ist, desto schneller tritt diese Konvergenz ein. Es ist nun so, dass
das Frequenzspektrum“ (Ŝk )k∈Z eine globale Information über S ist; daraus ablesen, wann
”
eine bestimmte Frequenz im Signal S auftritt, kann man nicht.
Eine wichtige Entscheidung ist in konkreten Anwendungen, welches periodische Zeitsignal S
bei gegebener Aufzeichnung f : [a, b] −→ R man annehmen soll; d.h. wie soll f so zu einer
– etwa nach Zeitskalierung – 2π–periodischen Funktion fortgesetzt werden. So macht es einen
Unterschied, ob man nur den Anteil der Aufzeichnung mit Werten ungleich Null betrachtet
und damit die nachfolgende Analyse macht oder ob man einen bestimmten sinnvollen Bereich
[ã, b̃] ⊃ [a, b] als den Bereich einer Periode auszeichnet. Die Entscheidung hat der Anwender zu
treffen.
5.2
Diskrete Fouriertransformation
Hat man
Signalwerte s0 , . . . , sN −1 ∈ R
L2 (R) ist der Hilbertraum der quadratintegrierbaren Funktionen in R mit Werten in R bzw. C .
R 2π
Das Skalarprodukt h·, ·i ist definiert durch hf, gi := 0 f (t)g(t)dt . Dabei bezeichnet z die komplex–
konjugierte Zahl der Zahl z ∈ C .
5
6
Stand: 2. Mai 2000
18
c J. Baumeister
5.2
Diskrete Fouriertransformation
gegeben, so sind dazu die
Frequenzwerte f0 , . . . , fN −1 ∈ C
gegeben durch
fl :=
N
−1
X
sj exp(−2πi
j=0
lj
), 0 ≤ l ≤ N − 1 .
N
Der grandiose Vorteil ist nun der, dass, ausgehend von der Werten f0 , . . . , fN −1, die Signalwerte
s0 , . . . , sN −1 wieder durch
sj =
N −1
1 X
jl
fl exp(2πi ) , 0 ≤ l ≤ N − 1
N
N
l=0
zurückgewonnen werden können. Beachte, dass die Berechnung von f0 , . . . , fN −1 aus s0 , . . . , sN −1
völlig analog zur Berechnung von s0 , . . . , sN −1 aus f0 , . . . , fN −1 ist. Zählt man die Rechenoperationen, die zur Berechnung der N Größen f0 , . . ., fN −1 aus s0 , . . . , sN −1 auf herkömmliche Weise
anfallen – wir sprechen von der allgemeinen Umsetzung der diskreten Fouriermethode (FT) – ,
so kommt man auf N 2 Operationen.
Es gibt ein schnelles Verfahren, es ist die schnelle Fouriertransformation (FFT). Es
nutzt aus, dass sich die komplexen Zahlen
exp(±2πi
lj
) , 0 ≤ l, j ≤ N − 1,
N
geschickt gruppieren lassen und die Summen in den Formeln aufspalten in gerade und ungerade
Summanden. Dann setzt die rekursive Idee an: Wiederhole diese Aufspaltung. Man nennt so
ein Vorgehen die Methode
spalte und herrsche“
divide and conquer“
divide et impera“
”
”
”
Die Anzahl der Rechenoperationen läßt sich so von N 2 auf N log2 N drücken, ein für große N
enormer Rechenvorteil, wie die Tabelle 6 zeigt.
Codes für die schnelle Fouriertransformation
liegen bei nahezu allen mathematischen Softwarepaketen vor.
N
2
16
256
1024
Faltung (Convolution) ist eine zweistel- FT
4
256 65536 1048576
lige Operation auf Funktionen. Da wir hier FFT
2
64
2048
10240
mit Bildfunktionen arbeiten wollen, und die- Einsparung 50 % 75 % 97 %
99 %
se im allgmeinen nur diskret vorliegen, wollen
Abbildung 6: Schnelligkeitsvergleich
wir uns auf die diskrete Faltung beschränken.
Wir nehmen an, dass zwei Funktionen
x : {0, . . ., N − 1} −→ R , y : {0, . . ., N − 1} −→ R ,
vorliegen. Dabei denken wir uns die Signale x, y periodisch fortgesetzt, d.h. xk+N = xn , yk+N =
yn , n ∈ Z . Ihre Faltung ist durch
(x ∗ y)l :=
N
−1
X
xk yl−k , l ∈ Z ,
k=0
Stand: 2. Mai 2000
19
c J. Baumeister
5.3
Diskrete Cosinus–Transformation
erklärt.
Wir können x die Bedeutung einer Bildfunktion und y die eines Filters zuweisen. Die Filtereigenschaft wird deutlich, wenn wir eine diskrete Fouriertransformation auf gefaltete Signale
anwenden:
x
[
∗ yj = x̂j ŷj , j ∈ Z .
Das Faltungsprodukt wird durch die diskrete Fouriertransformation in ein Produkt im Frequenzraum überführt. Damit lassen sich nun leicht Filter bauen, die gewisse Frequenzen im Signal x
ausblenden; man hat ja y nur so zu konstruieren, dass gewisse ŷj verschwinden. Es gibt einen
vergleichbaren Faltungssatz für die kontinuierliche Fouriertransformation und für Fourierreihen.
Beliebt sind Filter y, die wie die Dichte der Normalverteilung N (µ, σ) aussehen. Die Streuung
σ gibt dann die Breite des Fensters“ um µ an, das herausgefiltert wird.
”
Hier ist noch zu klären, wie wir die diskrete Fouriertransformation im Zusammenhang mit
Bildfunktion verwenden. Mit einer Bildfunktion s : {0, . . ., m − 1} × {0, . . ., n − 1} sind m
Spaltensignale
s(x, ·) : {0, . . ., n − 1} −→ R , x ∈ {0, . . . , m − 1}
und n Zeilensignale
s(·, y) : {0, . . ., m − 1} −→ R , y ∈ {0, . . ., n − 1} ,
verknüpft. Auf jedes dieser Spalten– und Zeilensignale können wir die diskrete Fouriertransformation anwenden. Das Bild liegt dann in n · m Frequenzwerten vor. Dabei korrespondieren
betragsmäßig große Frequenzen mit großen Veränderungen der Bildfunktion; niedrige Frequenzen deuten auf verwaschene Strukturen hin.
5.3
Diskrete Cosinus–Transformation
Gegeben sei ein Vektor x = (x0 , . . ., xN −1) ∈ RN ; er steht für die Bildwerte. Den transformierten
Vektor X = (X0, . . . , XN −1) ∈ RN im Frequenzraum erhält man gemäß
r
Xj =
1
N −1
πj(k + )
2 X
2 .
xk vj cos
N
N
k=0
Dabei sind die Konstanten vj gemäß
(
vj =
√1 , j = 0
2
1 , sonst
zu wählen. Wir wollen nicht auf die algorithmisch schnelle Berechnung eingehen. Es gibt schnelle
Algorithmen, insbesondere kann man den Algorithmus jeweils für einen Spezialfall der Größe
N optimieren. Dies kann geschehen beim Erstellen eines digitalen Bildes nach dem JPEG–
Standard, denn da ist ja N = 64 feststehend; siehe nachfolgende Erläuterungen.
Liegt das Bild als Pixelbild vor mit Farbwertabbildungen (eventuell auch nur als Grauwertbild), so wird das Bild im JPEG–Format in 8×8 Blöcke eingeteilt und jeder Block mit der Farbabbildung getrennt behandelt. Aus den 64 Farbwerten des Blocks, die zunächst um 0 zentriert werden (Verschiebung von 0, . . . ,255 nach –128, . . . ,127), wird ein Vektor x = (x0, . . . , x63) ∈ R64
gebildet; zur Anordnung siehe unten. Die diskrete Cosinus–Transformation des Bildvektors sei
Stand: 2. Mai 2000
20
c J. Baumeister
5.4
Wavelet–Transformation
X = (X0, . . . , X63). Die Komponenten dieses Vektors werden nun skaliert mit je nach Wunsch
unterschiedlichen Skalierungsfaktoren qj ≥ 1 :
ej := 1 Xj , 0 ≤ j ≤ 63.
X
qj
e nun kleinere Werte annehmen
ej von X
Die Skalierung hat den Vorteil, dass die Komponenten X
und daher weniger Bits darstellbar sind.
Dieser Skalierungsvektor q := (q0, . . . , q63) ist dem Bild bei Übertragung anzufügen, wenn er
e liegt nun ein Vektor vor, der die Farbwerte
nicht von vornherein verabredet ist. Im Vektor X
des 8 × 8–Blocks darstellt. Er kann nun nach einem Kompressionsverfahren (ohne Verlust
!) behandelt werden und damit auf Speicherung bzw. Übertragung vorbereitet werden. Da
benachbarte Pixel im allgemeinen nicht sehr unterschiedliche Farbwerte aufweisen, und da man
dies bei der Kompression nach der Differenzenmethode ausnutzen kann, sollten die Werte der
Farbabbildung so abgespeichert werden, dass benachbarte Pixel auch im Vektor benachbart sind.
Man macht dies in folgender Weise (i, j) ((i, j) Pixelkoordinaten, Zeilenindex i, Spaltenindex j):
(0, 0), (0, 1), (1, 0), (1, 1), (0, 2), (0, 3), (1, 2), (2, 1), . . . .
5.4
Wavelet–Transformation
1
1
1
1
-1
(a) Haar–Wavelet
(b) Mexikanerhut
3
(c) Eine Skalierungsfunktion
Abbildung 7: Wavelets
Wavelets (kleine Wellen(päckchen)) werden implizit erstmals erwähnt bei A. Haar (1909).
Die Wavelet–Transformation hat ihre Wurzeln dann in Vorgehensweisen der angewandten Mathematik und Physik am Anfang des 20. Jahrhunderts. Die entscheidenden Erkenntnisfortschritte kamen in den 30er Jahren, als man herausfand, dass die Dartstellung von Funktionen
durch Skalen–variierte Basisfunktionen grosse Einsichten vermitteln kann. Ein Physiker (P.
Levy) war es, der bei der Untersuchung der Brownschen Bewegung feststellte, dass die Haar–
Basisfunktionen den trigonometrischen Basisfunktionen überlegen sind. Große Dynamik in die
Entwicklung kam Anfang der achtziger Jahre durch die Arbeiten von Morlet und Grossmann,
Meyer, Mallat (siehe [Ma]) und Daubechies. Die Literatur wächst explosionsartig; siehe [Bl],
[Hu], [ga]. Dies hat damit zu tun, dass dank der Rechenleistung heutiger Computer größerer
Rechenaufwand verkraftet werden kann, und damit der Vorzug der Wavelet–Transformation gegenüber der Fouriertransformation ausgeschöpft werden kann. Der Vorzug besteht darin (siehe
unten), dass sie sowohl im Ausgangsbereich als auch im Bildbereich ( Frequenzraum“) gut lo”
kalisiert. Wir hatten ja gesehen, dass die Fouriertransformation dies nicht leisten kann. Wie
Stand: 2. Mai 2000
21
c J. Baumeister
5.4
Wavelet–Transformation
neu die Entwicklung der Wavelets ist, kann man daran sehen, dass der HDTV–Standard (high
definition television), obwohl noch nicht in Aktion, noch auf der Fouriertransformation basiert.
Was sind Wavelets? Die Grundidee ist einfach:
Man definiert einen Wavelet–Prototyp w , eine
Funktion auf R. Meist ist sie nur in einem eng
begrenzten Bereich nicht verschwindend; man sagt,
w hat lokalen Träger. Aus diesem Basis–Wavelet
w generiert man durch zwei Operationen nämlich
Dehnen/Stauchen und Verschieben eine Familie von Wavelet–Funktionen. Zerlegt man nun eine
gegebene Funktion in eine Reihe derartiger WaveletFunktionen, so lassen sich an jeder Stelle AussaAbbildung 8: Skalierung
gen über deren Frequenzspektrum machen. Im Gegensatz zu traditionellen Fourier–Techniken, die eine Zerlegung in reine, zeitlich unbegrenzte Sinus– und Cosinus-Funktionen ermöglichen, sind
Wavelet–Techniken geradezu prädestiniert, realitätsnahe Funktionen auf ihre lokalen Eigenschaften, wie nicht–periodische Phänomene, markante Sprünge und Spitzen, . . . , zu untersuchen. Während sich die Fourier–Transformation nur auf dem Prototyp Sinus/Cosinus”
Funktion“ stützt, ist man bei der Wahl der Basis–Wavelets weitgehenst frei, so dass man Wavelets entwickeln kann, die optimal für die jeweilige Anwendungen ausgelegt sind. Wavelets werden
mitunter als mathematisches Mikroskop bezeichnet, da man das Signal mit unterschiedlicher
Optik (Mutter–Wavelet) und unterschiedlicher Vergrösserung anschauen kann; wann wurde der
Ton hohes c“ gespielt? Diese Information ist nicht nötig bei stationären Signalen, d.h. solchen
”
Signalen, deren Frequenzinhalt sich in der Zeit nicht ändert. Etwa ist
f (t) := cos(2πt) + 3 cos(20πt) , t ∈ R ,
ein stationäres Signal; zu jedem Zeitpunkt sind die Frequenzen 1 und 10 vorhanden. Die
Wavelet–Transformation kann auch über den Frequenzinhalt instationärer Signale Aufschluss
geben.
Werden wir etwas genauer. Sei das sogenannte Mutter–Wavelet ψ : R −→ C gewählt7.
In Abbildung 7 finden wir zwei solche Funktionen: in a) ist das Haar–Wavelet, in b) das
sogenannte Mexikanerhut–Wavelet8. Gemeinsam ist diesen Bildern, dass ψ konzentriert um
einen Punkt ist. Es ist eine Art Fenster (Abfragefenster), das damit definiert wird.
Mit diesen Mutter–Wavelets konstruieren wir die Familie
t−b
1
)∈R
ψa,b : R 3 t 7−→ ψa,b(t) := √ ψ(
a
a
mit a 6=, b ∈ R . a heisst Skalenparameter, b Verschiebungsparameter. Der Vorfaktor
√1 ist nicht entscheidend und dient nur dazu, eine erwünschte Normierungseigenschaft zur
a
Verfügung zu haben. Die Breite des Abfragefensters wächst proportional zu a und in diesem
Fenster ist wieder eine vollständige Kopie von ψ sichtbar; siehe Abbildung 8. Also halten wir
fest:
7
8
Meist ist ψ : R −→ R .
1
t2
ψ(t) = √2 π− 4 (1 − t2 )e− 2
3
Stand: 2. Mai 2000
22
c J. Baumeister
5.4
Wavelet–Transformation
Skalenwerte a mit a >> 1 liefern ein breites Abfragefenster und dienen zur Erfassung von langsam sich ändernden Vorgängen bzw. glatten Details in einem Signal.
Skalenwerte a mit 0 < a << 1 liefern ein schmales Abfragefenster und dienen zum
präzisen lokalen Nachweis von hochfrequenten und/oder kurzlebigen Phänomenen.
Die Wavelettransformatierte Wψ f ist nun gegeben durch
1
Wψ f (a, b) := √
a
Z∞
f (t) ψ(
∞
t−b
)dt = hf, ψa,bi2
a
mit dem Skalarprodukt h·, ·i2 in L2(R) . Dazu gibt es wieder – unter schwachen Annahmen, die
für die bisher betrachteten Beispiele erfüllt sind – eine Umkehrformel, auf deren Angabe aber
wir hier verzichten, da man nicht ganz triviale Überlegungen zur Integration auf R\{0} × R
benötigt.
Bei der Wahl des analysierenden Mutter–Wavelets hat man, im Gegensatz zur Fouriertransformation grosse Freiheit: Im wesentlichen genügt es dafür Sorge zu tragen, dass
Z∞
Z∞
|ψ(t)|dt < ∞ ,
∞
Z∞
|ψ(t)| dt < ∞ ,
2
∞
ψ(t)dt = 0
∞
gilt. Man kann es u.a. so einrichten, dass
• ψ kompakten Träger hat,
• die Waveletfamilie ψr,k := 2− 2 ψ( t − rk2 ) , r, k ∈ Z , in L2(R) orthonormiert ist,
2
r
r
• ψ glatt ist.
Für die theoretisch durchsichtige Absicherung und numerische Ausgestaltung findet man die
Mutter–Wavelets etwas indirekt; wir skizzieren dies. Man wählt eine Skalierungsfunktion
ϕ ∈ L2(R) ∩ L1(R) . Sie ist das A und O der sogenannten Multiskalen–Analysis, einen Begriff,
den wir hier nicht näher erklären können. Wir fordern nun die entscheidende Identität, die
sogenannte Skalierungsgleichung:
√ X
ϕ(t) = 2
hk ϕ(2t − k) , t ∈ R ,
(5)
k∈Z
mit
hk ∈ C , k ∈ Z ,
X
|hk |2 < ∞ .
(6)
k∈Z
Die Skalierungsgleichung beschreibt die Tatsache, dass ϕ durch gezoomte Kopien von ϕ dargestellt werden kann. Hat ϕ kompakten Träger, dann sind nur endlich viele hk von Null verschieden.
Wendet man die Fouriertransformation auf die Skalierungsgleichung an, so ergibt sich nach einem
Faltungssatz
ω
ω
ϕ̂(ω) = H( )ϕ̂( )
2
2
Stand: 2. Mai 2000
23
(7)
c J. Baumeister
5.4
mit
1 X
hk e−ikω , ω ∈ R .
H(ω) = √
2 k∈Z
Wavelet–Transformation
(8)
Daraus konstruiert man nun ein Mutter–Wavelet ψ durch Angabe von ψ̂ im Fourierraum:
ω
ω
−i ω
(9)
ψ̂(ω) = e 2 H( + π) φ̂( ) , ω ∈ R .
2
2
Damit wird nun (ψj,k )k∈Z,j∈Z eine Orthonormalbasis in L2(R) und Funktionen können damit
dargestellt werden.
Für das Haar–Wavelet geht man von der Skalierungsfunktion
(
1 , falls t ∈ [0, 1]
ϕ(t) :=
0 , sonst
aus und hat
1
ϕ(t) = ϕ(2t) + ϕ(2t − 1) , also h0 = h1 = √ .
2
In Abbildung 7 c) ist die Skalierungsfunktion zu einem Daubechies–Wavelet skizziert, die
klar selbstähnliche Details aufweist; das resultierende Mutter–Wavelet – es gehört einer Klasse
an, die ab 1988 von Daubechies entdeckt(?)/konstruiert wurden – zeigt diese Selbstähnlichkeit
auch. Es ist daher besonders gut geeignet fraktale Eigenschaften“ abzubilden. Man benötigt
”
zur Konstruktion des zugehörigen Mutter–Wavelets 6 Koeffizienten h0 , . . . , h5 .
Die Folge (hk )k∈Z – endlich in der Praxis! – ist nun alles, was man für die Wavelet–Numerik
benötigt. Bei der diskreten Analyse von Signalen wählt man üblicherweise die Skalenwerte bzw.
Verschiebungsparameter als
ar = σ r , br,k = kσ r , r ∈ Z, k ∈ Z .
Damit kann man die Waveletkoeffizienten
cr,k := Wψ f (ar , br,k ) = hf, ψr,k i2 , r ∈ Z, k ∈ Z ,
hinschreiben. Die Bestimmung der Koeffizienten cr,k heisst Waveletanalyse, eine Darstellung
eines Signals, das diese Koeffizienten hat, heisst Waveletsynthese. Es ist nun der grosse
Vorteil, dass sich die Berechnung der Koeffizienten cr,k sehr schnell, da rekursiv, organisieren
lässt; das Resultat ist die schnelle Wavelettransformation (FWT). Der Schlüssel dazu ist
die obige Skalierungsgleichung. Diese Identität führt zu solchen Identitäten für die Koeffizienten
hf, ψn,k i2 und hf, ψn+1,k i2 in einer Approximation von f, sodass dies Koeffizienten nicht auf jeder
Zoomstufe neu berechnet werden müssen. Auf die exakte Beschreibung der Formeln wollen wir
hier nicht eingehen; siehe [Bl] und [Ka] .
Klar, die Wavelettransformation in einer diskreten Version kann wieder als Hilfsmittel zur
Datenkompression eingesetzt werden, man hat sie z.B. nur an die Stelle der diskreten Cosinustransformation zu setzen. Aber natürlich kann sie bestens verwendet werden, Bilder zu komprimieren, zu speichern. Weitere Anwendungen sind: Rauschunterdrücken, Datenarchivierung
in der Medizin, Analyse von EKG’s und EEG’s, Aufdecken von Strukturen in der Astronomie,
partielle Differentialgleichungen (Numerik), Turbulenzanalyse.
Es wurden Vergleiche angestellt, welche Qualität verschiedene Verfahren bei der Bildkompression haben. Dabei hat sich herausgestellt, dass für niedere Kompressionsaraten (bis 1 : 5)
Stand: 2. Mai 2000
24
c J. Baumeister
6
BILDVERBESSERUNG UND KLASSIFIKATION
die Wavelettransformation die beste Qualität aufzuweisen hat. Fraktale Kompression ist vor
allem bei höchsten Raten überlegen.
6
Bildverbesserung und Klassifikation
6.1
Bildpunktverbesserungen
Wir besprechen die Methoden nur für ein Grauwertbild. Dieses möge also als Matrixbild
s : {0, . . ., m − 1} × {0, . . ., n − 1} −→ R
mit kontinuierlichen Grauwerten vorliegen.
Bei Bildpunktoperationen werden die Verbesserungen jeweils Pixel für Pixel vorgenommen, wobei der Grauwert eines Pixels des Ausgangsbildes nur vom Wert des betreffenden Pixels
des Eingangsbildes abhängt. Ein Bild einer solchen Verbesserung kann die Kontrastanreicherung sein. Die übliche Methode hierzu ist eine lineare Dehnung der Grauwerte. Hier wird das
Ausgangsbild beschrieben durch
s̃ : {0, . . ., m − 1} × {0, . . ., n − 1} −→ R
wobei s̃ durch
s̃(x, y) :=
Ao − Au
(s(x, y) − Bmin ) + Au
Bmax − Bmin
definiert ist. Dabei ist [Au , Ao] der Grauwertbereich des Ausgangsbildes und [Bmin , Bmax] der
Bereich, in dem die Grauwerte des Eingangsbildes liegen.
Bei Bildpunktnachbarschaftsoperationen werden zur Verbesserung eines Pixels eines
Bildes zur Operation auch Nachbarschaftspixel herangezogen. Etwa kann man die Werte des
Ausgangsbildes
s̃ : {0, . . ., m − 1} × {0, . . ., n − 1} −→ R
definieren durch
s̃(x, y) := 8s(x, y) − s(x − 2, y) − s(x, y − 2) − s(x, y + 2) − s(x + 2, y) .
Der Wert eines Pixels des Ausgangsbildes kommt also als Überlagerung“ der Werte in der
”
Nachbarschaft zustande; das zur Verbesserung anstehende Pixel (x, y) wird dabei stark hervorgehoben. Klar, am Rand des Bildes muss man abgeändert vorgehen.
6.2
Segmentierung
Ziele der Segmentierung sind
• Trennung von Objekten vom Hintergrund
• Selektion einzelner Objekte aus einer Objektsammlung
• Vereinzelung aneinander angelagerter Objekte
Um diese Ziele ins Auge fassen zu können, hat man Objekte mit Hilfe von Merkmalen zu
identifizieren. Es können diese etwa geometrische Merkmale sein, etwa: Umfang, Fläche,
Formfaktoren (Verhältnis von Radien, . . . ). Ein weiteres Merkmal kann die Textur sein. Textur
ist eine visuelle Oberflächeneigenschaft von Objekten. In unserer Beschreibung eines Bildes
durch eine Funktion s der Grauwerte können wir Textur auffassen als flächenhafte Verteilung der
Stand: 2. Mai 2000
25
c J. Baumeister
6.3
Kanten
Grauwerte mit ihren Regelmäßigkeiten und gegenseitigen Abhängigkeiten innerhalb begrenzter
Bildbereiche. Ein Wolkenhimmel oder die Skipiste an sonnigen und trüben Tagen vermittelt
uns einen Eindruck davon. Die Aufteilung des Bildes in 8 × 8–Blöcken ist nicht zuletzt in der
Annahme begründet, dass die Textur in 8 × 8–Blöcken nicht zu sehr variiert und daher der
zugehörige Datenvektor nach der Differenzenmethode gut komprimiert werden kann.
6.3
Kanten
Kantenextraktionsverfahren werden im weiten Feld der Computer–Bilder häufig eingesetzt; sie
ist neben der Texturanalyse die Grundlage für eine erfolgreiche Segmentierung. Bei der Bewegungsanalyse reicht es unter Umständen aus, nur die Bewegung der in der Szene vorkommenden
Kanten zu betrachten. In der Verarbeitung von Satellittenbildern kann Kantenextraktion zur
Kartographierung von Wasser–/Landgrenzen herangezogen werden.
Was ist eine Kante? Eine Kante korrespondiert in einem Bild mit einer Intensitäts–Diskontinuität in der im Bild gezeigten Szene. Wenn wir die Bildfunktion zunächst nur eindimensional
betrachten, können wir drei Kantentypen ausmachen: Stufenkante, Linienkante, Dachkante
(siehe Abbildung 9).
(a) Stufenkante
(b) Linienkante
(c) Dachkante
Abbildung 9: Kanten
Kantenextraktionsverfahren extrahieren im allgemeinen keine zusammenhängenden Kanten,
sondern nur kurze Abschnitte von Kanten, so genannte Edgels (edge elements). Solche Edgels
haben jeweils eine Position, eine Richtung und eine Stärke. Die Stärke eines Edgels gibt den
Kontrast im Bild an der betreffenden Stelle der Kante an.
Die Verarbeitungsschritte jeden Kontraktionsverfahrens werden für jeden Bildpunkt ausgeführt.
Dabei wird nie nur der jeweilige Bildpunkt alleine, sondern immer eine Umgebung um den Punkt,
ein so genanntes Fenster“ betrachtet. Es wird dann an Hand eines Algorithmus entschieden, ob
”
dieses Fenster ein Edgel enthält, wenn ja, wird dessen Position, Richtung und Stärke bestimmt.
Es sind im wesentlichen zwei Verfahren der Kantenextraktion im Gebrauch: Extraktion durch
Surface Fitting, auf Faltung basierende Verfahren. Faltung übergehen wir, hier skizzieren wir
nur das Verfahren Surface Fitting“ (Oberflächen-Anpassung). Hierbei wird für jeden Kantentyp
”
ein Flächentyp ausgesucht, der dem obigen Kantentyp entspricht. Diese Flächentypen werden
nun über die Stelle der Bildfläche ((x, y, s(x, y)) gelegt. Es wird dann geprüft, inwieweit der
Flächentyp an dieser Stelle passt“. Dazu sind dann Verfahren der Optimierungstheorie nötig,
”
um den Fit herzustellen und schliesslich anhand von Indikatoren zu entscheiden, ob eine gute
Übereinstimmung vorliegt.
Zur Kantenextraktion kann auch die Wavelettransformation eingesetzt werden, ja sogar sehr
gut, weil es dabei auf Variationen (in der Helligkeit, Farbe) auf kleiner Skala ankommt; siehe
Stand: 2. Mai 2000
26
c J. Baumeister
6.4
Klassifizierung und Interpretation
die Skizzierung in [ck].
6.4
Klassifizierung und Interpretation
Ist das Bild nun geeignet aufbereitet, gibt es die für den angestrebten Zweck relevante Information zu extrahieren, bzw. die erkannten Muster zu beurteilen. Hierzu sind natürlich ganz
anwendungsbezogene Ansätze zu verfolgen, sehr allgemeine Ansätze sind (bisher) nicht erfolgreich; als allgemeines Stichwort ist hier Cluster–Analysis und Mustererkennung zu nennen. Insgesamt liegt aber sicher ein Optimierungsproblem vor: Es sollen ausgemachte Muster
bestmöglich vorgegebenen Klassen zugeordnet werden. Dabei ist eine (vom Anwender vorzugebende) Kostenfunktion, die den Abweichungsfehler bestraft, zu minimieren.
7
Anwendungen: Bildgebende Verfahren
Bildgebende Verfahrenbeherrschen inzwischen unsere technische Umwelt. Beispielsweise findet
die Suchmaschine http://www.altavista.de unter dem Stichwort Bildgebende Verfahren“ im
”
deutschsprachigen Netz 128 751 Bilder (April 2000). Wir greifen unten zwei Awendungsbereiche
heraus, wo Verfahren der Bildgewinnung grossen Stellenwert besitzen. Hier listen wir ohne
Anspruch auf Vollständigkeit einige Stichpunkte zu weiteren Verfahren auf:
• Tumordiagnostik unter Ausnutzung der Koherenzeigenschaft von Licht.
• Auswertung von Luft- und Satellitenbildern für kartographische Zwecke.
• Untersuchung von Oberflächen zum Zwecke der Qualitätskontrolle.
• Interpretation von Bildfolgen, die mit einer Kamera aufgenommen wurden.
• Thermographie in der Biologie
• Lokalisierung von Objekten in Bildern, z.B. zur Handhabung von Robotern.
• Erkennung isoliert gesprochener Wörter und das Verstehen zusammenhängend gesprochener Sprache.
• Klassifikation von Fingerabdrücken.
• Auswertung von Ultraschallbildern.
Gemeinsam ist all diesen Vorgehensweisen, dass sie mathematisch nicht ganz einfach zu behandeln sind, da sie im allgemeinen in die Klasse der schlechtgestellten Probleme fallen: Die
stetige Abhängigkeit des realen Bildes (eigentlich des mathematischen Modells davon) von den
Messungen ist ohne Vorsichtsmassnahmen nicht gegeben.
Ihr grosser Vorteil ist, dass die erzeugten Bilder, wenn sie im Computer liegen, manipuliert
werden können (Aufbau von Schichtaufnahmen zu räumlichen Bildern, geometrische Umformung
der Bilder (Drehungen, Projektionen, . . . )) und so Informationen liefern können, die weit über
die ursprünglichen Erfahrungen und Erkenntnisse hinausgehen.
7.1
Computertomographie
Hinter dem Stichwort Computertomographie verbirgt sich der medizinische Vorgang einer
Röntgenuntersuchung unter Zuhilfenahme eines Computers. Tomographie bedeutet Darstellung in Schichten oder Scheiben, in der Medizin Schichten des Körpers oder eines Körperabschnitts. (Eine uns hier nicht interessierende Anwendung ist die zerstörungsfreie Materialprüfung
durch Computertomographie.)
Stand: 2. Mai 2000
27
c J. Baumeister
7.1
Computertomographie
Computertomographie ist eine diagnostische Methode, mit der Veränderungen im Körper
sichtbar gemacht werden können. Wie bei der herkömmlichen Röntgenuntersuchung macht man
sich dabei die unterschiedliche Druchlässigkeit verschiedener Körpergewebe für Röntgenstrahlen
zunutze. Je dichter ein Gewebe ist, desto schlechter läßt es die Strahlen hindurch. So kann
man z.B. Knochen, Luft (in der Lunge), Wasseransammlungen und Weichgewebe unterscheiden: Sie erscheinen in unterschiedlichen Grautönen. Die Schichttechnik hat gegenüber einer
herkömmlichen Röntgenaufnahme den Vorteil, dass die Überlagerung im Gewebe aufgelöst wird.
Eine CT–Aufnahme geht so vor sich: Ein Patient wird liegend in eine Röhre geschoben. Für
Detektoren
jede einzelne Aufnahme fährt die Liege den Patienten einige Millimeter weiter. Bei jeder Aufnahme senden punktförmige Röntgenquellen, die
kreisförmig an der Wand der Röhre angebracht sind,
Röntgenstrahlen durch den Körper des Patienten;
auf der gegenüberliegenden Seite werden die ankommenden Intensitäten gemessen. Der Computer errechnet aus den Intensitätsverlusten ein Grauwertbild der Körperschicht, das auf dem Bildschirm
x
Ω
sichtbar gemacht werden kann; die Grauwerte der
Quelle
2
Pixel (ca 1.5 × 1.5 mm ) entsprechen den jeweiligen
relativen Dichten des Gewebes. Die einzelnen Querschnittbilder können vom Bildschirm auf Filme oder
Abbildung 10: Computertomographie
Papier übertragen werden oder direkt auf Disketten
oder Magnetbänder gespeichert werden.
Wo steckt nun die Mathematik in dieser Diagnosetechnik? Sie kommt zweifach ins Spiel. Erstens,
bei der Frage, ob es denn gelingt, aus Messungen
von Intensitätsverlusten entlang einer (eindimensionalen) Geraden eine (zweidimensionale) Dichtefunktion der betreffenden Körperschicht aufzubaut .
en. Zweitens bei der Frage, wie die Rückrechnung
u
(
ϕ)
der Intensitätsverluste in eine Dichtefunktion effiziu(ϕ)
ent und sicher erfolgen kann.
Die Abbildung 10 zeigt einen etwas verschlankL t ,ϕ
ten Versuchsaufbau. Sei I0 die Intensität des entlang
L in das Medium Ω eindringenden Röntgenstrahles.
Abbildung 11: Radiograph
Ein Detektor misst die Intensität T des Strahls nach
Verlassen des Mediums. (In der Praxis sprechen
mehrere Detektoren an, da der Röntgenstrahl kegelförmig aus dem Medium austritt; dass der
Öffnungswinkel klein ist, ist ein Markenzeichen“ der (harten) Röntgenstrahlung.) Wenn nun
”
f : Ω −→ R die Dichtefunktion des Mediums ist ((f (ω) = 0, falls ω ∈
/ Ω), dann sagt die Physik
der Strahlung folgenden Zusammenhang voraus:
Z
I = I0 exp(− f (z)dz) ;
L
R
also experimentelle Abschwächung. Hierbei ist L f (z)dz das Integral entlang des Strahls L.
Dieses Integral nennt man eine Projektion entlang L. Wenn wir logarithmieren, kommen wir
Stand: 2. Mai 2000
28
c J. Baumeister
7.1
Computertomographie
Z
zu
ln I0 − ln I =
f (z)dz .
L
Der Strahl L kann parametrisiert werden durch den Winkel ϕ und den Abstand t gemäß Abbildung 11:
L = Lt,ϕ = {z ∈ R2|z = tu(ϕ) + su⊥ (ϕ), s ∈ R},
wobei
π π
t ∈ [0, ∞) , ϕ ∈ (− , ) , u(ϕ) = (cos ϕ, sin ϕ) , u⊥ (ϕ) = (− sin ϕ, cos ϕ).
2 2
Dann kann das Linienintegral umgeschrieben werden zu
Z∞
Z
f (z)dz =
Rf (ϕ, t) :=
Lt,ϕ
f (tu(ϕ) + su⊥ (ϕ))ds .
−∞
R(f )(ϕ, t) heisst der Radiograph zum Winkel ϕ im Abstand t. Die Transformation f 7−→ R f
heisst Radontransformation, denn J. Radon hat bereits 1917 die Aufgabe, aus Rf die Dichte
f zurückzugewinnen (ohne die Motivation der hier beschriebenen Anwendung) gelöst, d.h. er
hat die Inverse R−1 ausgerechnet“. Damit wäre also die Dichtebestimmung gelöst: Man messe
”
alle Radiographen y(ϕ, t) := (Rf )(ϕ, t) und bestimme nach Radon f gemäß
f := R−1 y .
In der Praxis liegen allerdings nur endliche viele Radiographen
yl = (Rf )(ϕl , tl ) , 1 ≤ l ≤ N ,
vor; meist verteilt man Winkel und Abstände äquidistant.
Es liegt auf der Hand, dass eine solche endliche Anzahl von Radiographen nicht ausreicht, f
vollständig zu rekonstruieren. Von G.N. Hounsfield und A.M. Cormack stammt aus den siebziger
Jahren ein Verfahren, auch in dieser Situation vernünftige Ergebnisse zu erzielen. Sie erhielten
1979 den Nobelpreis für Medizin für ihre Entwicklung dieser Diagnosetechnik. Eine heikle Frage
ist, welche wahren Details der Dichte sicher erkannt werden, und welche Details der ermittelten
Dichte Artefakte sein könnten.
In der praktischen Umsetzung der Methode hat man die Dichtefunktion zu diskretisieren.
Man teilt dazu die Schicht Ω in Pixel ein und weist jedem Pixel einen Dichtewert (Grauwert) xij
zu; diese Werte xij gilt es zu ermitteln. Von der Art, wie ein Strahl L = Lt,ϕ ein einzelnes Pixel
durchquert, hängt ab, welcher Beitrag zum Intensitätsverlust das Pixel leistet. Die gemessene
Intensität (eigentlich ein logarithmisches Intensitätsverhältnis) ist dann
X
yL =
aL
ij xij
i,j
wobei über alle Pixel summiert wird und aL
ij ”geometrische“ von L abhängende Konstanten sind.
L
L
Man kann nun aij , xij zu einem Vektor a bzw. x ∈ RN zusammenfassen und erhält damit
haL , xi = yL ,
Stand: 2. Mai 2000
29
c J. Baumeister
7.2
Impedanztomographie
wobei h·, ·i das euklidische Skalarprodukt in RN ist. Hat man nun m diskretisierte Radiographen
zur Verfügung, so erhalten wir für den gesuchten Dichtevektor x das Gleichungssystem
hal , xi = yl , 1 ≤ l ≤ m .
(10)
Die Aufgabe besteht nun darin, dieses im allgemeinen überbestimmte Gleichungssystem (m <
N !) zu lösen. Dazu wurde schon sehr früh ein sehr einfach zu durchschauender Algorithmus angewendet, der sogenannte ART–Algorithmus (algebraic reconstruction technique). Er wurde
schon 1939 von Kazcmarz ohne praktischen Hintergrund entwickelt. Dies geht so: Jede Gleichung
hal , xi = yl
entspricht einer Geraden gl in RN . Man will also den Schnittpunkt x∗ von m Geraden in RN
bestimmen. Dies kann man durch sukzessive Projektion einer aktuellen Näherung für x∗ auf
die gegebenen Geraden versuchen. Man beginnt dazu mit einer Startnäherung x0 ∈ Rn und
ermittelt reihum Näherungen
x1 , . . . , xm ∈ RN ,
indem xi gerade die Projektion von xi−1 auf die Gerade g i darstellt. Mit xm statt x0 kann
man das Vorgehen erneut durchlaufen. Da bei der Projektion der Abstand vom angenommenen
Schnittpunkt der Geraden x∗ nicht größer wird, – man kann mehr zeigen – kann man Konvergenz
der erzeugten Näherungsfolge gegen x∗ erwarten. Es ist ein Vorteil dieses iterativen Vorgehens
(Gaußsche Elimination wäre ein nicht sehr praktikables Vorgehen), schon während der Aufzeichnung der Daten mit der Auswertung, sprich Berechnung von x∗ , beginnen zu können.
In der Praxis gibt es den Schnittpunkt x∗ auf Grund von Messungenauigkeiten nicht. Im Abschnitt 8.4 deuten wir dazu etwas an.
7.2
Impedanztomographie
Elektrische Impedanztomographie (kurz
EIT) ist eine neuartige Tomographiemethode aus der Medizin.
Ziel ist die DarstelV
Γ
lung des Leitfähigkeitskoeffizienten im Inneren
des Körpers anhand von Messungen auf der
s+
Körperoberfläche. Der Versuchsaufbau ist wie
Ω
folgt; siehe Abbildung 12.
Auf dem Rand Γ eines Schnitts Ω durch einen
s
Körper werden p Elektroden befestigt. In p einzelnen Versuchen wird reihum an jeweils zwei benachbarte Elektroden Strom in den Körper geschickt bzw. abgezapft. Dabei ergibt sich ein
elektrisches Feld E bzw. ein Potential U (SpanAbbildung 12: Impedanztomographie
nungsdifferenz), welches am Rand Γ an p−2 Elektroden abgegriffen werden kann. Auf diese Weise
erhält man p Datensätze: einer für jeden Versuch mit jeweils p − 2 ( nicht ganz unabhängigen)
Messwerten. Wie hängen diese Messwerte mit der Leitfähigkeit σ : Ω −→ R zusammen? Das
physikalische Modell liefert das Ohmsche Gesetz, welches den Strom I und das elektrische Feld
E durch die Gleichung
I = σE (Ohmsches Gesetz)
Stand: 2. Mai 2000
30
c J. Baumeister
8
WAS KANN DAVON IN DEN SCHULUNTERRICHT EINGEHEN?
koppelt. Daraus erkennt man, dass der positive Leitfähigkeitskoeffizient als Kehrwert eines Widerstandes aufgefasst werden kann. Das elektrische Feld ist der negative Gradient des Potentials
U : Ω −→ R, d.h.
E = −grad U = −∇U .
Nach dem Prinzip der geringsten Arbeit richtet sich das elektrische Feld so aus, dass die
Gesamtarbeit (Elektronentransport) minimal ist. Dies führt nach Variationsprinzipien dazu,
dass das Potential U folgender Randwertaufgabe genügt:
div(σ grad U ) = 0 , Ω
∂U
σ
(·) − (δ(· − s+ ) − δ(· − s− )) = 0, auf Γ.
∂ν
Hierbei ist div“ die Divergenz des Elektrischen Feldes, ∂U die Normalableitung auf dem Rand
∂ν
”
Γ und δ(·) die so genannte Dirac–Distribution; (siehe Abbildung 12).
Wir haben p Experimente zur Bestimmung von σ zur Verfügung, nämlich die Anregungen in
1 ≤ j ≤ p; jeweils messen wir das Potential U1j , . . ., Upj in den Messpunkten {s1 , . . . , sp}\{sj , sj+1 } .
Die Aufgabe besteht nun darin, aus den Datensätzen
j
U1j , . . . , Up−2
, 1 ≤ j ≤ p,
die Leitfähigkeitsfunktion σ : Σ −→ R zu bestimmen. Dazu ist nun die Randwertaufgabe zu
diskretisieren. Dabei beschreibt man die Leitfähigkeitsfunktion σ wieder durch eine Pixelfunktion und versucht das entstehende nichtlineare Gleichungssystem zu lösen. Man kann die Idee
des ART–Verfahrens auch hier anwenden, da die Nichtlinearität nicht beliebig ist, sondern in
spezieller Form vorliegt.
8
Was kann davon in den Schulunterricht eingehen?
Wir greifen zunächst einige Begriffe und Überlegungen auf, die im Verlauf der Darstellung eine
Rolle spielten. Anschließend greifen wir etwas weiter aus und formulieren thesenhaft Probleme, die mit dem Mathematikunterricht zu tun haben. Möglicherweise wird dabei eine gewisse
Nichtvertrautheit mit Details der Lehrpläne deutlich, in der Tendenz hoffen wir jedoch richtig
zu liegen.
8.1
Alphabete und Codes
In der Mengenlehre werden Mengen zunächst meist völlig ohne Struktur behandelt. Es werden mit speziellen Objekten Mengen gebildet, es werden Mengendiagramme untersucht. Diese
zunächst zweifellos nötigen Ansätze sollten aber eine Fortsetzung finden, nämlich durch die Betrachtung von Mengen, in denen Strukturen zu finden sind, die sich lohnen zu betrachten. In
unserem Zusammenhang können wir als Grundmenge etwa mit einem Alphabet beginnen. Ein
Alphabet ist eine Menge A von Zeichen, mit denen wir durch Hintereinanderreihung Wörter
bilden wollen; aus Wörtern können wir dann durch Hintereinanderreihung Sätze bilden, eine
Sprache hat dafür Regeln. Mit einfachen Vorschriften kann man Wörter rekursiv definieren.
Den so entstehenden Wortschatz einzugrenzen oder gar zu charakterisieren ist eine interessante
Aufgabe, deren Zugang einfach ist. Es gibt genügend überzeugende Kontexte: Postleitzahlen, Morsezeichen, ISBN–Nummern. Etwas abgehobener ausgedrückt handelt es sich bei diesen
Überlegungen um die Codierung von Daten. Anspruchsvoller ist das dazugehörende Thema der
fehlerkorrigierenden Codes.
Stand: 2. Mai 2000
31
c J. Baumeister
8.2
Graphen
Es ist ein Kennzeichen unserer digitalisierten Welt, dass das Alphabet A := {0, 1}, das
sogenannte binäre Alphabet eine überagende Rolle spielt. Damit lassen sich Wörter bilden,
die dann Zeichenketten aus 0, 1 sind. Beispielsweise
01, 0000, 101010, . . . .
Es ist wesentlich, dass diesen Zeichenketten eine Bedeutung als Zahldarstellung zukommt,
nämlich der Dualdarstellung von natürlichen Zahlen:
2 = 10, 0 = 0000, 42 = 101010 = 32 + 8 + 2 , 425 = 11010101 .
Durch einen Dezimalpunkt“ und ein Vorzeichen kommt man zu einer Darstellung von belie”
bigen reellen Zahlen. Eine ähnliche Bedeutung kam in den Anfangszeiten der Computer dem
Hexadezimalsystem zu, nun etwas in den Hintergrund gedrängt. Hier liegt das Alphabet A :
= { 0, 1, . . . 9, A,B,C,D,E,F } vor. Etwa steht 1A9 für 1 · 162 + 10 · 16 + 9 · 160 = 425 . Es fällt
auf, dass man mit kürzeren Zeichenketten für ein und dieselbe Zahl auskommt.
Zeichenketten aus Nullen und Einsen, also Wörtern über dem binären Alphabet, kommt noch
eine andere Bedeutung zu. Etwa kann man die n–fache Wiederholung eines Bernoulliexperiments
durch ein binäres Wort der Länge n darstellen: 0 steht für Misserfolg, 1 steht für Erfolg. Daran
schließen sich dann einfache kombinatorische Überlegungen zur Abzählung spezieller Ereignisse
an.
8.2
Graphen
Ein Graph G(E, K) besteht aus einer (endlichen) Eckenmenge E und einer Menge K von
Paaren {a, b}, a 6= b von Kanten. Die Namen Ecken und Kanten deuten auf die bildliche
Darstellung hin, mit der wir uns einen Graphen vorstellen. Ist etwa
E = {1, 2, 3, 4, 5}, K = {{1, 2}, {1, 3}, {2, 5}, {4, 4}} ,
dann können wir den zugehörigen Graphen G = G(E, K) als Diagramm hinzeichnen; siehe
rechtes Diagramm in Abbildung 14.
Die große Bedeutung der Graphentheorie liegt nicht nur in der großen Anschaulichkeit der
verwendeten Begriffe, sondern vor allem auch darin, dass sich Probleme verschiedenster Art
graphentheoretisch formulieren lassen. Ihre Entwicklung begann 1736, als Euler, die nach ihm
benannten Graphen untersuchte; das Königsberger Brückenproblem steht als richtungsweisendes
Beispiel am Beginn der Entwicklung. In Abbildung 13 (a) ist die Landkarte“ von Königsberg
”
mit den sieben Brücken und den vier Landstücken zu sehen. Die Frage, die Euler mit Nein
beantwortete ist, ob es einen Rundweg gibt, der jede Brücke genau einmal benutzt. Der Graph
in 13 (b) hebt das Problem auf eine sehr abstrakte Ebene, aus der die Lösung losgelöst von
unnötigem Beiwerk abgelesen werden kann: Da es Knoten gibt, aus denen eine ungerade Anzahl
von Kanten herauslaufen, kann es einen solchen Rundweg nicht geben.
Mit Graphen lassen sich Probleme, in denen eine zweistellige Beziehung eine beschreibende
Bedeutung hat, gut untersuchen
• Spielplan für ein Tennisturnier
• Teilbarkeitsgraphen
• Nachbarschaftsbeziehungen (Färbung von Landkarten)
• Matchingprobleme (Computerplatinen)
Stand: 2. Mai 2000
32
c J. Baumeister
8.3
D
D
a
a
Algorithmen
d
e
A
g
d
g
e
A
C
C
c
b
c
B
b
f
f
B
(b) Der zugehörige Graph
(a) Skizze der Landkarte
Abbildung 13: Das Königsberger Brückenproblem
• Endliche Geometrien (Geraden verbinden zwei Punkte)
• Rundreisegraphen (nach A wird B besucht)
• Gewichtete Graphen und Straßenkarten
Bäume sind spezielle Graphen, nämlich solche, in denen kein geschlossener Weg entlang
von Kanten existiert; in Abbildung 14 liegt
links ein Baum vor, rechts liegt kein Baum
vor. Der Symbolbaum in der Hufmankompression ist auch ein Beispiel. In der (diskreten) Wahrscheinlichkeit bedient man sich der
Bäume, um in einem Diagramm Wiederholungen eines Bernoulliexperiments festzuhalten;
die Pfadregeln werden anhand solcher Diagramme formuliert.
8.3
1
5
2
4
3
Abbildung 14: Graphen
Algorithmen
Unter einem Algorithmus versteht man die eindeutige und vollständige Beschreibung des
Weges, auf dem ein gewünschtes Resultat bei gegebenen Voraussetzungen durch eine endliche Anzahl von Verarbeitungsschritten erreicht werden soll. Unter einem Programm versteht
man die Implementierung eines Algorithmus auf einem Computer. Es steuert den Ablauf eines
Rechenprozesses, in dessen Verlauf das Resultat erarbeitet wird.
Die Laufzeit eines Algorithmus ist die Zeit, die ein Rechenprozess benötigt, um bei gegeben Eingabedaten ein Resultat zu erzielen. Damit die Rechenleistung qualitativ keine Rolle
spielt, übersetzt man Zeit in Anzahl von Rechenoperationen. Die Bestimmung der Laufzeit ist
meist ein schwieriges Unterfangen, meist ist man mit Abschätzungen zufrieden. Bezieht man
auch noch den Speicherbedarf, den der Rechenprozess erfordert, ein, spricht man auch von der
Komplexität eines Algorithmus.
Einfache Algorithmen, die in der Datenverarbeitung vordringlich benötigt werden, sind die
Stand: 2. Mai 2000
33
c J. Baumeister
8.4
Koordinaten
Such– und Sortieralgorithmen. Manche sind uns intuitiv vertraut, für manche bedarf es
einigen Nachdenkens. Ein einfacher Sortieralgorithmus ist insertion–sort. Er funktioniert wie
das Einsortieren von Spielkarten von einem Stapel in die Hand: man nimmt Karte für Karte vom
Stapel und sortiert sie ein, indem man den Kartenwert mit allen schon in der Hand befindlichen
Karten (etwa angeordnet von links nach rechts) vergleicht. Überträgt man diese Vorgehen auf
ein Feld von ganzen Zahlen, so kann man so vorgehen:
• Man wähle ein Element des Feldes aus. Alle Elemente links davon seien schon sortiert.
• Man starte mit dem Element links von dem ausgewählten Element. Ist dieses grösser als
das ausgewählte, wird es um eine Position nach rechts geschoben.
• Man fahre mit dem nächsten links fort, bis man ein Element gefunden hat, das kleiner als
das ausgewählte ist.
• Nun füge man das ausgewählte Element an der freien Stelle ein.
• Beim Start wählt man das 2. Element im Feld.
Wie sieht die Laufzeit aus? Im günstigsten Fall ist das Feld sortiert. Im ungünstigsten Fall
ist das Feld gerade umgekehrt sortiert. Dann muss jedes Feldelement mit allen vorhergehenden
verglichen werden und man erhält als Anzahl der nötigen Vergleiche eine quadratische Funktion
in der Anzahl der Felder.
Weitere Sortierverfahren sind selection–sort, buble–sort, quick–sort. Im Mittel ist quick–
sort das beste Verfahren. Sortierverfahren kann man auch mit Sortierbäumen veranschaulichen.
8.4
Koordinaten
Koordinaten (der Ebene) werden in der Schule meist ausschliesslich oder zumindest über zu lange Zeit nur als Beschriftung von Achsen eingeführt, um Graphen von Funktionen mit Maßstäben
zeichnen zu können. Es wäre wünschenswert, Koodinatisierung unseres uns umgebenden Raumes früh an sehr vielen Beispielen einzuführen: Euklidische Koordinaten des Raums, sphärische
Koordinaten auf der Erde, Sternkoordinaten im Kosmos. Lineare Abbildungen (mit ihrer Matrizenbeschreibung) sind als dazu passende Abbildungen zu untersuchen. Die Korrektur von
geometrischen Verzerrungen (siehe Abschnitt 2.5 ist eine interessante Anwendung von solchen
Abbildungen in der elementaren Geometrie.
Aber es scheint mir wichtig, nicht dabei stehen zu bleiben. Koordinatisierung/Vektorisierung
hat eine viel umfassende Bedeutung. Farbwerte bei Bildabbildungen können dazu dienen, dies
zu erkennen. In der RGB–Farbdarstellung können wir jedem Bildpunkt einen Bildvektor mit 3
Komponenten zuordnen. Das RGB–Modell ist ein additives Farbmodell, d.h. mischt man die
drei Farben rot, grün, blau mit bestimmten Intensitäten zusammen, so ergibt sich die Farbe
weiss. Beim RGB–Modell werden die darstellenden Farben als Punkte eines im Ursprung eines
kartesischen Koordinatensystems liegenden Einheitswürfel beschrieben. Auf den positiven Achsen werden die drei Primärfarben R, G, B aufgetragen. Die Hauptdiagonale des Einheitswürfels
enthält die Farben mit gleich grossem Anteil der Primärfarben; (0,0,0) entspricht schwarz, (1,1,1)
entspricht weiss. Eine Farbe hat man dann durch die Anteile zu beschreiben, die zu schwarz zu
addieren sind.
Das CMY–Modell (Cyan, Magenta, Yellow) ist ein subtraktives Farbmodell. Die Mischung
von C, M, Y ergibt schwarz. Nun liegt weiss im Ursprung des Koordinatensystems. Farben
werden beschrieben durch die von der Farbe weiss abzuziehenden Anteile der Grundfarben.
Die Grundfarben absorbieren Farben des RGB–Modells, also RGB = (1,1,1) – CMY“. Dieses
”
Farbmodell wird bei Druckern benutzt.
Stand: 2. Mai 2000
34
c J. Baumeister
8.5
Gleichungssysteme
Die Umwandlung von RGB–Bildern in YUV–Bilder hin und zurück geschieht mit einer linearen Transformation:





Y
0.2290
0.5870
0.1140
R
 U  =  −0, 1687 −0.3313
0.5000   G 
V
0.5000 −0.4187 −0.0813
B





R
1.0000
0.0000
0.4020
Y
 G  =  1.0000 −0.3441 −0.7141   U 
B
1.0000
1.7720
0.0000
V
Der Eintrag 0.5870 in der Umwandlungsmatrix von RGB nach YUV trägt der hohen Empfindlichkeit des Auges für die Farbe grün Rechnung.
Es ist das Resultat der Digitalisierung unserer Umwelt, dass aus mathematischer Sicht die
Bedeutung von Analysis abgenommen hat und die Lineare Algebra grössere Bedeutung gewonnen hat: Funktionen werden durch Vektoren ersetzt, die Wahl von basen ist ein ganz wichtiges
Thema geworden, da eine günstige Wahl schon eine Komprimierung von Daten mit sich bringt;
die Wavelettransformation ist die Perfektion“ dieser Idee. Skizzieren wir ein kleines Beispiel.
”
Haben wir es mit Vektoren x = (x1x2 , x3, x4) ∈ R4 zu tun, so denken wir sofort an die Standardbasis
(1, 0, 0, 0) , (0, 1, 0, 0) , (0, 0, 1, 0) , (0, 0, 0, 1)
zu ihrer Darstellung. Hat man es aber mit einem Vorgang zu tun, bei dem Vektoren der Form
(c, c, c, c) ∈ R4 häufig vorkommen, so sollte man e = (1, 1, 1, 1) als Basisvektor verwenden: solche
Vektoren sind dann mit einer Zahl, nämlich c zu übertragen.
8.5
Gleichungssysteme
Allgemein wird zur Lösung eines linearen Gleichungssystems das Eliminationsverfahren von C.F. Gauß propagiert. Sie ist nicht immer die Methode der Wahl.
Iterative Verfahren sind in gewissen Situationen vorzuziehen, da sie nach jedem Iterationsschritt schon eine
Näherung für die Lösung bereitstellen, das Eliminationsverfahren aber immer erst bis zum Ende durchgerechnet werden muss, ehe eine Lösung ablesbar ist.
Man sollte aber beachten, dass dann ein ganzes Stück
mehr Information zur Verfügung steht.
Hier ist ein iteratives Verfahren, das sogenannte
ART–Verfahren, das anschaulich ist und Einblick in
elementare Geometrie gibt. Wir beschreiben es im R2 ;
die Idee wird damit hinreichend klar.
Gegeben sei das Gleichungssystem (siehe (10))
2
3
1
Abbildung 15: Sukzessive Projektion
hal , xi = yl , 1 ≤ l ≤ m .
(11)
Jede Gleichung in (11) korrespondiert mit der Geraden gl : y = hal , xi . Das Gleichungssystem
(11) lösen heisst also, den Schnittpunkt dieser Geraden zu finden. Dies kann man durch sukzessive Projektion der aktuellen Näherung auf diese Geraden erreichen; siehe Abbildung 15. Dabei
sehen wir auch, dass wir die Gleichungen periodisch nutzen:
al := al−m , yl := yl−m , l = m + 1, . . . .
Stand: 2. Mai 2000
35
c J. Baumeister
8.5
Gleichungssysteme
Wie sieht nun diese Projektion formelmässig aus? Wir können dazu o.E. annehmen, dass die
Zeilenvektoren al schon normiert sind, d.h. dass
hal , al i = 1 , l = 1, . . . , m
gilt. Es lässt sich dann leicht verifizieren, dass
xl := xl−1 + (yl − hal , xl−1i)al , l = 1, 2, . . . .
(12)
die zutreffende Vorschrift ist. Mit dem Satz von Pythagoras kann man sofort eine Konvergenzuntersuchung angehen. Hier ist nun die algorithmische Umsetzung:
Algorithmus 2
Das ART–Verfahren
EIN: Zeilenvektoren a1, . . . , am , am+1, . . . , Messdaten y1 , . . . , ym, ym+1 , . . . . Startpunkt x0 ∈
RN ; l := 1 .
SCHRITT 1: xl := xl−1 + (yl − hal , xl−1i)al ;
SCHRITT 2: Setze l := l + 1 und gehe zu Schritt 1.
AUS: Folge {x0 , x1, x2, . . . } von Näherungen für die Lösung des Gleichungssystems (11).
Klar, die Schleife muss terminiert werden; beachte die Endlichkeit von Algorithmen. Man
hat dazu ein Abbrechkriterium etwa folgender Art zu implementieren: Ist
max |yl − hal , xl i| ≤ ε ,
l=1,...,m
dann beende; hierbei ist ε eine vorgegebene Fehlergenauigkeit.
Was ist zu tun, wenn Messungenauigkeiten vorhanden sind? Dann ist auch nicht klar, was
nun Lösung“ heissen soll, denn ein Schnittpunkt der Geraden wird nun nicht vorliegen. Ein
”
schon auf C.F. Gauß zurückgehender Lösungsbegriff ist der der Fehlerquadratlösung. x∗ heisst
Fehlerquadratlösung genau dann, wenn
(m
)
m
X
X
|hal , x∗i − yl |2 = inf
|hal , xi − yl |2|x ∈ R2
l=1
l=1
gilt. Lässt sich diese Lösung nach der obigen Vorgehensweise errechnen? Jedenfalls nicht,
wenn wir das Vorgehen nicht abändern, denn es lässt sich leicht ein Beispiel konstruieren, bei
dem das obige Vorgehen zyklisch wird, d.h. es eine Folge x1, . . . , xm , xm+1, . . . erzeugt mit
xl+m = xl , l = 1, 2, . . . . Was ist abzuändern? Es ist eine Schrittweitensteuerung vorzusehen:
xl := xl−1 + λl (yl − hal , xl−1i)al , l = 1, 2, . . .
(13)
mit
λl ≥ 0 , l = 1, . . . ,
∞
X
λl = ∞ ,
l=1
∞
X
λ2l < ∞ .
(14)
l=1
Dann konvergiert die Folge (xlm )l∈N in der Tat gegen die Fehlerquadratlösung des Gleichungssystems.
Im Zusammenhang mit der Computertomographie sind Verfahren interessant, die die Matrix
(a1 | · · · |am ) in Blöcke betrachtet, die schon durch den Messvorgang nahegelegt werden. Dann
wird blockweise iteriert, die Projektionsmethode wird auf Ebenen“ ausgedehnt.
”
Stand: 2. Mai 2000
36
c J. Baumeister
8.6
8.6
Thesen
Thesen
Wir formulieren Thesen, die sich nach den vorhergehenden Anmerkungen zu interessanten Themen im Mathematikunterricht geradezu aufdrängen. Sie haben auch zu tun mit Erfahrungen
und Einsichten, die der Autor in einer 4–semestrigen Vorlesung zur fachwissenschaftlichen Ausbildung von Grund–, Haupt– und Realschullehrern gewonnen hat.
1. These Mathematik, wie sie im heutigen Informations– und Kommunikationszeitalter von
besonderem Interesse ist, wird an der Schule praktisch nicht unterrichtet.
Ansätze, die etwa bei Gleichungssystemen, der elementaren Geometrie (Projektion und Perspektive), der Stochastik (Zufall und Irrfahrten) vorhanden wären, werden nicht aufgenommen.
Hinterfragt man, was hinter der Entwicklung der Informations– und Kommunikationstechnologie steckt, stösst man sofort auf mathematische Theorien. Die Neugierde darauf zu lenken, ist
Aufgabe eines lebendigen Unterrichts und Leitlinie für die Umgestaltung des Lehrstoffes.
2. These Allgemein ist im Mathematikunterricht das Gewicht der Analysis zu gross, und in
der Physik, wo Analysis am ehesten geeignet ist, eine fruchtbare Symbiose einzugehen,
wird keine vernünftige Brücke geschaffen.
In der Analysis werden als Höhepunkte die allseits beliebten Steckbriefaufgaben angeboten: Gesucht ist eine Funktion, die in x = 0 eine Nullstelle, in . . . . Physik und Mathematik ließen sich
in der Oberstufe durch eine engere Verzahnung sicher sehr beleben. Allerdings müsste damit
eine stärkere Betonung der naturwissenschaftlichen Wahrnehmung unserer Umwelt verbunden
sein. In unserem Kontext könnte dies bedeuten: Farb–Modelle, Frequenzen von Signalen, Satellitenerkundung, Diagnostik in der Medizin.
3. These Die Mathematik, die stärker betont und in die Curricula aufgenommen werden sollte,
wird im wesentlichen durch den Oberbegriff Diskrete Mathematik“ zusammengefaßt.
”
Diskrete Mathematik beschäftigt sich mit sehr einfach zugänglichen Problemen und Strukturen
und ist gerade deshalb bestens geeignet, einen Wandel in der Mathematikausbildung und im
Mathematikunterricht herbeizuführen; siehe [RF] (Quelle für Hinweise auf Originalarbeiten und
computerorientierte Hilfen). Sie führt weg von routinemäßigem Anwenden von Formeln und
Rezepten und leitet hin zu kreativem Arbeiten an Hand von leicht zu beschreibenden Anwendungen. Die obigen Objekte und Begriffe geben – im Rahmen der Bildverarbeitung – einen
Geschmack davon. Reizvolle Probleme kann man etwa in [AZ] finden.
4. These Der algorithmische Standpunkt ist herauszuarbeiten und zu betonen.
In der diskreten Mathematik tritt der algorithmische Standpunkt deutlich zu Tage, d.h. die
Seite der Mathematik, die sich die Frage nach sicheren und effektiven Berechnungen von Objekten stellt. In der Mathematik an den Universitäten tritt dieser Aspekt immer mehr in den
Vordergrund. Ein Schlüsselthema in der Mathematik taucht hier als Methode auf: Reduktion
auf einen bereits behandelten Fall (Rekursion). In der Mathematik an den Universitäten tritt
dieser Aspekt immer mehr in den Vordergrund; siehe [Fo]. Im übrigen gehört diese Art von
Mathematik durchaus zu Euklids Erbe.
5. These Aktuelle Fortschritte lassen sich auch in der Mathematik in den Unterricht einbinden.
Es ist nicht nötig, dass in der Schule nur jahrhundertalte Mathematik unterrichtet werden muss;
28 Beweisen zum Satz des Pythagoras einen 29. hinzuzufügen, kann nicht das Ziel sein. In
Stand: 2. Mai 2000
37
c J. Baumeister
8.6
Thesen
anderen Fächern bemüht man sich durchaus, sehr aktuelle Erkenntnisse auf einem elementaren
Niveau in den Schulunterricht einzufügen; siehe etwa [dp]. Dies bedarf aber einer grossen Anstrengung. Auch in der Mathematik muss gelten: Der Köder muss (in erster Linie) dem Fisch
schmecken und nicht (allein) dem Angler!
6. These Im Mathematikunterricht werden die Kernfähigkeiten geschult, die auch für die Informatik wesentlich sind: Im Speziellen Allgemeines zu erkennen, aus konkreten Aufgabenlösungen abstrakte Lösungswege herauszufinden.
Es wäre an der Zeit, die gerade für die Schule so schmerzlich Trennung von Mathematik und
(theoretischer) Informatik, aufzugeben und zu klaren Konzepten für einen gut abgestimmten
Unterricht in Mathematik und Informatik zu kommen.
7. These Möglichkeiten der Computer werden am besten erfasst durch ein breites Verständnis
algorithmischen Vorgehens.
In der algorithmischen Betrachtunsweise wird das Arbeitsmuster
mache dies, dann dies, wenn jenes gilt“
”
eingeübt, das nahezu einzige Prinzip der Programmierung von Computern.
8. These Nicht das Arbeiten am Computer muss gelernt werden, sondern die Strukturen sind
zu erarbeiten, die Computer befähigen das zu leisten, was man von ihnen erwartet.
Es ist doch eine allgemeine Erfahrung, dass Heranwachsende spielend einfach mit dem Computer
umgehen; nur ältere Semester“ haben hier Versagensängste.
”
Die Strukturen, die für die Leistungen der Computer massgeblich sind, sind bisher überwiegend
mathematische Strukturen, neuerdings auch solche, die sich aus der Biologie ableiten: Wie wird
Suchen organisiert, was sind redundante Informationen, wie lässt sich Vernetzung herstellen,
was ist die Komplexität einer Struktur, eines Vorgehens? Die obigen skizzierten Ansätze zur
Codierung und zu Graphen gaben einen Geschmack davon. Sie sind einfach zugänglich und von
großer Aussagekraft.
9. These Schulen ans Netz“ ist bei der derzeitigen Lehrersituation eine Alibi–Veranstaltung!
”
Sie wird viel Geld kosten, viel Computerschrott zurücklassen, für die bessere nachhaltige Vorbereitung der Schüler auf das Berufsleben nichts bringen, vom Nachdenken über
Unterrichtsinhalte ablenken.
Hat man in der Öffentlichkeit schon jemals etwas gehört, wie man sich Unterrichtseinheiten
vorzustellen hat, bei dem das Netz genutzt wird? Glaubt man wirklich, dass man Klassen mit
Klassenstärke 22 in einen Computerraum stecken kann und unter Aufsicht – dies ist juristisch
geboten – nach Texten über ein Gedicht von Trakl suchen lassen kann? Aufteilung der Klassen
in kleine Gruppen lässt ja wohl die Ausstattung der Schulen mit Lehrern nicht zu. Oder sollen
die Computer im Lehrerzimmer verstauben? Wer soll eigentlich kompetent die Schüler beraten?
Neben einigen engagierten Lehrern, die in der Freizeit sich weitergebildet haben, gibt es doch
nur gleichgültiges Nichtwissen. Selbst Minister, die für plakative Statements zu diesem Thema
immer gut sind, brüsten sich andererseits, Arbeit, die mit dem Computer zu tun haben, deligieren zu können. Sie sollten selbst Erfahrungen sammeln, alle Seiten“ des Netzes kennenlernen
”
und nicht auf die Aussagen einiger Gurus angewiesen zu sein. Ohne eine Filterung, Aufbereitung
und Durchdenkung der Faktensammlungen im Internet durch die Lehrenden kann kein Vorteil
für die Lernenden herauskommen.
Stand: 2. Mai 2000
38
c J. Baumeister
9
LITERATUR
Kein Zweifel, Zugang zum Netz für viele, ja alle, auch für die Schulen zu schaffen, ist an der
Zeit. Es wäre aber eine vordringliche Aufgabe der Politik, die Computerindustrie von dem
Irrsin abzuhalten, PC–Ausstattungen immer zum selben Preis anzubieten mit immer grösseren
Leistungen. Welcher Normalverbraucher benötigt einen Computer mit 800 MHz Taktfrequenz
und 20 GB Festplattenspeicher? So wie nahezu jede Familie mindestens einen Fernseher besitzt,
könnte erwartet werden, dass ein PC mit vernünftiger Ausstattung – ein Preis von 1 200.– DM
wäre zur Zeit durchaus realistisch – in jedem Haushalt angeschafft wird; Anreize gibt es genug.
Die Politik sollte nicht der Versuchung erliegen, die öffentlichen Kassen von der Computerindustrie plündern zu lassen. Die Gelder sollten vielmehr für die zeitgemäße Ausbildung der Lehrer
und Einstellung junger(!) Lehrer eingesetzt werden.
10. These Eine wirkliche Neugestaltung des Mathematikunterrichts wird es nur geben, wenn
die Lehrerbildung aus den bürokratischen Fängen der Landesminister befreit wird.
Seit Jahren, seit Felix Kleins Zeiten um 1900 wird der schlechte Zustand der Lehrerbildung
beklagt. Mehr als ein gelegentliches kurzes Aufflackern von geschäftiger Papiereschreiberei war
bisher nicht zu vermelden. Es ist eine Chance, wenn Universitäten vor die Realität gestellt
werden, wirklich über Lehrerbildung nachzudenken; ein Verstecken hinter bürokratischen Genehmigungsszenarien wäre vorbei.
9
Literatur
Literatur
[@@@@] Buchliteratur
[Ab] Abmayr, W., Einführung in die digitale Bildverarbeitung, Teubner–Verlag, Stuttgart,
1994
[AZ] Aigner, M., Ziegler, G.M., Proofs from the BOOK, Springer–Verlag, Berlin, 1998
[Ba] Barnsley, M., Fractals Everywhere, Academic Press, Providence, 1988
[Bl]
Blatter, M., Wavelets–Eine Einführung, Vieweg–Verlag, Braunschweig, 1998
[DF] Diaconis, P., Freedman, D., Iterated Random Functions, SIAM Review 41 (1999), 45
– 76
[Fi]
Fischer, Y., Fractal Image Compression: Theory and Applications, Springer–Verlag,
Berlin, 1995
[Fo] Forster, O., Algorithmische Zahlentheorie, Vieweg–Verlag, Braunschweig, 1996
[Ha] Haberäcker, P., Praxis der digitalen Bildverarbeitung und Mustererkennung, Carl–
Hauser–Verlag, München, 1995
[Hu] Hubbard, B.B., Wavelets – Die Mathematik der kleinen Wellen, Birkhäuser–Verlag,
Basel, 1997
[Ka] Kaiser, G., A friendly guide to Wavelets, Birkhäuser–Verlag, Basel, 1994
[Ja] Jähne, B., Digitale Bildverarbeitung, Springer–Verlag, Berlin, 1993
Stand: 2. Mai 2000
39
c J. Baumeister
LITERATUR
[Le] Lehmann, T., Bildverarbeitung für die Medizin, Springer–Verlag, Berlin, 1997
[Ma] Mallat, S. G., A wavelet tour of signal processing, Academic Press, San Diego–London,
1998
[RF] Rosenstein, J.G., Franzblau, D.S., Roberts, D.S. (eds.), Discrete Mathematics in
the Schools, DIMACS, vol. 36, AMS, 1997.
[St]
Strang, G., Wavelet transforms versus Fourier transforms, Bull. Amer. Math. Soc. 28
(1993), 288–305.
[@@@@] Internetliteratur
[ck]
http://cas.ensmp.fr/∼chaplais/Wavetour−presentation/ondelettes%20.../Edge−Detektion.htm
[dp] http://didaktik.physik.uni-wuerzburg.de/∼pkrahmer/home/homep.html
[ga] http://www.eee.metu.edu.tr/∼ngencer/amara.htm
[go] http://www.uic.edu/classes/ah/ah110a/L33/l33-11b.html
[ka]
http://vs.informatik.uni-ulm.de/Mitarbeiter/Kassler/index.html
[kg] http://www.muenster.org/kantgym/fach/f-info/f-info01.htm
[os]
http://www-lehre.informatik.uni-osnabrueck.de/∼mm/skript/5−5− Fraktale−Kompression.html
[ri]
http://www.dbg.rt.bw.schule.de/lehrer/ritters/info/kompr/kompr.htm
[ro]
http://www.ronnz.de/bildkompression/kompression.html
[sm] http://www.wdr.maus.de/sndg/sags−morsen.html
[th]
http://ruvs.informatik.tu-chemnitz.de/Mitarbeiter/Thie-sub/vorlesung/compress/pictures.html
[wu] http://www.matheprisma.uni-wuppertal.de/Module/Fraktal/Fraktale.htm
Stand: 2. Mai 2000
40
c J. Baumeister