Überblick über aktuelle Verfahren zur Tiefenschätzung

Transcription

Überblick über aktuelle Verfahren zur Tiefenschätzung
Überblick über aktuelle Verfahren zur Tiefenschätzung
aus 2D-Video-Sequenzen
Studienarbeit an der TU Berlin, Institut für Telekommunikationssysteme, FG Nachrichtenübertragung
Olga Ebers
19. März 2004
1
INHALTSVERZEICHNIS
2
Inhaltsverzeichnis
I
Symbole und Abkürzungen
7
1 Einführung
9
2 Shape from Stereo
2.1 Das Stereokamerasystem . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Das Lochkameramodell . . . . . . . . . . . . . . . . . . .
2.1.2 Koordinatentransformationen . . . . . . . . . . . . . . . .
2.1.3 Kalibrierung der Videokameras . . . . . . . . . . . . . . .
2.2 Epipolargeometrie . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Konvergente Stereogeometrie . . . . . . . . . . . . . . . .
2.2.2 Schätzung der Stereogeometrie . . . . . . . . . . . . . . .
2.2.3 Achsenparalleses Stereo und Rektifikation . . . . . . . . .
2.2.4 Drei-Ansichten-Geometrie . . . . . . . . . . . . . . . . . .
2.2.5 Mehrere-Ansichten-Geometrie . . . . . . . . . . . . . . . .
2.2.6 Axiale Geometrie . . . . . . . . . . . . . . . . . . . . . . .
2.3 Das Korrespondenzproblem . . . . . . . . . . . . . . . . . . . . .
2.3.1 Pixelbasierte Verfahren . . . . . . . . . . . . . . . . . . .
2.3.2 Merkmalsbasierte Verfahren: Feature points als Merkmale
2.3.3 Merkmalsbasierte Verfahren: Kantenpunkte als Merkmale
2.3.4 Merkmalsbasierte Verfahren: Komplexe Merkmale . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
13
13
14
16
19
19
20
22
23
25
26
29
30
33
35
38
3 Shape from Motion
3.1 Schätzung mit Methoden der Stereobildverarbeitung . . . . . . . . . . . . . .
3.1.1 Vergleich mit konventionellen stereobasierten und trifokalen Techniken
3.1.2 Aktuelle Entwicklungen . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Struktur aus dem optischen Fluss . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Berechnung der Tiefenwerte aus dem optischen Fluss . . . . . . . . . .
3.2.2 Schätzung des optischen Flusses . . . . . . . . . . . . . . . . . . . . .
3.3 Rekursive und Multi-View-Techniken . . . . . . . . . . . . . . . . . . . . . . .
3.4 Tomasi-Kanade-Faktorisation . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
43
43
44
45
47
48
52
56
4 Shape from Shading
4.1 Problemstellung . . . . . . . . . . . . . . . .
4.1.1 Reflektanzkarte . . . . . . . . . . . .
4.1.2 Reflektivitätsgleichung . . . . . . . .
4.1.3 Rekonstruktion der Flächennormalen
4.1.4 Rekonstruktion der Oberfläche . . .
4.2 Photometric Stereo . . . . . . . . . . . . . .
4.3 Aktuelle Entwicklungen . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
61
62
62
62
63
63
5 Shape from Silhouette
5.1 Berechnung der Silhouetten . . . . . .
5.2 Schätzung der Visuellen Hülle . . . . .
5.2.1 Volumenbasierte Techniken . .
5.2.2 Oberflächenbasierte Techniken
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
68
68
70
71
73
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INHALTSVERZEICHNIS
3
6 Shape from Focus/Defocus
6.1 Shape from Focus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Shape from Defocus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
77
78
7 Shape from Texture
7.1 Strukturelle Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Statistische Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Geometrische Szeneneigenschaften . . . . . . . . . . . . . . . . . . . . . . . .
80
83
84
86
8 Problembehandlung
87
9 Vergleich der Verfahren und Ausblick
89
A Literatur
92
ABBILDUNGSVERZEICHNIS
4
Abbildungsverzeichnis
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
Passive Verfahren der Tiefenschätzung . . . . . . . . . . . . . . . . . . . . . . 10
Projektion eines 3D-Punktes in zwei Bildebenen. Quelle: [POL00] . . . . . . . 11
Ein Blockdiagramm für 3D-Modellierung aus unkalibrierten Videosequenzen.
Quelle: [KIM03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Gesamtkonzept für eine stereobasierte Videosensorik. Quelle: [SUP00] . . . . 12
Man Drawing a Lute (The Draughtsman of the Lute), 1525, Albrecht Dürer.
Quelle: [POL00] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Perspektivische Projektion. Quelle: [POL00] . . . . . . . . . . . . . . . . . . . 14
Koordinatensysteme. Quelle: [AAN02] . . . . . . . . . . . . . . . . . . . . . . 15
Teilschritte der Abbildung eines 3D-Punktes aus Weltkoordinaten in einen
2D-Punkt in Pixelkoordinaten . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Unterschiedliche Arten der Kamerakalibrierung. Quelle: [WON01] . . . . . . . 17
Zwei unterschiedliche Testobjekts für Kamerakalibrierung. Quelle: [EIS02] . . 18
Epipolare Einschränkung für eine Achsparallele Geometrie: Projektion des
Punktes im linken Bild befindet sich auf der entsprechenden Epipolarlinie im
rechten Bild. Quelle: [TOE04] . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Epipolare Geometrie. Quelle: [ZHA96] . . . . . . . . . . . . . . . . . . . . . . 20
Achsenparallele Stereogeometrie. Quelle: [JIA97] . . . . . . . . . . . . . . . . 23
Rektifikation. Quelle: [AAN02] . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Epipolargeometrie für Trinokulares Stereo. Quelle: [JIA97] . . . . . . . . . . . 24
Eine Videokonferenz-Anwendung, Ergebnisse der Rekonstruktion: a) Ein binokularer Algorithmus, b) Ein trinokularer Algorithmus. Quelle: [MUL01] . . . 25
Von links nach rechts: Das erste und das letzte Bilder einer Eingangssequenz,
Tiefenkarten für einen Zwei- und Fünf-Ansichten-Schätzer. Quelle: [KOC98] . 26
Rotational Stereo Modell. Quelle: [LIN02] . . . . . . . . . . . . . . . . . . . . 27
Teiloberflächen für vier Kameraansichten. Quelle: [PAR01] . . . . . . . . . . . 27
Axiale Stereogeometrie. Quelle: [JIA97] . . . . . . . . . . . . . . . . . . . . . 28
Zuordnungsmerkmale. Quelle: [JIA97] . . . . . . . . . . . . . . . . . . . . . . 29
Beispiele für Zuordnungsmerkmale, rot: Ecken, blau: Schrittkanten, grün: Linien, gelb: Scheiben. Quelle: [BAK98] . . . . . . . . . . . . . . . . . . . . . . 30
Ein korrelationsbasiertes BM-Verfahren: zwei Eingangsbilder und die resultierende Disparitätskarte. Quelle: [MUE01] . . . . . . . . . . . . . . . . . . . . . 32
Disparitätsschätzung durch stochastische Methoden. Quelle: [SUP00] . . . . . 32
Ein auf einzelnen Pixel basierter Stereoalgorithmus: rekonstruierte 3D-Punkte
mit natürlichen Texturen (vier Ansichten ). Quelle: [BAJ98] . . . . . . . . . . 33
Beispiel eines Voronoi-Diagramms. Quelle: [TAN02] . . . . . . . . . . . . . . . 35
Ergebnisse von LofG-Filterung (rechtes Bild). Quelle: [CAN93] . . . . . . . . 38
Eingangsbild (links) und die mit Hilfe von richtungsselektiver Hough-Transformation
extrahierten Liniensegmente (rechts): Quelle: [ROU03] . . . . . . . . . . . . . 39
Originale (weiß) und geschätzte (schwarz) Linien (vergrößert): Quelle: [BAR03] 39
Aus Liniensegmenten rekonstruierte 3D-Form. Quelle: [QUA97] . . . . . . . . 40
Ein Segmentierungsalgorithmus für Navigation mobiler Roboter: Quelle: [ROU03] 41
Trainingsphase eines Objekterkennungsalgorithmus am Beispiel eines Farbtrainings. Quelle: [COE03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Ablauf der 3D-Objektrekonstuktion. Quelle: [AAN02] . . . . . . . . . . . . . 43
Ablauf der 3D-Objektrekonstuktion. Quelle: [POLaKOC00] . . . . . . . . . . 46
Ein Eingangsbild (links) und die rekonstruierte 3D-Form (rechts). Quelle: [LI03] 46
ABBILDUNGSVERZEICHNIS
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
5
Optischer Fluss, links: Messanordnung, rechts: geschätzter optischer Fluss.
Quelle: [TOE04] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Oben: Schätzung des optischen Flusses, unten: Ermittlung der korrespondierenden Pixeln. Quelle: [TAO01] . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Aperturproblem, Objektbewegungen: sicher bestimmbare (rot), tatsächliche
(blau), ebenfalls mögliche (schwarz). Quelle: [MIE02] . . . . . . . . . . . . . . 49
a) Bild aus der Eingangssequenz, b) geschätzter optischer Fluss, c) die für die
Bewegungsschätzung verwendeten Gaborfilter-Ausgänge. Quelle: [BRU02] . . 51
Blockschaltbild für eine robuste Bewegungsschätzung mit Stereo-Methoden.
Quelle: [GRE02] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Vergleich von Verfahren zur Bewegungsbestimmung. Quelle: [HEI98] (Tabelle
verändert) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Von links nach rechts: Verschiebungs-, Verdeckungs- und eine Zuverlässigkeitskarten. Quelle: [ZHA01] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Blockdiagramm eines Algorithmes für Multi-frame-fusion. Quelle: [CHOWaCHE01] 54
Links: Das erste und das letzte Bild der Eingangssequenz, rechts: zwei synthesierte Ansichten. Quelle: [CHOWaCHE01] . . . . . . . . . . . . . . . . . . . . 55
Blockdiagramm für ein dynamisches Tiefenermittlungsverfahren. Quelle: [TAO01] 55
Links: Eingangsbild einer Videosequenz, rechts: die resultierende Tiefenkarte.
Quelle: [TAO01] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Orthographische Projektion. Quelle: [JEB99] . . . . . . . . . . . . . . . . . . 56
a) 1. und 9. Bilder der Gebäudesequenz, b) Oben- und Seitenansichten der
Rekonstruktion, 3-Eck-Figuren beschreiben Bewegung der Kameras, c) Zwei
Ansichten mit Texture-Mapping. Quelle: [HAN00a] . . . . . . . . . . . . . . . 57
Beispieleingangsbilder. Quelle: [BRE00] . . . . . . . . . . . . . . . . . . . . . 58
3D-Rekonstruktion der Oberfläche (Giraffe). Quelle: [BRE00] . . . . . . . . . 58
Tiefenrekonstruktion aus einem Grauwertbild mit SfSh-Techniken. Quelle: [TOE04] 60
Reflektanzkarte: ein 2dim Plot des Gradientenraumes (p, q) der normalisierten Bildhelligkeit einer Oberfläche als Funktion der Oberflächenorientierung.
Quelle: [BIS01] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Approximation der Oberflächennormalen mit der Iterationsmethode von Jakobi. Quelle: [IKE03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Reflektanzkarte: Eine eindeutige Lösung durch Verwendung von einer dritten
Lichtquelle mit E3(p, q). Quelle: [TOE04] . . . . . . . . . . . . . . . . . . . . 64
Navigation eines Rechteckes mit Rotation in 2D. Quelle: [KIM00] . . . . . . . 64
Vergleich zwischen zwei Verfahren; von links nach rechts: Eingangsbild, Ergebnis eines lokalen SfSh-Algorithmes, Ergebnis eines symmetriebasierten SfShAlgorithmes, Verbesserung durch ein Gesichtsmodell. Quelle: [ZHAO99] . . . 65
Fehlerrate für ein Beispielbild (Affe), psm - Photometric Stereo, sfc - Shape
from Contours, pcm adj - pcm augerichtet, merge - fusioniert. Quelle: [CHEN03] 65
Eingangsbild (links), Rekonstruierte 3D-Form (Mitte) und 3D-Form mit AlbedoKarte. Quelle: [ZHA03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Rekonstruierte Oberfläche: a) Stereo-Ergebnis b) SfSh-Ergebnis ohne einer
Neuschätzung des Lichtes c) SfSh-Ergebnis nach der Neuschätzung des Lichtes.
Quelle: [SAM00] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Form aus Selbstschatten: Effekte von unterschiedlichen Rauscharten. Quelle:
[DAU98] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Vergleich der Laser-Scan- (links) und Shadow-Carving-Methoden (rechts). Quelle: [SAV02] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
ABBILDUNGSVERZEICHNIS
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
6
Ein hypothetischer Aufbau für die Aufnahme von dynamischen Szenen. Quelle:
[BUE99] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Die Schnittpunkte von drei Grenzenkonen definieren die visuelle Hülle des
Objektes. Quelle: [BUE99] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Orthographische Silhouetten, Ansichtsrichtungen sind parallel zur gleichen
Ebene. Quelle: [BOT03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Voxelrepräsentation der AND-Operation für vier Silhouetten für vier Auflösungen der Voxelgitter(83 , 163 , 323 , 643 ,). Quelle: [HAS03] . . . . . . . . . . . . . 71
Ergebnis der 3D Rekonstruktion nach dem Marching-Cubes-Verfahren für verschiedene Größen von Voxelgitter (83 , 163 , 323 , 363 ). Quelle: [HAS03] . . . . . 72
Eine einzelne Scheibe einer bildbasierten visuellen Hülle. Quelle: [BUE99] . . 74
Zwei flat-schattierte Ansichten einer polyhedralen visuellen Hülle. Quelle: [MAT02] 74
Dinosaurier-Banana-Sequenz (6 Kameras) a) Eingangsbild b) Unsortierte CSP
aus allen Bildern c) Sortierte CSP d) SfSi-Modell aus 6 Bildern e) SfSi-Modell
nach 36 Bildern f) SfSi-Modell nach 90 Bildern. Quelle: [CHE03a] . . . . . . . 75
Linsenmodell. Quelle: [FAV03] . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Normierte Übertragungsfunktion im Frequenzraum, H(ρ) entspricht H(Ωr ) . 77
Ein Beispiel für Depth from Defocus aus zwei Bildern. Quelle: [WAT98] . . . 78
Blockdiagramm für eine mögliche Kombination von SfF- und SfS-Techniken.
Quelle: [LIN02] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Tiefenschätzung aus zwei Bildern mit einer DfD-Technik a), b) Originalbilder
c) Geschätzte Tiefe. Quelle:[ZIO99] . . . . . . . . . . . . . . . . . . . . . . . . 80
Der DfD-Algorithmus, angewendet auf eine reale Szene mit komplexen Texturen. Quelle: [WAT98] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Tiefeninformationen werden durch Größenänderung der Textur vermittelt.
Quelle: [BIS01] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Forminformationen aus der Verzerrung von Texeln. Quelle: [BIS01] . . . . . . 82
Ein Beispiel für eine natürliche Textur. Quelle: [BIS01] . . . . . . . . . . . . . 83
Tatsächliche und rekonstruierte Oberflächen. Quelle: [FOR01] . . . . . . . . . 84
Schätzung lokaler Oberflächenorientierung für ein synthetisches Bild mit planarer Oberfläche und 5 Prz. Rauschen (links), mit zylindrischer Oberfläche
und 25 Prz. Rauschen (Mitte) und für ein reales Bild mit planarer Oberfläche
(rechts). Zeilen von oben nach unten: a) Graubild, b) detektierte Flecken, c)
tatsächliche und d) geschätzte Oberflächenorientierung. Quelle: [GAR94] . . . 85
Schätzung lokaler Oberflächenorientierung für ein synthetisches (oben) und ein
reales Bild (unten) aus Gradienten der horizontalen Disparität. Spalten von
links nach rechts: a)-b) Graubild-Stereopaare c) geschätzte und d) tatsächliche
Oberflächenorientierung. Quelle: [GAR94] . . . . . . . . . . . . . . . . . . . . 86
SfT-Problem mit Wavelets: das originale (oben) und das rekonstruierte (unten)
Bilder. Quelle: [CLE99] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Geometrische Szeneneigenschaften. Quelle: [BIS01] . . . . . . . . . . . . . . . 87
Analysis-Synthese-Schleife. Quelle: [EIS03a] . . . . . . . . . . . . . . . . . . . 88
Ablauf eines auf mehreren Ansichten basierten Suchalgorithmus. Quelle: [KAN01] 88
Vergleich der Algorithmen von [KAN01] (links) und [AGR03] (rechts) . . . . 89
Eine Weltraum-Szene. Quelle: [MOY00] . . . . . . . . . . . . . . . . . . . . . 89
Flussdiagramm für einen automatischen Rekonstruktionsalgorithmus. Quelle:
[MOY00] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Übersicht über die verwendeten Literaturquellen . . . . . . . . . . . . . . . . 92
7
Teil I
Symbole und Abkürzungen
a
A
b
~b(x, y, z)
Bi
C
d
di
d(j)
D
E
f
F(x, y)
Fout
F
g(x, y)
Gσ (x, y)
h(r)
H(Ωr )
I(x, y)
I(i, j)
Ii (x, y, z)
Ii , Ia
ku , kv
K
~l(x, y, z)
li sowie Lij
m = (x, y)T
m0
MKam,i
M = (X, Y, Z)T
~n(x, y, z)
pi
Pi
P
q
r
rd
R
R(p, q)
Ri (p, q)
R
Konstante
Intrinsische Matrix
Basislänge
Betrachter- bzw. Kamerarichtung
Bildebene
optisches Zentrum der Kamera
Tiefenvariable
Abstand des Bildpunktes Pi von dem Bildzentrum
Abstand des j.ten gefundenen Punktes von seiner tatsächlichen Position
Extrinsische Matrix
Essential-Matrix
Brennweite
Eingangsbild
Filterausgang
Fundamental-Matrix
Flächenfunktion
Gauß-Funktion
Impulsantwort
Fouriertransformierte der Impulsantwort h(r)
Intensitätswert
Bildintensität
Eingangsintensität des Lichtes an einem Punkt P (x, y, z)
Anzahl der Kantenpunkte
Skalierungsfaktoren
Perspektivische Projektionsmatrix
Licht- bzw. Beleuchtungsrichtung
Epipolarlinien
2D-Projektion eines Punktes in die Bildebene
2D-Projektion des Punktes in die Sensorebene
3D-Punkt in Kamerakoordinaten
3D-Punkt in Weltkoordinaten
Flächennormale
2D-Projektionen in die Bildebene
3D-Punkt
allgemeine perspektivische Projektionsmatrix
vertikale Kameraverschiebung
Unschärferadius
radiale Linsenverzerrung
Bildebene
Reflektanz- bzw. Reflektivitätskarte
Iso-Intensitätskonturen
Rotationsmatrix
8
s
SW , S I
t
[tx ]
Tj
v
v = (u, v)T
vm0
Vk
(x, y)
(xd , yd )
z
zmin , zmax
α
δx , δ y
(∆x, ∆y)T
γ(x, y)
κ
λ
∇2
ω
Φ, Φ(~n, ~l, ~b)
ψi
ρ
σ
υ
BM
CSP
DLT
FIS
FOM
LmedS
LofG
MAD
MSE
RANSAC
SfD
SfF
SfM
SfS
SfSh
SfSi
SfT
Skalierungsfaktor
Texelfläche
Translationsvektor
antisymmetrische Matrix des Translationsvektors
Filtermaske
Bildabstand bzw. Kamerakonstanten
optischer Fluss, Geschwindigkeit
Flussvektor an der Stelle m0 = (x0 , y0 )
Grenzpyramide
Bildkoordinaten
Verzerrte Bildkoordinaten
Tiefe
minimale und maximale Tiefe
Reflexionskonstante
Linsenverzerrungsanteile
Verschiebungsvektoren
Fehlerminimierungsfunktion
Gewichtungsfunktion
Kamerakonstante
Regularisierungsparameter
Laplace-Operator
Rotationsgeschwindigkeit
Reflexionsfunktion
Winkel zwischen der Lichtrichtung und der Flächennormalen
Albedo
Standardabweichung
Translationsgeschwindigkeit
Blockmatching
Colored Surface Points
Direkte Lineare Transformation
Focused Image Surface
Pratt’s Figure-of-Merit
Least-Median-of-Squares
Laplacian-of-Gaussian
Mittlerer absoluter Fehler
Mittlerer quadratischer Fehler
Random Sample Concensus
Structure from Defocus, Shape from Defocus
Structure from Focus, Shape from Focus
Structure from Motion, Shape from Motion
Structure from Stereo, Shape from Stereo
Structure from Shading, Shape from Shading
Structure from Silhouette, Shape from Silhouette
Structure from Texture, Shape from Texture
1
1
EINFÜHRUNG
9
Einführung
Gewinnung von Tiefeninformationen aus Videosequenzen ist ein wichtiger Bereich der Forschung, für den sich immer mehr Anwendungsgebiete finden. Im Vergleich zu den so genannten aktiven Verfahren der Tiefenschätzung wird bei der Bildverarbeitung kein direktes
Eingreifen in die Szene (Energie wird aufgewendet) benötigt, was den Messaufbau vereinfachen kann. Die Hardware hier besteht aus einigen konventionellen Kameras und PC-s und
ist somit billiger. Ein weiterer Vorteil ist die Möglichkeit der Auswertung von bereits aufgenommenen Sequenzen, was bei den aktiven Techniken nicht möglich ist.
Das erklärte Ziel der Tiefenschätzung ist eine schnelle Berechnung der detaillierten 3D-Form
aus Videosequenzen für dynamische reale Szenen, obwohl es für manche Anwendungen bereits
ausreichend ist, einfache Entfernungsmessungen durchzuführen oder nur grobe Tiefenkarten
zu erstellen. Zu den bestehenden Entwicklungsrichtungen zählen z. B.:
- Direkte und indirekte Tiefenmessung für Roboter Navigation [PEN03], [PER03], [MOY00]
- Verarbeitung von Tiefenkarten für Objekterkennung in der Automatisierung [ROU03],
[COE03]
- Automatische Vermessung und Qualitätskontrolle [GUP03]
- Komprimierung von Bilddaten für die Übertragung [SCHA03]
- Synthese neuer Ansichten und Objektmanipulation in der virtuellen Realität [SCH03a]
- Klassische Techniken der Bildverarbeitung [MIS03]
Zur Lösung dieses Problems führen mehrere Wege, angefangen von monokularen Techniken
bis zu auf Methoden, die auf mehreren Ansichten auf ein Objekt basiert sind (siehe Abbildung 1). Die sämtlichen Bildverarbeitungsverfahren haben menschliche Tiefenwahrnehmung
als Grundlage, welche die verschiedenne Tiefenhinweise zu einem 3D-Bild integriert. Schattierungen und Texturen liefern z. B. Informationen über Oberflächenorientierungen, das binokulare Stereosehen und die Bewegungsanalyse erlauben es, die absoluten Abstände zu ermitteln.
Die noch relativ kleinen Rechenleistungen erlauben es zur Zeit noch nicht, maschinelle EchtzeitAnwendungen mit einer guten Auflösung oder ausreichenden Qualität zu präsentieren, aktuelle Entwicklungen sind aber viel versprechend und bestimmen die Richtungen der zukünftigen
Forschung.
Diese Studienarbeit bietet einen Überblick über aktuelle Verfahren zur Gewinnung von dreidimensionalen Informationen aus zweidimensionalen Videosequenzen, strukturiert nach den
sechs generellen Entwicklungsgebieten. Zu jedem Thema werden die theoretischen Hintergründe erörtert sowie die bestehenden Anwendungen benannt und ausgewertet. Die der Abhandlung zu Grunde liegende Literaturrecherche umfasst 210 englisch- und deutschsprachige
Quellen aus den letzten dreißig Jahren, vorwiegend aus dem Zeitraum 1994-2004.
Zur Gliederug der Arbeit:
Kapitel 2 gibt eine Einführung in die Stereobildverarbeitung - den wichtigsten Bereich von
Computer Vision. Hier werden sowohl die theoretischen Grundlagen der Tiefenberechnung aus zwei Bildern wie das Stereokamerasystem, die Epipolargeometrie, das Korrespondenzproblem behandelt als auch einige praktische Implementierungen beschrieben.
1
EINFÜHRUNG
10
Für eine Vertiefung in das Thema werden hier [SCH03], [JIA97] und [ZHA96] empfohlen.
Kapitel 3 ist dem Problem der Tiefenschätzung aus der Bewegung gewidmet. In der Abhandlung werden die grundlegenden theoretischen Gedanken wie die Strukturberechnung aus dem optischen Fluss, Rekursivität, Tomasi-Kanade-Faktorisation kurz erörtert
und ihre praktische Realisierung in den bestehenden Anwendungen besprochen. Als gute Übersichtsarbeiten können hier [JEB99], [POL00] und [AHR00] genannt werden.
Kapitel 4 behandelt die schattierungsbasierte Tiefenschätzung, ein Verfahren, bei dem die
Oberflächenorientierung direkt aus der Grauwertverteilung im Bild gewonnen wird. Die
Grundlagen der Berechnung wie die Reflektanzkarte, die Reflektivitätsgleichung, die
Rekonstruktion von den Flächennormalen und der Oberfläche werden beschrieben und
mit den bestehenden Entwicklungen in Beziehung gesetzt. Als weiterführende Literatur
sind hier [KLE98] und [ZHAO99] zu empfehlen.
Kapitel 5 beschreibt die aktuellen volumen- und oberflächenbasierte Methoden zur Berechnung von 3D-Informationen aus den Objektsilhouetten. Als vertiefende Literatur können
[NIE99] und [WON01] genannt werden.
Kapitel 6 führt in das Thema der Tiefenschätzung aus mehreren defokussierten Bildern ein.
Weiterführende Quellen sind [LIU98] und [WEI94].
Kapitel 7 gibt einen Überblick über die nur begrenzten Möglichkeiten der Gewinnung von
3D-Informationen aus der Textur. Für eine Vertiefung in das Thema kann [BIS01]
empfohlen werden.
Kapitel 8 zeichnet die Möglichkeiten der Verbesserung der Rekonstruktionsqualität kurz
auf.
Kapitel 9 führt einen Vergleich der Verfahren durch und gibt einen Ausblick auf die zukünftigen Entwicklungsrichtungen.
Abbildung 1: Passive Verfahren der Tiefenschätzung
2
2
SHAPE FROM STEREO
11
Shape from Stereo
Das Verfahren der Stereobildverarbeitung besteht darin, aus zwei (oder mehreren) gegebenen Ansichten auf ein Objekt oder eine Szene bei bekannten Kameraparametern Korrespondenzpunkte zu bestimmen und aus deren Disparitäten durch eine einfache Triangulation die
Tiefen der Punkte zu berechnen. Ein Beispiel für die Projektion eines 3D-Punktes auf zwei
2D-Punkte in zwei Bildebenen ist in der Abbildung 2 zu sehen, C und C 0 sind dabei optische
Zentren der zwei Kameras.
Abbildung 2: Projektion eines 3D-Punktes in zwei Bildebenen. Quelle: [POL00]
Dieses Vorgehen wurde den biologischen Vorbildern entnommen bzw. nachempfunden: Fast
alle Lebewesen bedienen sich beim Sehen (inklusive Weiten- bzw. Tiefenermittlung) zweier
gleichzeitig aufgenommenen Bildersequenzen mit Kontextinformationen wie bewegt/unbewegt,
Farbe, Objektzuordnung usw. Genauso werden für die maschinelle Stereobildverarbeitung
auch Zusatzinformationen benötigt, wie z. B. die Parameter einer konkreten Kameraanordnung (Schätzung über Kamerakalibrierung), Kenntnis über Bildinhalte oder Rauschsituation
und Ähnliches. Ein allgemeines Blockdiagramm für eine 3D-Modellierung auf der Grundlage
von unkalibrierten Stereosequenzen ist in der Abbildung 3 gegeben.
Als Beispiel für den Ablauf eines rein stereobasierten Tiefenermittlungsverfahrens (ohne Bewegungsschätzung, Texturanalyse wird für Bildsegmentierung verwendet) kann das Konzept
der stereobasierten Videosensorik von den Autoren von [SUP00] angegeben werden (Abbildung 4). Eine Weiterentwicklung des Verfahrens mit Wiederverwendung bei der Berechnung von bereits errechneten 3D-Daten aus früheren Bildern (eine Kombination mit Bewegungsschätzung) wurde später unter anderem in [GRE02] präsentiert.
Das zentrale und das schwierigste Problem der Stereobildverarbeitung stellt das Korrespondenzproblem dar, welches die für eine Anwendung geeignete Auswahl und die Detektion von
Zuordnungsmerkmalen (von Pixel über Kantenpunkte, Liniensegmente bis zu Objekten) und
Zuordnungsverfahren (pixel- oder merkmalbasiert) umfasst. Da in einem Bild fast immer
Problembereiche enthalten sind wie homogene oder spiegelnde Oberflächen, Verdeckungen,
2
SHAPE FROM STEREO
12
Abbildung 3: Ein Blockdiagramm für 3D-Modellierung aus unkalibrierten Videosequenzen.
Quelle: [KIM03]
Abbildung 4: Gesamtkonzept für eine stereobasierte Videosensorik. Quelle: [SUP00]
2
SHAPE FROM STEREO
13
periodische Muster, nicht unterscheidbare Objekte oder unterschiedliche Sichtbereiche, ist
das Finden der richtigen Korrespondenzen für gewöhnlich nur für bestimmte, charakteristische Merkmale relativ einfach.
Für die vorliegenden Korrespondenzen werden die Tiefeninformationen ausgerechnet, diese Berechnung wird überprüft, ggf. finden eine Nachbearbeitung und eine Interpolation des
Ergebnisses auf das restliche Tiefenbild statt. Da immer mit Helligkeitsinformationen oder
deren Sprüngen gearbeitet wird, bedeuten ein Unterschied in der Beleuchtung der Szene oder
Rauschen des Bildes eine Erschwerung der Korrespondenzsuche, weshalb eine Vorverarbeitung des Bildes (eine Grauwertanpassung, ein Rauschfilter usw.) oft sinnvoll ist.
Den mathematischen Hintergrund für alle Berechnungen liefern das Kameramodell, die Koordinatentransformationen und die Epipolargeometrie. Im Weiteren wird hier im Wesentlichen
den Darstellungen von [SCH03] und [ZHA96] gefolgt.
2.1
2.1.1
Das Stereokamerasystem
Das Lochkameramodell
Als Kameramodell wird im Allgemeinen das in allen Standardwerken beschriebene Lochkameramodell (Abbildung 5) verwendet. Ein 3D-Punkt M = (X, Y, Z)T wird hierbei auf den
Schnittpunkt m = (x, y)T des Projektionsstahles mit der Bildebene R abgebildet. Das optische Zentrum C der Kamera ist die Position der Lochblende, die optische Achse ist der
Projektionsstrahl, der senkrecht auf der Bildebene steht. Die Bildebene selbst befindet sich
in einem Abstand f (die Brennweite) hinter bzw. in manchen Darstellungen vor der Lochblende (Abbildung 6).
Abbildung 5: Man Drawing a Lute (The Draughtsman of the Lute), 1525, Albrecht Dürer.
Quelle: [POL00]
2
SHAPE FROM STEREO
14
Abbildung 6: Perspektivische Projektion. Quelle: [POL00]
2.1.2
Koordinatentransformationen
Die Projektion eines 3D-Punktes aus den Weltkoordinaten in die Bildebene (Abbildung 7)
wird für gewöhnlich als eine Reihe von Koordinatentransformationen beschrieben, und zwar
als externe, perspektivische und interne Transformationen.
Die Externe Transformation beschreibt die euklidische Abbildung des Weltkoordinatensystems mit seinem Ursprung in das Kamerakoordinatensystem mit einem neuen Ursprung,
dabei werden eine Rotation R und eine Translation t durchgeführt, der Punkt MKam bleibt
dreidimensional (Darstellung in homogenen Koordinaten):
R t
MKam =
M = DM
(1)
0T3 1
Die Matrix D heißt Extrinsische Matrix und enthält die externen
1
Parameter der Kamera.
Die Perspektivische Transformation überführt den 3D-Punkt MKam aus dem Kamerakoordinatensystem in das 2D-Sensorkoordinatensystem (mit der Projektion m0 ), dabei findet eine
Verzerrung von Längen, Winkeln, Verhältnissen in der Szene statt, die parallelen Geraden
können sich schneiden (Abbildung ??):


f 0 0 0
sm0 =  0 f 0 0  MKam = KMKam
(2)
0 0 1 0
Die Matrix K ist die Perspektivische Projektionsmatrix, s ist ein Skalierungsfaktor.
1 Position,
Ausrichtung
2
SHAPE FROM STEREO
15
Abbildung 7: Koordinatensysteme. Quelle: [AAN02]
Die nachfolgende Interne Transformation bildet den noch reellen 2D-Punkt in die diskreten
Pixelkoordinaten ab. Es finden hierbei eine vertikale (Faktor kv ) und eine horizontale (Faktor
ku ) Skalierungen und eine Verschiebung in den Ursprung des Bildkoordinatensystems (u0 , v0 )
statt:


hu 0 u 0
sm =  0 hv v0  m0 = Am0
(3)
0
0
1
Die Matrix A beinhaltet die internen Kameraparameter und heißt Intrinsische Matrix, die
Skalierungsfaktoren dabei werden wie folgt berechnet: hu = ku f und hv = kv f .
Die Abbildung eines 3D-Punktes aus den Weltkoordinaten in die 2D-Pixelkoordinaten wird
durch die Transformationen eindeutig (bis auf einen Skalierungsfaktor) beschrieben:
sm = Am0 =
1
1
1
AKMKam = ADM = PM
s
s
s
(4)
mit P = A [Rt] - allgemeine perspektivische Projektionsmatrix
Nach der Eliminierung des Skalierungsfaktors erhält man zwei nichtlineare Gleichungen für
die Bildkoordinaten x und y:
x=
p11 X + p12 Y + p13 Z + p14
p31 X + p32 Y + p33 Z + p34
(5)
y=
p21 X + p22 Y + p23 Z + p24
p31 X + p32 Y + p33 Z + p34
(6)
Um noch zusätzlich die Linsenverzerrung zu berücksichtigen, die entsteht, da die Brennweite
endlich (sogar klein) ist und die am Bildrand gekrümmte Kanten liefert, wird meistens eine
vierte, nichtlineare Transformation durchgeführt, die die unverzerrten (x, y) in die verzerrten
Bildkoordinaten (xd , yd ) abbildet und so die Verzerrung ausgleicht:
x = xd + δx ,
y = yd + δy
(7)
2
SHAPE FROM STEREO
16
Die δ dabei enthalten
die radialen (li ) und die tangentialen (gi ) Verzerrungsanteile und werp
den mit rd = x2d + yd2 und L = Konstante wie folgt angegeben:
δx = xd (l1 rd2 + l2 rd4 + L) + (1 + g3 rd2 + L) g1 (rd2 + 2x2d ) + 2g2 xd yd
δy = yd (l1 rd2 + l2 rd4 + L) + (1 + g3 rd2 + L) g2 (rd2 + 2yd2 ) + 2g1 xd yd
(8)
(9)
Meistens ist es ausreichend, nur den jeweils ersten Koeffizienten der radialen Verzerrung zu
schätzen, die tangentiale Verzerrung wird oft gar nicht beachtet:
x = xd (1 + l1 rd2 ), y = yd (1 + l1 rd2 )
(10)
Abschließend werden in der nachfolgenden Grafik (Abbildung 8) nochmals die Teilschritte der
Abbildung eines 3D-Punktes aus reellen Weltkoordinaten in die diskreten 2D-Bildkoordinaten
zusammengefasst.
Abbildung 8: Teilschritte der Abbildung eines 3D-Punktes aus Weltkoordinaten in einen 2DPunkt in Pixelkoordinaten
2.1.3
Kalibrierung der Videokameras
Die so genannten extrinsischen Kameraparameter beschreiben Position und Ausrichtung einer Kamera und sind von Anfang an nicht bekannt, die intrinsischen Sensorparameter beschreiben die internen Eigenschaften des Sensors wie die Brennweite, den Brennpunkt, Skalierungsfaktoren und können zwar theoretisch dem Datenblatt entnommen werden, sind aber
2
SHAPE FROM STEREO
17
durch Fehler in der Optik und Fertigungsfehler ungenau. Somit ist eine Schätzung der Kameraparameter (Kamerakalibrierung) für die meisten bildbasierten Tiefenermittlungsverfahren
notwendig. Einen aktuellen Überblick über unterschiedliche Verfahrensarten gibt [WON01]
(Abbildung 9).
Abbildung 9: Unterschiedliche Arten der Kamerakalibrierung. Quelle: [WON01]
Klassische Kalibrierungstechniken (Kalibrierung mit einem Testobjekt und einem Kalibrierungsgitter ) beinhalten eine lineare oder nichtlineare Optimierung mit einer großen Anzahl
von Parametern. Trotz der Existenz von adoptivfähigen genauen Kameramodellen erfordern
diese Methoden eine geeignete Initialisierung und sind sehr rechenaufwendig. Ein typischer
Vertreter ist das Verfahren von Abdel-Aziz und Karara [ABD71], die die Direkte Lineare
Transformation (DLT) eingeführt haben. Diese Kalibrierungsmethode berücksichtigt zwar
keine Linsenverzerrungen, ist aber eine der bekanntesten. Die von Tsai entwickelte Technik
[TSA87] zieht auch die Linsenverzerrungen in die Berechnung ein und wird bei stereobasierten Techniken sehr oft eingesetzt. Der Ablauf sieht bei diesen konventionellen Methoden
allgemein wie folgt aus:
1. Ein geeignetes Testobjekt (Beispiele in 10) mit einer bekannten 3D Geometrie wird ausgewählt: Die Position der 2D-Merkmale (Kreise, Kreuze usw.) auf der Objektoberfläche
ist in Weltkoordinaten bekannt.
2. Bilder vom Objekt werden aufgenommen und die Zugehörigkeit der Merkmale in den
Weltkoordinaten und in den Bildkoordinaten wird bestimmt.
3. Die unbekannten Kameraparameter werden anhand der Merkmalkorrespondenzen entweder einzeln oder aus der allgemeinen Projektionsmatrix geschätzt und linear oder
nichtlinear optimiert.
Eine der wenigen echtzeitfähigen Anwendungen aus dem Bereich ist das Verfahren von Ansar
und Daniilidis [ANS03] zur linearen Schätzung der Kameraposition aus einem Bild mit n
Punkten oder n Linien mit bekannten Korrespondenzen.
Eine interessante Technik ist die modellbasierte Kamerakalibrierung von Eisert [EIS02], der
das Analysis-by-Synthese-Verfahren zugrunde liegt. Hier wird eine rekursive Schätzung der
Sensorparameter anhand der Übereinstimmung von realen und mit diesen geschätzten Parametern berechneten Aufnahmen eines bekannten 3D-Objektes durchgeführt. Die Schätzung
ist zwar aufwendig, liefert aber robuste und akkurate Ergebnisse.
Im Allgemeinen kann man sagen, dass für eine genaue und robuste Kamerakalibrierung mit
diesen Algorithmen ein großer Rechenaufwand notwendig ist. Die Qualität der Schätzung
2
SHAPE FROM STEREO
18
Abbildung 10: Zwei unterschiedliche Testobjekts für Kamerakalibrierung. Quelle: [EIS02]
der Kameraparameter ist dabei hochgradig abhängig von der Genauigkeit der Bestimmung
der Positionen der Merkmalsobjekte. Die Zugehörigkeitsbestimmung muss einfach und die
Anzahl der Merkmalspunkte nicht zu hoch sein, da die Berechnungen sonst zu lange dauern.
Ein weiteres Problem ist es, dass gerade die Merkmalspunkte, welche die meiste Information
über die Linsenverzerrungen oder die Brennweite liefern, schwierig zu behandeln sind, da sie
sich an Rändern des Testobjektes befinden.
Caprile und Torre haben in [CAP90] gezeigt, dass unter bestimmten Voraussetzungen die
Kalibrierung einer Kamera mit Hilfe der so genannten Vanishing Points möglich ist, welche
drei zueinander orthogonalen Richtungen zugeordnet werden. Im Gegensatz zu traditionellen
Kalibrierungstechniken erfordert diese Methode nur das Vorhandensein von einigen speziellen
Strukturen und keine exakte Kenntnis derer Geometrie. Eine sehr interessante und zeitsparende Technik der Selbstkalibrierung für Videosequenzen liefert Lv in seinem Artikel [LV02].
Das Verfahren basiert auf einfachen Beobachtungen der Szene und erfordert keine genauen
Messungen der Epipolargeometrie. Die Kameraparameter werden hier aus der Gehbewegung
von Menschen geschätzt, einer Situation, die fast für alle Videoaufnahmen typisch ist. Die
von Wong [WON01] entwickelte Technik Calibration from Surfaces of Revolution führt eine
schnelle und robuste Schätzung der intrinsischen Kameraparametern über zwei oder mehr
Objektsilhouetten von Rotationskörpern durch, die oft auch in reellen Bildern (Glas, Vase,
Ball) vorhanden sind.
Die Theorie der Self-Calibration haben Maybank und Faugeras in [MAY92] eingeführt, die
die Beschreibung der Beziehung zwischen Kamerakalibrierung und epipolaren Transformation mit Hilfe von Absolute Conic etabliert haben. Basierend auf der von Triggs gefundenen Formulierung des Problems über Absolute Quadric [TRI97] hat Pollefeys [POL00],
[POLaKOC99] eine praktikable Technik für Selbstkalibrierung für mehrere Kameras entwickelt. Andere Arbeiten aus dem Gebiet der Selbstkalibrierung beinhalten auch Einschränkungen der Kamerabewegungen wie z. B. nur Rotation [AGA99] oder nur planare Bewegung
[ARM96]. Die Selbstkalibrierungsmethoden sind besonders für die Anwendungen wichtig, die
mit bereits aufgenommenen Bildern arbeiten und bei denen keine direkte Sensorkalibrierung
mehr möglich ist, einen Überblick über gängige Methoden bietet [FUS00].
Auf das Problem von kritischen Bewegungen, die zu Abweichungen bei automatischen Kamerakalibrierungen und entsprechend zu Mehrdeutigkeiten für euklidische Szenenrekonstruktionen führen, gehen Kahl und Triggs in [KAH99] und [KAH00] ein.
2
SHAPE FROM STEREO
2.2
19
Epipolargeometrie
Die Epipolargeometrie ist ein wichtiges Hilfsmittel der Korrespondenzsuche, das den Zusammenhang zwischen zwei Kameras beschreibt und die Suche im ganzen Bild auf die Suche
auf einer einzigen Linie reduziert, der Epipolarlinie. Korrespondierende Bildpunkte, d. h.,
Projektionen eines und desselben 3D-Szenenpunktes in die linke und rechte Bildebene, liegen
auf den entsprechenden Epipolarlinien des anderen Bildes (Abbildung 11).
Abbildung 11: Epipolare Einschränkung für eine Achsparallele Geometrie: Projektion des
Punktes im linken Bild befindet sich auf der entsprechenden Epipolarlinie im rechten Bild.
Quelle: [TOE04]
Die allgemeine Definition der epipolaren Geometrie für einen konvergenten Kameraaufbau
wird im folgenden Abschnitt beschrieben (Darstellung nach [SCH03]).
2.2.1
Konvergente Stereogeometrie
Um Epipolarlinien zu ermitteln, werden die optischen Zentren beider Kameras verbunden:
Die Schnittpunkte sind Epipole. Durch die zwei Epipole in beiden Bildebenen und den 3DPunkt wird eine neue Ebene, die Epipolarebene, gelegt. Die Schnittlinien dieser Ebene mit
beiden Bildebenen sind die Epipolarlinien (Abbildung 12).
Die Essential-Matrix E beschreibt die euklidische Transformation von Kamera 2 nach Kamera
1 und liefert die Epipolargeometrie in Kamerakoordinaten:
T
MKam1
EMKam2 = 0
(11)
E = [tx ]R
(12)
Mit
Dabei ist [tx ] die antisymmetrische Matrix des Translationsvektors t.
Die Epipolargeometrie in Pixelkoordinaten wird durch die Fundamental-Matrix F vollständig
wieder gegeben, da die Matrix sowohl die extrinsischen als auch die intrinsischen Parameter
der beiden Kameras beinhaltet:
−1
F = A−T
(13)
1 EA2
2
SHAPE FROM STEREO
20
Abbildung 12: Epipolare Geometrie. Quelle: [ZHA96]
Die zentrale Gleichung der Epipolargeometrie ist die Epipolargleichung:
mT
1 Fm2 = 0
(14)
Der Vollständigkeit halber werden hier auch Gleichungen für die Epipolarlinien l1 und l2 in
beiden Bildern angegeben:
l1 = Fm2
2.2.2
l2 = FT m1
und
(15)
Schätzung der Stereogeometrie
Da die Fundamentalmatrix meistens nicht bekannt ist, wird sie aus einigen bekannten Punktkorrespondenzen geschätzt. Dazu wird die Epipolargleichung als eine lineare homogene Gleichung mit den neun unbekannten Koeffizienten der Fundamentalmatrix umgeschrieben:
wT f = 0
(16)
Mit
w = (x1 x2 ,
x1 y2 ,
x1 ,
y1 x2 ,
y 1 y2 ,
y1 ,
x2 ,
y2 ,
1)T
(17)
F33 )T
(18)
und
f = (F11 ,
F12 ,
F13 ,
F21 ,
F22 ,
F23 ,
F31 ,
F32 ,
Für N gegebene Korrespondenzen kann ein lineares Gleichungssystem aufgestellt werden:
 T 
w1
 .. 
WN f = 0 mit WN =  . 
(19)
T
wN
Dieses Gleichungssystem ist die Grundlage für mehrere Methoden zur Schätzung der Epipolargeometrie, die im Weiteren vorgestellt werden (Darstellung nach [ZHA96] und [SCH03]).
I. Analytische Verfahren oder Acht-Punkt-Algorithmen
2
SHAPE FROM STEREO
21
Diese Gruppe der Verfahren findet eine analytische Lösung des Gleichungssystems, wofür sie
acht (oder auch sieben) bekannte Punktkorrespondenzen und Zusatzbedingungen benötigt.
Das Gütekriterium ist die Epipolargleichung selbst und zwar als folgender Ansatz:
2
min WN f (20)
f
Abhängig davon, welche Zusatzbedingungen in die Berechnung einfließen, werden verschiedene Techniken für die Lösung des Minimierungsproblems eingesetzt:
Linear-Least-Squares-Technique (siehe auch [CHOJ02], [CHOJ01] und [OLI01]) Ein Koeffizient der F-Matrix wird auf 1 gesetzt und das so reduzierte Gleichungssystem wird
mittels Least-Squares-Technique durch die Bestimmung der 1. Ableitung gelöst. Das
Gleiche wiederholt sich für alle neun Koeffizienten, da es im Voraus nicht bekannt ist,
wie groß sie sind und Fehler entstehen können, wenn ein sehr kleines Koeffizient auf 1
gesetzt ist. Die so erhaltene Lösung wäre zwar arithmetisch korrekt, aber geometrisch
katastrophal.
Eigenwert-Analyse Hier wird als Randbedingung die Norm des Vektors f festgelegt, das
Minimierungsproblem wird unter Verwendung des Lagrange-Mulitplikators auf ein Eigenwertproblem zurückgeführt, die als Lösung den Eigenvektor mit dem kleinsten Eigenwert hat.
Normalisierte Eingangsdaten Die größte Instabilität einer numerischen Punktberechnung tritt beim direkten Einsetzen von Pixelkoordinaten, was zu einigen Vorschlägen
führte (Beschreibung in [ZHA98]), eine einfache Normalisierung der Eingangsdaten einzuführen. Die Ergebnisse waren aber nicht so gut, dass sich diese Verfahren (Isotrope
Skalierung, Normalisierung mit teilweise bekannten Kameraparametern usw.) durchsetzen konnten.
Der große Nachteil der analytischen Verfahren ist die Nichtbehandlung der falsch oder ungenau berechneten Korrespondenzen, welche zu größeren Abweichungen bei der Berechnung
der Schätzungsfehler führen, als bei allen anderen Techniken.
II. Iterative Verfahren
Lineare Optimierung Bei dieser Art der Verfahren wird es versucht, den Einfluss von
fehlerhaften Korrespondenzen auf die Berechnung der Epipolargeometrie zu minimieren, indem man eine mit analytischen Methoden geschätzte Fundamentalmatrix weiter
verbessert. Das kann z. B. dadurch geschehen, dass man die Punktkorrespondenzen
entsprechend ihren Abstand zu der mit der geschätzten Fundamentalmatrix berechneten Epipolarlinien gewichtet und diese Gewichtung so lange iterativ optimiert, bis die
Schätzung besser wird. Nachteilig bei dieser Art der Optimierung ist, dass die die so
genannten Ausreißer (falsche Korrespondenzen) nicht genügend berücksichtigt werden:
Die kleinen Abweichungen bei der Punktzuordnung haben keinen großen Einfuß auf
das Ergebnis der Optimierung, die größeren führen zu sehr schlechten Ergebnissen.
Nichtlineare Optimierung oder Robuste Methoden Hierbei handelt es sich um Techniken, bei denen die Ausreißer aus der eigentlichen Schätzung durch Eliminierung oder
eine kleinere Gewichtung ausgenommen werden. Beispiele sind Least-Median-of-Squares
(LmedS), Random Sample Concensus (RANSAC), M-Estimator. Im Allgemeinen sind
diese Techniken viel genauer, als die snalytischen oder Methoden der linearen Optimierung (laut dem Vergleich von [ZHA98] Faktor 5 bis 40). Sie sind aber gleichzeitig
langsamer (Faktor 3 bis 20).
2
SHAPE FROM STEREO
22
Die Chowdhury und Roy geben in [CHOJ01] und [CHOJ02] eine neue einfachere Betrachtungsweise zur begrenzten Parameterschätzung wieder, die eigentlich auf alle Minimierungsprobleme anwendbar ist und in ihrer Abhandlung am Beispiel der Fundamental-MatrixSchätzung eingeführt wurde. In Gegensatz zu vielen anderen theoretischen Arbeiten in dem
Bereich erlaubt die in dem Artikel beschriebene Vorgehensweise eine gleichzeitige Minimierung der Kostenfunktion und eine Einhaltung der Einschränkungen und liefert sehr schnelle
und genaue Ergebnisse.
Eine sehr interessante Arbeit auf dem Gebiet ist die Dissertation zur Projektiven Stochastischen Geometrie von Collins [COL93], der die Unsicherheiten bei der Bestimmung der
geometrischen Merkmale mit Hilfe von Wahrscheinlichkeitsdichtefunktionen im projektiven
Raum repräsentiert und manipuliert.
2.2.3
Achsenparalleses Stereo und Rektifikation
Die Berechnung der Epipolargeometrie bedarf eines großen Rechenaufwands, der bei einer
Vereinfachung der Stereogeometrie erheblich vermindert werden kann. Diese Vereinfachung
kann zum Beispiel dadurch erreicht werden, dass statt einer konvergenten eine achsenparallele Stereogeometrie aufgebaut (Abbildung 13) oder durch die Rektifikation nachgebildet
wird (Abbildung ??). Bei dieser Kameraanordnung würde die zu einem Punkt in dem ersten
Bild gehörige Epipolarlinie einer Zeile mit derselben Zeilenkoordinate in dem zweiten Bild
entsprechen, was die Korrespondenzsuche erheblich verkürzt.
Dieser besondere Aufbau (die optischen Achsen der beiden Kameras verlaufen parallel zueinander, die Zeilen der beiden Bildebenen liegen wie in der Abbildung 13 parallel zu der
Basislinie) vereinfacht erheblich die Tiefenberechnung, da die Tiefe z jetzt einfach aus der
Disparität und den konstanten Kameraparametern b und f berechnet werden kann:
z=
bf
b + x1 + x2
(21)
Dabei ist b die Basislänge (Abstand zwischen den optischen Zentren) der zwei Kameras.
Weiterhin kann man die Korrespondenzsuche entlang der Epipolarlinie im zweiten Bild einschränken, wenn man bedenkt, dass die Szenentiefe für gewöhnlich endlich und auf ein Intervall von zmin bis zmax begrenzt ist, wodurch auch die relative Verschiebung von zwei
korrespondierenden Punkten in beiden Bildebenen eingeschränkt ist:
b(1 +
f
zmax
) ≤ x2 − x1 ≤ b(1 +
f
zmin
)
(22)
Die Vorteile der achsenparallelen Stereogeometrie gleichen leider die Nachteile nicht aus, die
diese Kameraanordnung im Vergleich mit der konvergenten Stereogeometrie mit sich bringt:
Die Genauigkeit der Tiefenberechnung steigt eigentlich mit größeren Basislängen, die hier
nicht möglich sind, da sonst die Überlappung der beiden Sichtbereiche nicht ausreichend
gewährleistet werden könnte. In der Praxis ist die Parallelität der Kameras auch nicht so
einfach zu realisieren und erfordert einen zusätzlichen Aufwand.
Bei dem Verfahren der Rektifikation wird eine konvergente Stereogeometrie durch eine lineare Transformation in eine achsenparallele Stereogeometrie überführt. Die beiden reellen
Stereobilder werden durch Warping in eine gemeinsame imaginäre Bildebene abgebildet. Die
2
SHAPE FROM STEREO
23
Abbildung 13: Achsenparallele Stereogeometrie. Quelle: [JIA97]
beiden optischen Zentren werden dabei beibehalten, die Epipolarlinien liegen jetzt alle parallel zueinander und zu der Basislinie. Die zueinander korrespondierenden Bildpunkte liegen
auf der gleichen Zeile in der imaginären Bildebene (Abbildung 14), so dass eine vereinfachte
Disparitätsanalyse analog zu dem Achsparallelen Kameraaufbau jetzt möglich ist.
Das Verfahren der Rektifikation weist zwei wesentliche Schwachstellen auf, die seinen Einsatz
bedenklich machen. Zum ersten entstehen durch Warping erhebliche und unterschiedlich starke Verzerrungen besonders am Bildrand, welche die Genauigkeit der Schätzung beeinflussen.
Das zweite Problem ist der durch den zusätzlichen Verfahrensschritt erhöhte Rechenaufwand,
welcher durch die Verkleinerung des Suchbereichs bei der Korrespondenzsuche nicht immer
ausgeglichen wird. Die vergleichende Untersuchung von Schreer [SCH00] hat gezeigt, dass bei
einer bekannten Epipolargeometrie der Rechenaufwand für eine Disparitätsanalyse entlang
der Epipolarlinien in den Original- und in den rektifizierten Ansichten annährend gleich ist.
Die Qualität der Tiefenrekonstruktion verschlechtert sich aber bei Rektifikation mit einem
steigenden Konvergenzwinkel rapide, da hier die Verzerrung zunimmt. Als Entscheidungskriterium werden in der Abhandlung der Grad der Konvergenz der Stereoansichten und der zu
analysierende Bildbereich (Mitte oder Ränder) vorgeschlagen.
2.2.4
Drei-Ansichten-Geometrie
Die Hinzunahme einer dritten Kamera zu einem konventionellen Stereoaufbau ist eine der
Möglichkeiten, die Genauigkeit der Tiefenberechnung zu erhöhen und die Anzahl der falschen
Korrespondenzen zu verringern (Abbildung 16).
Ein 3D-Punkt P wird aus den Weltkoordinaten in drei 2D-Bildebenen mit Projektionen je-
2
SHAPE FROM STEREO
24
Abbildung 14: Rektifikation. Quelle: [AAN02]
weils p1 , p2 , p3 (Abbildung 15, Beschreibung des Verfahrens aus [JIA97]) abgebildet. Aus der
berechneten Zuordnung p1 zu p2 kann der Punkt p3 ohne weitere Korrespondenzsuche ermittelt werden. Für die beiden bekannten Punkte werden in der dritten Ebene Epipolarlinien
L31 und L32 bestimmt, der gesuchte Punkt p3 ist der Schnittpunkt der Epipolarlinien.
Abbildung 15: Epipolargeometrie für Trinokulares Stereo. Quelle: [JIA97]
Dieser Zusammenhang wird ausgenutzt, um die Richtigkeit der berechneten Korrespondenzen zu überprüfen oder aus mehreren Kandidatenpunkten den richtigen auszuwählen. Ein
weiterer Vorteil ist die mögliche Auflösung der Verdeckungen in den beiden vorhandenen
Ansichten.
Der Berechnungsaufwand kann auch hier durch die Rektifikation der drei Ansichten erheb-
2
SHAPE FROM STEREO
25
lich verringert werden, eine entsprechende Rechenvorschrift kann [JIA97] entnommen werden.
Eine breite Anwendung findet das Verfahren in der Bildsynthese: Aus zwei Ansichten wird
eine dritte, virtuelle Ansicht generiert. Die theoretischen Hintergründe sind sehr ausführlich
in [AVI98] behandelt worden. Ein praktisches Beispiel ist das Tele-Immersion-System von
Daniilidis und Mulligan [MUL01], [DAN00]. Die Verfahrensschritte beinhalteten hier Rektifikation, Hintergrundtrennung, Korrespondenzzuordnung, Median-Filterung, Rekonstruktion
und anschließende Übertragung. Sie konnten zwar in Echtzeit abgearbeitet werden, aber nur
für kleine Bildgrößen und mit einer nicht besonders guten Rekonstruktionsqualität (Abbildung 16). Für eine Verbesserung des Verfahrens sorgte die bessere Ausnutzung von zeitlichen
Abhängigkeiten zwischen den Bildern (Schätzung des optischen Flusses), eine Beschreibung
ist in [MUL03] enthalten.
Die wahrscheinlich zur Zeit einzige echtzeitfähige Videokonferenz-Anwendung, die auch eine
Abbildung 16: Eine Videokonferenz-Anwendung, Ergebnisse der Rekonstruktion: a) Ein binokularer Algorithmus, b) Ein trinokularer Algorithmus. Quelle: [MUL01]
gute Qualität liefert, ist das System von Schreer und Kauff [SCH01], [KAU02], [SCH03a]. Einige noch zu nennende Beispiele für derartige Anwendungen sind [AGR03], [POL00], [BAR03],
[EIS03] die teilweise im Weiteren näher beschrieben werden.
2.2.5
Mehrere-Ansichten-Geometrie
Die Genauigkeit der Oberflächenrekonstruktion erhöht sich weiter, wenn mehrere Ansichten
auf eine Szene bei der 3D-Form-Schätzung verarbeitet werden (Abbildung 17). Zu beachten
ist aber, dass mit Erhöhung der Ansichtenmenge auch die Anzahl von Regionen wächst, die
nicht von allen Kamerapositionen sichtbar sind, so dass eine entsprechende Bildsegmentierung für die Weiterverarbeitung nötig ist. Die Rechenzeit wird auch entsprechend größer.
Da eine Videosequenz durch Kamera- oder Objektbewegung oft neue Ansichten auf eine Szene
liefert, bietet sich hier die nicht ganz stimmende Analogie mit einem konvergenten Stereoaufbau an. Eine Vielzahl von Anwendungen aus dem Bereich einer gleichzeitigen Bewegungund 3D-Form-Schätzung bedienen sich dieser auf mehreren Ansichten basierenden Stereogeometrie. Ein Beispiel dafür ist das Verfahren von Koch and Pollefeys [KOC98], weitere
Entwicklungen werden in [MAN00] und dem Abschnitt Form aus Bewegung beschrieben.
Das in [KOC98] geschilderte Verfahren liefert das mittels Shape from Stereo and Motion
2
SHAPE FROM STEREO
26
ein dichtes Szenenmodell aus unkalibrierten 2D-Video-Sequenzen. Die Kamera wird um eine
statische Szene frei bewegt, für die so aufgenommenen Bilder werden paarweise Korrespondenzsuche durchgeführt und dichte Tiefenkarten erstellt. Die ermittelten Tiefeninformationen
dienen als Grundlage für ein 3D-Modell, das nach der anschließenden Texturierung sehr realistisch aussieht.
Abbildung 17: Von links nach rechts: Das erste und das letzte Bilder einer Eingangssequenz,
Tiefenkarten für einen Zwei- und Fünf-Ansichten-Schätzer. Quelle: [KOC98]
Luong und Vieville stellen in ihrer Abhandlung [LUO94] eine für die Multiple Projektive
Views und unkalibrierte Kameras besser geeignete Repräsentation der klassischen Koordinatentransformationen vor. Die Idee dabei ist, die Beschreibung für unterschiedliche geometrische Levels der Repräsentation in einer einzigen Struktur zu liefern.
Von Lin stammt das in seiner Dissertation [LIN02] eingeführte neue Konzept von Rotational Stereo: Mehrere Ansichten auf ein Objekt werden hier durch eine Objekt- oder Kameradrehung mit bekannten und einstellbaren Drehwinkeln erzeugt. In der Abbildung 18 ist
der prinzipielle Aufbau des Berechnungsmodells dargestellt. Rotationsachse wird durch den
Einheitsvektor ~u und den Translationsvektor d~ beschrieben, (xi , yi , zi ) und (x̂i , ŷi ) sind der
Objektpunkt und seine Projektion vor und nach der Drehung um Winkel θ. Lin liefert den
theoretischen Hintergrund für die Schätzung und implementiert ein komplettes KleinkostenSystem für Kreation von photorealistischen 3D-Modellen als eine Kombination mit Formaus-Fokus.
Ein ähnliches Verfahren wurde von Park und Subbarao [PAR01] als eine rein stereobasierte Technik für ein achsenparalleles Kameraaufbau entwickelt. Aus vier durch Rotation des
Objekts entstandenen Ansichten werden Teiloberflächen generiert (Abbildung 19), die im
nächsten Schritt zu der resultierenden 3D-Form fusionieren.
2.2.6
Axiale Geometrie
Die axiale Stereogeometrie ist eine interessante und einfache Kameraanordnung, die eine
schnelle Tiefenberechnung ermöglicht. Hierbei wird eine einzige Kamera benötigt, die ent-
2
SHAPE FROM STEREO
Abbildung 18: Rotational Stereo Modell. Quelle: [LIN02]
Abbildung 19: Teiloberflächen für vier Kameraansichten. Quelle: [PAR01]
27
2
SHAPE FROM STEREO
28
lang ihrer optischen Achse verschoben wird.
Der Suchbereich für die Korrespondenzsuche ist hier kleiner als bei zwei unterschiedlichen Kameras. Ein Punkt in der Bildebene, die näher zum Objekt liegt, ist garantiert in der zweiten
Bildebene vorhanden (außer bei einer großen Verschiebung oder eventuellen Verdeckungen).
Als nachteilig erweist sich die schwierigere Bildsegmentierung (Zuordnung der Bildpunkte zu
Objekten), da wegen ungleicher Entfernung des Objektes zu den zwei Bildebenen dasselbe
Objekt unterschiedlich groß in diese Bildebenen abgebildet wird.
In dem Fall, dass der Ursprung des Weltkoordinatensystems in das optische Zentrum der
Abbildung 20: Axiale Stereogeometrie. Quelle: [JIA97]
Kamera gelegt wird und die Z-Achse der optischen Achse entspricht, wie im Bild 20 (Beschreibung aus [JIA97]), ist die XY-Ebene parallel zu den Bildebenen B1 und B2 und die
Berechnung des 3D Punktes im Raum mit Koordinaten (X, Y, Z) gestaltet sich aus den
korrespondierenden Punkten P1 und P2 in beiden Bildebenen wie folgt:
x=
d1 x2 q
f (d1 − d2 )
(23)
d 1 y2 q
(24)
f (d1 − d2 )
d2 q
z=
(25)
(d1 − d2 )
mit di als Abstand des Bildpunktes Pi vom Bildzentrum und q als vertikale Kameraverschiebung.
y=
2
SHAPE FROM STEREO
2.3
29
Das Korrespondenzproblem
Für die Lösung des Korrespondenzproblems existieren sehr viele Verfahren. Eine erste, grobe
Einteilung findet nach der Art der verwendeten Zuordnungsmerkmale statt. In der Tabelle 21
(so wie in allen Standardwerken zu dem Thema vorhanden) sind die gängigen Merkmale mit
ihren Eigenschaften zusammengestellt. Die Zuverlässigkeit und Einfachheit der Zuordnung
sind bei den Merkmalen mit einem großen Informationsgehalt vor allem wegen ihrer geringeren Anzahl besser, dafür ist der Detektionsaufwand höher. Bei der Auswahl der Merkmale für
eine bestimmte Anwendung müssen diese Eigenschaften gegeneinander aufgewogen werden.
Einige Beispiele für Zuordnungsmerkmale sind in Abbildung 22 zu sehen.
Abbildung 21: Zuordnungsmerkmale. Quelle: [JIA97]
Ein grundlegendes Problem bei den merkmalbasierten Anwendungen ist eine geschickte Wahl
eines geeigneten Detektors und Kriterien für eine automatische objektive (menschenunabhängige) Qualitätsbeurteilung. Mit dem Design und der Evaluation von Merkmaldetektoren beschäftigt
sich Baker in seiner Dissertation [BAK98]. Der von ihm erarbeitete Algorithmus entwickelt
Merkmaldetektoren nach vorgegebenen Parametern automatisch und zwar so, dass diese im
Durchschnitt eine bessere Rekonstruktionsqualität liefern, als solche bekannten Detektoren
wie Canny-, Roberts- und Moravecoperatoren. Sehr interessant ist sein Vorschlag für eine
Klasse von Evaluationstechniken, die für eine Anzahl von Realbildern nicht-subjektive Leistungsmessungen für ausgewählte Operatoren durchführen.
Der Einschränkung des Suchbereichs und der Verifizierung der gefundenen Korrespondenzen
dienen folgende Ähnlichkeitsbedingungen der Korrespondenzanalyse, die mehr oder weniger
streng formuliert, auf alle Arten der Zuordnungsverfahren anwendbar sind:
Epipolare Geometrie Die korrespondierenden Bildpunkte können nur auf den entsprechenden Epipolarlinien in der jeweils anderen Bildebene liegen. Der Suchbereich wird
damit auf eine einzige Linie beschränkt.
Begrenzung der Disparität Begrenzte Szenentiefe beschränkt das Suchintervall entlang
der Epipolarlinie.
2
SHAPE FROM STEREO
30
Abbildung 22: Beispiele für Zuordnungsmerkmale, rot: Ecken, blau: Schrittkanten, grün: Linien, gelb: Scheiben. Quelle: [BAK98]
Eindeutigkeit Es wird davon ausgegangen, dass man nur eine einzige richtige Korrespondenzzuordnung haben kann, die Mehrdeutigkeiten müssen aufgelöst werden. Die Korrespondenz zwischen zwei Punkten ist bidirektional, beim Nichtexistieren der Korrespondenz liegt eine Verdeckung vor.
Feste Reihenfolge Im Allgemeinen wird die Reihenfolge von Merkmalen entlang einer Epipolarlinie in dem zweiten Bild genauso beibehalten. Ausnahmen sind transparente
Oberflächen oder kleine Objekte im Vordergrund.
Glattheit der Tiefe Hier wird angenommen, dass sich die Tiefe in der Szene nur kontinuierlich ändern kann: Alle Oberflächen der Objekte sind zumindest stückweise kontinuierlich. Diskontinuitäten entstehen bei Verdeckungen.
Ähnlichkeit der lokalen Eigenschaften Es kann davon ausgegangen werden, dass die lokalen Eigenschaften der korrespondierenden Punkte wie Grauwerte oder Grauwertänderungen in derer Umgebung in beiden (oder mehreren) Ansichten sich ähnlich sind. Die
zusätzliche Einbeziehung der Farbinformationen bringt eine weitere Vereinfachung der
Berechnung.
Eine sehr gute und ausführliche Abhandlung zu Einschränkungen des Suchbereichs für die
Korrespondenzsuche und entsprechenden Optimierungen der Suchalgorithmen findet sich in
[JON97].
2.3.1
Pixelbasierte Verfahren
Bei den pixelbasierten Verfahren wird als Zuordnungsmerkmal das Merkmal mit dem kleinsten Informationsgehalt ausgewählt, ein Pixel mit seinem Intensitätswert I(x, y).
Die Anzahl der Helligkeitswerte in einem Bild ist für gewöhnlich sehr klein im Vergleich mit
der Pixelanzahl, so dass eine direkte Zuordnung fast immer (außer vielleicht bei sehr kleinen
Bildern) nicht möglich ist. Aus diesem Grunde werden bevorzugt nicht die Pixel selbst, sondern ganze Blöcke von Pixeln verglichen und unter pixelbasierten Methoden BlockmatchingMethoden (BM) genannt werden. Ein Pixel wird hier über seine Nachbarschaft beschrieben
und wird so identifizierbar.
2
SHAPE FROM STEREO
31
Die Bildpaare werden bei den meisten Anwendungen in gleich große Blöcke unterteilt. Für
einen Block im ersten Bild sucht man einen Block mit bester Übereinstimmung entlang der
Epipolarlinie im zweiten Bild. Die Wahl der Blockgröße wirkt sich stark auf die Robustheit
und Geschwindigkeit eines Algorithmus aus: Zu kleine Blöcke beinhalten zu wenig Information für eine Korrespondenzzuordnung, zu große führen zu erhöhten Rechenzeiten.
Als Bewertungsfunktionen werden meistens mittlerer quadratischer Fehler (MSE), mittlerer
absoluter Fehler (MAD), der Farbabstand oder die Kreuzkorrelation eingesetzt.
MSE:
ε(x, y) = minε(x,y)
XX
1
2
[I1 (x + m, y + n) − I2 (x + m + ε(x, y), y + n)]
M ∗N m n
(26)
XX
1
| I1 (x + m, y + n) − I2 (x + m + ε(x, y), y + n) |
M ∗N m n
(27)
MAD:
ε(x, y) = minε(x,y)
Normierte Kreuzkorrelation:
P P
I1 (x + m, y + n)I2 (x + m + ε(x, y), y + n)
ε(x, y) = maxε(x,y) pP Pm n
P P
2
2
m
n I1 (x + m, y + n)
m
n I1 (x + m + ε(x, y), y + n)
(28)
Eine sehr wichtige Rolle bei der Entwicklung eines effizienten Zuordnungsverfahrens spielt
die Wahl einer geeigneten Matching-Strategie. Zu bemerken dabei ist, dass hierarchisch vorgehende Techniken mit ihrer Schnelligkeit überzeugen und für fast alle Anwendungen empfehlenswert sind. Eine sehr ausführliche Darstellung von hierarchischen und anderen Optimierungsansätzen findet sich in [JON97]. Einige Beispiele für Matching-Strategien für Blockmatching sind: zweistufig, hybrid-rekursiv, mit Auflösungspyramide, mit Farbstereoanalyse,
Fine-to-Fine-Methode.
Der Hauptvorteil der Blockmatching-Methode gegenüber den merkmalbasierten Verfahren
ist eine dichtere Tiefenkarte. Hier werden die Tiefenwerte für alle Pixel direkt ausgerechnet,
nicht nur für einige ausgewählte Merkmalspunkte mit der Interpolation auf das ganze Bild.
Nachteilig sind eine höhere Komplexität und ein entsprechend höherer Rechenaufwand.
Eine Erhöhung der Genauigkeit bringt die Ausnutzung der chromatischen Informationen,
sofern sie im Bild vorhanden sind. Da der Werteraum hier größer ist, als bei reinen Grauwertbildern, können die Pixel leichter identifiziert werden. So wird die Auswahl der richtigen Korrespondenzen aus den vorhandenen Kandidaten schneller. In [KOS96] ist ein solcher
hierarchischer Blockmatching-Algorithmus für die Gewinnung von dichten Tiefenkarten aus
farbigen Stereobildern vorgestellt, das mit Bildpyramiden und einer aktiven farbigen Beleuchtung der Szene arbeitet.
Eine effiziente echtzeitfähige Implementierung eines korrelationsbasierten Verfahrens für farbige Bilder schlagen die Autoren von [MUE01] vor. Ihr Algorithmus hat neben einer relativ
hohen Geschwindigkeit eine für viele Anwendungen ausreichende Qualität, wie es im Bild
23 erkennbar ist. Eine geeignete Matching-Strategie (Sliding Window Summations) und eine
ummittelbare Wiederverwendung von Zwischenergebnissen lassen hier redundante Rechenoperationen und unnötige Speicherzugriffe vermeiden. Ein Links-Rechts-Konsistentcheck und
2
SHAPE FROM STEREO
32
Abbildung 23: Ein korrelationsbasiertes BM-Verfahren: zwei Eingangsbilder und die resultierende Disparitätskarte. Quelle: [MUE01]
ein schneller Medianfilter vermindern die Anzahl der Ausreißer am Ende der Schätzung.
Ein weiteres Beispiel für eine pixelbasierte Echtzeit-Anwendung ist die stereobasierte Videosensorik unter Verwendung einer stochastischen Zuverlässigkeitsanalyse (Beschreibung in
[SUP00], Gesamtkonzept in 4). Hier werden Punktkorrespondenzen durch einen blockbasierten Vergleich lokaler Intensitätsverteilungen zwischen den Bildern berechnet. Für den
Vergleich wird hier das Ähnlichkeitsmaß benutzt, welches unter Verwendung wahrscheinlichkeitstheoretischer Interpretationen auch Aussagen über die Zuverlässigkeit und Güte der
gefundenen Punktkorrespondenzen erlaubt (Abbildung 24). So sind robuste Detektion und
Vermessung von Objekten auch bei Störeinflüssen wie Helligkeitsänderungen, Schattenwürfe
oder Spiegelungen möglich. Durch stochastische Methoden erfolgt automatisch eine Überprüfung der Zuverlässigkeit für jeden erzielten Messwert und damit auch des gesamten Sensorsystems, was eine Früherkennung von Fehlfunktionen, wie z.B. zeitliche Veränderungen
der Kameraanordnung oder ähnliches, erlaubt.
Abbildung 24: Disparitätsschätzung durch stochastische Methoden. Quelle: [SUP00]
Eine der wenigen pixelbasierten Anwendungen, die tatsächlich mit einem Vergleich von einzelnen Pixeln und keinen Pixelblöcken arbeitet, ist das in [BAJ98] beschriebene System für
die Gewinnung von geometrischen 3D-Modellen für den Einsatz in Tele-Collaboration 2 . Der
eingesetzte Stereo-Algorithmus erstellt anhand zweier kleiner (256 X 256) Eingangsbilder
2 ein
Videokonferenz-System
2
SHAPE FROM STEREO
33
mehrere Disparitätshypothesen für jeden Pixel, die dann im Laufe einer Auswahlprozedur
durch Einhaltung einiger oben angegebenen Einschränkungen selektiert werden. Aus den
resultierenden Disparitätskarten werden über Triangulation räumliche Positionen von 3DPunkten des Modells berechnet und durch Reprojektion in die Eingangsbilder verifiziert. Die
rekonstruierten 3D-Modelle (Abbildung 25) sind zwar präzise und können schnell manipuliert
werden, das große Datenvolumen bestimmt aber hohe Rechenzeiten, so dass eine Verbesserung des Algorithmus für einen Online-Einsatz notwendig wäre.
Abbildung 25: Ein auf einzelnen Pixel basierter Stereoalgorithmus: rekonstruierte 3D-Punkte
mit natürlichen Texturen (vier Ansichten ). Quelle: [BAJ98]
2.3.2
Merkmalsbasierte Verfahren: Feature points als Merkmale
Ein Problem für die Blockmatching-Verfahren sind homogene Bildbereiche. Sie beinhalten
sehr wenig Information, werden aber in die Berechnung einbezogen und ziehen diese entsprechend in die Länge. Eine Möglichkeit der Vermeidung ist die Verwendung ausgewählter
Pixel mit bestimmten interessanten Eigenschaften. Das ist die merkmalsbasierte Methode
mit einzelnen Punkten als Merkmale.
Ein interessanter Detektor für die Auswahl von solchen geeigneten Punkten ist der MoravecOperator, der Bildpunkte mit starken Intensitätsänderungen in vier Richtungen (horizontal,
vertikal und zweimal diagonal) bestimmt:
M O(x, y) =
y+1
x+1
1 X X
| I(m, n) − I(x, y) |
8 m=x−1 n=y−1
(29)
Ein weiterer Detektor ist der Harris-Corner-Detektor [SCH03], [POL00], der aus den gewich-
2
SHAPE FROM STEREO
34
teten (Faktor ϕ) Helligkeitsgradienten in horizontaler und vertikaler Richtung Schlüsse über
die Verwendbarkeit eines Punktes für die Korrespondenzanalyse zieht. Die Grundlage für die
Berechnung ist eine Matrix M:
A B
M=
(30)
C D
mit der Berechnung der Elemente wie folgt:
A = ϕ(
B = C = ϕ(
δI(x, y) 2
)
δx
δI(x, y) δI(x, y)
)(
)
δx
δy
D = ϕ(
δI(x, y) 2
)
δy
(31)
(32)
(33)
Als Auswahlkriterium für einen auffälligen Merkmalspunkt dient R mit dem Schwellenwert
k=0.04:
(34)
R = det(M) − k(traceM)2
Candocia und Adjouadi haben in [CAN97] und [CAN93] einen generellen Ansatz für die
Ähnlichkeitsmessungen und das Stereo-Feature-Matching vorgestellt. Bei der Beurteilung der
Ähnlichkeit von zwei Merkmalen werden hier sowohl ihre Positionen als auch ihre GrauwertGradienten betrachtet, die Matching-Prozedur integriert lokale und globale Strategien.
Bei Verwendung von einzelnen Punkten als Zuordnungsmerkmale werden Tiefeninformationen nur für diese ausgewählten Punkte geschätzt, was als Folge die Notwendigkeit von weiteren Schätzungen oder Interpolationen für den Erhalt von dichten Tiefenkarten mit sich
bringt. Ein robuster und akkurater auf Voronoi-Diagramm basierter Algorithmus für die
Gewinnung von dichten Tiefenkarten aus Punktmerkmalen wird in [TAN02] präsentiert. Im
ersten Schritt des Verfahrens wird ein Bild entsprechend den gefundenen Merkmalspunkten
in eine bestimmte Anzahl von Voronoi-Diagramm-Zellen wie in der Abbildung 26 segmentiert, im zweiten Schritt wird die Zuordnungssuche für alle anderen Punkte in Zellengrenzen
durchgeführt. Der genaue Ablauf des Algorithmus sieht wie folgt aus:
1. Feature tracking. Obtain reliable correspondences of N seed feature points.
2. Estimate the epipolar geometry if the image pair is not rectified.
3. Find the Voronoi diagram of these seed feature points. There is one Voronoi cell for
each seed.
4. Take out a seed to generate the correspondences of its 8 neighbours. For each neighbour,
the matching point is searched at the neighbourhood of the corresponding point of the
seed. Modified SSD is used in the adaptive searched window with epipolar constraint.
5. Correspondences generated from the already matched points are used to produce more
matching points.
6. Correspondences propagate from the seed feature point in the middle of each cell until
the boundaries of the Voronoi diagram are reached.
2
SHAPE FROM STEREO
35
Abbildung 26: Beispiel eines Voronoi-Diagramms. Quelle: [TAN02]
2.3.3
Merkmalsbasierte Verfahren: Kantenpunkte als Merkmale
Einen weiteren Vorteil bei der Findung oder Verifizierung von Punktkorrespondenzen bringt
eine breitere Ausnutzung von Kontextinformationen. Werden die Punkte mit starken Grauwertänderungen in der Umgebung (Kantenpunkte), die den höchsten Informationsgehalt im
Bild haben, als zusammenhängende Teile eines Objektes (Kantenpunkte, Linien oder gar
regionenzugehörig) betrachtet, können auch die Mehrdeutigkeiten bei der Korrespondenzanalyse einfacher und schneller aufgelöst werden. Der eigentliche Korrespondenzvergleich
kann schneller durchgeführt werden, da bei Merkmalextraktion eine wesentliche Datenreduktion stattfindet. Der Hauptnachteil von diesen Verfahren liegt aber darin, dass man hier
zuverlässige Tiefeninformationen nur für diese ausgewählten Merkmale erhalten kann (keine
dichten Tiefenkarten, wie bei Blockmatching). Die Bereiche zwischen den Merkmalen (Kanten, Linien usw.) bleiben zuerst unberücksichtigt und müssen ggf. weiteren Verarbeitungen
unterzogen werden [TAN02].
Die Idee, Bilder über die Objektkanten zu beschreiben, kommt aus der Neurophysiologie und
basiert darauf, dass die Augen von Säugetieren inklusive Menschen am stärksten auf die Diskontinuitäten in den aufgenommenen Bildern reagieren. Verfahren, die mit Kantendetektion
arbeiten, sind sehr verbreitet in der Bildanalyse. Sie setzten eine Großzahl (mehr als 120)
von Detektoren ein [MAC93], [CHI98]. Ein umfassender und fast aktueller Überblick über
gängige Kantendetektionstechniken ist in [ZIO98] zu finden.
Canny [CAN86] formulierte folgende Kriterien für einen guten Kantendetektor :
Detektionsgüte: Kleine Wahrscheinlichkeit für eine falsche und große für eine richtige Zuordnung von Punkten zu Kanten.
Lokalisation: Das Maximum des Detektorausgangs soll an der Position der Kante auftreten.
Eindeutigkeit: Eine einzige Antwort pro tatsächlich vorhandener Kante.
2
SHAPE FROM STEREO
36
Für die objektive Beurteilung eines Kantenoperators ist Pratt’s Figure-of-Merit (FOM) sehr
gut geeignet, die den gewichteten quadratischen Abstand zwischen den tatsächlichen (bereits
bekannt) und von dem Detektor gefundenen Kanten misst:
I
F OM =
a
X
1
1
max(Ii , Ia ) j=1 1 + α(d(j))2
(35)
Die verwendeten Größen sind: Ii und Ia - je die Anzahl der vorhandenen und der vom
Detektor gefundenen Kantenpunkte, d(j) - Abstand eines gefundenen Punktes von seiner
tatsächlichen Position. FOM ist bei realen Operatoren immer kleiner eins, wobei ein perfekter Detektor FOM gleich eins liefern würde.
Die erste Einteilung der Kantendetektoren findet je nach der Verarbeitungsmethode in parallele und sequentielle Verfahren statt (Darstellung nach [KOE96] und [STE02].
I. Parallele Verfahren Die Verarbeitung findet parallel für mehrere Bildpunkte statt.
Es werden lokal mehrere Eigenschaftsvektoren berechnet, die Angaben wie Kantenstärke,
-Richtung usw. enthalten. Diese Eigenschaften sind Kriterien für die Entscheidung, ob eine
Kante vorliegt. Die Ergebnisse fließen in der Regel in die nächste Stufe der Verarbeitung, die
mit sequentiellen Verfahren abgedeckt ist.
Einfache, lokale Operatoren Die Operatoren sind meistens Approximationen der ersten
oder zweiten Ableitung der Bildfunktion mit einer Glättung.
Der Roberts-Cross-Operator berechnet die Differenzen in diagonaler Richtung:




0 −1 0
0
0 0
1
0 
δx =  −1 0 0  δy =  0
0
0
0
0
0 0
(36)
Der Sobel-Operator wird sehr häufig verwendet und enthält eine Glättung mit einer
Binomial-Filtermaske (einer diskreten Approximation der Gauß-Verteilung):




−1 0 1
−1 −2 −1
0
0 
δx =  −2 0 2  δy =  0
(37)
−1 0 1
1
2
1
Der Prewitt-Operator vereint in sich sowohl eine Glättung über eine Mittelwertbildung
(3-Punkte-Nachbarschaft) als auch eine Glättung über den symmetrischen Gradienten:




−1 0 1
−1 −1 −1
0
0 
δx =  −1 0 1  δy =  0
(38)
−1 0 1
1
1
1
Schablonen-Operatoren oder Template-Matching Hier werden Musterkanten in Form
von i unterschiedlichen Filtermasken Tj (Schablonen) der Größe 2m + 1 über das Bild
Iin geschickt, die Form der Kante wird anhand der besten Übereinstimmung mit den
Mustern erkannt. Schablonen sind diskrete Approximationen von Modellkanten in verschiedene Richtungen. Die Wahrscheinlichkeit und die Richtung einer möglichen Kante
2
SHAPE FROM STEREO
37
an einem bestimmten Punkt ergibt sich aus dem besten Ausgang Fout der Filteroperation [STE02]:
m
X
Fout (x, y) = max j
m
X
Iin (x − k)(y − l)Tj (k, l)
(39)
k=−m l=−m
Die bekanntesten von den Template-Operatoren sind der Kompass-Gradient und der
Kirsch-Operator, welche Kanten in acht Richtung detektieren. Die Genauigkeit ist zwar
etwas schlechter als bei lokalen Detektoren, dafür kann man hier auch die lokale Kantenrichtung bestimmen. Bei einiger Umrechnung können aber die lokalen Detektoren
wie Sobel- oder Prewittoperator auch für mehrere Richtungen ausgelegt werden.
Optimale oder regionale Operatoren Bei dieser Art der Detektoren wird ein ziemlich
gelungener Versuch gemacht, Vorteile von verschiedenen Operatoren, bezogen auf unterschiedliche Bildeigenschaften, in einem einzigen Detektor zu integrieren. Meistens sind
diese Filtermasken Kombinationen von Tief- und Hochpassfilterung mit einer Glättung
des Bildes durch einen Gaußfilter (Beschreibung und Quellcode in [STE02]).
Ein typischer Vertreter ist der Marr-Hildreth-Operator (Laplacian-of-Gaussian, LofG),
der basierend auf neurophysiologischen Untersuchungen zum Sehsystem des Menschen
entwickelt wurde. Im ersten Schritt wird eine Glättung des Bildes F (x, y) mit einer
Gauß-Funktion Gσ (x, y) (Standardabweichung σ) durch eine Faltung vorgenommen, im
zweiten eine Hochpass-Filterung mit dem Laplace-Operator ∇2 ausgeführt, zusammen
gefasst wie folgt:
Fout = ∇2 Gσ (x, y) ∗ F (x, y) = (∇2 Gσ (x, y)) ∗ F (x, y)
Die Funktion ∇2 Gσ wird dabei entsprechend der Formel berechnet:
!
!
−(x2 +y 2 )
x2 + y 2
1
2
−1
e 2σ2
∇ Gσ (x, y) =
πσ 4
2σ 2
(40)
(41)
Die Parametrisierung erfolgt über die Standardabweichung σ.
Einen sehr großen Vorteil im Vergleich zu anderen Detektoren hat der LofG-Operator
in der Hinsicht, dass er immer geschlossene und bereits binarisierte Kanten liefert (siehe
Abbildung 27), so dass eine entsprechende Nachverarbeitung entfällt. Nachteilig sind
eine mögliche Verschiebung der Kantenposition und die Tatsache, dass die fehlerhaft
detektierten Kantenpunkte (z. B. Rauschen oder leichte Grauwertänderungen im Bild)
nicht erkannt und genauso wie die richtigen als Kanten behandelt werden.
Parametrisierte Kantenmodelle Hier werden Filter eingesetzt, die nicht starr festgelegt
sind, sondern im Laufe der Berechnung ohne großen Rechenaufwand über ihre Parameter an die Vorlage angepasst werden. Durch diese Eigenschaft wird eine automatische
Anpassung an unterschiedliche Bilderarten möglich.
Morphologische Operatoren Diese Operatorengruppe ist eine wichtige Alternative zu
den klassischen Faltungsdetektoren und ist vor allem für den Einsatz auf binarisierten Bildern geeignet. Grundlage für diese Methoden sind einfache Strukturelemente
(auch Umgebungselemente genannt), die den Zusammenhang eines Bildpunktes mit
2
SHAPE FROM STEREO
38
Abbildung 27: Ergebnisse von LofG-Filterung (rechtes Bild). Quelle: [CAN93]
seiner lokalen Nachbarschaft festlegen. Mit Hilfe solcher Operationen wie Skelletierung,
Erosion oder Dilatation kann eine Bildsegmentierung durchgeführt werden und zwar
so, dass Löcher innerhalb von Objekten aufgefüllt werden und kleine Objekte ganz verschwinden. Somit wird die Kenntnis über die Form der Objekte und der Bildstörung
ausgenutzt, um diese Störung vom Nutzsignal zu trennen. Einige Beispiele für morphologische Operationen sind in [KOE96] und [STE02] zu finden.
II. Sequentielle Verfahren
Die Verfahren gehören zur Nachbearbeitung der Kantensuche und benötigen für gewöhnlich
Ergebnisse der Parallelen Verfahren. Für die in der Vorstufe ermittelten möglichen Kantenpunkte wird hier anhand von Informationen über die Nachbarpunkte, das ganze Bild oder mit
Ausnutzung von Kontextwissen über die möglichen Kantenformen, Bildinhalt usw. die Entscheidung getroffen, ob diese Kandidatenpunkte tatsächlich zu Kanten gehören. Sehr einfache
Beispiele für derartige Algorithmen sind Schwellenwertverfahren entweder mit einer einzigen
konstanten Schwelle oder mit einem Schwellenintervall (Hysteresis-Schwellenwertverfahren).
Eine komplexere Vorgehensweise wird bei den Linienverfolgungsalgorithmen gefragt, welche
aber für gewöhnlich auch bessere Binarisierungsergebnisse liefern. Für eine Vertiefung in das
Thema werden hier [KOE96] und [STE02] empfohlen.
2.3.4
Merkmalsbasierte Verfahren: Komplexe Merkmale
Da die zusammenhängenden Kantenpunkte unter Umständen sehr lang werden können und
sich im zweiten Bild wegen einer anderen Kameraposition stark verzerren können, ist es
oft wesentlich einfacher, die Kanten in Segmente aufzuteilen und so die Zuordnung durchzuführen. Die Gruppe der Verfahren gehört zu liniensegmentbasierten Anwendungen. Einige
Beispiele für die Bestimmung von Liniensegmenten aus Kanten ausgehend von geometrischen
und photometrischen Informationen werden in [FIL94], [QUA97] oder [ROU03] (Abbildung
28) geschildert.
In [BAR03] wird ein Verfahren zur Bestimmung von Kamerabewegung und 3D-Struktur für
2
SHAPE FROM STEREO
39
Abbildung 28: Eingangsbild (links) und die mit Hilfe von richtungsselektiver HoughTransformation extrahierten Liniensegmente (rechts): Quelle: [ROU03]
einfache Objekte präsentiert. Die Technik benötigt mehrere Szenenansichten für die Berechnung und führt entsprechende Schätzungen basierend auf einer Beschreibung des Triangulationsproblems in Plücker-Koordinaten und einer nichtlinearen Optimierung von gefundenen
3D-Linien zuversichtlich durch (Abbildung 29).
Abbildung 29: Originale (weiß) und geschätzte (schwarz) Linien (vergrößert): Quelle: [BAR03]
Der von Quan und Kanade entwickelte lineare Algorithmus [QUA97] schätzt Kamerabewegung und affine 3D-Formen aus Linienkorrespondenzen für unkalibrierte affine Kameras,
dabei werden mindestens sieben Linienkorrespondenzen in drei Ansichten benötigt (Rekonstruktionsergebnis in Abbildung 30).
Bei regionenbasierten Techniken werden Bilder einer oder mehrerer synchronisierter Videosequenzen in Segmente aufgeteilt, die bezüglich einer bestimmten Eigenschaft wie Intensität,
Textur, Bewegung usw. homogen sind. Für die Durchführung der Korrespondenzzuordnung
stehen hier mehrere Möglichkeiten offen. Sie kann gleichzeitig mit der Segmentierung (Initialisierung mit dem vorangegangenen Bild) oder nach einer vorherigen Berechnung der Regionenmerkmale (Schwerpunkt, Farbe, Orientierung, Intensitätsmittelwert usw.) durchgeführt
werden. Für die Vertiefung in das Thema der Segmentierungsverfahren wird hier auf [JIA97],
[PAU01] verwiesen.
Da die Regionengrenzen meist auch die Objektgrenzen beinhalten, bleiben bei den Verfahren
auch die tatsächlichen Objektkonturen erhalten. Im Gegensatz zu anderen merkmalsbasierten
Verfahren werden hier dichte Tiefenkarten (flächendeckend) direkt generiert, der Rechenauf-
2
SHAPE FROM STEREO
40
Abbildung 30: Aus Liniensegmenten rekonstruierte 3D-Form. Quelle: [QUA97]
wand ist dafür sogar geringer. Als ungeeignet erweisen sich aber die Algorithmen für die
Anwendungen, die detaillierte Tiefenkarten benötigen, wie z. B. bei der Bildsynthese: Zu
große Regionen liefern schlechte Syntheseergebnisse, zu kleine erhöhen die Rechenzeit, so
dass man gleich ein Blockmatching-Verfahren anwenden könnte.
Ein schneller lokaler Algorithmus, der Realisierung von Echtzeit-Stereo-Anwendungen an einem Standard-PC erlaubt, wird in [STEF02] präsentiert. Das Verfahren basiert auf einem
Matching-Kern, der unzuverlässige Korrespondenzen während der direkten Zuordnungsphase (Links-Rechts-Matching) detektiert und deswegen keine für diese Algorithmen typische
umgekehrte Zuordnungsphase (Rechts-Links-Matching ) erfordert. Im Vergleich zu einem
bidirektionalen Algorithmus liefert das Verfahren neben einem erheblichen Zeitgewinn Tiefenkarten fast gleicher Qualität.
Eine Ähnlichkeit zu den regionbasierten Verfahren besitzt der robuste Algorithmus von Veksler für die Gewinnung von dichten Tiefenkarten aus rektifizierten Ansichten, welcher geschlossene Sätze von Pixeln im linken und rechten Bild als Zuordnungsgrundlage verwendet
[VEK01], [VEK01a]. Neu bei dieser Methode ist es, dass die entsprechende Segmentierung
nicht vor der eigentlichen Tiefenschätzung, sondern als Ergebnis derselben stattfindet. Der
Ablauf sieht wie folgt aus: Für je zwei Bilder wird eine maximale Disparität als Begrenzung
eines Disparitätsintervalls zugelassen, für jede mögliche Disparität aus diesem Intervall (nur
Integerwerte sind zugelassen) werden in mehren Verfahrenschritten (durch Überlappung und
Intensitätsvergleich) die tatsächlich korrespondierenden Pixel berechnet und entsprechende
geschlossene Pixelsätze geschätzt. Die Genauigkeit der Berechnung ist ziemlich hoch. Große
Disparitäten, texturierte oder homogene Bereiche stellen kein Problem für das Verfahren dar.
Der beliebte Links-Rechts-Test findet hier wie gesehen im Laufe der Schätzung statt.
Tiefenschätzung anhand einer erfolgten Objekterkennung wäre am schnellsten und am einfachsten zu implementieren, wenn die Erkennung eines Objektes selbst [ELS00], [FIS99] kein
so komplexes Problem wäre. Die meisten solcher Anwendungen benötigen erstens eine zeitraubende Trainingsphase (von einem Menschen überwacht, Beispiel in 32) und beinhalten nur
kleine Datenbänke (etwa bis 100 Objekte, Beispiel in [OTT95]), so dass diese Techniken nur in
mehr oder weniger kontrollierbaren Umgebungen (Labor, Betrieb usw.) Einsatz finden. Eine
der wenigen möglichen Einsatzgebiete außerhalb von vier Wänden wäre z. B. Verkehrsüberwachung (begrenzte Anzahl von möglichen Objektarten), eine Tiefenbestimmung hier wäre
2
SHAPE FROM STEREO
41
aber auch mit Methoden der Bewegungsschätzung [HEI98], [ZAN03] relativ einfach durchzuführen.
In [ROU03] wird ein auf einer Kombination aus liniensegment-, regionen- und objekterkennenden Ansätzen basiertes Verfahren zur Echtzeit-Raumszeneanalyse für bildgestützte zielorientierte Navigation mobiler Roboter vorgestellt. Kern des Verfahrens ist ein Segmentierungsalgorithmus (Abbildung 31), der zunächst eine richtungsselektive Hough-Transformation mit
einer Liniensegmentdetektion durchführt und so eine Gitternetz aus konvexen Polygonen
erzeugt. Farbähnliche, homogene Polygone, die durch keine Linie getrennt sind, werden im
Laufe eines Flächenwachstumsverfahrens verschmolzen, im Weiteren werden eine Merkmalextraktion und eine Identifikation durchgeführt, Regionen werden bekannten Objekten zugeordnet. Das beschriebene Verfahren ist zwar monokular, stabil gegen Beleuchtungsänderungen
und echtzeitfähig, kann aber nur im Inneren von Gebäuden eingesetzt werden, wo klare Linienstrukturen und größere farblich homogene Flächen auftreten.
Abbildung 31: Ein Segmentierungsalgorithmus für Navigation mobiler Roboter: Quelle:
[ROU03]
Die nur sehr begrenzten Möglichkeiten eines Objekterkennungssystems demonstriert das in
[COE03] beschriebene Bildsegmentierungsverfahren für mobile Roboter. Die Technik generiert eine Zuordnung zwischen einem Punkt in der Chrominanzebene und dem wahrscheinlichsten Objekt, basierend auf Histogrammen und geometrischen Informationen. Der Algorithmus benötigt eine umfangreiche überwachte Trainingsphase (Abbildung 32) und liefert
zwar zuverlässige Ergebnisse, die Objektanzahl ist aber nur auf vier-fünf Gegenstände (jeweils eine bis zwei Farben zulässig) begrenzt.
3
SHAPE FROM MOTION
42
Abbildung 32: Trainingsphase eines Objekterkennungsalgorithmus am Beispiel eines Farbtrainings. Quelle: [COE03]
3
Shape from Motion
Die Bewegungsschätzung ist ein wichtiger Bestandteil der Bildverarbeitung, vor allem im
Bereich der Bildübertragung, da es sehr hohe Kompressionsraten erlaubt: Die Regionen, in
denen keine Bewegung statt findet, brauchen auch nicht neu übertragen zu werden (MPEG,
siehe [SCHA03]). Somit können nicht nur örtliche Abhängigkeiten in einem Bild (Differenzenund Transformationscodierung), sondern auch zeitliche Abhängigkeiten zwischen aufeinander
folgenden Bildern ausgenutzt werden. In Analogie mit der Stereobildverarbeitung wird auch
Tiefen- und 3D-Struktur-Schätzung aus Nachbarbildern (Structure from Motion, SfM) betrieben. Immer mehr Verfahren, die z. B. für Videotelephonie, Videokonferenzen, Interaktives
Fernsehen und ähnliches entwickelt werden, setzen die Bewegungsschätzung in Kombination
mit anderen Verfahren nicht nur für die Reduzierung der Datenrate, sondern auch für die
Synthese neuer virtueller Ansichten bei dem Empfänger an.
Der Schwierigkeitsgrad der Berechnung hängt stark mit der Art der Bewegung im Bild zusammen. Die einfachste und meist beschriebene Variante ist eine bewegliche Kamera mit
stationären Objekten, welche nicht deformierbar sind. Weitere Vereinfachung wird mit der
Annahme getroffen, dass sich die Kamera immer gleichförmig und mit einer konstanten Geschwindigkeit entlang eines Verschiebungsvektors bewegt. Komplexere Berechnungen müssen
ausgeführt werden für den Fall einer stationären Kamera und dynamischer Objekte, wobei
hier fast immer keine relative Bewegung der Objekte zueinander zugelassen wird. Die schwierigste Variante sind die mit einer beweglichen Kamera aufgenommenen Bilder von dynamischen Objekten.
Deformierbarkeit der Objekte (keine starren Körper mehr) stellt für die meisten Verfahren
ein Problem dar, das für gewöhnlich auf dem Wege separater Berechnungen der 3D-Form
3
SHAPE FROM MOTION
43
und der Parametrisierung für die Deformierung dieser Form gelöst wird. Die Mehrzahl der
Verfahren benötigt außerdem entweder ein vordefiniertes Modell oder mehrere Objektansichten, einen anderen Ansatz schlagen Bregler und Hertzmann vor [BRE00].
Eine graphische Beschreibung des SfM-Problems als zwei separate gleichzeitig zu lösende
Probleme ist in 33 dargestellt. Im Folgenden werden die wichtigsten SfM-Techniken kurz
geschildert, basierend auf Darstellungen von [JEB99], [BIS01], [POL00] und [AHR00].
Abbildung 33: Ablauf der 3D-Objektrekonstuktion. Quelle: [AAN02]
3.1
3.1.1
Schätzung mit Methoden der Stereobildverarbeitung
Vergleich mit konventionellen stereobasierten und trifokalen Techniken
In Videosituationen, sei es Echtzeit- oder Offline-Anwendungen, ist es genauso wie bei stereobasierten und trifokalen Anwendungen notwendig, Korrespondenzen zwischen den Bildern
festzustellen. Diese Bilder werden hier aber nicht gleichzeitig, sondern zu unterschiedlichen
Zeitpunkten aufgenommen, und die Merkmale werden so zu sagen durch eine Videosequenz
¡¿. Diese Merkmale können (z. B. wegen unterschiedlicher Beleuchtungssituationen oder Verdeckungen) unter Umständen viel mehr Rauschen aufweisen, als bei Stereo-Bildpaaren. Dieses
Rauschen muss geschätzt und entsprechend behandelt werden, da die Genauigkeit der Tiefenschätzung sehr stark mit der Genauigkeit der Korrespondenzzuordnung zusammenhängt.
Es ist deswegen oft sinnvoll, ein Fehlermodell aufzustellen, z. B. mit Hilfe der Verteilung von
Gauss, um die Auswirkungen der falschen Zuordnungen so gut wie möglich zu kompensieren.
Dabei ist zu beachten, dass der Fehler von Bild zu Bild variieren kann.
Kritische Einschränkungen sind bei Videosequenzen und Realzeit-Anwendungen die Annahmen der Kausalität und der zeitlichen Kontinuität: Eine physikalische Kamera kann sich
nicht augenblicklich zwischen zwei Ansichtspunkten bewegen. Ein Objekt existiert und ändert
sich zwischen zwei Aufnahmen. Man kann deswegen davon ausgehen, dass sich die relative
Position zwischen dem Sensor und der Szene ständig ändert, was nach Möglichkeit in die
SfM-Berechnung eingehen sollte. Eine der Möglichkeiten ist die Verwendung der Theorie der
dynamischen Systeme, eine weitere besteht im Einsatz von rekursiven Techniken. Anstatt auf
die Ankunft von allen zukünftigen Daten zu warten, werden hier die Vorteile der zeitlichen
Kontinuität ausgenutzt: Jedes ankommende Bild wird gleich verarbeitet, mit der Summation
sämtlicher Ergebnisse in einem Zustandsvektor. Diese Methoden erhöhen erheblich die Verfahrenseffizienz und erlauben Echtzeit-Anwendungen, wie die automatische Navigation eines
3
SHAPE FROM MOTION
44
Roboters usw.
Eine Bewegung im Bild unterliegt nicht so vielen Einschränkungen, wie die Verschiebung
zwischen zwei Bildern in der Stereobildverarbeitung. Der Suchraum kann hier nicht so eng
begrenzt werden. Da die Bewegung eines Objekts im Prinzip beliebig sein kann, greift meistens die Epipolareinschränkung nicht mehr usw. Die wenigen Vereinfachungen, die noch
getroffen werden können, sind die folgenden Annahmen:
• Die maximale Geschwindigkeit der Bewegung ist begrenzt.
• Die Geschwindigkeitsänderungen sind gering.
• Der Grauwert eines Objektpunktes kann sich nur geringfügig ändern.
• Die Bewegung ist einheitlich und kann modelliert werden.
Beispiele für das Einfließen von diesen Einschränkungen in die Berechnung in Kombination
miteinander findet sich in [TAO01], [ZHA01].
Ein fundamentaler Unterschied der kausalen Methoden zu epipolaren und trifokalen Techniken liegt darin, dass die letzteren für weite Basislinien 3 ausgelegt sind, die nicht angenommen
werden können, wenn sich die Kamera oder die Objekte nur geringfügig verschieben. Das ist
bei Videosequenzen aber fast immer der Fall, so dass die SfS-Methoden4 nur ungenaue Ergebnisse liefern. Das Rauschen erschwert es den meisten SfS-Algorithmen zusätzlich, eine hohe
Rekonstruktionsqualität zu ermöglichen. Die einfachere Korrespondenzsuche ist jedoch ein
wichtiger Vorteil der SfS-Techniken, der viele Entwickler motiviert, diese Algorithmen auch
bei der Situation von bewegten Bildern und kleinen Basislinien anzuwenden.
3.1.2
Aktuelle Entwicklungen
Die Anpassung der SfS- und trifokalen Techniken auf die Situation von zeitlich aufeinander
folgenden Bildern ist eine der Möglichkeiten, die Tiefenschätzung aus den Videosequenzen
durchzuführen. Genauso wie bei reinen SfS-Techniken wird hier die Fundamental-Matrix
geschätzt mit einer ggf. vorher durchgeführten Kamerakalibrierung.
Da es hier nicht nur zwei, sondern mehrere Ansichten auf eine Szene gibt (Videosequenzen), ist
es nur logisch, die Stereogeometrie auf die Multi-View-Geometrie zu erweitern, dabei werden
rekursive Techniken für die Überprüfung und Verfeinerung der Berechnung eingesetzt, z. B.
wie folgt [POL00]:
1. Initialisierung der Bestimmung von Struktur und Bewegung
- Extraktion der Merkmale aus den ersten zwei Bildern
- Durchführung der Korrespondenzzuordnung und Berechnung der Epipolargeometrie für die zwei Bilder
- Konfigurierung des Intitialbildes
- Rekonstruktion der Initialstruktur
2. Addition der anderen Ansichten bzw. Bilder der Videosequenz
3 Basislinie
4 Shape
- Abstand zwischen den optischen Zentren der Kameras
from Stereo
3
SHAPE FROM MOTION
45
- Extraktion der Merkmale
- Durchführung der Korrespondenzzuordnung zu vorangegangenen Bildern und Berechnung der Stereogeometrie
- Berechnung der Position der aktuellen Ansicht mittels eines robusten Algorithmus
- Verfeinerung und Korrektur der existierenden Punktkorrespondenzen
- Initialisierung neuer Strukturpunkte
3. Verfeinerung, Korrektur und Erweiterung der Rekonstruktion
- Verfeinerung der berechneten und optimierten Struktur und Erweiterung der Rekonstruktion
Das von Koch und Pollefeys entwickelte System realisiert effizient eine automatische 3DOberflächenmodellierung [POLaKOC00], [POLaKOC99], [KOC98], wobei es unkalibrierte Videosequenzen von einer Kamera, die sich um ein reelles Objekt frei bewegt, verarbeitet. Die
Tiefenwerte werden hier nicht nur für einige Merkmalspunkte, sondern für alle Pixel ermittelt und so werden dichte Tiefenkarten erstellt. Aus den Tiefenkarten wird ein 3D-Modell
des Objekts berechnet, gleichzeitig findet eine Zuordnung der Texturinformationen zu den
Referenzpixeln statt. Die Ergebnisse sind sehr realistische VRML-Modelle der Szene (Ablauf
in der Abbildung 34).
Eine Erweiterung der epipolaren Bildanalyse für den Fall kreisförmiger Kamerabewegungen
wird in [FEL03]von Feldmann und Eisert realisiert. Statt der Suche nach den geraden Epipolarlinien werden hier Trajektorien von einzelnen Punkten in einem so genannten Bildwürfel
explizit berechnet (Image Cube Trajectory Analysis). Der Zeitaufwand ist zwar erheblich,
Tiefenkarten sind aber sogar für solche schwierige Bereiche wie periodische oder sehr detaillierte Strukturen sowie homogene Regionen von einer guten Qualität.
Eine formale Beschreibung der Rekonstruktionsformeln für Rotational Dynamic Stereo wird
für orthogonalen Koordinaten in [LI03] gegeben. Der Rotationswinkel ist dabei unbekannt.
Die Rekonstruktionsqualität ist recht hoch (Abbildung 35).
Ein anderes neues Verfahren ist die Anwendung von Quan und Lhuillier für die Schätzung
von Form aus Bewegung aus drei affinen Ansichten [QUA02].
3.2
Struktur aus dem optischen Fluss
Optischer Fluss ist der beobachtete Grauwertfluss in der Bildebene zwischen Bildern einer
Videosequenz: Objektbewegung bewirkt, dass Grauwerte über die Bildebene fließen [JIA02].
Für die meisten Anwendungen wird die Annahme getroffen, dass das optische Flussfeld mit
dem auf die Bildebene projizierten Vektorfeld der Bewegungen der 3D-Szene (dem Bewegungsfeld ) identisch ist (siehe Abbildung 36), obwohl diese nur bedingt gleichgestellt werden
können. Beleuchtungsänderungen in der Szene, hervorgerufen durch eine bewegliche Lichtquelle, bewirken z. B. eine Wanderung der Intensitätswerte über die Bildebene, obwohl keine
Bewegung stattfindet. Ein Beispiel für eine Änderung des Bewegungsfeldes ohne Änderung
des optischen Flussfeldes ist eine sich drehende Kugel mit einer gleichmäßigen Oberfläche
([JIA02]). Das fast immer vorhandene Rauschen muss ebenfalls berücksichtigt werden.
3
SHAPE FROM MOTION
46
Abbildung 34: Ablauf der 3D-Objektrekonstuktion. Quelle: [POLaKOC00]
Abbildung 35: Ein Eingangsbild (links) und die rekonstruierte 3D-Form (rechts). Quelle:
[LI03]
3
SHAPE FROM MOTION
47
Abbildung 36: Optischer Fluss, links: Messanordnung, rechts: geschätzter optischer Fluss.
Quelle: [TOE04]
3.2.1
Berechnung der Tiefenwerte aus dem optischen Fluss
Tiefenwerte können direkt aus dem berechneten optischen Fluss rekonstruiert werden, wie in
dem Fall einer statischen Szene und einer beweglichen Kamera. Die Kamera bewegt sich mit
einer Rotationsgeschwindigkeit ω und einer Translationsgeschwindigkeit υ, für jeden Punkt
M = (X, Y, Z)T kann die Geschwindigkeit wie folgt angegeben werden [AHR00]:
dM
= −υ − ω × M
dt
(42)
Y
Die Anwendung der Zentralprojektion x = f X
Z und y = f Z (mit Brennweite f) liefert eine
lineare Beobachtungsgleichung:
b = Hd
mit
d=
1
f
und
H = f ∆t
−1
0
0
−1
x
f
y
f


vx
 vy 
vz
sowie
b=
∆x
∆y
− ∆t
xy
f
f+
−(f +
y2
f
− xy
f
(43)
x2
f )
! ω 
x
y
 ωy 
−x
ωz
(44)
(45)
Die Einführung von Pseudo-Inversen von H führt zu der folgenden Gleichung für die Schätzung
der Tiefenvariable d:
(46)
d = (HT H)−1 HT b
Die Gewinnung der Tiefeninformationen gestaltet sich aus dem bereits berechneten optischen
Fluss (dargestellt als Verschiebungsvektoren (∆x, ∆y)T für jeden Pixel oder für Blöcke von
Pixel) relativ einfach, die Anwendung einer einfachen Triangulation reicht hier schon aus. Zu
bemerken ist allerdings, dass die Bewegungsschätzung selbst unter Umständen sehr komplex
3
SHAPE FROM MOTION
48
werden kann. Der optische Fluss kann mit einer Vielzahl der Methoden geschätzt werden,
auf die im folgenden Abschnitt kurz eingegangen wird (Quellen: [HEI98], [AHR00]). Für eine
Vertiefung in das Thema der Bewegungsschätzung werden [MAL98] und [AHR00] empfohlen.
Ein Beispiel für einen typischen Ablauf ist das später näher beschriebene Verfahren von Tao
([TAO01], Abbildungen 37, 45, ??). Zeitliche Korrespondenzen und somit der optische Fluss
werden hier basierend auf der Überlappung von Farbsegmenten festgestellt. Korrespondenz
von Pixeln in entsprechenden Segmenten ermittelt man anhand des optischen Flusses.
Abbildung 37: Oben: Schätzung des optischen Flusses, unten: Ermittlung der korrespondierenden Pixeln. Quelle: [TAO01]
3.2.2
Schätzung des optischen Flusses
An die Verfahren der Bewegungsbestimmung wird meistens die Forderung einer flächendeckenden und dichten Schätzung des optischen Flusses gestellt. Die Erfüllung dieser Forderung ist besonders für Anwendungen wichtig, welche die Bewegungsinformationen für eine
Tiefenschätzung oder 3D-Form-Berechnung benötigen. Eine weitere Forderung ist die Erhaltung der Diskontinuitäten des optischen Flusses, da diese unter anderen an Grenzen von
Objekten entstehen und für eine Segmentierung der Szene wichtig sind. Die existierenden
Lösungsansätze werden unten kurz beschrieben (Quellen: [HEI98], [AHR00]).
I. Differentielle Verfahren
Bei dieser Art der Algorithmen werden die Bewegungsinformationen aus den örtlichen und
zeitlichen Ableitungen der Intensität bestimmt. Wie bei den Korrespondenzverfahren geht
3
SHAPE FROM MOTION
49
man hier davon aus, dass die Helligkeit eines 3D-Punktes M = (X, Y, Z)T und seiner
2D-Projektion in die Bildebene m = (x, y)T eine Funktion seiner Koordinaten f (m, t) =
f (x(t), y(t), t) ist und über einige Zeit unverändert bleibt. Da es nur unter den Voraussetzungen einer konstanten Beleuchtung und translatorischen Szenenbewegungen möglich ist,
werden für die Berechnungen diese Annahmen getroffen.
Aus der Konstanz der Helligkeit entlang einer Trajektorie kann die Gradientengleichung für
dy T
den optischen Fluss v = (u, v)T = ( dx
dt , dt ) abgeleitet werden:
∇m f (m, t)T v(m, t) +
d
f (m, t) = 0
dt
(47)
Ein durch die Art der Bestimmung der Grauwertänderungen hervorgerufenes Problem für die
differentiellen und einige anderen Verfahren ist das so genannte Blende- oder Aperturproblem:
Nur die senkrecht zur Kante liegende Komponente des Verschiebungsvektors kann eindeutig
bestimmt werden, andere sind unbekannt (siehe Abbildung 38), so dass die Gradientengleichung oben ohne weitere Einschränkungen keine eindeutige Lösung liefert. Die Ursache dafür
ist die Anwendung von lokalen Operatoren, die jeweils nur einen kleinen Ausschnitt des Bildes
(entsprechend der Größe der Filtermaske) verarbeiten. Sicher kann der Verschiebungsvektor
bei kleinen Maskengrößen nur an Objektecken berechnet werden sowie bei einer Erweiterung
auf andere Detektorstrategien.
Abbildung 38: Aperturproblem, Objektbewegungen: sicher bestimmbare (rot), tatsächliche
(blau), ebenfalls mögliche (schwarz). Quelle: [MIE02]
Das zweite Problem wird durch die zeitliche Abtastung hervorgerufen: Eine zu kleine Abtastfrequenz kann zu erheblichen Fehlern in der Schätzung führen, so dass vor der Differentiation
bei meisten Algorithmen eine Tiefpassfilterung durchgeführt wird.
Lösung der obigen Differentialgleichung erfordert Einführung von einigen Zusatzbedingungen
und kann entweder auf lokaler oder auf globaler Ebene geschehen.
Globale Verfahren Bei dieser Art der Methoden verläuft die Berechnung von Verschiebungsvektoren für alle Pixel im Bild nicht unabhängig voneinander, sondern miteinander gekoppelt. Ergebnis der Schätzung sind dichte Verschiebungskarten, bei denen die
möglichen örtlichen Instabilitäten wie Rauschen ausgeglichen sind.
Ein wichtiger Ansatz ist das iterative Verfahren von Horn und Schunck, das auf einer angenommenen Glattheit der Gradientenlösung basiert: Es wird das Vektorfeld aus
3
SHAPE FROM MOTION
50
den möglichen nahe liegendenLösungen der Gleichung ausgewählt, das auch möglichst
¡¿ verläuft. Mathematisch wird es wie ein Minimierungsproblem der über die gesamte
Bildebene definierten Fehlerfunktion formuliert mit der Berücksichtigung der Abweichung (1. Term des Integrals) und der Glattheit (2. Term des Integrals):
Z Z
d
∇f (m, t)T v + f (m, t))2 + λ2 (||∇u||2 + ||∇v||2 )dxdy = min
(48)
dt
Die Ausdehnung der Fehlerfunktion auf das ganze Bild bringt es aber mit sich, dass
die Objektkanten geglättet werden. Dieser Nachteil wird bei den Verfahren vermieden,
welche die Glattheitsbedingung nicht auf das ganze Bild, sondern nur auf Bildsegmente
anwenden. Ein Bild wird dabei in Regionen aufgeteilt, die bezüglich bestimmter Merkmale wie z. B. der Helligkeit homogen sind. Der Verlauf des optischen Flusses wird für
diese Segmente unabhängig von anderen Regionen berechnet, so dass die Flussdiskontinuitäten erhalten bleiben.
Lokale Verfahren Diese Methoden betrachten Flussvektoren für jeden Bildpunkt getrennt
voneinander und stellen Plausibilitätsprüfungen erst bei der Nachbearbeitung der Ergebniskarten an. Da hier jeder Pixel entweder in einer kleinen Nachbarschaft oder gar
einzeln in die Berechnung eingeht, können die Verfahren keine zuverlässigen Schätzungen über homogene oder schwach texturierte Bildbereiche durchführen und liefern nicht
so dichte Vektorfelder, wie die globalen Verfahren. Als Vorteile erweisen sich allerdings
die Schnelligkeit und Präzision der Berechnung.
Für die Einschränkung von Lösungen der Differentialgleichung werden mehrere Ansätze
verwendet, wie z. B. die Annahme der Konstanz des Intensitätsgradienten:
d
∇f (m, t) = 0
dt
(49)
Diese Forderung ist aber nur erfüllt, wenn bestimmte Bewegungen wie Rotation im
Bild nicht vorkommen, dazu kommt die größere Störanfälligkeit dieser Algorithmen gegenüber globalen Verfahren.
Eine andere Möglichkeit ist die Modellierung des Verlaufs des optischen Flusses in einer kleinen Nachbarschaft Dm0 eines Punktes als konstant, der Flussvektor vm0 an der
Stelle m0 = (x0 , y0 ) wird aus der Minimierung der Fehlerfunktion berechnet, die Abweichungen der Schätzung von der Differentialgleichung und dem Modell berücksichtigt
(γ(x, y) ist eine Gewichtungsfunktion):
Z Z
d
γ(x − x0 , y − y0 )(∇f (m, t)T v + f (m, t))2 dxdy
(50)
dt
Dm
II. Frequenzbasierte Verfahren
Diese Methoden basieren auf der Bestimmung des optischen Flusses aus der Fouriertransformierten der orts- und zeitabhängigen Helligkeitsfunktion. Ein Bildsignal f (m, t) bewegt sich
mit einer konstanten Geschwindigkeit v:
f (m, t) = f0 (m + tv)
(51)
3
SHAPE FROM MOTION
51
und hat eine Fouriertransformierte
F (u, γ) = F0 (u)δ(γ + vT u)
(52)
Die Energie ist offensichtlich entlang der Ebene γ + vT u = 0 verteilt und verschwindet
außerhalb. Die Geschwindigkeit ist senkrecht zu dieser Ebene in dem 3D-Frequenzraum. Diese
Tatsache kann dazu verwendet werden, die lokale Bewegung im Bild zu schätzen, z. B. durch
eine Faltung mit einem Satz von Gaborfilterfunktionen und anschließendem Vergleich der
Filterantworten mit erwarteten Filterausgängen für vorgegebene Geschwindigkeiten (siehe
Bild 39). Dieses Verfahren ist allerdings nur schwer zu realisieren und liefert dazu auch keine
allzu guten Ergebnisse.
Abbildung 39: a) Bild aus der Eingangssequenz, b) geschätzter optischer Fluss, c) die für die
Bewegungsschätzung verwendeten Gaborfilter-Ausgänge. Quelle: [BRU02]
III. Korrespondenzverfahren
Diese Gruppe der Verfahren aus dem Bereich der Stereobildverarbeitung führt keine direkte
Schätzung des optischen Flusses, sondern eine Berechnung der Verschiebung eines Intensitätswertes zwischen zwei im Zeitabstand ∆t aufgenommenen Bildern durch. Optischer Fluss wird
∆y
als Grenzwert dieser Verschiebung (lim∆t→0 ∆x
∆t , lim∆t→0 ∆t ) approximiert.
Ein gutes Beispiel für eine robuste Bewegungsschätzung mit Stereo-Methoden ist das in
[GRE02] beschriebene Videosensorik-Verfahren für Roboter Navigation, das auf einem BlockmatchingAlgorithmus unter Verwendung stochastischer Vergleichskriterien basiert (Blockschaltbild in
Abbildung 40).
Allgemein können hier sowohl die klassischen Blockmatching-Methoden als auch die merkmalsbasierten Techniken angewendet werden, mit einigen oben beschriebenen Einschränkun-
3
SHAPE FROM MOTION
52
Abbildung 40: Blockschaltbild für eine robuste Bewegungsschätzung mit Stereo-Methoden.
Quelle: [GRE02]
gen. Bei allen Ansätzen ist eine hierarchische Vorgehensweise (von kleinster bis zu höchster
Auflösung) empfehlenswert, da dabei einige Fehlerquellen wie Rauschen, Beleuchtungsänderung, Verdeckungen besser kompensiert werden können. Bei den Blockmatching-Verfahren ist
es oft vorteilhaft, adaptive Blockgrößen und sich überlappende Blockbereiche zu erlauben, um
die Schnelligkeit und die Genauigkeit der Berechnung zu erhöhen. Merkmalsbasierte Verfahren sind insoweit besser, dass sie eine genauere und schnellere Bewegungsschätzung erlauben
mit dem Nachteil nur spärlich besetzen Tiefen- oder Verschiebungskarten. Bei merkmalsbasierten Ansätzen werden Bilder nicht einfach als Ansammlungen von Helligkeitswerten,
sondern als Szenen mit physikalischen Objekten betrachtet, deren Eigenschaften wie Grenzen, Flächeninhalte, Farben, Beweglichkeit usw. bestimmt werden können. Korrespondenzzuordnung findet somit für gewöhnlich nicht blockweise- sondern bilderweise statt, so dass
das Aperturproblem umgegangen wird. Gleichzeitig kommt aber das Problem hinzu, dass
die Ähnlichkeit der Merkmale zwischen der Bildern nicht so einfach festzustellen ist: Kantenlängen, Neigungswinkel, Regionengrößen, Objektkonturen usw. ändern sich von Aufnahme
zur Aufnahme, so dass hier geeignete und relativ komplexe Algorithmen zur Korrespondenzfindung und -Verifizierung eingesetzt werden müssen.
Einen Vergleich der gängigen Verfahren zur Bewegungsschätzung liefert Heisele in [HEI98]
(siehe Abbildung 41). Er gibt den regionenbasierten Ansätzen wegen ihrer Schnelligkeit und
Einfachheit die beste Bewertung. Es ist in der Tat so, dass sehr viele Echtzeit-Anwendungen
eine Farbsegmentierung und eine entsprechende Regionenzuordnung verwenden. Die gelieferten Tiefenkarten sind flächendeckend und für manche Zwecke ausreichend. Die schwache
Detailliertheit der Karten macht sie für den Einsatz z. B. bei der Bildsynthese ungeeignet,
so dass eine Nachbearbeitung erforderlich ist.
3.3
Rekursive und Multi-View-Techniken
Die Hinzunahme einer weiteren Videokamera liefert eine zweite Szenenansicht und gibt die
Möglichkeit, sowohl stereobasierte Techniken auf die gleichzeitig aufgenommenen Bilder als
auch beliebige andere Methoden der Bewegungsschätzung auf die aufeinander folgenden Bilder anzuwenden. Die Genauigkeit der Rekonstruktion erhöht sich dabei erheblich.
In [ZHA01] wird ein effizientes Verfahren für die Berechnung eines dichten 3D-Szenen-Flusses
aus mehreren (am Beispiel von drei) Videosequenzen vorgestellt. Ziele der Arbeit (die auch
erreicht werden) sind: 1) Detektion verdeckter Bereiche in unterschiedlichen Ansichten; 2)
Durchführung der 3D-Szenen-Fluss- und Objektstruktur-Schätzung; 3) Beibehalten von zu-
3
SHAPE FROM MOTION
53
Abbildung 41: Vergleich von Verfahren zur Bewegungsbestimmung. Quelle: [HEI98] (Tabelle
verändert)
verlässigen Bewegungsschätzungen und gefundenen Tiefendiskontinuitäten. Vorteilig ist bei
dieser Anwendung die gleichzeitige Integration von verschiedenen Suchbereicheinschränkungen sowohl für den optischen Fluss, als auch für Stereo-Bildpaare, die hier gemeinsam als
ein Minimierungsproblem formuliert werden. Die initiale Disparitätskarte wird dabei mit
einem hierarchischen regelbasierten Stereomatching-Algorithmus berechnet. Die Eingangsbilder werden dabei in Segmente unterteilt, die als planare Flächen mit Deformierungen
aufgefasst werden. Die Interpolation findet für jedes neue Bild adaptiv nach einem hier definierten Regelwerk statt. Ausgang des Verfahrens sind drei Karten: eine Verschiebungs-, eine
Verdeckungs- und eine Zuverlässigkeitskarte (Abbildung 42).
Abbildung 42: Von links nach rechts: Verschiebungs-, Verdeckungs- und eine Zuverlässigkeitskarten. Quelle: [ZHA01]
Einen schnellen und zuverlässigen Algorithmus für die Lösung des Triangulationsproblems aus
zwei Bildsequenzen präsentiert Oliensis in [OLI01]. Sein Vorschlag ist eine exakte und explizi-
3
SHAPE FROM MOTION
54
te Darstellung der 3D-Struktur aus vorliegender Bewegung. Der Least-Squares-Reprojektionsfehler
wird hier nur in Abhängigkeit von der Bewegung formuliert. Die Minimierung dieses Ausdrucks gibt die optimale Schätzung.
Der Kalman-Filter ist eine auf Bayesian Schätzung basierende Technik, die bei der Analyse von stochastischen dynamischen Systemen eingesetzt wird. Einen auf dem Kalman-Filter
basierenden Algorithmus für Tiefenschätzung aus Bildsequenzen haben Matthies, Kanade
und Szeliski in [MAT89] präsentiert. Der Ansatz wurde im letzten Jahrzehnt aktiv weiter
entwickelt [ZAN03], [AHR00].
Die bei den Kalman-Filter-basierten Methoden erforderliche Fehlerschätzung ist nur schwierig durchzuführen, weswegen man oft andere rekursive Techniken einsetzt. Von Chowdhury
und Chellapa [CHOWaCHE01] wurde ein neuer rekursiver Algorithmus zur Schätzung der
Szenenstruktur aus zwei Bildsequenzen mittels stochastischen Approximationstechniken entwickelt (Blockdiagramm in Abbildung 43). Die für jeden Abschnitt aus zwei Bildern fusionierte Tiefenschätzung wird anhand der bisher berechneten Kamerabewegung in das neue
Koordinatensystem des nächsten Bildpaares transformiert, wo eine neue Fusion stattfindet
usw. Die Kamerabewegung wird dabei mit Hilfe eines optimalen Bewegungsfilters rekonstruiert, stochastische Approximation wird entsprechend dem Robbins-Monro-Algorithmus
durchgeführt. Das Verfahren kann die Szene mit einer geforderten Genauigkeit beim Vorliegen einer ausreichenden Anzahl von Bildern rekonstruieren (Bild 44).
Abbildung 43: Blockdiagramm
[CHOWaCHE01]
eines
Algorithmes
für
Multi-frame-fusion.
Quelle:
Tao schildert in [TAO01] sein Verfahren zur Tiefenschätzung aus dynamischen nicht starren
Szenen. Der Eingang sind synchronisierte Videosequenzen von mehreren Kameras, die um
eine reelle Szene angeordnet sind. Basierend auf in der Szene vorhandenen chromatischen
Informationen wird eine Segmentierung der Bilder in eine Sammlung von stückweise planaren 3D-Oberflächen durchgeführt. Mit Hilfe von Szenenfluss-, Glattheits-, Geschwindigkeitsund anderen Einschränkungen und dem optischen Fluss wird eine zeitliche Tiefenprädiktion berechnet, räumliche Tiefewerte werden initialisiert und mit einer zeitlichen globalen
Tiefenhypothese getestet (Blockdiagramm in 45). Der Ausgang sind dichte, aber schwach
detaillierte Tiefenkarten (Abbildung 46), die Qualität kann aber noch verbessert werden.
3
SHAPE FROM MOTION
55
Abbildung 44: Links: Das erste und das letzte Bild der Eingangssequenz, rechts: zwei synthesierte Ansichten. Quelle: [CHOWaCHE01]
Abbildung 45: Blockdiagramm für ein dynamisches Tiefenermittlungsverfahren. Quelle:
[TAO01]
Abbildung 46: Links: Eingangsbild einer Videosequenz, rechts: die resultierende Tiefenkarte.
Quelle: [TAO01]
3
SHAPE FROM MOTION
3.4
56
Tomasi-Kanade-Faktorisation
Eine Alternative zu SfS-Techniken5 ist die Betrachtung von unterschiedlichen Projektionsmodellen. Der Fall der perspektivischen Projektion ist zwar charakteristisch für reale Kameras,
die Korrespondenzgleichungen sind aber schwierig in der Berechnung. Die orthographische
Projektion ist dafür die einfachste Projektionsart und hat eine triviale Form (Abbildung 47).
Abbildung 47: Orthographische Projektion. Quelle: [JEB99]
Die Grundlage für diese Techniken ist das Theorem von Ullman, das besagt, dass drei orthographische Projektionen von vier coplanaren Punkten eine eindeutige 3D-Interpretation
als starrer Körper haben. Eine der wichtigsten Methoden in dem Bereich wurde von Tomasi
und Kanade entwickelt (Beschreibung in [TOE04]). Die Grundlage für die Berechnung ist
eine lineare Formulierung, nur unterscheidet sich diese Linearität grundsätzlich von der in
vorangegangenen Epipolargeometrie-Anwendungen.
Diese Technik beginnt mit N korrespondierenden Punkten, dessen Korrespondenz in allen
M Bildern festgestellt wurde. All die Punkte werden in einer Matrix W der Größe (2M XN )
zusammen gefasst. Für jedes Bild (oder Zeile der Matrix W) wird ein Mittelwert gefunden
und von den Punkten der Zeile abgezogen. Das Ergebnis wird in einer neuen Matrix Ŵ
registriert. Diese resultierende Matrix kann als Produkt Ŵ = RS von einer 2M X3 Matrix
R (repräsentiert die Bewegung) und einer 3N Matrix P (repräsentiert die Form) dargestellt
werden, die mittels einigen linearen Operationen aus der Matrix Ŵ gewonnen werden.
Dieser Algorithmus ist zwar in meisten Situationen sehr robust und reicht für viele Anwendungen aus, er ist aber nur für orthographische Projektion ausgelegt und berücksichtigt
keine perspektivischen Effekte. Die Faktorisierungsmethode wurde von Poelman und Kanade weiter entwickelt für den paraperspektivischen Fall, der eine geschlossene Approximation
der perspektivischen durch orthographische Projektion darstellt und auf eine breitere Anzahl
von Bewegungsszenarien kann angewendet werden [POE97]. In [KAH00], [KAH99] wird ein
solches Verfahren der gleichzeitigen Kamerabewegung- und Strukturrekonstruktion aus un5 Shape
from Stereo
3
SHAPE FROM MOTION
57
kalibrierten Videosequenzen für Affine Kameras realisiert.
Eine gleichzeitige 3D-Modell-Gewinnung und eine Kalibrierung für mehrere Kameras sind
in dem aktuellen auf einem Faktorisierungsalgorithmus basierten Verfahren von Han und
Kanade [HAN00a] realisiert. Das System verarbeitet mehrere unkalibrierte perspektivische
Ansichten einer Szene und liefert zuverlässige 3D-Modelle mit zugeordneten Texturinformationen wie in der Abbildung 48. Im ersten Schritt des Verfahrens wird eine projektive
Szenerekonstruktion anhand eines bilinearen Faktorisierungsalgorithmes durchgeführt, die so
geschätzte projektive Lösung wird im zweiten Schritt in den euklidischen Raum konvertiert.
Diese viel versprechende Methode kann z. B. für Kamerakalibrierung, Geländeerkundung
oder 3D-Modell-Bildung für statische Szenen eingesetzt werden.
Abbildung 48: a) 1. und 9. Bilder der Gebäudesequenz, b) Oben- und Seitenansichten der
Rekonstruktion, 3-Eck-Figuren beschreiben Bewegung der Kameras, c) Zwei Ansichten mit
Texture-Mapping. Quelle: [HAN00a]
Auf einem Faktorisationsalgorithmus für eine skalierte orthographische Projektion basiert
das Verfahren von Bregler und Hertzmann [BRE00], welches die 3D-Form-Berechnung für
deformierbare Objekte am Beispiel von Menschen und Tieren realisiert. Diese einfache und
effiziente Technik basiert auf einem Non-Rigid-Model, welches die 3D-Form in jedem Bild
als eine lineare Kombination von einem Satz von Basisformen repräsentiert. Diese lineare
Kombination fließt in die Gesamtmatrix ein, weitere Berechnung findet in drei Faktorisierungsschritten analog zu anderen Methoden dieser Art statt. Im Gegensatz zu den meisten
anderen Verfahren werden hier keine vordefinierten Modelle oder mehrere Kameraansichten
benötigt, die Ergebnisse sind aber brauchbar (Bilder 49 und 50) und können weiter verbessert
werden. Zu beachten ist es aber, dass die Komplexität dieser Methode stark mit der Anzahl
der Basisformen ansteigt.
Von Han und Kanade ist eine Weiterentwicklung der Faktorisierungsmethode für die Rekonstruktion von Szenen mit mehreren beweglichen Objekten [HAN00]. Ausgehend von einer
monokularen kalibrierten Videosequenz werden Strukturen und Trajektorien der bewegten
3
SHAPE FROM MOTION
Abbildung 49: Beispieleingangsbilder. Quelle: [BRE00]
Abbildung 50: 3D-Rekonstruktion der Oberfläche (Giraffe). Quelle: [BRE00]
58
4
SHAPE FROM SHADING
59
Objekte und Bewegung der Kamera gleichzeitig berechnet. Die Anzahl der beweglichen Objekte wird automatisch detektiert, ohne eine vorgeschalteten Bewegungssegmentierung. Die
Annahme, dass sich die Objekte nur linear und nur mit konstanten Geschwindigkeiten bewegen können, erlaubt hier eine gemeinsame geometrische Repräsentation sowohl für statische
als auch für dynamische Szenenteile. Bei dieser Art der Repräsentation werden die Bewegungseinschränkungen in die Szenenstruktur eingebetet, und zwar so, dass die Formmatrix
aus zwei Räumen zusammengesetzt wird: aus einem Szenenstruktur- und einem Bewegungsraum. Der Algorithmus nutzt die Einschränkungen zwischen der Kamerabewegung und der
Formmatrix für die Durchführung der Rekonstruktion. Als Kameramodell wird hier das orthographische Modell eingesetzt, die intrinsischen Kameraparameter müssen im Voraus bekannt sein.
Ein Jahr später haben Han und Kanade ein neues Verfahren vorgestellt, das ähnlich dem
Vorgänger aufgebaut war. Er war jetzt im Stande, auch die intrinsischen Kameraparameter
gleichzeitig mit anderen zu Berechnungen zu schätzen und erforderte keine vorkalibrierten
Sequenzen. Zuerst wird die projektive Rekonstruktion mit Hilfe eines bilinearen Faktorisierungsalgorithmus berechnet, dann wird diese projektive Lösung in eine Euklidische transformiert. Für Einzelheiten wird die Quelle [HAN01] empfohlen.
4
Shape from Shading
Bei den schattierungsbasierten Verfahren (Shape from Shading, SfSh) werden die Variationen der Grauwertverteilung im Bild direkt in Beziehung zu Oberflächenorientierungen in
der Szene und der Beleuchtung gesetzt. Bei einer bekannten konstanten Reflexion (z. B.
Lambertsche) und einer bekannten Beleuchtung ist es möglich, aus den Bildintensitäten die
Oberflächennormalen zu rekonstruieren (zusammengefügt in ein Nadeldiagramm) und dann
die relativen Tiefenwerte für alle Pixel zu ermitteln (siehe Bild 51). Es existieren aber auch
Verfahren, die direkt aus der Bildintensität Tiefenwerte rekonstruieren [BIC92], [ZHAO99].
SfSh-Techniken kann man in zwei Gruppen unterteilen: globale und lokale Methoden. Bei den
globalen Techniken werden weiterhin die globalen Minimisierungsmethoden, bei denen die
Energiefunktion minimiert wird, und die globalen Propagation-Methoden, welche die Forminformationen von einigen berechneten Oberflächenpunkten (fast immer einzelnen Punkten) auf
das ganze Bild interpolieren, unterschieden. Bei lokalen Methoden werden für die Berechnung
der Intensitätsinformation nur die Punkte in der unmittelbaren Nachbarschaft hinzugezogen
[SAR95] [TSA94], [WEIN94].
Einen Überblick über die acht wichtigen Algorithmen für SfSh-Problem mit einem Genauigkeitund Zeitaufwandvergleich gibt Zhang in [ZHA94]. Laut seiner Untersuchung ist keiner der
Verfahren perfekt für alle Arten von Bildern, bei der Gesamtauswertung waren die globalen
Verfahren robuster, dafür die lokalen schneller. Im Weiteren wird es den Darstellungen von
[JIA97], [MAL98] und [KLE98] gefolgt.
4.1
Problemstellung
Die Grundlage der meisten Arbeiten auf diesem Gebiet ist der Ansatz von B. Horn, der die
Bildintensität I(i, j) wie folgt beschreibt:
4
SHAPE FROM SHADING
60
Abbildung 51: Tiefenrekonstruktion aus einem Grauwertbild mit SfSh-Techniken. Quelle:
[TOE04]
I(i, j) = κIi (x, y, z)Φ(~n(x, y, z), ~l(x, y, z), ~b(x, y, z))
(53)
Die verwendeten Bezeichnungen hier sind:
κ - Kamerakonstante
Ii (x, y, z) - Eingangsintensität des Lichtes an einem Punkt P (x, y, z)
Φ - Reflexionsfunktion
~n(x, y, z) - Flächennormale
~l(x, y, z) - Licht- bzw. Beleuchtungsrichtung
~b(x, y, z) - Betrachter- bzw. Kamerarichtung
Um das SfSh-Problem zu vereinfachen, werden im Allgemeinen weitere Annahmen getroffen:
- Es sind nur weiße gleichmäßige Oberflächen in der Szene vorhanden.
- Es ist kein Schattenwurf in der Szene möglich.
- Die Lichtquelle ist weit entfernt und als Folge ist die Beleuchtung konstant und ortsunabhängig für alle Punkte.
- Beobachter (Kamera) ist weit entfernt, deswegen ist Projektion nicht perspektivisch,
sondern orthogonal.
Ein beliebtes Modell für die Beschreibung der Reflexion ist die Lambertsche Reflexion:
Φ(~n, ~l, ~b) = α cos ψi
(54)
mit einer Reflexionskonstanten α und dem Winkel zwischen der Lichtrichtung und der Flächennormalen ψi . Das einfallende Licht wird für einen Lambert-Strahler in alle Richtungen gleichmäßig
4
SHAPE FROM SHADING
61
reflektiert.
Weitere Reflexionsmodelle können [JIA97], [MAL98], [KLE98] entnommen werden. Ein Reflektanzmodell für die 3D-Form-Gewinnung aus Radarbildern wird in [WIL99] vorgeschlagen.
Mit der Schätzung des Reflexionsmodells für natürlich beleuchtete Videosequenzen beschäftigen sich Love in [LOV97] und Yu in [YU99]. Eine weitere theoretische Arbeit auf diesem
Gebiet ist die Abhandlung [DRO02] von Dror, der Reflexionsstatistiken von realen Szenen
untersucht. Das Verfahren von Samaras [SAM99] erlaubt in einem iterativen Prozess eine
gleichzeitige Schätzung der Beleuchtungsrichtung in der Szene und der 3D-Form des Objektes. Eine aktuelle Arbeit von Samaras und Wang [WAN03] liefert eine Methode für Detektion
und Schätzung von mehreren Lichtquellen anhand eines einzelnen Bildes von einem Objekt
mit zufälliger, aber bekannter Geometrie.
4.1.1
Reflektanzkarte
Bei einer Darstellung der Flächennormalen ~n über die partiellen Ableitungen der Flächenfunktion g(x, y) wird sie wie folgt repräsentiert:
~n = (−
δg
δg
, − , 1) = (−p, −q, 1)
δx δy
(55)
Die Reflexionseigenschaften der Oberfläche können dann in einer Reflektanz- bzw. Reflektivitätskarte R(p, q) zusammengefasst werden, die für jede Orientierung die Reflexion angibt
(Abbildung 52).
Für einen Lambert-Strahler sieht die Karte wie folgt aus, wenn die Beleuchtungsrichtung ~l
auch im Gradientenraum angegeben wird:
1 + pl p + q l q
p
I(i, j) = R(p, q) = κIi α p
1 + p2l + ql2 1 + p2 + q 2
(56)
Der Term κIi α beschreibt die Textur des Objektes und wird oft zusammen gefasst als ρ,
Albedo.
Abbildung 52: Reflektanzkarte: ein 2dim Plot des Gradientenraumes (p, q) der normalisierten
Bildhelligkeit einer Oberfläche als Funktion der Oberflächenorientierung. Quelle: [BIS01]
4
SHAPE FROM SHADING
4.1.2
62
Reflektivitätsgleichung
Die zentrale Gleichung der Schattierungsanalyse ist die Image-Irradiance-Equation:
I(i, j) = R(
δG(x, y) δG(x, y)
,
)
δx
δy
(57)
Wie man aus der Gleichung für den Lambert-Strahler sieht, ist die Lösung dieser Gleichung
ohne weitere Einschränkungen (das gilt auch für andere Reflexionsmodelle) nicht eindeutig
möglich: Das Ergebnis ist nicht eine einzige Normale ~n, sondern alle Oberflächennormalen,
die auf einem Kegelmantel und die Lichtrichtung ~l mit Öffnungswinkel 2β liegen (Problem
der lokalen Vieldeutigkeit).
4.1.3
Rekonstruktion der Flächennormalen
Um die Flächennormalen tatsächlich zu rekonstruieren, werden verschiedene Zusatzbedingungen eingeführt, wie z. B., lokale Kontinuität der Flächen (die partiellen Ableitungen müssen
deswegen klein sein), die Randkurve der gesuchten Fläche, die Oberflächennormalen entlang
des Randes usw.
In dem Verfahren von Ikeuchi und Horn, das zu den globalen Minimierungsalgorithmen zählt
(Beschreibung aus [MAL98]), wird mit der Glattheitsbedingung das Problem, da eine exakte
Lösung mit dieser Annahme nicht mehr möglich ist, als ein Fehlerminimierungsproblem formuliert:
Z Z
=λ
Z Z
(I(x, y) − R(p(x, y), q(x, y)))dxdy +
(
δp 2 δp 2 δq 2 δq 2
+
+
+
)dxdy
δx
δy
δx
δy
(58)
Der erste Term beinhaltet den Datenfehler pro Pixel (Abweichung des gemessenen von dem
erwarteten Datenwert), der zweite die Glattheitsbedingung, λ ist der Regularisierungsparameter, der variiert werden kann. Die beste Lösung wird im Allgemeinen iterativ berechnet. Es
existieren mehrere iterative Algorithmen zur Rekonstruktion der Flächennormalen [MAL98],
[JIA02].
Eine der wenigen aktuellen theoretischen Arbeiten auf diesem Bereich ist die Abhandlung
von Pradas, Faugeras und Rouy, die einen neuen Weg für die Lösung des SfSh-Problems
über partielle differentiale Gleichungen vorschlagen [PRA02]. Eine ausführliche Analyse von
Fehlerquellen bei der Schätzung von Oberflächennormalen führt Schlüns in [SCHL97] durch.
4.1.4
Rekonstruktion der Oberfläche
Das Ergebnis der Berechnungen bei dieser Gruppe von Verfahren ist für gewöhnlich ein
Nadeldiagramm; die relativen Tiefenwerte werden aus dem Diagramm unter der Voraussetzung einer kontinuierlichen Oberfläche mit Hilfe einiger mehr oder weniger komplizierten
Rechenvorschriften ermittelt. Eine sehr gute Übersicht über die Rekonstruktionstechniken
gibt [KLE98].
Oft wird z. B. eine Methode angewendet, bei der aus einem Punkt mit bekanntem Tiefenwert (der Tiefenwert eines Punktes im inneren der Fläche wird als Initialisierung verwendet)
die Tiefenwerte seiner acht Nachbarn berechnet werden. Zu beachten ist erstens, dass die
Tiefenwerte nicht absolut, sondern relativ sind. Zweitens kann wegen der kontinuierlich angenommenen Oberfläche der Tiefenunterschied zweier benachbarten Objekte an der Grenze
4
SHAPE FROM SHADING
63
nicht wahrgenommen werden.
Eine aktuelle Arbeit auf diesem Gebiet ist die Technik zur iterativen Approximation von
Oberflächennormalen von Ikeda [IKE03]. Das Verfahren basiert auf der Iterationsmethode
von Jakobi und liefert akkurate und schnelle Ergebnisse (Abbildung 53).
Abbildung 53: Approximation der Oberflächennormalen mit der Iterationsmethode von Jakobi. Quelle: [IKE03]
4.2
Photometric Stereo
Die Methode gehört zwar bereits zu der Gruppe der aktiven Verfahren zur Tiefenschätzung
(es wird Licht in die Szene geworfen), wird hier aber ihrer Einfachheit wegen beschrieben.
Wenn man zu der oben beschriebenen Lichtquelle noch eine (oder mehrere) zusätzliche Lichtquellen einführt und mit einer Kamera für jetzt unterschiedliche, aber bekannte Beleuchtungssituationen Bilder aufnimmt, kann die Oberflächenorientierung aus dem Schnittpunkt
zweier (oder mehreren) Iso-Intensitätskonturen Ri (p, q) geschätzt werden. Sie wird bei zwei
Aufnahmen von unendlich vielen Lösungen auf mehrere möglichen Lösungen begrenzt. Bei
drei oder mehr Bildern kann die Oberflächenorientierung sogar eindeutig berechnet werden
(Abbildung 54). Eine praktische Anwendung lässt sich zum Beispiel durch Verwendung von
farbigem Licht realisieren.
Bei mehreren Lichtquellen kann sogar der Spiegelungseffekt berücksichtigt werden, worin
für fast alle Verfahren der Tiefenschätzung aus Bildern ein Problem besteht. Nachteilig bei
Photometric Stereo ist jedoch ein sehr großer Rechenaufwand nicht nur für die Bestimmung
der Schnittpunkte, sondern auch für die Berechnung der Reflektanzkarten, was nur für sehr
einfache Reflexionsmodelle (z. b., Lambertsche) auch einfach ist. Die Anforderungen an die
Aufnahmebedingungen sind hier auch höher als bei den konventionellen SfSh-Techniken.
4.3
Aktuelle Entwicklungen
Mit den Statistiken von Objektoberflächen für die Anwendung in SfSh-Verfahren beschäftigen
sich die Autoren von [ATI97], die eine Systematisierung von Objekten in Klassen abhängig
von Oberflächeneigenschaften und eine entsprechende Repräsentation vorschlagen. Das komplexe SfSh-Problem wird damit in ein einfacheres Problem der Parameterschätzung in einem
klein dimensionierten Parameterraum überführt. Für das für viele Anwendungen relevante
Beispiel von menschlichen Köpfen wird hier ein kompletter Verarbeitungsalgorithmus angeboten.
4
SHAPE FROM SHADING
64
Abbildung 54: Reflektanzkarte: Eine eindeutige Lösung durch Verwendung von einer dritten
Lichtquelle mit E3(p, q). Quelle: [TOE04]
Kimmel und Sethiam schlagen in ihrer Arbeit [KIM00] einen optimalen Algorithmus für
die Lösung des SfSh-Problems aus einzelnen Bildern vor, basierend auf dem Konzept von
Sethiamscher Fast Marching Method für die Berechnung der rekonstruierten Oberfläche. Die
Anwendung wurde besonders für den Einsatz in der automatischen Wegbestimmung für Roboter angepasst (Abbildung 55).
Abbildung 55: Navigation eines Rechteckes mit Rotation in 2D. Quelle: [KIM00]
Da die reinen SfSh-Techniken nur relative und keine absoluten Tiefenwerte liefern und außerdem nicht besonders schnell sind, werden diese Algorithmen fast immer in Kombination mit
anderen Verfahren der Tiefenschätzung, wie mit silhouettenbasierenden [SAV01], [KUZ01]
oder sehr oft mit stereobasierten Methoden [IKE86], eingesetzt. Eine neue theoretische Formulierung des Problems der gleichzeitigen Integration von SfS- und SfSh-Techniken wird in
[JIN00] vorgeschlagen und wird hier für die Vertiefung in das Thema empfohlen.
Eine der Möglichkeiten, das SfSh-Problem zu vereinfachen und die oft verheerenden Auswirkungen von Beleuchtungsvariationen zu kompensieren, ist die Ausnutzung der Eigenschaft der
Symmetrie von vielen natürlichen und künstlich geschaffenen Lebewesen und Gegenständen.
So lassen sich z. B. relativ einfach Oberflächen von Rotationskörpern mit Methoden von
4
SHAPE FROM SHADING
65
SfSi6 [WON01] oder Gesichtsformen aus einer einzelnen Ansicht mit direkten SfSh-Techniken
bestimmen [YIL02]. Ein Beispiel für eine derartige Anwendung ist das robuste Gesichtsrekonstruktionsverfahren von Zaho und Chellappa [ZHAO99]. Im Bild 56 ist eine deutliche
Verbesserung der Qualität im Vergleich zu einem ähnlichen lokalen Algorithmus sichtbar, eine nachfolgende Änderung des Prototyps entsprechend einem einfachen Gesichtsmodell bringt
wieder ein wenig natürlicher Asymmetrie in das Ergebnis.
Abbildung 56: Vergleich zwischen zwei Verfahren; von links nach rechts: Eingangsbild, Ergebnis eines lokalen SfSh-Algorithmes, Ergebnis eines symmetriebasierten SfSh-Algorithmes,
Verbesserung durch ein Gesichtsmodell. Quelle: [ZHAO99]
Eine deutliche Erhöhung der Qualität von 3D-Form-Rekonstruktion bei einer gleichzeitigen
Verwendung von photometrischen und konturenbasierten Algorithmen (SfSi) demonstrieren
die Autoren von [CHEN03]. Wie es aus der Grafik 57 erkennbar ist, liefert die Kombination
von beiden Techniken eine erheblich kleinere Fehlerrate, als bei einem getrennten Einsatz der
Methoden.
Abbildung 57: Fehlerrate für ein Beispielbild (Affe), psm - Photometric Stereo, sfc - Shape
from Contours, pcm adj - pcm augerichtet, merge - fusioniert. Quelle: [CHEN03]
Eine interessante Technik für die Berechnung der Objektform ist die von Zhang, Tsai und
6 Shape
from Silhouette
4
SHAPE FROM SHADING
66
Shah entwickelte Depth from Photomotion, welche eine kontinuierliche Variante von PhotometricStereo-Techniken darstellt. Die Bilder werden hier für eine rotierende Lichtquelle von einer
festen Kameraposition für ein ruhendes Objekt aufgenommen. Größere Bildanzahl als bei traditionellem Photometric Stereo und einfachere Bestimmung von Beleuchtungseigenschaften
(Lichtquelle und ihre Bewegung bekannt) bestimmen eine höhere Rekonstruktionsqualität
[ZHA93].
Ein weiterführendes Verfahren für die Berechnung von Struktur und Bewegung unter variierenden Beleuchtung aus einer monokularen Bildsequenz wird in [ZHA03] präsentiert: der
Algorithmus setzt Struktur from Motion, Photometric Stereo und Multi View Stereo ein und
wertet somit sowohl zeitliche als auch räumliche Intensitätsänderungen gleichzeitig aus. Affine Kameraparameter, Beleuchtung, Objektform und Albedo werden hier für einen Spezialfall
(ein starrer Körper mit Lambertscher Reflexion, Kamera und die Punkt-Lichtquelle sind fixiert, orthographische Projektion, keine Selbstschatten oder Verdeckungen sind zugelassen)
werden iterativ geschätzt. Die sehr gut Qualität der 3D-Form-Rekonstuktion mit dieser Technik ist in der Abbildung 58 erkennbar.
Abbildung 58: Eingangsbild (links), Rekonstruierte 3D-Form (Mitte) und 3D-Form mit
Albedo-Karte. Quelle: [ZHA03]
In [SAM00] wird eine auf mehreren Ansichten basierende Methode für die Berechnung von
Objektoberfläche und Beleuchtungseigenschaften am Beispiel von Gesichtsrekonstruktion demonstriert. Als Eingange dienen kalibrierte oder unkalibrierte Stereo-Paare sowie Bildsequenzen mit einem nichtkonstanten Albedo und nichtgleichmäßigen Lambertschen Oberflächen in
der Szene. Für jedes Stereopaar wird nach einer ggf. noch nötigen Kalibrierung eine Tiefenkarte berechnet und auf ein Gesichtsmodell angepasst, aufgrund dieser Ergebnisse wird
eine Segmentierung der Albedokarte in Bereiche mit pixelweise konstantem Albedo durchgeführt. Beleuchtungseigenschaften für diese Segmente werden geschätzt und für eine bessere
Szenenrekonstruktion verwendet. Das Verfahren bringt eine Erhöhung der Genauigkeit und
Detailliertheit der Rekonstruktion gegenüber den reinen SfS- und SfSh-Methoden (Bild 59).
Eine Möglichkeit der Oberflächenbestimmung von nicht direkt von einer Kamera einsehbaren
Rückseiten von Objekten bieten Techniken aus dem Bereich Shape-from-Darkness. Bei den
Verfahren werden für die 3D-Form-Bestimmung Informationen über in dem konventionellen
SfSh nicht erlaubten Selbstschatten hinzugezogen. Ein Beispiel für diese Verfahrensgruppe
wird in [DAU98] vorgestellt. Das Szenenmodell besteht aus starren 3D-Objekten, einer unbeweglichen Kamera und einer Lichtquelle mit einer bekannten Trajektorie (wie Sonne). Die
Rekonstruktion der Oberflächen in der Szene findet aus einem Satz zu verschiedenen Zeit-
4
SHAPE FROM SHADING
67
Abbildung 59: Rekonstruierte Oberfläche: a) Stereo-Ergebnis b) SfSh-Ergebnis ohne einer
Neuschätzung des Lichtes c) SfSh-Ergebnis nach der Neuschätzung des Lichtes. Quelle:
[SAM00]
punkten aufgenommenen Bildern statt. Als nachteilig bei diesem Algorithmus ist aber die
starke Abhängigkeit der Qualität der Rekonstruktion von der Genauigkeit der Bestimmung
der Lichtquellenbewegung anzusehen (Bild 60).
Abbildung 60: Form aus Selbstschatten: Effekte von unterschiedlichen Rauscharten. Quelle:
[DAU98]
Eine andere effiziente Kombination von photometrischen und SfSi-Methoden wird in [SAV01],
[SAV02] beschrieben. Bei dem von den Autoren vorgeschlagenen Kameraaufbau wird die visuelle Hülle eines Objektes nicht aus den konventionellen nach Bildsegmentierung entstandenen Objektsilhouetten, sondern aus dem Objektschatten (Shadov Carving) konstruiert. Das
Objekt befindet sich dabei auf einem Drehteller zwischen einer Punkt-Lichtquelle und der
Kamera. Die aus den Schattenbildern entstandene visuelle Hülle wird im zweiten Schritt mit
Hilfe von mehreren für verschiedene Lichtquellen aufgenommenen Objektbildern verfeinert
(Bild 61).
5
SHAPE FROM SILHOUETTE
68
Abbildung 61: Vergleich der Laser-Scan- (links) und Shadow-Carving-Methoden (rechts).
Quelle: [SAV02]
5
Shape from Silhouette
Die Gewinnung der 3D-Form für statische oder dynamische Objekte oder Szenen aus deren
Silhouetten ist ein weiterer Bereich der Bildverarbeitung, der besonders bei Hinter- und Vordergrundtrennung für bewegliche Objekte eine breite Anwendung findet. Silhouetten oder
Umrisse sind oft die dominantesten Bildmerkmale. Sie bieten viel Information über die Form
und die Bewegung eines Objektes und können einfach, schnell und zuverlässig extrahiert
werden. Es ist intuitiv verständlich, dass man die 3D-Form eines Objekts aus mehreren
Silhouetten gewinnen kann, obwohl es auch klar ist, dass bei den meisten Objekten und Objektoberflächen die Silhouetten allein nicht ausreichen und für detaillierte Darstellungen der
Objektform und Oberflächenstruktur weitere Methoden der Formschätzung wie z. B. Stereotechniken eingesetzt werden müssen.
Der Sensoraufbau, ginge es um Photokameras oder synchronisierte Videokameras, sieht hierbei für gewöhnlich wie im Bild 62 aus, wobei dynamische Szenen einige Einschränkungen mit
sich bringen. Die Anzahl von Eingangsbildern ist in diesem Fall begrenzt durch die physische
Anzahl der Videokameras. Dabei müssen die Kameras so platziert werden, dass sie keine
Aktivitäten in der Szene behindern.
Laurentini hat in [LAU94] eine formale Beschreibung für die SfSi-Methoden eingeführt. Die
zentrale Stelle in seiner Theorie nimmt das Konzept der Visuellen Hülle an. Die visuelle
Hülle stellt die beste geschlossene Approximation der geometrischen Form eines Objektes
dar, die aus einfachen Umrissen gebildet werden kann. Die visuelle Hülle eines Objektes
grenzt das Volumen im Szenenraum ein, in dem sich das Objekt garantiert befindet. Die
Qualität der Repräsentation hängt stark von der Anzahl der unterschiedlichen Ansichten,
Kamerapositionen und der Komplexität der Objektform ab (Abbildung 63).
5.1
Berechnung der Silhouetten
Eine Objektsilhouette ist im Wesentlichen eine binäre Segmentierung eines Bildes, in der
Pixel entweder als Vordergrund (zur Silhouette zugehörig) oder als Hintergrund gespeichert
werden. Eine weit verbreitete Technik für die Berechnung der Silhouetten ist Chromakeying
oder Bluescreen Matting [SMI96]. Bei dieser Methode hat der Hintergrund eine einzige Farbe
(z. B. blau), die nur mit einer geringen Wahrscheinlichkeit bei dem Objekt im Vordergrund
auftreten kann. Die Trennung findet durch einen einfachen Farbvergleich statt. Chromatische Techniken werden sehr oft bei Anwendungen in Television und Kinoindustrie eingesetzt,
5
SHAPE FROM SILHOUETTE
69
Abbildung 62: Ein hypothetischer Aufbau für die Aufnahme von dynamischen Szenen. Quelle:
[BUE99]
Abbildung 63: Die Schnittpunkte von drei Grenzenkonen definieren die visuelle Hülle des
Objektes. Quelle: [BUE99]
5
SHAPE FROM SILHOUETTE
70
z. B. bei Spezialeffekten, wo sie ihre Schnelligkeit und hohe Qualität demonstrieren. Der
Anwendungsbereich ist aber nur auf diese spezielle Studiosituation begrenzt, was ein schwerwiegender Nachteil dieser Methode ist.
Mehr Allgemeinheit bietet eine andere Technik, welche Backgroud Subtraction oder Image
Differencing heißt [BIC94], [FRI97]. Mit ihrer Hilfe wird ein statistisches Modell der Hintergrundszene aus mehreren Bildern erstellt. Änderungen in der Szene wie Bewegung von Objekten können über die Berechnung der Unterschiede zwischen dem neuen Eingangsbild und
dem Modell detektiert werden. Dabei werden alle Pixel dem Vordergrund zugeordnet, welche
erhebliche Intensitätsänderungen aufweisen. Es gibt mehrere Variationen des Algorithmus.
Die meisten sind schnell, robust und für den Einsatz in Echtzeitanwendungen geeignet.
5.2
Schätzung der Visuellen Hülle
Eine automatische Bestimmung der Form eines Objektes aus den Objektsilhouetten wird
für gewöhnlich über Silhouettenschnittverfahren durchgeführt, die im Allgemeinen wie folgt
ablaufen [NIE99]:
1. Für jede Objektsilhouette wird aus den Sichtlinien, die durch das Projektionszentrum
der zugehörigen Kamera und die Silhouettenkonturpunkte verlaufen, eine Grenzpyramide Vk konstruiert.
2. Die entstandenen Pyramiden werden für alle Objektsilhouetten aus allen N Kamerapositionen
TN überlagert. Die Schnittmenge aller N Pyramiden ist die rekonstruierte Form
V = k=1 Vk bzw. das eingeschlossene Volumen ist das rekonstruierte Volumen des
Objektes (Abbildung 63).
Die sämtlichen SfSi-Verfahren erfordern eine genaue Kenntnis der Positionen der Kameras
zu dem untersuchten Objekt. Die Information steht aber nur selten zur Verfügung, was eine
Kamerakalibrierung [NIE99] notwendig macht. Bottino, Jaulin und Laurentini untersuchen
in [BOT03] das Problem von SfSi bei unbekannten relativen Kamerapositionen und diskutieren es für den Fall von orthographischen Silhouetten mit Ansichtsrichtungen parallel zur
gleichen Ebene (Abbildung 64). Es wird hier ein Satz von Ungleichungen eingeführt, welche
alle möglichen Lösungssätze beschreiben und eine Technik zur Berechnung von wahrscheinlichen Lösungsräumen für jeden Satz vorgestellt.
Da die meisten SfSi-Methoden nur geometrische und keine photometrischen Informationen
Abbildung 64: Orthographische Silhouetten, Ansichtsrichtungen sind parallel zur gleichen
Ebene. Quelle: [BOT03]
für die Objektoberflächen liefern, werden oft gleichzeitig mit Tiefeninformationen auch Texturinformationen für jeden Punkt der Oberfläche berechnet und gespeichert [BUE99], [NIE99],
5
SHAPE FROM SILHOUETTE
71
[MAT01].
Je nachdem, ob eine Methode zur Schätzung der visuellen Hülle eines Objektes das Objektvolumen oder die Objektoberfläche als Approximationsbasis nutzt, können diese Methoden grob
in zwei Kategorien unterteilt werden: volumen- [STE00] und oberflächenbasierte Techniken
[WON01], [DAV01], [BUE99].
5.2.1
Volumenbasierte Techniken
Die so genannte Volume Intersection Technique für die Konstruktion von volumetrischen
Objektbeschreibungen aus mehreren Ansichten wurde erstmals von Martin und Agrarwal
[MAR83] vorgeschlagen, die die Volumensegment-Repräsentation eingeführt haben. In [CHI86]
haben Chien und Aggarwal ein Algorithmus für die Generierung einer Octree-Objektbeschreibung
aus drei orthographischen Objektansichten unter orthographischer Projektion vorgestellt.
Das Verfahren wurde von Ahuja und Veenstra [AHU89] für die Verarbeitung von aus 13 Standardansichtsrichtungen aufgenommenen Bildsätzen weiter entwickelt. Von Hong und Shneier
[HON85] stammt eine Technik für Generierung der Octree-Beschreibungen aus mehreren unterschiedlichen Objektansichten unter der Voraussetzung der perspektivischen Projektion.
Ähnliche Verfahren entwickelten Potmesil [POT87], Noborio [NOB88], Srivastava [SRI90]
und Szeliski [SZE93].
Bei all diesen Verfahren werden visuelle Hüllen als Kollektionen von elementaren Volumenzellen (Voxel) approximiert. Anwendungen aus diesem Bereich können Objekte mit komplexen
Topologien verarbeiten, wobei die Quantisierungsgenauigkeit und so die Qualität der 3DRekonstruktion den Erfordernissen des Bildverarbeitungssystems angepasst wird (Abbildung
65).
Abbildung 65: Voxelrepräsentation der AND-Operation für vier Silhouetten für vier Auflösungen der Voxelgitter(83 , 163 , 323 , 643 ,). Quelle: [HAS03]
Ein Problem für diese Algorithmen ist der Rechenaufwand. Bei dem konventionellen Voxelmodell besteht eine kubische Abhängigkeit der Rechenzeit von der geometrischen Auflösung, so
5
SHAPE FROM SILHOUETTE
72
dass die Verarbeitung für Realzeit-Anwendungen zu lange dauert. Aus diesem Grund werden
bei den meisten Implementierungen andere Modelle für Datenrepräsentation eingesetzt, wie
das Octree-Modell [KUZ01], [WON01] oder von [NIE99] vorgeschlagene Volumenstabmodell.
Die rekonstruierte Form wird hier über Volumenstäbe mit quadratischer Grundfläche dargestellt, die parallel zu einer Koordinatenachse in einem regelmäßigen 3D-Raster angeordnet
sind und durch einen Punkt jeweils am Anfang und am Ende eines Stabes vollständig beschrieben werden. Die Stablängen sind auf Vielfache einer Rastereinheit quantisiert, so dass
man hier ebenfalls eine äquivalente Formauflösung in allen Dimensionen wie beim Voxelmodell erhält. Der Speicheraufwand ist hier wie bei dem bekannten Octree-Modell proportional
nur zu Oberflächenpunkten, da die Endpunkte der Stäbe, über welche die Form repräsentiert
wird, definitionsgemäß auf der Oberfläche liegen.
Ein Beispiel für eine Echtzeitanwendung ist das Projekt GRAVIR [HAS03]. Es liefert eine
komplette Pipeline aus der Bildaufnahme, einer 3D-Form-Rekonstruktion und dem Einfügen
von menschlichen Akteuren in die virtuelle Welt in Realzeit. Das System ist eine voxelbasierte
Anwendung, welche triangulierte geschlossene Oberflächen wird aus Eingangsvoxeln über den
Marching-Cubes-Verfahren [WON01], [NIE99] erstellt. Es können etwa 30 Bilder pro Sekunde
verarbeitet werden. Die Qualität der Rekonstruktion ist zwar noch nicht besonders hoch (Bild
66), kann aber durch Verbesserung von Hardware (mehr Kameras, bessere Auflösung) oder
Software (Kombination mit Methoden der Stereobildverarbeitung, Photometrie, Einsatz von
Gesichts- und Körpermodellen) weiter erhöht werden.
Abbildung 66: Ergebnis der 3D Rekonstruktion nach dem Marching-Cubes-Verfahren für
verschiedene Größen von Voxelgitter (83 , 163 , 323 , 363 ). Quelle: [HAS03]
Eine sehr interessante Entwicklung ist das System von Wong [WON01], das bei einer 3DForm-Berechnung gleichzeitig Bewegungsinformationen, Epipolargeometrie und konventionelle SfSi-Techniken verwendet. Die Arbeit bietet einige Neuerungen in der Theorie und
liefert gleichzeitig ein komplettes und praktikables Verarbeitungssystem für Generierung von
3D-Modellen hoher Qualität aus einer Sequenz von 2D-Bildern.
5
SHAPE FROM SILHOUETTE
73
Da die Eingangsbilder entweder eine Grauskalierung haben oder farbig sind, kann diese
zusätzliche photometrische Information in den SfSi-Prozess integriert werden, um die Qualität
der Rekonstruktion zu erhöhen. Ein komplettes Szenenmodell beinhaltet außer geometrischen
Informationen auch ein Modell der Oberflächenreflexion und der Szenenbeleuchtung, so dass
im Laufe eines Bild-Reproduktion-Tests die realen 2D-Bilder mit dem erstellten synthetischen
Szenenmodell auf ihre Photokonsistenz verglichen werden können. Ein Punkt der Szenenoberfläche ist dabei photokonsistent zu einem Satz von Bildern, wenn in jedem Bild, in dem
dieser Punkt sichtbar ist, seine Bildirradianz gleich der Intensität des korrespondierenden
Bildpixels ist.
Bei Anwendungen mit topologisch aufgebauten Voxelstrukturen (wie Octree) ist es sinnvoll,
die Photokonsistenz-Prüfung nicht auf den Oberflächenpixeln, sondern auf den immer kleiner
werdenden Voxeln durchzuführen, so dass man die nicht zum Objekt gehörenden Strukturen
früher aussortieren kann. Diese Gruppe der Algorithmen wird Voxel Coloring genannt und ist
in heutigen Anwendungen stark verbreitet. Einige Verfahren kommen hier sogar ganz ohne
Volumen-Schnitt-Methode aus und berechnen die Objektoberflächen aus reinen photometrischen Informationen.
In [KUZ01] wird ein typisches Verfahren zur Berechnung von 3D-Modellen aus den Silhouetten beschrieben. Verarbeitet werden kalibrierte Bildsequenzen von einer Kamera, die sich
um das Objekt in einer Laborumgebung bewegt. Die mit konventionellen hierarchischen
SfSi-Methoden gewonnenen visuellen Hüllen des Objekts werden für die kritischen Regionen mit Blockmatching-Methoden (polychromatische oder hierarchische) verbessert, was eine Erhöhung der Genauigkeit sowie Robustheit der Rekonstruktion und einen Gewinn an
Rechenzeit mit sich bringt.
5.2.2
Oberflächenbasierte Techniken
Hier wird die visuelle Hülle eines Objektes als Approximation durch Oberflächenelemente
berechnet. Diese Art der Algorithmen ist aber sehr anfällig für numerische Instabilitäten und
generiert oft unvollständige oder fehlerhafte Oberflächenmodelle. Besonders problematisch
ist die Behandlung von Objekten mit komplexer Topologie.
Pionierarbeit auf dem Bereich der Oberflächenrekonstruktion von glatten Objekten aus deren Umrissen haben Giblin und Weiss geleistet. In ihrer Studie [GIB87] wurde unter der
Annahme einer orthographischen Projektion und einer planaren Bewegung des Sensors demonstriert, dass man eine Oberfläche aus ihren sämtlichen Tangentebenen, die direkt aus
einer Familie von Silhouetten berechnet werden, gewinnen kann. Cippola und Blacke [CIP92]
haben die Arbeit von Giblin und Weiss auf eine kurvenlineare Bewegung der Kamera unter perspektivischer Projektion erweitert und die Osculating Circle Method entwickelt, die
eine epipolare Parametrisierung beinhaltet. Vaillant und Faugeras [VAI92] entwickelten eine
ähnliche Technik, in der eine Oberfläche über radiale statt epipolaren Kurven parametrisiert
wurde. Basierend auf diesem Verfahren haben Szeliski und Weiss [SZE98] die Voraussetzung einer linearen Glattheit von Oberflächen für die Berechnung von epipolaren Kurven
eingeführt. Jedoch wurde hierbei eine Schätzung der Unsicherheit dieser Annahme durchgeführt, was für eine Verbesserung der Rekonstruktion sorgte. Boyer und Berger herleiten in
[BOY97] eine Tiefenformulierung aus einer lokalen Approximation von Oberflächen ab mehr
als zwei diskreten Bewegungen. Wong präsentierte in [WON99] eine einfachere Implementierung von [CIP92], die trotz ihrer Einfachheit und Schnelligkeit Ergebnisse lieferte, die mit
5
SHAPE FROM SILHOUETTE
74
Ergebnissen der Vorgänger vergleichbar waren.
Eine speichersparende Datenrepräsentation für SfSi-Anwendungen ist die bildbasierte Repräsentation der visuellen Hüllen [BUE99], [MAT00]. Das Bild 67 zeigt eine Scheibe so einer
bildbasierten visuellen Hülle für eine einzige Ansichtsrichtung. Die besetzten Tiefenintervalle können durch ihre Anfang- und Endkoordinatenpunkte dargestellt werden und benötigen
somit weniger Speicherplatz als Voxel in dem konventionellen Voxelmodell. Eine vollständige visuelle Hülle wird aus einem Satz solcher Scheiben gebildet. Da hier statt komplexer
Volumen-Schnitt-Techniken einfache Intervall-Schnitt-Methoden für die Berechnung des eingeschlossenen Volumens eingesetzt werden können und die Zuhilfenahme der Epipolargeometrie diese Rechnung zusätzlich erleichtert, ist diese Art der Datenrepräsentation besonders
für die Realzeit-Anwendungen geeignet.
Abbildung 67: Eine einzelne Scheibe einer bildbasierten visuellen Hülle. Quelle: [BUE99]
Die Repräsentation der 3D-Daten über Polygone hat viele Vorteile im Vergleich zu anderen Darstellungsarten wie Ansichtsunabhängigkeit, Schnelligkeit der Datenverarbeitung und
Unterstützung durch die gängige Hardware. Das zur Zeit einzige in Realzeit laufende SfSiSystem für die Berechnung und Darstellung exakter polyhedraler visueller Hüllen direkt aus
einem Satz von Bildern ist das System von Matusik [MAT01], [MAT02] (Abbildung 68).
Abbildung 68: Zwei flat-schattierte Ansichten einer polyhedralen visuellen Hülle. Quelle:
[MAT02]
6
SHAPE FROM FOCUS/DEFOCUS
75
Ein interessantes Verfahren zur Erhöhung der Qualität von visuellen Hüllen aus wenigen
Kameraansichten über die Zeit haben Cheung, Baker und Kanade entwickelt [CHE03a] (Abbildung 69). Die Verbesserung tritt durch die Integration von stereo-, bewegungs- und silhouettenbasierten Techniken auf und zwar so, dass die Bewegung zwischen den zu verschiedenen Zeitpunkten aufgenommenen visuellen Hüllen geschätzt und diese Informationen für die
geeignete Kombinierung dieser Hüllen zu der resultierenden 3D-Form eingesetzt wird. Der
Algorithmus der Bewegungsschätzung verarbeitet die mit Methoden von Multi-AnsichtenStereo berechneten so genannten Colored Surface Points (CSP). Eine Abwandlung dieses
Verfahrens für artikulierende Objekte stellt eine weitere Arbeit von denselben Autoren dar
[CHE03]. Die SfSi-basierte Anwendung ist für den den Einsatz bei der Schätzung der Kinematik von menschlichen Körpern geeignet. Die Technik basiert auf einer Segmentierung von
Objekten in bestimmte Teile (Fuß, Arm usw.) und einer getrennten Schätzung der Bewegung
für jedes Segment.
Abbildung 69: Dinosaurier-Banana-Sequenz (6 Kameras) a) Eingangsbild b) Unsortierte CSP
aus allen Bildern c) Sortierte CSP d) SfSi-Modell aus 6 Bildern e) SfSi-Modell nach 36 Bildern
f) SfSi-Modell nach 90 Bildern. Quelle: [CHE03a]
6
Shape from Focus/Defocus
Shape from Fokus (SfF) oder Shape from Defocus (SfD) ist das Problem der Schätzung von
3D-Objektoberflächen einer Szene, wenn zwei oder mehr Bildaufnahmen dieser Szene für
geänderte Kameraparameter (wie fokale Länge oder Linsenöffnung) vorliegen.
6
SHAPE FROM FOCUS/DEFOCUS
76
Grundlage für die gängigen Verfahren aus dem Bereich ist das Modell einer dünnen Linse, für
das die folgende Beziehung zwischen dem Abstand u eines Objektpunktes, der Linsenbrennweite f und dem Bildabstand (der Kamerakonstanten) v annährend gültig ist (Geometrisches
Aufbau in der Abbildung 70):
1
1
1
= −
(59)
u
f
v
Aus der Gleichung geht hervor, dass für eine gegebene Brennweite f und eine gegebene
Kamerakonstante v nur solche Objektpunkte scharf abgebildet werden, die sich genau bei der
Szenentiefe u befinden. Bei einer unscharfen Abbildung eines Raumpunktes in die Bildebene
ergibt sich ein Unschärfekreis mit dem Radius r (Abbildung 70).
Abbildung 70: Linsenmodell. Quelle: [FAV03]
Beugungseffekte und Abberation der Linse verursachen eine nicht konstante Helligkeitsverteilung h(x, y) über den Unschärfekreis und zwar so, dass sie ein Maximum besitzt und zum
Rand hin abfällt. Diese Funktion kann als Faltung eines idealen scharfen Bildes (als Eingang)
mit einer Systemfunktion mit einer gaußverteilten Impulsantwort h(r) approximiert werden:
h(r) = √
−r 2
1
e 2σ2
2πσ
(60)
Die Standardabweichung σ ist über eine experimentell ermittelbare Konstante a proportional
zum Radius r des Unschärfekreises:
r
σ=
(61)
a
Die zu der Impulsantwort h(r) zugehörige Fouriertransformierte H(Ωr ) lässt den Tiefpasscharakter der Faltung erkennen:
1
1
H(Ωr ) = e− 2 (σΩr ) =
e
1
2 (σΩr )
(62)
Wie es aus der obigen Formel ersichtlich ist, werden nur bei der Standardabweichung σ = 0
(entsprechend Unschärferadius r = 0) alle Bildfrequenzen durchgelassen, was einer scharfen
Abbildung entspricht. Je größer ist die Standardabweichung, desto weniger hochfrequente
Anteile werden im Bild zu finden sein (Abbildung 71). Somit eignet sich die Verteilung der
Bildenergie über die Frequenzen für die Beurteilung der Schärfe eines Bildes besonders gut
und wird in vielen Entwicklungen verwendet.
6
SHAPE FROM FOCUS/DEFOCUS
77
Abbildung 71: Normierte Übertragungsfunktion im Frequenzraum, H(ρ) entspricht H(Ωr )
In der Literatur zu Computer Vision wird für gewöhnlich klar zwischen den zwei auf diesem
Prinzip basierenden Techniken (SfF und SfD, Beispiel in Abbildung 72) unterschieden, je
nachdem, ob eine aktive Änderung der Sensorarameter während der Berechnung möglich ist.
Einen fast aktuellen Überblick geben [FAV03], [SUB93], der theoretische Hintergrund ist sehr
gut in den Dissertationen von Liu [LIU98] und Wei [WEI94] dargestellt.
Liu präsentiert in seiner Dissertationen [LIU98] eine der wenigen gleichzeitigen Implementierungen von DfF-7 und DfD-8 Techniken. Das hier vorgeschlagene Verfahren ermöglicht eine
akkurate 3D-Form-Rekonstruktion aus verrauschten defokussierten Bildsequenzen.
Ein Vergleich zu stereoskopischen Verfahren fällt insofern günstig aus, dass die fokusbasierenden Techniken keine Korrespondenzsuche erfordern. Ein einfacheres Sensoraufbau (nur
eine Kamera) und die perfekte Übereinstimmung der Bildbereiche (keine Verdeckungen) sind
auch von Vorteil. Gleichzeitig begrenzen hier aber Linseneigenschaften die Qualität der Tiefenschätzung. Es müssen oft nicht nur zwei, sondern mehrere Bilder ausgewertet werden, was
die Berechnungszeit erhöht. Auf das Aufnahmegerät werden hohe Anforderungen hinsichtlich
der Genauigkeit der Einstellungen gestellt.
6.1
Shape from Focus
SfF-Methoden führen die 3D-Szenen-Rekonstruktion mittels einer aktiven Änderung der Kameraoptik durch und zwar so, dass die Suche weitergeführt wird, bis die interessierenden
Punkte im Fokus sind.
Für die Verarbeitung von bereits vorhandenen Bildsequenzen (Archivaufnahmen, Spielfilme
usw.) eignen sich die auf Focused Image Surface (FIS) basierenden Verfahren besonders gut.
Die Idee ist hier, dass bereits beim Filmen die Kameramänner bestrebt waren, die interessierenden Objekte im Fokus der Linse aufzunehmen. So können Parallelen zwischen den
tatsächlichen Objektoberflächen und den Sätzen von sich im Fokus der Kameralinse befindenden Bildpixeln gefunden werden. Ein entsprechendes 3D-Form-Rekonstruktionsverfahren
wird für den Fall von akkurat fokussierten längeren Videosequenzen in [SUB93] realisiert.
7 Depth
8 Depth
from Focus
from Defocus
6
SHAPE FROM FOCUS/DEFOCUS
78
Abbildung 72: Ein Beispiel für Depth from Defocus aus zwei Bildern. Quelle: [WAT98]
Eine interessante Anwendung ist das bereits bei den Stereo-Methoden erwähnte System für
Kreation von photorealistischen 3D-Modellen von Lin, das als eine Kombination von SfFund SfS-Techniken realisiert wurde [LIN02]. In der Abbildung 73 ist das Block-Diagramm
für die Gewinnung von 3D-Informationen dargestellt. In dieser Phase werden zwei separate
Bildsequenzen für unterschiedliche Fokuspositionen aufgenommen. Aus jeder Sequenz werden
mit SfF-Methoden ein fokussiertes Bild und eine grobe Tiefenkarte erstellt, die in der Weiterverarbeitung durch Stereo-Matching ein akkurates texturiertes 3D-Modell liefern. Erhebliche
Berechnungszeiten (15-20 Minuten) und der spezielle Aufbau schränken aber Einsatzmöglichkeiten für dieses Verfahren stark ein.
6.2
Shape from Defocus
Bei den Verfahren von Tiefen- bzw. Strukturgewinnung aus Defokus werden Tiefenkarten
aus Sätzen von mehreren für verschiedene optische Einstellungen aufgenommenen Bildern
rekonstruiert. Die Aufnahmen werden hinsichtlich ihrer Schärfe untersucht, eine dynamische
Änderung von Kameraparametern im Laufe des Schätzprozesses ist hier nicht erlaubt.
Als Kriterium für die Beurteilung der Schärfe dient bei den meisten Anwendungen das
Verhältnis der hochfrequenten zu niederfrequenten Anteilen im Bild, da die Defokussierung
einen Tiefpasscharakter besitzt.
Der in [ZIO99] realisierte Algorithmus liefert gute Ergebnisse bereits für zwei Bilder (Beispiel
in Abbildung 74). Intrinsische Kameraparameter werden bei Bildaufnahme variiert. Grundlage dieses zuverlässigen Verfahrens ist die Bildzerlegung auf Hermite Polynomial Basis.
6
SHAPE FROM FOCUS/DEFOCUS
79
Abbildung 73: Blockdiagramm für eine mögliche Kombination von SfF- und SfS-Techniken.
Quelle: [LIN02]
7
SHAPE FROM TEXTURE
80
Abbildung 74: Tiefenschätzung aus zwei Bildern mit einer DfD-Technik a), b) Originalbilder
c) Geschätzte Tiefe. Quelle:[ZIO99]
Die etwas ältere Dissertation von Wei [WEI94] ist analog zu der oben beschriebenen Arbeit
für die Tiefenschätzung aus zwei Bildern ausgelegt. Das Verfahren basiert auf den eindimensionalen Fourier-Koeffizienten und ist eine Kombination von SfS- und SfD-Techniken. Eine
in der Arbeit präsentierte Anwendung ist die kontinuierliche Fokussierung von bewegten Objekten in Videosequenzen.
Ein fundamentales Problem der DfD-Techniken ist die zwangläufige Abhängigkeit der Leistung von Fokusoperatoren von der lokalen Szenentextur. Es führt dazu, dass die einzelnen
Operatoren wie z. B. Laplacian of Gaussian grundsätzlich nur mangelhafte Tiefenkarten liefern im Stande sind. Eine in [WAT98] von Watanabe und Nayar realisierte Alternative ist der
Einsatz von langen Filterbänken. Die hier vorgeschlagene Klasse von Breitbandoperatoren ist
invariant gegenüber Objekttexturen und generiert akkurate und dichte Tiefenkarten (siehe
Abbildungen 72 und 75).
7
Shape from Texture
Einige für den Menschen leicht auswertbarere Hinweise auf Objektformen, -Größen und Entfernungen beinhalten die so genannten Texturen: mehr oder weniger regelmäßige Wiederholungen von Basismustern wie in der Abbildung 76.
Bei einer maschinellen Bildverarbeitung sind Forminformationen aus Texturen (Shape from
Texture, SfT) am einfachsten zu bestimmen, wenn die genaue Form der elementaren Texturelemente (Texel) bekannt ist. In diesem Falle kann aus der Deformierung und der Größenänderung der Texel unter Berücksichtigung der perspektivischen Projektion die Orientierung der
Objektoberfläche berechnet werden, wie es aus dem Beispiel im Bild 77 erkennbar ist. Auch
wenn keine Informationen über die Form der Texel und die Art der Deformierung vorliegen,
liefert unter der Annahme eines regelmäßigen Musters der Flächeninhalt der Texel im Bild
7
SHAPE FROM TEXTURE
81
Abbildung 75: Der DfD-Algorithmus, angewendet auf eine reale Szene mit komplexen Texturen. Quelle: [WAT98]
verwertbare Hinweise auf die Oberflächenorientierung. Solche Verfahren gehören zur strukturellen Texturanalyse und können nur auf deterministische Texturen angewendet werden, die
in der Natur fast nicht vorkommen.
Die meisten natürlichen Texturen sind zwar statistisch regulär, können aber nicht so einfach
in die Basismuster zerlegt werden (Abbildung 78), so dass nur eine statistische Texturanalyse
für die Gewinnung der Tiefenformationen eingesetzt werden kann und zwar so, dass man
Texturmerkmale wie Gradient, Entropie, Korrelation, normales Histogramm oder das Richtungshistogramm usw. extrahiert und auswertet. Die existierenden Techniken in dem Bereich
sind aber so komplex und gleichzeitig so unzuverlässig, dass die statistische Texturanalyse
praktisch nur für die Mustererkennung oder Bildsegmentierung (z. B. in [SUP00], [HET03])
verwendet wird. Ein Überblick über die grundlegenden Verfahren zur texturbasierten Bildsegmentierung und Berechnung der Orientierung in segmentierten Regionen wird in [HUC96]
gegeben, gleichzeitig führen die Autoren eine Diskussion über texturbasierte visuelle Verarbeitung bei Mensch und Maschine.
Eine weitere Möglichkeit ist die Analyse von eventuell vorhandenen geometrischen Beziehungen im Bild wie parallele Kanten oder symmetrische Körper usw.
Die Texturanalyse erfordert einerseits keine Korrespondenzsuche und ist gegen die Beleuchtungsänderungen invariant, andererseits liefert sie im Allgemeinen (außer wenn die Texelgröße
genau bekannt) nur Oberflächenorientierungen und keine absoluten Tiefeninformationen. Die
Notwendigkeit von aufwendigen Bildsegmentierung und Texelsuche bzw. Merkmalextraktion
7
SHAPE FROM TEXTURE
82
Abbildung 76: Tiefeninformationen werden durch Größenänderung der Textur vermittelt.
Quelle: [BIS01]
Abbildung 77: Forminformationen aus der Verzerrung von Texeln. Quelle: [BIS01]
7
SHAPE FROM TEXTURE
83
Abbildung 78: Ein Beispiel für eine natürliche Textur. Quelle: [BIS01]
schränkt ihre Einsatzmöglichkeiten erheblich ein, so dass zurzeit kaum ein schnelles oder genaues Verfahren existiert.
Die nachfolgende Beschreibung der Texturanalyse-Methoden folgt Darstellungen von [JIA97]
und [BIS01].
7.1
Strukturelle Verfahren
Bei diesen Techniken werden hohe Anforderungen an das Grundmuster gestellt: Einzelne
Texel müssen planar, von gleicher Größe und eindeutig identifizierbar sein und dürfen sich
nicht überlappen. Zu beachten ist auch, dass man für die Berechnung einerseits sehr viele
Texturelemente braucht, andererseits dürfen diese Elemente nicht zu klein werden, so dass
die nicht kleiner als die Auflösung des Sensors sind.
Für den Fall, dass die genaue Form der Texel und die Art der Deformierung bekannt sind bzw.
ermittelt werden können, ist die Schätzung der Oberflächenorientierung am Einfachsten. Die
Oberflächennormalen werden aus der Größen- und Formänderung von Texeln unter Berücksichtigung der perspektivischen Deformierung berechnet. Ein Beispiel sind Kreise gleicher
Größe, die auf Ellipse im Sensorbild abgebildet werden. Die Hautachse der Ellipsen gibt den
Rotationswinkel bezüglich der Kamerablickrichtung an, das Verhältnis der beiden Achsen ist
proportional zur Neigung der Oberfläche [JIA97].
Eine in [JIA97] beschriebene Möglichkeit ist die Gewinnung von 3D-Form-Informationen aus
regelmäßigen Mustern von ebenen einheitlichen Texeln ohne Kenntnis von Texelform oder
-Größe, allerdings mit Einbeziehung von Kontextinformationen. Ein Texel der unbekannten
Fläche SW mit der Orientierung (p, q) in der Gradientenraumdarstellung und dem Abstand
zu Kamera d wird aus den Weltkoordinaten in die Bildkoordinaten auf ein Texel der Größe SI
und dem Mittelpunkt (A, B) abgebildet. Die Beziehung zwischen diesen Größen kann analog
zu dem SfSh-Problem im Gradientenraum wie folgt formuliert werden:
SI =
1 − Ap − Bq
SW 1 − Ap − Bq
p
= ρp
2
2
2
d
1+p +q
1 + p2 + q 2
(63)
In Analogie zu der Reflektanzkarte aus den SfSh-Techniken werden SI und ρ oft entspre-
7
SHAPE FROM TEXTURE
84
chend Texturintensität und Texturalbedo genannt. Die obige Gleichung wird als eine Funktion I = R(p, q) umgeschrieben. Die Gleichung ist unterbestimmt und kann nur gelöst werden,
wenn weitere Einschränkungen oder vereinfachende Annahmen (z. B. gleiches Texturalbedo
für benachbarte Texel) eingeführt werden.
Die Schwierigkeit liegt bei diesen Techniken liegt unter anderem in der Realisierung der für die
Berechnung notwendiger Detektion von Texeln und ihren Mittelpunkten. Eine der wenigen
praktischen Anwendungen in dem Bereich ist der von den Autoren von [BOO02] entwickelter
robuster Schätzer für die Bestimmung der Orientierung von linearen Texturen.
Eine Kombination von strukturellen und statistischen Ansätzen zeigt bessere Ergebnisse,
als bei einem getrennten Einsatz dieser Methoden. Ein Beispiel für eine solche Technik ist
der Verfahrensvorschlag von Forsyth [FOR01]. Das Verfahren kann sogar Oberflächen mit
zufällig verteilten Grundtexeln schätzen, was für die lokalen Methoden so nicht möglich wäre
(Abbildung 79). Hierbei dienen die Deformierung von individuellen Texturelementen als eine
lokale und ihre Verteilungsstatistik als eine globale Textureigenschaft.
Abbildung 79: Tatsächliche und rekonstruierte Oberflächen. Quelle: [FOR01]
7.2
Statistische Verfahren
Bei natürlichen Texturen können wegen ihrer stochastischen Struktur die Methoden der
strukturellen Analyse nur schlecht oder gar nicht angewendet werden. Die Tatsache aber,
dass diese Oberflächenmuster zwar nicht regelmäßig sind, aber oft eine Gleichverteilung aufweisen, lässt eine Beschreibung mit statistischen Mitteln zu.
Eine der Möglichkeiten ist die Repräsentation von Texturen über lokale räumliche Frequenzen. Diese Idee wurde unter anderem in [KRU94] realisiert. Da die Frequenzen vollständig
mathematisch charakterisiert werden können, kann die perspektivische Deformierung der
Textur leichter und genauer mathematisch beschrieben werden.
Weitere Beschreibungsmöglichkeiten, die oft angewendet werden, sind z.B. Histogramme,
Entropie, Momente, Korrelation, filterbasierte Repräsentationen (Gabor-Filter) usw. Die
Schwierigkeit einer genauen mathematischen Modellierung von natürlichen Texturen führt
dazu, dass die meisten Texturanalyseverfahren bestenfalls eine robuste Segmentierung des
7
SHAPE FROM TEXTURE
85
Bildes in unterschiedliche Bereiche erlauben und nicht im Stande sind, genaue Forminformationen zu liefern.
Ein Verfahren für die Schätzung der 3D-Form direkt aus lokaler Struktur der Helligkeitsmuster haben die Autoren von [GAR94] entwickelt. Die Ergebnisse der Schatzung aus monokularen Bildern über den Texturgradienten sind in Abbildung 80 und aus Stereo-Bildpaaren
über den Gradienten der horizontalen Disparität in der Abbildung 81 dargestellt.
Abbildung 80: Schätzung lokaler Oberflächenorientierung für ein synthetisches Bild mit planarer Oberfläche und 5 Prz. Rauschen (links), mit zylindrischer Oberfläche und 25 Prz.
Rauschen (Mitte) und für ein reales Bild mit planarer Oberfläche (rechts). Zeilen von oben
nach unten: a) Graubild, b) detektierte Flecken, c) tatsächliche und d) geschätzte Oberflächenorientierung. Quelle: [GAR94]
Sowohl Ansätze der statistischen (Histogramm-Betrachtung) als auch der strukturellen Texturanalyse werden für qualitative Distanzschätzungen aus monokularen Bildern in [CANT01]
verwendet. Die vorgeschlagene Realisierung erlaubt es allerdings nur, zu bestimmen, ob ein
Punkt in der Bildebene näher zum Betrachter im Vergleich zu einem anderen Punkt liegt,
quantitative Aussagen über die Entfernung werden nicht getroffen.
7
SHAPE FROM TEXTURE
86
Abbildung 81: Schätzung lokaler Oberflächenorientierung für ein synthetisches (oben) und
ein reales Bild (unten) aus Gradienten der horizontalen Disparität. Spalten von links nach
rechts: a)-b) Graubild-Stereopaare c) geschätzte und d) tatsächliche Oberflächenorientierung.
Quelle: [GAR94]
Eine gleichzeitige Betrachtung des SfT- und SfSh-Problems mit Hilfe von Wavelets wird
von den Autoren von [CLE99] vorgeschlagen, die ein stochastisches Modell für texturierte
Oberflächen mit Berücksichtigung sowohl der Textur als auch der Schattierung einführen.
Die Ergebnisse sind können in der Abbildung 82 betrachtet werden.
Abbildung 82: SfT-Problem mit Wavelets: das originale (oben) und das rekonstruierte (unten)
Bilder. Quelle: [CLE99]
7.3
Geometrische Szeneneigenschaften
Zu dieser Gruppe von Verfahren gehören Techniken, die aus geometrischen Beziehungen in
der Szene die 3D-Form-Rekonstruktion durchführen. Ein gutes Beispiel sind parallele Gera-
8
PROBLEMBEHANDLUNG
87
den, die eine Fläche im Raum begrenzen: Aus dem Fluchpunkt und der Fluchtlinien kann die
Orientierung der Fläche berechnet werden [BIS01]. Die Schwierigkeit besteht hier im Auffinden der Fluchtpunkte im Bild.
Eine weitere Möglichkeit in der Bestimmung der Szenengeometrie besteht z. B. in der Berechnung von Schnittflächen für parallele Geraden oder in der Ausnutzung der Eigenschaft
der Symmetrie von vielen Gegenständen (Abbildung 83, [BIS01]).
Abbildung 83: Geometrische Szeneneigenschaften. Quelle: [BIS01]
8
Problembehandlung
Auswirkungen von Beleuchtungsänderungen, Spiegelungen und Rauschen können auf mehrere Arten kompensiert werden.
Die erste, einfachste Variante ist die allgemeine Glättung der berechneten Tiefenkarten oder
3D-Modellen, z. B. mit einem Median-Filter. Hier ist keine genaue Kenntnis über die falsch
geschätzten Korrespondenzen nötig, so dass das Verfahren sehr einfach ist. Allerdings werden
gleichzeitig mit den Disparitäten Objektgrenzen geglättet.
Wenn Informationen über die falsch berechneten Bereiche vorliegen, z. B. durch einen LinksRechts-Check, können durch eine Interpolation über Nachbarpixel oder eine modellbasierte
Interpolation durchgeführt werden. Ein Beispiel für eine modellbasierte Anwendung ist das
Verfahren von Eisert [EIS03a], das die Schätzung von Modellparametern mit einer AnalysisSynthese-Schleife durchführt (Blockschaltbild in 84). Zu beachten ist erstens, dass sich der
Rechenaufwand für diese Bestimmung erheblich erhöht. Zum zweiten sind nur für bestimmte
Objekte wie Gesichter, Hände, Autos usw. solche Modelle vorhanden. Die Objektklasse für
diese Interpolation muss auch automatisch bestimmbar sein.
Am besten ist es natürlich, wenn der Tiefenschätzungsalgorithmus gleich akkurate Informationen liefert, so dass keine Nachbearbeitung nötig ist. Die Rekonstruktionsqualität kann z.
B. drastisch erhöht werden, wenn statt zwei mehrere Ansichten auf eine Szene in die Berechnung einfließen. Unglücklicherweise bringt eine Verwendung von mehreren Bildern auch eine
Erhöhung der Anzahl der verdeckten Regionen mit sich - Bilderpartien, die zwar in einigen,
aber nicht in allen Ansichten sichtbar sind und so fehlerhafte Korrespondenzen und Dispa-
8
PROBLEMBEHANDLUNG
88
Abbildung 84: Analysis-Synthese-Schleife. Quelle: [EIS03a]
ritätsinformationen liefern.
Eine Abhilfe kann hier eine gleichzeitige Verwendung von stereo- und volumenbasierten Techniken schaffen, wie es in dem entsprechenden Abschnitt beschrieben wurde. Eine andere
Lösung bieten z. B. Kang, Szeliski und Hai in [KAN01] an. Die von ihnen realisierte Idee
besteht in dem Einsatz von einer Kombination aus räumlich verschiebbaren Suchfenstern
mit variabler Fenstergröße und einer dynamischen Unterteilung der Nachbarbilder in Segmentsätze für die Korrespondenzzuordnung auf der lokalen Ebene mit einer Verfeinerung der
Ergebnisse auf der globalen Ebene (Ablauf in der Abbildung 85). Diese Verbesserung wird
durch den Einsatz von einer Energie-Minimierungsfunktion realisiert.
Abbildung 85: Ablauf eines auf mehreren Ansichten basierten Suchalgorithmus. Quelle:
[KAN01]
Eine Erhöhung der Rekonstruktionsqualität bei einem ähnlichen Verfahren von Agrawal und
Davis wird durch eine bessere Methode zur Erhaltung der Szenen-Diskontinuitäten erreicht
(Beschreibung in [AGR03], Vergleich der Ergebnisse in 86).
Extreme Lichtverhältnisse, spiegelnde Reflexionen, harte Schatten: Dies sind Probleme, mit
denen man bei den Weltraum-Anwendungen der bildbasierten Verfahren wie automatische
Satellitenidentifikation, -Andocken und -Fehlerdiagnose zu kämpfen hat (Bild 87 als Beispiel).
Eine robuste Lösung bieten z. B. Verfahren, welche die gewonnenen Stereokorrespondenzen
9
VERGLEICH DER VERFAHREN UND AUSBLICK
89
Abbildung 86: Vergleich der Algorithmen von [KAN01] (links) und [AGR03] (rechts)
mit Hilfe von Bewegungsinformationen automatisch überprüfen und korrigieren (Flussdiagramm in der Abbildung 88), wie die Anwendung von Moyung und Fieguth [MOY00].
Abbildung 87: Eine Weltraum-Szene. Quelle: [MOY00]
Die Verwendung von mehreren Lichtquellen erhöht die Qualität der 3D-Rekonstruktion auch
bei monokularen Ansichten (Photometric Stereo). Nachteilig ist das gleichzeitige Wachstum
des Rechenaufwandes.
9
Vergleich der Verfahren und Ausblick
In dieser Studienarbeit wurden etwa 210 Literaturquellen (Artikel, Forschungsberichte, Dissertationen, Bücher, Vorlesungsmaterialien usw.) aus den letzten dreißig Jahren, vor allem aus
dem letzten Jahrzehnt verarbeitet, so dass die Literaturauswahl als repräsentativ betrachtet
werden kann. Bei der Auswertung der einzelnen Techniken wird hier auf die entsprechenden
Kapitel der Studienarbeit verwiesen.
Wenn man bei der ersten groben Beurteilung der Verfahren nach der Anzahl der Publikationen vorgeht (Abbildung 89), wird es erkennbar, dass in der letzten Zeit vor allem die
9
VERGLEICH DER VERFAHREN UND AUSBLICK
90
Abbildung 88: Flussdiagramm für einen automatischen Rekonstruktionsalgorithmus. Quelle:
[MOY00]
kombinierten SfS- und SfM-Techniken eine rasante Entwicklung verzeichnen können. Die
Ausnutzung von räumlichen (zwischen den Stereobildern) und zeitlichen (zwischen den Nachbarsbildern einer Videosequenz) Abhängigkeiten gleichzeitig bringt eine höhere Rekonstruktionsqualität, als bei einer getrennten Verarbeitung. Durch die Verbesserung von Hardware in
letzten Jahren werden relativ schnelle Implementierungen der sehr rechenaufwendigen Algorithmen zur Korrespondenzsuche in den Bildern ermöglicht. Die Rechenaufwendigkeit dieser
Algorithmen und die Begrenzung der Übertragungsrate bei den Online-Anwendungen bringen
aber die Notwendigkeit mit sich, die verarbeitenden Datenraten zu reduzieren. Das kann z.
B. dadurch geschehen, dass man nur kleine Bildgrößen zulässt, Vorder- und Hintergrundtrennung durchführt sowie Objektmodelle (Gesicht, Hand, Auto) einsetzt. Ein typisches Beispiel
für eine solche Anwendung sind die Videokonferenz-Systeme.
Die reinen stereobasierten Verfahren sind vor allem für Echtzeit-Anwendungen wie Roboter
Vision nach wie vor aktuell, da diese Techniken als einzige robuste und schnelle Ergebnisse liefern sowie preiswerte (nur zwei Kameras) Lösungen ermöglichen können. Hier werden
allerdings keine kompletten 3D-Modelle erstellt, sondern grobe Umgebungsmessungen durchgeführt.
Schattierungsbasierte Tiefenschätzung ist als einzige Methode im Stande, aus einem einzelnen
Bild eine Oberflächenrekonstruktion durchzuführen, was sie zu einem beständig interessanten Forschungsgebiet macht. Diese Technik benötigt keine Korrespondenzsuche und ist relativ
schnell, die Rekonstruktionsqualität hat aber eine starke Abhängigkeit von der Genauigkeit
der Schätzungen der Lichtquelle und der Objektreflexion. Die bestehenden Anwendungen
9
VERGLEICH DER VERFAHREN UND AUSBLICK
91
vereinfachen das Problem z. B. durch die Annahme der Objektsymmetrie oder durch die
Verarbeitung von mehreren Objektansichten. Interessante Lösungen bieten die Kombinationen mit stereo- oder bewegungsbasierten Methoden. Die Qualität der Rekonstruktion erhöht
sich bei diesen kombinierten Verfahren im Vergleich zu ursprünglichen Algorithmen erheblich, allerdings mit der gleichzeitigen Erhöhung der Rechenzeit.
Schätzung der Objektoberflächen aus den Objektsilhouetten wird in letzten Jahren vor allem
durch die vermehrte Nachfrage aus der Unterhaltungsindustrie vorangetrieben. Die Erstellung
von kompletten 3D-Modellen ist mit diesen Methoden einfacher, zuverlässiger und billiger,
als die aktiven9 Verfahren. Die gleichzeitige Integration von stereo- und bewegungsbasierten Techniken erlaubt hoch qualitative Rekonstruktionen. Da aber vor allem die volumenbasierten Techniken eine sehr große Datenmenge als Ergebnis der Rekonstruktion liefern,
sind hier geeignete Darstellungstechniken der Daten im Computer wichtig. Bei den RealzeitAnwendungen werden die SfSi-Methoden oft für die Vorder- und Hintergrundtrennung eingesetzt.
Die Tiefenschätzung mit fokusbasierten Techniken ist insofern relativ einfach, dass man keine Korrespondenzsuche durchführen muss. Zwei große Nachteile verhindern aber eine Weiterentwicklung dieser Methoden, so dass es kaum neue Forschungen auf dem Gebiet gibt.
Erstens wird die Qualität der Rekonstruktion durch die Linseneigenschaften begrenzt. Zweitens müssen die Aufnahmegeräte genaue einstellbar sein, was durch die Fertigungsfehler nur
bedingt möglich ist.
Die Texturanalyse wird ihrer Komplexität und Unzuverlässigkeit wegen vor allem für die
Bildsegmentierung und die Mustererkennung eingesetzt. Es gibt nur wenige Anwendungen
auf dem Bereich der Tiefenschätzung, die auch nur ungenügende Rekonstruktionsergebnisse
liefern.
Wie man aus der Arbeit sehen kann, existieren keine Techniken, die für alle Arten von
Bildern, Szenensituationen und gewünschten Ergebnissen (Tiefenkarte, 3D-Modell) perfekt
wären. Das Problem der Gewinnung von 3D-Informationen aus 2D-Bildern ist so komplex,
dass zur Zeit nur für bestimmte ausgewählte Anwendungsgebiete Lösungen erarbeitet wurden
bzw. werden.
9 z.
B. Laserscan
A
LITERATUR
92
Abbildung 89: Übersicht über die verwendeten Literaturquellen
A
Literatur
Literatur
[AAN02]
Aanaes, H.: Methods for Structure from Motion, Ph.D. Thesis, Technical University of Denmark, 2002
[ABD71]
Abdel-Aziz, Y. I. and Karara, H. M.: Direct linear transformation from comparator coordinates into object space coordinates in close-range photogrammetry.
In Proc. ASP/UI Symp. Close-Range Photogrammetry, pp. 1-18, Urbana, IL,
January 1971
[AGA99]
de Agapito, L., Hartley, R. I. and Hayman, E.: Linear calibration of a rotating
and zooming camera, In Proc. Conf. Computer Vision and Pattern Recognition,
volume I, pages 15-21, Fort Collins, CO, June 1999
[AGR03]
Agrawal, M. and Davis, L.: Window-based, discontinuity preserving stereo, 2003
[AHR00]
Ahrns, I.: Ortsinvariantes akives Sehen für die partielle Tiefenrekonstruktion,
Fortschritt-Berichte VDI, Reihe 10, VDI Verlag, 2000
[AHU89]
Ahuja, N. and Veenstra, J.: Generating octrees from object silhouettes in orthographic views. IEEE Trans. on Pattern Analysis and Machine Intelligence,
11(2):137-149, February 1989
[ALA98]
Alatan, A. A. and Onural, L.: Estimation of Depth Fields Suitable for Video
Compression Based on 3-D Structure and Motion of Objects, IEEE TRANSACTIONS ON IMAGE PPOCESSING, Vol. 7, NO. 6, June 1998
[ANS03]
Ansar, A. and Daniilidis, K.: Linear Pose Estimation from Points or Lines, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 25, NO. 4, APRIL 2003
LITERATUR
93
[ARM96]
Armstrong, M., Zisserman, A. and Hartley, R.: Self-calibration from image triplets, In B. Buxton and R. Cipolla, editors, Proc. 4th European Conf. on Computer Vision, volume 1064 of Lecture Notes in Computer Science, pages 3-16,
Cambridge, UK, April 1996. Springer-Verlag
[ATI97]
Atick, J. J., Griffin, P. A. and Redlich, A. N.: Statistical Approach to Shape
from Shading: Reconstruction of 3D Face Surfaces from Single 2D Images, The
Rockefeller University, New York, http:
venezia.rockefeller.edu, 1997
[AVI98]
Avidan, S. and Shashua, A.: Novel View Synthesis by Cascading Trilinear Tensors, IEEE Trans. Visualization and Computer Graphics, 4(4):293–306, 1998,
http://citeseer.ist.psu.edu/avidan98novel.html
[BAJ98]
Bajcsy, R., Enciso, R., Kamberova, G., Noceera, L. and Sara, R.: 3-D Geometerc Model Acquisition System for a Tele-Collaboration Testbed, ICA
SE/LaRC/ARO/NSF Workshop on Computational Acrosciences in the 21st
Century, 1998
[BAK98]
Baker, S.: Design and Evaluation of Feature Detectors, PhD thesis, Columbia
University, 1998
[BAR03]
Bartoli, A. and Sturm, P.: Multiple-View Structure and Motion From Line
Correspondences, 9TH ICCV, NICE, FRANCE, OCTOBER 2003
[BER02]
Bernardino, A. and Santos-Victor, J.: A Binocular Stereo Algorithm for Logpolar Foveated Systems, VisLab-TR 14/2002, 2nd Workshop on biological motivated Computer Vision, BMCV 2002, Tuebingen, Germany, November 2002
[BIC92]
Bichsel, M. and Pentland, A. P.: A Simple Algorithm for Shape from Shading,
Proc. IEEE Conference on CVPR, Champaign, Illinois, pp. 456-465, June 1992
[BIC94]
Bichsel, M.: Segmenting Simply Connected Moving Objects in a Static Scene,
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 16, No.
11, November 1994, pp. 1138-1142
[BIS01]
Bishof, H.: VL Robot Vision, 2001
[BOO02]
van den Boomgaard, R. and van den Weijer, J.: Robust Estimation of Orientation for Texture Analysis, 2002
[BOT03]
Bottino, A., Jaulin, L. and Laurentini, A.: Finding feasible parameter sets for
shape from silhouettes with unknow position of the viewpoints, The 11-th International Conference in Central Europe on Computer Graphics, Visualization
and Computer Vision, Bory, Czech Republic, February 2003
[BOY97]
Boyer, E. and Berger, M. O.: 3d surface reconstruction using occluding contours.
Int. Journal of Computer Vision, 22(3):219-233, March 1997.
[BRE00]
Bregler, D., Hertzmann, A. and Biermann, H.: Recovering Non-Rigid 3D Shape from Image Streams, Proc. of IEEE Conf. Computer Vision and Pattern
Recognition, 2000
[BRU02]
Bruno, E. and Pelerin, D.: Robust Motion Estimation using Spatial Gabor Filters, Signal Processing, Vol. 82 (2), pp. 297-309, 2002
LITERATUR
94
[BUE99]
Buehler, C., Matusik, W. and McMillan, L.: Creating and Rendering ImageBased Visual Hulls, MIT LCS Technical Report 780, March 1999
[CAN93]
Candocia, F.: A New Matching Paradigm for the Recovery of the Third Dimension in Two-Dimensional Images, Florida International University, Miami,
Florida, 1993
[CAN97]
Candocia, F. and Adjouadi, M.: A Similarity Measure for Stereo Feature Matching, IEEE TRANSACTIONS ON IMAGE PPOCESSING, Vol. 6, NO. 10,
October 1997
[CANT01]
Cantoni, V., Lombardi, L., Porta, M. and Vallone, U.: Qualitative Estimation
of Depth in Monocular Vision, the 2. Int. Workshop on Visual Form, Capri,
Italy, May 28-30, 2001
[CAN86]
Canny J. F.: A computational approach to edge detection. IEEE Trans. Pattern
Analysis. Mach. Intell., 8, pp. 679-698, 1986
[CAP90]
Caprile, B. and Torre, V.: Using vanishing points for camera calibration, Int.
Journal of Computer Vision, 4(2):127-140, March 1990
[CHEN03]
Chen, C-Y., Klette, R. and Chen, C.-F.: 3D Reconstruction Using Shape from
Photometric Stereo and Contours, Image and Vision Computing Conference,
New Zealand 2003
[CHE03]
Cheung, G., Baker, S. and Kanade, T.: Shape-From-Silhouette of Articulated
Objects and its Use for Human Body Kinematics Estimation and Motion Capture, in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2003
[CHE03a]
Cheung, G., Baker, S. and Kanade, T.: Visual hull alignment and refinement
across time: a 3D reconstruction algorithm combining shape-frame-silhouette
with stereo. In Proc. of CVPR03, June 2003
[CHI98]
Chiang, P.-C. and Binford, T. O.: Edge Detection: Modeling, Estimation and
Aggregation, Ph. D.Thesis, Stanford University, 1998
[CHI86]
Chien, C. H. and Aggarwal, J. K.: Volume/surface octrees for the representation
of three-dimensional objects. Computer Vision, Graphics and Image Processing,
36(1):100-113, October 1986.
[CHOJ01]
Chojnacki, W., Brooks, M., van den Hengel, A., Gawley, D.: A fast MLE-based
method for estimating the fundamental matrix, International Conference on
Image Processing, Thessaloniki, Greece, October 2001, Paper 1405 (CD Proceedings)
[CHOJ02]
Chojnacki, W., Brooks, M., van den Hengel, A., Gawley, D.: A new approach to
constrained parameter estimation applicable to some computer vision problems,
Statistical Methods in Video Processing Workshop held in conjunction with
ECCV’02, Copenhagen, Denmark, June 1-2, 2002
[CHOW02]
Chowdhury, A. K. R.: Statistical Analysis of 3D Modeling from Monocular
Video Streams, Dissertation, 2002
LITERATUR
95
[CHOWaCHE01] Chowdhury, A. K. R., Chellapa, R.: Robust estimation of depth and motion
using stochastic approximation, Proceedings of ICIP 2001
[CHOWaCHE02] Chowdhury, A. K. R., Chellapa, R., Krishnamurty, S. and Vo, T.: 3D face
reconstruction from video using a generic model, Proceedings of ICME 2002
[CHOWaLIU03] Chowdhury, A. K. R, Liu, H. und Chellapa, R.: Multi-Resolution 3D Modeling From Monocular Video: Algorithm, Convergence Properties, and Error
Analysis, IEEE TRANSACTIONS ON MULTIMEDIA, Vol. XX, März 2003
[CHR03]
Christou, C. G., Tjan, B. S. and Bülthoff, H. H.: Extrinsic cues aid shape
recognition from novel viewpoints, Journal of Vision (2003) 3, 183-198
[CIP92]
Cipolla, R. and Blake, A.: Surface shape from the deformation of apparent
contours, Int. Journal of Computer Vision, 9(2):83-112, November 1992
[CLE99]
Clerc, M. and Mallat, S.: Shape from Texture and Shading with Wavelets,
Dynamical Systems, Control, Coding, Computer Vision, Vol. 25, pp. 393-417,
Birkhauser, 1999
[COE03]
Cönner, C., Rous, M. and Kraiss, K.-F.: Robuste farbbasierte Bildsegmentierung für mobile Roboter, www.technoinfo.rwth-aachen.de, 2003
[COL93]
Collins, R.: Model acquisition using stochastic projektive geometry, Eine Dissertation an der University of Massachusetts, USA, 1993
[DAN00]
Daniilidis, K., Mulligan, J., McKendall, R., Schmid, D., Kamberova, G. and Bajcsy, R.: Real-time 3D -Tele-Immersion, NATO Advanced Research Workshop
Series, KLuwer Academic Publishers, 2000
[DAU98]
Daum, M. and Dudek, G.: On 3-D Surface Reconstruction Using Shape from
Shadows, IEEE Conference on CVPR, Los Angeles, June 1998
[DAV01]
Davis, L. S.: Foundations of Image Understanding, Kluwer, Boston, 2001, pp.
469-489
[DEL00]
Dellaert, F., Seitz, S. M., Thorpe, C. E. and Thrun, S.: Structure from Motion without Correspondence, IEEE Computer Society Conference on Computer
Vision and Pattern Recognition ( CVPR00 ), June 2000
[DRO02]
Dror, R. O.: Surface Reflectance Recognition and Real-World Illumination Statistics, Massachusetts Institute of Technology, 2002, www.citeseer.com
[EDE91]
Edelman, S. und Weinshall, D.: Computational vision: a critical review, In R.
J. Watt, editor, Pattern Recognition by Man and Machine, Vision and Visual
Dysfunction, Vol 14, chapter 4, pp. 30-49, The Macmillan Press Ltd, 1991
[EDI00]
Edirisinghe, E. A. and Jiang, J.: Stereo imaging, an emerging technology, Departament of Computer Science, Loughborough University,
UK and School of Computing, Glamorgan Universtity, UK, 2000, citeseer.nj.nec.com/edirisinghe00stereo.html
[EIS02]
Eisert, P.: Model-based Camera Calibration Using Analysis by Synthesis Techniques, Proc. 7th International Workshop VISION, MODELING, AND VISUALIZATION 2002, Erlangen, Germany, pp. 307-314, November 2002
LITERATUR
96
[EIS03]
Eisert, P.: Immersive 3-D Video Conferencing: Challenges, Concepts and Implementations, Proc. SPIE VCIP, Lugano, Switzerland, July 2003
[EIS03a]
Eisert, P.: MPEG-4 Facial Animation in Video Analysis and Synthesis, International Journal of Imaging Systems and Technology, Vol. XX, 2003
[ELS00]
Elsen, I.: Ansichtsbasierte 3D-Objekterkennung mit erweiterten Selbstorganisierenden Merkmalskarten, Fortschritt-Berichte VDI, Reihe 10, Nr. 631, Düsseldorf, VDI-Verlag, 2000
[FAL95]
Falkenhagen, L.: 3D object-based depth estimation from stereoscopic image
sequences, International Workshop on stereoscopic and three-dimensional imaging, September 6-8 1995, Fera Congress Center, Santorini, Greece, 1995
[FAL94]
Falkenhagen, L.: Depth estimation from stereoscopic image pairs assuming piecewise continuos surfacessequences, Image Processing for Broadcast and Video
Production, Hamburg 1994, pp. 115-127, Springer series on Workshops in Computing, Springer Great Britain, 1994
[FAV03]
Favaro, P., Osher, S., Soatto, S. and Vese, L.: 3D Shape from Anisotropic Diffusion, 2003, www.citeseer.com
[FEL03]
Feldmann, Eisert, P. and Kauff, P.: Extension of Epipolar Image Analysis to
Circular Camera Movements, Proc. International Conference on Image Processing ICIP 2003, Barcelona, Spain, vol. III, pp. 697-700, September 2003
[FERL00]
Ferley, E., Cani, M.-P. and Gascuel, J.-D.: Practical Volumetric Sculpting, the
Visual Computer, number 8, volume 16, pages 469–480, dec 2000
[FERN97]
Fernandes, J. L. and Torreao, J. R. A.: Dept Estimation Through a DisparityBased Photometric Stereo, SIBGRAPI, 1997
[FIL94]
Filbois, A. and Gemmerle, D.: From Step Edge to Line Edge: Combining Geometric and Photometric Information, 1994
[FIS99]
Fischer, D.: Rekonstruktion dreidimensionaler Oberflächenmodelle aus Sequenzen segmenturverrauschter Tiefenbilder, Fortschritt-Berichte VDI, Reihe 10, Nr.
606, Düsseldorf, VDI-Verlag, 1999
[FIT00]
Fitzgibbon, A. and Zisserman, A.: Multibody Structure and Motion: 3-D Reconstruction of Independently Moving Objects, 2001, http://www.robots.ox.ac.uk
[FOR01]
Forsyth, D. A.: Shape from texture and integrability, ICCV 2001, pp. 447-453
[FRI97]
Friedman, N. and Russel, S.: Image Segmentation in Video Sequences, Proceedings of the Thirteenth Conference on Uncertainty in Artifical Intelligence,
1997
[FUS00]
Fusiello, A.: Uncalibrated Euclidean reconstruction: a review, Image and Vision
Computing 18, pp. 555-563, 2000, www.elsevier.com/locate/imavis
[GAR94]
Garding, J. and Lindeberg, T.: Direct computation of shape cues using scaleadapted spatial derivate operators, Int. Journal of Computer Vision, 1994
[GIB87]
Giblin, P. J. and Weiss, R. S.: Reconstructions of surfaces from profiles. In Proc.
1st Int. Conf. on Computer Vision, pages 136-144, London, UK, June 1987
LITERATUR
97
[GUP03]
Gupta, G. S, Win, T. A., Messom, C., Demidenko, S. and Mukhopadhyay, S.:
Defect analysis of grit-blasted or spray-painted surface using Vision Sensing
Techniques, Image and Vision Computing Conference, New Zealand, 2003
[GRE02]
Greiner, K., Suppes, A., Hötter, M. and Kunze, E.: Schätzung der Bewegung
eines mobilen Roboters aus Videodaten, Messtechnik-Symposium an der Fachhochschule Hannover, September 2002
[HAN00a]
Han, M. and Kanade, T.: Creating 3D Models with Uncalibrated Cameras,
IEEE Computer Society Workshop on the Application of Computer Vision
(WACV00), California, December, 2000
[HAN00]
Han, M. and Kanade, T.: Reconstruction of a scene with multiple linearly moving objects, CVPR00, pages 542-549, 2000
[HAN01]
Han, M. and Kanade, T.: Multiple Motion Scene Reconstruction from Uncalibrated Views, IEEE 2001
[HAS03]
Hasenfratz, JM., Lapierre, M., Gascuel, J.-D. and Boyer, E.: Real-Time Capture, Reconstruction and Insertion into Virtual World of Human Actors, Vision,
Video, and Graphics, P. Hall, P. Willis (Editors), 2003
[HEI98]
Heisele, B.: Objektdetektion in Straßenverkehersszenen durch Auswertung von
Farbbildfolgen, Fortschritt-Berichte VDI, Reihe 10, Nr. 567, Düsseldorf, VDIVerlag, 1998
[HEM97a]
Hemayed, E. E, Sandbeck, A., Wassal, A. G. und Farag, A. A.: Investigation
of stereo-based 3D surface reconstruction, Proc. SPIE, Vol. 3023, pp. 191-202,
Feb. 1997
[HEM97]
Hemayed, E. E., Yamany, S. M., Seales, W. B. and Farag, A. A.: Three Dimensional Model Building in Computer Vision (II), TR-CVIP97, Sept. 1997
[HET03]
Hetzheim, H. and Börner, A.: Vehicle detection from airborne images by separation of texture properties and their fusion, Image and Vision Computing
Conference, New Zealand, 2003
[HON85]
Hong, T. H. and Shneier, M. O.: Describing a robot’s workspace using a sequence
of views from a moving camera, IEEE Trans. on Pattern Analysis and Machine
Intelligence, 7(6):721-726, November 1985.
[HOR77]
Horn B. K. P.: Understanding image intensities. Artifical Intelligence, 8(2): P.
201-231, 1977
[HUC96]
Hucka, M. and Kaplan, S.: Texture-Based Processing in Early Vision and a
Proposed Role for Coarse-Scale Segmentation, 1996, www.citeseer.com
[IKE86]
Ikeuchi, K., Nishihara, H. K., Horn, B. K. P., Sobalvero, P. and Nagata, S.:
Determining Grasp Configurations using Photometric Stereo and the PRISM
System, The International Journal of Robotics Research, Vol. 5 , No. 1, Spring
1986
[IKE03]
Ikeda, O.: Use of Multiple Surface Normal Approximations in the Shape-fromShading Using Jacobi’s Iterative Method, Image and Vision Computing Conference, New Zealand, 2003
LITERATUR
98
[JEB99]
Jebara, T., Azarbayejani, A. and Pentland, A.: 3D Structure from 2D Motion.
IEEE Signal Processing Magazine, 1999
[JIA97]
Jiang, X. and Bunke, H.: Dreidimensionales Computersehen, Springer, 1997
[JIA02]
Jiang, X.: Computer Vision, VL an der TU Berlin, 2002
[JIN00]
Jin, H., Yezzi, A., Soatto, S.: Stereoscopic Shading: Integrating Shape Cues in
a Variational Framework, CVPR 2000, pp. 1169-1176, 2000
[JON97]
Jones, G. A.: Constraint, Optimisation and Hierarchy: Reviewing stereoscopic
correspondence of complex features, Computer Vision and Image Understanding, volume 65, number 1, pp. 57 - 78, 1997
[KAH00]
Kahl, F.: Critical Motions for Auto-Calibration When Some Intrinsic Parameters Can Vary, Kluwer Academic Publishers, 2000
[KAH99]
Kahl, F. and B. Triggs: Critical Motions in Euclidean Structure from Motion,
CVPR99, 1999, http://www.inrialpes.fr/movi/people/Triggs
[KAN97]
Kanade, T., Rander, P. W. and Marayanan, P. J.: Virtualized Reality: Constructing Virtual Worlds from Real Scenes, IEEE MultiMedia, Vol. 4, No. 1,
Jan.-Mar. 1997, pp. 34-47
[KANG99]
Kang, S. B.: A Survey of Image-based Rendering Techniques, Videometric VI,
vol. 3641, pp. 2-16, Jan. 1999
[KAN01]
Kang, S. B., Szeliski, R. and Chai, J.: Handling Occlusions in Dense Multi-view
Stereo, In Proc. IEEE Conference on Computer Vision and Pattern Recognition,
volume I, pages 103-110, December 2001
[KAU02]
Kauff, P. and Schreer, O.: An Immersive 3D Video-Conferencing System Using
Shared Virtual Team User Environments, CVE02, Bonn, Germany, 2002
[KIM00]
Kimmel, R. and Sethian, J. R.: Optimal Algorithm for Shape from Shading and
Path Planning, Kluwer Academic Publishers, 2000
[KIM03]
Kim, H. S. and Park, Y. G.: A Study on the Image Based 3D Modeling by Weighted Bi-Directional Registration, Image and Vision Computing Conference, New
Zealand, 2003
[KLE98]
Klette, R., Kozera, R. and Schlüns, K.: Shape from Shading and Photometric
Stereo Methods, CITR-TR-20, http:
www.tcs.auckland.ac.nz, May 1998
[KLE95]
Klette, R., Koschan, A., Schlüns, K. and Rodehorst, V.: Evaluation of Surface Reconstruction Methods, Proc. of the New Zealand Image and Vision Computing Workshop, Lincoln, Canterbury, 28.-29. Aug. 1995, pp. 3-12,
http:/www.cs.tu-berlin.de/ cvworld
[KOC98]
Koch, R., Pollefeys, M. and Van Gool, L.: Multi Viewpoint Stereo from Uncalibrated Video Sequences, ECCV 1998, pp. 55-71, Germany, 1998
[KOE96]
Koehn, C.: Bildanalyse und Billdatenkompression. Hanser Verlag, 1996
LITERATUR
99
[KOS95]
Koschan, A., Rodehorst, V., Towards Real-Time Stereo Employing Parallel Algorithmus For Edge-Based And Dense Stereo Matching, Proc. of the IEEE
Workshop CAMP, 15-20 Sept. 1995, Como, Italy
[KOS96]
Koschan, A., Rodehorst, V. and Spiller, K.: Color Stereo Vision Using Hierarchical Block Matching and Acitve Color Illumination, Proc. of the 13th Int.
Conf. on Pattern Recognition , 25-29 Aug. 1996, Vienna, Austria, Vol. I, pp
835-839
[KRU94]
Krumm, J. and Shafer, S. A.: A characterizable shape-from-texture algorithm
using the spectrogram, IEEE 1994, pp. 322-325
[KUZ01]
Kuzu, Y. and Rodehorst, V.: Volumetric modeling using shape from silhouette,
Fourth Turkish-German Joint Geodetic Days, 2001, pp. 469-476
[LAU94]
Laurentini, A.: The Visual Hull Concept for Silhouette-Based Image Understanding, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 16,
No. 2, Feb. 1994, pp. 150-162
[LEI97]
Lei, Z. and Cooper, D. B.: Implicit polynomial based geometric shape modeling
and recognition, Proceedings of 3rd International Workshop on Visual Form,
Capri, Italy, May 1997
[LI02]
Li, M., Schirmacher, H. and Seidel, H.-P.: Combining Stereo and Visual Hull for
On-line Reconstruction of Dynamic Scenes, In IEEE Workshop on Multimedia
and Signal Processing, December 2002
[LI03]
Li, F. J., Zang, Q. and Klette, R.: Reconstruction Formulas for Rotational
Dynamic Stereo, Image and Vision Computing Conference, New Zealand, 2003
[LIN02]
Lin, H.-Y., Computer Vision Techniques for Complete 3D Model Reconstruction, Dissertation, 2002, www.citeseer.com
[LIU98]
Liu, Y.-F.: A unified Approach to Image Focus and Defocus Analysis, A Dissertation, 1998, www.citeseer.com
[LOV97]
Love, R. C.: Surface Reflection Model Estimation from Naturally Illuminated
Image, School of Computer Studies University of Leeds, 1997, www.citeseer.com
[LUO94]
Luong, Q.-T. and Vieville, T.: Canonic Representations for the Geometries of
Multiple Projective Views, ECCV94, Lecture notes in Computer Science, Vol.
800, 1994
[LV02]
Lv, F., Zhao, T. und Nevatia, R.: Self-Calibration of a Camera from Video of
a Walking Human, ICPR 2002 (International Conference on Pattern Recognition), Quebec city, Quebec, Canada, Aug., 2002
[MAC93]
MacIvor, A., M.: Edge Extraction and Linking, AM First New Zealand Conference on Image and Vision Computing, pp.485-491, Auckland, August 1993
[MAG03]
Magnor, M., Seidel, H.-P., Capturing the Shape of a Dynamic World - Fast!
Proc. IEEE International Conference on Shape Modelling and Applications
(SMI03), Seoul, South Korea, pp. 3-9, May 2003
LITERATUR
100
[MAL98]
Mallot, H. A.: Sehen und die Verarbeitung visueller Information, Braunschweig:
Vieweg, 1998
[MAN00]
Mandal, C., Zhao, H., Vemuri, B. C. und Aggarwal, J. K.: 3D Shape Reconstruction from Multiple Views, in Handbook of Video and Image Processing,
Academic Press, Feb. 2000
[MAN98]
Mandelbaum, R., McDowell, L., Bogoni, L., Reich, B. and Hansen, M.: Realtime stereo processing, obstacle detection, and terrain estimation from vehiclemounted stereo cameras, WACV 1998
[MAR83]
Martin, W. N. and Aggarwal, J. K.: Volumetric descriptions of objects from
multiple views, IEEE Trans. on Pattern Analysis and Machine Intelligence,
5(2):150-158, March 1983
[MAT89]
Matthies, L., Kanade, T. and Szelinski, R.: Kalman Filter-based Algorithms For
Estimating Depth from Image Sequences, International Journal of Computer
Vision, 3, 209-236, 1989
[MAT00]
Matusik, W., Buehler, C., Raskar, R., Gortler, S. J. and McMillan, L.: ImageBased Visual Hulls, 2000, www.citeseer.com
[MAT01]
Matusik, W., Buehler, C. and McMillan, L.: Polyhedral Visual Hulls for RealTime Rendering, In Proceedings of Eurographics Workshop on Rendering, 2001
[MAT02]
Matusik, W., Buehler, C., McMillan, L. and Gortler, S. J.: An Efficient Visual
Hull Computation Algorithm, MIT LCS Technical Memo 623, February 2002
[MAY92]
Maybank, S. J. and Faugeras, O. D.: A theory of self-calibration of a moving
camera, Int. Journal of Computer Vision, 8(2):123-151, August 1992
[MEH03]
Mehren, D., Rodehorst, V.: Gestaltanalyse komplexer Objekte bei kontrollierter
Bewegung, Dipl. Arbeit an der TU Berlin, Fachbereich Computer Vision, 2003
[MIE02]
Miene, A.: VL Bildverarbeitung, UNI Bremen, Fachbereich Mathematik, Informatik, 2002
[MIS03]
Miskelly, G. M. and Wagner, J. H.: Background Correction in Forensic Photography, Image and Vision Computing Conference, New Zealand, 2003
[MOY00]
Moyung, T. J. and Fieguth, P. W.: Incremental Shape Reconstruction Using
Stereo Image Sequences, ICIP 2000
[MUE01]
Mühlmann, K., Maier, D., Hesser, J. und Männer, R.: Calculation Dense Disparity Maps from Color Stereo Images, an Efficient Implementation, CVPR 2001,
Beitrag in Tagungsband in CVPR 2001
[MUL01]
Mulligan, J. and Daniilidis, K.: Real Time Trinocular Stereo for Tele-Immersion,
Proceedings of the 2001 International Conference on Image Processing (ICIP01),
Thessaloniki, Greece, October 2001
[MUL03]
Mulligan, J., Zabulis, X., Kelshikar, N. and Daniilidis, K.: Stereo-based Environment Scanning for Immersive Telepresence, 2003, www.citeseer.com
LITERATUR
101
[MUR98]
Murray, D. and Little, J.: Using real-time stereo vision for mobile robot navigation, Autonomous Robots, Volume 8, April 2000, Pages: 161 - 171, Kluwer
Academic Publishers, Hingham, MA, USA
[NIE99]
Niem, W.: Automatische Rekonstruktion starrer dreidimensionaler Objekte aus
Kamerabildern, Fortschritt-Berichte VDI, Reihe 10, Nr. 611, Düsseldorf, VDIVerlag, 1999
[NOB88]
Noborio, H., Fukuda, S. and Arimoto, S.: Construction of the octree approximating three-dimensional objects by using multiple views, IEEE Trans. on Pattern
Analysis and Machine Intelligence, 10(6):769-782, November 1988
[OLI01]
Oliensis, J.: Exact Two-Image Structure from Motion, NEC Research Institute,
Princeton, 2001, http://www.neci.nj.nec.com/homepages/oliensis/
[OTT95]
Otterbach, R.: Robuste 3D-Objekterkennung und Lagebestimmung durch Auswertung von 2D-Bildfolgen, Fortschritt-Berichte VDI, Reihe 8, Nr. 481, Düsseldorf, VDI-Verlag, 1995
[PAR02]
Paris, S. and Sillion, F.: Robust Acquisition of 3D Informations from Short
Image Sequences, Pacific Graphics, October 2002
[PAR01]
Park, S.-Y and Subbarao, M.: A New Technique for Registration and Integration
of Partial 3D Models, 2001
[PAU01]
Paulus D.: Aktives Bildverstehen, Osnabrück: Der Andere Verlag, 2001
[PEN03]
Penman, D. W. and Alwesh, N. S.: 3D Pose Estimation of Beef Carcasses using
Symmetry, Image and Vision Computing Conference, New Zealand, 2003
[PER03]
Perrone, J. A., Voyle, T. and Jefferies, M. E.: Towards a Human Tracking
System for a Mobile Robot Using Neural-Based Motion Detectors, Image and
Vision Computing Conference, New Zealand, 2003
[PIG02]
Pighin, F., Szeliski, R. and Salesin, D. H.: Modeling and Animating Realistic
Faces from Images, International Journal of Computer Vision 50(2), 143-169,
2002
[POE97]
Poelman, C. J. and Kanade, T.: A Paraperspective Factorisation Method for
Shape and Motion Recovery, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLEGENCE, Vol. 19, No. 3, March 1997
[POL00]
Pollefeys, M.: Tutorial on 3D Modeling from Images, Dublin, Ireland, 26 June
2000, www.citeseer.com
[POLaKOC99] Pollefeys, M., Koch, R., and van Gool, L. J.: Self-calibration and metric
reconstruction inspite of varying and unknown intrinsic camera parameters,
Int. Journal of Computer Vision, 32(1):7-25, August 1999
[POLaKOC00] Pollefeys, M., Koch, R., Vergauwen, M., Deknuydt, B. and Van Gool, L.:
Three-dimensional scene reconstruction from images, SPIE Electronic Imaging
2000, Three-Dimensional Image Capture and Applications III, 2000
[POLaVER00] Pollefeys, M., Vergauwen, M. and Van Gool, L.: Automatic 3D modeling from
image sequences, ISPRS, Vol. XXXIII, Amsterdam, 2000
LITERATUR
102
[POT87]
Potmesil, M.: Generating octree models of 3D objects from their silhouettes
in a sequence of images, Computer Vision, Graphics and Image Processing,
40(1):1-29, October 1987
[QUA97]
Quan, L. and Kanade, T.: Affine Structure from Line Correspondences with
Uncalibrated Affine Cameras, 1997, www.citeseer.com
[QUA02]
Quan, L. and Lhuillier, M.: Structure from Motion from Three Affine Views,
IEEE 2002
[PRA78]
Pratt W. K.: Digital Image Processing, John Wiley and Sons, 1978
[PRA02]
Prados, E., Faugeras, O. and Rouy, E.: Shape-from-Shading and Viscosity Solutions, Technical Report Nr. 4638, 2002, www.citeseer.com
[RAD00]
Radim, S. Accurate Natural Surface Reconstruction from Polynocular Stereo,
Szech Technical University, Prague, Chech Republic, 2000, www.citeseer.com
[RAD01]
Radke, R., Zagorodnov, V., Kulkarni, S. and Ramadge, P. J.: Estimating correspondence in digital video, Departament of Electrical Engineering, Princeton
University, Princeton, 2001, www.citeseer.com
[RAD00a]
Radke, R., Zagorodnov, V., Kulkarni, S. and Ramadge, P. J., Echigo, T., Iisaku,
S.: Recursive propagation of correspondences with applications to the creation
of virtual video, 2000, www.citeseer.com
[ROU03]
Rous, M, Lüpschen, H. S. and Kraiss, K.-F.: Echtzeit-Raumszeneanalyse
zur
bildgestützten
zielorientierten
Navigation
mobiler
Roboter,
www.technoinfo.rwth-aachen.de, 2003
[SAM00]
Samaras, D., Metaxas, D., Fua, P. and Leclerc, Y. G.: Variable Albedo Surface
Reconstruction from Stereo and Shape from Shading, 2000, www.citeseer.com
[SAM99]
Samaras, D. and Metaxas, D.: Coupled Lighting Direction and Shape Estimation from Single Images, ICCV99, 1999
[SAR95]
Sara, R.: Isophotes: the Key to Tractable Local Shading Analysis, CAIP 1995:
pp. 416-423, 1995
[SAV01]
Savarese, S., Rushmeier, H., Bernardini, F. and Perona, P.: Shadow Carving,
IEEE 2001
[SAV02]
Savarese, S., Rushmeier, H., Bernardini, F. and Perona, P.: Implementation
of a Shadow Carving System for Shape Capture, 1st Symposium on 3D Data
Processing, Visualization, and Transmission, June 2002
[SCH98]
Schiller, R.: Konturbasierte Verfahren in der lageinvarianten Mustererkennung,
Fortschritt-Berichte VDI, Reihe 10, Nr. 556, Düsseldorf, VDI-Verlag, 1998
[SCH00]
Schreer, O., Brandenburg, N. und Kauff, P.: Disparitätsanalyse konvergenter
und rektifizierter Stereoansichten: Eine vergleichende Untersuchung, 22.DAGMSymposium Mustererkennung 2000, Kiel, Germany, Sept. 2000
[SCH01]
Schreer, O. und Kauff, P.: Immersive 3D-Videokonferenz, Der Fernmeldeingenieur, Heft 8, 55. Jahrgang, Verlag für Wissenschaft und Leben Georg Heidecker
GmbH, Erlangen, August 2001
LITERATUR
103
[SCH03]
Schreer, O: VL Stereobildverarbeitung in der Videokommunikation, TU Berlin,
2003
[SCH03a]
Schreer, O., Atzpadin, N., Askar, S. and Kauff, P.: Advanced 3D Signal Processing For Virtual Team User Environments, 2003, www.citeseer.com
[SCHA03]
Schaefer, R., Wiegand, T. and Eisert, P.: Videocodierung - Eine Schlüsseltechnologie für digitale Medien und Multimedia, Proc. Dortmunder Fernsehseminar,
Dortmund, Germany, 2003
[SCHL97]
Schlüns, K.: The Irradiance Error and its Effect in Photometric Stereo, Proc.
First Joint Australia and New Zealand Biennial Conference on Digital Image
and Vision Computing: Techniques and Applications, Albany, Auckland, New
Zealand, Dec. 10-12, 1997, 539-544
[SHU00]
Shum, H.-Y., Kang, S. B.: A Review of Image-based Rendering Techniques,
IEEE/SPIE Visual Communications and Image Processing (VCIP) 2000, pp.
2-13, Perth, June 2000
[SLA01]
Slabaugh, G., Culbertson, B., Malzbender, T. and Schafer, R.: A Survey of
Methods for Volumetric Scene Reconstruction from Photographs, International
Workshop on Volume Graphics, June 21-22, 2001
[SMI96]
Smith, A. R. and Blinn, J. F.: Blue Screen Matting, SIGGraPH 96 Conference
Proceedings, August 4-9, 1996, pp. 21-30
[SRI90]
Srivastava, S. K. and Ahuja, N.: Octree generation from object silhouettes in
perspective views, Computer Vision, Graphics and Image Processing, 49(1):6884, January 1990
[STEF02]
Stefano, L., Marchionni, M., Mattoccia, S. and Neri, G.: A Fast Area-Based
Stereo Matching Algorithm, 2002, www.citeseer.com
[STE00]
Steinbach, E., Girod, B., Eisert, P. and Betz, A.: 3-D Reconstruction of RealWorld Objects using Extended Voxels, 2000, www.citeseer.com
[STE02]
Steinbrecher, R.: Bildverarbeitung in der Praxis, www.rst-software.de, 2002
[SUB93]
Subbarao, M. and Choi, T.: A New Method for Shape from Focus, Proceedings
of SPIE, Vol. 2064, Boston, Sept. 1993
[SUP00]
Suppes, A., Niehe, S., Hötter, M. and Kunze, E.: Stereobasierte Videosensorik unter Verwendung einer stochastischen Zuverlässigkeitsanalyse, 2000,
www.citeseer.com
[SZE93]
Szeliski, R.: Rapid octree construction from image sequences, Computer Vision,
Graphics and Image Processing, 58(1):23-32, July 1993
[SZE98]
Szeliski, R. and Weiss, R.: Robust shape recovery from occluding contours using
a linear smoother. Int. Journal of Computer Vision, 28(1):27-44, June 1998
[TAN02]
Tang, L., Tsui, H. T. and Wu, C. K.: Dense Stereo Matching Based on Propagation with a Voronoi Diagram, ICVGIP-2002
LITERATUR
104
[TAO01]
Tao, H., Sawhney, H. S. and Kumar, R.: Dynamic Depth Recovery from Multiple
Synchronized Video Streams, Department of Computer Engineering, University
of California at Santa Cruz and Sarnoff Corporation, Princeton, 2001
[THO02]
Thomas G., Grau O.: 3D image sequence acquisition, for TV and film production, 1st International Symposium on 3D Data Processing, Visualisation and
Transmission, 19-21 June 2002
[TOE04]
Toennies, K. D.: 3D Computer Vision, VL an der Universität Magdebung,
WS03/04, www.cs.uni-magdeburg.de
[TRI97]
Triggs, B.: Autocalibration and the absolute quadric, In Proc. Conf. Computer
Vision and Pattern Recognition, pages 609-614, San Jaun, PR, June 1997
[TSA87]
Tsai, R. Y.: A versatile camera calibration technique for high-accuracy 3D machine vision metrology using off-the-shelf tv cameras and lenses, IEEE Trans.
Robotics and Automation, 3(4):323-344, August 1987
[TSA94]
Tsai, R. Y., Shah, M.: Shape from Shading Using Linear Approximation, Image
and Vision Computing Journal, vol. 12, no. 8, October 1994
[VAI92]
Vaillant, R. and Faugeras, O. D.: Using extremal boundaries for 3D object modelling, IEEE Trans. on Pattern Analysis and Machine Intelligence, 14(2):157173, February 1992
[VEK01]
Veksler, O.: Dense Features for Semi-Dense Stereo Correspondence, NEC Research Institute, Princeton, 2001, www.citeceer.com
[VEK01a]
Veksler, O.: Semi-Dense Stereo Correspondence with Dense Features, Proceedings of the 2001 IEEE Computer Society Conference
[VID03]
Vidal, R., Ma, Y., Soatto, S. and Sastry, S.: Two-View Multibody Structure
from Motion, 23.12.2002, Kluwer Academic Publishers, Printed in the Netherlands
[WAN03]
Wang, Y. and Samaras, D.: Multiple Directional Illuminant Estimation from a
Single Image, 2003, www.citeseer.com
[WAT98]
Watanabe, M., and Nayar, S. K.: Rational Filters for Passive Depth from Defocus, 1998, www.citeseer.com
[WEI94]
Wei, T.-C.: Three Dimensional Machine Vision Using Image Defocus, A Dissertation, 1994, www.citeseer.com
[WEIN94]
Weinshall, D.: Local Shape Approximation from Shading, Journal of Mathmatical Imaging und Vision, 4(2), pp. 119-138, 1994
[WIL99]
Wilson, R. C. and Hancock, E. R.: A Reflectance Model for Radar Shape From
Shading, BMVC99, 1999
[WON99]
Wong, K.-Y. K., Mendonca, P. R. S. and Cipolla, R.: Reconstruction and motion
estimation from apparent contours under circular motion, In T. Pridmore and
D. Elliman, editors, Proc. British Machine Vision Conference, volume 1, pages
83-92, Nottingham, UK, September 1999
LITERATUR
105
[WON01]
Wong, K.-Y. K.: Structure and Motion from Silhouettes, University of Cambridge, 2001, www.citeseer.com,
[YIL02]
Yilmaz, A. and Shah, M.: Estimation of Arbitrary Albedo and Shape from
Shading for Symmetric Objects, 2002, http://www.cs.usf.edu/ vision
[YU99]
Yu, Y. Debevec, P. Malik, J. and Hawkins, T.: Inverse Global Illumination:
Recovering Reflectance Models of Real Scenes from Photographs, Proc. of SIGGRAPH’99, 1999
[ZAN03]
Zang, Q. and Klette, R.: Object Classification and Tracking in Video Surveillance, Technical Report CITR-TR-128, 2003, www.citeseer.com
[ZHAO99]
Zhao, W. and Chellapa, R.: Robust Face Recognition Using Symmetric ShapeFrom-Shading, 1999, www.citeseer.com
[ZHA96]
Zhang, Z.: Determing the Epipolar Geometry and its Uncertainty: A Review,
International Journal of Computer Vision, 27(2), 161-198, 1998
[ZHA94]
Zhang, R., Tsai, P.-S., Cryer, J. E. and Shah, M.: Analysis of Shape from
Shading Techniques, IEEE CVPR-94, Seattle, Washington, June 20-24, P. 377384
[ZHA93]
Zhang, R., Tsai
www.citeseer.com
[ZHA01]
Zhang, Y, Kambhamettu, C.: On 3D Scene Flow and Structure Estimation,
2001, IEEE01, http://www.cis.udel.edu/ vims
[ZHA98]
Zhang, Z.: Image-Based Geometrically-Correct Photorealistic Scene/Object
Modeling: A Review, Proc. of the Asian Conference on Computer Vision, Hong
Kong, 8-11 Jan. 1998
[ZHA03]
Zhang, L., Curless, B., Hertzmann, A. and Seitz, S. M.: Shape and Motion under
Varying Illumination: Unifying Structure from Motion, Photometric Stereo, and
Multi-view Stereo, 2003, www.citeseer.com
[ZIO98]
Ziou, D. and Tabblone, S.: Edge Detection Techniques - An Overview, 1998,
www.citeseer.com
[ZIO99]
Ziou, D. and Deschenes, R.: Depth from Defocus Estimation in Spatial Domain,
Technical Report, 1999, www.citeseer.com
[ZYK98]
Zyka, V.: Recovering Accurate Geometric Surface Model from Passive Stereo Vision, Szech Technical University, Prague, Chech Republic, 1998,
www.citeseer.com
and
Shah,
M.:
Depth
From
Photomotion,
1993,