Überblick über aktuelle Verfahren zur Tiefenschätzung

Transcription

Überblick über aktuelle Verfahren zur Tiefenschätzung
aus 2D-Video-Sequenzen
Studienarbeit an der TU Berlin, Institut für Telekommunikationssysteme, FG Nachrichtenübertragung
Olga Ebers
19. März 2004
1
INHALTSVERZEICHNIS
2
Inhaltsverzeichnis
I
Symbole und Abkürzungen
7
1 Einführung
9
2 Shape from Stereo
2.1 Das Stereokamerasystem . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Das Lochkameramodell . . . . . . . . . . . . . . . . . . .
2.1.2 Koordinatentransformationen . . . . . . . . . . . . . . . .
2.1.3 Kalibrierung der Videokameras . . . . . . . . . . . . . . .
2.2 Epipolargeometrie . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Konvergente Stereogeometrie . . . . . . . . . . . . . . . .
2.2.2 Schätzung der Stereogeometrie . . . . . . . . . . . . . . .
2.2.3 Achsenparalleses Stereo und Rektifikation . . . . . . . . .
2.2.4 Drei-Ansichten-Geometrie . . . . . . . . . . . . . . . . . .
2.2.5 Mehrere-Ansichten-Geometrie . . . . . . . . . . . . . . . .
2.2.6 Axiale Geometrie . . . . . . . . . . . . . . . . . . . . . . .
2.3 Das Korrespondenzproblem . . . . . . . . . . . . . . . . . . . . .
2.3.1 Pixelbasierte Verfahren . . . . . . . . . . . . . . . . . . .
2.3.2 Merkmalsbasierte Verfahren: Feature points als Merkmale
2.3.3 Merkmalsbasierte Verfahren: Kantenpunkte als Merkmale
2.3.4 Merkmalsbasierte Verfahren: Komplexe Merkmale . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
13
13
14
16
19
19
20
22
23
25
26
29
30
33
35
38
3 Shape from Motion
3.1 Schätzung mit Methoden der Stereobildverarbeitung . . . . . . . . . . . . . .
3.1.1 Vergleich mit konventionellen stereobasierten und trifokalen Techniken
3.1.2 Aktuelle Entwicklungen . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Struktur aus dem optischen Fluss . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Berechnung der Tiefenwerte aus dem optischen Fluss . . . . . . . . . .
3.2.2 Schätzung des optischen Flusses . . . . . . . . . . . . . . . . . . . . .
3.3 Rekursive und Multi-View-Techniken . . . . . . . . . . . . . . . . . . . . . . .
3.4 Tomasi-Kanade-Faktorisation . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
43
43
44
45
47
48
52
56
4 Shape from Shading
4.1 Problemstellung . . . . . . . . . . . . . . . .
4.1.1 Reflektanzkarte . . . . . . . . . . . .
4.1.2 Reflektivitätsgleichung . . . . . . . .
4.1.3 Rekonstruktion der Flächennormalen
4.1.4 Rekonstruktion der Oberfläche . . .
4.2 Photometric Stereo . . . . . . . . . . . . . .
4.3 Aktuelle Entwicklungen . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
61
62
62
62
63
63
5 Shape from Silhouette
5.1 Berechnung der Silhouetten . . . . . .
5.2 Schätzung der Visuellen Hülle . . . . .
5.2.1 Volumenbasierte Techniken . .
5.2.2 Oberflächenbasierte Techniken
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
68
68
70
71
73
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INHALTSVERZEICHNIS
3
6 Shape from Focus/Defocus
6.1 Shape from Focus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Shape from Defocus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
77
78
7 Shape from Texture
7.1 Strukturelle Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Statistische Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Geometrische Szeneneigenschaften . . . . . . . . . . . . . . . . . . . . . . . .
80
83
84
86
8 Problembehandlung
87
9 Vergleich der Verfahren und Ausblick
89
A Literatur
92
ABBILDUNGSVERZEICHNIS
4
Abbildungsverzeichnis
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
Passive Verfahren der Tiefenschätzung . . . . . . . . . . . . . . . . . . . . . . 10
Projektion eines 3D-Punktes in zwei Bildebenen. Quelle: [POL00] . . . . . . . 11
Ein Blockdiagramm für 3D-Modellierung aus unkalibrierten Videosequenzen.
Quelle: [KIM03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Gesamtkonzept für eine stereobasierte Videosensorik. Quelle: [SUP00] . . . . 12
Man Drawing a Lute (The Draughtsman of the Lute), 1525, Albrecht Dürer.
Quelle: [POL00] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Perspektivische Projektion. Quelle: [POL00] . . . . . . . . . . . . . . . . . . . 14
Koordinatensysteme. Quelle: [AAN02] . . . . . . . . . . . . . . . . . . . . . . 15
Teilschritte der Abbildung eines 3D-Punktes aus Weltkoordinaten in einen
2D-Punkt in Pixelkoordinaten . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Unterschiedliche Arten der Kamerakalibrierung. Quelle: [WON01] . . . . . . . 17
Zwei unterschiedliche Testobjekts für Kamerakalibrierung. Quelle: [EIS02] . . 18
Epipolare Einschränkung für eine Achsparallele Geometrie: Projektion des
Punktes im linken Bild befindet sich auf der entsprechenden Epipolarlinie im
rechten Bild. Quelle: [TOE04] . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Epipolare Geometrie. Quelle: [ZHA96] . . . . . . . . . . . . . . . . . . . . . . 20
Achsenparallele Stereogeometrie. Quelle: [JIA97] . . . . . . . . . . . . . . . . 23
Rektifikation. Quelle: [AAN02] . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Epipolargeometrie für Trinokulares Stereo. Quelle: [JIA97] . . . . . . . . . . . 24
Eine Videokonferenz-Anwendung, Ergebnisse der Rekonstruktion: a) Ein binokularer Algorithmus, b) Ein trinokularer Algorithmus. Quelle: [MUL01] . . . 25
Von links nach rechts: Das erste und das letzte Bilder einer Eingangssequenz,
Tiefenkarten für einen Zwei- und Fünf-Ansichten-Schätzer. Quelle: [KOC98] . 26
Rotational Stereo Modell. Quelle: [LIN02] . . . . . . . . . . . . . . . . . . . . 27
Teiloberflächen für vier Kameraansichten. Quelle: [PAR01] . . . . . . . . . . . 27
Axiale Stereogeometrie. Quelle: [JIA97] . . . . . . . . . . . . . . . . . . . . . 28
Zuordnungsmerkmale. Quelle: [JIA97] . . . . . . . . . . . . . . . . . . . . . . 29
Beispiele für Zuordnungsmerkmale, rot: Ecken, blau: Schrittkanten, grün: Linien, gelb: Scheiben. Quelle: [BAK98] . . . . . . . . . . . . . . . . . . . . . . 30
Ein korrelationsbasiertes BM-Verfahren: zwei Eingangsbilder und die resultierende Disparitätskarte. Quelle: [MUE01] . . . . . . . . . . . . . . . . . . . . . 32
Disparitätsschätzung durch stochastische Methoden. Quelle: [SUP00] . . . . . 32
Ein auf einzelnen Pixel basierter Stereoalgorithmus: rekonstruierte 3D-Punkte
mit natürlichen Texturen (vier Ansichten ). Quelle: [BAJ98] . . . . . . . . . . 33
Beispiel eines Voronoi-Diagramms. Quelle: [TAN02] . . . . . . . . . . . . . . . 35
Ergebnisse von LofG-Filterung (rechtes Bild). Quelle: [CAN93] . . . . . . . . 38
Eingangsbild (links) und die mit Hilfe von richtungsselektiver Hough-Transformation
extrahierten Liniensegmente (rechts): Quelle: [ROU03] . . . . . . . . . . . . . 39
Originale (weiß) und geschätzte (schwarz) Linien (vergrößert): Quelle: [BAR03] 39
Aus Liniensegmenten rekonstruierte 3D-Form. Quelle: [QUA97] . . . . . . . . 40
Ein Segmentierungsalgorithmus für Navigation mobiler Roboter: Quelle: [ROU03] 41
Trainingsphase eines Objekterkennungsalgorithmus am Beispiel eines Farbtrainings. Quelle: [COE03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Ablauf der 3D-Objektrekonstuktion. Quelle: [AAN02] . . . . . . . . . . . . . 43
Ablauf der 3D-Objektrekonstuktion. Quelle: [POLaKOC00] . . . . . . . . . . 46
Ein Eingangsbild (links) und die rekonstruierte 3D-Form (rechts). Quelle: [LI03] 46
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
5
Optischer Fluss, links: Messanordnung, rechts: geschätzter optischer Fluss.
Quelle: [TOE04] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Oben: Schätzung des optischen Flusses, unten: Ermittlung der korrespondierenden Pixeln. Quelle: [TAO01] . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Aperturproblem, Objektbewegungen: sicher bestimmbare (rot), tatsächliche
(blau), ebenfalls mögliche (schwarz). Quelle: [MIE02] . . . . . . . . . . . . . . 49
a) Bild aus der Eingangssequenz, b) geschätzter optischer Fluss, c) die für die
Bewegungsschätzung verwendeten Gaborfilter-Ausgänge. Quelle: [BRU02] . . 51
Blockschaltbild für eine robuste Bewegungsschätzung mit Stereo-Methoden.
Quelle: [GRE02] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Vergleich von Verfahren zur Bewegungsbestimmung. Quelle: [HEI98] (Tabelle
verändert) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Von links nach rechts: Verschiebungs-, Verdeckungs- und eine Zuverlässigkeitskarten. Quelle: [ZHA01] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Blockdiagramm eines Algorithmes für Multi-frame-fusion. Quelle: [CHOWaCHE01] 54
Links: Das erste und das letzte Bild der Eingangssequenz, rechts: zwei synthesierte Ansichten. Quelle: [CHOWaCHE01] . . . . . . . . . . . . . . . . . . . . 55
Blockdiagramm für ein dynamisches Tiefenermittlungsverfahren. Quelle: [TAO01] 55
Links: Eingangsbild einer Videosequenz, rechts: die resultierende Tiefenkarte.
Quelle: [TAO01] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Orthographische Projektion. Quelle: [JEB99] . . . . . . . . . . . . . . . . . . 56
a) 1. und 9. Bilder der Gebäudesequenz, b) Oben- und Seitenansichten der
Rekonstruktion, 3-Eck-Figuren beschreiben Bewegung der Kameras, c) Zwei
Ansichten mit Texture-Mapping. Quelle: [HAN00a] . . . . . . . . . . . . . . . 57
Beispieleingangsbilder. Quelle: [BRE00] . . . . . . . . . . . . . . . . . . . . . 58
3D-Rekonstruktion der Oberfläche (Giraffe). Quelle: [BRE00] . . . . . . . . . 58
Tiefenrekonstruktion aus einem Grauwertbild mit SfSh-Techniken. Quelle: [TOE04] 60
Reflektanzkarte: ein 2dim Plot des Gradientenraumes (p, q) der normalisierten Bildhelligkeit einer Oberfläche als Funktion der Oberflächenorientierung.
Quelle: [BIS01] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Approximation der Oberflächennormalen mit der Iterationsmethode von Jakobi. Quelle: [IKE03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Reflektanzkarte: Eine eindeutige Lösung durch Verwendung von einer dritten
Lichtquelle mit E3(p, q). Quelle: [TOE04] . . . . . . . . . . . . . . . . . . . . 64
Navigation eines Rechteckes mit Rotation in 2D. Quelle: [KIM00] . . . . . . . 64
Vergleich zwischen zwei Verfahren; von links nach rechts: Eingangsbild, Ergebnis eines lokalen SfSh-Algorithmes, Ergebnis eines symmetriebasierten SfShAlgorithmes, Verbesserung durch ein Gesichtsmodell. Quelle: [ZHAO99] . . . 65
Fehlerrate für ein Beispielbild (Affe), psm - Photometric Stereo, sfc - Shape
from Contours, pcm adj - pcm augerichtet, merge - fusioniert. Quelle: [CHEN03] 65
Eingangsbild (links), Rekonstruierte 3D-Form (Mitte) und 3D-Form mit AlbedoKarte. Quelle: [ZHA03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Rekonstruierte Oberfläche: a) Stereo-Ergebnis b) SfSh-Ergebnis ohne einer
Neuschätzung des Lichtes c) SfSh-Ergebnis nach der Neuschätzung des Lichtes.
Quelle: [SAM00] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Form aus Selbstschatten: Effekte von unterschiedlichen Rauscharten. Quelle:
[DAU98] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Vergleich der Laser-Scan- (links) und Shadow-Carving-Methoden (rechts). Quelle: [SAV02] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
6
Ein hypothetischer Aufbau für die Aufnahme von dynamischen Szenen. Quelle:
[BUE99] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Die Schnittpunkte von drei Grenzenkonen definieren die visuelle Hülle des
Objektes. Quelle: [BUE99] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Orthographische Silhouetten, Ansichtsrichtungen sind parallel zur gleichen
Ebene. Quelle: [BOT03] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Voxelrepräsentation der AND-Operation für vier Silhouetten für vier Auflösungen der Voxelgitter(83 , 163 , 323 , 643 ,). Quelle: [HAS03] . . . . . . . . . . . . . 71
Ergebnis der 3D Rekonstruktion nach dem Marching-Cubes-Verfahren für verschiedene Größen von Voxelgitter (83 , 163 , 323 , 363 ). Quelle: [HAS03] . . . . . 72
Eine einzelne Scheibe einer bildbasierten visuellen Hülle. Quelle: [BUE99] . . 74
Zwei flat-schattierte Ansichten einer polyhedralen visuellen Hülle. Quelle: [MAT02] 74
Dinosaurier-Banana-Sequenz (6 Kameras) a) Eingangsbild b) Unsortierte CSP
aus allen Bildern c) Sortierte CSP d) SfSi-Modell aus 6 Bildern e) SfSi-Modell
nach 36 Bildern f) SfSi-Modell nach 90 Bildern. Quelle: [CHE03a] . . . . . . . 75
Linsenmodell. Quelle: [FAV03] . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Normierte Übertragungsfunktion im Frequenzraum, H(ρ) entspricht H(Ωr ) . 77
Ein Beispiel für Depth from Defocus aus zwei Bildern. Quelle: [WAT98] . . . 78
Blockdiagramm für eine mögliche Kombination von SfF- und SfS-Techniken.
Quelle: [LIN02] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Tiefenschätzung aus zwei Bildern mit einer DfD-Technik a), b) Originalbilder
c) Geschätzte Tiefe. Quelle:[ZIO99] . . . . . . . . . . . . . . . . . . . . . . . . 80
Der DfD-Algorithmus, angewendet auf eine reale Szene mit komplexen Texturen. Quelle: [WAT98] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Tiefeninformationen werden durch Größenänderung der Textur vermittelt.
Quelle: [BIS01] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Forminformationen aus der Verzerrung von Texeln. Quelle: [BIS01] . . . . . . 82
Ein Beispiel für eine natürliche Textur. Quelle: [BIS01] . . . . . . . . . . . . . 83
Tatsächliche und rekonstruierte Oberflächen. Quelle: [FOR01] . . . . . . . . . 84
Schätzung lokaler Oberflächenorientierung für ein synthetisches Bild mit planarer Oberfläche und 5 Prz. Rauschen (links), mit zylindrischer Oberfläche
und 25 Prz. Rauschen (Mitte) und für ein reales Bild mit planarer Oberfläche
(rechts). Zeilen von oben nach unten: a) Graubild, b) detektierte Flecken, c)
tatsächliche und d) geschätzte Oberflächenorientierung. Quelle: [GAR94] . . . 85
Schätzung lokaler Oberflächenorientierung für ein synthetisches (oben) und ein
reales Bild (unten) aus Gradienten der horizontalen Disparität. Spalten von
links nach rechts: a)-b) Graubild-Stereopaare c) geschätzte und d) tatsächliche
Oberflächenorientierung. Quelle: [GAR94] . . . . . . . . . . . . . . . . . . . . 86
SfT-Problem mit Wavelets: das originale (oben) und das rekonstruierte (unten)
Bilder. Quelle: [CLE99] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Geometrische Szeneneigenschaften. Quelle: [BIS01] . . . . . . . . . . . . . . . 87
Analysis-Synthese-Schleife. Quelle: [EIS03a] . . . . . . . . . . . . . . . . . . . 88
Ablauf eines auf mehreren Ansichten basierten Suchalgorithmus. Quelle: [KAN01] 88
Vergleich der Algorithmen von [KAN01] (links) und [AGR03] (rechts) . . . . 89
Eine Weltraum-Szene. Quelle: [MOY00] . . . . . . . . . . . . . . . . . . . . . 89
Flussdiagramm für einen automatischen Rekonstruktionsalgorithmus. Quelle:
[MOY00] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Übersicht über die verwendeten Literaturquellen . . . . . . . . . . . . . . . . 92
7
Teil I
Symbole und Abkürzungen
a
A
b
~b(x, y, z)
Bi
C
d
di
d(j)
D
E
f
F(x, y)
Fout
F
g(x, y)
Gσ (x, y)
h(r)
H(Ωr )
I(x, y)
I(i, j)
Ii (x, y, z)
Ii , Ia
ku , kv
K
~l(x, y, z)
li sowie Lij
m = (x, y)T
m0
MKam,i
M = (X, Y, Z)T
~n(x, y, z)
pi
Pi
P
q
r
rd
R
R(p, q)
Ri (p, q)
R
Konstante
Intrinsische Matrix
Basislänge
Betrachter- bzw. Kamerarichtung
Bildebene
optisches Zentrum der Kamera
Tiefenvariable
Abstand des Bildpunktes Pi von dem Bildzentrum
Abstand des j.ten gefundenen Punktes von seiner tatsächlichen Position
Extrinsische Matrix
Essential-Matrix
Brennweite
Eingangsbild
Filterausgang
Fundamental-Matrix
Flächenfunktion
Gauß-Funktion
Impulsantwort
Fouriertransformierte der Impulsantwort h(r)
Intensitätswert
Bildintensität
Eingangsintensität des Lichtes an einem Punkt P (x, y, z)
Anzahl der Kantenpunkte
Skalierungsfaktoren
Perspektivische Projektionsmatrix
Licht- bzw. Beleuchtungsrichtung
Epipolarlinien
2D-Projektion eines Punktes in die Bildebene
2D-Projektion des Punktes in die Sensorebene
3D-Punkt in Kamerakoordinaten
3D-Punkt in Weltkoordinaten
Flächennormale
2D-Projektionen in die Bildebene
3D-Punkt
allgemeine perspektivische Projektionsmatrix
vertikale Kameraverschiebung
Unschärferadius
radiale Linsenverzerrung
Bildebene
Reflektanz- bzw. Reflektivitätskarte
Iso-Intensitätskonturen
Rotationsmatrix
8
s
SW , S I
t
[tx ]
Tj
v
v = (u, v)T
vm0
Vk
(x, y)
(xd , yd )
z
zmin , zmax
α
δx , δ y
(∆x, ∆y)T
γ(x, y)
κ
λ
∇2
ω
Φ, Φ(~n, ~l, ~b)
ψi
ρ
σ
υ
BM
CSP
DLT
FIS
FOM
LmedS
LofG
MAD
MSE
RANSAC
SfD
SfF
SfM
SfS
SfSh
SfSi
SfT
Skalierungsfaktor
Texelfläche
Translationsvektor
antisymmetrische Matrix des Translationsvektors
Filtermaske
Bildabstand bzw. Kamerakonstanten
optischer Fluss, Geschwindigkeit
Flussvektor an der Stelle m0 = (x0 , y0 )
Grenzpyramide
Bildkoordinaten
Verzerrte Bildkoordinaten
Tiefe
minimale und maximale Tiefe
Reflexionskonstante
Linsenverzerrungsanteile
Verschiebungsvektoren
Fehlerminimierungsfunktion
Gewichtungsfunktion
Kamerakonstante
Regularisierungsparameter
Laplace-Operator
Rotationsgeschwindigkeit
Reflexionsfunktion
Winkel zwischen der Lichtrichtung und der Flächennormalen
Albedo
Standardabweichung
Translationsgeschwindigkeit
Blockmatching
Colored Surface Points
Direkte Lineare Transformation
Focused Image Surface
Pratt’s Figure-of-Merit
Least-Median-of-Squares
Laplacian-of-Gaussian
Mittlerer absoluter Fehler
Mittlerer quadratischer Fehler
Random Sample Concensus
Structure from Defocus, Shape from Defocus
Structure from Focus, Shape from Focus
Structure from Motion, Shape from Motion
Structure from Stereo, Shape from Stereo
Structure from Shading, Shape from Shading
Structure from Silhouette, Shape from Silhouette
Structure from Texture, Shape from Texture
1
1
EINFÜHRUNG
9
Einführung
Gewinnung von Tiefeninformationen aus Videosequenzen ist ein wichtiger Bereich der Forschung, für den sich immer mehr Anwendungsgebiete finden. Im Vergleich zu den so genannten aktiven Verfahren der Tiefenschätzung wird bei der Bildverarbeitung kein direktes
Eingreifen in die Szene (Energie wird aufgewendet) benötigt, was den Messaufbau vereinfachen kann. Die Hardware hier besteht aus einigen konventionellen Kameras und PC-s und
ist somit billiger. Ein weiterer Vorteil ist die Möglichkeit der Auswertung von bereits aufgenommenen Sequenzen, was bei den aktiven Techniken nicht möglich ist.
Das erklärte Ziel der Tiefenschätzung ist eine schnelle Berechnung der detaillierten 3D-Form
aus Videosequenzen für dynamische reale Szenen, obwohl es für manche Anwendungen bereits
ausreichend ist, einfache Entfernungsmessungen durchzuführen oder nur grobe Tiefenkarten
zu erstellen. Zu den bestehenden Entwicklungsrichtungen zählen z. B.:
- Direkte und indirekte Tiefenmessung für Roboter Navigation [PEN03], [PER03], [MOY00]
- Verarbeitung von Tiefenkarten für Objekterkennung in der Automatisierung [ROU03],
[COE03]
- Automatische Vermessung und Qualitätskontrolle [GUP03]
- Komprimierung von Bilddaten für die Übertragung [SCHA03]
- Synthese neuer Ansichten und Objektmanipulation in der virtuellen Realität [SCH03a]
- Klassische Techniken der Bildverarbeitung [MIS03]
Zur Lösung dieses Problems führen mehrere Wege, angefangen von monokularen Techniken
bis zu auf Methoden, die auf mehreren Ansichten auf ein Objekt basiert sind (siehe Abbildung 1). Die sämtlichen Bildverarbeitungsverfahren haben menschliche Tiefenwahrnehmung
als Grundlage, welche die verschiedenne Tiefenhinweise zu einem 3D-Bild integriert. Schattierungen und Texturen liefern z. B. Informationen über Oberflächenorientierungen, das binokulare Stereosehen und die Bewegungsanalyse erlauben es, die absoluten Abstände zu ermitteln.
Die noch relativ kleinen Rechenleistungen erlauben es zur Zeit noch nicht, maschinelle EchtzeitAnwendungen mit einer guten Auflösung oder ausreichenden Qualität zu präsentieren, aktuelle Entwicklungen sind aber viel versprechend und bestimmen die Richtungen der zukünftigen
Forschung.
Diese Studienarbeit bietet einen Überblick über aktuelle Verfahren zur Gewinnung von dreidimensionalen Informationen aus zweidimensionalen Videosequenzen, strukturiert nach den
sechs generellen Entwicklungsgebieten. Zu jedem Thema werden die theoretischen Hintergründe erörtert sowie die bestehenden Anwendungen benannt und ausgewertet. Die der Abhandlung zu Grunde liegende Literaturrecherche umfasst 210 englisch- und deutschsprachige
Quellen aus den letzten dreißig Jahren, vorwiegend aus dem Zeitraum 1994-2004.
Zur Gliederug der Arbeit:
Kapitel 2 gibt eine Einführung in die Stereobildverarbeitung - den wichtigsten Bereich von
Computer Vision. Hier werden sowohl die theoretischen Grundlagen der Tiefenberechnung aus zwei Bildern wie das Stereokamerasystem, die Epipolargeometrie, das Korrespondenzproblem behandelt als auch einige praktische Implementierungen beschrieben.
1
EINFÜHRUNG
10
Für eine Vertiefung in das Thema werden hier [SCH03], [JIA97] und [ZHA96] empfohlen.
Kapitel 3 ist dem Problem der Tiefenschätzung aus der Bewegung gewidmet. In der Abhandlung werden die grundlegenden theoretischen Gedanken wie die Strukturberechnung aus dem optischen Fluss, Rekursivität, Tomasi-Kanade-Faktorisation kurz erörtert
und ihre praktische Realisierung in den bestehenden Anwendungen besprochen. Als gute Übersichtsarbeiten können hier [JEB99], [POL00] und [AHR00] genannt werden.
Kapitel 4 behandelt die schattierungsbasierte Tiefenschätzung, ein Verfahren, bei dem die
Oberflächenorientierung direkt aus der Grauwertverteilung im Bild gewonnen wird. Die
Grundlagen der Berechnung wie die Reflektanzkarte, die Reflektivitätsgleichung, die
Rekonstruktion von den Flächennormalen und der Oberfläche werden beschrieben und
mit den bestehenden Entwicklungen in Beziehung gesetzt. Als weiterführende Literatur
sind hier [KLE98] und [ZHAO99] zu empfehlen.
Kapitel 5 beschreibt die aktuellen volumen- und oberflächenbasierte Methoden zur Berechnung von 3D-Informationen aus den Objektsilhouetten. Als vertiefende Literatur können
[NIE99] und [WON01] genannt werden.
Kapitel 6 führt in das Thema der Tiefenschätzung aus mehreren defokussierten Bildern ein.
Weiterführende Quellen sind [LIU98] und [WEI94].
Kapitel 7 gibt einen Überblick über die nur begrenzten Möglichkeiten der Gewinnung von
3D-Informationen aus der Textur. Für eine Vertiefung in das Thema kann [BIS01]
empfohlen werden.
Kapitel 8 zeichnet die Möglichkeiten der Verbesserung der Rekonstruktionsqualität kurz
auf.
Kapitel 9 führt einen Vergleich der Verfahren durch und gibt einen Ausblick auf die zukünftigen Entwicklungsrichtungen.
Abbildung 1: Passive Verfahren der Tiefenschätzung
2
2
SHAPE FROM STEREO
11
Shape from Stereo
Das Verfahren der Stereobildverarbeitung besteht darin, aus zwei (oder mehreren) gegebenen Ansichten auf ein Objekt oder eine Szene bei bekannten Kameraparametern Korrespondenzpunkte zu bestimmen und aus deren Disparitäten durch eine einfache Triangulation die
Tiefen der Punkte zu berechnen. Ein Beispiel für die Projektion eines 3D-Punktes auf zwei
2D-Punkte in zwei Bildebenen ist in der Abbildung 2 zu sehen, C und C 0 sind dabei optische
Zentren der zwei Kameras.
Abbildung 2: Projektion eines 3D-Punktes in zwei Bildebenen. Quelle: [POL00]
Dieses Vorgehen wurde den biologischen Vorbildern entnommen bzw. nachempfunden: Fast
alle Lebewesen bedienen sich beim Sehen (inklusive Weiten- bzw. Tiefenermittlung) zweier
gleichzeitig aufgenommenen Bildersequenzen mit Kontextinformationen wie bewegt/unbewegt,
Farbe, Objektzuordnung usw. Genauso werden für die maschinelle Stereobildverarbeitung
auch Zusatzinformationen benötigt, wie z. B. die Parameter einer konkreten Kameraanordnung (Schätzung über Kamerakalibrierung), Kenntnis über Bildinhalte oder Rauschsituation
und Ähnliches. Ein allgemeines Blockdiagramm für eine 3D-Modellierung auf der Grundlage
von unkalibrierten Stereosequenzen ist in der Abbildung 3 gegeben.
Als Beispiel für den Ablauf eines rein stereobasierten Tiefenermittlungsverfahrens (ohne Bewegungsschätzung, Texturanalyse wird für Bildsegmentierung verwendet) kann das Konzept
der stereobasierten Videosensorik von den Autoren von [SUP00] angegeben werden (Abbildung 4). Eine Weiterentwicklung des Verfahrens mit Wiederverwendung bei der Berechnung von bereits errechneten 3D-Daten aus früheren Bildern (eine Kombination mit Bewegungsschätzung) wurde später unter anderem in [GRE02] präsentiert.
Das zentrale und das schwierigste Problem der Stereobildverarbeitung stellt das Korrespondenzproblem dar, welches die für eine Anwendung geeignete Auswahl und die Detektion von
Zuordnungsmerkmalen (von Pixel über Kantenpunkte, Liniensegmente bis zu Objekten) und
Zuordnungsverfahren (pixel- oder merkmalbasiert) umfasst. Da in einem Bild fast immer
Problembereiche enthalten sind wie homogene oder spiegelnde Oberflächen, Verdeckungen,
2
SHAPE FROM STEREO
12
Abbildung 3: Ein Blockdiagramm für 3D-Modellierung aus unkalibrierten Videosequenzen.
Quelle: [KIM03]
Abbildung 4: Gesamtkonzept für eine stereobasierte Videosensorik. Quelle: [SUP00]
2
SHAPE FROM STEREO
13
periodische Muster, nicht unterscheidbare Objekte oder unterschiedliche Sichtbereiche, ist
das Finden der richtigen Korrespondenzen für gewöhnlich nur für bestimmte, charakteristische Merkmale relativ einfach.
Für die vorliegenden Korrespondenzen werden die Tiefeninformationen ausgerechnet, diese Berechnung wird überprüft, ggf. finden eine Nachbearbeitung und eine Interpolation des
Ergebnisses auf das restliche Tiefenbild statt. Da immer mit Helligkeitsinformationen oder
deren Sprüngen gearbeitet wird, bedeuten ein Unterschied in der Beleuchtung der Szene oder
Rauschen des Bildes eine Erschwerung der Korrespondenzsuche, weshalb eine Vorverarbeitung des Bildes (eine Grauwertanpassung, ein Rauschfilter usw.) oft sinnvoll ist.
Den mathematischen Hintergrund für alle Berechnungen liefern das Kameramodell, die Koordinatentransformationen und die Epipolargeometrie. Im Weiteren wird hier im Wesentlichen
den Darstellungen von [SCH03] und [ZHA96] gefolgt.
2.1
2.1.1
Das Stereokamerasystem
Das Lochkameramodell
Als Kameramodell wird im Allgemeinen das in allen Standardwerken beschriebene Lochkameramodell (Abbildung 5) verwendet. Ein 3D-Punkt M = (X, Y, Z)T wird hierbei auf den
Schnittpunkt m = (x, y)T des Projektionsstahles mit der Bildebene R abgebildet. Das optische Zentrum C der Kamera ist die Position der Lochblende, die optische Achse ist der
Projektionsstrahl, der senkrecht auf der Bildebene steht. Die Bildebene selbst befindet sich
in einem Abstand f (die Brennweite) hinter bzw. in manchen Darstellungen vor der Lochblende (Abbildung 6).
Abbildung 5: Man Drawing a Lute (The Draughtsman of the Lute), 1525, Albrecht Dürer.
Quelle: [POL00]
2
SHAPE FROM STEREO
14
Abbildung 6: Perspektivische Projektion. Quelle: [POL00]
2.1.2
Koordinatentransformationen
Die Projektion eines 3D-Punktes aus den Weltkoordinaten in die Bildebene (Abbildung 7)
wird für gewöhnlich als eine Reihe von Koordinatentransformationen beschrieben, und zwar
als externe, perspektivische und interne Transformationen.
Die Externe Transformation beschreibt die euklidische Abbildung des Weltkoordinatensystems mit seinem Ursprung in das Kamerakoordinatensystem mit einem neuen Ursprung,
dabei werden eine Rotation R und eine Translation t durchgeführt, der Punkt MKam bleibt
dreidimensional (Darstellung in homogenen Koordinaten):
R t
MKam =
M = DM
(1)
0T3 1
Die Matrix D heißt Extrinsische Matrix und enthält die externen
1
Parameter der Kamera.
Die Perspektivische Transformation überführt den 3D-Punkt MKam aus dem Kamerakoordinatensystem in das 2D-Sensorkoordinatensystem (mit der Projektion m0 ), dabei findet eine
Verzerrung von Längen, Winkeln, Verhältnissen in der Szene statt, die parallelen Geraden
können sich schneiden (Abbildung ??):


f 0 0 0
sm0 =  0 f 0 0  MKam = KMKam
(2)
0 0 1 0
Die Matrix K ist die Perspektivische Projektionsmatrix, s ist ein Skalierungsfaktor.
1 Position,
Ausrichtung
2
SHAPE FROM STEREO
15
Abbildung 7: Koordinatensysteme. Quelle: [AAN02]
Die nachfolgende Interne Transformation bildet den noch reellen 2D-Punkt in die diskreten
Pixelkoordinaten ab. Es finden hierbei eine vertikale (Faktor kv ) und eine horizontale (Faktor
ku ) Skalierungen und eine Verschiebung in den Ursprung des Bildkoordinatensystems (u0 , v0 )
statt:


hu 0 u 0
sm =  0 hv v0  m0 = Am0
(3)
0
0
1
Die Matrix A beinhaltet die internen Kameraparameter und heißt Intrinsische Matrix, die
Skalierungsfaktoren dabei werden wie folgt berechnet: hu = ku f und hv = kv f .
Die Abbildung eines 3D-Punktes aus den Weltkoordinaten in die 2D-Pixelkoordinaten wird
durch die Transformationen eindeutig (bis auf einen Skalierungsfaktor) beschrieben:
sm = Am0 =
1
1
1
AKMKam = ADM = PM
s
s
s
(4)
mit P = A [Rt] - allgemeine perspektivische Projektionsmatrix
Nach der Eliminierung des Skalierungsfaktors erhält man zwei nichtlineare Gleichungen für
die Bildkoordinaten x und y:
x=
p11 X + p12 Y + p13 Z + p14
p31 X + p32 Y + p33 Z + p34
(5)
y=
p21 X + p22 Y + p23 Z + p24
p31 X + p32 Y + p33 Z + p34
(6)
Um noch zusätzlich die Linsenverzerrung zu berücksichtigen, die entsteht, da die Brennweite
endlich (sogar klein) ist und die am Bildrand gekrümmte Kanten liefert, wird meistens eine
vierte, nichtlineare Transformation durchgeführt, die die unverzerrten (x, y) in die verzerrten
Bildkoordinaten (xd , yd ) abbildet und so die Verzerrung ausgleicht:
x = xd + δx ,
y = yd + δy
(7)
2
SHAPE FROM STEREO
16
Die δ dabei enthalten
die radialen (li ) und die tangentialen (gi ) Verzerrungsanteile und werp
den mit rd = x2d + yd2 und L = Konstante wie folgt angegeben:
δx = xd (l1 rd2 + l2 rd4 + L) + (1 + g3 rd2 + L) g1 (rd2 + 2x2d ) + 2g2 xd yd
δy = yd (l1 rd2 + l2 rd4 + L) + (1 + g3 rd2 + L) g2 (rd2 + 2yd2 ) + 2g1 xd yd
(8)
(9)
Meistens ist es ausreichend, nur den jeweils ersten Koeffizienten der radialen Verzerrung zu
schätzen, die tangentiale Verzerrung wird oft gar nicht beachtet:
x = xd (1 + l1 rd2 ), y = yd (1 + l1 rd2 )
(10)
Abschließend werden in der nachfolgenden Grafik (Abbildung 8) nochmals die Teilschritte der
Abbildung eines 3D-Punktes aus reellen Weltkoordinaten in die diskreten 2D-Bildkoordinaten
zusammengefasst.
Abbildung 8: Teilschritte der Abbildung eines 3D-Punktes aus Weltkoordinaten in einen 2DPunkt in Pixelkoordinaten
2.1.3
Kalibrierung der Videokameras
Die so genannten extrinsischen Kameraparameter beschreiben Position und Ausrichtung einer Kamera und sind von Anfang an nicht bekannt, die intrinsischen Sensorparameter beschreiben die internen Eigenschaften des Sensors wie die Brennweite, den Brennpunkt, Skalierungsfaktoren und können zwar theoretisch dem Datenblatt entnommen werden, sind aber
2
SHAPE FROM STEREO
17
durch Fehler in der Optik und Fertigungsfehler ungenau. Somit ist eine Schätzung der Kameraparameter (Kamerakalibrierung) für die meisten bildbasierten Tiefenermittlungsverfahren
notwendig. Einen aktuellen Überblick über unterschiedliche Verfahrensarten gibt [WON01]
(Abbildung 9).
Abbildung 9: Unterschiedliche Arten der Kamerakalibrierung. Quelle: [WON01]
Klassische Kalibrierungstechniken (Kalibrierung mit einem Testobjekt und einem Kalibrierungsgitter ) beinhalten eine lineare oder nichtlineare Optimierung mit einer großen Anzahl
von Parametern. Trotz der Existenz von adoptivfähigen genauen Kameramodellen erfordern
diese Methoden eine geeignete Initialisierung und sind sehr rechenaufwendig. Ein typischer
Vertreter ist das Verfahren von Abdel-Aziz und Karara [ABD71], die die Direkte Lineare
Transformation (DLT) eingeführt haben. Diese Kalibrierungsmethode berücksichtigt zwar
keine Linsenverzerrungen, ist aber eine der bekanntesten. Die von Tsai entwickelte Technik
[TSA87] zieht auch die Linsenverzerrungen in die Berechnung ein und wird bei stereobasierten Techniken sehr oft eingesetzt. Der Ablauf sieht bei diesen konventionellen Methoden
allgemein wie folgt aus:
1. Ein geeignetes Testobjekt (Beispiele in 10) mit einer bekannten 3D Geometrie wird ausgewählt: Die Position der 2D-Merkmale (Kreise, Kreuze usw.) auf der Objektoberfläche
ist in Weltkoordinaten bekannt.
2. Bilder vom Objekt werden aufgenommen und die Zugehörigkeit der Merkmale in den
Weltkoordinaten und in den Bildkoordinaten wird bestimmt.
3. Die unbekannten Kameraparameter werden anhand der Merkmalkorrespondenzen entweder einzeln oder aus der allgemeinen Projektionsmatrix geschätzt und linear oder
nichtlinear optimiert.
Eine der wenigen echtzeitfähigen Anwendungen aus dem Bereich ist das Verfahren von Ansar
und Daniilidis [ANS03] zur linearen Schätzung der Kameraposition aus einem Bild mit n
Punkten oder n Linien mit bekannten Korrespondenzen.
Eine interessante Technik ist die modellbasierte Kamerakalibrierung von Eisert [EIS02], der
das Analysis-by-Synthese-Verfahren zugrunde liegt. Hier wird eine rekursive Schätzung der
Sensorparameter anhand der Übereinstimmung von realen und mit diesen geschätzten Parametern berechneten Aufnahmen eines bekannten 3D-Objektes durchgeführt. Die Schätzung
ist zwar aufwendig, liefert aber robuste und akkurate Ergebnisse.
Im Allgemeinen kann man sagen, dass für eine genaue und robuste Kamerakalibrierung mit
diesen Algorithmen ein großer Rechenaufwand notwendig ist. Die Qualität der Schätzung
2
SHAPE FROM STEREO
18
Abbildung 10: Zwei unterschiedliche Testobjekts für Kamerakalibrierung. Quelle: [EIS02]
der Kameraparameter ist dabei hochgradig abhängig von der Genauigkeit der Bestimmung
der Positionen der Merkmalsobjekte. Die Zugehörigkeitsbestimmung muss einfach und die
Anzahl der Merkmalspunkte nicht zu hoch sein, da die Berechnungen sonst zu lange dauern.
Ein weiteres Problem ist es, dass gerade die Merkmalspunkte, welche die meiste Information
über die Linsenverzerrungen oder die Brennweite liefern, schwierig zu behandeln sind, da sie
sich an Rändern des Testobjektes befinden.
Caprile und Torre haben in [CAP90] gezeigt, dass unter bestimmten Voraussetzungen die
Kalibrierung einer Kamera mit Hilfe der so genannten Vanishing Points möglich ist, welche
drei zueinander orthogonalen Richtungen zugeordnet werden. Im Gegensatz zu traditionellen
Kalibrierungstechniken erfordert diese Methode nur das Vorhandensein von einigen speziellen
Strukturen und keine exakte Kenntnis derer Geometrie. Eine sehr interessante und zeitsparende Technik der Selbstkalibrierung für Videosequenzen liefert Lv in seinem Artikel [LV02].
Das Verfahren basiert auf einfachen Beobachtungen der Szene und erfordert keine genauen
Messungen der Epipolargeometrie. Die Kameraparameter werden hier aus der Gehbewegung
von Menschen geschätzt, einer Situation, die fast für alle Videoaufnahmen typisch ist. Die
von Wong [WON01] entwickelte Technik Calibration from Surfaces of Revolution führt eine
schnelle und robuste Schätzung der intrinsischen Kameraparametern über zwei oder mehr
Objektsilhouetten von Rotationskörpern durch, die oft auch in reellen Bildern (Glas, Vase,
Ball) vorhanden sind.
Die Theorie der Self-Calibration haben Maybank und Faugeras in [MAY92] eingeführt, die
die Beschreibung der Beziehung zwischen Kamerakalibrierung und epipolaren Transformation mit Hilfe von Absolute Conic etabliert haben. Basierend auf der von Triggs gefundenen Formulierung des Problems über Absolute Quadric [TRI97] hat Pollefeys [POL00],
[POLaKOC99] eine praktikable Technik für Selbstkalibrierung für mehrere Kameras entwickelt. Andere Arbeiten aus dem Gebiet der Selbstkalibrierung beinhalten auch Einschränkungen der Kamerabewegungen wie z. B. nur Rotation [AGA99] oder nur planare Bewegung
[ARM96]. Die Selbstkalibrierungsmethoden sind besonders für die Anwendungen wichtig, die
mit bereits aufgenommenen Bildern arbeiten und bei denen keine direkte Sensorkalibrierung
mehr möglich ist, einen Überblick über gängige Methoden bietet [FUS00].
Auf das Problem von kritischen Bewegungen, die zu Abweichungen bei automatischen Kamerakalibrierungen und entsprechend zu Mehrdeutigkeiten für euklidische Szenenrekonstruktionen führen, gehen Kahl und Triggs in [KAH99] und [KAH00] ein.
2
SHAPE FROM STEREO
2.2
19
Epipolargeometrie
Die Epipolargeometrie ist ein wichtiges Hilfsmittel der Korrespondenzsuche, das den Zusammenhang zwischen zwei Kameras beschreibt und die Suche im ganzen Bild auf die Suche
auf einer einzigen Linie reduziert, der Epipolarlinie. Korrespondierende Bildpunkte, d. h.,
Projektionen eines und desselben 3D-Szenenpunktes in die linke und rechte Bildebene, liegen
auf den entsprechenden Epipolarlinien des anderen Bildes (Abbildung 11).
Abbildung 11: Epipolare Einschränkung für eine Achsparallele Geometrie: Projektion des
Punktes im linken Bild befindet sich auf der entsprechenden Epipolarlinie im rechten Bild.
Quelle: [TOE04]
Die allgemeine Definition der epipolaren Geometrie für einen konvergenten Kameraaufbau
wird im folgenden Abschnitt beschrieben (Darstellung nach [SCH03]).
2.2.1
Konvergente Stereogeometrie
Um Epipolarlinien zu ermitteln, werden die optischen Zentren beider Kameras verbunden:
Die Schnittpunkte sind Epipole. Durch die zwei Epipole in beiden Bildebenen und den 3DPunkt wird eine neue Ebene, die Epipolarebene, gelegt. Die Schnittlinien dieser Ebene mit
beiden Bildebenen sind die Epipolarlinien (Abbildung 12).
Die Essential-Matrix E beschreibt die euklidische Transformation von Kamera 2 nach Kamera
1 und liefert die Epipolargeometrie in Kamerakoordinaten:
T
MKam1
EMKam2 = 0
(11)
E = [tx ]R
(12)
Mit
Dabei ist [tx ] die antisymmetrische Matrix des Translationsvektors t.
Die Epipolargeometrie in Pixelkoordinaten wird durch die Fundamental-Matrix F vollständig
wieder gegeben, da die Matrix sowohl die extrinsischen als auch die intrinsischen Parameter
der beiden Kameras beinhaltet:
−1
F = A−T
(13)
1 EA2
2
SHAPE FROM STEREO
20
Abbildung 12: Epipolare Geometrie. Quelle: [ZHA96]
Die zentrale Gleichung der Epipolargeometrie ist die Epipolargleichung:
mT
1 Fm2 = 0
(14)
Der Vollständigkeit halber werden hier auch Gleichungen für die Epipolarlinien l1 und l2 in
beiden Bildern angegeben:
l1 = Fm2
2.2.2
l2 = FT m1
und
(15)
Schätzung der Stereogeometrie
Da die Fundamentalmatrix meistens nicht bekannt ist, wird sie aus einigen bekannten Punktkorrespondenzen geschätzt. Dazu wird die Epipolargleichung als eine lineare homogene Gleichung mit den neun unbekannten Koeffizienten der Fundamentalmatrix umgeschrieben:
wT f = 0
(16)
Mit
w = (x1 x2 ,
x1 y2 ,
x1 ,
y1 x2 ,
y 1 y2 ,
y1 ,
x2 ,
y2 ,
1)T
(17)
F33 )T
(18)
und
f = (F11 ,
F12 ,
F13 ,
F21 ,
F22 ,
F23 ,
F31 ,
F32 ,
Für N gegebene Korrespondenzen kann ein lineares Gleichungssystem aufgestellt werden:
 T 
w1
 .. 
WN f = 0 mit WN =  . 
(19)
T
wN
Dieses Gleichungssystem ist die Grundlage für mehrere Methoden zur Schätzung der Epipolargeometrie, die im Weiteren vorgestellt werden (Darstellung nach [ZHA96] und [SCH03]).
I. Analytische Verfahren oder Acht-Punkt-Algorithmen
2
SHAPE FROM STEREO
21
Diese Gruppe der Verfahren findet eine analytische Lösung des Gleichungssystems, wofür sie
acht (oder auch sieben) bekannte Punktkorrespondenzen und Zusatzbedingungen benötigt.
Das Gütekriterium ist die Epipolargleichung selbst und zwar als folgender Ansatz:
2
min WN f (20)
f
Abhängig davon, welche Zusatzbedingungen in die Berechnung einfließen, werden verschiedene Techniken für die Lösung des Minimierungsproblems eingesetzt:
Linear-Least-Squares-Technique (siehe auch [CHOJ02], [CHOJ01] und [OLI01]) Ein Koeffizient der F-Matrix wird auf 1 gesetzt und das so reduzierte Gleichungssystem wird
mittels Least-Squares-Technique durch die Bestimmung der 1. Ableitung gelöst. Das
Gleiche wiederholt sich für alle neun Koeffizienten, da es im Voraus nicht bekannt ist,
wie groß sie sind und Fehler entstehen können, wenn ein sehr kleines Koeffizient auf 1
gesetzt ist. Die so erhaltene Lösung wäre zwar arithmetisch korrekt, aber geometrisch
katastrophal.
Eigenwert-Analyse Hier wird als Randbedingung die Norm des Vektors f festgelegt, das
Minimierungsproblem wird unter Verwendung des Lagrange-Mulitplikators auf ein Eigenwertproblem zurückgeführt, die als Lösung den Eigenvektor mit dem kleinsten Eigenwert hat.
Normalisierte Eingangsdaten Die größte Instabilität einer numerischen Punktberechnung tritt beim direkten Einsetzen von Pixelkoordinaten, was zu einigen Vorschlägen
führte (Beschreibung in [ZHA98]), eine einfache Normalisierung der Eingangsdaten einzuführen. Die Ergebnisse waren aber nicht so gut, dass sich diese Verfahren (Isotrope
Skalierung, Normalisierung mit teilweise bekannten Kameraparametern usw.) durchsetzen konnten.
Der große Nachteil der analytischen Verfahren ist die Nichtbehandlung der falsch oder ungenau berechneten Korrespondenzen, welche zu größeren Abweichungen bei der Berechnung
der Schätzungsfehler führen, als bei allen anderen Techniken.
II. Iterative Verfahren
Lineare Optimierung Bei dieser Art der Verfahren wird es versucht, den Einfluss von
fehlerhaften Korrespondenzen auf die Berechnung der Epipolargeometrie zu minimieren, indem man eine mit analytischen Methoden geschätzte Fundamentalmatrix weiter
verbessert. Das kann z. B. dadurch geschehen, dass man die Punktkorrespondenzen
entsprechend ihren Abstand zu der mit der geschätzten Fundamentalmatrix berechneten Epipolarlinien gewichtet und diese Gewichtung so lange iterativ optimiert, bis die
Schätzung besser wird. Nachteilig bei dieser Art der Optimierung ist, dass die die so
genannten Ausreißer (falsche Korrespondenzen) nicht genügend berücksichtigt werden:
Die kleinen Abweichungen bei der Punktzuordnung haben keinen großen Einfuß auf
das Ergebnis der Optimierung, die größeren führen zu sehr schlechten Ergebnissen.
Nichtlineare Optimierung oder Robuste Methoden Hierbei handelt es sich um Techniken, bei denen die Ausreißer aus der eigentlichen Schätzung durch Eliminierung oder
eine kleinere Gewichtung ausgenommen werden. Beispiele sind Least-Median-of-Squares
(LmedS), Random Sample Concensus (RANSAC), M-Estimator. Im Allgemeinen sind
diese Techniken viel genauer, als die snalytischen oder Methoden der linearen Optimierung (laut dem Vergleich von [ZHA98] Faktor 5 bis 40). Sie sind aber gleichzeitig
langsamer (Faktor 3 bis 20).
2
SHAPE FROM STEREO
22
Die Chowdhury und Roy geben in [CHOJ01] und [CHOJ02] eine neue einfachere Betrachtungsweise zur begrenzten Parameterschätzung wieder, die eigentlich auf alle Minimierungsprobleme anwendbar ist und in ihrer Abhandlung am Beispiel der Fundamental-MatrixSchätzung eingeführt wurde. In Gegensatz zu vielen anderen theoretischen Arbeiten in dem
Bereich erlaubt die in dem Artikel beschriebene Vorgehensweise eine gleichzeitige Minimierung der Kostenfunktion und eine Einhaltung der Einschränkungen und liefert sehr schnelle
und genaue Ergebnisse.
Eine sehr interessante Arbeit auf dem Gebiet ist die Dissertation zur Projektiven Stochastischen Geometrie von Collins [COL93], der die Unsicherheiten bei der Bestimmung der
geometrischen Merkmale mit Hilfe von Wahrscheinlichkeitsdichtefunktionen im projektiven
Raum repräsentiert und manipuliert.
2.2.3
Achsenparalleses Stereo und Rektifikation
Die Berechnung der Epipolargeometrie bedarf eines großen Rechenaufwands, der bei einer
Vereinfachung der Stereogeometrie erheblich vermindert werden kann. Diese Vereinfachung
kann zum Beispiel dadurch erreicht werden, dass statt einer konvergenten eine achsenparallele Stereogeometrie aufgebaut (Abbildung 13) oder durch die Rektifikation nachgebildet
wird (Abbildung ??). Bei dieser Kameraanordnung würde die zu einem Punkt in dem ersten
Bild gehörige Epipolarlinie einer Zeile mit derselben Zeilenkoordinate in dem zweiten Bild
entsprechen, was die Korrespondenzsuche erheblich verkürzt.
Dieser besondere Aufbau (die optischen Achsen der beiden Kameras verlaufen parallel zueinander, die Zeilen der beiden Bildebenen liegen wie in der Abbildung 13 parallel zu der
Basislinie) vereinfacht erheblich die Tiefenberechnung, da die Tiefe z jetzt einfach aus der
Disparität und den konstanten Kameraparametern b und f berechnet werden kann:
z=
bf
b + x1 + x2
(21)
Dabei ist b die Basislänge (Abstand zwischen den optischen Zentren) der zwei Kameras.
Weiterhin kann man die Korrespondenzsuche entlang der Epipolarlinie im zweiten Bild einschränken, wenn man bedenkt, dass die Szenentiefe für gewöhnlich endlich und auf ein Intervall von zmin bis zmax begrenzt ist, wodurch auch die relative Verschiebung von zwei
korrespondierenden Punkten in beiden Bildebenen eingeschränkt ist:
b(1 +
f
zmax
) ≤ x2 − x1 ≤ b(1 +
f
zmin
)
(22)
Die Vorteile der achsenparallelen Stereogeometrie gleichen leider die Nachteile nicht aus, die
diese Kameraanordnung im Vergleich mit der konvergenten Stereogeometrie mit sich bringt:
Die Genauigkeit der Tiefenberechnung steigt eigentlich mit größeren Basislängen, die hier
nicht möglich sind, da sonst die Überlappung der beiden Sichtbereiche nicht ausreichend
gewährleistet werden könnte. In der Praxis ist die Parallelität der Kameras auch nicht so
einfach zu realisieren und erfordert einen zusätzlichen Aufwand.
Bei dem Verfahren der Rektifikation wird eine konvergente Stereogeometrie durch eine lineare Transformation in eine achsenparallele Stereogeometrie überführt. Die beiden reellen
Stereobilder werden durch Warping in eine gemeinsame imaginäre Bildebene abgebildet. Die
2
SHAPE FROM STEREO
23
Abbildung 13: Achsenparallele Stereogeometrie. Quelle: [JIA97]
beiden optischen Zentren werden dabei beibehalten, die Epipolarlinien liegen jetzt alle parallel zueinander und zu der Basislinie. Die zueinander korrespondierenden Bildpunkte liegen
auf der gleichen Zeile in der imaginären Bildebene (Abbildung 14), so dass eine vereinfachte
Disparitätsanalyse analog zu dem Achsparallelen Kameraaufbau jetzt möglich ist.
Das Verfahren der Rektifikation weist zwei wesentliche Schwachstellen auf, die seinen Einsatz
bedenklich machen. Zum ersten entstehen durch Warping erhebliche und unterschiedlich starke Verzerrungen besonders am Bildrand, welche die Genauigkeit der Schätzung beeinflussen.
Das zweite Problem ist der durch den zusätzlichen Verfahrensschritt erhöhte Rechenaufwand,
welcher durch die Verkleinerung des Suchbereichs bei der Korrespondenzsuche nicht immer
ausgeglichen wird. Die vergleichende Untersuchung von Schreer [SCH00] hat gezeigt, dass bei
einer bekannten Epipolargeometrie der Rechenaufwand für eine Disparitätsanalyse entlang
der Epipolarlinien in den Original- und in den rektifizierten Ansichten annährend gleich ist.
Die Qualität der Tiefenrekonstruktion verschlechtert sich aber bei Rektifikation mit einem
steigenden Konvergenzwinkel rapide, da hier die Verzerrung zunimmt. Als Entscheidungskriterium werden in der Abhandlung der Grad der Konvergenz der Stereoansichten und der zu
analysierende Bildbereich (Mitte oder Ränder) vorgeschlagen.
2.2.4
Drei-Ansichten-Geometrie
Die Hinzunahme einer dritten Kamera zu einem konventionellen Stereoaufbau ist eine der
Möglichkeiten, die Genauigkeit der Tiefenberechnung zu erhöhen und die Anzahl der falschen
Korrespondenzen zu verringern (Abbildung 16).
Ein 3D-Punkt P wird aus den Weltkoordinaten in drei 2D-Bildebenen mit Projektionen je-
2
SHAPE FROM STEREO
24
Abbildung 14: Rektifikation. Quelle: [AAN02]
weils p1 , p2 , p3 (Abbildung 15, Beschreibung des Verfahrens aus [JIA97]) abgebildet. Aus der
berechneten Zuordnung p1 zu p2 kann der Punkt p3 ohne weitere Korrespondenzsuche ermittelt werden. Für die beiden bekannten Punkte werden in der dritten Ebene Epipolarlinien
L31 und L32 bestimmt, der gesuchte Punkt p3 ist der Schnittpunkt der Epipolarlinien.
Abbildung 15: Epipolargeometrie für Trinokulares Stereo. Quelle: [JIA97]
Dieser Zusammenhang wird ausgenutzt, um die Richtigkeit der berechneten Korrespondenzen zu überprüfen oder aus mehreren Kandidatenpunkten den richtigen auszuwählen. Ein
weiterer Vorteil ist die mögliche Auflösung der Verdeckungen in den beiden vorhandenen
Ansichten.
Der Berechnungsaufwand kann auch hier durch die Rektifikation der drei Ansichten erheb-
2
SHAPE FROM STEREO
25
lich verringert werden, eine entsprechende Rechenvorschrift kann [JIA97] entnommen werden.
Eine breite Anwendung findet das Verfahren in der Bildsynthese: Aus zwei Ansichten wird
eine dritte, virtuelle Ansicht generiert. Die theoretischen Hintergründe sind sehr ausführlich
in [AVI98] behandelt worden. Ein praktisches Beispiel ist das Tele-Immersion-System von
Daniilidis und Mulligan [MUL01], [DAN00]. Die Verfahrensschritte beinhalteten hier Rektifikation, Hintergrundtrennung, Korrespondenzzuordnung, Median-Filterung, Rekonstruktion
und anschließende Übertragung. Sie konnten zwar in Echtzeit abgearbeitet werden, aber nur
für kleine Bildgrößen und mit einer nicht besonders guten Rekonstruktionsqualität (Abbildung 16). Für eine Verbesserung des Verfahrens sorgte die bessere Ausnutzung von zeitlichen
Abhängigkeiten zwischen den Bildern (Schätzung des optischen Flusses), eine Beschreibung
ist in [MUL03] enthalten.
Die wahrscheinlich zur Zeit einzige echtzeitfähige Videokonferenz-Anwendung, die auch eine
Abbildung 16: Eine Videokonferenz-Anwendung, Ergebnisse der Rekonstruktion: a) Ein binokularer Algorithmus, b) Ein trinokularer Algorithmus. Quelle: [MUL01]
gute Qualität liefert, ist das System von Schreer und Kauff [SCH01], [KAU02], [SCH03a]. Einige noch zu nennende Beispiele für derartige Anwendungen sind [AGR03], [POL00], [BAR03],
[EIS03] die teilweise im Weiteren näher beschrieben werden.
2.2.5
Mehrere-Ansichten-Geometrie
Die Genauigkeit der Oberflächenrekonstruktion erhöht sich weiter, wenn mehrere Ansichten
auf eine Szene bei der 3D-Form-Schätzung verarbeitet werden (Abbildung 17). Zu beachten
ist aber, dass mit Erhöhung der Ansichtenmenge auch die Anzahl von Regionen wächst, die
nicht von allen Kamerapositionen sichtbar sind, so dass eine entsprechende Bildsegmentierung für die Weiterverarbeitung nötig ist. Die Rechenzeit wird auch entsprechend größer.
Da eine Videosequenz durch Kamera- oder Objektbewegung oft neue Ansichten auf eine Szene
liefert, bietet sich hier die nicht ganz stimmende Analogie mit einem konvergenten Stereoaufbau an. Eine Vielzahl von Anwendungen aus dem Bereich einer gleichzeitigen Bewegungund 3D-Form-Schätzung bedienen sich dieser auf mehreren Ansichten basierenden Stereogeometrie. Ein Beispiel dafür ist das Verfahren von Koch and Pollefeys [KOC98], weitere
Entwicklungen werden in [MAN00] und dem Abschnitt Form aus Bewegung beschrieben.
Das in [KOC98] geschilderte Verfahren liefert das mittels Shape from Stereo and Motion
2
SHAPE FROM STEREO
26
ein dichtes Szenenmodell aus unkalibrierten 2D-Video-Sequenzen. Die Kamera wird um eine
statische Szene frei bewegt, für die so aufgenommenen Bilder werden paarweise Korrespondenzsuche durchgeführt und dichte Tiefenkarten erstellt. Die ermittelten Tiefeninformationen
dienen als Grundlage für ein 3D-Modell, das nach der anschließenden Texturierung sehr realistisch aussieht.
Abbildung 17: Von links nach rechts: Das erste und das letzte Bilder einer Eingangssequenz,
Tiefenkarten für einen Zwei- und Fünf-Ansichten-Schätzer. Quelle: [KOC98]
Luong und Vieville stellen in ihrer Abhandlung [LUO94] eine für die Multiple Projektive
Views und unkalibrierte Kameras besser geeignete Repräsentation der klassischen Koordinatentransformationen vor. Die Idee dabei ist, die Beschreibung für unterschiedliche geometrische Levels der Repräsentation in einer einzigen Struktur zu liefern.
Von Lin stammt das in seiner Dissertation [LIN02] eingeführte neue Konzept von Rotational Stereo: Mehrere Ansichten auf ein Objekt werden hier durch eine Objekt- oder Kameradrehung mit bekannten und einstellbaren Drehwinkeln erzeugt. In der Abbildung 18 ist
der prinzipielle Aufbau des Berechnungsmodells dargestellt. Rotationsachse wird durch den
Einheitsvektor ~u und den Translationsvektor d~ beschrieben, (xi , yi , zi ) und (x̂i , ŷi ) sind der
Objektpunkt und seine Projektion vor und nach der Drehung um Winkel θ. Lin liefert den
theoretischen Hintergrund für die Schätzung und implementiert ein komplettes KleinkostenSystem für Kreation von photorealistischen 3D-Modellen als eine Kombination mit Formaus-Fokus.
Ein ähnliches Verfahren wurde von Park und Subbarao [PAR01] als eine rein stereobasierte Technik für ein achsenparalleles Kameraaufbau entwickelt. Aus vier durch Rotation des
Objekts entstandenen Ansichten werden Teiloberflächen generiert (Abbildung 19), die im
nächsten Schritt zu der resultierenden 3D-Form fusionieren.
2.2.6
Axiale Geometrie
Die axiale Stereogeometrie ist eine interessante und einfache Kameraanordnung, die eine
schnelle Tiefenberechnung ermöglicht. Hierbei wird eine einzige Kamera benötigt, die ent-
2
SHAPE FROM STEREO
Abbildung 18: Rotational Stereo Modell. Quelle: [LIN02]
Abbildung 19: Teiloberflächen für vier Kameraansichten. Quelle: [PAR01]
27
2
SHAPE FROM STEREO
28
lang ihrer optischen Achse verschoben wird.
Der Suchbereich für die Korrespondenzsuche ist hier kleiner als bei zwei unterschiedlichen Kameras. Ein Punkt in der Bildebene, die näher zum Objekt liegt, ist garantiert in der zweiten
Bildebene vorhanden (außer bei einer großen Verschiebung oder eventuellen Verdeckungen).
Als nachteilig erweist sich die schwierigere Bildsegmentierung (Zuordnung der Bildpunkte zu
Objekten), da wegen ungleicher Entfernung des Objektes zu den zwei Bildebenen dasselbe
Objekt unterschiedlich groß in diese Bildebenen abgebildet wird.
In dem Fall, dass der Ursprung des Weltkoordinatensystems in das optische Zentrum der
Abbildung 20: Axiale Stereogeometrie. Quelle: [JIA97]
Kamera gelegt wird und die Z-Achse der optischen Achse entspricht, wie im Bild 20 (Beschreibung aus [JIA97]), ist die XY-Ebene parallel zu den Bildebenen B1 und B2 und die
Berechnung des 3D Punktes im Raum mit Koordinaten (X, Y, Z) gestaltet sich aus den
korrespondierenden Punkten P1 und P2 in beiden Bildebenen wie folgt:
x=
d1 x2 q
f (d1 − d2 )
(23)
d 1 y2 q
(24)
f (d1 − d2 )
d2 q
z=
(25)
(d1 − d2 )
mit di als Abstand des Bildpunktes Pi vom Bildzentrum und q als vertikale Kameraverschiebung.
y=
2
SHAPE FROM STEREO
2.3
29
Das Korrespondenzproblem
Für die Lösung des Korrespondenzproblems existieren sehr viele Verfahren. Eine erste, grobe
Einteilung findet nach der Art der verwendeten Zuordnungsmerkmale statt. In der Tabelle 21
(so wie in allen Standardwerken zu dem Thema vorhanden) sind die gängigen Merkmale mit
ihren Eigenschaften zusammengestellt. Die Zuverlässigkeit und Einfachheit der Zuordnung
sind bei den Merkmalen mit einem großen Informationsgehalt vor allem wegen ihrer geringeren Anzahl besser, dafür ist der Detektionsaufwand höher. Bei der Auswahl der Merkmale für
eine bestimmte Anwendung müssen diese Eigenschaften gegeneinander aufgewogen werden.
Einige Beispiele für Zuordnungsmerkmale sind in Abbildung 22 zu sehen.
Abbildung 21: Zuordnungsmerkmale. Quelle: [JIA97]
Ein grundlegendes Problem bei den merkmalbasierten Anwendungen ist eine geschickte Wahl
eines geeigneten Detektors und Kriterien für eine automatische objektive (menschenunabhängige) Qualitätsbeurteilung. Mit dem Design und der Evaluation von Merkmaldetektoren beschäftigt
sich Baker in seiner Dissertation [BAK98]. Der von ihm erarbeitete Algorithmus entwickelt
Merkmaldetektoren nach vorgegebenen Parametern automatisch und zwar so, dass diese im
Durchschnitt eine bessere Rekonstruktionsqualität liefern, als solche bekannten Detektoren
wie Canny-, Roberts- und Moravecoperatoren. Sehr interessant ist sein Vorschlag für eine
Klasse von Evaluationstechniken, die für eine Anzahl von Realbildern nicht-subjektive Leistungsmessungen für ausgewählte Operatoren durchführen.
Der Einschränkung des Suchbereichs und der Verifizierung der gefundenen Korrespondenzen
dienen folgende Ähnlichkeitsbedingungen der Korrespondenzanalyse, die mehr oder weniger
streng formuliert, auf alle Arten der Zuordnungsverfahren anwendbar sind:
Epipolare Geometrie Die korrespondierenden Bildpunkte können nur auf den entsprechenden Epipolarlinien in der jeweils anderen Bildebene liegen. Der Suchbereich wird
damit auf eine einzige Linie beschränkt.
Begrenzung der Disparität Begrenzte Szenentiefe beschränkt das Suchintervall entlang
der Epipolarlinie.
2
SHAPE FROM STEREO
30
Abbildung 22: Beispiele für Zuordnungsmerkmale, rot: Ecken, blau: Schrittkanten, grün: Linien, gelb: Scheiben. Quelle: [BAK98]
Eindeutigkeit Es wird davon ausgegangen, dass man nur eine einzige richtige Korrespondenzzuordnung haben kann, die Mehrdeutigkeiten müssen aufgelöst werden. Die Korrespondenz zwischen zwei Punkten ist bidirektional, beim Nichtexistieren der Korrespondenz liegt eine Verdeckung vor.
Feste Reihenfolge Im Allgemeinen wird die Reihenfolge von Merkmalen entlang einer Epipolarlinie in dem zweiten Bild genauso beibehalten. Ausnahmen sind transparente
Oberflächen oder kleine Objekte im Vordergrund.
Glattheit der Tiefe Hier wird angenommen, dass sich die Tiefe in der Szene nur kontinuierlich ändern kann: Alle Oberflächen der Objekte sind zumindest stückweise kontinuierlich. Diskontinuitäten entstehen bei Verdeckungen.
Ähnlichkeit der lokalen Eigenschaften Es kann davon ausgegangen werden, dass die lokalen Eigenschaften der korrespondierenden Punkte wie Grauwerte oder Grauwertänderungen in derer Umgebung in beiden (oder mehreren) Ansichten sich ähnlich sind. Die
zusätzliche Einbeziehung der Farbinformationen bringt eine weitere Vereinfachung der
Berechnung.
Eine sehr gute und ausführliche Abhandlung zu Einschränkungen des Suchbereichs für die
Korrespondenzsuche und entsprechenden Optimierungen der Suchalgorithmen findet sich in
[JON97].
2.3.1
Pixelbasierte Verfahren
Bei den pixelbasierten Verfahren wird als Zuordnungsmerkmal das Merkmal mit dem kleinsten Informationsgehalt ausgewählt, ein Pixel mit seinem Intensitätswert I(x, y).
Die Anzahl der Helligkeitswerte in einem Bild ist für gewöhnlich sehr klein im Vergleich mit
der Pixelanzahl, so dass eine direkte Zuordnung fast immer (außer vielleicht bei sehr kleinen
Bildern) nicht möglich ist. Aus diesem Grunde werden bevorzugt nicht die Pixel selbst, sondern ganze Blöcke von Pixeln verglichen und unter pixelbasierten Methoden BlockmatchingMethoden (BM) genannt werden. Ein Pixel wird hier über seine Nachbarschaft beschrieben
und wird so identifizierbar.
2
SHAPE FROM STEREO
31
Die Bildpaare werden bei den meisten Anwendungen in gleich große Blöcke unterteilt. Für
einen Block im ersten Bild sucht man einen Block mit bester Übereinstimmung entlang der
Epipolarlinie im zweiten Bild. Die Wahl der Blockgröße wirkt sich stark auf die Robustheit
und Geschwindigkeit eines Algorithmus aus: Zu kleine Blöcke beinhalten zu wenig Information für eine Korrespondenzzuordnung, zu große führen zu erhöhten Rechenzeiten.
Als Bewertungsfunktionen werden meistens mittlerer quadratischer Fehler (MSE), mittlerer
absoluter Fehler (MAD), der Farbabstand oder die Kreuzkorrelation eingesetzt.
MSE:
ε(x, y) = minε(x,y)
XX
1
2
[I1 (x + m, y + n) − I2 (x + m + ε(x, y), y + n)]
M ∗N m n
(26)
XX
1
| I1 (x + m, y + n) − I2 (x + m + ε(x, y), y + n) |
M ∗N m n
(27)
MAD:
ε(x, y) = minε(x,y)
Normierte Kreuzkorrelation:
P P
I1 (x + m, y + n)I2 (x + m + ε(x, y), y + n)
ε(x, y) = maxε(x,y) pP Pm n
P P
2
2
m
n I1 (x + m, y + n)
m
n I1 (x + m + ε(x, y), y + n)
(28)
Eine sehr wichtige Rolle bei der Entwicklung eines effizienten Zuordnungsverfahrens spielt
die Wahl einer geeigneten Matching-Strategie. Zu bemerken dabei ist, dass hierarchisch vorgehende Techniken mit ihrer Schnelligkeit überzeugen und für fast alle Anwendungen empfehlenswert sind. Eine sehr ausführliche Darstellung von hierarchischen und anderen Optimierungsansätzen findet sich in [JON97]. Einige Beispiele für Matching-Strategien für Blockmatching sind: zweistufig, hybrid-rekursiv, mit Auflösungspyramide, mit Farbstereoanalyse,
Fine-to-Fine-Methode.
Der Hauptvorteil der Blockmatching-Methode gegenüber den merkmalbasierten Verfahren
ist eine dichtere Tiefenkarte. Hier werden die Tiefenwerte für alle Pixel direkt ausgerechnet,
nicht nur für einige ausgewählte Merkmalspunkte mit der Interpolation auf das ganze Bild.
Nachteilig sind eine höhere Komplexität und ein entsprechend höherer Rechenaufwand.
Eine Erhöhung der Genauigkeit bringt die Ausnutzung der chromatischen Informationen,
sofern sie im Bild vorhanden sind. Da der Werteraum hier größer ist, als bei reinen Grauwertbildern, können die Pixel leichter identifiziert werden. So wird die Auswahl der richtigen Korrespondenzen aus den vorhandenen Kandidaten schneller. In [KOS96] ist ein solcher
hierarchischer Blockmatching-Algorithmus für die Gewinnung von dichten Tiefenkarten aus
farbigen Stereobildern vorgestellt, das mit Bildpyramiden und einer aktiven farbigen Beleuchtung der Szene arbeitet.
Eine effiziente echtzeitfähige Implementierung eines korrelationsbasierten Verfahrens für farbige Bilder schlagen die Autoren von [MUE01] vor. Ihr Algorithmus hat neben einer relativ
hohen Geschwindigkeit eine für viele Anwendungen ausreichende Qualität, wie es im Bild
23 erkennbar ist. Eine geeignete Matching-Strategie (Sliding Window Summations) und eine
ummittelbare Wiederverwendung von Zwischenergebnissen lassen hier redundante Rechenoperationen und unnötige Speicherzugriffe vermeiden. Ein Links-Rechts-Konsistentcheck und
2
SHAPE FROM STEREO
32
Abbildung 23: Ein korrelationsbasiertes BM-Verfahren: zwei Eingangsbilder und die resultierende Disparitätskarte. Quelle: [MUE01]
ein schneller Medianfilter vermindern die Anzahl der Ausreißer am Ende der Schätzung.
Ein weiteres Beispiel für eine pixelbasierte Echtzeit-Anwendung ist die stereobasierte Videosensorik unter Verwendung einer stochastischen Zuverlässigkeitsanalyse (Beschreibung in
[SUP00], Gesamtkonzept in 4). Hier werden Punktkorrespondenzen durch einen blockbasierten Vergleich lokaler Intensitätsverteilungen zwischen den Bildern berechnet. Für den
Vergleich wird hier das Ähnlichkeitsmaß benutzt, welches unter Verwendung wahrscheinlichkeitstheoretischer Interpretationen auch Aussagen über die Zuverlässigkeit und Güte der
gefundenen Punktkorrespondenzen erlaubt (Abbildung 24). So sind robuste Detektion und
Vermessung von Objekten auch bei Störeinflüssen wie Helligkeitsänderungen, Schattenwürfe
oder Spiegelungen möglich. Durch stochastische Methoden erfolgt automatisch eine Überprüfung der Zuverlässigkeit für jeden erzielten Messwert und damit auch des gesamten Sensorsystems, was eine Früherkennung von Fehlfunktionen, wie z.B. zeitliche Veränderungen
der Kameraanordnung oder ähnliches, erlaubt.
Abbildung 24: Disparitätsschätzung durch stochastische Methoden. Quelle: [SUP00]
Eine der wenigen pixelbasierten Anwendungen, die tatsächlich mit einem Vergleich von einzelnen Pixeln und keinen Pixelblöcken arbeitet, ist das in [BAJ98] beschriebene System für
die Gewinnung von geometrischen 3D-Modellen für den Einsatz in Tele-Collaboration 2 . Der
eingesetzte Stereo-Algorithmus erstellt anhand zweier kleiner (256 X 256) Eingangsbilder
2 ein
Videokonferenz-System
2
SHAPE FROM STEREO
33
mehrere Disparitätshypothesen für jeden Pixel, die dann im Laufe einer Auswahlprozedur
durch Einhaltung einiger oben angegebenen Einschränkungen selektiert werden. Aus den
resultierenden Disparitätskarten werden über Triangulation räumliche Positionen von 3DPunkten des Modells berechnet und durch Reprojektion in die Eingangsbilder verifiziert. Die
rekonstruierten 3D-Modelle (Abbildung 25) sind zwar präzise und können schnell manipuliert
werden, das große Datenvolumen bestimmt aber hohe Rechenzeiten, so dass eine Verbesserung des Algorithmus für einen Online-Einsatz notwendig wäre.
Abbildung 25: Ein auf einzelnen Pixel basierter Stereoalgorithmus: rekonstruierte 3D-Punkte
mit natürlichen Texturen (vier Ansichten ). Quelle: [BAJ98]
2.3.2
Merkmalsbasierte Verfahren: Feature points als Merkmale
Ein Problem für die Blockmatching-Verfahren sind homogene Bildbereiche. Sie beinhalten
sehr wenig Information, werden aber in die Berechnung einbezogen und ziehen diese entsprechend in die Länge. Eine Möglichkeit der Vermeidung ist die Verwendung ausgewählter
Pixel mit bestimmten interessanten Eigenschaften. Das ist die merkmalsbasierte Methode
mit einzelnen Punkten als Merkmale.
Ein interessanter Detektor für die Auswahl von solchen geeigneten Punkten ist der MoravecOperator, der Bildpunkte mit starken Intensitätsänderungen in vier Richtungen (horizontal,
vertikal und zweimal diagonal) bestimmt:
M O(x, y) =
y+1
x+1
1 X X
| I(m, n) − I(x, y) |
8 m=x−1 n=y−1
(29)
Ein weiterer Detektor ist der Harris-Corner-Detektor [SCH03], [POL00], der aus den gewich-
2
SHAPE FROM STEREO
34
teten (Faktor ϕ) Helligkeitsgradienten in horizontaler und vertikaler Richtung Schlüsse über
die Verwendbarkeit eines Punktes für die Korrespondenzanalyse zieht. Die Grundlage für die
Berechnung ist eine Matrix M:
A B
M=
(30)
C D
mit der Berechnung der Elemente wie folgt:
A = ϕ(
B = C = ϕ(
δI(x, y) 2
)
δx
δI(x, y) δI(x, y)
)(
)
δx
δy
D = ϕ(
δI(x, y) 2
)
δy
(31)
(32)
(33)
Als Auswahlkriterium für einen auffälligen Merkmalspunkt dient R mit dem Schwellenwert
k=0.04:
(34)
R = det(M) − k(traceM)2
Candocia und Adjouadi haben in [CAN97] und [CAN93] einen generellen Ansatz für die
Ähnlichkeitsmessungen und das Stereo-Feature-Matching vorgestellt. Bei der Beurteilung der
Ähnlichkeit von zwei Merkmalen werden hier sowohl ihre Positionen als auch ihre GrauwertGradienten betrachtet, die Matching-Prozedur integriert lokale und globale Strategien.
Bei Verwendung von einzelnen Punkten als Zuordnungsmerkmale werden Tiefeninformationen nur für diese ausgewählten Punkte geschätzt, was als Folge die Notwendigkeit von weiteren Schätzungen oder Interpolationen für den Erhalt von dichten Tiefenkarten mit sich
bringt. Ein robuster und akkurater auf Voronoi-Diagramm basierter Algorithmus für die
Gewinnung von dichten Tiefenkarten aus Punktmerkmalen wird in [TAN02] präsentiert. Im
ersten Schritt des Verfahrens wird ein Bild entsprechend den gefundenen Merkmalspunkten
in eine bestimmte Anzahl von Voronoi-Diagramm-Zellen wie in der Abbildung 26 segmentiert, im zweiten Schritt wird die Zuordnungssuche für alle anderen Punkte in Zellengrenzen
durchgeführt. Der genaue Ablauf des Algorithmus sieht wie folgt aus:
1. Feature tracking. Obtain reliable correspondences of N seed feature points.
2. Estimate the epipolar geometry if the image pair is not rectified.
3. Find the Voronoi diagram of these seed feature points. There is one Voronoi cell for
each seed.
4. Take out a seed to generate the correspondences of its 8 neighbours. For each neighbour,
the matching point is searched at the neighbourhood of the corresponding point of the
seed. Modified SSD is used in the adaptive searched window with epipolar constraint.
5. Correspondences generated from the already matched points are used to produce more
matching points.
6. Correspondences propagate from the seed feature point in the middle of each cell until
the boundaries of the Voronoi diagram are reached.
2
SHAPE FROM STEREO
35
Abbildung 26: Beispiel eines Voronoi-Diagramms. Quelle: [TAN02]
2.3.3
Merkmalsbasierte Verfahren: Kantenpunkte als Merkmale
Einen weiteren Vorteil bei der Findung oder Verifizierung von Punktkorrespondenzen bringt
eine breitere Ausnutzung von Kontextinformationen. Werden die Punkte mit starken Grauwertänderungen in der Umgebung (Kantenpunkte), die den höchsten Informationsgehalt im
Bild haben, als zusammenhängende Teile eines Objektes (Kantenpunkte, Linien oder gar
regionenzugehörig) betrachtet, können auch die Mehrdeutigkeiten bei der Korrespondenzanalyse einfacher und schneller aufgelöst werden. Der eigentliche Korrespondenzvergleich
kann schneller durchgeführt werden, da bei Merkmalextraktion eine wesentliche Datenreduktion stattfindet. Der Hauptnachteil von diesen Verfahren liegt aber darin, dass man hier
zuverlässige Tiefeninformationen nur für diese ausgewählten Merkmale erhalten kann (keine
dichten Tiefenkarten, wie bei Blockmatching). Die Bereiche zwischen den Merkmalen (Kanten, Linien usw.) bleiben zuerst unberücksichtigt und müssen ggf. weiteren Verarbeitungen
unterzogen werden [TAN02].
Die Idee, Bilder über die Objektkanten zu beschreiben, kommt aus der Neurophysiologie und
basiert darauf, dass die Augen von Säugetieren inklusive Menschen am stärksten auf die Diskontinuitäten in den aufgenommenen Bildern reagieren. Verfahren, die mit Kantendetektion
arbeiten, sind sehr verbreitet in der Bildanalyse. Sie setzten eine Großzahl (mehr als 120)
von Detektoren ein [MAC93], [CHI98]. Ein umfassender und fast aktueller Überblick über
gängige Kantendetektionstechniken ist in [ZIO98] zu finden.
Canny [CAN86] formulierte folgende Kriterien für einen guten Kantendetektor :
Detektionsgüte: Kleine Wahrscheinlichkeit für eine falsche und große für eine richtige Zuordnung von Punkten zu Kanten.
Lokalisation: Das Maximum des Detektorausgangs soll an der Position der Kante auftreten.
Eindeutigkeit: Eine einzige Antwort pro tatsächlich vorhandener Kante.
2
SHAPE FROM STEREO
36
Für die objektive Beurteilung eines Kantenoperators ist Pratt’s Figure-of-Merit (FOM) sehr
gut geeignet, die den gewichteten quadratischen Abstand zwischen den tatsächlichen (bereits
bekannt) und von dem Detektor gefundenen Kanten misst:
I
F OM =
a
X
1
1
max(Ii , Ia ) j=1 1 + α(d(j))2
(35)
Die verwendeten Größen sind: Ii und Ia - je die Anzahl der vorhandenen und der vom
Detektor gefundenen Kantenpunkte, d(j) - Abstand eines gefundenen Punktes von seiner
tatsächlichen Position. FOM ist bei realen Operatoren immer kleiner eins, wobei ein perfekter Detektor FOM gleich eins liefern würde.
Die erste Einteilung der Kantendetektoren findet je nach der Verarbeitungsmethode in parallele und sequentielle Verfahren statt (Darstellung nach [KOE96] und [STE02].
I. Parallele Verfahren Die Verarbeitung findet parallel für mehrere Bildpunkte statt.
Es werden lokal mehrere Eigenschaftsvektoren berechnet, die Angaben wie Kantenstärke,
-Richtung usw. enthalten. Diese Eigenschaften sind Kriterien für die Entscheidung, ob eine
Kante vorliegt. Die Ergebnisse fließen in der Regel in die nächste Stufe der Verarbeitung, die
mit sequentiellen Verfahren abgedeckt ist.
Einfache, lokale Operatoren Die Operatoren sind meistens Approximationen der ersten
oder zweiten Ableitung der Bildfunktion mit einer Glättung.
Der Roberts-Cross-Operator berechnet die Differenzen in diagonaler Richtung:




0 −1 0
0
0 0
1
0 
δx =  −1 0 0  δy =  0
0
0
0
0
0 0
(36)
Der Sobel-Operator wird sehr häufig verwendet und enthält eine Glättung mit einer
Binomial-Filtermaske (einer diskreten Approximation der Gauß-Verteilung):




−1 0 1
−1 −2 −1
0
0 
δx =  −2 0 2  δy =  0
(37)
−1 0 1
1
2
1
Der Prewitt-Operator vereint in sich sowohl eine Glättung über eine Mittelwertbildung
(3-Punkte-Nachbarschaft) als auch eine Glättung über den symmetrischen Gradienten:




−1 0 1
−1 −1 −1
0
0 
δx =  −1 0 1  δy =  0
(38)
−1 0 1
1
1
1
Schablonen-Operatoren oder Template-Matching Hier werden Musterkanten in Form
von i unterschiedlichen Filtermasken Tj (Schablonen) der Größe 2m + 1 über das Bild
Iin geschickt, die Form der Kante wird anhand der besten Übereinstimmung mit den
Mustern erkannt. Schablonen sind diskrete Approximationen von Modellkanten in verschiedene Richtungen. Die Wahrscheinlichkeit und die Richtung einer möglichen Kante
2
SHAPE FROM STEREO
37
an einem bestimmten Punkt ergibt sich aus dem besten Ausgang Fout der Filteroperation [STE02]:
m
X
Fout (x, y) = max j
m
X
Iin (x − k)(y − l)Tj (k, l)
(39)
k=−m l=−m
Die bekanntesten von den Template-Operatoren sind der Kompass-Gradient und der
Kirsch-Operator, welche Kanten in acht Richtung detektieren. Die Genauigkeit ist zwar
etwas schlechter als bei lokalen Detektoren, dafür kann man hier auch die lokale Kantenrichtung bestimmen. Bei einiger Umrechnung können aber die lokalen Detektoren
wie Sobel- oder Prewittoperator auch für mehrere Richtungen ausgelegt werden.
Optimale oder regionale Operatoren Bei dieser Art der Detektoren wird ein ziemlich
gelungener Versuch gemacht, Vorteile von verschiedenen Operatoren, bezogen auf unterschiedliche Bildeigenschaften, in einem einzigen Detektor zu integrieren. Meistens sind
diese Filtermasken Kombinationen von Tief- und Hochpassfilterung mit einer Glättung
des Bildes durch einen Gaußfilter (Beschreibung und Quellcode in [STE02]).
Ein typischer Vertreter ist der Marr-Hildreth-Operator (Laplacian-of-Gaussian, LofG),
der basierend auf neurophysiologischen Untersuchungen zum Sehsystem des Menschen
entwickelt wurde. Im ersten Schritt wird eine Glättung des Bildes F (x, y) mit einer
Gauß-Funktion Gσ (x, y) (Standardabweichung σ) durch eine Faltung vorgenommen, im
zweiten eine Hochpass-Filterung mit dem Laplace-Operator ∇2 ausgeführt, zusammen
gefasst wie folgt:
Fout = ∇2 Gσ (x, y) ∗ F (x, y) = (∇2 Gσ (x, y)) ∗ F (x, y)
Die Funktion ∇2 Gσ wird dabei entsprechend der Formel berechnet:
!
!
−(x2 +y 2 )
x2 + y 2
1
2
−1
e 2σ2
∇ Gσ (x, y) =
πσ 4
2σ 2
(40)
(41)
Die Parametrisierung erfolgt über die Standardabweichung σ.
Einen sehr großen Vorteil im Vergleich zu anderen Detektoren hat der LofG-Operator
in der Hinsicht, dass er immer geschlossene und bereits binarisierte Kanten liefert (siehe
Abbildung 27), so dass eine entsprechende Nachverarbeitung entfällt. Nachteilig sind
eine mögliche Verschiebung der Kantenposition und die Tatsache, dass die fehlerhaft
detektierten Kantenpunkte (z. B. Rauschen oder leichte Grauwertänderungen im Bild)
nicht erkannt und genauso wie die richtigen als Kanten behandelt werden.
Parametrisierte Kantenmodelle Hier werden Filter eingesetzt, die nicht starr festgelegt
sind, sondern im Laufe der Berechnung ohne großen Rechenaufwand über ihre Parameter an die Vorlage angepasst werden. Durch diese Eigenschaft wird eine automatische
Anpassung an unterschiedliche Bilderarten möglich.
Morphologische Operatoren Diese Operatorengruppe ist eine wichtige Alternative zu
den klassischen Faltungsdetektoren und ist vor allem für den Einsatz auf binarisierten Bildern geeignet. Grundlage für diese Methoden sind einfache Strukturelemente
(auch Umgebungselemente genannt), die den Zusammenhang eines Bildpunktes mit
2
SHAPE FROM STEREO
38
Abbildung 27: Ergebnisse von LofG-Filterung (rechtes Bild). Quelle: [CAN93]
seiner lokalen Nachbarschaft festlegen. Mit Hilfe solcher Operationen wie Skelletierung,
Erosion oder Dilatation kann eine Bildsegmentierung durchgeführt werden und zwar
so, dass Löcher innerhalb von Objekten aufgefüllt werden und kleine Objekte ganz verschwinden. Somit wird die Kenntnis über die Form der Objekte und der Bildstörung
ausgenutzt, um diese Störung vom Nutzsignal zu trennen. Einige Beispiele für morphologische Operationen sind in [KOE96] und [STE02] zu finden.
II. Sequentielle Verfahren
Die Verfahren gehören zur Nachbearbeitung der Kantensuche und benötigen für gewöhnlich
Ergebnisse der Parallelen Verfahren. Für die in der Vorstufe ermittelten möglichen Kantenpunkte wird hier anhand von Informationen über die Nachbarpunkte, das ganze Bild oder mit
Ausnutzung von Kontextwissen über die möglichen Kantenformen, Bildinhalt usw. die Entscheidung getroffen, ob diese Kandidatenpunkte tatsächlich zu Kanten gehören. Sehr einfache
Beispiele für derartige Algorithmen sind Schwellenwertverfahren entweder mit einer einzigen
konstanten Schwelle oder mit einem Schwellenintervall (Hysteresis-Schwellenwertverfahren).
Eine komplexere Vorgehensweise wird bei den Linienverfolgungsalgorithmen gefragt, welche
aber für gewöhnlich auch bessere Binarisierungsergebnisse liefern. Für eine Vertiefung in das
Thema werden hier [KOE96] und [STE02] empfohlen.
2.3.4
Merkmalsbasierte Verfahren: Komplexe Merkmale
Da die zusammenhängenden Kantenpunkte unter Umständen sehr lang werden können und
sich im zweiten Bild wegen einer anderen Kameraposition stark verzerren können, ist es
oft wesentlich einfacher, die Kanten in Segmente aufzuteilen und so die Zuordnung durchzuführen. Die Gruppe der Verfahren gehört zu liniensegmentbasierten Anwendungen. Einige
Beispiele für die Bestimmung von Liniensegmenten aus Kanten ausgehend von geometrischen
und photometrischen Informationen werden in [FIL94], [QUA97] oder [ROU03] (Abbildung
28) geschildert.
In [BAR03] wird ein Verfahren zur Bestimmung von Kamerabewegung und 3D-Struktur für
2
SHAPE FROM STEREO
39
Abbildung 28: Eingangsbild (links) und die mit Hilfe von richtungsselektiver HoughTransformation extrahierten Liniensegmente (rechts): Quelle: [ROU03]
einfache Objekte präsentiert. Die Technik benötigt mehrere Szenenansichten für die Berechnung und führt entsprechende Schätzungen basierend auf einer Beschreibung des Triangulationsproblems in Plücker-Koordinaten und einer nichtlinearen Optimierung von gefundenen
3D-Linien zuversichtlich durch (Abbildung 29).
Abbildung 29: Originale (weiß) und geschätzte (schwarz) Linien (vergrößert): Quelle: [BAR03]
Der von Quan und Kanade entwickelte lineare Algorithmus [QUA97] schätzt Kamerabewegung und affine 3D-Formen aus Linienkorrespondenzen für unkalibrierte affine Kameras,
dabei werden mindestens sieben Linienkorrespondenzen in drei Ansichten benötigt (Rekonstruktionsergebnis in Abbildung 30).
Bei regionenbasierten Techniken werden Bilder einer oder mehrerer synchronisierter Videosequenzen in Segmente aufgeteilt, die bezüglich einer bestimmten Eigenschaft wie Intensität,
Textur, Bewegung usw. homogen sind. Für die Durchführung der Korrespondenzzuordnung
stehen hier mehrere Möglichkeiten offen. Sie kann gleichzeitig mit der Segmentierung (Initialisierung mit dem vorangegangenen Bild) oder nach einer vorherigen Berechnung der Regionenmerkmale (Schwerpunkt, Farbe, Orientierung, Intensitätsmittelwert usw.) durchgeführt
werden. Für die Vertiefung in das Thema der Segmentierungsverfahren wird hier auf [JIA97],
[PAU01] verwiesen.
Da die Regionengrenzen meist auch die Objektgrenzen beinhalten, bleiben bei den Verfahren
auch die tatsächlichen Objektkonturen erhalten. Im Gegensatz zu anderen merkmalsbasierten
Verfahren werden hier dichte Tiefenkarten (flächendeckend) direkt generiert, der Rechenauf-
2
SHAPE FROM STEREO
40
Abbildung 30: Aus Liniensegmenten rekonstruierte 3D-Form. Quelle: [QUA97]
wand ist dafür sogar geringer. Als ungeeignet erweisen sich aber die Algorithmen für die
Anwendungen, die detaillierte Tiefenkarten benötigen, wie z. B. bei der Bildsynthese: Zu
große Regionen liefern schlechte Syntheseergebnisse, zu kleine erhöhen die Rechenzeit, so
dass man gleich ein Blockmatching-Verfahren anwenden könnte.
Ein schneller lokaler Algorithmus, der Realisierung von Echtzeit-Stereo-Anwendungen an einem Standard-PC erlaubt, wird in [STEF02] präsentiert. Das Verfahren basiert auf einem
Matching-Kern, der unzuverlässige Korrespondenzen während der direkten Zuordnungsphase (Links-Rechts-Matching) detektiert und deswegen keine für diese Algorithmen typische
umgekehrte Zuordnungsphase (Rechts-Links-Matching ) erfordert. Im Vergleich zu einem
bidirektionalen Algorithmus liefert das Verfahren neben einem erheblichen Zeitgewinn Tiefenkarten fast gleicher Qualität.
Eine Ähnlichkeit zu den regionbasierten Verfahren besitzt der robuste Algorithmus von Veksler für die Gewinnung von dichten Tiefenkarten aus rektifizierten Ansichten, welcher geschlossene Sätze von Pixeln im linken und rechten Bild als Zuordnungsgrundlage verwendet
[VEK01], [VEK01a]. Neu bei dieser Methode ist es, dass die entsprechende Segmentierung
nicht vor der eigentlichen Tiefenschätzung, sondern als Ergebnis derselben stattfindet. Der
Ablauf sieht wie folgt aus: Für je zwei Bilder wird eine maximale Disparität als Begrenzung
eines Disparitätsintervalls zugelassen, für jede mögliche Disparität aus diesem Intervall (nur
Integerwerte sind zugelassen) werden in mehren Verfahrenschritten (durch Überlappung und
Intensitätsvergleich) die tatsächlich korrespondierenden Pixel berechnet und entsprechende
geschlossene Pixelsätze geschätzt. Die Genauigkeit der Berechnung ist ziemlich hoch. Große
Disparitäten, texturierte oder homogene Bereiche stellen kein Problem für das Verfahren dar.
Der beliebte Links-Rechts-Test findet hier wie gesehen im Laufe der Schätzung statt.
Tiefenschätzung anhand einer erfolgten Objekterkennung wäre am schnellsten und am einfachsten zu implementieren, wenn die Erkennung eines Objektes selbst [ELS00], [FIS99] kein
so komplexes Problem wäre. Die meisten solcher Anwendungen benötigen erstens eine zeitraubende Trainingsphase (von einem Menschen überwacht, Beispiel in 32) und beinhalten nur
kleine Datenbänke (etwa bis 100 Objekte, Beispiel in [OTT95]), so dass diese Techniken nur in
mehr oder weniger kontrollierbaren Umgebungen (Labor, Betrieb usw.) Einsatz finden. Eine
der wenigen möglichen Einsatzgebiete außerhalb von vier Wänden wäre z. B. Verkehrsüberwachung (begrenzte Anzahl von möglichen Objektarten), eine Tiefenbestimmung hier wäre
2
SHAPE FROM STEREO
41
aber auch mit Methoden der Bewegungsschätzung [HEI98], [ZAN03] relativ einfach durchzuführen.
In [ROU03] wird ein auf einer Kombination aus liniensegment-, regionen- und objekterkennenden Ansätzen basiertes Verfahren zur Echtzeit-Raumszeneanalyse für bildgestützte zielorientierte Navigation mobiler Roboter vorgestellt. Kern des Verfahrens ist ein Segmentierungsalgorithmus (Abbildung 31), der zunächst eine richtungsselektive Hough-Transformation mit
einer Liniensegmentdetektion durchführt und so eine Gitternetz aus konvexen Polygonen
erzeugt. Farbähnliche, homogene Polygone, die durch keine Linie getrennt sind, werden im
Laufe eines Flächenwachstumsverfahrens verschmolzen, im Weiteren werden eine Merkmalextraktion und eine Identifikation durchgeführt, Regionen werden bekannten Objekten zugeordnet. Das beschriebene Verfahren ist zwar monokular, stabil gegen Beleuchtungsänderungen
und echtzeitfähig, kann aber nur im Inneren von Gebäuden eingesetzt werden, wo klare Linienstrukturen und größere farblich homogene Flächen auftreten.
Abbildung 31: Ein Segmentierungsalgorithmus für Navigation mobiler Roboter: Quelle:
[ROU03]
Die nur sehr begrenzten Möglichkeiten eines Objekterkennungssystems demonstriert das in
[COE03] beschriebene Bildsegmentierungsverfahren für mobile Roboter. Die Technik generiert eine Zuordnung zwischen einem Punkt in der Chrominanzebene und dem wahrscheinlichsten Objekt, basierend auf Histogrammen und geometrischen Informationen. Der Algorithmus benötigt eine umfangreiche überwachte Trainingsphase (Abbildung 32) und liefert
zwar zuverlässige Ergebnisse, die Objektanzahl ist aber nur auf vier-fünf Gegenstände (jeweils eine bis zwei Farben zulässig) begrenzt.
3
SHAPE FROM MOTION
42
Abbildung 32: Trainingsphase eines Objekterkennungsalgorithmus am Beispiel eines Farbtrainings. Quelle: [COE03]
3
Shape from Motion
Die Bewegungsschätzung ist ein wichtiger Bestandteil der Bildverarbeitung, vor allem im
Bereich der Bildübertragung, da es sehr hohe Kompressionsraten erlaubt: Die Regionen, in
denen keine Bewegung statt findet, brauchen auch nicht neu übertragen zu werden (MPEG,
siehe [SCHA03]). Somit können nicht nur örtliche Abhängigkeiten in einem Bild (Differenzenund Transformationscodierung), sondern auch zeitliche Abhängigkeiten zwischen aufeinander
folgenden Bildern ausgenutzt werden. In Analogie mit der Stereobildverarbeitung wird auch
Tiefen- und 3D-Struktur-Schätzung aus Nachbarbildern (Structure from Motion, SfM) betrieben. Immer mehr Verfahren, die z. B. für Videotelephonie, Videokonferenzen, Interaktives
Fernsehen und ähnliches entwickelt werden, setzen die Bewegungsschätzung in Kombination
mit anderen Verfahren nicht nur für die Reduzierung der Datenrate, sondern auch für die
Synthese neuer virtueller Ansichten bei dem Empfänger an.
Der Schwierigkeitsgrad der Berechnung hängt stark mit der Art der Bewegung im Bild zusammen. Die einfachste und meist beschriebene Variante ist eine bewegliche Kamera mit
stationären Objekten, welche nicht deformierbar sind. Weitere Vereinfachung wird mit der
Annahme getroffen, dass sich die Kamera immer gleichförmig und mit einer konstanten Geschwindigkeit entlang eines Verschiebungsvektors bewegt. Komplexere Berechnungen müssen
ausgeführt werden für den Fall einer stationären Kamera und dynamischer Objekte, wobei
hier fast immer keine relative Bewegung der Objekte zueinander zugelassen wird. Die schwierigste Variante sind die mit einer beweglichen Kamera aufgenommenen Bilder von dynamischen Objekten.
Deformierbarkeit der Objekte (keine starren Körper mehr) stellt für die meisten Verfahren
ein Problem dar, das für gewöhnlich auf dem Wege separater Berechnungen der 3D-Form
3
SHAPE FROM MOTION
43
und der Parametrisierung für die Deformierung dieser Form gelöst wird. Die Mehrzahl der
Verfahren benötigt außerdem entweder ein vordefiniertes Modell oder mehrere Objektansichten, einen anderen Ansatz schlagen Bregler und Hertzmann vor [BRE00].
Eine graphische Beschreibung des SfM-Problems als zwei separate gleichzeitig zu lösende
Probleme ist in 33 dargestellt. Im Folgenden werden die wichtigsten SfM-Techniken kurz
geschildert, basierend auf Darstellungen von [JEB99], [BIS01], [POL00] und [AHR00].
Abbildung 33: Ablauf der 3D-Objektrekonstuktion. Quelle: [AAN02]
3.1
3.1.1
Schätzung mit Methoden der Stereobildverarbeitung
Vergleich mit konventionellen stereobasierten und trifokalen Techniken
In Videosituationen, sei es Echtzeit- oder Offline-Anwendungen, ist es genauso wie bei stereobasierten und trifokalen Anwendungen notwendig, Korrespondenzen zwischen den Bildern
festzustellen. Diese Bilder werden hier aber nicht gleichzeitig, sondern zu unterschiedlichen
Zeitpunkten aufgenommen, und die Merkmale werden so zu sagen durch eine Videosequenz
¡¿. Diese Merkmale können (z. B. wegen unterschiedlicher Beleuchtungssituationen oder Verdeckungen) unter Umständen viel mehr Rauschen aufweisen, als bei Stereo-Bildpaaren. Dieses
Rauschen muss geschätzt und entsprechend behandelt werden, da die Genauigkeit der Tiefenschätzung sehr stark mit der Genauigkeit der Korrespondenzzuordnung zusammenhängt.
Es ist deswegen oft sinnvoll, ein Fehlermodell aufzustellen, z. B. mit Hilfe der Verteilung von
Gauss, um die Auswirkungen der falschen Zuordnungen so gut wie möglich zu kompensieren.
Dabei ist zu beachten, dass der Fehler von Bild zu Bild variieren kann.
Kritische Einschränkungen sind bei Videosequenzen und Realzeit-Anwendungen die Annahmen der Kausalität und der zeitlichen Kontinuität: Eine physikalische Kamera kann sich
nicht augenblicklich zwischen zwei Ansichtspunkten bewegen. Ein Objekt existiert und ändert
sich zwischen zwei Aufnahmen. Man kann deswegen davon ausgehen, dass sich die relative
Position zwischen dem Sensor und der Szene ständig ändert, was nach Möglichkeit in die
SfM-Berechnung eingehen sollte. Eine der Möglichkeiten ist die Verwendung der Theorie der
dynamischen Systeme, eine weitere besteht im Einsatz von rekursiven Techniken. Anstatt auf
die Ankunft von allen zukünftigen Daten zu warten, werden hier die Vorteile der zeitlichen
Kontinuität ausgenutzt: Jedes ankommende Bild wird gleich verarbeitet, mit der Summation
sämtlicher Ergebnisse in einem Zustandsvektor. Diese Methoden erhöhen erheblich die Verfahrenseffizienz und erlauben Echtzeit-Anwendungen, wie die automatische Navigation eines
3
SHAPE FROM MOTION
44
Roboters usw.
Eine Bewegung im Bild unterliegt nicht so vielen Einschränkungen, wie die Verschiebung
zwischen zwei Bildern in der Stereobildverarbeitung. Der Suchraum kann hier nicht so eng
begrenzt werden. Da die Bewegung eines Objekts im Prinzip beliebig sein kann, greift meistens die Epipolareinschränkung nicht mehr usw. Die wenigen Vereinfachungen, die noch
getroffen werden können, sind die folgenden Annahmen:
• Die maximale Geschwindigkeit der Bewegung ist begrenzt.
• Die Geschwindigkeitsänderungen sind gering.
• Der Grauwert eines Objektpunktes kann sich nur geringfügig ändern.
• Die Bewegung ist einheitlich und kann modelliert werden.
Beispiele für das Einfließen von diesen Einschränkungen in die Berechnung in Kombination
miteinander findet sich in [TAO01], [ZHA01].
Ein fundamentaler Unterschied der kausalen Methoden zu epipolaren und trifokalen Techniken liegt darin, dass die letzteren für weite Basislinien 3 ausgelegt sind, die nicht angenommen
werden können, wenn sich die Kamera oder die Objekte nur geringfügig verschieben. Das ist
bei Videosequenzen aber fast immer der Fall, so dass die SfS-Methoden4 nur ungenaue Ergebnisse liefern. Das Rauschen erschwert es den meisten SfS-Algorithmen zusätzlich, eine hohe
Rekonstruktionsqualität zu ermöglichen. Die einfachere Korrespondenzsuche ist jedoch ein
wichtiger Vorteil der SfS-Techniken, der viele Entwickler motiviert, diese Algorithmen auch
bei der Situation von bewegten Bildern und kleinen Basislinien anzuwenden.
3.1.2
Aktuelle Entwicklungen
Die Anpassung der SfS- und trifokalen Techniken auf die Situation von zeitlich aufeinander
folgenden Bildern ist eine der Möglichkeiten, die Tiefenschätzung aus den Videosequenzen
durchzuführen. Genauso wie bei reinen SfS-Techniken wird hier die Fundamental-Matrix
geschätzt mit einer ggf. vorher durchgeführten Kamerakalibrierung.
Da es hier nicht nur zwei, sondern mehrere Ansichten auf eine Szene gibt (Videosequenzen), ist
es nur logisch, die Stereogeometrie auf die Multi-View-Geometrie zu erweitern, dabei werden
rekursive Techniken für die Überprüfung und Verfeinerung der Berechnung eingesetzt, z. B.
wie folgt [POL00]:
1. Initialisierung der Bestimmung von Struktur und Bewegung
- Extraktion der Merkmale aus den ersten zwei Bildern
- Durchführung der Korrespondenzzuordnung und Berechnung der Epipolargeometrie für die zwei Bilder
- Konfigurierung des Intitialbildes
- Rekonstruktion der Initialstruktur
2. Addition der anderen Ansichten bzw. Bilder der Videosequenz
3 Basislinie
4 Shape
- Abstand zwischen den optischen Zentren der Kameras
from Stereo
3
SHAPE FROM MOTION
45
- Extraktion der Merkmale
- Durchführung der Korrespondenzzuordnung zu vorangegangenen Bildern und Berechnung der Stereogeometrie
- Berechnung der Position der aktuellen Ansicht mittels eines robusten Algorithmus
- Verfeinerung und Korrektur der existierenden Punktkorrespondenzen
- Initialisierung neuer Strukturpunkte
3. Verfeinerung, Korrektur und Erweiterung der Rekonstruktion
- Verfeinerung der berechneten und optimierten Struktur und Erweiterung der Rekonstruktion
Das von Koch und Pollefeys entwickelte System realisiert effizient eine automatische 3DOberflächenmodellierung [POLaKOC00], [POLaKOC99], [KOC98], wobei es unkalibrierte Videosequenzen von einer Kamera, die sich um ein reelles Objekt frei bewegt, verarbeitet. Die
Tiefenwerte werden hier nicht nur für einige Merkmalspunkte, sondern für alle Pixel ermittelt und so werden dichte Tiefenkarten erstellt. Aus den Tiefenkarten wird ein 3D-Modell
des Objekts berechnet, gleichzeitig findet eine Zuordnung der Texturinformationen zu den
Referenzpixeln statt. Die Ergebnisse sind sehr realistische VRML-Modelle der Szene (Ablauf
in der Abbildung 34).
Eine Erweiterung der epipolaren Bildanalyse für den Fall kreisförmiger Kamerabewegungen
wird in [FEL03]von Feldmann und Eisert realisiert. Statt der Suche nach den geraden Epipolarlinien werden hier Trajektorien von einzelnen Punkten in einem so genannten Bildwürfel
explizit berechnet (Image Cube Trajectory Analysis). Der Zeitaufwand ist zwar erheblich,
Tiefenkarten sind aber sogar für solche schwierige Bereiche wie periodische oder sehr detaillierte Strukturen sowie homogene Regionen von einer guten Qualität.
Eine formale Beschreibung der Rekonstruktionsformeln für Rotational Dynamic Stereo wird
für orthogonalen Koordinaten in [LI03] gegeben. Der Rotationswinkel ist dabei unbekannt.
Die Rekonstruktionsqualität ist recht hoch (Abbildung 35).
Ein anderes neues Verfahren ist die Anwendung von Quan und Lhuillier für die Schätzung
von Form aus Bewegung aus drei affinen Ansichten [QUA02].
3.2
Struktur aus dem optischen Fluss
Optischer Fluss ist der beobachtete Grauwertfluss in der Bildebene zwischen Bildern einer
Videosequenz: Objektbewegung bewirkt, dass Grauwerte über die Bildebene fließen [JIA02].
Für die meisten Anwendungen wird die Annahme getroffen, dass das optische Flussfeld mit
dem auf die Bildebene projizierten Vektorfeld der Bewegungen der 3D-Szene (dem Bewegungsfeld ) identisch ist (siehe Abbildung 36), obwohl diese nur bedingt gleichgestellt werden
können. Beleuchtungsänderungen in der Szene, hervorgerufen durch eine bewegliche Lichtquelle, bewirken z. B. eine Wanderung der Intensitätswerte über die Bildebene, obwohl keine
Bewegung stattfindet. Ein Beispiel für eine Änderung des Bewegungsfeldes ohne Änderung
des optischen Flussfeldes ist eine sich drehende Kugel mit einer gleichmäßigen Oberfläche
([JIA02]). Das fast immer vorhandene Rauschen muss ebenfalls berücksichtigt werden.
3
SHAPE FROM MOTION
46
Abbildung 34: Ablauf der 3D-Objektrekonstuktion. Quelle: [POLaKOC00]
Abbildung 35: Ein Eingangsbild (links) und die rekonstruierte 3D-Form (rechts). Quelle:
[LI03]
3
SHAPE FROM MOTION
47
Abbildung 36: Optischer Fluss, links: Messanordnung, rechts: geschätzter optischer Fluss.
Quelle: [TOE04]
3.2.1
Berechnung der Tiefenwerte aus dem optischen Fluss
Tiefenwerte können direkt aus dem berechneten optischen Fluss rekonstruiert werden, wie in
dem Fall einer statischen Szene und einer beweglichen Kamera. Die Kamera bewegt sich mit
einer Rotationsgeschwindigkeit ω und einer Translationsgeschwindigkeit υ, für jeden Punkt
M = (X, Y, Z)T kann die Geschwindigkeit wie folgt angegeben werden [AHR00]:
dM
= −υ − ω × M
dt
(42)
Y
Die Anwendung der Zentralprojektion x = f X
Z und y = f Z (mit Brennweite f) liefert eine
lineare Beobachtungsgleichung:
b = Hd
mit
d=
1
f
und
H = f ∆t
−1
0
0
−1
x
f
y
f


vx
 vy 
vz
sowie
b=
∆x
∆y
− ∆t
xy
f
f+
−(f +
y2
f
− xy
f
(43)
x2
f )
! ω 
x
y
 ωy 
−x
ωz
(44)
(45)
Die Einführung von Pseudo-Inversen von H führt zu der folgenden Gleichung für die Schätzung
der Tiefenvariable d:
(46)
d = (HT H)−1 HT b
Die Gewinnung der Tiefeninformationen gestaltet sich aus dem bereits berechneten optischen
Fluss (dargestellt als Verschiebungsvektoren (∆x, ∆y)T für jeden Pixel oder für Blöcke von
Pixel) relativ einfach, die Anwendung einer einfachen Triangulation reicht hier schon aus. Zu
bemerken ist allerdings, dass die Bewegungsschätzung selbst unter Umständen sehr komplex
3
SHAPE FROM MOTION
48
werden kann. Der optische Fluss kann mit einer Vielzahl der Methoden geschätzt werden,
auf die im folgenden Abschnitt kurz eingegangen wird (Quellen: [HEI98], [AHR00]). Für eine
Vertiefung in das Thema der Bewegungsschätzung werden [MAL98] und [AHR00] empfohlen.
Ein Beispiel für einen typischen Ablauf ist das später näher beschriebene Verfahren von Tao
([TAO01], Abbildungen 37, 45, ??). Zeitliche Korrespondenzen und somit der optische Fluss
werden hier basierend auf der Überlappung von Farbsegmenten festgestellt. Korrespondenz
von Pixeln in entsprechenden Segmenten ermittelt man anhand des optischen Flusses.
Abbildung 37: Oben: Schätzung des optischen Flusses, unten: Ermittlung der korrespondierenden Pixeln. Quelle: [TAO01]
3.2.2
Schätzung des optischen Flusses
An die Verfahren der Bewegungsbestimmung wird meistens die Forderung einer flächendeckenden und dichten Schätzung des optischen Flusses gestellt. Die Erfüllung dieser Forderung ist besonders für Anwendungen wichtig, welche die Bewegungsinformationen für eine
Tiefenschätzung oder 3D-Form-Berechnung benötigen. Eine weitere Forderung ist die Erhaltung der Diskontinuitäten des optischen Flusses, da diese unter anderen an Grenzen von
Objekten entstehen und für eine Segmentierung der Szene wichtig sind. Die existierenden
Lösungsansätze werden unten kurz beschrieben (Quellen: [HEI98], [AHR00]).
I. Differentielle Verfahren
Bei dieser Art der Algorithmen werden die Bewegungsinformationen aus den örtlichen und
zeitlichen Ableitungen der Intensität bestimmt. Wie bei den Korrespondenzverfahren geht
3
SHAPE FROM MOTION
49
man hier davon aus, dass die Helligkeit eines 3D-Punktes M = (X, Y, Z)T und seiner
2D-Projektion in die Bildebene m = (x, y)T eine Funktion seiner Koordinaten f (m, t) =
f (x(t), y(t), t) ist und über einige Zeit unverändert bleibt. Da es nur unter den Voraussetzungen einer konstanten Beleuchtung und translatorischen Szenenbewegungen möglich ist,
werden für die Berechnungen diese Annahmen getroffen.
Aus der Konstanz der Helligkeit entlang einer Trajektorie kann die Gradientengleichung für
dy T
den optischen Fluss v = (u, v)T = ( dx
dt , dt ) abgeleitet werden:
∇m f (m, t)T v(m, t) +
d
f (m, t) = 0
dt
(47)
Ein durch die Art der Bestimmung der Grauwertänderungen hervorgerufenes Problem für die
differentiellen und einige anderen Verfahren ist das so genannte Blende- oder Aperturproblem:
Nur die senkrecht zur Kante liegende Komponente des Verschiebungsvektors kann eindeutig
bestimmt werden, andere sind unbekannt (siehe Abbildung 38), so dass die Gradientengleichung oben ohne weitere Einschränkungen keine eindeutige Lösung liefert. Die Ursache dafür
ist die Anwendung von lokalen Operatoren, die jeweils nur einen kleinen Ausschnitt des Bildes
(entsprechend der Größe der Filtermaske) verarbeiten. Sicher kann der Verschiebungsvektor
bei kleinen Maskengrößen nur an Objektecken berechnet werden sowie bei einer Erweiterung
auf andere Detektorstrategien.
Abbildung 38: Aperturproblem, Objektbewegungen: sicher bestimmbare (rot), tatsächliche
(blau), ebenfalls mögliche (schwarz). Quelle: [MIE02]
Das zweite Problem wird durch die zeitliche Abtastung hervorgerufen: Eine zu kleine Abtastfrequenz kann zu erheblichen Fehlern in der Schätzung führen, so dass vor der Differentiation
bei meisten Algorithmen eine Tiefpassfilterung durchgeführt wird.
Lösung der obigen Differentialgleichung erfordert Einführung von einigen Zusatzbedingungen
und kann entweder auf lokaler oder auf globaler Ebene geschehen.
Globale Verfahren Bei dieser Art der Methoden verläuft die Berechnung von Verschiebungsvektoren für alle Pixel im Bild nicht unabhängig voneinander, sondern miteinander gekoppelt. Ergebnis der Schätzung sind dichte Verschiebungskarten, bei denen die
möglichen örtlichen Instabilitäten wie Rauschen ausgeglichen sind.
Ein wichtiger Ansatz ist das iterative Verfahren von Horn und Schunck, das auf einer angenommenen Glattheit der Gradientenlösung basiert: Es wird das Vektorfeld aus
3
SHAPE FROM MOTION
50
den möglichen nahe liegendenLösungen der Gleichung ausgewählt, das auch möglichst
¡¿ verläuft. Mathematisch wird es wie ein Minimierungsproblem der über die gesamte
Bildebene definierten Fehlerfunktion formuliert mit der Berücksichtigung der Abweichung (1. Term des Integrals) und der Glattheit (2. Term des Integrals):
Z Z
d
∇f (m, t)T v + f (m, t))2 + λ2 (||∇u||2 + ||∇v||2 )dxdy = min
(48)
dt
Die Ausdehnung der Fehlerfunktion auf das ganze Bild bringt es aber mit sich, dass
die Objektkanten geglättet werden. Dieser Nachteil wird bei den Verfahren vermieden,
welche die Glattheitsbedingung nicht auf das ganze Bild, sondern nur auf Bildsegmente
anwenden. Ein Bild wird dabei in Regionen aufgeteilt, die bezüglich bestimmter Merkmale wie z. B. der Helligkeit homogen sind. Der Verlauf des optischen Flusses wird für
diese Segmente unabhängig von anderen Regionen berechnet, so dass die Flussdiskontinuitäten erhalten bleiben.
Lokale Verfahren Diese Methoden betrachten Flussvektoren für jeden Bildpunkt getrennt
voneinander und stellen Plausibilitätsprüfungen erst bei der Nachbearbeitung der Ergebniskarten an. Da hier jeder Pixel entweder in einer kleinen Nachbarschaft oder gar
einzeln in die Berechnung eingeht, können die Verfahren keine zuverlässigen Schätzungen über homogene oder schwach texturierte Bildbereiche durchführen und liefern nicht
so dichte Vektorfelder, wie die globalen Verfahren. Als Vorteile erweisen sich allerdings
die Schnelligkeit und Präzision der Berechnung.
Für die Einschränkung von Lösungen der Differentialgleichung werden mehrere Ansätze
verwendet, wie z. B. die Annahme der Konstanz des Intensitätsgradienten:
d
∇f (m, t) = 0
dt
(49)
Diese Forderung ist aber nur erfüllt, wenn bestimmte Bewegungen wie Rotation im
Bild nicht vorkommen, dazu kommt die größere Störanfälligkeit dieser Algorithmen gegenüber globalen Verfahren.
Eine andere Möglichkeit ist die Modellierung des Verlaufs des optischen Flusses in einer kleinen Nachbarschaft Dm0 eines Punktes als konstant, der Flussvektor vm0 an der
Stelle m0 = (x0 , y0 ) wird aus der Minimierung der Fehlerfunktion berechnet, die Abweichungen der Schätzung von der Differentialgleichung und dem Modell berücksichtigt
(γ(x, y) ist eine Gewichtungsfunktion):
Z Z
d
γ(x − x0 , y − y0 )(∇f (m, t)T v + f (m, t))2 dxdy
(50)
dt
Dm
II. Frequenzbasierte Verfahren
Diese Methoden basieren auf der Bestimmung des optischen Flusses aus der Fouriertransformierten der orts- und zeitabhängigen Helligkeitsfunktion. Ein Bildsignal f (m, t) bewegt sich
mit einer konstanten Geschwindigkeit v:
f (m, t) = f0 (m + tv)
(51)
3
SHAPE FROM MOTION
51
und hat eine Fouriertransformierte
F (u, γ) = F0 (u)δ(γ + vT u)
(52)
Die Energie ist offensichtlich entlang der Ebene γ + vT u = 0 verteilt und verschwindet
außerhalb. Die Geschwindigkeit ist senkrecht zu dieser Ebene in dem 3D-Frequenzraum. Diese
Tatsache kann dazu verwendet werden, die lokale Bewegung im Bild zu schätzen, z. B. durch
eine Faltung mit einem Satz von Gaborfilterfunktionen und anschließendem Vergleich der
Filterantworten mit erwarteten Filterausgängen für vorgegebene Geschwindigkeiten (siehe
Bild 39). Dieses Verfahren ist allerdings nur schwer zu realisieren und liefert dazu auch keine
allzu guten Ergebnisse.
Abbildung 39: a) Bild aus der Eingangssequenz, b) geschätzter optischer Fluss, c) die für die
Bewegungsschätzung verwendeten Gaborfilter-Ausgänge. Quelle: [BRU02]
III. Korrespondenzverfahren
Diese Gruppe der Verfahren aus dem Bereich der Stereobildverarbeitung führt keine direkte
Schätzung des optischen Flusses, sondern eine Berechnung der Verschiebung eines Intensitätswertes zwischen zwei im Zeitabstand ∆t aufgenommenen Bildern durch. Optischer Fluss wird
∆y
als Grenzwert dieser Verschiebung (lim∆t→0 ∆x
∆t , lim∆t→0 ∆t ) approximiert.
Ein gutes Beispiel für eine robuste Bewegungsschätzung mit Stereo-Methoden ist das in
[GRE02] beschriebene Videosensorik-Verfahren für Roboter Navigation, das auf einem BlockmatchingAlgorithmus unter Verwendung stochastischer Vergleichskriterien basiert (Blockschaltbild in
Abbildung 40).
Allgemein können hier sowohl die klassischen Blockmatching-Methoden als auch die merkmalsbasierten Techniken angewendet werden, mit einigen oben beschriebenen Einschränkun-
3
SHAPE FROM MOTION
52
Abbildung 40: Blockschaltbild für eine robuste Bewegungsschätzung mit Stereo-Methoden.
Quelle: [GRE02]
gen. Bei allen Ansätzen ist eine hierarchische Vorgehensweise (von kleinster bis zu höchster
Auflösung) empfehlenswert, da dabei einige Fehlerquellen wie Rauschen, Beleuchtungsänderung, Verdeckungen besser kompensiert werden können. Bei den Blockmatching-Verfahren ist
es oft vorteilhaft, adaptive Blockgrößen und sich überlappende Blockbereiche zu erlauben, um
die Schnelligkeit und die Genauigkeit der Berechnung zu erhöhen. Merkmalsbasierte Verfahren sind insoweit besser, dass sie eine genauere und schnellere Bewegungsschätzung erlauben
mit dem Nachteil nur spärlich besetzen Tiefen- oder Verschiebungskarten. Bei merkmalsbasierten Ansätzen werden Bilder nicht einfach als Ansammlungen von Helligkeitswerten,
sondern als Szenen mit physikalischen Objekten betrachtet, deren Eigenschaften wie Grenzen, Flächeninhalte, Farben, Beweglichkeit usw. bestimmt werden können. Korrespondenzzuordnung findet somit für gewöhnlich nicht blockweise- sondern bilderweise statt, so dass
das Aperturproblem umgegangen wird. Gleichzeitig kommt aber das Problem hinzu, dass
die Ähnlichkeit der Merkmale zwischen der Bildern nicht so einfach festzustellen ist: Kantenlängen, Neigungswinkel, Regionengrößen, Objektkonturen usw. ändern sich von Aufnahme
zur Aufnahme, so dass hier geeignete und relativ komplexe Algorithmen zur Korrespondenzfindung und -Verifizierung eingesetzt werden müssen.
Einen Vergleich der gängigen Verfahren zur Bewegungsschätzung liefert Heisele in [HEI98]
(siehe Abbildung 41). Er gibt den regionenbasierten Ansätzen wegen ihrer Schnelligkeit und
Einfachheit die beste Bewertung. Es ist in der Tat so, dass sehr viele Echtzeit-Anwendungen
eine Farbsegmentierung und eine entsprechende Regionenzuordnung verwenden. Die gelieferten Tiefenkarten sind flächendeckend und für manche Zwecke ausreichend. Die schwache
Detailliertheit der Karten macht sie für den Einsatz z. B. bei der Bildsynthese ungeeignet,
so dass eine Nachbearbeitung erforderlich ist.
3.3
Rekursive und Multi-View-Techniken
Die Hinzunahme einer weiteren Videokamera liefert eine zweite Szenenansicht und gibt die
Möglichkeit, sowohl stereobasierte Techniken auf die gleichzeitig aufgenommenen Bilder als
auch beliebige andere Methoden der Bewegungsschätzung auf die aufeinander folgenden Bilder anzuwenden. Die Genauigkeit der Rekonstruktion erhöht sich dabei erheblich.
In [ZHA01] wird ein effizientes Verfahren für die Berechnung eines dichten 3D-Szenen-Flusses
aus mehreren (am Beispiel von drei) Videosequenzen vorgestellt. Ziele der Arbeit (die auch
erreicht werden) sind: 1) Detektion verdeckter Bereiche in unterschiedlichen Ansichten; 2)
Durchführung der 3D-Szenen-Fluss- und Objektstruktur-Schätzung; 3) Beibehalten von zu-
3
SHAPE FROM MOTION
53
Abbildung 41: Vergleich von Verfahren zur Bewegungsbestimmung. Quelle: [HEI98] (Tabelle
verändert)
verlässigen Bewegungsschätzungen und gefundenen Tiefendiskontinuitäten. Vorteilig ist bei
dieser Anwendung die gleichzeitige Integration von verschiedenen Suchbereicheinschränkungen sowohl für den optischen Fluss, als auch für Stereo-Bildpaare, die hier gemeinsam als
ein Minimierungsproblem formuliert werden. Die initiale Disparitätskarte wird dabei mit
einem hierarchischen regelbasierten Stereomatching-Algorithmus berechnet. Die Eingangsbilder werden dabei in Segmente unterteilt, die als planare Flächen mit Deformierungen
aufgefasst werden. Die Interpolation findet für jedes neue Bild adaptiv nach einem hier definierten Regelwerk statt. Ausgang des Verfahrens sind drei Karten: eine Verschiebungs-, eine
Verdeckungs- und eine Zuverlässigkeitskarte (Abbildung 42).
Abbildung 42: Von links nach rechts: Verschiebungs-, Verdeckungs- und eine Zuverlässigkeitskarten. Quelle: [ZHA01]
Einen schnellen und zuverlässigen Algorithmus für die Lösung des Triangulationsproblems aus
zwei Bildsequenzen präsentiert Oliensis in [OLI01]. Sein Vorschlag ist eine exakte und explizi-
3
SHAPE FROM MOTION
54
te Darstellung der 3D-Struktur aus vorliegender Bewegung. Der Least-Squares-Reprojektionsfehler
wird hier nur in Abhängigkeit von der Bewegung formuliert. Die Minimierung dieses Ausdrucks gibt die optimale Schätzung.
Der Kalman-Filter ist eine auf Bayesian Schätzung basierende Technik, die bei der Analyse von stochastischen dynamischen Systemen eingesetzt wird. Einen auf dem Kalman-Filter
basierenden Algorithmus für Tiefenschätzung aus Bildsequenzen haben Matthies, Kanade
und Szeliski in [MAT89] präsentiert. Der Ansatz wurde im letzten Jahrzehnt aktiv weiter
entwickelt [ZAN03], [AHR00].
Die bei den Kalman-Filter-basierten Methoden erforderliche Fehlerschätzung ist nur schwierig durchzuführen, weswegen man oft andere rekursive Techniken einsetzt. Von Chowdhury
und Chellapa [CHOWaCHE01] wurde ein neuer rekursiver Algorithmus zur Schätzung der
Szenenstruktur aus zwei Bildsequenzen mittels stochastischen Approximationstechniken entwickelt (Blockdiagramm in Abbildung 43). Die für jeden Abschnitt aus zwei Bildern fusionierte Tiefenschätzung wird anhand der bisher berechneten Kamerabewegung in das neue
Koordinatensystem des nächsten Bildpaares transformiert, wo eine neue Fusion stattfindet
usw. Die Kamerabewegung wird dabei mit Hilfe eines optimalen Bewegungsfilters rekonstruiert, stochastische Approximation wird entsprechend dem Robbins-Monro-Algorithmus
durchgeführt. Das Verfahren kann die Szene mit einer geforderten Genauigkeit beim Vorliegen einer ausreichenden Anzahl von Bildern rekonstruieren (Bild 44).
Abbildung 43: Blockdiagramm
[CHOWaCHE01]
eines
Algorithmes
für
Multi-frame-fusion.
Quelle:
Tao schildert in [TAO01] sein Verfahren zur Tiefenschätzung aus dynamischen nicht starren
Szenen. Der Eingang sind synchronisierte Videosequenzen von mehreren Kameras, die um
eine reelle Szene angeordnet sind. Basierend auf in der Szene vorhandenen chromatischen
Informationen wird eine Segmentierung der Bilder in eine Sammlung von stückweise planaren 3D-Oberflächen durchgeführt. Mit Hilfe von Szenenfluss-, Glattheits-, Geschwindigkeitsund anderen Einschränkungen und dem optischen Fluss wird eine zeitliche Tiefenprädiktion berechnet, räumliche Tiefewerte werden initialisiert und mit einer zeitlichen globalen
Tiefenhypothese getestet (Blockdiagramm in 45). Der Ausgang sind dichte, aber schwach
detaillierte Tiefenkarten (Abbildung 46), die Qualität kann aber noch verbessert werden.
3
SHAPE FROM MOTION
55
Abbildung 44: Links: Das erste und das letzte Bild der Eingangssequenz, rechts: zwei synthesierte Ansichten. Quelle: [CHOWaCHE01]
Abbildung 45: Blockdiagramm für ein dynamisches Tiefenermittlungsverfahren. Quelle:
[TAO01]
Abbildung 46: Links: Eingangsbild einer Videosequenz, rechts: die resultierende Tiefenkarte.
Quelle: [TAO01]
3
SHAPE FROM MOTION
3.4
56
Tomasi-Kanade-Faktorisation
Eine Alternative zu SfS-Techniken5 ist die Betrachtung von unterschiedlichen Projektionsmodellen. Der Fall der perspektivischen Projektion ist zwar charakteristisch für reale Kameras,
die Korrespondenzgleichungen sind aber schwierig in der Berechnung. Die orthographische
Projektion ist dafür die einfachste Projektionsart und hat eine triviale Form (Abbildung 47).
Abbildung 47: Orthographische Projektion. Quelle: [JEB99]
Die Grundlage für diese Techniken ist das Theorem von Ullman, das besagt, dass drei orthographische Projektionen von vier coplanaren Punkten eine eindeutige 3D-Interpretation
als starrer Körper haben. Eine der wichtigsten Methoden in dem Bereich wurde von Tomasi
und Kanade entwickelt (Beschreibung in [TOE04]). Die Grundlage für die Berechnung ist
eine lineare Formulierung, nur unterscheidet sich diese Linearität grundsätzlich von der in
vorangegangenen Epipolargeometrie-Anwendungen.
Diese Technik beginnt mit N korrespondierenden Punkten, dessen Korrespondenz in allen
M Bildern festgestellt wurde. All die Punkte werden in einer Matrix W der Größe (2M XN )
zusammen gefasst. Für jedes Bild (oder Zeile der Matrix W) wird ein Mittelwert gefunden
und von den Punkten der Zeile abgezogen. Das Ergebnis wird in einer neuen Matrix Ŵ
registriert. Diese resultierende Matrix kann als Produkt Ŵ = RS von einer 2M X3 Matrix
R (repräsentiert die Bewegung) und einer 3N Matrix P (repräsentiert die Form) dargestellt
werden, die mittels einigen linearen Operationen aus der Matrix Ŵ gewonnen werden.
Dieser Algorithmus ist zwar in meisten Situationen sehr robust und reicht für viele Anwendungen aus, er ist aber nur für orthographische Projektion ausgelegt und berücksichtigt
keine perspektivischen Effekte. Die Faktorisierungsmethode wurde von Poelman und Kanade weiter entwickelt für den paraperspektivischen Fall, der eine geschlossene Approximation
der perspektivischen durch orthographische Projektion darstellt und auf eine breitere Anzahl
von Bewegungsszenarien kann angewendet werden [POE97]. In [KAH00], [KAH99] wird ein
solches Verfahren der gleichzeitigen Kamerabewegung- und Strukturrekonstruktion aus un5 Shape
from Stereo
3
SHAPE FROM MOTION
57
kalibrierten Videosequenzen für Affine Kameras realisiert.
Eine gleichzeitige 3D-Modell-Gewinnung und eine Kalibrierung für mehrere Kameras sind
in dem aktuellen auf einem Faktorisierungsalgorithmus basierten Verfahren von Han und
Kanade [HAN00a] realisiert. Das System verarbeitet mehrere unkalibrierte perspektivische
Ansichten einer Szene und liefert zuverlässige 3D-Modelle mit zugeordneten Texturinformationen wie in der Abbildung 48. Im ersten Schritt des Verfahrens wird eine projektive
Szenerekonstruktion anhand eines bilinearen Faktorisierungsalgorithmes durchgeführt, die so
geschätzte projektive Lösung wird im zweiten Schritt in den euklidischen Raum konvertiert.
Diese viel versprechende Methode kann z. B. für Kamerakalibrierung, Geländeerkundung
oder 3D-Modell-Bildung für statische Szenen eingesetzt werden.
Abbildung 48: a) 1. und 9. Bilder der Gebäudesequenz, b) Oben- und Seitenansichten der
Rekonstruktion, 3-Eck-Figuren beschreiben Bewegung der Kameras, c) Zwei Ansichten mit
Texture-Mapping. Quelle: [HAN00a]
Auf einem Faktorisationsalgorithmus für eine skalierte orthographische Projektion basiert
das Verfahren von Bregler und Hertzmann [BRE00], welches die 3D-Form-Berechnung für
deformierbare Objekte am Beispiel von Menschen und Tieren realisiert. Diese einfache und
effiziente Technik basiert auf einem Non-Rigid-Model, welches die 3D-Form in jedem Bild
als eine lineare Kombination von einem Satz von Basisformen repräsentiert. Diese lineare
Kombination fließt in die Gesamtmatrix ein, weitere Berechnung findet in drei Faktorisierungsschritten analog zu anderen Methoden dieser Art statt. Im Gegensatz zu den meisten
anderen Verfahren werden hier keine vordefinierten Modelle oder mehrere Kameraansichten
benötigt, die Ergebnisse sind aber brauchbar (Bilder 49 und 50) und können weiter verbessert
werden. Zu beachten ist es aber, dass die Komplexität dieser Methode stark mit der Anzahl
der Basisformen ansteigt.
Von Han und Kanade ist eine Weiterentwicklung der Faktorisierungsmethode für die Rekonstruktion von Szenen mit mehreren beweglichen Objekten [HAN00]. Ausgehend von einer
monokularen kalibrierten Videosequenz werden Strukturen und Trajektorien der bewegten
3
SHAPE FROM MOTION
Abbildung 49: Beispieleingangsbilder. Quelle: [BRE00]
Abbildung 50: 3D-Rekonstruktion der Oberfläche (Giraffe). Quelle: [BRE00]
58
4
SHAPE FROM SHADING
59
Objekte und Bewegung der Kamera gleichzeitig berechnet. Die Anzahl der beweglichen Objekte wird automatisch detektiert, ohne eine vorgeschalteten Bewegungssegmentierung. Die
Annahme, dass sich die Objekte nur linear und nur mit konstanten Geschwindigkeiten bewegen können, erlaubt hier eine gemeinsame geometrische Repräsentation sowohl für statische
als auch für dynamische Szenenteile. Bei dieser Art der Repräsentation werden die Bewegungseinschränkungen in die Szenenstruktur eingebetet, und zwar so, dass die Formmatrix
aus zwei Räumen zusammengesetzt wird: aus einem Szenenstruktur- und einem Bewegungsraum. Der Algorithmus nutzt die Einschränkungen zwischen der Kamerabewegung und der
Formmatrix für die Durchführung der Rekonstruktion. Als Kameramodell wird hier das orthographische Modell eingesetzt, die intrinsischen Kameraparameter müssen im Voraus bekannt sein.
Ein Jahr später haben Han und Kanade ein neues Verfahren vorgestellt, das ähnlich dem
Vorgänger aufgebaut war. Er war jetzt im Stande, auch die intrinsischen Kameraparameter
gleichzeitig mit anderen zu Berechnungen zu schätzen und erforderte keine vorkalibrierten
Sequenzen. Zuerst wird die projektive Rekonstruktion mit Hilfe eines bilinearen Faktorisierungsalgorithmus berechnet, dann wird diese projektive Lösung in eine Euklidische transformiert. Für Einzelheiten wird die Quelle [HAN01] empfohlen.
4
Shape from Shading
Bei den schattierungsbasierten Verfahren (Shape from Shading, SfSh) werden die Variationen der Grauwertverteilung im Bild direkt in Beziehung zu Oberflächenorientierungen in
der Szene und der Beleuchtung gesetzt. Bei einer bekannten konstanten Reflexion (z. B.
Lambertsche) und einer bekannten Beleuchtung ist es möglich, aus den Bildintensitäten die
Oberflächennormalen zu rekonstruieren (zusammengefügt in ein Nadeldiagramm) und dann
die relativen Tiefenwerte für alle Pixel zu ermitteln (siehe Bild 51). Es existieren aber auch
Verfahren, die direkt aus der Bildintensität Tiefenwerte rekonstruieren [BIC92], [ZHAO99].
SfSh-Techniken kann man in zwei Gruppen unterteilen: globale und lokale Methoden. Bei den
globalen Techniken werden weiterhin die globalen Minimisierungsmethoden, bei denen die
Energiefunktion minimiert wird, und die globalen Propagation-Methoden, welche die Forminformationen von einigen berechneten Oberflächenpunkten (fast immer einzelnen Punkten) auf
das ganze Bild interpolieren, unterschieden. Bei lokalen Methoden werden für die Berechnung
der Intensitätsinformation nur die Punkte in der unmittelbaren Nachbarschaft hinzugezogen
[SAR95] [TSA94], [WEIN94].
Einen Überblick über die acht wichtigen Algorithmen für SfSh-Problem mit einem Genauigkeitund Zeitaufwandvergleich gibt Zhang in [ZHA94]. Laut seiner Untersuchung ist keiner der
Verfahren perfekt für alle Arten von Bildern, bei der Gesamtauswertung waren die globalen
Verfahren robuster, dafür die lokalen schneller. Im Weiteren wird es den Darstellungen von
[JIA97], [MAL98] und [KLE98] gefolgt.
4.1
Problemstellung
Die Grundlage der meisten Arbeiten auf diesem Gebiet ist der Ansatz von B. Horn, der die
Bildintensität I(i, j) wie folgt beschreibt:
4
SHAPE FROM SHADING
60
Abbildung 51: Tiefenrekonstruktion aus einem Grauwertbild mit SfSh-Techniken. Quelle:
[TOE04]
I(i, j) = κIi (x, y, z)Φ(~n(x, y, z), ~l(x, y, z), ~b(x, y, z))
(53)
Die verwendeten Bezeichnungen hier sind:
κ - Kamerakonstante
Ii (x, y, z) - Eingangsintensität des Lichtes an einem Punkt P (x, y, z)
Φ - Reflexionsfunktion
~n(x, y, z) - Flächennormale
~l(x, y, z) - Licht- bzw. Beleuchtungsrichtung
~b(x, y, z) - Betrachter- bzw. Kamerarichtung
Um das SfSh-Problem zu vereinfachen, werden im Allgemeinen weitere Annahmen getroffen:
- Es sind nur weiße gleichmäßige Oberflächen in der Szene vorhanden.
- Es ist kein Schattenwurf in der Szene möglich.
- Die Lichtquelle ist weit entfernt und als Folge ist die Beleuchtung konstant und ortsunabhängig für alle Punkte.
- Beobachter (Kamera) ist weit entfernt, deswegen ist Projektion nicht perspektivisch,
sondern orthogonal.
Ein beliebtes Modell für die Beschreibung der Reflexion ist die Lambertsche Reflexion:
Φ(~n, ~l, ~b) = α cos ψi
(54)
mit einer Reflexionskonstanten α und dem Winkel zwischen der Lichtrichtung und der Flächennormalen ψi . Das einfallende Licht wird für einen Lambert-Strahler in alle Richtungen gleichmäßig
4
SHAPE FROM SHADING
61
reflektiert.
Weitere Reflexionsmodelle können [JIA97], [MAL98], [KLE98] entnommen werden. Ein Reflektanzmodell für die 3D-Form-Gewinnung aus Radarbildern wird in [WIL99] vorgeschlagen.
Mit der Schätzung des Reflexionsmodells für natürlich beleuchtete Videosequenzen beschäftigen sich Love in [LOV97] und Yu in [YU99]. Eine weitere theoretische Arbeit auf diesem
Gebiet ist die Abhandlung [DRO02] von Dror, der Reflexionsstatistiken von realen Szenen
untersucht. Das Verfahren von Samaras [SAM99] erlaubt in einem iterativen Prozess eine
gleichzeitige Schätzung der Beleuchtungsrichtung in der Szene und der 3D-Form des Objektes. Eine aktuelle Arbeit von Samaras und Wang [WAN03] liefert eine Methode für Detektion
und Schätzung von mehreren Lichtquellen anhand eines einzelnen Bildes von einem Objekt
mit zufälliger, aber bekannter Geometrie.
4.1.1
Reflektanzkarte
Bei einer Darstellung der Flächennormalen ~n über die partiellen Ableitungen der Flächenfunktion g(x, y) wird sie wie folgt repräsentiert:
~n = (−
δg
δg
, − , 1) = (−p, −q, 1)
δx δy
(55)
Die Reflexionseigenschaften der Oberfläche können dann in einer Reflektanz- bzw. Reflektivitätskarte R(p, q) zusammengefasst werden, die für jede Orientierung die Reflexion angibt
(Abbildung 52).
Für einen Lambert-Strahler sieht die Karte wie folgt aus, wenn die Beleuchtungsrichtung ~l
auch im Gradientenraum angegeben wird:
1 + pl p + q l q
p
I(i, j) = R(p, q) = κIi α p
1 + p2l + ql2 1 + p2 + q 2
(56)
Der Term κIi α beschreibt die Textur des Objektes und wird oft zusammen gefasst als ρ,
Albedo.
Abbildung 52: Reflektanzkarte: ein 2dim Plot des Gradientenraumes (p, q) der normalisierten
Bildhelligkeit einer Oberfläche als Funktion der Oberflächenorientierung. Quelle: [BIS01]
4
SHAPE FROM SHADING
4.1.2
62
Reflektivitätsgleichung
Die zentrale Gleichung der Schattierungsanalyse ist die Image-Irradiance-Equation:
I(i, j) = R(
δG(x, y) δG(x, y)
,
)
δx
δy
(57)
Wie man aus der Gleichung für den Lambert-Strahler sieht, ist die Lösung dieser Gleichung
ohne weitere Einschränkungen (das gilt auch für andere Reflexionsmodelle) nicht eindeutig
möglich: Das Ergebnis ist nicht eine einzige Normale ~n, sondern alle Oberflächennormalen,
die auf einem Kegelmantel und die Lichtrichtung ~l mit Öffnungswinkel 2β liegen (Problem
der lokalen Vieldeutigkeit).
4.1.3
Rekonstruktion der Flächennormalen
Um die Flächennormalen tatsächlich zu rekonstruieren, werden verschiedene Zusatzbedingungen eingeführt, wie z. B., lokale Kontinuität der Flächen (die partiellen Ableitungen müssen
deswegen klein sein), die Randkurve der gesuchten Fläche, die Oberflächennormalen entlang
des Randes usw.
In dem Verfahren von Ikeuchi und Horn, das zu den globalen Minimierungsalgorithmen zählt
(Beschreibung aus [MAL98]), wird mit der Glattheitsbedingung das Problem, da eine exakte
Lösung mit dieser Annahme nicht mehr möglich ist, als ein Fehlerminimierungsproblem formuliert:
Z Z
=λ
Z Z
(I(x, y) − R(p(x, y), q(x, y)))dxdy +
(
δp 2 δp 2 δq 2 δq 2
+
+
+
)dxdy
δx
δy
δx
δy
(58)
Der erste Term beinhaltet den Datenfehler pro Pixel (Abweichung des gemessenen von dem
erwarteten Datenwert), der zweite die Glattheitsbedingung, λ ist der Regularisierungsparameter, der variiert werden kann. Die beste Lösung wird im Allgemeinen iterativ berechnet. Es
existieren mehrere iterative Algorithmen zur Rekonstruktion der Flächennormalen [MAL98],
[JIA02].
Eine der wenigen aktuellen theoretischen Arbeiten auf diesem Bereich ist die Abhandlung
von Pradas, Faugeras und Rouy, die einen neuen Weg für die Lösung des SfSh-Problems
über partielle differentiale Gleichungen vorschlagen [PRA02]. Eine ausführliche Analyse von
Fehlerquellen bei der Schätzung von Oberflächennormalen führt Schlüns in [SCHL97] durch.
4.1.4
Rekonstruktion der Oberfläche
Das Ergebnis der Berechnungen bei dieser Gruppe von Verfahren ist für gewöhnlich ein
Nadeldiagramm; die relativen Tiefenwerte werden aus dem Diagramm unter der Voraussetzung einer kontinuierlichen Oberfläche mit Hilfe einiger mehr oder weniger komplizierten
Rechenvorschriften ermittelt. Eine sehr gute Übersicht über die Rekonstruktionstechniken
gibt [KLE98].
Oft wird z. B. eine Methode angewendet, bei der aus einem Punkt mit bekanntem Tiefenwert (der Tiefenwert eines Punktes im inneren der Fläche wird als Initialisierung verwendet)
die Tiefenwerte seiner acht Nachbarn berechnet werden. Zu beachten ist erstens, dass die
Tiefenwerte nicht absolut, sondern relativ sind. Zweitens kann wegen der kontinuierlich angenommenen Oberfläche der Tiefenunterschied zweier benachbarten Objekte an der Grenze
4
SHAPE FROM SHADING
63
nicht wahrgenommen werden.
Eine aktuelle Arbeit auf diesem Gebiet ist die Technik zur iterativen Approximation von
Oberflächennormalen von Ikeda [IKE03]. Das Verfahren basiert auf der Iterationsmethode
von Jakobi und liefert akkurate und schnelle Ergebnisse (Abbildung 53).
Abbildung 53: Approximation der Oberflächennormalen mit der Iterationsmethode von Jakobi. Quelle: [IKE03]
4.2
Photometric Stereo
Die Methode gehört zwar bereits zu der Gruppe der aktiven Verfahren zur Tiefenschätzung
(es wird Licht in die Szene geworfen), wird hier aber ihrer Einfachheit wegen beschrieben.
Wenn man zu der oben beschriebenen Lichtquelle noch eine (oder mehrere) zusätzliche Lichtquellen einführt und mit einer Kamera für jetzt unterschiedliche, aber bekannte Beleuchtungssituationen Bilder aufnimmt, kann die Oberflächenorientierung aus dem Schnittpunkt
zweier (oder mehreren) Iso-Intensitätskonturen Ri (p, q) geschätzt werden. Sie wird bei zwei
Aufnahmen von unendlich vielen Lösungen auf mehrere möglichen Lösungen begrenzt. Bei
drei oder mehr Bildern kann die Oberflächenorientierung sogar eindeutig berechnet werden
(Abbildung 54). Eine praktische Anwendung lässt sich zum Beispiel durch Verwendung von
farbigem Licht realisieren.
Bei mehreren Lichtquellen kann sogar der Spiegelungseffekt berücksichtigt werden, worin
für fast alle Verfahren der Tiefenschätzung aus Bildern ein Problem besteht. Nachteilig bei
Photometric Stereo ist jedoch ein sehr großer Rechenaufwand nicht nur für die Bestimmung
der Schnittpunkte, sondern auch für die Berechnung der Reflektanzkarten, was nur für sehr
einfache Reflexionsmodelle (z. b., Lambertsche) auch einfach ist. Die Anforderungen an die
Aufnahmebedingungen sind hier auch höher als bei den konventionellen SfSh-Techniken.
4.3
Aktuelle Entwicklungen
Mit den Statistiken von Objektoberflächen für die Anwendung in SfSh-Verfahren beschäftigen
sich die Autoren von [ATI97], die eine Systematisierung von Objekten in Klassen abhängig
von Oberflächeneigenschaften und eine entsprechende Repräsentation vorschlagen. Das komplexe SfSh-Problem wird damit in ein einfacheres Problem der Parameterschätzung in einem
klein dimensionierten Parameterraum überführt. Für das für viele Anwendungen relevante
Beispiel von menschlichen Köpfen wird hier ein kompletter Verarbeitungsalgorithmus angeboten.
4
SHAPE FROM SHADING
64
Abbildung 54: Reflektanzkarte: Eine eindeutige Lösung durch Verwendung von einer dritten
Lichtquelle mit E3(p, q). Quelle: [TOE04]
Kimmel und Sethiam schlagen in ihrer Arbeit [KIM00] einen optimalen Algorithmus für
die Lösung des SfSh-Problems aus einzelnen Bildern vor, basierend auf dem Konzept von
Sethiamscher Fast Marching Method für die Berechnung der rekonstruierten Oberfläche. Die
Anwendung wurde besonders für den Einsatz in der automatischen Wegbestimmung für Roboter angepasst (Abbildung 55).
Abbildung 55: Navigation eines Rechteckes mit Rotation in 2D. Quelle: [KIM00]
Da die reinen SfSh-Techniken nur relative und keine absoluten Tiefenwerte liefern und außerdem nicht besonders schnell sind, werden diese Algorithmen fast immer in Kombination mit
anderen Verfahren der Tiefenschätzung, wie mit silhouettenbasierenden [SAV01], [KUZ01]
oder sehr oft mit stereobasierten Methoden [IKE86], eingesetzt. Eine neue theoretische Formulierung des Problems der gleichzeitigen Integration von SfS- und SfSh-Techniken wird in
[JIN00] vorgeschlagen und wird hier für die Vertiefung in das Thema empfohlen.
Eine der Möglichkeiten, das SfSh-Problem zu vereinfachen und die oft verheerenden Auswirkungen von Beleuchtungsvariationen zu kompensieren, ist die Ausnutzung der Eigenschaft der
Symmetrie von vielen natürlichen und künstlich geschaffenen Lebewesen und Gegenständen.
So lassen sich z. B. relativ einfach Oberflächen von Rotationskörpern mit Methoden von
4
SHAPE FROM SHADING
65
SfSi6 [WON01] oder Gesichtsformen aus einer einzelnen Ansicht mit direkten SfSh-Techniken
bestimmen [YIL02]. Ein Beispiel für eine derartige Anwendung ist das robuste Gesichtsrekonstruktionsverfahren von Zaho und Chellappa [ZHAO99]. Im Bild 56 ist eine deutliche
Verbesserung der Qualität im Vergleich zu einem ähnlichen lokalen Algorithmus sichtbar, eine nachfolgende Änderung des Prototyps entsprechend einem einfachen Gesichtsmodell bringt
wieder ein wenig natürlicher Asymmetrie in das Ergebnis.
Abbildung 56: Vergleich zwischen zwei Verfahren; von links nach rechts: Eingangsbild, Ergebnis eines lokalen SfSh-Algorithmes, Ergebnis eines symmetriebasierten SfSh-Algorithmes,
Verbesserung durch ein Gesichtsmodell. Quelle: [ZHAO99]
Eine deutliche Erhöhung der Qualität von 3D-Form-Rekonstruktion bei einer gleichzeitigen
Verwendung von photometrischen und konturenbasierten Algorithmen (SfSi) demonstrieren
die Autoren von [CHEN03]. Wie es aus der Grafik 57 erkennbar ist, liefert die Kombination
von beiden Techniken eine erheblich kleinere Fehlerrate, als bei einem getrennten Einsatz der
Methoden.
Abbildung 57: Fehlerrate für ein Beispielbild (Affe), psm - Photometric Stereo, sfc - Shape
from Contours, pcm adj - pcm augerichtet, merge - fusioniert. Quelle: [CHEN03]
Eine interessante Technik für die Berechnung der Objektform ist die von Zhang, Tsai und
6 Shape
from Silhouette
4
SHAPE FROM SHADING
66
Shah entwickelte Depth from Photomotion, welche eine kontinuierliche Variante von PhotometricStereo-Techniken darstellt. Die Bilder werden hier für eine rotierende Lichtquelle von einer
festen Kameraposition für ein ruhendes Objekt aufgenommen. Größere Bildanzahl als bei traditionellem Photometric Stereo und einfachere Bestimmung von Beleuchtungseigenschaften
(Lichtquelle und ihre Bewegung bekannt) bestimmen eine höhere Rekonstruktionsqualität
[ZHA93].
Ein weiterführendes Verfahren für die Berechnung von Struktur und Bewegung unter variierenden Beleuchtung aus einer monokularen Bildsequenz wird in [ZHA03] präsentiert: der
Algorithmus setzt Struktur from Motion, Photometric Stereo und Multi View Stereo ein und
wertet somit sowohl zeitliche als auch räumliche Intensitätsänderungen gleichzeitig aus. Affine Kameraparameter, Beleuchtung, Objektform und Albedo werden hier für einen Spezialfall
(ein starrer Körper mit Lambertscher Reflexion, Kamera und die Punkt-Lichtquelle sind fixiert, orthographische Projektion, keine Selbstschatten oder Verdeckungen sind zugelassen)
werden iterativ geschätzt. Die sehr gut Qualität der 3D-Form-Rekonstuktion mit dieser Technik ist in der Abbildung 58 erkennbar.
Abbildung 58: Eingangsbild (links), Rekonstruierte 3D-Form (Mitte) und 3D-Form mit
Albedo-Karte. Quelle: [ZHA03]
In [SAM00] wird eine auf mehreren Ansichten basierende Methode für die Berechnung von
Objektoberfläche und Beleuchtungseigenschaften am Beispiel von Gesichtsrekonstruktion demonstriert. Als Eingange dienen kalibrierte oder unkalibrierte Stereo-Paare sowie Bildsequenzen mit einem nichtkonstanten Albedo und nichtgleichmäßigen Lambertschen Oberflächen in
der Szene. Für jedes Stereopaar wird nach einer ggf. noch nötigen Kalibrierung eine Tiefenkarte berechnet und auf ein Gesichtsmodell angepasst, aufgrund dieser Ergebnisse wird
eine Segmentierung der Albedokarte in Bereiche mit pixelweise konstantem Albedo durchgeführt. Beleuchtungseigenschaften für diese Segmente werden geschätzt und für eine bessere
Szenenrekonstruktion verwendet. Das Verfahren bringt eine Erhöhung der Genauigkeit und
Detailliertheit der Rekonstruktion gegenüber den reinen SfS- und SfSh-Methoden (Bild 59).
Eine Möglichkeit der Oberflächenbestimmung von nicht direkt von einer Kamera einsehbaren
Rückseiten von Objekten bieten Techniken aus dem Bereich Shape-from-Darkness. Bei den
Verfahren werden für die 3D-Form-Bestimmung Informationen über in dem konventionellen
SfSh nicht erlaubten Selbstschatten hinzugezogen. Ein Beispiel für diese Verfahrensgruppe
wird in [DAU98] vorgestellt. Das Szenenmodell besteht aus starren 3D-Objekten, einer unbeweglichen Kamera und einer Lichtquelle mit einer bekannten Trajektorie (wie Sonne). Die
Rekonstruktion der Oberflächen in der Szene findet aus einem Satz zu verschiedenen Zeit-
4
SHAPE FROM SHADING
67
Abbildung 59: Rekonstruierte Oberfläche: a) Stereo-Ergebnis b) SfSh-Ergebnis ohne einer
Neuschätzung des Lichtes c) SfSh-Ergebnis nach der Neuschätzung des Lichtes. Quelle:
[SAM00]
punkten aufgenommenen Bildern statt. Als nachteilig bei diesem Algorithmus ist aber die
starke Abhängigkeit der Qualität der Rekonstruktion von der Genauigkeit der Bestimmung
der Lichtquellenbewegung anzusehen (Bild 60).
Abbildung 60: Form aus Selbstschatten: Effekte von unterschiedlichen Rauscharten. Quelle:
[DAU98]
Eine andere effiziente Kombination von photometrischen und SfSi-Methoden wird in [SAV01],
[SAV02] beschrieben. Bei dem von den Autoren vorgeschlagenen Kameraaufbau wird die visuelle Hülle eines Objektes nicht aus den konventionellen nach Bildsegmentierung entstandenen Objektsilhouetten, sondern aus dem Objektschatten (Shadov Carving) konstruiert. Das
Objekt befindet sich dabei auf einem Drehteller zwischen einer Punkt-Lichtquelle und der
Kamera. Die aus den Schattenbildern entstandene visuelle Hülle wird im zweiten Schritt mit
Hilfe von mehreren für verschiedene Lichtquellen aufgenommenen Objektbildern verfeinert
(Bild 61).
5
SHAPE FROM SILHOUETTE
68
Abbildung 61: Vergleich der Laser-Scan- (links) und Shadow-Carving-Methoden (rechts).
Quelle: [SAV02]
5
Shape from Silhouette
Die Gewinnung der 3D-Form für statische oder dynamische Objekte oder Szenen aus deren
Silhouetten ist ein weiterer Bereich der Bildverarbeitung, der besonders bei Hinter- und Vordergrundtrennung für bewegliche Objekte eine breite Anwendung findet. Silhouetten oder
Umrisse sind oft die dominantesten Bildmerkmale. Sie bieten viel Information über die Form
und die Bewegung eines Objektes und können einfach, schnell und zuverlässig extrahiert
werden. Es ist intuitiv verständlich, dass man die 3D-Form eines Objekts aus mehreren
Silhouetten gewinnen kann, obwohl es auch klar ist, dass bei den meisten Objekten und Objektoberflächen die Silhouetten allein nicht ausreichen und für detaillierte Darstellungen der
Objektform und Oberflächenstruktur weitere Methoden der Formschätzung wie z. B. Stereotechniken eingesetzt werden müssen.
Der Sensoraufbau, ginge es um Photokameras oder synchronisierte Videokameras, sieht hierbei für gewöhnlich wie im Bild 62 aus, wobei dynamische Szenen einige Einschränkungen mit
sich bringen. Die Anzahl von Eingangsbildern ist in diesem Fall begrenzt durch die physische
Anzahl der Videokameras. Dabei müssen die Kameras so platziert werden, dass sie keine
Aktivitäten in der Szene behindern.
Laurentini hat in [LAU94] eine formale Beschreibung für die SfSi-Methoden eingeführt. Die
zentrale Stelle in seiner Theorie nimmt das Konzept der Visuellen Hülle an. Die visuelle
Hülle stellt die beste geschlossene Approximation der geometrischen Form eines Objektes
dar, die aus einfachen Umrissen gebildet werden kann. Die visuelle Hülle eines Objektes
grenzt das Volumen im Szenenraum ein, in dem sich das Objekt garantiert befindet. Die
Qualität der Repräsentation hängt stark von der Anzahl der unterschiedlichen Ansichten,
Kamerapositionen und der Komplexität der Objektform ab (Abbildung 63).
5.1
Berechnung der Silhouetten
Eine Objektsilhouette ist im Wesentlichen eine binäre Segmentierung eines Bildes, in der
Pixel entweder als Vordergrund (zur Silhouette zugehörig) oder als Hintergrund gespeichert
werden. Eine weit verbreitete Technik für die Berechnung der Silhouetten ist Chromakeying
oder Bluescreen Matting [SMI96]. Bei dieser Methode hat der Hintergrund eine einzige Farbe
(z. B. blau), die nur mit einer geringen Wahrscheinlichkeit bei dem Objekt im Vordergrund
auftreten kann. Die Trennung findet durch einen einfachen Farbvergleich statt. Chromatische Techniken werden sehr oft bei Anwendungen in Television und Kinoindustrie eingesetzt,
5
69
Abbildung 62: Ein hypothetischer Aufbau für die Aufnahme von dynamischen Szenen. Quelle:
[BUE99]
Abbildung 63: Die Schnittpunkte von drei Grenzenkonen definieren die visuelle Hülle des
Objektes. Quelle: [BUE99]
5
70
z. B. bei Spezialeffekten, wo sie ihre Schnelligkeit und hohe Qualität demonstrieren. Der
Anwendungsbereich ist aber nur auf diese spezielle Studiosituation begrenzt, was ein schwerwiegender Nachteil dieser Methode ist.
Mehr Allgemeinheit bietet eine andere Technik, welche Backgroud Subtraction oder Image
Differencing heißt [BIC94], [FRI97]. Mit ihrer Hilfe wird ein statistisches Modell der Hintergrundszene aus mehreren Bildern erstellt. Änderungen in der Szene wie Bewegung von Objekten können über die Berechnung der Unterschiede zwischen dem neuen Eingangsbild und
dem Modell detektiert werden. Dabei werden alle Pixel dem Vordergrund zugeordnet, welche
erhebliche Intensitätsänderungen aufweisen. Es gibt mehrere Variationen des Algorithmus.
Die meisten sind schnell, robust und für den Einsatz in Echtzeitanwendungen geeignet.
5.2
Schätzung der Visuellen Hülle
Eine automatische Bestimmung der Form eines Objektes aus den Objektsilhouetten wird
für gewöhnlich über Silhouettenschnittverfahren durchgeführt, die im Allgemeinen wie folgt
ablaufen [NIE99]:
1. Für jede Objektsilhouette wird aus den Sichtlinien, die durch das Projektionszentrum
der zugehörigen Kamera und die Silhouettenkonturpunkte verlaufen, eine Grenzpyramide Vk konstruiert.
2. Die entstandenen Pyramiden werden für alle Objektsilhouetten aus allen N Kamerapositionen
TN überlagert. Die Schnittmenge aller N Pyramiden ist die rekonstruierte Form
V = k=1 Vk bzw. das eingeschlossene Volumen ist das rekonstruierte Volumen des
Objektes (Abbildung 63).
Die sämtlichen SfSi-Verfahren erfordern eine genaue Kenntnis der Positionen der Kameras
zu dem untersuchten Objekt. Die Information steht aber nur selten zur Verfügung, was eine
Kamerakalibrierung [NIE99] notwendig macht. Bottino, Jaulin und Laurentini untersuchen
in [BOT03] das Problem von SfSi bei unbekannten relativen Kamerapositionen und diskutieren es für den Fall von orthographischen Silhouetten mit Ansichtsrichtungen parallel zur
gleichen Ebene (Abbildung 64). Es wird hier ein Satz von Ungleichungen eingeführt, welche
alle möglichen Lösungssätze beschreiben und eine Technik zur Berechnung von wahrscheinlichen Lösungsräumen für jeden Satz vorgestellt.
Da die meisten SfSi-Methoden nur geometrische und keine photometrischen Informationen
Abbildung 64: Orthographische Silhouetten, Ansichtsrichtungen sind parallel zur gleichen
Ebene. Quelle: [BOT03]
für die Objektoberflächen liefern, werden oft gleichzeitig mit Tiefeninformationen auch Texturinformationen für jeden Punkt der Oberfläche berechnet und gespeichert [BUE99], [NIE99],
5
71
[MAT01].
Je nachdem, ob eine Methode zur Schätzung der visuellen Hülle eines Objektes das Objektvolumen oder die Objektoberfläche als Approximationsbasis nutzt, können diese Methoden grob
in zwei Kategorien unterteilt werden: volumen- [STE00] und oberflächenbasierte Techniken
[WON01], [DAV01], [BUE99].
5.2.1
Volumenbasierte Techniken
Die so genannte Volume Intersection Technique für die Konstruktion von volumetrischen
Objektbeschreibungen aus mehreren Ansichten wurde erstmals von Martin und Agrarwal
[MAR83] vorgeschlagen, die die Volumensegment-Repräsentation eingeführt haben. In [CHI86]
haben Chien und Aggarwal ein Algorithmus für die Generierung einer Octree-Objektbeschreibung
aus drei orthographischen Objektansichten unter orthographischer Projektion vorgestellt.
Das Verfahren wurde von Ahuja und Veenstra [AHU89] für die Verarbeitung von aus 13 Standardansichtsrichtungen aufgenommenen Bildsätzen weiter entwickelt. Von Hong und Shneier
[HON85] stammt eine Technik für Generierung der Octree-Beschreibungen aus mehreren unterschiedlichen Objektansichten unter der Voraussetzung der perspektivischen Projektion.
Ähnliche Verfahren entwickelten Potmesil [POT87], Noborio [NOB88], Srivastava [SRI90]
und Szeliski [SZE93].
Bei all diesen Verfahren werden visuelle Hüllen als Kollektionen von elementaren Volumenzellen (Voxel) approximiert. Anwendungen aus diesem Bereich können Objekte mit komplexen
Topologien verarbeiten, wobei die Quantisierungsgenauigkeit und so die Qualität der 3DRekonstruktion den Erfordernissen des Bildverarbeitungssystems angepasst wird (Abbildung
65).
Abbildung 65: Voxelrepräsentation der AND-Operation für vier Silhouetten für vier Auflösungen der Voxelgitter(83 , 163 , 323 , 643 ,). Quelle: [HAS03]
Ein Problem für diese Algorithmen ist der Rechenaufwand. Bei dem konventionellen Voxelmodell besteht eine kubische Abhängigkeit der Rechenzeit von der geometrischen Auflösung, so
5
72
dass die Verarbeitung für Realzeit-Anwendungen zu lange dauert. Aus diesem Grund werden
bei den meisten Implementierungen andere Modelle für Datenrepräsentation eingesetzt, wie
das Octree-Modell [KUZ01], [WON01] oder von [NIE99] vorgeschlagene Volumenstabmodell.
Die rekonstruierte Form wird hier über Volumenstäbe mit quadratischer Grundfläche dargestellt, die parallel zu einer Koordinatenachse in einem regelmäßigen 3D-Raster angeordnet
sind und durch einen Punkt jeweils am Anfang und am Ende eines Stabes vollständig beschrieben werden. Die Stablängen sind auf Vielfache einer Rastereinheit quantisiert, so dass
man hier ebenfalls eine äquivalente Formauflösung in allen Dimensionen wie beim Voxelmodell erhält. Der Speicheraufwand ist hier wie bei dem bekannten Octree-Modell proportional
nur zu Oberflächenpunkten, da die Endpunkte der Stäbe, über welche die Form repräsentiert
wird, definitionsgemäß auf der Oberfläche liegen.
Ein Beispiel für eine Echtzeitanwendung ist das Projekt GRAVIR [HAS03]. Es liefert eine
komplette Pipeline aus der Bildaufnahme, einer 3D-Form-Rekonstruktion und dem Einfügen
von menschlichen Akteuren in die virtuelle Welt in Realzeit. Das System ist eine voxelbasierte
Anwendung, welche triangulierte geschlossene Oberflächen wird aus Eingangsvoxeln über den
Marching-Cubes-Verfahren [WON01], [NIE99] erstellt. Es können etwa 30 Bilder pro Sekunde
verarbeitet werden. Die Qualität der Rekonstruktion ist zwar noch nicht besonders hoch (Bild
66), kann aber durch Verbesserung von Hardware (mehr Kameras, bessere Auflösung) oder
Software (Kombination mit Methoden der Stereobildverarbeitung, Photometrie, Einsatz von
Gesichts- und Körpermodellen) weiter erhöht werden.
Abbildung 66: Ergebnis der 3D Rekonstruktion nach dem Marching-Cubes-Verfahren für
verschiedene Größen von Voxelgitter (83 , 163 , 323 , 363 ). Quelle: [HAS03]
Eine sehr interessante Entwicklung ist das System von Wong [WON01], das bei einer 3DForm-Berechnung gleichzeitig Bewegungsinformationen, Epipolargeometrie und konventionelle SfSi-Techniken verwendet. Die Arbeit bietet einige Neuerungen in der Theorie und
liefert gleichzeitig ein komplettes und praktikables Verarbeitungssystem für Generierung von
3D-Modellen hoher Qualität aus einer Sequenz von 2D-Bildern.
5
73
Da die Eingangsbilder entweder eine Grauskalierung haben oder farbig sind, kann diese
zusätzliche photometrische Information in den SfSi-Prozess integriert werden, um die Qualität
der Rekonstruktion zu erhöhen. Ein komplettes Szenenmodell beinhaltet außer geometrischen
Informationen auch ein Modell der Oberflächenreflexion und der Szenenbeleuchtung, so dass
im Laufe eines Bild-Reproduktion-Tests die realen 2D-Bilder mit dem erstellten synthetischen
Szenenmodell auf ihre Photokonsistenz verglichen werden können. Ein Punkt der Szenenoberfläche ist dabei photokonsistent zu einem Satz von Bildern, wenn in jedem Bild, in dem
dieser Punkt sichtbar ist, seine Bildirradianz gleich der Intensität des korrespondierenden
Bildpixels ist.
Bei Anwendungen mit topologisch aufgebauten Voxelstrukturen (wie Octree) ist es sinnvoll,
die Photokonsistenz-Prüfung nicht auf den Oberflächenpixeln, sondern auf den immer kleiner
werdenden Voxeln durchzuführen, so dass man die nicht zum Objekt gehörenden Strukturen
früher aussortieren kann. Diese Gruppe der Algorithmen wird Voxel Coloring genannt und ist
in heutigen Anwendungen stark verbreitet. Einige Verfahren kommen hier sogar ganz ohne
Volumen-Schnitt-Methode aus und berechnen die Objektoberflächen aus reinen photometrischen Informationen.
In [KUZ01] wird ein typisches Verfahren zur Berechnung von 3D-Modellen aus den Silhouetten beschrieben. Verarbeitet werden kalibrierte Bildsequenzen von einer Kamera, die sich
um das Objekt in einer Laborumgebung bewegt. Die mit konventionellen hierarchischen
SfSi-Methoden gewonnenen visuellen Hüllen des Objekts werden für die kritischen Regionen mit Blockmatching-Methoden (polychromatische oder hierarchische) verbessert, was eine Erhöhung der Genauigkeit sowie Robustheit der Rekonstruktion und einen Gewinn an
Rechenzeit mit sich bringt.
5.2.2
Oberflächenbasierte Techniken
Hier wird die visuelle Hülle eines Objektes als Approximation durch Oberflächenelemente
berechnet. Diese Art der Algorithmen ist aber sehr anfällig für numerische Instabilitäten und
generiert oft unvollständige oder fehlerhafte Oberflächenmodelle. Besonders problematisch
ist die Behandlung von Objekten mit komplexer Topologie.
Pionierarbeit auf dem Bereich der Oberflächenrekonstruktion von glatten Objekten aus deren Umrissen haben Giblin und Weiss geleistet. In ihrer Studie [GIB87] wurde unter der
Annahme einer orthographischen Projektion und einer planaren Bewegung des Sensors demonstriert, dass man eine Oberfläche aus ihren sämtlichen Tangentebenen, die direkt aus
einer Familie von Silhouetten berechnet werden, gewinnen kann. Cippola und Blacke [CIP92]
haben die Arbeit von Giblin und Weiss auf eine kurvenlineare Bewegung der Kamera unter perspektivischer Projektion erweitert und die Osculating Circle Method entwickelt, die
eine epipolare Parametrisierung beinhaltet. Vaillant und Faugeras [VAI92] entwickelten eine
ähnliche Technik, in der eine Oberfläche über radiale statt epipolaren Kurven parametrisiert
wurde. Basierend auf diesem Verfahren haben Szeliski und Weiss [SZE98] die Voraussetzung einer linearen Glattheit von Oberflächen für die Berechnung von epipolaren Kurven
eingeführt. Jedoch wurde hierbei eine Schätzung der Unsicherheit dieser Annahme durchgeführt, was für eine Verbesserung der Rekonstruktion sorgte. Boyer und Berger herleiten in
[BOY97] eine Tiefenformulierung aus einer lokalen Approximation von Oberflächen ab mehr
als zwei diskreten Bewegungen. Wong präsentierte in [WON99] eine einfachere Implementierung von [CIP92], die trotz ihrer Einfachheit und Schnelligkeit Ergebnisse lieferte, die mit
5
74
Ergebnissen der Vorgänger vergleichbar waren.
Eine speichersparende Datenrepräsentation für SfSi-Anwendungen ist die bildbasierte Repräsentation der visuellen Hüllen [BUE99], [MAT00]. Das Bild 67 zeigt eine Scheibe so einer
bildbasierten visuellen Hülle für eine einzige Ansichtsrichtung. Die besetzten Tiefenintervalle können durch ihre Anfang- und Endkoordinatenpunkte dargestellt werden und benötigen
somit weniger Speicherplatz als Voxel in dem konventionellen Voxelmodell. Eine vollständige visuelle Hülle wird aus einem Satz solcher Scheiben gebildet. Da hier statt komplexer
Volumen-Schnitt-Techniken einfache Intervall-Schnitt-Methoden für die Berechnung des eingeschlossenen Volumens eingesetzt werden können und die Zuhilfenahme der Epipolargeometrie diese Rechnung zusätzlich erleichtert, ist diese Art der Datenrepräsentation besonders
für die Realzeit-Anwendungen geeignet.
Abbildung 67: Eine einzelne Scheibe einer bildbasierten visuellen Hülle. Quelle: [BUE99]
Die Repräsentation der 3D-Daten über Polygone hat viele Vorteile im Vergleich zu anderen Darstellungsarten wie Ansichtsunabhängigkeit, Schnelligkeit der Datenverarbeitung und
Unterstützung durch die gängige Hardware. Das zur Zeit einzige in Realzeit laufende SfSiSystem für die Berechnung und Darstellung exakter polyhedraler visueller Hüllen direkt aus
einem Satz von Bildern ist das System von Matusik [MAT01], [MAT02] (Abbildung 68).
Abbildung 68: Zwei flat-schattierte Ansichten einer polyhedralen visuellen Hülle. Quelle:
[MAT02]
6
SHAPE FROM FOCUS/DEFOCUS
75
Ein interessantes Verfahren zur Erhöhung der Qualität von visuellen Hüllen aus wenigen
Kameraansichten über die Zeit haben Cheung, Baker und Kanade entwickelt [CHE03a] (Abbildung 69). Die Verbesserung tritt durch die Integration von stereo-, bewegungs- und silhouettenbasierten Techniken auf und zwar so, dass die Bewegung zwischen den zu verschiedenen Zeitpunkten aufgenommenen visuellen Hüllen geschätzt und diese Informationen für die
geeignete Kombinierung dieser Hüllen zu der resultierenden 3D-Form eingesetzt wird. Der
Algorithmus der Bewegungsschätzung verarbeitet die mit Methoden von Multi-AnsichtenStereo berechneten so genannten Colored Surface Points (CSP). Eine Abwandlung dieses
Verfahrens für artikulierende Objekte stellt eine weitere Arbeit von denselben Autoren dar
[CHE03]. Die SfSi-basierte Anwendung ist für den den Einsatz bei der Schätzung der Kinematik von menschlichen Körpern geeignet. Die Technik basiert auf einer Segmentierung von
Objekten in bestimmte Teile (Fuß, Arm usw.) und einer getrennten Schätzung der Bewegung
für jedes Segment.
Abbildung 69: Dinosaurier-Banana-Sequenz (6 Kameras) a) Eingangsbild b) Unsortierte CSP
aus allen Bildern c) Sortierte CSP d) SfSi-Modell aus 6 Bildern e) SfSi-Modell nach 36 Bildern
f) SfSi-Modell nach 90 Bildern. Quelle: [CHE03a]
6
Shape from Focus/Defocus
Shape from Fokus (SfF) oder Shape from Defocus (SfD) ist das Problem der Schätzung von
3D-Objektoberflächen einer Szene, wenn zwei oder mehr Bildaufnahmen dieser Szene für
geänderte Kameraparameter (wie fokale Länge oder Linsenöffnung) vorliegen.
6
76
Grundlage für die gängigen Verfahren aus dem Bereich ist das Modell einer dünnen Linse, für
das die folgende Beziehung zwischen dem Abstand u eines Objektpunktes, der Linsenbrennweite f und dem Bildabstand (der Kamerakonstanten) v annährend gültig ist (Geometrisches
Aufbau in der Abbildung 70):
1
1
1
= −
(59)
u
f
v
Aus der Gleichung geht hervor, dass für eine gegebene Brennweite f und eine gegebene
Kamerakonstante v nur solche Objektpunkte scharf abgebildet werden, die sich genau bei der
Szenentiefe u befinden. Bei einer unscharfen Abbildung eines Raumpunktes in die Bildebene
ergibt sich ein Unschärfekreis mit dem Radius r (Abbildung 70).
Abbildung 70: Linsenmodell. Quelle: [FAV03]
Beugungseffekte und Abberation der Linse verursachen eine nicht konstante Helligkeitsverteilung h(x, y) über den Unschärfekreis und zwar so, dass sie ein Maximum besitzt und zum
Rand hin abfällt. Diese Funktion kann als Faltung eines idealen scharfen Bildes (als Eingang)
mit einer Systemfunktion mit einer gaußverteilten Impulsantwort h(r) approximiert werden:
h(r) = √
−r 2
1
e 2σ2
2πσ
(60)
Die Standardabweichung σ ist über eine experimentell ermittelbare Konstante a proportional
zum Radius r des Unschärfekreises:
r
σ=
(61)
a
Die zu der Impulsantwort h(r) zugehörige Fouriertransformierte H(Ωr ) lässt den Tiefpasscharakter der Faltung erkennen:
1
1
H(Ωr ) = e− 2 (σΩr ) =
e
1
2 (σΩr )
(62)
Wie es aus der obigen Formel ersichtlich ist, werden nur bei der Standardabweichung σ = 0
(entsprechend Unschärferadius r = 0) alle Bildfrequenzen durchgelassen, was einer scharfen
Abbildung entspricht. Je größer ist die Standardabweichung, desto weniger hochfrequente
Anteile werden im Bild zu finden sein (Abbildung 71). Somit eignet sich die Verteilung der
Bildenergie über die Frequenzen für die Beurteilung der Schärfe eines Bildes besonders gut
und wird in vielen Entwicklungen verwendet.
6
77
Abbildung 71: Normierte Übertragungsfunktion im Frequenzraum, H(ρ) entspricht H(Ωr )
In der Literatur zu Computer Vision wird für gewöhnlich klar zwischen den zwei auf diesem
Prinzip basierenden Techniken (SfF und SfD, Beispiel in Abbildung 72) unterschieden, je
nachdem, ob eine aktive Änderung der Sensorarameter während der Berechnung möglich ist.
Einen fast aktuellen Überblick geben [FAV03], [SUB93], der theoretische Hintergrund ist sehr
gut in den Dissertationen von Liu [LIU98] und Wei [WEI94] dargestellt.
Liu präsentiert in seiner Dissertationen [LIU98] eine der wenigen gleichzeitigen Implementierungen von DfF-7 und DfD-8 Techniken. Das hier vorgeschlagene Verfahren ermöglicht eine
akkurate 3D-Form-Rekonstruktion aus verrauschten defokussierten Bildsequenzen.
Ein Vergleich zu stereoskopischen Verfahren fällt insofern günstig aus, dass die fokusbasierenden Techniken keine Korrespondenzsuche erfordern. Ein einfacheres Sensoraufbau (nur
eine Kamera) und die perfekte Übereinstimmung der Bildbereiche (keine Verdeckungen) sind
auch von Vorteil. Gleichzeitig begrenzen hier aber Linseneigenschaften die Qualität der Tiefenschätzung. Es müssen oft nicht nur zwei, sondern mehrere Bilder ausgewertet werden, was
die Berechnungszeit erhöht. Auf das Aufnahmegerät werden hohe Anforderungen hinsichtlich
der Genauigkeit der Einstellungen gestellt.
6.1
Shape from Focus
SfF-Methoden führen die 3D-Szenen-Rekonstruktion mittels einer aktiven Änderung der Kameraoptik durch und zwar so, dass die Suche weitergeführt wird, bis die interessierenden
Punkte im Fokus sind.
Für die Verarbeitung von bereits vorhandenen Bildsequenzen (Archivaufnahmen, Spielfilme
usw.) eignen sich die auf Focused Image Surface (FIS) basierenden Verfahren besonders gut.
Die Idee ist hier, dass bereits beim Filmen die Kameramänner bestrebt waren, die interessierenden Objekte im Fokus der Linse aufzunehmen. So können Parallelen zwischen den
tatsächlichen Objektoberflächen und den Sätzen von sich im Fokus der Kameralinse befindenden Bildpixeln gefunden werden. Ein entsprechendes 3D-Form-Rekonstruktionsverfahren
wird für den Fall von akkurat fokussierten längeren Videosequenzen in [SUB93] realisiert.
7 Depth
8 Depth
from Focus
from Defocus
6
78
Abbildung 72: Ein Beispiel für Depth from Defocus aus zwei Bildern. Quelle: [WAT98]
Eine interessante Anwendung ist das bereits bei den Stereo-Methoden erwähnte System für
Kreation von photorealistischen 3D-Modellen von Lin, das als eine Kombination von SfFund SfS-Techniken realisiert wurde [LIN02]. In der Abbildung 73 ist das Block-Diagramm
für die Gewinnung von 3D-Informationen dargestellt. In dieser Phase werden zwei separate
Bildsequenzen für unterschiedliche Fokuspositionen aufgenommen. Aus jeder Sequenz werden
mit SfF-Methoden ein fokussiertes Bild und eine grobe Tiefenkarte erstellt, die in der Weiterverarbeitung durch Stereo-Matching ein akkurates texturiertes 3D-Modell liefern. Erhebliche
Berechnungszeiten (15-20 Minuten) und der spezielle Aufbau schränken aber Einsatzmöglichkeiten für dieses Verfahren stark ein.
6.2
Shape from Defocus
Bei den Verfahren von Tiefen- bzw. Strukturgewinnung aus Defokus werden Tiefenkarten
aus Sätzen von mehreren für verschiedene optische Einstellungen aufgenommenen Bildern
rekonstruiert. Die Aufnahmen werden hinsichtlich ihrer Schärfe untersucht, eine dynamische
Änderung von Kameraparametern im Laufe des Schätzprozesses ist hier nicht erlaubt.
Als Kriterium für die Beurteilung der Schärfe dient bei den meisten Anwendungen das
Verhältnis der hochfrequenten zu niederfrequenten Anteilen im Bild, da die Defokussierung
einen Tiefpasscharakter besitzt.
Der in [ZIO99] realisierte Algorithmus liefert gute Ergebnisse bereits für zwei Bilder (Beispiel
in Abbildung 74). Intrinsische Kameraparameter werden bei Bildaufnahme variiert. Grundlage dieses zuverlässigen Verfahrens ist die Bildzerlegung auf Hermite Polynomial Basis.
6
79
Abbildung 73: Blockdiagramm für eine mögliche Kombination von SfF- und SfS-Techniken.
Quelle: [LIN02]
7
SHAPE FROM TEXTURE
80
Abbildung 74: Tiefenschätzung aus zwei Bildern mit einer DfD-Technik a), b) Originalbilder
c) Geschätzte Tiefe. Quelle:[ZIO99]
Die etwas ältere Dissertation von Wei [WEI94] ist analog zu der oben beschriebenen Arbeit
für die Tiefenschätzung aus zwei Bildern ausgelegt. Das Verfahren basiert auf den eindimensionalen Fourier-Koeffizienten und ist eine Kombination von SfS- und SfD-Techniken. Eine
in der Arbeit präsentierte Anwendung ist die kontinuierliche Fokussierung von bewegten Objekten in Videosequenzen.
Ein fundamentales Problem der DfD-Techniken ist die zwangläufige Abhängigkeit der Leistung von Fokusoperatoren von der lokalen Szenentextur. Es führt dazu, dass die einzelnen
Operatoren wie z. B. Laplacian of Gaussian grundsätzlich nur mangelhafte Tiefenkarten liefern im Stande sind. Eine in [WAT98] von Watanabe und Nayar realisierte Alternative ist der
Einsatz von langen Filterbänken. Die hier vorgeschlagene Klasse von Breitbandoperatoren ist
invariant gegenüber Objekttexturen und generiert akkurate und dichte Tiefenkarten (siehe
Abbildungen 72 und 75).
7
Shape from Texture
Einige für den Menschen leicht auswertbarere Hinweise auf Objektformen, -Größen und Entfernungen beinhalten die so genannten Texturen: mehr oder weniger regelmäßige Wiederholungen von Basismustern wie in der Abbildung 76.
Bei einer maschinellen Bildverarbeitung sind Forminformationen aus Texturen (Shape from
Texture, SfT) am einfachsten zu bestimmen, wenn die genaue Form der elementaren Texturelemente (Texel) bekannt ist. In diesem Falle kann aus der Deformierung und der Größenänderung der Texel unter Berücksichtigung der perspektivischen Projektion die Orientierung der
Objektoberfläche berechnet werden, wie es aus dem Beispiel im Bild 77 erkennbar ist. Auch
wenn keine Informationen über die Form der Texel und die Art der Deformierung vorliegen,
liefert unter der Annahme eines regelmäßigen Musters der Flächeninhalt der Texel im Bild
7
SHAPE FROM TEXTURE
81
Abbildung 75: Der DfD-Algorithmus, angewendet auf eine reale Szene mit komplexen Texturen. Quelle: [WAT98]
verwertbare Hinweise auf die Oberflächenorientierung. Solche Verfahren gehören zur strukturellen Texturanalyse und können nur auf deterministische Texturen angewendet werden, die
in der Natur fast nicht vorkommen.
Die meisten natürlichen Texturen sind zwar statistisch regulär, können aber nicht so einfach
in die Basismuster zerlegt werden (Abbildung 78), so dass nur eine statistische Texturanalyse
für die Gewinnung der Tiefenformationen eingesetzt werden kann und zwar so, dass man
Texturmerkmale wie Gradient, Entropie, Korrelation, normales Histogramm oder das Richtungshistogramm usw. extrahiert und auswertet. Die existierenden Techniken in dem Bereich
sind aber so komplex und gleichzeitig so unzuverlässig, dass die statistische Texturanalyse
praktisch nur für die Mustererkennung oder Bildsegmentierung (z. B. in [SUP00], [HET03])
verwendet wird. Ein Überblick über die grundlegenden Verfahren zur texturbasierten Bildsegmentierung und Berechnung der Orientierung in segmentierten Regionen wird in [HUC96]
gegeben, gleichzeitig führen die Autoren eine Diskussion über texturbasierte visuelle Verarbeitung bei Mensch und Maschine.
Eine weitere Möglichkeit ist die Analyse von eventuell vorhandenen geometrischen Beziehungen im Bild wie parallele Kanten oder symmetrische Körper usw.
Die Texturanalyse erfordert einerseits keine Korrespondenzsuche und ist gegen die Beleuchtungsänderungen invariant, andererseits liefert sie im Allgemeinen (außer wenn die Texelgröße
genau bekannt) nur Oberflächenorientierungen und keine absoluten Tiefeninformationen. Die
Notwendigkeit von aufwendigen Bildsegmentierung und Texelsuche bzw. Merkmalextraktion
7
SHAPE FROM TEXTURE
82
Abbildung 76: Tiefeninformationen werden durch Größenänderung der Textur vermittelt.
Quelle: [BIS01]
Abbildung 77: Forminformationen aus der Verzerrung von Texeln. Quelle: [BIS01]
7
SHAPE FROM TEXTURE
83
Abbildung 78: Ein Beispiel für eine natürliche Textur. Quelle: [BIS01]
schränkt ihre Einsatzmöglichkeiten erheblich ein, so dass zurzeit kaum ein schnelles oder genaues Verfahren existiert.
Die nachfolgende Beschreibung der Texturanalyse-Methoden folgt Darstellungen von [JIA97]
und [BIS01].
7.1
Strukturelle Verfahren
Bei diesen Techniken werden hohe Anforderungen an das Grundmuster gestellt: Einzelne
Texel müssen planar, von gleicher Größe und eindeutig identifizierbar sein und dürfen sich
nicht überlappen. Zu beachten ist auch, dass man für die Berechnung einerseits sehr viele
Texturelemente braucht, andererseits dürfen diese Elemente nicht zu klein werden, so dass
die nicht kleiner als die Auflösung des Sensors sind.
Für den Fall, dass die genaue Form der Texel und die Art der Deformierung bekannt sind bzw.
ermittelt werden können, ist die Schätzung der Oberflächenorientierung am Einfachsten. Die
Oberflächennormalen werden aus der Größen- und Formänderung von Texeln unter Berücksichtigung der perspektivischen Deformierung berechnet. Ein Beispiel sind Kreise gleicher
Größe, die auf Ellipse im Sensorbild abgebildet werden. Die Hautachse der Ellipsen gibt den
Rotationswinkel bezüglich der Kamerablickrichtung an, das Verhältnis der beiden Achsen ist
proportional zur Neigung der Oberfläche [JIA97].
Eine in [JIA97] beschriebene Möglichkeit ist die Gewinnung von 3D-Form-Informationen aus
regelmäßigen Mustern von ebenen einheitlichen Texeln ohne Kenntnis von Texelform oder
-Größe, allerdings mit Einbeziehung von Kontextinformationen. Ein Texel der unbekannten
Fläche SW mit der Orientierung (p, q) in der Gradientenraumdarstellung und dem Abstand
zu Kamera d wird aus den Weltkoordinaten in die Bildkoordinaten auf ein Texel der Größe SI
und dem Mittelpunkt (A, B) abgebildet. Die Beziehung zwischen diesen Größen kann analog
zu dem SfSh-Problem im Gradientenraum wie folgt formuliert werden:
SI =
1 − Ap − Bq
SW 1 − Ap − Bq
p
= ρp
2
2
2
d
1+p +q
1 + p2 + q 2
(63)
In Analogie zu der Reflektanzkarte aus den SfSh-Techniken werden SI und ρ oft entspre-
7
SHAPE FROM TEXTURE
84
chend Texturintensität und Texturalbedo genannt. Die obige Gleichung wird als eine Funktion I = R(p, q) umgeschrieben. Die Gleichung ist unterbestimmt und kann nur gelöst werden,
wenn weitere Einschränkungen oder vereinfachende Annahmen (z. B. gleiches Texturalbedo
für benachbarte Texel) eingeführt werden.
Die Schwierigkeit liegt bei diesen Techniken liegt unter anderem in der Realisierung der für die
Berechnung notwendiger Detektion von Texeln und ihren Mittelpunkten. Eine der wenigen
praktischen Anwendungen in dem Bereich ist der von den Autoren von [BOO02] entwickelter
robuster Schätzer für die Bestimmung der Orientierung von linearen Texturen.
Eine Kombination von strukturellen und statistischen Ansätzen zeigt bessere Ergebnisse,
als bei einem getrennten Einsatz dieser Methoden. Ein Beispiel für eine solche Technik ist
der Verfahrensvorschlag von Forsyth [FOR01]. Das Verfahren kann sogar Oberflächen mit
zufällig verteilten Grundtexeln schätzen, was für die lokalen Methoden so nicht möglich wäre
(Abbildung 79). Hierbei dienen die Deformierung von individuellen Texturelementen als eine
lokale und ihre Verteilungsstatistik als eine globale Textureigenschaft.
Abbildung 79: Tatsächliche und rekonstruierte Oberflächen. Quelle: [FOR01]
7.2
Statistische Verfahren
Bei natürlichen Texturen können wegen ihrer stochastischen Struktur die Methoden der
strukturellen Analyse nur schlecht oder gar nicht angewendet werden. Die Tatsache aber,
dass diese Oberflächenmuster zwar nicht regelmäßig sind, aber oft eine Gleichverteilung aufweisen, lässt eine Beschreibung mit statistischen Mitteln zu.
Eine der Möglichkeiten ist die Repräsentation von Texturen über lokale räumliche Frequenzen. Diese Idee wurde unter anderem in [KRU94] realisiert. Da die Frequenzen vollständig
mathematisch charakterisiert werden können, kann die perspektivische Deformierung der
Textur leichter und genauer mathematisch beschrieben werden.
Weitere Beschreibungsmöglichkeiten, die oft angewendet werden, sind z.B. Histogramme,
Entropie, Momente, Korrelation, filterbasierte Repräsentationen (Gabor-Filter) usw. Die
Schwierigkeit einer genauen mathematischen Modellierung von natürlichen Texturen führt
dazu, dass die meisten Texturanalyseverfahren bestenfalls eine robuste Segmentierung des
7
SHAPE FROM TEXTURE
85
Bildes in unterschiedliche Bereiche erlauben und nicht im Stande sind, genaue Forminformationen zu liefern.
Ein Verfahren für die Schätzung der 3D-Form direkt aus lokaler Struktur der Helligkeitsmuster haben die Autoren von [GAR94] entwickelt. Die Ergebnisse der Schatzung aus monokularen Bildern über den Texturgradienten sind in Abbildung 80 und aus Stereo-Bildpaaren
über den Gradienten der horizontalen Disparität in der Abbildung 81 dargestellt.
Abbildung 80: Schätzung lokaler Oberflächenorientierung für ein synthetisches Bild mit planarer Oberfläche und 5 Prz. Rauschen (links), mit zylindrischer Oberfläche und 25 Prz.
Rauschen (Mitte) und für ein reales Bild mit planarer Oberfläche (rechts). Zeilen von oben
nach unten: a) Graubild, b) detektierte Flecken, c) tatsächliche und d) geschätzte Oberflächenorientierung. Quelle: [GAR94]
Sowohl Ansätze der statistischen (Histogramm-Betrachtung) als auch der strukturellen Texturanalyse werden für qualitative Distanzschätzungen aus monokularen Bildern in [CANT01]
verwendet. Die vorgeschlagene Realisierung erlaubt es allerdings nur, zu bestimmen, ob ein
Punkt in der Bildebene näher zum Betrachter im Vergleich zu einem anderen Punkt liegt,
quantitative Aussagen über die Entfernung werden nicht getroffen.
7
SHAPE FROM TEXTURE
86
Abbildung 81: Schätzung lokaler Oberflächenorientierung für ein synthetisches (oben) und
ein reales Bild (unten) aus Gradienten der horizontalen Disparität. Spalten von links nach
rechts: a)-b) Graubild-Stereopaare c) geschätzte und d) tatsächliche Oberflächenorientierung.
Quelle: [GAR94]
Eine gleichzeitige Betrachtung des SfT- und SfSh-Problems mit Hilfe von Wavelets wird
von den Autoren von [CLE99] vorgeschlagen, die ein stochastisches Modell für texturierte
Oberflächen mit Berücksichtigung sowohl der Textur als auch der Schattierung einführen.
Die Ergebnisse sind können in der Abbildung 82 betrachtet werden.
Abbildung 82: SfT-Problem mit Wavelets: das originale (oben) und das rekonstruierte (unten)
Bilder. Quelle: [CLE99]
7.3
Geometrische Szeneneigenschaften
Zu dieser Gruppe von Verfahren gehören Techniken, die aus geometrischen Beziehungen in
der Szene die 3D-Form-Rekonstruktion durchführen. Ein gutes Beispiel sind parallele Gera-
8
PROBLEMBEHANDLUNG
87
den, die eine Fläche im Raum begrenzen: Aus dem Fluchpunkt und der Fluchtlinien kann die
Orientierung der Fläche berechnet werden [BIS01]. Die Schwierigkeit besteht hier im Auffinden der Fluchtpunkte im Bild.
Eine weitere Möglichkeit in der Bestimmung der Szenengeometrie besteht z. B. in der Berechnung von Schnittflächen für parallele Geraden oder in der Ausnutzung der Eigenschaft
der Symmetrie von vielen Gegenständen (Abbildung 83, [BIS01]).
Abbildung 83: Geometrische Szeneneigenschaften. Quelle: [BIS01]
8
Problembehandlung
Auswirkungen von Beleuchtungsänderungen, Spiegelungen und Rauschen können auf mehrere Arten kompensiert werden.
Die erste, einfachste Variante ist die allgemeine Glättung der berechneten Tiefenkarten oder
3D-Modellen, z. B. mit einem Median-Filter. Hier ist keine genaue Kenntnis über die falsch
geschätzten Korrespondenzen nötig, so dass das Verfahren sehr einfach ist. Allerdings werden
gleichzeitig mit den Disparitäten Objektgrenzen geglättet.
Wenn Informationen über die falsch berechneten Bereiche vorliegen, z. B. durch einen LinksRechts-Check, können durch eine Interpolation über Nachbarpixel oder eine modellbasierte
Interpolation durchgeführt werden. Ein Beispiel für eine modellbasierte Anwendung ist das
Verfahren von Eisert [EIS03a], das die Schätzung von Modellparametern mit einer AnalysisSynthese-Schleife durchführt (Blockschaltbild in 84). Zu beachten ist erstens, dass sich der
Rechenaufwand für diese Bestimmung erheblich erhöht. Zum zweiten sind nur für bestimmte
Objekte wie Gesichter, Hände, Autos usw. solche Modelle vorhanden. Die Objektklasse für
diese Interpolation muss auch automatisch bestimmbar sein.
Am besten ist es natürlich, wenn der Tiefenschätzungsalgorithmus gleich akkurate Informationen liefert, so dass keine Nachbearbeitung nötig ist. Die Rekonstruktionsqualität kann z.
B. drastisch erhöht werden, wenn statt zwei mehrere Ansichten auf eine Szene in die Berechnung einfließen. Unglücklicherweise bringt eine Verwendung von mehreren Bildern auch eine
Erhöhung der Anzahl der verdeckten Regionen mit sich - Bilderpartien, die zwar in einigen,
aber nicht in allen Ansichten sichtbar sind und so fehlerhafte Korrespondenzen und Dispa-
8
PROBLEMBEHANDLUNG
88
Abbildung 84: Analysis-Synthese-Schleife. Quelle: [EIS03a]
ritätsinformationen liefern.
Eine Abhilfe kann hier eine gleichzeitige Verwendung von stereo- und volumenbasierten Techniken schaffen, wie es in dem entsprechenden Abschnitt beschrieben wurde. Eine andere
Lösung bieten z. B. Kang, Szeliski und Hai in [KAN01] an. Die von ihnen realisierte Idee
besteht in dem Einsatz von einer Kombination aus räumlich verschiebbaren Suchfenstern
mit variabler Fenstergröße und einer dynamischen Unterteilung der Nachbarbilder in Segmentsätze für die Korrespondenzzuordnung auf der lokalen Ebene mit einer Verfeinerung der
Ergebnisse auf der globalen Ebene (Ablauf in der Abbildung 85). Diese Verbesserung wird
durch den Einsatz von einer Energie-Minimierungsfunktion realisiert.
Abbildung 85: Ablauf eines auf mehreren Ansichten basierten Suchalgorithmus. Quelle:
[KAN01]
Eine Erhöhung der Rekonstruktionsqualität bei einem ähnlichen Verfahren von Agrawal und
Davis wird durch eine bessere Methode zur Erhaltung der Szenen-Diskontinuitäten erreicht
(Beschreibung in [AGR03], Vergleich der Ergebnisse in 86).
Extreme Lichtverhältnisse, spiegelnde Reflexionen, harte Schatten: Dies sind Probleme, mit
denen man bei den Weltraum-Anwendungen der bildbasierten Verfahren wie automatische
Satellitenidentifikation, -Andocken und -Fehlerdiagnose zu kämpfen hat (Bild 87 als Beispiel).
Eine robuste Lösung bieten z. B. Verfahren, welche die gewonnenen Stereokorrespondenzen
9
VERGLEICH DER VERFAHREN UND AUSBLICK
89
Abbildung 86: Vergleich der Algorithmen von [KAN01] (links) und [AGR03] (rechts)
mit Hilfe von Bewegungsinformationen automatisch überprüfen und korrigieren (Flussdiagramm in der Abbildung 88), wie die Anwendung von Moyung und Fieguth [MOY00].
Abbildung 87: Eine Weltraum-Szene. Quelle: [MOY00]
Die Verwendung von mehreren Lichtquellen erhöht die Qualität der 3D-Rekonstruktion auch
bei monokularen Ansichten (Photometric Stereo). Nachteilig ist das gleichzeitige Wachstum
des Rechenaufwandes.
9
Vergleich der Verfahren und Ausblick
In dieser Studienarbeit wurden etwa 210 Literaturquellen (Artikel, Forschungsberichte, Dissertationen, Bücher, Vorlesungsmaterialien usw.) aus den letzten dreißig Jahren, vor allem aus
dem letzten Jahrzehnt verarbeitet, so dass die Literaturauswahl als repräsentativ betrachtet
werden kann. Bei der Auswertung der einzelnen Techniken wird hier auf die entsprechenden
Kapitel der Studienarbeit verwiesen.
Wenn man bei der ersten groben Beurteilung der Verfahren nach der Anzahl der Publikationen vorgeht (Abbildung 89), wird es erkennbar, dass in der letzten Zeit vor allem die
9
90
Abbildung 88: Flussdiagramm für einen automatischen Rekonstruktionsalgorithmus. Quelle:
[MOY00]
kombinierten SfS- und SfM-Techniken eine rasante Entwicklung verzeichnen können. Die
Ausnutzung von räumlichen (zwischen den Stereobildern) und zeitlichen (zwischen den Nachbarsbildern einer Videosequenz) Abhängigkeiten gleichzeitig bringt eine höhere Rekonstruktionsqualität, als bei einer getrennten Verarbeitung. Durch die Verbesserung von Hardware in
letzten Jahren werden relativ schnelle Implementierungen der sehr rechenaufwendigen Algorithmen zur Korrespondenzsuche in den Bildern ermöglicht. Die Rechenaufwendigkeit dieser
Algorithmen und die Begrenzung der Übertragungsrate bei den Online-Anwendungen bringen
aber die Notwendigkeit mit sich, die verarbeitenden Datenraten zu reduzieren. Das kann z.
B. dadurch geschehen, dass man nur kleine Bildgrößen zulässt, Vorder- und Hintergrundtrennung durchführt sowie Objektmodelle (Gesicht, Hand, Auto) einsetzt. Ein typisches Beispiel
für eine solche Anwendung sind die Videokonferenz-Systeme.
Die reinen stereobasierten Verfahren sind vor allem für Echtzeit-Anwendungen wie Roboter
Vision nach wie vor aktuell, da diese Techniken als einzige robuste und schnelle Ergebnisse liefern sowie preiswerte (nur zwei Kameras) Lösungen ermöglichen können. Hier werden
allerdings keine kompletten 3D-Modelle erstellt, sondern grobe Umgebungsmessungen durchgeführt.
Schattierungsbasierte Tiefenschätzung ist als einzige Methode im Stande, aus einem einzelnen
Bild eine Oberflächenrekonstruktion durchzuführen, was sie zu einem beständig interessanten Forschungsgebiet macht. Diese Technik benötigt keine Korrespondenzsuche und ist relativ
schnell, die Rekonstruktionsqualität hat aber eine starke Abhängigkeit von der Genauigkeit
der Schätzungen der Lichtquelle und der Objektreflexion. Die bestehenden Anwendungen
9
91
vereinfachen das Problem z. B. durch die Annahme der Objektsymmetrie oder durch die
Verarbeitung von mehreren Objektansichten. Interessante Lösungen bieten die Kombinationen mit stereo- oder bewegungsbasierten Methoden. Die Qualität der Rekonstruktion erhöht
sich bei diesen kombinierten Verfahren im Vergleich zu ursprünglichen Algorithmen erheblich, allerdings mit der gleichzeitigen Erhöhung der Rechenzeit.
Schätzung der Objektoberflächen aus den Objektsilhouetten wird in letzten Jahren vor allem
durch die vermehrte Nachfrage aus der Unterhaltungsindustrie vorangetrieben. Die Erstellung
von kompletten 3D-Modellen ist mit diesen Methoden einfacher, zuverlässiger und billiger,
als die aktiven9 Verfahren. Die gleichzeitige Integration von stereo- und bewegungsbasierten Techniken erlaubt hoch qualitative Rekonstruktionen. Da aber vor allem die volumenbasierten Techniken eine sehr große Datenmenge als Ergebnis der Rekonstruktion liefern,
sind hier geeignete Darstellungstechniken der Daten im Computer wichtig. Bei den RealzeitAnwendungen werden die SfSi-Methoden oft für die Vorder- und Hintergrundtrennung eingesetzt.
Die Tiefenschätzung mit fokusbasierten Techniken ist insofern relativ einfach, dass man keine Korrespondenzsuche durchführen muss. Zwei große Nachteile verhindern aber eine Weiterentwicklung dieser Methoden, so dass es kaum neue Forschungen auf dem Gebiet gibt.
Erstens wird die Qualität der Rekonstruktion durch die Linseneigenschaften begrenzt. Zweitens müssen die Aufnahmegeräte genaue einstellbar sein, was durch die Fertigungsfehler nur
bedingt möglich ist.
Die Texturanalyse wird ihrer Komplexität und Unzuverlässigkeit wegen vor allem für die
Bildsegmentierung und die Mustererkennung eingesetzt. Es gibt nur wenige Anwendungen
auf dem Bereich der Tiefenschätzung, die auch nur ungenügende Rekonstruktionsergebnisse
liefern.
Wie man aus der Arbeit sehen kann, existieren keine Techniken, die für alle Arten von
Bildern, Szenensituationen und gewünschten Ergebnissen (Tiefenkarte, 3D-Modell) perfekt
wären. Das Problem der Gewinnung von 3D-Informationen aus 2D-Bildern ist so komplex,
dass zur Zeit nur für bestimmte ausgewählte Anwendungsgebiete Lösungen erarbeitet wurden
bzw. werden.
9 z.
B. Laserscan
A
LITERATUR
92
Abbildung 89: Übersicht über die verwendeten Literaturquellen
A
Literatur
Literatur
[AAN02]
Aanaes, H.: Methods for Structure from Motion, Ph.D. Thesis, Technical University of Denmark, 2002
[ABD71]
Abdel-Aziz, Y. I. and Karara, H. M.: Direct linear transformation from comparator coordinates into object space coordinates in close-range photogrammetry.
In Proc. ASP/UI Symp. Close-Range Photogrammetry, pp. 1-18, Urbana, IL,
January 1971
[AGA99]
de Agapito, L., Hartley, R. I. and Hayman, E.: Linear calibration of a rotating
and zooming camera, In Proc. Conf. Computer Vision and Pattern Recognition,
volume I, pages 15-21, Fort Collins, CO, June 1999
[AGR03]
Agrawal, M. and Davis, L.: Window-based, discontinuity preserving stereo, 2003
[AHR00]
Ahrns, I.: Ortsinvariantes akives Sehen für die partielle Tiefenrekonstruktion,
Fortschritt-Berichte VDI, Reihe 10, VDI Verlag, 2000
[AHU89]
Ahuja, N. and Veenstra, J.: Generating octrees from object silhouettes in orthographic views. IEEE Trans. on Pattern Analysis and Machine Intelligence,
11(2):137-149, February 1989
[ALA98]
Alatan, A. A. and Onural, L.: Estimation of Depth Fields Suitable for Video
Compression Based on 3-D Structure and Motion of Objects, IEEE TRANSACTIONS ON IMAGE PPOCESSING, Vol. 7, NO. 6, June 1998
[ANS03]
Ansar, A. and Daniilidis, K.: Linear Pose Estimation from Points or Lines, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 25, NO. 4, APRIL 2003
LITERATUR
93
[ARM96]
Armstrong, M., Zisserman, A. and Hartley, R.: Self-calibration from image triplets, In B. Buxton and R. Cipolla, editors, Proc. 4th European Conf. on Computer Vision, volume 1064 of Lecture Notes in Computer Science, pages 3-16,
Cambridge, UK, April 1996. Springer-Verlag
[ATI97]
Atick, J. J., Griffin, P. A. and Redlich, A. N.: Statistical Approach to Shape
from Shading: Reconstruction of 3D Face Surfaces from Single 2D Images, The
Rockefeller University, New York, http:
venezia.rockefeller.edu, 1997
[AVI98]
Avidan, S. and Shashua, A.: Novel View Synthesis by Cascading Trilinear Tensors, IEEE Trans. Visualization and Computer Graphics, 4(4):293–306, 1998,
http://citeseer.ist.psu.edu/avidan98novel.html
[BAJ98]
Bajcsy, R., Enciso, R., Kamberova, G., Noceera, L. and Sara, R.: 3-D Geometerc Model Acquisition System for a Tele-Collaboration Testbed, ICA
SE/LaRC/ARO/NSF Workshop on Computational Acrosciences in the 21st
Century, 1998
[BAK98]
Baker, S.: Design and Evaluation of Feature Detectors, PhD thesis, Columbia
University, 1998
[BAR03]
Bartoli, A. and Sturm, P.: Multiple-View Structure and Motion From Line
Correspondences, 9TH ICCV, NICE, FRANCE, OCTOBER 2003
[BER02]
Bernardino, A. and Santos-Victor, J.: A Binocular Stereo Algorithm for Logpolar Foveated Systems, VisLab-TR 14/2002, 2nd Workshop on biological motivated Computer Vision, BMCV 2002, Tuebingen, Germany, November 2002
[BIC92]
Bichsel, M. and Pentland, A. P.: A Simple Algorithm for Shape from Shading,
Proc. IEEE Conference on CVPR, Champaign, Illinois, pp. 456-465, June 1992
[BIC94]
Bichsel, M.: Segmenting Simply Connected Moving Objects in a Static Scene,
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 16, No.
11, November 1994, pp. 1138-1142
[BIS01]
Bishof, H.: VL Robot Vision, 2001
[BOO02]
van den Boomgaard, R. and van den Weijer, J.: Robust Estimation of Orientation for Texture Analysis, 2002
[BOT03]
Bottino, A., Jaulin, L. and Laurentini, A.: Finding feasible parameter sets for
shape from silhouettes with unknow position of the viewpoints, The 11-th International Conference in Central Europe on Computer Graphics, Visualization
and Computer Vision, Bory, Czech Republic, February 2003
[BOY97]
Boyer, E. and Berger, M. O.: 3d surface reconstruction using occluding contours.
Int. Journal of Computer Vision, 22(3):219-233, March 1997.
[BRE00]
Bregler, D., Hertzmann, A. and Biermann, H.: Recovering Non-Rigid 3D Shape from Image Streams, Proc. of IEEE Conf. Computer Vision and Pattern
Recognition, 2000
[BRU02]
Bruno, E. and Pelerin, D.: Robust Motion Estimation using Spatial Gabor Filters, Signal Processing, Vol. 82 (2), pp. 297-309, 2002
LITERATUR
94
[BUE99]
Buehler, C., Matusik, W. and McMillan, L.: Creating and Rendering ImageBased Visual Hulls, MIT LCS Technical Report 780, March 1999
[CAN93]
Candocia, F.: A New Matching Paradigm for the Recovery of the Third Dimension in Two-Dimensional Images, Florida International University, Miami,
Florida, 1993
[CAN97]
Candocia, F. and Adjouadi, M.: A Similarity Measure for Stereo Feature Matching, IEEE TRANSACTIONS ON IMAGE PPOCESSING, Vol. 6, NO. 10,
October 1997
[CANT01]
Cantoni, V., Lombardi, L., Porta, M. and Vallone, U.: Qualitative Estimation
of Depth in Monocular Vision, the 2. Int. Workshop on Visual Form, Capri,
Italy, May 28-30, 2001
[CAN86]
Canny J. F.: A computational approach to edge detection. IEEE Trans. Pattern
Analysis. Mach. Intell., 8, pp. 679-698, 1986
[CAP90]
Caprile, B. and Torre, V.: Using vanishing points for camera calibration, Int.
Journal of Computer Vision, 4(2):127-140, March 1990
[CHEN03]
Chen, C-Y., Klette, R. and Chen, C.-F.: 3D Reconstruction Using Shape from
Photometric Stereo and Contours, Image and Vision Computing Conference,
New Zealand 2003
[CHE03]
Cheung, G., Baker, S. and Kanade, T.: Shape-From-Silhouette of Articulated
Objects and its Use for Human Body Kinematics Estimation and Motion Capture, in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2003
[CHE03a]
Cheung, G., Baker, S. and Kanade, T.: Visual hull alignment and refinement
across time: a 3D reconstruction algorithm combining shape-frame-silhouette
with stereo. In Proc. of CVPR03, June 2003
[CHI98]
Chiang, P.-C. and Binford, T. O.: Edge Detection: Modeling, Estimation and
Aggregation, Ph. D.Thesis, Stanford University, 1998
[CHI86]
Chien, C. H. and Aggarwal, J. K.: Volume/surface octrees for the representation
of three-dimensional objects. Computer Vision, Graphics and Image Processing,
36(1):100-113, October 1986.
[CHOJ01]
Chojnacki, W., Brooks, M., van den Hengel, A., Gawley, D.: A fast MLE-based
method for estimating the fundamental matrix, International Conference on
Image Processing, Thessaloniki, Greece, October 2001, Paper 1405 (CD Proceedings)
[CHOJ02]
Chojnacki, W., Brooks, M., van den Hengel, A., Gawley, D.: A new approach to
constrained parameter estimation applicable to some computer vision problems,
Statistical Methods in Video Processing Workshop held in conjunction with
ECCV’02, Copenhagen, Denmark, June 1-2, 2002
[CHOW02]
Chowdhury, A. K. R.: Statistical Analysis of 3D Modeling from Monocular
Video Streams, Dissertation, 2002
LITERATUR
95
[CHOWaCHE01] Chowdhury, A. K. R., Chellapa, R.: Robust estimation of depth and motion
using stochastic approximation, Proceedings of ICIP 2001
[CHOWaCHE02] Chowdhury, A. K. R., Chellapa, R., Krishnamurty, S. and Vo, T.: 3D face
reconstruction from video using a generic model, Proceedings of ICME 2002
[CHOWaLIU03] Chowdhury, A. K. R, Liu, H. und Chellapa, R.: Multi-Resolution 3D Modeling From Monocular Video: Algorithm, Convergence Properties, and Error
Analysis, IEEE TRANSACTIONS ON MULTIMEDIA, Vol. XX, März 2003
[CHR03]
Christou, C. G., Tjan, B. S. and Bülthoff, H. H.: Extrinsic cues aid shape
recognition from novel viewpoints, Journal of Vision (2003) 3, 183-198
[CIP92]
Cipolla, R. and Blake, A.: Surface shape from the deformation of apparent
contours, Int. Journal of Computer Vision, 9(2):83-112, November 1992
[CLE99]
Clerc, M. and Mallat, S.: Shape from Texture and Shading with Wavelets,
Dynamical Systems, Control, Coding, Computer Vision, Vol. 25, pp. 393-417,
Birkhauser, 1999
[COE03]
Cönner, C., Rous, M. and Kraiss, K.-F.: Robuste farbbasierte Bildsegmentierung für mobile Roboter, www.technoinfo.rwth-aachen.de, 2003
[COL93]
Collins, R.: Model acquisition using stochastic projektive geometry, Eine Dissertation an der University of Massachusetts, USA, 1993
[DAN00]
Daniilidis, K., Mulligan, J., McKendall, R., Schmid, D., Kamberova, G. and Bajcsy, R.: Real-time 3D -Tele-Immersion, NATO Advanced Research Workshop
Series, KLuwer Academic Publishers, 2000
[DAU98]
Daum, M. and Dudek, G.: On 3-D Surface Reconstruction Using Shape from
Shadows, IEEE Conference on CVPR, Los Angeles, June 1998
[DAV01]
Davis, L. S.: Foundations of Image Understanding, Kluwer, Boston, 2001, pp.
469-489
[DEL00]
Dellaert, F., Seitz, S. M., Thorpe, C. E. and Thrun, S.: Structure from Motion without Correspondence, IEEE Computer Society Conference on Computer
Vision and Pattern Recognition ( CVPR00 ), June 2000
[DRO02]
Dror, R. O.: Surface Reflectance Recognition and Real-World Illumination Statistics, Massachusetts Institute of Technology, 2002, www.citeseer.com
[EDE91]
Edelman, S. und Weinshall, D.: Computational vision: a critical review, In R.
J. Watt, editor, Pattern Recognition by Man and Machine, Vision and Visual
Dysfunction, Vol 14, chapter 4, pp. 30-49, The Macmillan Press Ltd, 1991
[EDI00]
Edirisinghe, E. A. and Jiang, J.: Stereo imaging, an emerging technology, Departament of Computer Science, Loughborough University,
UK and School of Computing, Glamorgan Universtity, UK, 2000, citeseer.nj.nec.com/edirisinghe00stereo.html
[EIS02]
Eisert, P.: Model-based Camera Calibration Using Analysis by Synthesis Techniques, Proc. 7th International Workshop VISION, MODELING, AND VISUALIZATION 2002, Erlangen, Germany, pp. 307-314, November 2002
LITERATUR
96
[EIS03]
Eisert, P.: Immersive 3-D Video Conferencing: Challenges, Concepts and Implementations, Proc. SPIE VCIP, Lugano, Switzerland, July 2003
[EIS03a]
Eisert, P.: MPEG-4 Facial Animation in Video Analysis and Synthesis, International Journal of Imaging Systems and Technology, Vol. XX, 2003
[ELS00]
Elsen, I.: Ansichtsbasierte 3D-Objekterkennung mit erweiterten Selbstorganisierenden Merkmalskarten, Fortschritt-Berichte VDI, Reihe 10, Nr. 631, Düsseldorf, VDI-Verlag, 2000
[FAL95]
Falkenhagen, L.: 3D object-based depth estimation from stereoscopic image
sequences, International Workshop on stereoscopic and three-dimensional imaging, September 6-8 1995, Fera Congress Center, Santorini, Greece, 1995
[FAL94]
Falkenhagen, L.: Depth estimation from stereoscopic image pairs assuming piecewise continuos surfacessequences, Image Processing for Broadcast and Video
Production, Hamburg 1994, pp. 115-127, Springer series on Workshops in Computing, Springer Great Britain, 1994
[FAV03]
Favaro, P., Osher, S., Soatto, S. and Vese, L.: 3D Shape from Anisotropic Diffusion, 2003, www.citeseer.com
[FEL03]
Feldmann, Eisert, P. and Kauff, P.: Extension of Epipolar Image Analysis to
Circular Camera Movements, Proc. International Conference on Image Processing ICIP 2003, Barcelona, Spain, vol. III, pp. 697-700, September 2003
[FERL00]
Ferley, E., Cani, M.-P. and Gascuel, J.-D.: Practical Volumetric Sculpting, the
Visual Computer, number 8, volume 16, pages 469–480, dec 2000
[FERN97]
Fernandes, J. L. and Torreao, J. R. A.: Dept Estimation Through a DisparityBased Photometric Stereo, SIBGRAPI, 1997
[FIL94]
Filbois, A. and Gemmerle, D.: From Step Edge to Line Edge: Combining Geometric and Photometric Information, 1994
[FIS99]
Fischer, D.: Rekonstruktion dreidimensionaler Oberflächenmodelle aus Sequenzen segmenturverrauschter Tiefenbilder, Fortschritt-Berichte VDI, Reihe 10, Nr.
606, Düsseldorf, VDI-Verlag, 1999
[FIT00]
Fitzgibbon, A. and Zisserman, A.: Multibody Structure and Motion: 3-D Reconstruction of Independently Moving Objects, 2001, http://www.robots.ox.ac.uk
[FOR01]
Forsyth, D. A.: Shape from texture and integrability, ICCV 2001, pp. 447-453
[FRI97]
Friedman, N. and Russel, S.: Image Segmentation in Video Sequences, Proceedings of the Thirteenth Conference on Uncertainty in Artifical Intelligence,
1997
[FUS00]
Fusiello, A.: Uncalibrated Euclidean reconstruction: a review, Image and Vision
Computing 18, pp. 555-563, 2000, www.elsevier.com/locate/imavis
[GAR94]
Garding, J. and Lindeberg, T.: Direct computation of shape cues using scaleadapted spatial derivate operators, Int. Journal of Computer Vision, 1994
[GIB87]
Giblin, P. J. and Weiss, R. S.: Reconstructions of surfaces from profiles. In Proc.
1st Int. Conf. on Computer Vision, pages 136-144, London, UK, June 1987
LITERATUR
97
[GUP03]
Gupta, G. S, Win, T. A., Messom, C., Demidenko, S. and Mukhopadhyay, S.:
Defect analysis of grit-blasted or spray-painted surface using Vision Sensing
Techniques, Image and Vision Computing Conference, New Zealand, 2003
[GRE02]
Greiner, K., Suppes, A., Hötter, M. and Kunze, E.: Schätzung der Bewegung
eines mobilen Roboters aus Videodaten, Messtechnik-Symposium an der Fachhochschule Hannover, September 2002
[HAN00a]
Han, M. and Kanade, T.: Creating 3D Models with Uncalibrated Cameras,
IEEE Computer Society Workshop on the Application of Computer Vision
(WACV00), California, December, 2000
[HAN00]
Han, M. and Kanade, T.: Reconstruction of a scene with multiple linearly moving objects, CVPR00, pages 542-549, 2000
[HAN01]
Han, M. and Kanade, T.: Multiple Motion Scene Reconstruction from Uncalibrated Views, IEEE 2001
[HAS03]
Hasenfratz, JM., Lapierre, M., Gascuel, J.-D. and Boyer, E.: Real-Time Capture, Reconstruction and Insertion into Virtual World of Human Actors, Vision,
Video, and Graphics, P. Hall, P. Willis (Editors), 2003
[HEI98]
Heisele, B.: Objektdetektion in Straßenverkehersszenen durch Auswertung von
Farbbildfolgen, Fortschritt-Berichte VDI, Reihe 10, Nr. 567, Düsseldorf, VDIVerlag, 1998
[HEM97a]
Hemayed, E. E, Sandbeck, A., Wassal, A. G. und Farag, A. A.: Investigation
of stereo-based 3D surface reconstruction, Proc. SPIE, Vol. 3023, pp. 191-202,
Feb. 1997
[HEM97]
Hemayed, E. E., Yamany, S. M., Seales, W. B. and Farag, A. A.: Three Dimensional Model Building in Computer Vision (II), TR-CVIP97, Sept. 1997
[HET03]
Hetzheim, H. and Börner, A.: Vehicle detection from airborne images by separation of texture properties and their fusion, Image and Vision Computing
Conference, New Zealand, 2003
[HON85]
Hong, T. H. and Shneier, M. O.: Describing a robot’s workspace using a sequence
of views from a moving camera, IEEE Trans. on Pattern Analysis and Machine
Intelligence, 7(6):721-726, November 1985.
[HOR77]
Horn B. K. P.: Understanding image intensities. Artifical Intelligence, 8(2): P.
201-231, 1977
[HUC96]
Hucka, M. and Kaplan, S.: Texture-Based Processing in Early Vision and a
Proposed Role for Coarse-Scale Segmentation, 1996, www.citeseer.com
[IKE86]
Ikeuchi, K., Nishihara, H. K., Horn, B. K. P., Sobalvero, P. and Nagata, S.:
Determining Grasp Configurations using Photometric Stereo and the PRISM
System, The International Journal of Robotics Research, Vol. 5 , No. 1, Spring
1986
[IKE03]
Ikeda, O.: Use of Multiple Surface Normal Approximations in the Shape-fromShading Using Jacobi’s Iterative Method, Image and Vision Computing Conference, New Zealand, 2003
LITERATUR
98
[JEB99]
Jebara, T., Azarbayejani, A. and Pentland, A.: 3D Structure from 2D Motion.
IEEE Signal Processing Magazine, 1999
[JIA97]
Jiang, X. and Bunke, H.: Dreidimensionales Computersehen, Springer, 1997
[JIA02]
Jiang, X.: Computer Vision, VL an der TU Berlin, 2002
[JIN00]
Jin, H., Yezzi, A., Soatto, S.: Stereoscopic Shading: Integrating Shape Cues in
a Variational Framework, CVPR 2000, pp. 1169-1176, 2000
[JON97]
Jones, G. A.: Constraint, Optimisation and Hierarchy: Reviewing stereoscopic
correspondence of complex features, Computer Vision and Image Understanding, volume 65, number 1, pp. 57 - 78, 1997
[KAH00]
Kahl, F.: Critical Motions for Auto-Calibration When Some Intrinsic Parameters Can Vary, Kluwer Academic Publishers, 2000
[KAH99]
Kahl, F. and B. Triggs: Critical Motions in Euclidean Structure from Motion,
CVPR99, 1999, http://www.inrialpes.fr/movi/people/Triggs
[KAN97]
Kanade, T., Rander, P. W. and Marayanan, P. J.: Virtualized Reality: Constructing Virtual Worlds from Real Scenes, IEEE MultiMedia, Vol. 4, No. 1,
Jan.-Mar. 1997, pp. 34-47
[KANG99]
Kang, S. B.: A Survey of Image-based Rendering Techniques, Videometric VI,
vol. 3641, pp. 2-16, Jan. 1999
[KAN01]
Kang, S. B., Szeliski, R. and Chai, J.: Handling Occlusions in Dense Multi-view
Stereo, In Proc. IEEE Conference on Computer Vision and Pattern Recognition,
volume I, pages 103-110, December 2001
[KAU02]
Kauff, P. and Schreer, O.: An Immersive 3D Video-Conferencing System Using
Shared Virtual Team User Environments, CVE02, Bonn, Germany, 2002
[KIM00]
Kimmel, R. and Sethian, J. R.: Optimal Algorithm for Shape from Shading and
Path Planning, Kluwer Academic Publishers, 2000
[KIM03]
Kim, H. S. and Park, Y. G.: A Study on the Image Based 3D Modeling by Weighted Bi-Directional Registration, Image and Vision Computing Conference, New
Zealand, 2003
[KLE98]
Klette, R., Kozera, R. and Schlüns, K.: Shape from Shading and Photometric
Stereo Methods, CITR-TR-20, http:
www.tcs.auckland.ac.nz, May 1998
[KLE95]
Klette, R., Koschan, A., Schlüns, K. and Rodehorst, V.: Evaluation of Surface Reconstruction Methods, Proc. of the New Zealand Image and Vision Computing Workshop, Lincoln, Canterbury, 28.-29. Aug. 1995, pp. 3-12,
http:/www.cs.tu-berlin.de/ cvworld
[KOC98]
Koch, R., Pollefeys, M. and Van Gool, L.: Multi Viewpoint Stereo from Uncalibrated Video Sequences, ECCV 1998, pp. 55-71, Germany, 1998
[KOE96]
Koehn, C.: Bildanalyse und Billdatenkompression. Hanser Verlag, 1996
LITERATUR
99
[KOS95]
Koschan, A., Rodehorst, V., Towards Real-Time Stereo Employing Parallel Algorithmus For Edge-Based And Dense Stereo Matching, Proc. of the IEEE
Workshop CAMP, 15-20 Sept. 1995, Como, Italy
[KOS96]
Koschan, A., Rodehorst, V. and Spiller, K.: Color Stereo Vision Using Hierarchical Block Matching and Acitve Color Illumination, Proc. of the 13th Int.
Conf. on Pattern Recognition , 25-29 Aug. 1996, Vienna, Austria, Vol. I, pp
835-839
[KRU94]
Krumm, J. and Shafer, S. A.: A characterizable shape-from-texture algorithm
using the spectrogram, IEEE 1994, pp. 322-325
[KUZ01]
Kuzu, Y. and Rodehorst, V.: Volumetric modeling using shape from silhouette,
Fourth Turkish-German Joint Geodetic Days, 2001, pp. 469-476
[LAU94]
Laurentini, A.: The Visual Hull Concept for Silhouette-Based Image Understanding, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 16,
No. 2, Feb. 1994, pp. 150-162
[LEI97]
Lei, Z. and Cooper, D. B.: Implicit polynomial based geometric shape modeling
and recognition, Proceedings of 3rd International Workshop on Visual Form,
Capri, Italy, May 1997
[LI02]
Li, M., Schirmacher, H. and Seidel, H.-P.: Combining Stereo and Visual Hull for
On-line Reconstruction of Dynamic Scenes, In IEEE Workshop on Multimedia
and Signal Processing, December 2002
[LI03]
Li, F. J., Zang, Q. and Klette, R.: Reconstruction Formulas for Rotational
Dynamic Stereo, Image and Vision Computing Conference, New Zealand, 2003
[LIN02]
Lin, H.-Y., Computer Vision Techniques for Complete 3D Model Reconstruction, Dissertation, 2002, www.citeseer.com
[LIU98]
Liu, Y.-F.: A unified Approach to Image Focus and Defocus Analysis, A Dissertation, 1998, www.citeseer.com
[LOV97]
Love, R. C.: Surface Reflection Model Estimation from Naturally Illuminated
Image, School of Computer Studies University of Leeds, 1997, www.citeseer.com
[LUO94]
Luong, Q.-T. and Vieville, T.: Canonic Representations for the Geometries of
Multiple Projective Views, ECCV94, Lecture notes in Computer Science, Vol.
800, 1994
[LV02]
Lv, F., Zhao, T. und Nevatia, R.: Self-Calibration of a Camera from Video of
a Walking Human, ICPR 2002 (International Conference on Pattern Recognition), Quebec city, Quebec, Canada, Aug., 2002
[MAC93]
MacIvor, A., M.: Edge Extraction and Linking, AM First New Zealand Conference on Image and Vision Computing, pp.485-491, Auckland, August 1993
[MAG03]
Magnor, M., Seidel, H.-P., Capturing the Shape of a Dynamic World - Fast!
Proc. IEEE International Conference on Shape Modelling and Applications
(SMI03), Seoul, South Korea, pp. 3-9, May 2003
LITERATUR
100
[MAL98]
Mallot, H. A.: Sehen und die Verarbeitung visueller Information, Braunschweig:
Vieweg, 1998
[MAN00]
Mandal, C., Zhao, H., Vemuri, B. C. und Aggarwal, J. K.: 3D Shape Reconstruction from Multiple Views, in Handbook of Video and Image Processing,
Academic Press, Feb. 2000
[MAN98]
Mandelbaum, R., McDowell, L., Bogoni, L., Reich, B. and Hansen, M.: Realtime stereo processing, obstacle detection, and terrain estimation from vehiclemounted stereo cameras, WACV 1998
[MAR83]
Martin, W. N. and Aggarwal, J. K.: Volumetric descriptions of objects from
multiple views, IEEE Trans. on Pattern Analysis and Machine Intelligence,
5(2):150-158, March 1983
[MAT89]
Matthies, L., Kanade, T. and Szelinski, R.: Kalman Filter-based Algorithms For
Estimating Depth from Image Sequences, International Journal of Computer
Vision, 3, 209-236, 1989
[MAT00]
Matusik, W., Buehler, C., Raskar, R., Gortler, S. J. and McMillan, L.: ImageBased Visual Hulls, 2000, www.citeseer.com
[MAT01]
Matusik, W., Buehler, C. and McMillan, L.: Polyhedral Visual Hulls for RealTime Rendering, In Proceedings of Eurographics Workshop on Rendering, 2001
[MAT02]
Matusik, W., Buehler, C., McMillan, L. and Gortler, S. J.: An Efficient Visual
Hull Computation Algorithm, MIT LCS Technical Memo 623, February 2002
[MAY92]
Maybank, S. J. and Faugeras, O. D.: A theory of self-calibration of a moving
camera, Int. Journal of Computer Vision, 8(2):123-151, August 1992
[MEH03]
Mehren, D., Rodehorst, V.: Gestaltanalyse komplexer Objekte bei kontrollierter
Bewegung, Dipl. Arbeit an der TU Berlin, Fachbereich Computer Vision, 2003
[MIE02]
Miene, A.: VL Bildverarbeitung, UNI Bremen, Fachbereich Mathematik, Informatik, 2002
[MIS03]
Miskelly, G. M. and Wagner, J. H.: Background Correction in Forensic Photography, Image and Vision Computing Conference, New Zealand, 2003
[MOY00]
Moyung, T. J. and Fieguth, P. W.: Incremental Shape Reconstruction Using
Stereo Image Sequences, ICIP 2000
[MUE01]
Mühlmann, K., Maier, D., Hesser, J. und Männer, R.: Calculation Dense Disparity Maps from Color Stereo Images, an Efficient Implementation, CVPR 2001,
Beitrag in Tagungsband in CVPR 2001
[MUL01]
Mulligan, J. and Daniilidis, K.: Real Time Trinocular Stereo for Tele-Immersion,
Proceedings of the 2001 International Conference on Image Processing (ICIP01),
Thessaloniki, Greece, October 2001
[MUL03]
Mulligan, J., Zabulis, X., Kelshikar, N. and Daniilidis, K.: Stereo-based Environment Scanning for Immersive Telepresence, 2003, www.citeseer.com
LITERATUR
101
[MUR98]
Murray, D. and Little, J.: Using real-time stereo vision for mobile robot navigation, Autonomous Robots, Volume 8, April 2000, Pages: 161 - 171, Kluwer
Academic Publishers, Hingham, MA, USA
[NIE99]
Niem, W.: Automatische Rekonstruktion starrer dreidimensionaler Objekte aus
Kamerabildern, Fortschritt-Berichte VDI, Reihe 10, Nr. 611, Düsseldorf, VDIVerlag, 1999
[NOB88]
Noborio, H., Fukuda, S. and Arimoto, S.: Construction of the octree approximating three-dimensional objects by using multiple views, IEEE Trans. on Pattern
Analysis and Machine Intelligence, 10(6):769-782, November 1988
[OLI01]
Oliensis, J.: Exact Two-Image Structure from Motion, NEC Research Institute,
Princeton, 2001, http://www.neci.nj.nec.com/homepages/oliensis/
[OTT95]
Otterbach, R.: Robuste 3D-Objekterkennung und Lagebestimmung durch Auswertung von 2D-Bildfolgen, Fortschritt-Berichte VDI, Reihe 8, Nr. 481, Düsseldorf, VDI-Verlag, 1995
[PAR02]
Paris, S. and Sillion, F.: Robust Acquisition of 3D Informations from Short
Image Sequences, Pacific Graphics, October 2002
[PAR01]
Park, S.-Y and Subbarao, M.: A New Technique for Registration and Integration
of Partial 3D Models, 2001
[PAU01]
Paulus D.: Aktives Bildverstehen, Osnabrück: Der Andere Verlag, 2001
[PEN03]
Penman, D. W. and Alwesh, N. S.: 3D Pose Estimation of Beef Carcasses using
Symmetry, Image and Vision Computing Conference, New Zealand, 2003
[PER03]
Perrone, J. A., Voyle, T. and Jefferies, M. E.: Towards a Human Tracking
System for a Mobile Robot Using Neural-Based Motion Detectors, Image and
Vision Computing Conference, New Zealand, 2003
[PIG02]
Pighin, F., Szeliski, R. and Salesin, D. H.: Modeling and Animating Realistic
Faces from Images, International Journal of Computer Vision 50(2), 143-169,
2002
[POE97]
Poelman, C. J. and Kanade, T.: A Paraperspective Factorisation Method for
Shape and Motion Recovery, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLEGENCE, Vol. 19, No. 3, March 1997
[POL00]
Pollefeys, M.: Tutorial on 3D Modeling from Images, Dublin, Ireland, 26 June
2000, www.citeseer.com
[POLaKOC99] Pollefeys, M., Koch, R., and van Gool, L. J.: Self-calibration and metric
reconstruction inspite of varying and unknown intrinsic camera parameters,
Int. Journal of Computer Vision, 32(1):7-25, August 1999
[POLaKOC00] Pollefeys, M., Koch, R., Vergauwen, M., Deknuydt, B. and Van Gool, L.:
Three-dimensional scene reconstruction from images, SPIE Electronic Imaging
2000, Three-Dimensional Image Capture and Applications III, 2000
[POLaVER00] Pollefeys, M., Vergauwen, M. and Van Gool, L.: Automatic 3D modeling from
image sequences, ISPRS, Vol. XXXIII, Amsterdam, 2000
LITERATUR
102
[POT87]
Potmesil, M.: Generating octree models of 3D objects from their silhouettes
in a sequence of images, Computer Vision, Graphics and Image Processing,
40(1):1-29, October 1987
[QUA97]
Quan, L. and Kanade, T.: Affine Structure from Line Correspondences with
Uncalibrated Affine Cameras, 1997, www.citeseer.com
[QUA02]
Quan, L. and Lhuillier, M.: Structure from Motion from Three Affine Views,
IEEE 2002
[PRA78]
Pratt W. K.: Digital Image Processing, John Wiley and Sons, 1978
[PRA02]
Prados, E., Faugeras, O. and Rouy, E.: Shape-from-Shading and Viscosity Solutions, Technical Report Nr. 4638, 2002, www.citeseer.com
[RAD00]
Radim, S. Accurate Natural Surface Reconstruction from Polynocular Stereo,
Szech Technical University, Prague, Chech Republic, 2000, www.citeseer.com
[RAD01]
Radke, R., Zagorodnov, V., Kulkarni, S. and Ramadge, P. J.: Estimating correspondence in digital video, Departament of Electrical Engineering, Princeton
University, Princeton, 2001, www.citeseer.com
[RAD00a]
Radke, R., Zagorodnov, V., Kulkarni, S. and Ramadge, P. J., Echigo, T., Iisaku,
S.: Recursive propagation of correspondences with applications to the creation
of virtual video, 2000, www.citeseer.com
[ROU03]
Rous, M, Lüpschen, H. S. and Kraiss, K.-F.: Echtzeit-Raumszeneanalyse
zur
bildgestützten
zielorientierten
Navigation
mobiler
Roboter,
www.technoinfo.rwth-aachen.de, 2003
[SAM00]
Samaras, D., Metaxas, D., Fua, P. and Leclerc, Y. G.: Variable Albedo Surface
Reconstruction from Stereo and Shape from Shading, 2000, www.citeseer.com
[SAM99]
Samaras, D. and Metaxas, D.: Coupled Lighting Direction and Shape Estimation from Single Images, ICCV99, 1999
[SAR95]
Sara, R.: Isophotes: the Key to Tractable Local Shading Analysis, CAIP 1995:
pp. 416-423, 1995
[SAV01]
Savarese, S., Rushmeier, H., Bernardini, F. and Perona, P.: Shadow Carving,
IEEE 2001
[SAV02]
Savarese, S., Rushmeier, H., Bernardini, F. and Perona, P.: Implementation
of a Shadow Carving System for Shape Capture, 1st Symposium on 3D Data
Processing, Visualization, and Transmission, June 2002
[SCH98]
Schiller, R.: Konturbasierte Verfahren in der lageinvarianten Mustererkennung,
Fortschritt-Berichte VDI, Reihe 10, Nr. 556, Düsseldorf, VDI-Verlag, 1998
[SCH00]
Schreer, O., Brandenburg, N. und Kauff, P.: Disparitätsanalyse konvergenter
und rektifizierter Stereoansichten: Eine vergleichende Untersuchung, 22.DAGMSymposium Mustererkennung 2000, Kiel, Germany, Sept. 2000
[SCH01]
Schreer, O. und Kauff, P.: Immersive 3D-Videokonferenz, Der Fernmeldeingenieur, Heft 8, 55. Jahrgang, Verlag für Wissenschaft und Leben Georg Heidecker
GmbH, Erlangen, August 2001
LITERATUR
103
[SCH03]
Schreer, O: VL Stereobildverarbeitung in der Videokommunikation, TU Berlin,
2003
[SCH03a]
Schreer, O., Atzpadin, N., Askar, S. and Kauff, P.: Advanced 3D Signal Processing For Virtual Team User Environments, 2003, www.citeseer.com
[SCHA03]
Schaefer, R., Wiegand, T. and Eisert, P.: Videocodierung - Eine Schlüsseltechnologie für digitale Medien und Multimedia, Proc. Dortmunder Fernsehseminar,
Dortmund, Germany, 2003
[SCHL97]
Schlüns, K.: The Irradiance Error and its Effect in Photometric Stereo, Proc.
First Joint Australia and New Zealand Biennial Conference on Digital Image
and Vision Computing: Techniques and Applications, Albany, Auckland, New
Zealand, Dec. 10-12, 1997, 539-544
[SHU00]
Shum, H.-Y., Kang, S. B.: A Review of Image-based Rendering Techniques,
IEEE/SPIE Visual Communications and Image Processing (VCIP) 2000, pp.
2-13, Perth, June 2000
[SLA01]
Slabaugh, G., Culbertson, B., Malzbender, T. and Schafer, R.: A Survey of
Methods for Volumetric Scene Reconstruction from Photographs, International
Workshop on Volume Graphics, June 21-22, 2001
[SMI96]
Smith, A. R. and Blinn, J. F.: Blue Screen Matting, SIGGraPH 96 Conference
Proceedings, August 4-9, 1996, pp. 21-30
[SRI90]
Srivastava, S. K. and Ahuja, N.: Octree generation from object silhouettes in
perspective views, Computer Vision, Graphics and Image Processing, 49(1):6884, January 1990
[STEF02]
Stefano, L., Marchionni, M., Mattoccia, S. and Neri, G.: A Fast Area-Based
Stereo Matching Algorithm, 2002, www.citeseer.com
[STE00]
Steinbach, E., Girod, B., Eisert, P. and Betz, A.: 3-D Reconstruction of RealWorld Objects using Extended Voxels, 2000, www.citeseer.com
[STE02]
Steinbrecher, R.: Bildverarbeitung in der Praxis, www.rst-software.de, 2002
[SUB93]
Subbarao, M. and Choi, T.: A New Method for Shape from Focus, Proceedings
of SPIE, Vol. 2064, Boston, Sept. 1993
[SUP00]
Suppes, A., Niehe, S., Hötter, M. and Kunze, E.: Stereobasierte Videosensorik unter Verwendung einer stochastischen Zuverlässigkeitsanalyse, 2000,
www.citeseer.com
[SZE93]
Szeliski, R.: Rapid octree construction from image sequences, Computer Vision,
Graphics and Image Processing, 58(1):23-32, July 1993
[SZE98]
Szeliski, R. and Weiss, R.: Robust shape recovery from occluding contours using
a linear smoother. Int. Journal of Computer Vision, 28(1):27-44, June 1998
[TAN02]
Tang, L., Tsui, H. T. and Wu, C. K.: Dense Stereo Matching Based on Propagation with a Voronoi Diagram, ICVGIP-2002
LITERATUR
104
[TAO01]
Tao, H., Sawhney, H. S. and Kumar, R.: Dynamic Depth Recovery from Multiple
Synchronized Video Streams, Department of Computer Engineering, University
of California at Santa Cruz and Sarnoff Corporation, Princeton, 2001
[THO02]
Thomas G., Grau O.: 3D image sequence acquisition, for TV and film production, 1st International Symposium on 3D Data Processing, Visualisation and
Transmission, 19-21 June 2002
[TOE04]
Toennies, K. D.: 3D Computer Vision, VL an der Universität Magdebung,
WS03/04, www.cs.uni-magdeburg.de
[TRI97]
Triggs, B.: Autocalibration and the absolute quadric, In Proc. Conf. Computer
Vision and Pattern Recognition, pages 609-614, San Jaun, PR, June 1997
[TSA87]
Tsai, R. Y.: A versatile camera calibration technique for high-accuracy 3D machine vision metrology using off-the-shelf tv cameras and lenses, IEEE Trans.
Robotics and Automation, 3(4):323-344, August 1987
[TSA94]
Tsai, R. Y., Shah, M.: Shape from Shading Using Linear Approximation, Image
and Vision Computing Journal, vol. 12, no. 8, October 1994
[VAI92]
Vaillant, R. and Faugeras, O. D.: Using extremal boundaries for 3D object modelling, IEEE Trans. on Pattern Analysis and Machine Intelligence, 14(2):157173, February 1992
[VEK01]
Veksler, O.: Dense Features for Semi-Dense Stereo Correspondence, NEC Research Institute, Princeton, 2001, www.citeceer.com
[VEK01a]
Veksler, O.: Semi-Dense Stereo Correspondence with Dense Features, Proceedings of the 2001 IEEE Computer Society Conference
[VID03]
Vidal, R., Ma, Y., Soatto, S. and Sastry, S.: Two-View Multibody Structure
from Motion, 23.12.2002, Kluwer Academic Publishers, Printed in the Netherlands
[WAN03]
Wang, Y. and Samaras, D.: Multiple Directional Illuminant Estimation from a
Single Image, 2003, www.citeseer.com
[WAT98]
Watanabe, M., and Nayar, S. K.: Rational Filters for Passive Depth from Defocus, 1998, www.citeseer.com
[WEI94]
Wei, T.-C.: Three Dimensional Machine Vision Using Image Defocus, A Dissertation, 1994, www.citeseer.com
[WEIN94]
Weinshall, D.: Local Shape Approximation from Shading, Journal of Mathmatical Imaging und Vision, 4(2), pp. 119-138, 1994
[WIL99]
Wilson, R. C. and Hancock, E. R.: A Reflectance Model for Radar Shape From
Shading, BMVC99, 1999
[WON99]
Wong, K.-Y. K., Mendonca, P. R. S. and Cipolla, R.: Reconstruction and motion
estimation from apparent contours under circular motion, In T. Pridmore and
D. Elliman, editors, Proc. British Machine Vision Conference, volume 1, pages
83-92, Nottingham, UK, September 1999
LITERATUR
105
[WON01]
Wong, K.-Y. K.: Structure and Motion from Silhouettes, University of Cambridge, 2001, www.citeseer.com,
[YIL02]
Yilmaz, A. and Shah, M.: Estimation of Arbitrary Albedo and Shape from
Shading for Symmetric Objects, 2002, http://www.cs.usf.edu/ vision
[YU99]
Yu, Y. Debevec, P. Malik, J. and Hawkins, T.: Inverse Global Illumination:
Recovering Reflectance Models of Real Scenes from Photographs, Proc. of SIGGRAPH’99, 1999
[ZAN03]
Zang, Q. and Klette, R.: Object Classification and Tracking in Video Surveillance, Technical Report CITR-TR-128, 2003, www.citeseer.com
[ZHAO99]
Zhao, W. and Chellapa, R.: Robust Face Recognition Using Symmetric ShapeFrom-Shading, 1999, www.citeseer.com
[ZHA96]
Zhang, Z.: Determing the Epipolar Geometry and its Uncertainty: A Review,
International Journal of Computer Vision, 27(2), 161-198, 1998
[ZHA94]
Zhang, R., Tsai, P.-S., Cryer, J. E. and Shah, M.: Analysis of Shape from
Shading Techniques, IEEE CVPR-94, Seattle, Washington, June 20-24, P. 377384
[ZHA93]
Zhang, R., Tsai
www.citeseer.com
[ZHA01]
Zhang, Y, Kambhamettu, C.: On 3D Scene Flow and Structure Estimation,
2001, IEEE01, http://www.cis.udel.edu/ vims
[ZHA98]
Zhang, Z.: Image-Based Geometrically-Correct Photorealistic Scene/Object
Modeling: A Review, Proc. of the Asian Conference on Computer Vision, Hong
Kong, 8-11 Jan. 1998
[ZHA03]
Zhang, L., Curless, B., Hertzmann, A. and Seitz, S. M.: Shape and Motion under
Varying Illumination: Unifying Structure from Motion, Photometric Stereo, and
Multi-view Stereo, 2003, www.citeseer.com
[ZIO98]
Ziou, D. and Tabblone, S.: Edge Detection Techniques - An Overview, 1998,
www.citeseer.com
[ZIO99]
Ziou, D. and Deschenes, R.: Depth from Defocus Estimation in Spatial Domain,
Technical Report, 1999, www.citeseer.com
[ZYK98]
Zyka, V.: Recovering Accurate Geometric Surface Model from Passive Stereo Vision, Szech Technical University, Prague, Chech Republic, 1998,
www.citeseer.com
and
Shah,
M.:
Depth
From
Photomotion,
1993,

Überblick über aktuelle Verfahren zur Tiefenschätzung

Transcription

Similar documents

Bildinterpolation in virtuellen 3-D-Szenen - pi4

Verteilte virtuelle TV-Produktion im Gigabit

1. MATCHING VERFAHREN UND AUTOMATISCHE DTM

Bildaufnahme – Bildentstehung Bildverarbeitung

Bemerkungen zu „GOOD NIGHT, AND GOOD LUCK“

Acrobat Distiller, Job 4

Dokument 1

kolibri CORDLESS

Mathematik in der deutschsprachigen Wikipedia