Segmentierung mit Graph-Cut-Methoden

Transcription

Segmentierung mit Graph-Cut-Methoden
Diplomarbeit im Fach Informatik
vorgelegt
von
Erik Rodner
Geboren am 22.05.1983 in Königs Wusterhausen
Angefertigt am
Lehrstuhl für Digitale Bildverarbeitung
Fakultät für Mathematik und Informatik
Friedrich-Schiller-Universität Jena.
Betreuer: Prof. Dr.Ing. J. Denzler, Dr. rer. nat. habil. H. Süße, Dipl.Inf. O. Kähler
Beginn der Arbeit: 4. Februar 2007
Abgabe der Arbeit: 6. Juli 2007
ii
iii
Ich versichere, dass ich die Arbeit ohne fremde Hilfe und ohne Benutzung anderer als der
angegebenen Quellen angefertigt habe und dass die Arbeit in gleicher oder ähnlicher Form noch
keiner anderen Prüfungsbehörde vorgelegen hat und von dieser als Teil einer Prüfungsleistung
angenommen wurde. Alle Ausführungen, die wörtlich oder sinngemäß übernommen wurden,
sind als solche gekennzeichnet.
Die Richtlinien des Lehrstuhls für Studien- und Diplomarbeiten habe ich gelesen und anerkannt, insbesondere die Regelung des Nutzungsrechts.
Jena, den 5. Juli 2007
iv
Übersicht
Die vorliegende Arbeit beschreibt die Verwendung von sogenannten Graph-Cut-Methoden
in der Bildverarbeitung. Diese Methoden lösen Segmentierungsprobleme mit Verfahren der diskreten Optimierung. Notwendige theoretische Grundlagen aus der Bayesschen Bildanalyse, Graphentheorie, diskreten Optimierung und theoretischen Informatik werden dargestellt und in einem gemeinsamen Kontext erläutert. Einen Schwerpunkt bildet dabei eine klare Eingrenzung
der Möglichkeiten von Graph-Cut-Verfahren. Ausgehend von diesen Untersuchungen werden
im weiteren Verlauf der Arbeit zwei Problemstellungen der Bildverarbeitung bearbeitet. Die Lokalisierung des Kennzeichenrandes ist ein wichtiger Schritt im Gesamtsystem eines Kennzeichenlesers und kann effizient durch einen Graph-Cut-Ansatz gelöst werden. Weiterhin werden
Verfahren zur Verbesserung der Ebenendetektion entwickelt, welche es unter anderem ermöglichen, Tiefeninformationen und Grauwertinformationen aktueller Spezialkameras in einem Optimierungsschritt zu kombinieren. Die Auswertung der vorgestellten Verfahren erfolgt anhand von
Experimenten und dem Vergleich mit Ground-Truth Daten.
Abstract
The following work describes the potential of graph cut methods in computer vision. These methods solve segmentation problems with discrete optimization techniques. Theoretic fundamentals from bayesian image analysis, graph theory, discrete optimization and theoretical computer
science are presented and explained in a common framework. Thereby the main focus is the study
of well defined limitations of graph cut methods. Based on these results it is possible to develop
new solutions for two applications. The localization of a license plate border is an important step
in a license plate recognition system and can be solved efficiently with a graph cut approach.
Furthermore different methods to refine planar patch detection are developed, which are able to
combine depth and intensity information from 3-D imaging sensors in a single optimization step.
Evaluation of all proposed algorithms is done by experiments and comparision with ground truth
data.
Inhaltsverzeichnis
1
2
3
Einführung
1
1.1
Literaturüberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2
Verwendete Notationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3
Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
Markov Random Fields
7
2.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2
Satz von Hammersley-Clifford . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3
Schätzung mittels MRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1
MAP-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2
Annahmen der Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.3
Vereinfachungen der Schätzung . . . . . . . . . . . . . . . . . . . . . . 11
2.3.4
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Schätzung von MRF-Zuständen mit minimalen Schnitten
3.1
3.2
3.3
17
Minimale Schnitte in Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.1
Problemdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2
Zusammenhang zur Bestimmung des maximalen Flusses . . . . . . . . . 19
Algorithmen zur Bestimmung des minimalen Schnittes . . . . . . . . . . . . . . 23
3.2.1
Der Algorithmus von Dinic . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.2
Der Algorithmus von Kolmogorov und Boykov . . . . . . . . . . . . . . 24
Diskrete Optimierung mit Graph-Cut . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1
Das Optimierungsproblem und die Funktionsklassen F2 und F3 . . . . . 25
3.3.2
Regularität und Graphkonstruktion für F2 . . . . . . . . . . . . . . . . . 26
3.3.3
Vollständige Charakterisierung . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.4
Der Zusammenhang zu submodularen Funktionen . . . . . . . . . . . . 33
v
vi
INHALTSVERZEICHNIS
3.4
4
4.2
4.3
5.2
7
Beschreibung des Algorithmus . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.2
Eigenschaften des Algorithmus . . . . . . . . . . . . . . . . . . . . . . 39
3.4.3
Anforderungen an Zielfunktionen der Funktionsklasse F2 . . . . . . . . 41
3.4.4
Beziehung zur Schätzung von MRF-Zuständen . . . . . . . . . . . . . . 42
45
Interaktive Segmentierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1.1
Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1.2
Festlegung der unabhängigen Kosten einzelner Pixel . . . . . . . . . . . 46
4.1.3
Wahl der Cliquen-Potentiale 2. Ordnung . . . . . . . . . . . . . . . . . . 46
Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.2
Kennzeichenlokalisierung als binäres Segmentierungsproblem . . . . . . 48
Ebenendetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3.1
Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.2
Ebenendetektion durch Bewegungssegmentierung . . . . . . . . . . . . . 51
4.3.3
Ebenendetektion mit zusätzlicher Tiefeninformation . . . . . . . . . . . 55
Experimente
5.1
6
3.4.1
Anwendungen
4.1
5
alpha-Expansion-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
59
Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.1
Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.2
Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Ebenendetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2.1
Experimentaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2.2
Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Ausblick
67
6.1
Allgemeine Ansätze für die weitere Forschung . . . . . . . . . . . . . . . . . . . 67
6.2
Verbesserung der Kennzeichenerkennung durch Graph-Cut-Verfahren . . . . . . 68
6.3
Erweiterung der Ebenendetektion mit Graph-Cut . . . . . . . . . . . . . . . . . 68
Zusammenfassung
69
A Mathematische Details
71
A.1 Zusammenhang zwischen binärer Bildrestaurierung und Medianfilter . . . . . . . 71
vii
INHALTSVERZEICHNIS
A.2 Details zum Algorithmus von [BK04] . . . . . . . . . . . . . . . . . . . . . . . 72
A.3 Minimierung von F2-Funktionen ist NP-schwer . . . . . . . . . . . . . . . . . . 74
A.4 Verifikation der Graph-Konstruktion bei F2-Funktionen . . . . . . . . . . . . . . 75
B Details zu den Experimenten
B.1 Verwendete Parameter bei der Kennzeichenlokalisierung
B.2 Problemfälle bei der Kennzeichenlokalisierung . . . . .
B.3 Verwendete Parameter bei der Ebenendetektion . . . . .
B.4 Weitere Beispielbilder der Ebenendetektion . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
79
79
80
80
Literaturverzeichnis
83
Verzeichnis der Bilder
91
Verzeichnis der Tabellen
93
viii
INHALTSVERZEICHNIS
Kapitel 1
Einführung
Die folgende Arbeit beschäftigt sich mit den Möglichkeiten der Verwendung diskreter Optimierungsverfahren bei Segmentierungsaufgaben in der Bildverarbeitung. Dabei bezeichnet der
Begriff der Segmentierung eines Bildes allgemein die Zusammenfassung von Pixeln aufgrund
von gewissen Kriterien zu inhaltlich zusammenhängenden Regionen. Diese Definition wirft zwei
Fragestellungen auf: Wie lassen sich anwendungsspezifische Kriterien definieren und wie lässt
sich aufgrund dieser Kriterien eine Segmentierung durchführen?
Bisherige Segmentierungsansätze verwenden meistens eine Folge von einzelnen Operationen und Verarbeitungsschritten wie etwa Kantendetektion und anschließende Kontursuche. Eine
klare mathematische Formulierung der Segmentierungskriterien kann bei dieser Staffelung oft
nicht verwendet werden und ist auch nicht implizit gegeben.
Ein komplett anderer Zugang ist die Segmentierung mit mathematischen Optimierungsverfahren wie bei der Bayessche Bildanalyse. Kriterien für die Segmentierung werden dort anhand
eines Optimierungsproblems angegeben. Der Schwerpunkt dieser Arbeit ist dabei die Verwendung von diskreten Optimierungsproblemen. Als Segmentierungsverfahren kann nach der Entwicklung anwendungsspezifischer Kriterien, im weiteren Verlauf der Arbeit auch als Modell
bezeichnet, ein passendes numerisches Verfahren aus der mathematischen Optimierung gewählt
werden.
So genannte Graph-Cut-Methoden besitzen ihren Ursprung in der mathematischen Optimierung. Grundidee ist die Abbildung eines Optimierungsproblems in ein Problem der Graphentheorie. Die Formulierung des Problems in der Sprache der Graphentheorie ermöglicht es, ein breites
Spektrum von Forschungsergebnissen in diesem Bereich zu verwenden. Vor allem die Resultate
der theoretischen Informatik bieten diesbezüglich klar definierte Grenzen der Berechenbarkeit
und Lösungsansätze für die Ermittlung approximierter Lösungen.
1
2
KAPITEL 1. EINFÜHRUNG
Ziel dieser Arbeit soll es daher unter anderem sein, theoretische Möglichkeiten der Anwendung von Graph-Cut-Verfahren in der Bildverarbeitung aufzuzeigen. Weiterhin werden konkrete
algorithmische Lösungen für ein Problem der industriellen Bildverarbeitung (Kennzeichenlokalisierung) sowie des Rechnersehens (Ebenendetektion) entwickelt und durch Experimente verifiziert.
1.1
Literaturüberblick
Bereits in den frühen Jahren der Bildverarbeitung wurden Segmentierungsprobleme mit mathematischen Optimierungsverfahren gelöst. Ausgangspunkt ist stets die MAP-Schätzung von
Zufallsvariablen mit einem zugrunde liegenden Markov Random Field (MRF) Modell (MRFZufallsvariable). Die für die Schätzung notwendige Optimierung wird dabei im ursprünglichen
Standardwerk [GG84] der Bayesschen Bildanalyse [Win06] mit dem Gibbs Sampler durchgeführt. Dieser Algorithmus ist ein Spezialfall zum allgemeineren Metropolis-Hasting Algorithmus beziehungsweise der Optimierung mit Simulated Annealing. Diese Verfahren können auf
allgemeine Zielfunktionen angewendet werden, daher ist es zum Beispiel nicht möglich obere
Schranken für die Laufzeit anzugeben.
Als weiteres iteratives Verfahren aus den Anfängen sei der Iterated Conditional Modes (ICM)
Algorithmus aus dem Beitrag [Bes86] erwähnt. Eine Anmerkung in der dazugehörigen veröffentlichten Diskussion [GPS86] legt als erstes die Verbindung zur diskreten Optimierung [PR75,
Cun85] offen und ermöglicht so die exakte MAP-Schätzung von MRF-Zufallsvariablen bei binären Segmentierungsproblemen [GPS89]. Grundidee ist die Übertragung auf das Problem des
minimalen Schnittes (Min-Cut) aus der Graphentheorie.
Die Einschränkung auf binäre Probleme galt lange Zeit als unüberwindbare Einschränkung 1 .
Die Arbeiten [IG98, IG99, Ish03] untersuchen daher Bedingungen an die Zielfunktion, für welche auch bei nicht-binären Problemen ein globales exaktes Minimum gefunden werden kann.
In [Fer95] wird hingegen versucht, eine Lösung des allgemeinen Segmentierungsproblems mit
mehreren Klassen durch eine Aufteilung in binäre Probleme zu finden. Die Arbeiten von Boykov, Zabih und Veksler [BVZ98a, BVZ01] 2 verfolgen eine ähnliche Grundidee, welche zum αExpansion-Algorithmus führt und die Grundlage bildet für viele weitere Anwendungen. Der Algorithmus ist ein Approximationsalgorithmus 3 , der nur ein lokales Minimum des NP-schweren
1
Diese Ansicht ist auch noch in aktuellen“ Werken der Bayesschen Bildanalyse vorhanden [Win06].
”
Zur Vollständigkeit seien hier die Arbeiten [BVZ98b, BVZ99a, BVZ99b, Vek99] als verwandte Publikationen
aufgeführt, die manche Details näher beschreiben.
3
Es sei an dieser Stelle erwähnt dass der Algorithmus unabhängig von der Anwendung und dem Ursprung in der
2
1.1. LITERATURÜBERBLICK
3
Ursprungsproblems [DJP*94] sicherstellen kann. Zusammen mit der Abbildung der MAP-Schätzung bei binären Problemen auf das Min-Cut-Problem der kombinatorischen Optimierung nach
[GPS86] werden diese Ansätze in der neueren Literatur oft zusammengefasst als Graph-CutMethoden bezeichnet. Dieser Begriff kann durchaus zu ungewollten Mehrdeutigkeiten führen,
da im Bereich der Segmentierung auch andere Definitionen von Schnitten in einem Graphen verwendet werden. Hervorzuheben ist an dieser Stelle der verwandte Begriff des Normalized-Cut
(N-Cut), welcher nur durch einen Übergang von der diskreten zur kontinuierlichen Optimierung
ermittelt werden kann [SM00, SM97, SM98, CWC06].
Als wichtigste Anwendungsgebiete des α-Expansion-Algorithmus sind die Bestimmung von
dichten Tiefenkarten [KZ02, KKZ03, Kol03], die Segmentierung mit einer Teilfixierung der Labels bei der interaktiven Segmentierung [BJ00, BJ01a, BJ01b, FZ05, BFL06, RMBK06, YS06],
die Segmentierung von beliebigen Bildern [Vek00] ohne A-Priori-Information, die Segmentierung bei Bildern bestimmter Objektkategorien [KTZ05], Phase Unwrapping [BDV07] und die
Segmentierung auf der Grundlage von Bewegungsinformationen [BT99, XS05, SC06] zu nennen.
Für die Verwendung von Graph-Cut-Methoden in der Bildverarbeitung als reines Werkzeug ist es unerlässlich, theoretische Grenzen der Modellierungsmöglichkeiten bei der Anwendung von Graph-Cut-Methoden aufzuzeigen. Einschränkungen bei der Modellierung liegen darin begründet, dass die Zielfunktion nur einer beschränkten Funktionsklasse angehören kann. In
[KZ04] wird für eine große Klasse von Zielfunktionen eine allgemeine Graph-Konstruktion angegeben. Die Ausführungen [FD05] sind eine reine theoretische Abhandlung über die Erweiterbarkeit dieser beschriebenen Funktionsklasse.
Aufgezeigte theoretische Grenzen können in der Praxis natürlich nicht umgangen werden.
Dennoch ist es möglich, durch die Verwendung des Quadratic Pseudo-Boolean Optimization
(QPBO) Algorithmus [RK06, RSZ06] eine partielle Lösung allgemeinerer Optimierungsprobleme zu erhalten.
Neue Ideen, um Graph-Cut-Methoden auch algorithmisch zu verbessern, umfassen die Verbesserung der Laufzeit mit neuen für die Bildverarbeitung angepassten Algorithmen der Optimierung [BK04] sowie die traditionelle Beschleunigung durch Auflösungshierarchien [LSGX05,
SG06, JB06]. Die Möglichkeit, ein Maß für die Unsicherheit eines Segmentierungsergebnisses
zu erhalten, wird durch [KT06] untersucht.
Die Arbeiten [BK03, KB05] ziehen direkte Verbindungen zu anderen Standardansätzen in
der Bildverarbeitung wie etwa level-set Methoden.
Bildverarbeitung in der kombinatorischen bzw. diskreten Optimierung anzusiedeln ist.
4
Trotz der Entwicklung neuer Verfahren für die MAP-Schätzung von MRFs wie etwa Loopy
Belief Propagation [YFW00] sind Graph-Cut-Methoden bezüglich ihrer Geschwindigkeit und
der Güte des gefundenen Optimums führend [KR06, SZS*06].
1.2
Verwendete Notationen
Pr(X = X) Für diskrete Zufallsvariablen X sei damit die Wahrscheinlichkeit des Ereignisses
{X = X} bezeichnet. Bei stetigen Zufallsvariablen hingegen steht diese Notation für
die Dichte von X in Abhängigkeit von X. Abkürzend kann auch die Notation Pr(X) in
eindeutigen Situationen verwendet werden. Hingegen impliziert die Schreibweise Pr(X )
eindeutig die Dichte oder Wahrscheinlichkeit als Funktion.
E(X ) bezeichnet den Erwartungswert der Zufallsvariablen X .
δ(x) bezeichnet die Delta-Funktion. x kann eine reelle Zahl oder ein Prädikat sein:

1 x ist wahr, oder x = 1
def
δ(x) =
0 sonst.
(1.1)
P(A) ist eine Notation für die Potenzmenge einer Menge A..
]A bezeichnet für endliche Mengen A die Kardinalität oder Anzahl der Elemente der Menge A.
R+ ist die Menge der nicht-negativen reellen Zahlen.
k · k = k · k2 , k · k∞ auf Rn definierte euklidische Norm und Maximum-Norm.
E i (·), E i,j (·), EC (·) sind Bezeichnungen für einzelne nummerierte Funktionen, welche für jedes
i, j oder C verschieden gewählt werden können.
1.3
Aufbau der Arbeit
Bei der Strukturierung der folgenden Arbeit wurde auf klare Abgrenzung von bekannten theoretischen Ergebnisse zu neuen direkten Anwendungen dieser Ergebnisse bei Problemen der Bildverarbeitung geachtet. Dabei zeigen die theoretischen Ausführungen auch Möglichkeiten auf,
welche über den Horizont der hier besprochenen praktischen Problemlösungen hinausgehen.
1.3. AUFBAU DER ARBEIT
5
In Kapitel 2 werden Markov Random Fields vorgestellt, welche die Grundlage der Bayesschen Bildanalyse bilden. Das darauf folgende Kapitel 3 präsentiert wichtige Ergebnisse der diskreten Optimierung bei Graph-Cut-Methoden und schlägt im letzten Abschnitt die Brücke zur
Bayesschen Bildanalyse. Ausgehend von den ausführlich beschriebenen Möglichkeiten der Optimierungsverfahren ist es möglich, in Kapitel 4 verschiedene Anwendungsmöglichkeiten präzise
und vollständig vorzustellen. Eine Verifikation der im Rahmen dieser Arbeit entstandenen praktischen Ergebnisse und Neuerungen wird in Kapitel 5 durch verschiedene Experimente vorgenommen.
Die Arbeit schließt in den Kapiteln 6 und 7 mit einem Überblick über Verbesserungsmöglichkeiten und Ansätze für eine weitere Forschung auf dem behandelten Gebiet sowie mit einer Zusammenfassung der vorgestellten Ergebnisse. Kapitel A im Anhang bietet dem interessierten Leser zusätzliche mathematische Details in Form von Beweisen und Zusammenhängen. Verwendete Parameter bei den Experimenten und zusätzliche Beispielbilder können Kapitel B entnommen
werden.
6
Kapitel 2
Markov Random Fields
In diesem Kapitel soll zunächst der für diese Arbeit notwendige Begriff des Markov Random
Field (MRF) motiviert und erklärt werden. Im zweiten Teil des Kapitels wird die Problemstellung
der Schätzung“ verborgener Bildinformationen mittels MRFs erläutert. Wie diese Schätzung
”
effizient mit so genannten minimalen Schnitten durchgeführt werden kann, ist Bestandteil der
folgenden Kapitel und zentraler theoretischer Schwerpunkt dieser Arbeit.
2.1
Definition
Grundlage für die Definition von MRFs bildet eine Nachbarschaftsstruktur oder allgemeiner ein
Graph. Ein Graph besteht aus einer Knotenmenge und einer auf dieser Menge definierten Relation (Nachbarschaftsrelation, Kantenmenge):
Definition 2.1 Ein Graph1 S ist ein Tupel (V, N ) bestehend aus einer abzählbaren Menge V
und einer irreflexiven Relation N ⊆ V × V .
Ein typischer Graph in der Bildverarbeitung ist zum Beispiel Zn mit den folgenden Relationen:
def
(2.2)
def
(2.3)
N1 ={(p, q) | kp − qk2 = 1; p, q ∈ Zn }
N2 ={(p, q) | kp − qk∞ = 1; p, q ∈ Zn }.
1
Im Folgenden wird nicht der Begriff der Nachbarschaftsstruktur verwendet, da keine Symmetrie der Relation
gefordert sein soll [KR04]. Dem Leser sei hiermit dennoch empfohlen, den Begriff der Nachbarschaft und der
Nachbarschaftsstruktur damit zu assoziieren, um den direkten Bezug zur Bildverarbeitung herzustellen.
7
8
KAPITEL 2. MARKOV RANDOM FIELDS
Für n = 2 werden diese Relationen üblicherweise als 4er- und 8er-Nachbarschaft bezeichnet.
Für eine übersichtlichere Schreibweise ist es von Vorteil den Begriff der (gerichteten) Nachbarschaft eines Knoten (Punktes) zu definieren:
Definition 2.4 Die (gerichtete) Nachbarschaft N S (p) oder abkürzend N (p) eines Graphen S =
def
(V, N ) bezüglich eines Knoten p ∈ V ist auf folgende Weise definiert: N S (p) = {q | (p, q) ∈ N }.
Zugehörig zu einem speziellen Graphen lassen sich stochastische Felder betrachten:
Definition 2.5 Eine Menge {Xp | p ∈ V } heißt stochastisches Feld, allgemeiner stochastischer
Prozess oder Random Field eines Graphen S = (V, N ), wenn für alle p ∈ V : Xp eine
Zufallsvariable2 ist.
Definition 2.6 (Multiindex-Konvention)
def
Eine Einschränkung XM einer Menge {Xp | p ∈ V } ist wie folgt definiert: XM = {Xp | p ∈
V ∩ M }. Analog soll dieser Begriff für Vektoren (Xp )p∈V verwendet werden.
Die Definition eines stochastischen Feldes verlangt nicht die Unabhängigkeit der Zufallsvariablen Xp voneinander. Die Abhängigkeit der Zufallsvariablen ist ein entscheidender Aspekt.
Allgemein ist eine beliebige Zufallsvariable Xp immer von allen anderen Zufallsvariablen Xq mit
q 6= p abhängig. Um diese starke Abhängigkeit zu schwächen und die Modellierung einfacher
zu gestalten, ist es möglich zu fordern, dass eine Zufallsvariable Xp nur von ihren Nachbarn Xq
mit q ∈ N (p) abhängt und von allen anderen unabhängig ist. Diese Forderung führt zu der neuen
Definition eines Markov Random Fields:
Definition 2.7 Eine Menge {Xp | p ∈ V } heißt Markov Random Field eines Graphen S, wenn
sie ein stochastisches Feld ist und folgender Bedingung genügt:
∀p ∈ V : Pr(Xp | XV \{p} ) = Pr(Xp | XN S (p) ).
(2.8)
Anschaulich kann diese Definition in der Bildverarbeitung folgendermaßen betrachtet werden: Wenn die Zufallsvariablen Xp die Pixelwerte eines Bildes sind und der Graph wie im obigen
Beispiel eine Gitterstruktur mit der 8er Nachbarschaft darstellt, dann hängen die Pixelwerte eines
einzelnen Punktes nur von den Pixelwerten seiner Umgebung ab.
2
Auf die genaue Definition einer Zufallsvariable bezüglich eines Wahrscheinlichkeitsraumes soll an dieser Stelle
verzichtet werden.
9
2.2. SATZ VON HAMMERSLEY-CLIFFORD
Die Definition des MRF ist nichts anderes als das n-dimensionale Analogon einer einfachen
Markov-Kette. Die Abhängigkeit einer Markov-Kette wird meist bezüglich der Zeit veranschaulicht: Eine Zufallsvariable Xp ist dann nur vom vorherigen Zeitpunkt Xp−1 abhängig. Durch den
zugrunde liegenden Graphen eines MRF kann die Abhängigkeit der Zufallsvariable Xp örtlich
betrachtet werden. Xp ist durch die Markov-Einschränkung (2.8) nicht mehr global abhängig,
sondern nur lokal.
Abschließend noch zwei kleine Definitionen, welche in der Formulierung weiterer Resultate
von Vorteil sind:
Definition 2.9 Die Gibbs-Darstellung einer Verteilung Pr(X = X), ist die bijektive Transfordef
mation einer Verteilung in eine Energiefunktion EX (X) = − log(Pr(X = X)). Dabei bildet
die Funktion EX in die Menge R ∪ {∞} ab.
Bei einer Likelihood-Verteilung wird oft auch in diesem Zusammenhang von der log-Likelihood-Funktion E gesprochen. Es wurde an dieser Stelle bewusst der Begriff der Gibbs-Verteilung
vermieden, da jede beliebige Verteilung eine Gibbs-Darstellung besitzt und daher auch in diesen Sinne eine Gibbs-Verteilung ist. Die Funktion EX wird im Folgenden auch einfach als E
bezeichnet, falls der Zusammenhang zur zugehörigen Zufallsgröße eindeutig ist.
2.2
Satz von Hammersley-Clifford
Ein wichtiger und anschaulicher Begriff aus der Graphentheorie ist der Begriff der Clique in
einem Graphen:
Definition 2.10 Eine Teilmenge C ⊆ V von Knoten eines Graphen S = (V, N ) heißt Clique,
wenn ∀p ∈ C : C \ {p} ⊆ N S (p).
def
Definition 2.11 Die maximale Cliquengröße ω(S) ist definiert durch: ω(S) =
max
C ist Clique in S
]C.
Aus der Definition der Clique geht hervor, dass die leere Menge sowie jeder einzelne Knoten
Cliquen bilden. Entscheidend für die Charakterisierung von MRFs ist das folgende verblüffende
Resultat von Hammersley, Clifford aus dem Jahr 1968:
Satz 2.12 Es sei X = { Xp }p∈V ein stochastisches Feld eines Graphen S = (V, N ). Dann gilt:
X ist ein MRF ⇐⇒ Pr(X = X) ist eine Verteilung mit der Gibbs-Darstellung:
E(X) =
X
C ist eine Clique in S
EC (XC ).
(2.13)
10
Beweis zu 2.12: Ein Beweis kann in [Pol] gefunden werden.
Die einzelnen Funktion EC in der Zerlegung (2.13) werden auch oft als Cliquen-Potentiale
bezeichnet. Durch diesen Satz kann die Maximierung der Wahrscheinlichkeit eines MRFs zu
einer Minimierung der Energiefunktion umformuliert werden. Im Folgenden wird die Schätzung
zunächst allgemein beschrieben. Wie sich Funktionen des Typs (2.13) für bestimmte Annahmen
minimieren lassen, ist Bestandteil des Abschnittes 3.4.4.
2.3
2.3.1
Schätzung mittels MRF
MAP-Schätzung
Zunächst ein paar übliche Notationen aus der Bildverarbeitung: Das Bild I ist ein (Zufalls-)
Vektor der Form ( Ip )p∈P . Die einzelnen Werte Ip repräsentieren dabei die Pixeleigenschaften
des Pixels p ∈ P wie etwa Grauwert, Farbinformationen oder andere Maße. Im Folgenden wird
mit der Notation I das Bild als Zufallsvariable betrachtet und eine Ausprägung davon mit I
bezeichnet. Die Menge P ist die Menge aller Punkte des Bildes. Weiterhin sei darauf ein Graph
S = (P, N ) definiert.
I ist im hier behandelten Kontext die Beobachtung bei einer Zustandsschätzung. Ziel ist es,
die grundlegenden Informationen des Bildes zu extrahieren. Im speziellen Fall der Segmentierung, ist dies die Einteilung des Bildes in verschiedene beschriftete (mit Zahlen von 1 bis K)
Bereiche. Jeder Pixel besitzt demnach die Information der Zugehörigkeit zu einem Bildbereich.
Sei deshalb mit L, beziehungsweise der Ausprägung L = ( Lp )p∈P mit Lp ∈ {1, . . . , K} die
Beschriftung eines Bildes dargestellt. Einzelne Werte Lp der Beschriftung werden als Label oder
Zustand bezeichnet
Ganz ähnlich zu der Modellierung bei Hidden-Markov-Modellen (siehe Zusammenhang von
MRF und Markov-Ketten) ist nur das Bild I beobachtbar. Die eigentlichen Zustände Lp des
Markov-Modells bleiben unsichtbar und müssen aus der Beobachtung und den zugrunde liegenden Abhängigkeiten geschätzt werden. Mit Abhängigkeiten sind hier die stochastischen Abhängigkeiten der einzelnen Zufallsvariablen Lp gemeint. Bei Hidden-Markov-Modellen werden
diese durch eine einfache stationäre 3 Markov-Kette als Übergangswahrscheinlichkeiten und Zustandswahrscheinlichkeiten repräsentiert. Allgemein gesehen ist dies eine Modellierung der APriori-Wahrscheinlichkeit von L.
3
stationär, homogen ⇐⇒ Übergangswahrscheinlichkeiten sind zeitunabhängig
11
2.3. SCHÄTZUNG MITTELS MRF
Die hier vorgestellte Schätzung mittels MRF ist eine MAP-Schätzung:
L̂MAP = argmax Pr(L = L | I = I) = argmax Pr(L = L , I = I) =
L
L
= argmax Pr(I = I|L = L)Pr(L = L).
(2.14)
L
Die Verteilungen Pr(I = I | L = L) und Pr(L = L) werden in diesem Kontext auch oft
als Likelihood-Verteilung beziehungsweise A-Priori-Verteilung bezeichnet. Abkürzend sollen im
weiteren Verlauf dafür die Bezeichnungen Pr(I|L) und Pr(L) verwendet werden.
2.3.2
Annahmen der Schätzung
In vielen Arbeiten der Bayesschen Bildanalyse [Win06, BVZ98a] werden folgende Modellierungsannahmen vorgenommen:
A1. Die Likelihood-Verteilung lässt sich zerlegen durch: Pr(I|L) =
Q
Pr(Ip |Lp ).
p∈P
A2. L ist ein MRF auf dem Graphen S.
Die Annahme A1 ist aber für die Praxis ungenügend (siehe Abschnitt 4 und [KTZ05]). Aus
diesem Grund soll im weiteren Verlauf anstatt 1 und 2 auch die Annahme A1’ untersucht werden:
A1’. Pr(L|I) ist ein MRF auf dem Graphen S 4
2.3.3
Vereinfachungen der Schätzung
Aus den bisher gewonnenen Erkenntnissen und Annahmen kann die Schätzung in ein entsprechendes diskretes Optimierungsproblem umformuliert werden. Es sei zunächst noch einmal die
MAP-Schätzung als Minimierung der Energiefunktion von Pr(L|I) formuliert:
L̂MAP = argmin(− log Pr(L|I)) = argmin(− log Pr(I|L) − log Pr(L)).
L
4
(2.15)
L
Genauer gesagt definiert man hier eine Zufallsvariable Y(I) abhängig vom Parameter I mit der Verteilung
Pr(L|I). Die Forderung ist daraufhiin, dass Y(I) ein MRF ist.
12
Untersuchung von A1 und A2
Durch Annahme A2 und den Satz von Hammersley-Clifford 2.12 lässt sich − log(Pr(L)) in
die Form von Gleichung (2.13) bringen. Als Vereinfachung lässt sich für die zu minimierende
Funktion (proportional zur Energiefunktion von Pr(L|I)) E(L) schreiben:
X
E(L) = − log(Pr(I|L)) +
EC (LC ).
(2.16)
Annahme A1 ergibt eine weitere Vereinfachung zu:
!
EA1,2 (L) = − log
Y
Pr(Ip |Lp )
=−
X
X
log(Pr(Ip |Lp )) +
X
p
ELikelihood
(Lp ) +
p∈P
EC (LC )
p∈P
=
EC (LC )
p∈P
X
X
+
EC (LC ).
(2.17)
Untersuchung von A1’
Annahme A1’ ergibt hingegen eine verallgemeinerte Form:
EA1’ (L) =
X
ECI (LC ).
(2.18)
In beiden Fällen bestimmt die maximale Cliquengröße ω(S) die Anzahl der Argumente der
Funktionen EC und ECI .
2.3.4
Beispiele
Es sollen im Folgenden ein paar Beispiele für die Schätzung mittels MRFs vorgestellt werden.
In diesen Beispielen wird deutlich wie die Verteilungen modelliert werden können und welche
Energiefunktionen sich daraus ergeben.
13
Binäre Bildrestaurierung
Gegeben sei ein verrauschtes Binärbild. Ziel ist es, ausgehend von einer Modellierung des Rauschens und einer Modellierung der A-Priori-Bildinformation Pr(L) das Originalbild möglichst
”
gut“ zu rekonstruieren.
Die möglichen Werte der Pixel Ip sowie die Werte der Labels Lp (Pixelwerte des Originalbildes) seien −1 und 1. Analog zu [Win06] sei das Rauschen N als multiplikatives Rauschen
modelliert, welches einer Bernoulli-Verteilung unterliegt:

q
Pr(Np = v) =
1 − q
v = −1
.
(2.19)
v = +1
Die Beobachtung ergibt sich durch die komponentenweise Multiplikation von N und L:
∀p ∈ P : Ip = Np · Lp
(2.20)
Das Modell erfüllt demnach Annahme A1 und A2. Für die Likelihood-Funktion Pr(Ip |Lp )
einzelner Pixel gilt:

q
Pr(Ip |Lp ) =
1 − q
Ip = −Lp
(2.21)
Ip = Lp
Die Energiefunktion der Verteilung Pr(I|L) kann daher folgendermaßen geschrieben werden
(ein Term aus Gleichung (2.17)):
− log Pr(I|L) = −]{p | Ip = −Lp } log q − ]{p | Ip = Lp } log(1 − q).
(2.22)
Aus
1
δ(Ip = Lp ) = (Ip Lp + 1)
(2.23)
2
δ(Ip = −Lp ) = 1 − δ(Ip = Lp )
(2.24)
1
= − (Ip Lp − 1)
(2.25)
2
q
folgt unmittelbar mit der Konstante c = ]P log 1−q
, welche bei der Optimierung vernachlässigt werden kann:
14
1
− log Pr(I|L) = − log
2
1−q
q
X
Ip Lp + c.
(2.26)
p∈P
Als A-Priori-Modell sei ein Spezialfall (homogene Gewichtung mit α > 0) des so genannten
Ising-Modells [Isi25] verwendet mit der Energiefunktion:
X
− log Pr(L) = −α
Lp L z .
(2.27)
(p,z)∈N
Anschaulich kann man sich Gleichung (2.27) als Bewertung von homogenen Flächen vorstellen. Die Energiefunktion des A-Priori-Modells hat dabei zwei mögliche Minima: L ≡ −1
und L ≡ 1. Generell liefert ein Bild mit großen zusammenhängenden homogenen Flächen eine
niedrigeren Funktionswert als ein Bild mit vielen Objektgrenzen.
Der Parameter α dient dazu, in der Praxis die Gewichtung zwischen der A-Priori-Information
und dem Einfluss der Beobachtung einzustellen. Die zu minimierende Energiefunktion EA 1,2 =
E1 (L) besitzt dann, bis auf eine additive Konstante, die folgende Form:
1
E1 (L) = − log
2
1−q
q
X
p∈P
Ip Lp − α
X
Lp L z .
(2.28)
(p,z)∈N
Diese Art von Energiefunktionen lässt sich effizient und global mit Graph-Cut-Methoden optimieren (siehe Abschnitt 3.3). Abbildung 2.1 zeigt ein Beispiel der binären Bildrestaurierung.
Das entstandene rechte restaurierte Bild ist eine MAP-Schätzung von L und wurde mit den in Kapitel 3 beschriebenen Graph-Konstruktionen und Algorithmen durchgeführt. Das dazugehörige
Programm testImageRestoration ist Bestandteil der zu dieser Arbeit gehörenden Software. Es sei abschließend darauf hingewiesen, dass für die binäre Bildrestaurierung ebenfalls
ein normaler Medianfilter angewendet werden kann, welcher ähnliche Ergebnisse liefert. Eine
theoretische Verbindung zwischen beiden Ansätzen wird in Abschnitt A.1 erläutert. Die obige
Darstellung als Anwendung von Graph-Cut dient demnach ausschließlich zur Vorstellung der
theoretischen Ergebnisse und ist für die Praxis als gering zu bezeichnen.
15
Bild 2.1: Binäre Bildrestaurierung (Links) Originalbild, (Mitte) verrauschtes Originalbild,
(Rechts) MAP-Schätzung des Originalbildes mit Graph-Cut (α = 0.3, p = 0.4)
Das verallgemeinerte Potts-Modell
Das Potts-Modell kann als Verallgemeinerung des speziellen Ising-Modells (2.27) angesehen
werden. Das einfache Potts-Model
− log Pr(L) = α
X
δ(Lp 6= Lq ).
(2.29)
(p,q)∈N
ist dabei nicht auf binäre Werte von L beschränkt, sondern kann bei einer beliebigen Anzahl von Labels verwendet werden. Wie auch beim Ising-Modell wird hier die Existenz großer
homogener Flächen (bzgl. L) belohnt.
Das verallgemeinerte Potts-Modell wurde von [BVZ98a] vorgestellt. Vergleichbare Ansätze
für die Bildverarbeitung lassen sich aber bereits schon früher in den Arbeiten von Graffigne
[Gra87] finden. Wie beim ursprünglichen Ising-Modell werden hier Kanten zwischen Punkten
mit verschiedenen Labels (Grenze zwischen zwei Regionen) nicht homogen mit einer Konstante
α bewertet, sondern mit einer ortsabhängigen Gewichtung Ep,q ≥ 0:
X
Ep,q δ(Lp 6= Lq )
(2.30)
(p,q)∈N
In [BJ01b, BFL06] wird Ep,q mit einer Funktion abhängig von der Beobachtung I gewählt,
daher kann bei diesen Arbeiten Modell (2.30) nicht als A-Priori-Modell verwendet werden. Eine
Interpretation im Sinne von Annahme A1’ (Abschnitt 2.3.2) ist in diesem Fall hingegen möglich
und sinnvoll. Für eine ausführliche Beschreibung der Gewichtung aus [BJ01b, BFL06] sei an
dieser Stelle auf Abschnitt 4.1 verwiesen. Es wird sich im weiteren Verlauf der Arbeit herausstellen, dass eine Schätzung mittels MRFs mit einem verallgemeinerten Potts-Modell effizient
mit minimalen Schnitten in Graphen gelöst werden kann.
16
Kapitel 3
Schätzung von MRF-Zuständen mit
minimalen Schnitten
Dieses Kapitel bildet den theoretischen Kern der vorliegenden Arbeit. Zunächst soll hier das Prinzip des minimalen Schnittes“ (Min-Cut, Graph-Cut) in Graphen vorgestellt werden. Ausgehend
”
von einer klar definierten Problembeschreibung werden einige Spezialfälle, Verallgemeinerungen und Zusammenhänge zu anderen Problemen der diskreten Optimierung hergestellt. Die Notation und die Darstellung der Resultate folgt dem Buch von Schrijver [Sch04]. An dieser Stelle
sei ebenfalls das Buch von Kleinberg und Tardos [KT05] empfohlen. Abschnitt 3.2 beschreibt
anschließend mögliche effiziente Algorithmen zur Bestimmung von minimalen Schnitten in Graphen.
Welche diskreten Optimierungsprobleme lassen sich mit minimalen Schnitten lösen? Diese
Frage ist der Ausgangspunkt der Arbeiten [PR75, KZ04, FD05, RK06] und entscheidend für die
Anwendung in der Bildverarbeitung. Ziel ist es, eine entsprechende Charakterisierung von Zielfunktionen zu erreichen. So kann bei einem gegebenen Optimierungsproblem der Bildverarbeitung erkannt werden, ob eine Übertragung auf das Problem eines minimalen Schnittes möglich
ist. Die Resultate dieser Arbeiten werden in Abschnitt 3.3 näher erörtert.
Ausgehend von den erarbeiteten Grundlagen aus Kapitel 2 wird weiterhin in Abschnitt 3.4
die Schätzung mittels MRFs mit dem α-Expansion-Algorithmus vorgestellt.
17
18 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
3.1
3.1.1
Minimale Schnitte in Graphen
Problemdefinition
Im Folgenden sollen gewichtete Graphen G = (V, N, w) mit der nicht-negativen Kantengewichtung w : N → R+ betrachtet werden. Diese Einschränkung auf nicht-negative Gewichte ist eine
wichtige Forderung, um im weiteren Verlauf effiziente Algorithmen zu entwickeln.
Allgemein lässt sich auf der Kantengewichtung eine Erweiterung w : P(N ) → R+ definieren (A ⊆ N ):
def
w(A) =
X
w(e).
(3.1)
e∈A
Definition 3.2 Mit ϑout (v) und ϑin (v) sei der Outdegree bzw. Indegree eines Knotens v ∈ V
bezeichnet. Diese Bezeichnung soll an dieser Stelle gleich für Knotenmengen erweitert werden:
def
1. ϑout (v) = {(v, q) ∈ N }
def
2. ϑout (A) = {(p, q) ∈ N | p ∈ A, q ∈ V \ A}
def
3. ϑin (v) = {(q, v) ∈ N }
def
4. ϑin (A) = {(q, p) ∈ N | p ∈ A, q ∈ V \ A}.
Definition 3.3 Ein s, t-Schnitt oder s, t-Cut C eines Graphen G = (V, N ) mit s, t ∈ V ist eine
Zerlegung {S, V \ S} der Knotenmenge V mit S ⊂ V , s ∈ S und t ∈ V \ S. Die Symbolik C
steht sowohl für die Zerlegung der Knotenmenge als auch für die darauf induzierte Kantenmenge
{(p, q) | p ∈ S und q ∈ V \ S}. Für die zu einem Schnitt C gehörende Knotenmenge S wird die
Bezeichnung S(C) verwendet.
Definition 3.4 Die Kosten eines s, t-Schnittes C sind gemäß der obigen Vereinbarungen mit
w(C), w(ϑout (S(C))) oder abkürzend |C| bezeichnet.
Offensichtlich gibt es im allgemeinen Fall mehrere s, t-Schnitte C, daher ist es von Interesse
den1 Schnitt zu finden, der minimale Kosten besitzt:
argmin
w(C).
(MinCut)
C ist ein s,t-Schnitt in G
1
Genauer gesagt, wird ein minimaler Schnitt gesucht, da auch das Problem des minimalen Schnittes nicht immer
eine eindeutige Lösung besitzt.
19
3.1. MINIMALE SCHNITTE IN GRAPHEN
Das Problem des minimalen Schnittes, oft als Min-Cut oder auch Graph-Cut bezeichnet,2
ist daher von den Knoten s und t abhängig und wird durch diese parametrisiert. Die Knoten s
und t werden aus diesem Grund als Terminals bezeichnet. Wichtig ist, dass die Kosten eines
Schnittes abhängig von der Richtung sind: Es werden nur Kanten von S nach V \ S gezählt. Eine
Formulierung des Problems ohne Terminals ist eine wenig sinnvolle Aufgabe und würde immer
zu der trivialen Zerlegung {V, ∅} führen.
3.1.2
Zusammenhang zur Bestimmung des maximalen Flusses
Grundlage für die folgenden Definitionen ist ein Graph G = (V, N ). Der Begriff des Flusses
eines Graphen lässt sich am besten anhand eines Rohrsystems erläutern. Jede Kante e eines Graphen repräsentiert eine Rohrverbindung mit der Kapazität w(e). Ausgehend von einem Knoten
s fließt nun Wasser zu einem Knoten t. Ein Fluss ist ein möglicher Zustand der Rohre während
solch eines Vorganges. Dabei gilt das 1. Kirchhoffsche Gesetz, welches sicherstellt, dass an Rohrverbindungsstellen (Knoten im Graphen) die Menge des hinfließenden Wassers gleich der Menge des abfließenden Wassers ist. Der Wert eines Flusses ist die transportierte Wassermenge von
Knoten s zu Knoten t in einem Zeitpunkt“. Das Rohrsystem (Graph) legt weiterhin die maxi”
male Wassermenge oder den maximalen Fluss fest, der bei solch einem Vorgang von s nach t
transportiert werden kann. Diese Beschreibung wird im Folgenden mathematisch formuliert.
Definition 3.5 Eine Abbildung f : N → R+ (Verallgemeinerung auf f : P(N ) → R+ analog
zu w) ist ein s, t-Fluss oder vereinfachend Fluss ⇐⇒
1. ∀ e ∈ N : f (e) ≥ 0
2. ∀ v ∈ V \ {s, t} : f (ϑout (v)) = f (ϑin (v)).
def
def
Definition 3.6 Der Wert eines Flusses f ist |f | = f (ϑout (s)) − f (ϑin (s)), oder |f | = f (ϑout (s))
für den hier behandelten Spezialfall mit f (ϑin (s)) = 0.
Definition 3.7 f ist zulässig bezüglich w
⇐⇒
∀ e ∈ N : f (e) ≤ w(e).
An dieser Stelle ist es schon möglich das Problem des maximalen Flusses zu definieren:
argmax
|f |.
(MaxFlow)
f ist ein zulässiger s,t-Fluss in G
2
Der Begriff Graph-Cut ist eigentlich ein allgemeinerer Begriff, da es viele verschiedene Möglichkeiten gibt
einen Schnitt in einem Graph zu definieren [SM00, GS06].
Der folgende Begriff der Überschussfunktion ist ein praktisches Werkzeug im Beweis des
Min-Cut-Max-Flow-Theorems 3.26.
Definition 3.8 Die Überschussfunktion ∆f : P(V ) → R ist definiert als:
def
∆f (U ) = f (ϑin (U )) − f (ϑout (U )).
(excess)
def
Konvention ∀ v ∈ V : ∆f (v) = ∆f ({v}).
Beispiel 3.9 Aus der Definition der Überschussfunktion ∆f folgt sofort, dass für alle Knoten v,
ausgenommen die Knoten s und t, ∆f (v) = 0 gilt.
Lemma 3.10 ∀ U ⊆ V : ∆f (U ) =
P
∆f (v).
v∈U
Beweis zu 3.10: Es sei zunächst die rechte Seite der Gleichung betrachtet:
X

X
in
out

∆f (v) =
f (ϑ (v)) − f (ϑ (v)) 
v∈U
v∈U



X
X
X






=
f
((p,
v))
−
f
((v,
p))



.
v∈U
(p,v)∈N
(3.11)
(v,p)∈N
In der letzten Summe existiert für jede Kante e ∈ N zwischen zwei Knoten x, y ∈ U der Term
f (e) und der Term −f (e) als Summand (ähnlich wie bei Teleskopsummen). Daher vereinfacht
sich die Gleichung zu:

=
X

X

v∈U
X
f ((p, v)) −
p∈V \U, (p,v)∈N
f ((v, p)) .
(3.12)
p∈V \U, (v,p)∈N
Die linke Seite der Gleichung kann durch Anwendung der Definitionen zu einem äquivalenten Ergebnis umgeformt werden:
∆f (U ) = f (ϑin (U )) − f (ϑout (U ))
X
=
f ((q, p)) −
p∈U, q∈V \U,
(q,p)∈N
X
p∈U, q∈V \U,
(p,q)∈N
f ((p, q)).
(3.13)
3.1. MINIMALE SCHNITTE IN GRAPHEN
21
Lemma 3.14 Sei f ein beliebiger zulässiger s, t-Fluss und C ein beliebiger s, t-Schnitt, dann
gilt3 :
|f | ≤ |C| = w(ϑout (S(C))).
(3.15)
Weiterhin gilt die Gleichheit bei dieser Ungleichung ⇐⇒
1. ∀ e ∈ ϑout (S(C)) : f (e) = w(e) und
2. ∀ e ∈ ϑin (S(C)) : f (e) = 0.
Beweis zu 3.14: Die Überlegung aus Beispiel 3.9 liefert:
∆f (S(C)) =
X
∆f (v) =
v∈S(C)
=
X


f (ϑin (v)) − f (ϑout (v)) + ∆f (s) =
v∈S(C)\{s}
= ∆f (s).
(3.16)
Aus dieser Überlegung folgt nahezu unmittelbar der Beweis des Lemmas:
|f | = −∆f (s)
= −∆f (S(C))
= f (ϑout (S(C))) − f (ϑin (S(C)))
≤ w(ϑout (S(C))) = |C|.
Der zweite Teil der Aussage ist aus der obigen Abschätzung ersichtlich.
(3.17)
Der Begriff des Residual-Graphen ist entscheidend für den Beweis des Satzes 3.26 sowie für
die Beschreibung der Algorithmen.
Definition 3.18 Sei e = (p, q) ∈ N eine Kante. Mit e−1 sei im Folgenden die Kante (q, p)
def
bezeichnet. Für eine Kantenmenge S ⊆ N ist weiterhin S −1 = {e−1 |e ∈ S}.
Definition 3.19 Sei f ein zulässiger Fluss. Eine Kante e ∈ G heißt gesättigt (bezüglich f ), wenn
f (e) = w(e).
3
Diese Ungleichung wird auch oft als schwache Dualität“ bezeichnet um den Zusammenhang zur linearen
”
Optimierung zu verdeutlichen.
Definition 3.20 Sei f ein zulässiger Fluss. Der Residual-Graph Df = (V, Nf ) besitzt die gleiche Knotenmenge wie G und die Kantenmenge:
def
Nf = {e | e ∈ N, f (e) < w(e)} ∪ {e−1 | e ∈ N, f (e) > 0}.
(3.21)
Lemma 3.22 Sei f ein zulässiger Fluss. Wenn der Residual-Graph Df keinen s, t-Pfad besitzt,
dann gelten für die Knotenmenge S = {x ∈ V | ∃Weg von s nach x in Df } folgende
Aussagen:
1. C mit S(C) = S ist ein minimaler Schnitt.
2. |f | = w(ϑout (S)) = |C|.
3. f ist ein maximaler Fluss.
Beweis zu 3.22: Alle Kanten an der Grenze von S müssen gesättigt sein, ansonsten wäre es
möglich S zu erweitern (Widerspruch zur Definition von S):
∀e ∈ ϑout
/ Nf
G (S) : e ∈
(3.23)
Für alle Kanten an der Grenze zu S gilt analog:
−1
∀e ∈ ϑin
∈
/ Nf
G (S) : e
(3.24)
out
in
Daraus folgt nach Definition von Nf : f (ϑout
G (S)) = w(ϑG (S)) und f (ϑG (S)) = 0). Die
obige Konstruktion von C lässt sofort erkennen, dass durch s ∈ S und t ∈ V \ S die Zerlegung
C ein Schnitt ist. Es gelten daher folgende Schlussfolgerungen analog zu Lemma 3.14:
|f | = f (ϑout (S)) − f (ϑin (S))
= w(ϑout (S))
(3.25)
Annahme: Der Schnitt C ist nicht minimal.
Dann gibt es einen Schnitt C 0 mit |C 0 | < |C|. Daraus folgt aber unmittelbar die Verletzung
von Lemma 3.14 durch |C 0 | < |f | und man erhält einen Widerspruch. Die letzte Teilaussage
folgt ebenfalls aus Lemma 3.14 und Teilaussage 1.
Der folgende Satz ist das essentielle theoretische Fundament für die effiziente Berechnung
eines minimalen Schnittes. Der Beweis wurde von Ford und Fulkerson im Jahre 1954 für ungerichtete Graphen sowie 1956 von Dantzig und Fulkerson für gerichtete Graphen geführt. Die
23
3.2. ALGORITHMEN ZUR BESTIMMUNG DES MINIMALEN SCHNITTES
konstruktive Art des Beweises liefert sofort den ersten Ansatz zur Berechnung eines maximalen
Flusses, welcher zum Algorithmus der erhöhenden“ Pfade von Dinic führt. Dieser Algorithmus
”
wird in Abschnitt 3.2.1 noch näher dargestellt.
Satz 3.26 Min-Cut=Max-Flow Theorem
ˆ = |fˆ|.
Sei fˆ eine Lösung von (MaxFlow) und Cˆ eine Lösung von (MinCut)4 . Dann gilt: |C|
Die Kosten eines minimalen Schnittes sind demnach gleich dem Wert des maximalen Flusses
(bezüglich der Terminals s und t).
Beweis zu 3.26: Sei f ein maximaler Fluss. Nach Lemma 3.14 genügt es zu zeigen, dass es einen
s, t-Schnitt C mit Kosten |f | gibt.
Annahme: Im Residual-Graph Df gibt es einen s, t-Pfad P .
Dann sei die Funktion χP wie folgt definiert:



1
e∈P


def
χP (e) = −1 e−1 ∈ P .



0
sonst
(3.27)
Diese Definition ist gültig, da man sich auf kreisfreie Pfade P beschränken kann (entweder e ∈ P
oder e−1 ∈ P ). Für geeignetes > 0 ist dann
def
f 0 = f + χP
(3.28)
wieder ein zulässiger Fluss mit |f 0 | = |f | + . Dies ist allerdings ein Widerspruch zur Maximalität von f . Es gibt demnach im Residual-Graph Df keinen s, t-Pfad. Dann kann man nach
Lemma 3.22 einen Schnitt C konstruieren mit |C| = |f |.
Bemerkung 3.29 Der Satz 3.26 ist ein Spezialfall der Dualität bei der linearen Optimierung.
Das Problem des minimalen Schnittes ist dual zum Problem des maximalen Flusses.
3.2
Algorithmen zur Bestimmung des minimalen Schnittes
Satz 3.26 zeigt, dass sich eine Berechnung des minimalen Schnittes in einem Graphen auf die Bestimmung des maximalen Flusses eines Graphen zurückführen lässt: Der Residualgraph besitzt
am Ende der Berechnung mindestens zwei Zusammenhangskomponenten. Aufgrund der nicht
4
Beide Probleme müssen keine eindeutige Lösung besitzen
gesicherten Eindeutigkeit können auch mehr als zwei Zusammenhangskomponenten entstehen.
Dadurch ergibt sich der minimale Schnitt als eine der Möglichkeiten, die Zusammenhangskomponenten in zwei entsprechende Gruppen einzuteilen.
3.2.1
Der Algorithmus von Dinic
Der Algorithmus von Dinic gehört zur Gruppe der Augmenting Path (erhöhender Pfad) Algorithmen. Diese Algorithmen verwenden die Idee des Beweises von Satz 3.26 und versuchen solange
s, t-Pfade im Residualgraphen zu finden und diese zu erhöhen, bis durch die Nichtexistenz solcher Pfade ein maximaler Fluss gefunden ist (siehe Lemma 3.22). Der Begriff erhöhen“ bedeutet
”
dabei die Aktualisierung von f im Sinne von Gleichung (3.28).
Der Algorithmus von Dinic verwendet eine Breitensuche und verarbeitet in einem Zyklus
Stück für Stück alle kürzesten Wege mit einer festen Länge k. Die Laufzeit beträgt O(mn2 ).
3.2.2
Der Algorithmus von Kolmogorov und Boykov
Der Algorithmus von Kolmogorov und Boykov [BK04] kann die asymptotische Laufzeit der
bisherigen Max-Flow-Algorithmen nicht verbessern. Der dort vorgestellte Algorithmus besitzt
sogar eine wesentlich schlechtere asymptotische Laufzeit. Es hat sich jedoch in den Experimenten von [BK04] gezeigt, dass für die Aufgaben der Bildverarbeitung dieser Algorithmus bessere
durchschnittliche empirische Laufzeiten liefert.
Grundlage für eine Beschleunigung der bisherigen Algorithmen ist die spezielle Struktur der
Graphen bei Bildverarbeitungsproblemen, welche durch Graph-Cut gelöst werden können:
1. Der Graph G ist bezogen auf die Knotenmenge V \{s, t} meist k-regulär (lokale homogene
Nachbarschaft).
2. Es existieren viele Verbindungen zu den Terminals.
Der Algorithmus von [BK04] gehört wie der Algorithmus von Dinic zu den Augmenting
Path Algorithmen. Der Algorithmus von Dinic hat bei der Anwendung auf Probleme der Bildverarbeitung ein entscheidendes Problem. In jedem Schritt müssen fast alle Pixel (Knoten) neu
verarbeitet werden, um den entsprechenden Suchbaum zu konstruieren.
Der Algorithmus von [BK04] umgeht dieses Problem, in dem von der Quelle s und von der
Senke t jeweils ein Suchbaum konstruiert wird, welcher in den nächsten Schritten der Pfadsuche
weiterverwendet werden kann. Der Algorithmus liefert eine asymptotische Worst-Case Laufzeit
von O(mn2 |C|).
25
3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT
Dinic
Boykov und Kolmogorov
Goldberg und Tarjan
O(mn2 )
O(mn2 |C|)
2
O(nm log( nm ))
Tabelle 3.2: Laufzeiten verschiedener Max-Flow Algorithmen
3.3
Diskrete Optimierung mit Graph-Cut
Ziel des folgenden Abschnittes ist es, Klassen von binären Optimierungsproblemen zu definieren, welche effizient mit minimalen Schnitten in Graphen gelöst werden können. Dabei besitzt
das Attribut effizient“ zwei Bedeutungen: polynomielle Laufzeit des Algorithmus und Optimie”
rung mit Zusicherungen für die Güte des gefundenen Optimums. Eine Charakterisierung dieser
Optimierungsprobleme lässt sich in aller Ausführlichkeit in der Arbeit [KZ04] finden. Die dort
beschriebenen Resultate und Konstruktionen sollen in diesem Abschnitt erläutert und diskutiert
werden.
3.3.1
Das Optimierungsproblem und die Funktionsklassen F 2 und F 3
Eine klare Definition der Optimierungsprobleme ist Ausgangspunkt der Untersuchung. Allgemein soll das folgende diskrete Optimierungsproblem behandelt werden:
L̂ = argmin F (L).
(BinF )
L∈{0,1}n
Die Funktion F : {0, 1}n → R ist Element einer speziellen Funktionsklasse. Folgende allgemeine Funktionsklassen werden in [KZ04] vorgestellt:
Definition 3.30 Eine Funktion5 F ist Element der Funktionsklasse F 2 ⇐⇒
F besitzt eine Darstellung6 mit Funktionen E i und E i,j der folgenden Form
n
X
(3.31)
Definition 3.32 Eine Funktion F ist Element der Funktionsklasse F 3
⇐⇒ F besitzt eine
i=1
5
6
E i (Li ) +
X
E i,j (Li , Lj ).
F (L) =
i<j
i,j∈{1,...,n}
Diese Definition ist nicht auf binäre Funktionen beschränkt.
Die Darstellung (3.31) ist nicht eindeutig.
Darstellung7 mit Funktionen E i , E i,j und E i,j,k der folgenden Form
F (L) =
n
X
E i (Li ) +
i=1
X
E i,j (Li , Lj ) +
i<j
i,j∈{1,...,n}
X
E i,j,k (Li , Lj , Lk ).
(3.33)
i<j<k
i,j,k∈{1,...,n}
Dem aufmerksamen Leser, der bereits einen Blick in Kapitel 2 und den Satz von HammersleyClifford 2.12 geworfen hat, wird die Analogie zu der Darstellung (2.13) auffallen. Tatsächlich
sind bis auf eine additive Konstante die Funktionsklassen F 2 und F 3 als Gibbs-Darstellung eines MRF mit ω(S) ≤ 2 und ω(S) ≤ 3 deutbar. Dieser Zusammenhang schlägt eine Brücke zu
der Schätzung mittels MRFs, welche in Abschnitt 3.4.4 näher erläutert wird. In den weiteren Abschnitten werden aus diesem Grund die Funktionen E i , E i,j , E i,j,k (und später allgemeiner E β )
ebenfalls als Cliquen-Potentiale bezeichnet.
3.3.2
Regularität und Graphkonstruktion für F 2
Die Minimierung allgemeiner F 2 -Funktionen ist NP-schwer. Ein Beweis dafür ist in [KZ04]
aufgeführt und in Abschnitt A.3 erläutert. Diese Tatsache ist Auslöser für eine Untersuchung
der Fragestellung, welche echten Untermengen von F 2 -Funktionen auf das Min-Cut-Problem
reduziert werden können.
Eine Verbindung zum Problem des minimalen Schnittes lässt sich bereits an der binären
Darstellung eines Schnittes C erkennen:
Definition 3.34 Sei L ∈ {0, 1}n ein binärer Vektor und G ein Graph mit V = {s, t, v1 , . . . , vn }.
Dann ist C L der Schnitt des Graphen, der durch die Zerlegung {S, T } entsteht mit:
1. s ∈ S
2. t ∈ T
3. vi ∈ S, wenn Li = 0
4. vi ∈ T , wenn Li = 1
Analog lässt sich anhand eines Schnittes in eineindeutiger Weise ein Vektor L(C) angeben.
Bemerkung 3.35 Es können auch Graphen mit mehr als n + 2 Knoten betrachtet werden. Ein
Schnitt C definiert dann zwar in eindeutiger Weise einen Vektor bzw. eine Beschriftung L(C),
7
Die Darstellung (3.33) ist ebenfalls nicht eindeutig.
27
jedoch ist die Umkehrung nicht mehr möglich. Ein Schnitt C L lässt sich dennoch, konsistent zur
obigen Definition, als Minimum aller möglichen Schnitte definieren:
CL =
argmin
|C|.
(3.36)
C ist ein Schnitt mit den Eigenschaften aus Definition 3.34
Zunächst sei die etwas umständliche Ziel-Beschreibung der Reduktion auf das Min-CutProblem formalisiert und mit einem entsprechenden Begriff versehen:
Definition 3.37 Eine Funktion F heißt graph-darstellbar ⇐⇒ Das zu F gehörende Optimierungsproblem (BinF ) lässt sich auf das Problem (MinCut) des minimalen s, t-Schnittes auf
folgende Weise zurückführen:
Zu (BinF ) gibt es einen Graph G = (V, N ) mit Knoten (Terminals) s und t sowie eine
Kantengewichtung w : N → R+ , so dass gilt:
∃κ : ∀L ∈ {0, 1}n : F (L) = |C L | + κ
(3.38)
ˆ
Da durch |C L | alle Schnitte im Graphen G dargestellt werden können, gilt : L̂ = L(C)
Wie lassen sich Funktionen aus F 2 charakterisieren, die graph-darstellbar sind? Diese Fragestellung wird durch einen Satz von [KZ04] beantwortet. Vor der Formulierung des Satzes, sei
aber zuerst der entscheidende Begriff der Regularität eingeführt und erläutert:
Definition 3.39 Eine Funktion E : {0, 1}2 → R heißt regulär oder submodular ⇐⇒
E(0, 0) + E(1, 1) ≤ E(0, 1) + E(1, 0)
(Reg2 )
Eine Funktion F ∈ F 2 sei ebenfalls als regulär bezeichnet ⇐⇒ alle Funktionen E i,j einer
F 2 -Darstellung sind regulär.
Beispiel 3.40 Die einzelnen Summanden des Ising-Modells (2.27) sind regulär (α ≥ 0):
E(0, 1) + E(1, 0) = −α − α ≤ α + α = E(0, 0) + E(1, 1)
Satz 3.42 Die Summe von zwei graph-darstellbaren Funktionen ist wieder graph-darstellbar.
Beweis zu 3.42: Siehe Anhang von [KZ04].
⇐⇒
Satz 3.43 F is graph-darstellbar
regulär.
Jeder Term E i,j in der Darstellung (3.31) von F ist
Bemerkung 3.44 Es sei bemerkt, dass die Darstellung einer Funktion F in der Form (3.31)
nicht eindeutig ist, die Regularität davon aber nicht beeinflusst wird.
Die Terme E i (Li ) können zum Beispiel komplett in die Terme E i,j (Li , Lj ) einfließen:
X
i
i
E (Li ) +
X
i,j
E (Li , Lj ) =
i<j
X
i<j
=
X
1
1
i
j
E (Li , Lj ) +
E (Li ) +
E (Lj )
n−i−1
j−1
i,j
Ẽ i,j (Li , Lj )
i<j
Die Regularität ist aber invariant bezüglich der Änderung der Darstellung (3.31):
Ẽ i,j (0, 0) + Ẽ i,j (1, 1) = E i,j (0, 0) + E i,j (1, 1) +
+
1
E i (0) + E i (1) +
n−i−1
1
E j (0) + E j (1)
j−1
≤ E i,j (0, 1) + E i,j (1, 0) + . . .
= Ẽ i,j (0, 1) + Ẽ i,j (1, 0)
Beweis zu 3.43: Die Rückrichtung soll anhand einer Konstruktion des entsprechenden Graphen
gezeigt werden. In Folge der konstruktiven Art des Beweises ist damit implizit auch ein Algorithmus beschrieben, welcher reguläre F 2 -Funktionen minimiert. Die andere Richtung wird später
allgemeiner bewiesen durch Satz 3.53. Für einen formaleren Beweis des Satzes sei auf Satz (1.8)
im Anhang verwiesen.
Durch Satz 3.42 ist es möglich, die Konstruktion des Graphen für die einzelnen Summanden
getrennt vorzunehmen und danach den Gesamtgraphen zusammenzusetzen. Dabei werden die
Kanten zu einer Kantenmenge vereinigt und die Kantengewichte bei gleichen Kanten summiert
def
8
Sei mit V = {s, t, v1 , . . . , vn } die Knotenmenge des Graphen bezeichnet. Wichtig bei der
Konstruktion ist die Sicherstellung von nicht-negativen Kantengewichten.
Konstruktion von E i : Ein Term E i entspricht den Kosten für Zuweisung von Li zu den
einzelnen Klassen 0 (symbolisiert durch Terminal s) und 1 (Terminal t) ohne Beachtung der
Abhängigkeiten zu den anderen Komponenten von L. Für jeden Term E i wird daher eine Kante
8
Satz 3.42 sichert eigentlich nur die Aussage des Satzes, aber nicht, dass der zusammengesetzte Graph wirklich
eine geeignete Konstruktion des Gesamtproblems ist.
29
Bild 3.1: Konstruktion des Graphen für F 2 Funktionen mit den verwendeten Abkürzungen aus
Tabelle (3.45) (Quelle [KZ04])
e zu einem Terminal hinzugefügt. Bei E i (1) − E i (0) ≥ 0 ergibt sich die Kante e = (s, vi ) mit
Gewicht E i (1) − E i (0) (Abbildung 3.1 a). Ansonsten wird die Verbindung e von Knoten vi zu
Terminal t mit Gewicht E i (0) − E i (1) gesetzt (Abbildung 3.1 b). Diese Konstruktion findet auf
folgende Weise ihre plausible Begründung: Die Bedingung E i (1) − E i (0) ≥ 0 bedeutet, dass die
Kosten für die Zuweisung von Li zu Klasse 0 (Terminal s) größer sind als bei Klasse 1. Wenn
nach der Optimierung Li mit 1 belegt ist, gehört die Kante e zum minimalen Schnitt, da die
Knoten vi und s getrennt werden. Die zusätzlichen“ Kosten der Zuweisung von Li zu Klasse 0
”
werden demnach beim Optimalwert berücksichtigt.
Konstruktion von E i,j :
Für die Konstruktion des Graphen dienen folgende Abkürzungen:
E i,j (0, 0) E i,j (0, 1)
E i,j (1, 0) E i,j (1, 1)
!
=
A B
C D
!
(3.45)
Term
Ei
Bedingung
E (1) − E i (0) ≥ 0
E i (1) − E i (0) ≤ 0
i
E i,j
E i,j
C −A≥0
C −A≤0
C −D ≥0
C −D ≤0
Kante
Gewicht
i
(s, vi )
E (1) − E i (0)
(vi , t)
E i (0) − E i (1)
(vi , vj ) B + C − A − D
(s, vi )
C −A
(vi , t)
A−C
(vj , t)
C −D
(s, vj )
D−C
Tabelle 3.4: Übersicht über die Graph-Konstruktion für reguläre F 2 -Funktionen
Die Funktion E i,j lässt sich in die folgenden additiven Bestandteile zerlegen:
D+
A−C A−C
0
0
!
+
C −D 0
C −D 0
!
+
0 B+C −A−D
0
0
!
(3.46)
Der erste Summand wird bei der Konstruktion vernachlässigt, da es sich nur um eine additive
Konstante handelt. Die beiden folgenden Summanden hängen von einer einzigen Variable ab und
können daher analog zu den E i Termen konstruiert werden. Die Kosten B + C − A − D zählen
nur, bei einer Zuordnung von Knoten vi zu Terminal s und von Knoten vj zu Terminal t. Daher
kann der letzte Summand in der Zerlegung (3.46) durch eine Kante e = (vi , vj ) mit Gewicht
w(e) = B + C − A − D repräsentiert werden (Abbildung 3.1 c,d). Die Nicht-Negativität dieser
Kante ist durch die Regularitätsbedingung (Reg2 ) sichergestellt.
Bemerkung 3.47 An der Zerlegung von E i,j in Gleichung (3.46) lassen sich auch prinzipielle
Einschränkungen des Modells erkennen. Die Darstellung der Funktionen E i,j lässt sich immer
auf folgendes Modell reduzieren:

E
i,j
E i,j (Li , Lj ) =
0
Lj > L i
(3.48)
sonst
Diese Darstellung sei im Folgenden als gerichtetes Potts-Modell bezeichnet.
Die Abbildungen 3.3 und 3.2 zeigen ein einfaches Beispiel für die Segmentierung mit GraphCut. Dieses Beispiel soll die Ähnlichkeit von Segmentierungsproblemen und dem Min-CutProblem offenlegen. Ziel ist es, das Originalbild in 3.3 zu segmentieren. Der konstruierte Graph 3.2
enthält Kanten zwischen Pixelknoten (Knoten im Graphen, die einem Pixel im Bild entsprechen)
31
Bild 3.2: Schema der Konstruktion des Graphen für das Beispielbild 3.3 und Darstellung des
minimalen Schnittes
und den Terminals um die Kosten einzelner Pixel zu kodieren (E i ). Die Kantengewichte zwischen zwei Pixelknoten werden hingegen entsprechend der Funktionen E i,j belegt. Für diese
beispielhafte Darstellung wird das Potts-Modell verwendet und E i,j so gewählt, dass bei geringen Grauwertdifferenzen |Ii − Ij | hohe Kosten in der Zielfunktion entstehen9 . Weiterhin soll
die linke obere (bzw. rechte untere) Ecke des 9 Pixel großen Bildes mit hohen Kosten für den
Vordergrund (bzw. Hintergrund) belegt werden. Bei der anschließenden Optimierung wird daher eine optimale Kante zwischen den gegenüberliegenden Ecken gefunden. Eine allgemeinere
Darstellung des Zusammenhangs zur Segmentierung befindet sich in Abschnitt 3.4.4.
3.3.3
Vollständige Charakterisierung
Der Begriff der Regularität kann wie folgt erweitert werden:
Definition 3.49 Sei α eine Indexmenge mit α ⊆ {1, . . . , n}. Für eine feste Belegung Lfix = Lα
9
Ein Beispiel für eine solche Wahl von E i,j ist die Festlegung von Gleichung 4.3 in Abschnitt 4.1.3.
Bild 3.3: (Links) Originalbild, (Rechts) Segmentierung aufgrund des minimalen Schnittes in
Abbildung 3.2
def
α
α
(B) = F (L) mit
: {0, 1}n−]α → R gegeben durch: Fproj
ist die Projektion Fproj

Lfix
def
γ(i)
Li =
B
τ (i)
i∈α
(3.50)
sonst
und entsprechenden Funktionen γ und τ für die Zuordnung der Indizes.
Definition 3.51 Sei F : {0, 1}n → R eine Funktion.
1. Für n = 1 (nur ein Argument) ist jede Funktion F regulär.
2. Für n = 2 ist die Funktion F regulär, wenn sie die Bedingung (Reg2 ) erfüllt.
3. Für n > 2 ist die Funktion F regulär ⇐⇒ jede Projektion von F mit zwei Argumenten
ist regulär.
Bemerkung 3.52 Es ist nicht sofort offensichtlich, dass diese Definition wirklich eine Erweiterung von Definition 3.39 darstellt. Grundlage für die Definition 3.39 bildete die entsprechende
Darstellung als Summe von E i und E i,j . Die obige Charakterisierung ist hingegen direkt unabhängig von der Darstellung. Wie in Bemerkung 3.44 bereits schon erwähnt, ist der Begriff
der Regularität 3.39 ebenfalls vollständig von der Darstellung (3.31) unabhängig. Ein genauer Beweis für diesen Sachverhalt und der Äquivalenz der beiden Definitionen befindet sich in
[KZ04].
Der folgende Satz ist ein Resultat aus [KZ04]:
Satz 3.53 Jede graph-darstellbare Funktion ist regulär.
33
Beweis zu 3.53: Siehe [KZ04].
Eine Verallgemeinerung der Definitionen 3.30 und 3.32 ist nahe liegend und wird in der Arbeit [FD05] für eine vollständige Charakterisierung der graph-darstellbaren Funktionen verwendet. Damit ist [FD05] eine direkte Erweiterung der Ausführungen von [KZ04]. Zur Definition
der Klasse F k soll die Multiindex-Konvention 2.6 aus Abschnitt 2.1 verwendet werden:
Definition 3.54 Eine Funktion F ist Element der Funktionsklasse F k ⇐⇒ F besitzt eine
Darstellung mit Funktionen E β (β ⊆ {1, . . . , n}, ]β ≤ k) der folgenden Form:
X
F (L) =
E β (Lβ ).
(3.55)
β⊆{1,...,n}
]β≤k
Ziel der Arbeit [FD05] ist es erneut eine Charakterisierung der Klasse der graph-darstellbaren
Funktionen vorzunehmen. Folgendes Resultat kann für die Klasse F k aufgestellt werden:
Satz 3.56 Die Mengen α und β seien Indexmengen mit α, β ⊆ {1, . . . , n} Weiterhin sei für eine
beliebige binäre Funktion F mit n-Argumenten die Notation Fβ mit Fβ = F (L) und (Li =
1 ⇐⇒ i ∈ β) erklärt.
Wenn eine Funktion F ∈ F k die Bedingung
∀α, 2 ≤ ]α ≤ k :
X
(−1)]α−]β Fβ ≤ 0
(FReg)
β⊆α
erfüllt, dann ist sie graph-darstellbar.
Beweis zu 3.56: Siehe [FD05].
Bemerkung 3.57 Die Bedingung (FReg) reduziert sich für k = 2 und k = 3 auf die Regularitätsbedingung 3.51.
3.3.4
Der Zusammenhang zu submodularen Funktionen
Als Einstieg sei gleich die Definition einer submodularen Funktion gegeben:
Definition 3.58 Eine (Mengen-)Funktion f : P(U) → R ist submodular 10 ⇐⇒
∀A, B ⊆ U : f (A ∪ B) + f (A ∩ B) ≤ f (A) + f (B)
10
(SubMod)
Analog lassen sich die Begriffe supermodular (≥) und modular (=) mit einer entsprechenden Änderung der
Relation in Bedingung SubMod definieren.
Der Zusammenhang von Mengenfunktionen f und binären Funktionen F kann in folgender
Weise dargestellt werden:
Sei M eine endliche Menge mit n Elementen xi für 1 ≤ i ≤ n. Für jede Mengenfunktion
def
f : P(U) → R kann eine entsprechende binäre Funktion Ff mit Ff (χA ) = f (A) definiert werden. χA ist eine Schreibweise der charakteristischen Funktion von A als binärer Vektor. Diese
Zuordnung ist bijektiv, denn zu jeder binären Funktion F kann in analoger Weise eine Mengenfunktion fF deklariert werden. Diese Bijektivität liegt in der Äquivalenz der Darstellung einer
Menge in Mengenschreibweise und als charakteristische Funktion begründet. Aus diesem Grund
sei im Folgenden der Begriff der Submodularität (SubMod) und Regularität 3.51 für binäre Funktionen und Mengenfunktionen gleichermaßen verwendet.
Eine Bemermerkung über den Zusammenhang zwischen submodularen Funktionen und graphdarstellbaren Funktionen findet sich bereits in [KZ04]. Schon in der Arbeit von Cunningham
[Cun85] konnte gezeigt werden, dass das Problem des minimalen Schnittes (MinCut) als Minimierung einer submodularen Funktion umformuliert werden kann.
Satz 3.59 Jede submodulare Funktion f ist regulär im Sinne von Definition 3.51.
Beweis zu 3.59: Die Übertragung, bezüglich der obigen Beschreibung der bijektiven Zuordnung
zwischen Mengenfunktionen und binären Funktionen, der Definition 3.39 führt zu der folgenden
Bedingung:
∀x, y ∈ M, x 6= y ∀D ⊆ M \ {x, y} :
f (D) + f (D ∪ {x, y}) ≤ f (D ∪ {x}) + f (D ∪ {y})
(3.60)
Es bleibt also zu zeigen, dass submodulare Funktionen f die Bedingung (3.60) erfüllen. Seien
def
def
D, x, y so gewählt wie es Bedingung (3.60) vorschreibt. Mit A = D ∪ {x} und B = D ∪ {y}
folgt unmittelbar:
f (A ∪ B) = f (D ∪ {x, y})
(3.61)
f (A ∩ B) = f (D)
(3.62)
Damit folgt aus der Submodularität (SubMod) mit A, B die Regularitätsforderung (3.60). Satz 3.63 Jede reguläre Funktion f im Sinne von Bedingung 3.51 ist submodular.
35
Literatur
Resultate
Funktionsklasse
[Cun85, PR75] graph-darstellbare Funktionen sind submodulare
submodular
Funktionen, cut
”
functions“
F 2 -regulär ⊂ F 3 -regulär ⊆ graph- reguläre Funktio[KZ04]
darstellbar ⊆ regulär = submodular nen
Satz 3.56
F k -Funktionen
[FD05]
mit der Eigenschaft (FReg)
Tabelle 3.6: Literaturverweise: Charakterisierung der graph-darstellbaren Funktionen
Beweis zu 3.63: Zu zeigen ist, dass aus der Bedingung (3.60) die Submodularität der Funktion f
folgt. In [KZ04] wird die Bedingung (3.60) als alternative Charakterisierung der Submodularität
angeführt. Daraus folgt unmittelbar der Beweis des Satzes.
Korrolar 3.64 Die Begriffe regulär und submodular sind äquivalent.
Die Kriterien der Graph-Darstellbarkeit sind demnach vielfältig und fallen bei den Fällen F 2
und F 3 komplett zusammen. Abbildung 3.4 versucht diese Zusammenhänge zu verdeutlichen.
In Tabelle 3.6 werden noch einmal die Literaturverweise mit den entsprechenden Resultaten
dargestellt.
Bild 3.4: Darstellungen der Beziehungen der einzelnen Funktionsklassen: (Links) für F k Funktionen, (Rechts) für die Spezialfälle F 2 und F 3 . Die Freedman-Drineas Bedingung verweist
auf die hinreichende Bedingung (FReg) von [FD05].
3.4
α-Expansion-Algorithmus
Bisher wurden Resultate vorgestellt, welche es ermöglichen, das binäre Optimierungsproblem
(BinF ) für Funktionen mit gewissen Einschränkungen (Regularität, F k ) zu lösen. Übertragen
auf die Zuweisung zu bestimmten Klassen wurden daher nur Zweiklassen-Probleme gelöst. Bei
der ursprünglichen Zielsetzung der Schätzung mittels MRFs wird aber die Einteilung in K unterschiedliche Klassen benötigt (siehe Abschnitt 2.3.1):
L̂ = argmin F (L)
l∈{1,...,K}n
(OptF )
Ein Ansatz mit Blick auf die bisherige Vorgehensweise wäre es, wieder zusätzliche Einschränkungen für die Zielfunktionen zu suchen, so dass auch dieses nicht-binäre Problem auf
das Problem des minimalen Schnittes zurückgeführt werden kann. Die Arbeiten von Ishikawa et
al. [IG98, IG99, Ish03] verfolgen diese Idee und gelangen zu einer Funktionsklasse K ⊂ F 2 .
i,j
Diese Funktionsklasse beinhaltet alle Funktionen mit konvexen11 Cliquen-Potentialen EK
der
Form:
def
i,j
E i,j (Li , Lj ) = EK
(Li − Lj )
(3.65)
Diese Funktionsklasse schränkt die Modellierung stark ein. So genügt zum Beispiel das PottsModell (2.29) nicht diesen Bedingungen.
Eine weitere Ansatzmöglichkeit ist die Erweiterung des Min-Cut-Problems (MinCut) auf
ein ähnliches Problem mit mehr als zwei Terminals. Diese Formulierung wird als Minimum”
Multiway-Cut“ bezeichnet. Die Minimierung ist für beliebige Graphen leider NP-schwer [DJP*94].
Die Suche nach einem exakten Algorithmus, welcher in polynomieller Zeit läuft, kann daher optimistischeren Forschern überlassen werden.
In der Bildverarbeitung ist die Suche nach exakten“ Algorithmen oft gar nicht wesent”
lich. Typische Einschränkungen bei Anwendungen sind der Informationsverlust des Aufnahmeprozesses, gravierende Modellannahmen und häufig auftretende Problemformulierungen, die
aufgrund ihrer Komplexität generell nicht exakt gestellt werden können. Daher sind ohne Beschränkung der Allgemeinheit, die Auswirkungen der Approximation bei der Optimierung im
Gegensatz zu anderen Einflüssen vernachlässigbar.
Die Arbeiten [Vek99, BVZ99a] stellen daher ein Algorithmus vor, welcher nicht immer das
globale Optimum berechnet, sondern eine Art lokales Optimum. Dabei erfolgt die Berechnung
11
Die Konvexität beschränkt sich bei Funktionen g : N → R auf ∀x ∈ N : g(x + 1) − 2g(x) + g(x − 1) ≥ 0.
3.4. ALPHA-EXPANSION-ALGORITHMUS
37
Bild 3.5: Auswirkungen einer Iteration des α-Expansion-Algorithmus (α-Erweiterungsschritt)
am Beispiel der Klasse der weißen Pixel [KZ04].
der Lösung auf iterative Weise. Ein Teil des Gesamtproblems wird in jeder Iteration auf ein
binäres Problem abgebildet und mit den üblichen Algorithmen (siehe Abschnitt 3.2) gelöst.
3.4.1
Beschreibung des Algorithmus
Ziel soll es sein, Probleme der Form (OptF ) zu lösen. In Abschnitt 3.4.3 wird anschließend
gezeigt, welche Bedingungen dabei an die Zielfunktion geknüpft werden müssen.
Anschaulich geht der Algorithmus folgendermaßen vor: Am Anfang ist eine Startlösung
L = L(0) gegeben. In jeder Iteration wird nun ein Label α fest gewählt. Alle Komponenten
(Punkte) von L, welche bereits mit α beschriftet sind, werden in der aktuellen Iteration nicht
geändert. Ziel der Iteration ist es, für alle anderen Komponenten (Punkte) von L folgende binäre
Entscheidungsfrage zu lösen:
Soll die aktuelle Beschriftung der Komponente geändert und auf α gesetzt werden ?
Dies führt zu einer Erweiterung (Expansion) der Klasse α. Ein Beispiel für die Auswirkungen
einer Iteration ist in Abbildung 3.5 dargestellt.
Grundlage für die mathematische Formulierung bilden so genannte zulässige Schritte im
def
Raum SK = {1, . . . , K}n . Diese definieren eine Umgebung U (L) eines Vektor L ∈ SK . In
jeder Iteration kann durch Übertragung auf das schon anschaulich beschriebene binäre Problem
ein Minimum in einer Umgebung gefunden werden. Es ist möglich, dieses Verfahren als eine Art dynamische lokale Suche in einem Graphen zu betrachtet. Die Arbeiten [Vek99, KT05]
bezeichnen es direkt als Spezialfall der üblichen lokalen Suche. Ausgehend von den direkten
Beschreibungen des Algorithmus in [BVZ99a, SZS*06] sei aber darauf hingewiesen, dass der
konkrete Ablauf nicht direkt dem Konzept der Lokalen Suche“ entspricht. Dieser Unterschied
”
wird nach der Beschreibung des Algorithmus deutlich.
In [Vek99, BVZ99a] wurden zwei unterschiedliche Konzepte (α-Expansion und α, β-Swap)
für zulässige Schritte definiert und getestet, von denen an dieser Stelle nur das empirisch beste
Konzept der α-Expansion vorgestellt werden soll:
Definition 3.66 Ein Schritt im Raum SK ist ein Paar (L1 , L2 ) mit L1 , L2 ∈ SK .
(L1 , L2 ) ist ein zulässiger α-Erweiterungsschritt ⇐⇒
∀i ∈ {1, . . . , n} : (L2i = L1i ) ∨ (L2i = α).
(3.67)
Die Menge der durch diese zulässigen Schritte definierten Vektoren L2 definieren eine Umgebung
U α (L1 ).
Der bereits skizzierte Ablauf des Algorithmus kann jetzt exakt formuliert werden: In jeder
Iteration k erfolgt die Auswahl eines festen Label α(k). Ausgehend von dieser Wahl wird das
folgende allgemeine Teilproblem gelöst:
L(k+1) =
argmin
F (L).
(3.68)
L ∈ U α(k) (L(k) )
Durch die Wahl der Umgebung kann das Problem folgendermaßen als binäres Problem beschrieben werden: Zunächst ist durch die aktuelle Beschriftung L(k) und die Wahl des Labels
α(k) die Zielfunktion in der passenden Umgebung nur noch von einem binären Vektor B abhängig.
Dieser kodiert die Information, ob ein Punkt seine Beschriftung beibehält oder die Beschriftung
auf α gesetzt wird. Daher lässt sich für die neue binäre Zielfunktion Ekbin schreiben:
def
Ekbin (B) = F (L(B))
(3.69)

α(k) B = 1
i
def
Li (B) =
.
(k)
L
Bi = 0
i
(3.70)
mit
Nicht jeder binäre Vektor B kodiert hingegen einen zulässigen Nachbarn“ von L(k) . Es gilt
”
(k)
die Einschränkung: ∀i mit Li = α(k) : Bi = 1. Alle bisherigen α-Beschriftungen werden
dadurch fixiert. Durch diese Festlegung ergibt sich folgendes binäre Teilproblem:
L(k+1) = Γ (L(k) ,
argmin
B∈{0,1}n
(k)
∀Li =α(k):Bi =1
Ekbin (B)).
(Subα )
39
Die Funktion Γ dient dazu, die Information des binären Vektors B zu dekodieren“ und es
”
gilt
def
Γ (L(k) , B) = L(B)
(3.71)
mit der Festlegung von L(B) durch Gleichung (3.70).
Das in die Gleichung (Subα ) eingebettete Optimierungsproblem ist ein bekanntes Optimierungsproblem der Form (BinF ), welches unter den beschriebenen Anforderungen auf das Problem des minimalen Schnittes in einem Graphen reduziert werden kann. Die Übertragung dieser Anforderungen auf die Zielfunktion F werden im Abschnitt 3.4.3 näher untersucht. Weiterhin führt die zusätzliche Nebenbedingung lediglich auf eine Minimierung einer Projektion von
def
E = Ekbin :
ω
argmin E(B) = argmin Eproj
(B̃)
B∈{0,1}n
∀i∈ω:Bi =1
(3.72)
B̃∈{0,1}n−]ω
def
(k)
Die Indexmenge ω umfasst alle fixierten Komponenten: ω = ω(k) = {i | Li
fixierte Vektor der Projektion ist Bω ≡ 1.
= α(k)}. Der
Es gibt verschiedene Möglichkeiten die Funktion α(k) und damit die Wahl des fixierten Labels vorzunehmen. In den Arbeiten [Vek99, BVZ99b, BVZ01] wird vorgeschlagen, alle möglichen Labels nacheinander durch eine Iteration abzuarbeiten. Solch ein Zyklus wird dann solange
wiederholt, bis eine weitere Minimierung des Funktionswertes von F nicht mehr möglich ist. Die
Reihenfolge der Labels in einem Zyklus kann eine zu Beginn des Zyklus zufällig gewählte Permutation sein. In bisher bekannten Beschreibungen des α-Expansion-Algorithmus sind weitere
Details ausgespart. Der Algorithmus ist diesbezüglich noch einmal in der Pseudocodebeschreibung 3.1 zusammengefasst und richtet sich nach der konkreten Implementierung von Olga Veksler, auf die in der Arbeit [SZS*06] verwiesen wird. Der genaue Ablauf zeigt den Unterschied zur
Lokalen Suche“: Die Nachbarschaft einer Beschriftung hängt explizit vom ausgewählten fixier”
ten Label α(k) ab. Sie ist daher vom genauen Weg der Suche abhängig. Dies steht im Kontrast
zu der fixierten Nachbarschaft bei der üblichen Lokalen Suche“.
”
3.4.2
Eigenschaften des Algorithmus
Die Terminierung des Algorithmus ist aus folgenden Gründen gesichert. Die Zielfunktion F ist
auf der Menge SK offensichtlich nach unten beschränkt, da die Menge SK endlich ist. Da in
jedem erfolgreichen Zyklus der Zielfunktionswert reduziert wird : F (L(k) ) < Fold , können nur
endlich viele Zyklen durchlaufen werden. Unter ein paar zusätzlichen Annahmen ist es sogar
Pseudocode 3.1: α-Expansion-Algorithmus
Waehle eine Anfangsbeschriftung L(0)
k := 0
Fold := ∞
do
success := 0
π = Zufaellige oder fest gewaehlte Permutation von {1, . . . , K}
for i := 1 . . . K do
α := π(i)
L(k+1) = Loesung des Unterproblems (Subα )
k := k + 1
end
if F (L(k) ) < Fold then
success := 1
Fold := F (L(k) )
end
while ( success and k < maxIterations )
möglich, die Terminierung in O(n) Zyklen zu beweisen [Vek99].
Der α-Expansion-Algorithmus erzeugt, wie bereits angesprochen, nicht notwendigerweise ein globales Minimum. Der Algorithmus liefert hingegen immer ein Art lokales Minimum
bezüglich der möglichen α-Expansionsschritte. Eine wichtige Fragestellung in diesem Zusammenhang ist die Entfernung“ des Resultates des Algorithmus vom globalen Minimum. Dies
”
mündet in der so genannten Approximationsgüte (relative approximation):
Satz 3.73 Sei L̂ das globale Minimum von F ∈ F 2 , L das Resultat des α-Expansion-Algorithmus
und o.B.d.A. F (L̂) ≥ 0. Dann gilt folgende Abschätzung:

F (L̂) ≤ F (L) ≤ 2 max
i,j
max E i,j (α, β)

min E i,j (α, β)
 F (L̂)
α6=β
(3.74)
α6=β
Beweis zu 3.73: Siehe Veksler [Vek99] (Originalarbeit) oder Kleinberg und Tardos [KT05]. Korrolar 3.75 Sei L̂ das globale Minimum von F ∈ F 2 mit F (L̂) ≥ 0 und L das Resultat
des α-Expansion-Algorithmus. Dann gilt für das verallgemeinerte Potts-Modell E i,j (Li , Lj ) =
Ei,j δ(Li 6= Lj ) mit Ei,j ≥ 0:
F (L̂) ≤ F (L) ≤ 2F (L̂)
(3.76)
Beweis zu 3.75: Es gilt:
max E i,j (α, β) = min E i,j (α, β)
α6=β
α6=β
und nach Satz 3.73 folgt sofort Aussage (3.76).
41
3.4.3
Anforderungen an die Zielfunktion bei F ∈ F 2
In Abschnitt 3.3 wurden die Anforderungen an eine binäre Funktion untersucht, so dass diese
mit einer Reduzierung auf das Problem des minimalen Schnittes optimiert werden kann. Im
Folgenden seien Funktionen F : SK → R aus F 2 betrachtet:
F (L) =
n
X
X
F i (Li ) +
i=1
F i,j (Li , Lj )
i<j
i,j∈{1,...,n}
Die in jeder Iteration des α-Expansion-Algorithmus auftretende Zielfunktion des binären
def
ω
. Die Definition von E induziert die folgende Darstellung der
Teilproblem (Subα ) sei E = Eproj
Funktion mit L(B) nach Gleichung 3.70:
E(B) =
X
F i (α) +
i∈ω
+
X
F i (Li (B))+
i∈ω
/
X
F (α, α) +
i<j, i∈ω, j∈ω
+
X
i,j
X
F i,j (Li (B), α)+
i<j, i∈ω,
/ j∈ω
X
F i,j (α, Lj (B)) +
i<j, i∈ω, j ∈ω
/
F i,j (Li (B), Lj (B))
(3.79)
i<j, i∈ω,
/ j ∈ω
/
Die Funktion E besitzt daher ebenfalls eine F 2 -Darstellung mit i, j ∈
/ ω:
E(B) =
X
E i (B) +
i
X
E i,j (Bi , Bj ) + C
i<j
und
E i,j (Bi , Bj ) = F i,j (Li (B), Lj (B))
i
i
E (Bi ) = F (Li (B)) +
n
X
i,j
F (Li (B), α) +
j=i+1
C=
X
i∈ω
F i (α) +
X
i−1
X
F j,i (α, Li (B))
j=1
F i,j (α, α).
i<j, i∈ω, j∈ω
C ist eine von B unabhängige Konstante und kann daher bei der Optimierung vernachlässigt
werden. Um die Minimierung in einer Iteration durchzuführen, muss die Funktion E regulär
sein:
∀i, j ∈ ω : E i,j (0, 0) + E i,j (1, 1) ≤ E i,j (0, 1) + E i,j (1, 0).
(3.81)
Diese Bedingung überträgt sich auf F in folgender Weise:
(k)
(k)
∀i, j mit Li 6= α 6= Lj :
(k)
(k)
(k)
(k)
F i,j (Li , Lj ) + F i,j (α, α) ≤ F i,j (Li , α) + F i,j (α, Lj )
(3.82)
Damit wird aber nur die Regularität in einer Iteration für ein spezielles L(k) gefordert. Ein
notwendiges12 Kriterium für die Regularität in einer beliebigen Iteration ist daraufhin im folgenden Satz dargestellt.
Satz 3.83 Sei F : SK → R die Zielfunktion des Problems (OptF ) und F ∈ F 2 . Wenn für alle
Funktionen F i,j aus der F 2 -Darstellung von F folgende Bedingung erfüllt ist:
∀α, β, γ mit β 6= α 6= γ : F i,j (β, γ) + F i,j (α, α) ≤ F i,j (β, α) + F i,j (α, γ)
(3.84)
dann lässt sich die Funktion F mit dem α-Expansion-Algorithmus minimieren und es gelten
die in Abschnitt 3.4.2 angeführten Eigenschaften des gefundenen (lokalen) Optimums.
Beispiel 3.85 Das verallgemeinerte Potts-Modell mit Ei,j ≥ 0 (siehe Abschnitt 2.3.4) genügt der
Bedingung (3.84):
F i,j (β, α) = F i,j (α, γ) = Ei,j
(3.86)
F i,j (α, α) = 0
(3.87)
F i,j (β, γ) = Ei,j δ(β 6= γ).
(3.88)
Daraus folgt unmittelbar:
Ei,j δ(β 6= γ) + 0 ≤ Ei,j + Ei,j
3.4.4
(3.89)
Beziehung zur Schätzung von MRF-Zuständen
Die Beziehung der besprochenen Optimierungsprobleme zur Schätzung von MRF-Zuständen
(siehe Kapitel 2) lässt sich ziemlich schnell erkennen. Die zu minimierende Zielfunktion E bei
Dieses Kriterium kann nur als notwendig bezeichnet werden, da L(k) beliebig ist aber nicht zwangsweise jede
Komponente während des Algorithmus jedes mögliche Label annehmen muss.
12
43
der MAP-Schätzung (siehe Gleichung (2.16), Abschnitt 2.3.3) hat im allgemeinen Fall (Annahme A1’) die Form:
E(L) =
X
ECI (LC ).
(3.90)
Aus dieser Darstellung lässt sich erkennen, dass E zur Funktionsklasse F ω(S) gehört. Bei der
4er-Nachbarschaft (siehe Abschnitt 2.1) genügt daher eine Betrachtung von F 2 -Funktionen mit
der ursprünglichen Definition der Regularität 3.39:
E(L) =
X
i
E i (Li ) +
X
E i,j (Li , Lj )
(3.91)
(i,j)∈N
Die Anforderungen an die einzelnen Summanden E i,j übertragen sich damit auf natürliche
Weise auf die Cliquenpotentiale ECI 13 .
Bei einem Übergang von der 4er-Nachbarschaft auf die 8er Nachbarschaft ist es bereits notwendig F 4 -Funktionen zu betrachten. Da diese in der Konstruktion des entsprechenden Graphen
unhandlich sowie die Anforderungen der Regularität im Gegensatz zu F 2 -Funktionen nicht so
leicht nachzuprüfen sind, ist es üblich sich auf eine Approximation durch F 2 -Funktionen zu
beschränken.
Zur Erinnerung sei an dieser Stelle angemerkt, dass die Notation E I die Abhängigkeit von der Beobachtung I
ausdrückt.
13
Kapitel 4
Anwendungen
Die allgemeine abstrakte Beschreibung von Graph-Cut-Methoden ermöglicht eine vielseitige
Anwendung in unterschiedlichen Gebieten der Bildverarbeitung. Die folgenden Abschnitte dienen der Beschreibung der Problemstellungen, welche im Kontext dieser Arbeit mit Graph-Cut
gelöst werden konnten.
Die Beschreibung der interaktiven Segmentierung“ in Abschnitt 4.1 dient dazu, einen ent”
scheidenden Grundansatz bei der Modellierung vorzustellen, welcher später bei der Kennzeichenlokalisierung 4.2 effektiv angewendet werden kann.
Anschließend werden Grundaspekte der Bewegungssegmentierung vorgestellt, welche zu der
Ebenensegmentierung mit Tiefeninformationen führen.
4.1
Interaktive Segmentierung
Im Folgenden soll das Prinzip der Teilfixierung bei der Anwendung von Graph-Cut-Methoden
vorgestellt werden. Der Begriff Interaktive Segmentierung“ wird hier verwendet, da diese Art
”
von Segmentierung hauptsächlich bei der benutzerunterstützten Segmentierung von medizinischen Bild- oder Voxeldaten zum Einsatz kommt. Es sei aber explizit darauf hingewiesen, dass
die Grundidee auch bei automatischen Segmentierungen (siehe Abschnitt 4.2) anwendbar ist und
daher an dieser Stelle vorgestellt wird.
4.1.1
Aufgabenstellung
Ziel soll es sein, ein Bild in eine fest vorgegebene Anzahl K von Regionen zu unterteilen. Dabei muss eine Region nicht zwangsläufig nur eine Zusammenhangskomponente bilden. Im Ge45
46
KAPITEL 4. ANWENDUNGEN
gensatz zu der Segmentierung von allgemeinen Bildern ohne Zusatzinformationen in Gebiete,
wie etwa bei der Verwendung von Normalized-Cuts [GS06, SM00], ist bei dieser Aufgabenstellung zusätzlich eine Teilauswahl von Punkten aller K Regionen gegeben. Im Folgenden soll
die Formulierung Teilfixierung“ verwendet werden. Dieser Unterschied ist das Analogon zur
”
Unterscheidung von überwachten und unüberwachten Lernverfahren.
4.1.2
Festlegung der unabhängigen Kosten einzelner Pixel
Eine Teilfixierung im Bild (n-dimensional) I ist eine Folge Ω = {Pi }K
i=1 von paarweise disjunkten Punktemengen Pi ⊂ Zn . Analog zu Abschnitt 2.3.1 soll wieder eine Beschriftung L des
Bildes I geschätzt werden. Ein paar Komponenten dieser Beschriftung sind bereits durch die
Teilfixierung festgelegt: xi ∈ Pk → Li = k.
Die Wahrscheinlichkeit Pr(Li = k|Ii ) für diese Punkte ist demnach 1 für xi ∈ Pk und 0 für
alle anderen möglichen Werte aus {1, . . . , K}. Übertragen auf die dazugehörige Zielfunktion E
ergibt sich für die E i Terme mit xi ∈ Pk :

∞
def
i
E (Li ) =
0
Li 6= k
(4.1)
Li = k.
Bei der Implementierung kann die für die Optimierung äquivalente Variante mit

−H
def
i
E (Li ) =
0
Li = k
(4.2)
Li 6= k.
verwendet werden. Der Wert H ist dabei ein praktisch genügend großer Wert. Eine andere
Möglichkeit ist es, den α-Expansion-Algorithmus so anzupassen, dass alle Knoten vi des Graphen mit xi ∈ Pk mit den entsprechenden Terminals vereinigt1 werden.
4.1.3
Wahl der Cliquen-Potentiale 2. Ordnung
Entscheidend für die Beschriftung der anderen Pixel ist die Festlegung der Cliquen Potentiale
2. Ordnung (Terme E i,j ). Diese Funktionen bestimmen die Grenzen der Regionen und werden
daher oft als smoothness cost oder Nachbarschaftsbewertung bezeichnet.
1
Eine Vereinigung von Knoten v und Knoten w eines Graphen ist ein Knoten q mit N (q) = (N (v) ∪ N (w)) \
{v, w}.
47
4.1. INTERAKTIVE SEGMENTIERUNG
Bild 4.1: Veranschaulichung
der Gleichung (4.4) mit unterschiedlichen Werten für σ und
2 x
p(x, σ) = exp − exp − 2σ
2
An den Grenzen der Regionen einer Beschriftung sollen auch starke Kanten im Bild I auftreten, daher seien die Funktionen E i,j analog zu [BFL06] wie folgt gewählt:
(Ii − Ij )2
E (Li , Lj ) = exp −
2σ 2
i,j
def
1
δ(Li 6= Lj ).
kxi − xj k
(4.3)
In diesem Zusammenhang ist es wichtig festzustellen, dass es keine theoretische Begründung
für die Verwendung dieser Normalverteilungsdichte gibt. Die Zielfunktion ist von ihrer theoretischen Bedeutung immer der negative Logarithmus einer Dichte, daher ergibt sich für die zugrunde liegende Dichte“ 2 von (4.3):
”
Pr(Li = Li , Lj = Lj |I) = exp(−E i,j (Li , Lj )).
(4.4)
Aus der Abbildung 4.1 ist ersichtlich, dass Kanten einer Stärke größer 3σ bevorzugt werden. Die Arbeit [CZ05] verwendet eine Wahl der Nachbarschaftsbewertung analog zu (4.3) und
zeigte durch Experimente eine signifikante Verbesserung der Segmentierungsergebnisse im Vergleich zu anderen Funktionstypen. Aufgrund der Spezifikation der einzelnen Bestandteile der
Energiefunktion ist der gesamte Algorithmus bereits beschrieben. Abbildung 4.2 stellt anhand
der einzelnen Schritte des α-Expansion-Algorithmus ein Beispiel für eine Segmentierung vor.
2
Die Funktion bildet keine Dichte im mathematischen Sinne, da ihr uneigentliches Integral nicht beschränkt ist.
48
Bild 4.2: Bildreihenfolge von links nach rechts bzw. oben nach unten: (1) Originalbild, (2) Auswahl der Teilfixierung, (3)-(8) Die einzelnen Iterationen des α-Expansion-Algorithmus im ersten
Zyklus (Die nächsten Iterationen führen zu keiner weiteren Verbesserung des Zielfunktionswertes, daher bricht der Algorithmus ab).
4.2
4.2.1
Kennzeichenlokalisierung
Einführung
Die moderne Verkehrssicherheitstechnik in Form von automatischen Geschwindigkeitsmesssystemen ist ohne die automatische Detektion und Erkennung von KFZ-Nummernschildern in Bildaufnahmen undenkbar geworden. Ein so genannter Kennzeichenleser muss dabei viele Teilprobleme lösen: Detektion der Nummernschilder, Ausrichtung, Buchstabensegmentierung, Buchstabenerkennung, Syntaktische Überprüfung.
Die Ausrichtung der Nummernschilder kann dabei anhand der Ausrichtung des Nummernschild-Randes erfolgen. In einem dafür notwendigen ersten Schritt ist es möglich, die Hypothese
des Nummernschildes mittels anderer Bildverarbeitungsmethoden zu finden. Diese Hypothese
im Eingabebild I sei im Folgenden mit xh bezeichnet.
4.2.2
Kennzeichenlokalisierung als binäres Segmentierungsproblem
Die Segmentierung des Randes kann als ein binäres Segmentierungsproblem aufgefasst werden.
Ziel ist es, das Bild I in eine Kennzeichenregion 1 (begrenzt durch den gesuchten Rand) und eine
Hintergrundregion 0 aufzuteilen.
Die Größe des Nummernschildes ist a priori nicht bekannt. Im Folgenden soll aber von einer
maximalen Breite wx und maximalen Höhe wy ausgegangen werden.
49
4.2. KENNZEICHENLOKALISIERUNG
Bild 4.3: Ausgeschnittener Bildbereich um die gefundene Hypothese des Nummernschildes
Bild 4.4: Festlegung der fixierten Labels für das optimale Region Growing“ mit Graph-Cut:
”
(roter Bereich in der Mitte) E i (1) = −∞, (grüner Bereich am Rand) E i (0) = −∞
Die Idee der Kennzeichenlokalisierung ist äquivalent zum Grundgedanken der interaktiven
Bildsegmentierung wie sie in Abschnitt 4.1 vorgestellt wurde. Für eine korrekte Beschreibung
des Algorithmus reicht es daher, eine Teilfixierung des Bildes anzugeben. Die Zielfunktion lässt
sich analog zu den Gleichungen (4.2) und (4.3) aufstellen.
In einem gewissen Bereich um die Hypothese xh wird eine Fixierung der Beschriftung der
Kennzeichenregion (Li = 1) vorgenommen:
def
P1 = {x | |x1 − xh1 | ≤
ux
uy
∨ |x2 − xh2 | ≤ }.
2
2
(4.5)
Die Parameter ux und uy sollten so gewählt werden, dass die entstehende Region P1 mindestens einen Hintergrundpixel des Nummernschildes enthält, auch wenn die Hypothese direkt
auf einem Zeichen des Nummernschildes liegt. Die Größe ux ist somit indirekt abhängig von der
maximalen Breite eines Zeichens.
Ausgehend von der Angabe der maximalen Größe eines Nummernschildes erfolgt die Fest-
50
Bild 4.5: Ergebnis der Segmentierung des Nummernschildes von Beispielbild 4.3. Der rotgestreifte Bereich markiert das gefundene Nummernschild.
legung, dass auf dem maximalen Rand alle Pixel dem Hintergrund angehören:
wx
wy
∨ |x2 − xh2 | =
}
(4.6)
2
2
Eine Veranschaulichung dieser Festlegungen ist in Abbildung 4.4 dargestellt. Da ausgehend
von einem Punkt eine optimale Kontur (im Sinne des Bildgradienten senkrecht zur Kontur) gesucht wird, kann das Verfahren als optimales Region-Growing“ bezeichnet werden.
”
def
P0 = {x | |x1 − xh1 | =
4.3
Ebenendetektion
Die Detektion von Ebenen ist in vielen Anwendungen der 3D-Bildverarbeitung ein wichtiger
Teilschritt. Ziel ist es räumlich planare Teilstücke in einer Szene zu erkennen.
Eine Möglichkeit ist es, aus einer gegebenen Folge von Aufnahmen verfolgte Punktmerkmale so zu gruppieren, dass sie jeweils einer gemeinsamen Homographie unterliegen [KD07]. In
der Arbeit [KD07] wurde weiterhin gezeigt, dass aus dieser Gruppierung nur dann auf planare
Teilstücke geschlossen werden kann, wenn die Kamerabewegung eine Translation beinhaltet.
Neue Kameras mit Echtzeit-Tiefeninformationen [Lan00] ermöglichen es hingegen, einen
ganz anderen Zugang zu wählen. Die Detektion planarer Teilstücke kann dadurch Standardverfahren verwenden, welche auf 3D-Punktewolken arbeiten [vH06, CZ01]. Eine Möglichkeit ist es
zum Beispiel, eine Art Region Growing durchzuführen. Dabei wird, wenn der Abstand zur bisher
geschätzten Ebene einen gewissen Schwellwert unterschreitet, ein Punkt zur Region hinzugefügt.
Eine Verbesserung der Schätzung erfolgt daraufhin Schritt für Schritt durch neue Punkte.
In den folgenden Abschnitten wird eine Verbesserung beider Ansätze vorgestellt. Zunächst
kommt ein beliebiges Verfahren der Ebenendetektion3 zur Anwendung, um eine Startschätzung
3
Für eine Beschreibung dieser Verfahren sei an dieser Stelle auf die Originalarbeiten [KD07, vH06, CZ01] oder
51
4.3. EBENENDETEKTION
zu erhalten. Diese Schätzung wird danach durch eine Graph-Cut-Segmentierung verbessert.
4.3.1
Problemstellung
Sei Rπ die Menge der abgebildeten Punkte im Bild I einer Ebene π im Raum. Die Anwendung
eines Verfahrens der Ebenendetektion [CZ01, KD07] liefert eine Startschätzung S der Menge
Rπ . Beim Verfahren von [KD07] kann zum Beispiel eine Auswahl von zufälligen Punkten in
der konvexen Hülle der Punktmerkmale verwendet werden. Um die Schätzung zu verbessern,
kann das zugrunde liegende Segmentierungsproblem wieder als binäres Optimierungsproblem
formuliert werden. Die Beschriftung Li = 1 bedeutet dann, dass der Punkt xi zu Rπ gehört.
4.3.2
Ebenendetektion durch Bewegungssegmentierung
Um ausgehend von verfolgten Punktmerkmalen eine vollständige Segmentierung einer Bildsequenz durchzuführen, wurde in [XS05] Graph-Cut verwendet. Der Begriff vollständig“ bezieht
”
sich auf die Gruppierung der Pixel: Jeder Pixel in jedem Bild wird genau einer Komponente
zugeordnet, die während der Sequenz eine gemeinsame Bewegung durchführt.
Ein Hauptbestandteil der Arbeit [XS05] ist die Erweiterung von verfolgten Punktmerkmale
mit Graph-Cut. Dieser Ansatz kann effizient für die Ebenensegmentierung verwendet werden.
Gegeben seien die Startschätzung S der Ebenenpunkte sowie die bereits ermittelte Bewegung der Ebene als Homographie H vom aktuellen Bild It zu einem früheren Bild der Sequenz
It−ν . H ist eine 3x3 Matrix, die homogene Bildkoordinaten ineinander abbildet. Im Folgenden
sei die Schreibweise H(x) verwendet, um die resultierende nicht-lineare Abbildung direkt in
Bildkoordinaten auszudrücken.
Ausgehend von diesen Informationen lässt sich nun das Differenzbild ∆ berechnen:
def
∆i = |It (xi ) − It−ν (H(xi ))|.
(4.7)
Unter der Annahme einer perfekten Abbildung verschwindet ∆ auf dem gesuchten Ebenenstück sowie in homogenen Gebieten. Bei realen Aufnahmen ist diese Annahme natürlich
unhaltbar und eine Optimierung mit Graph-Cut erscheint sinnvoll. Dadurch kann ein kompaktes
Gebiet ermittelt werden, welches gewisse Bedingung am Rand und im Inneren erfüllen muss.
Diese Bedingungen werden im Folgenden durch die Bewertung einzelner Pixel E i und die
auf die Zusammenfassung in [KRD07] verwiesen.
52
Bewertung der Objektgrenze E i,j ausgedrückt:
F (L) =
n
X
E i (Li ) +
i=1
X
E i,j δ(Li 6= Lj ).
(4.8)
i,j∈N
Wieder dient das verallgemeinerte Potts-Modell dazu, die Bewertung der Objektgrenze zu
modellieren. In [XS05] werden folgende Bedingungen an das Innere der Ebenenregion gestellt:
1. geringe Werte von ∆i
2. beschränkter Abstand“ zur Anfangsschätzung.
”
Die zweite Bedingung kann durch die Verwendung einer sogenannten Level-Set-Darstellung4
erreicht werden. Für die Anfangsschätzung S lässt sich dazu ein Bildmaske M erstellen:

1 x ∈ S
i
def
Mi =
0 sonst.
(4.9)
Die Level-Set-Darstellung ϑ ergibt sich anschließend aus einer zweidimensionalen Gaußfilterung des Bildes M :
def
ϑ = Gσ ∗ M.
(4.10)
Gσ ist in diesem Fall ein uniformer zweidimensionaler Gaußkern mit großer“ Varianz σ. Das
”
Bild ϑ führt zu einer Glättung der Grenzen von M . Die Werte von ϑ fallen monoton orthogonal
zu der Objektgrenze in M . Dies wird in der Kostenfunktion dazu verwendet, einen plausiblen
Abstand zur Anfangsschätzung zu definieren. Abbildung 4.6 zeigt ein Beispiel für die Funktion
ϑ. An den dort abgebildeten Höhenlinien ist die Grundform der Anfangsschätzung erkennbar.
Geringe Werte von ∆i mit kleinen Kosten zu belegen, kann durch eine speziell gewählte
Funktion s erzielt werden. Analog zu [XS05] ergibt sich insgesamt folgende Kostenfunktion:

s(∆ , α , β )
i
h
h
def
i
Ehomography
(l) =
(1 − s(∆ , α , β ))ϑ
i
h
h
i
4
l=1
(4.11)
l=0
Der Begriff Level-Set bezeichnet eigentlich Höhenlinien, bzw. eine Menge von Punkte mit gleicher zKoordinate.
53
Bild 4.6: Beispiel für die Level-Set-Darstellung ϑ: Stetig fortgesetzte Oberfläche der Funktion
mit Höhenlinien.
mit der durch α und β parametrisierten Sigmoid-Funktion5 s:
def
s(∆i , αh , βh ) =
1 tan−1 (αh (∆i − βh ))
+
.
2
π
(4.12)
Die Funktion s besitzt eine Art Phasenübergang an der Stelle βh , dessen Länge“ bzw. Glatt”
heit durch αh beeinflusst wird. Es ergeben sich daher Kosten von ≈ 1 für Werte von ∆i wesentlich größer als βh und Kosten von 0 für Werte wesentlich kleiner als βh . Beispiele für den Verlauf
dieser Funktion sind in Abbildung 4.7 dargestellt.
Legt man die Annahme zugrunde, dass an der Grenze der Projektion der Ebene eine Kante
im Bild auftritt, kann diese mit niedrigen Kosten belegt werden. Diese Idee wird auch in der
Arbeit [XS05] verwendet. Die dort vorgeschlagene Kostenfunktion ist stückweise definiert:
i,j
Eintensity

γ
|I(xi ) − I(xj )| < κe
def
=
1.0 sonst.
(4.13)
Mit γ > 1 erhalten Objektgrenzen mit einem Gradient kleiner einem gewissen Schwellwert
κe höhere Kosten. Die komplette Zielfunktion hat nach der zusätzlichen Einführung eines Ge5
Der Begriff der Sigmoid-Funktion ist nicht eindeutig einer Funktion zugeordnet, sondern beschreibt immer ein
Element der Klasse aller sigmoidalen Funktionen.
54
Bild 4.7: Beispiele für den Funktionsverlauf der sigmoidalen Funktion s mit der ArkustangensDarstellung (4.12)
Bild 4.8: Erweiterung einer Ebene mit Graph-Cut und Homographie-Informationen: (innere
blaue Kontur) Ebene vor der Graph-Cut-Segmentierung (äußere blaue Kontur) Ebene nach der
Erweiterung mit Graph-Cut
wichtungsparameters λ die folgende Form:
F (L) =
n
X
i=1
E i (Li ) + λ
X
E i,j δ(Li 6= Lj )
(4.14)
(i,j)∈N
Ein Beispiel für die Anwendung von Graph-Cut bei der Ebenendetektion mit HomographieInformationen ist in Abbildung 4.8 dargestellt.
55
4.3.3
Ebenendetektion mit zusätzlicher Tiefeninformation
Filterung der Tiefeninformation
Eine Filterung der Eingabedaten ist bei jeder Anwendung der Bildverarbeitung ein wichtiger
Schritt. Tiefeninformationen aktueller Kameras, wie etwa der PMD 19k (Abbildung 5.1), sind
oft stark verrauscht und liefern viele Ausreißer in den Tiefenwerten.
Um diese Ausgangssituation zu verbessern, wurden zwei Filterungen durchgeführt. Die Kamera liefert Kamera zusätzlich die Amplitudenwerte der Infrarot-Wellen in einem Sensor. Eine
geringe Amplitude lässt auf eine geringe Abstrahlung der aktiven Beleuchtung in der Szene
schließen. An diesen Stellen ist eine robuste Tiefenschätzung schwierig [Lan00] und die Wahrscheinlichkeit eines Ausreißers im Tiefenbild hoch. Die erste Filterung löscht daher die Tiefeninformation in Pixeln, bei denen der Amplitudenwert unter einem gewissen Schwellwert (z.B.
2.0) fällt. Anschließend erfolgt eine zweite Filterung mit einem 3x3 Median-Filter.
Verwendung der Tiefeninformation
Durch die Tiefeninformationen der Kamera (Abbildung 5.1) und deren vorher bestimmte intrinsische Kameraparameter ist es möglich, für jeden Punkt x des Bildes den Punkt x(3D) im
Raum relativ zum Kamerazentrum zu bestimmen. In Abschnitt 4.3.2 wurde als Maß für die Zugehörigkeit einzelner Pixel zur Ebene π ein Differenzbild berechnet. Ausgehend von den bereits
ermittelten 3D-Punkten lässt sich ein anderes Maß definieren, welches die exakte mathematische
Zugehörigkeit zur Ebene im Raum betrachtet.
Zunächst ist eine Bestimmung der Ebenenparameter notwendig. Unter Verwendung der Punkte S lässt sich eine allgemeine Schätzung im Sinne von M-Estimation [Hub80] anwenden:
n̂ = argmin
n
X
ρ(nT x(3D) − 1).
(4.15)
x∈S
Dabei ist ρ eine geeignete robuste Fehlerfunktion wie etwa die Huber-Funktion [Hub80]. Die
Lösung des Optimierungsproblems (4.15) führt auf eine iterative gewichtete Kleinste-Quadrate
Schätzung (IRLS). Es ist relativ leicht zu sehen, dass bei der Schätzung keine Ebene ermittelt werden kann, die durch den Ursprung (Kamerazentrum) verläuft. Diese mathematische Einschränkung spielt in der Praxis keine Rolle, da jede Ebene, die das Kamerazentrum schneidet,
nur eine Gerade in der Bildebene bildet.
Ein geeignetes Maß für die Zugehörigkeit eines Punktes zur Ebene lässt sich durch den Ab-
56
stand zur geschätzten Ebene definieren:
def
∆i =
|n̂T x(3D)
− 1|
i
.
kn̂k
(4.16)
Dieser Abstand liefert die entscheidende Information bei der Aufstellung der passenden Energiefunktionen.
Definition der Energiefunktionen
Bei der Pixelbewertung (Cliquen-Potentiale 1. Ordnung) ist es notwendig, folgende Sonderbehandlungen vorzunehmen:
1. Teilfixierung des Bildrandes auf die Hintergrundbeschriftung
2. Stellen an denen keine Tiefeninformationen verfügbar sind, können nur durch die Informationen der Nachbarn ( Kosten E i,j ) beschriftet werden.
Die Bildrandbehandlung ist ein nicht zu unterschätzendes Problem bei der Graph-Cut-Segmentierung:
Für Objektgrenzen am Bildrand entstehen im Gegensatz zu Grenzen im Bild keine Kosten. Dies
kann oft zu einer falschen Segmentierung führen. Die Annahme von Hintergrundpixeln am Rand
behebt dieses Problem.
Pixel ohne Tiefeninformationen entstehen durch die angewendeten Filteroperationen aus Abschnitt 4.3.3. Eine mathematische Beschreibung dieser Sonderfälle als Energiefunktion ist die
Folgende:



0
keine Tiefeninformation an Position xi verfügbar


def
i
Eplane
(Li ) = −∞
Li = 0 ∧ xi liegt am Bildrand



Ẽ i (L ) sonst.
i
plane
(4.17)
Analog zu der Bewertung des Differenzbildes in Abschnitt 4.3.2 lässt sich der restliche Teil
der Funktion definieren:

s(∆ , α , β )
Li = 1
i
p
p
def
i
Ẽplane
(Li ) =
1 − s(∆ , α , β ) L = 0.
i
p
p
i
(4.18)
Die Bewertung von Objektgrenzen kann auf zwei verschiedene Arten durchgeführt werden.
Eine Möglichkeit ist es, Kanten im Distanzbild ∆ zu betrachten. Wird zum Beispiel eine Ebene
57
Bild 4.9: Beispiel für eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mit
Graph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwendung von Tiefen- und Grauwertinformationen
vor einem weiter entfernten Hintergrund segmentiert, so ist klar ersichtlich, dass sich in ∆ an den
Objektgrenzen eine klare Kante abzeichnet. Die Angabe der Kosten für die Objektgrenze erfolgt
dabei wieder analog zu Abschnitt 4.3.2 mit einer stückweise definierten Funktion:
i,j
Eplane

γ
|∆i − ∆j | < κp
def
=
1.0 sonst.
(4.19)
Insgesamt ergibt sich wieder folgende Zielfunktion für das Segmentierungsproblems:
F depth (L) =
X
i
Eplane
(Li ) + λ
i
X
i,j
Eplane
δ(Li 6= Lj ).
(4.20)
(i,j)∈N
Fusion mit Grauwertinformationen
Zusätzlich zur Tiefe liefert die Kamera ein Infrarot-Bild der Szene. Die Verwendung der bisher beschriebenen Zielfunktion (4.20) führt hingegen zu einer Segmentierung, die lediglich auf
den Tiefeninformationen basiert. Aus diesem Grund ist es Ziel des folgenden Abschnittes, eine
Fusion der Informationen aus Infrarot-Bild, im Folgenden allgemein als Grauwertinformation
bezeichnet, mit den Tiefeninformationen während der Segmentierung zu erreichen.
Ein Ansatz ist es, die Bewertung der Objektgrenze im Infrarot-Bild I anstatt im Distanzbild ∆
vorzunehmen. Dabei kann wieder die Festlegung (4.13) aus Abschnitt 4.3.2 verwendet werden.
Die Kombination aus den beiden unterschiedlichen Kostenfunktionen ergibt daraufhin die für
die Fusion verwendete Zielfunktion F fusion :
F fusion (L) =
X
i
i
Eplane
(Li ) + λ
X
(i,j)∈N
i,j
Eintensity
δ(Li 6= Lj ).
(4.21)
58
Abbildung 4.9 zeigt auf anschauliche Weise wie diese Fusion zu besseren Ergebnissen bei
der Segmentierung führen kann. Bisherige Ebenen-Segmentierungsalgorithmen basierten entweder auf reinen 3D-Informationen oder auf Grauwertinformationen. Durch die Kombination von
einzelnen Optimierungskriterien in einer Zielfunktion ist es möglich geworden, beide Informationsquellen in einem Prozess effektiv zu nutzen.
Die Verwendung der Homographie-Information als dritte Informationsquelle ist leider bei
der heutigen gängigen Auflösung der Kameras von 19k Bildpunkten noch nicht nutzbar. Die
Schätzung der Homographie und die Bestimmung eines Differenzbildes ist leider nur bei größeren Auflösungen robust möglich.
An dieser Stelle sei weiterhin angemerkt, dass im ermittelten Infrarot-Bild der verwendeten
PMD-Kamera oft Phasensprünge auftreten können, die abhängig von den Oberflächen der Objekte in der Szene sind. Eine Modellierung dieser Effekte, wie sie in normalen“ Grauwertbilder
”
nicht auftreten, wurde bisher nicht vorgenommen.
Kapitel 5
Experimente
Das folgende Kapitel soll die Möglichkeiten von Graph-Cut-Verfahren durch Experimente aufzeigen. Dabei werden unterschiedliche Ansätze gegenüber gestellt und die Auswirkungen der
Parameter aufgezeigt. Im Vordergrund bei der Auswahl der Experimente stand die Verwendung
von realen Bildmaterial.
So wurde für die Kennzeichenlokalisierung das in Abschnitt 4.2 beschriebene Verfahren in
das Gesamtsystem lprJ des an der Universität Jena entwickelten Kennzeichenlesers zusätzlich
integriert. Die Auswertung erfolgte anschließend auf der Grundlage der Gesamterkennungsrate.
Bei der Ebenendetektion wurden Ground-Truth Informationen für verschiedene Szenen erstellt, welche eine quantitative Auswertung der in Abschnitt 4.3 vorgestellten Algorithmen ermöglichten.
5.1
Kennzeichenlokalisierung
Im Rahmen einer Kooperation mit der Firma ROBOT Visual Systems GmbH entwickelte der
Lehrstuhl für digitale Bildverarbeitung an der Universität Jena den Kennzeichenleser lprJ. Dieses
bereits existierende Gesamtsystem wurde um zusätzliche Komponenten der Graph-Cut-Optimierung
erweitert.
5.1.1
Experiment
Die Auswertung erfolgte auf unterschiedlichen Testreihen von Straßenszenen. Die Charakteristik
der einzelnen Sequenzen ist in Tabelle 5.1 aufgelistet.
Die Lokalisierung von Nummernschildrändern wie in Abschnitt 4.2 vorgestellt, wird für jede
59
60
KAPITEL 5. EXPERIMENTE
Charakteristik
≈Zeichenhöhe ]Bilder
90% niederländische Nummernschilder,
12
6079
viele Tagesaufnahmen
NLSR520-200510 90% niederländische Nummernschilder,
12
4882
viele Tagesaufnahmen
NLTest8288
nur niederländische Nummernschilder
16
8287
Elzerberg22282
95% deutsche Nummernschilder, Nacht24
4054
aufnahmen
Bezeichnung
NLSR520-200509
Tabelle 5.1: Verwendete Testsequenzen bei der Auswertung der Kennzeichenlokalisierung. Mit
]Bilder ist die Anzahl der Bilder in der Sequenz bezeichnet, welche mindestens ein Nummernschild enthalten.
Sequenz
NLSR520-200509
NLSR520-200510
NLTest8288
Elzerberg22282
Ergebnis von lprJ ohne GC
85.11%
69.44%
87.53%
45.34%
mit GC Differenz
85.66% +0.55%
69.83% +0.39%
87.69% +0.16%
45.44% +0.10%
Tabelle 5.2: Ergebnisse der Kennzeichenlokalisierung mit/ohne Graph-Cut-Erweiterung (σ =
3, ux = 21, uy = 11). Die Ergebnisse basieren auf der Erweiterung der Basis-Version von lprJ
vom 5.6.2007.
Nummernschild-Hypothese aufgerufen, falls alle bisher in lprJ integrierten Verfahren fehlschlagen. In Tabelle 5.2 sind die Gesamterkennungsraten mit und ohne Erweiterung aufgelistet.
Die zusätzliche Verwendung des Graph-Cut-Ansatzes bewirkt zwangsläufig eine längere Laufzeit der Gesamterkennung. Aus diesem Grund wurde zusätzlich zu der Erkennungsrate auch
die durchschnittliche Laufzeit untersucht. Die Ergebnisse sind in Tabelle 5.3 festgehalten. Der
Zeitmessung startet nach dem Einlesen des Bildes in den Hauptspeicher und endet mit dessen
Freigabe.
Die Festlegung der Energiefunktionen aus Abschnitt 4.2 ist von verschiedenen Parameter
Sequenz
NLSR520-200509
NLSR520-200510
NLTest8288
Elzerberg22282
Durchschn. Laufzeit ohne GC
7.19s
6.73s
1.81s
3.88s
mit GC
7.60s
7.24s
1.93s
4.21s
Differenz
+0.41s
+0.51s
+0.12s
+0.33s
Tabelle 5.3: Durchschnittliche Laufzeit für die komplette Verarbeitung eines Bildes. Parameterbelegung wie in Tabelle 5.2.
5.1. KENNZEICHENLOKALISIERUNG
Parameter σ
1.0
2.0
3.0
4.0
5.0
6.0
61
Ergebnis von lprJ mit Graph-Cut
85.54%
85.56%
85.66%
85.66%
85.59%
85.51%
Tabelle 5.4: Auswertung des Parameters σ (Bewertung der Objektgrenzen) bei der Kennzeichenlokalisierung anhand der Sequenz NLSR520-200509 (ux = 21, uy = 11)
Parameter ux
15
17
19
20
21
23
25
Ergebnis von lprJ mit Graph-Cut
85.51%
85.54%
85.54%
85.54%
85.54%
85.52%
85.52%
Tabelle 5.5: Auswertung des Parameters ux (Größe der fixierten Region) bei der Kennzeichenlokalisierung anhand der Sequenz NLSR520-200509 (σ = 1, uy = 11)
abhängig. Die Untersuchung der Auswirkung dieser Parameter wurde ebenfalls anhand der Gesamterkennungsrate durchgeführt.
Der Parameter σ (Tabelle 5.4) steuert den Einfluß der Bewertung der Objektgrenze. Durch
ux (Tabelle 5.5) wird hingegen die Größe der inneren fixierten Region festgelegt.
5.1.2
Auswertung
Durch die Kennzeichenlokalisierung mit Graph-Cut-Methoden konnte eine Verbesserung der
Gesamterkennungsrate (siehe Tabelle 5.2) des Kennzeichenlesers erzielt werden. Die verwendeten Testsequenzen beinhalten eine Vielzahl von herausfordernden Problemstellungen (Schatten,
Buchstabensegmentierung mit Kontextinformation, Detektion), welche nur durch eine Vielzahl
von Algorithmen und Ansätzen lösbar sind. Eine Verbesserung von durchschnittlich 0.3% ist
daher in diesen Bereichen der Erkennungsrate ein wichtiger Schritt.
Die Auswertung der Laufzeit in Tabelle 5.3 zeigt, dass die Verwendung des Graph-CutAnsatzes eine Verlängerung der Laufzeit um durchschnittlich 340 msec bewirkt. Diese zusätz-
62
Bild 5.1: Verwendete Kamera für Echtzeit-Tiefeninformationen: PMD Kamera 19k
liche Zeit ist im Verhältnis zur Gesamtzeit der Erkennung vernachlässigbar. Dennoch ist es
abhängig vom Anwendungsgebiet, ob eine leichte Verbesserung der Gesamterkennung durch
eine solche Erhöhung der Laufzeit sinnvoll ist.
Die Auswertung der Parameter in den Tabellen 5.4 und 5.5 zeigt außerdem, dass deren Wert
den Erkennungsprozess nicht signifikant beeinflusst. Eine rein heuristische Festlegung von σ und
ux ist demnach zulässig.
5.2
Ebenendetektion
5.2.1
Experimentaufbau
Als Kamera mit Echtzeit-Tiefeninformation wurde die PMD 19k (Abbildung 5.1) mit einer Auflösung
von 160x120 Bildpunkten verwendet.
Die quantitative Auswertung wurde anhand von drei Bildsequenzen durchgeführt. Die dabei
verwendete Szene stellt eine Art räumliches Kalibriermuster dar, welches gute Punktmerkmale für die Verfolgung liefert. Für die Sequenzen wurden Ground-Truth Informationen erstellt.
Diese Ground-Truth Informationen beinhalteten die Anzahl der ebenen Teilstücke im Bild sowie zugehörige Bildpunkte. Die Generierung dieser Informationen erfolgte ausgehend von einer
manuellen Startauswahl mit Hilfe der Ebenenverfolgung und zusätzlicher manueller Korrekturen
innerhalb der Sequenz.
Der Fehler bzw. Abstand zwischen zwei ebenen Teilstücken (Regionen) wurde anhand des
folgenden Verhältnisses berechnet:
e(A, B) =
](A \ B) + ](B \ A)
.
]A + ]B
(5.1)
63
Bild 5.2: Versuchsaufbau für Beispiel 5.5
Dieses Fehlermaß ist 0 genau dann, wenn die Regionen A und B identisch sind und 1 falls
es sich um disjunkte Mengen handelt. Der Zähler wird auch oft als symmetrische Differenz
von A mit B bezeichnet. In jedem Bild der Sequenz müssen mehrere Ground-Truth Regionen
und geschätzte Regionen miteinander verglichen werden. Da die Zuordnung zueinander nicht
gegeben ist, erfolgt die Bestimmung des minimalen Fehlers ẽ zwischen zwei Regionen 1 :
ẽ =
min
e(A, B).
(5.2)
Ground-Truth Region A,
Berechnete Region B
Dadurch ist es möglich, für ein Bild mit einzigen Wert eine quantitative Aussage bezüglich
der Genauigkeit der Segmentierung zu erhalten. Für jede Sequenz konnten daraufhin Durchschnittswerte von ẽ gebildet werden. Die ermittelten Werte sind in Tabelle 5.6 dargestellt. Die
Bewegung der Kamera in den verwendeten Sequenzen beinhaltet zu jedem Zeitpunkt eine Translation. Daher wurde der in der Arbeit [KD07] vorgestellte Translations-Test nicht benötigt. Verwendete Modellparameter sind in Tabelle B.2 des Abschnittes B.3 aufgelistet.
Abbildung 5.3 zeigt beispielhaft den Fehler ẽ bei jedem erfolgreichen Detektionsschritt in
der Sequenz seq1. Aus Gründen der Übersichtlichkeit wurden nur die auf [KD07] basierenden
Verfahren in der Abbildung verglichen. Das Verfahren von [KD07] kann nicht in jedem Bild der
Sequenz eine Gruppe von Punktmerkmale finden, welche der gleichen Homographie unterliegen.
Daher erfolgte nur an den in Abbildung 5.3 markierten Stellen eine Detektion.
Eine ähnliche Darstellung der Resultate für die Ebenendetektion auf der Grundlage von
1
Analog wurde auch die Auswertung der Kennzeichenerkennung bei lprJ durchgeführt. Der dort verwendete
Abstand ist die Levenshtein-Distanz zwischen den Kennzeichen-Strings.
64
Bild 5.3: Beispielhafte Darstellung des Fehlers ẽ anhand der Szene seq1 für die auf [KD07]
basierenden Verfahren.
Bild 5.4: Beispielhafte Darstellung des Fehlers ẽ anhand der Szene seq1 für die auf RegionGrowing basierenden Verfahren.
65
Bild 5.5: Beispiel für eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mit
Region-Growing [KRD07] lässt sich Abbildung 5.4 entnehmen. Das Startverfahren benötigt nur
die Information eines einzelnen Bildes und kann daher die Detektion von planaren Teilstücken
in jedem Bild der Sequenz vornehmen.
Bei der Anwendung des Verfahrens in realen Aufnahmen treten oft Probleme mit der Punktverfolgung auf. Dies liegt in der niedrigen Auflösung des Infrarot-Bildes begründet, welches die
zusätzliche Schwierigkeit von Phasensprüngen aufweist. Eine qualitative Auswertung von realen
Sequenzen wurde daher immer mit dem Region-Growing Varianten durchgeführt. Abbildung 5.5
zeigt ein Beispiel solch einer Szene. In Abbildung B.3 des Anhangs befindet sich eine, mit einer
anderen Kamera aufgenommene, Darstellung.
5.2.2
Auswertung
Die Entwicklung der Verfahren für die Ebenensegmentierung basierten auf zwei Thesen, welche
im Folgenden anhand der Daten aus den Experimenten ausgewertet werden.
Die erste These ist, dass die Verfeinerung der bereits gefundenen ebenen Teilstücke durch
eine Segmentierung mit Graph-Cut zu einer Verbesserung der Ebenendetektion führt. Die ermittelten Werte des Fehlers ẽ in Tabelle 5.6 bestätigen diese Vermutung. Der durchschnittliche
Fehler bei den zwei Varianten der Graph-Cut-Segmentierung liegt signifikant unterhalb des FehVerfahren
[KD07] + Graph Cut mit F fusion
[KD07] + Graph Cut mit F depth
[KD07]
Region Growing + Graph Cut mit F fusion
Region Growing + Graph Cut mit F depth
Region Growing
seq1
0.153
0.184
0.462
0.178
0.213
0.556
seq2
0.244
0.252
0.345
0.239
0.249
0.476
seq3
0.214
0.217
0.260
0.202
0.205
0.459
Tabelle 5.6: Durchschnittswerte von ẽ für verschiedene Szenen und die vorgestellten Verfahren.
66
lers des ursprünglichen Verfahrens. Sowohl beim Region-Growing in den reinen 3D-Daten als
auch bei der Detektion von planaren Teilstücke nach [KD07] konnte daher durch einen Optimierungsschritt mit Graph-Cut die Segmentierung verbessert werden.
Die Verwendung von Informationen aus dem Infrarot-Bild wurde motiviert durch eine zweite These: Die Fusion von Tiefeninformation und Grauwertinformation kann zu einer weiteren
Verbesserung der Segmentierung führen. Auch diese These wird durch Tabelle 5.6 bestätigt. Der
Fehler beim Verfahren, welches die Fusion verwendet, ist bei allen 3 Sequenzen und beiden
Ansätzen geringer als bei der Verwendung reiner Tiefeninformation.
Beide Aussagen lassen sich ebenfalls in den Abbildungen 5.3 und 5.4 erkennen. Die Kurven der Graph-Cut-Ansätze liegen weit unterhalb der Verfahren, welche die Startlösung liefern.
Durch die Fusion kann daraufhin eine zweite Verbesserung erzielt werden.
Kapitel 6
Ausblick
Die Möglichkeiten der allgemeinen Erweiterung der vorgestellten Verfahren konzentrieren sich
auf die drei Kernbereiche: Modellerweiterungen, Theorie, Algorithmik. Weiterhin lassen sich
natürlich auch Verbesserungsansätze bei den im Rahmen dieser Arbeit vorgestellten Anwendungen erkennen.
6.1
Allgemeine Ansätze für die weitere Forschung
Ausgangspunkt für die in dieser Arbeit verwendeten Modelle war immer das verallgemeinerte Potts-Modell. Dies lag vor allem an der Regularitätsforderung, die kaum eine andere Wahl
(siehe Abschnitt 3.3.2, Bemerkung 3.47) ermöglicht. Grundlegend stellt sich aber die Frage, ob
es nicht durch die Verallgemeinerung von [FD05] möglich ist, komplexere Modelle zu verwenden. Dabei wird es zwangsläufig nötig sein, die richtige Balance zwischen der Güte des Modells
und der Komplexität der entstehenden Graphen zu finden. Schon eine Verwendung von CliquenPotentialen 3. Ordnung erzwingt die Einführung zusätzlicher Knoten und Kanten.
Bisherige theoretische Untersuchung von Graph-Cut-Verfahren beschränkten sich oft auf die
Charakterisierung von graph-darstellbaren1 Funktionen. In der Arbeit [Vek00] wurden hingegen topologische“ Eigenschaften von Segmentierungsergebnissen untersucht, welche durch die
”
Anwendung von Graph-Cut-Verfahren entstehen. Eine Fortführung dieser Untersuchungen für
allgemeinere Modelle könnte generell zu theoretischen Richtlinien führen, welche die Entwicklung von geeigneten Zielfunktionen bei vielen anderen Anwendungen unterstützen könnten. In
vielen Arbeiten wurden bereits verwendete Ansätze aus früheren Arbeiten übernommen, ohne
1
Graph-darstellbare Funktionen sind Zielfunktionen von Optimierungsproblemen, welche auf das Min-CutProblem abgebildet werden können (siehe Abschnitt 3.3.2).
67
68
KAPITEL 6. AUSBLICK
die Möglichkeiten der Weiterentwicklung und Spezialisierung auf das aktuelle Problem voll auszuschöpfen.
Ein ähnliches Problem sind die vielen Parameter der Zielfunktion, welche nur durch empirisch ermittelte Richtwerte festgelegt werden. Die Arbeit [CG06] bietet an dieser Stelle erste
Ansätze, um Modelle bzw. Zielfunktionen anzulernen. Dadurch wäre es möglich, eine Vielzahl
von Parametern automatisch zu bestimmen und sich von bisher gewählten Heuristiken zu lösen.
6.2
Verbesserung der Kennzeichenerkennung durch GraphCut-Verfahren
Die Verwendung von diskreten Optimierungsproblemen und deren Lösung in Form von GraphCut-Verfahren ist in vielen Teilschritten der Kennzeichenerkennung denkbar. Im Rahmen dieser
Arbeit konnte ein weiteres Verfahren zur Kennzeichenlokalisierung entwickelt werden.
Welche Möglichkeiten sich bei der Segmentierung mit Graph-Cut-Methoden im Bereich der
Buchstabensegmentierung in einem gefundenen Kennzeichen ergeben, bleibt weiterhin offen.
Eine gezielte Modellierung dieser Anwendung, welche bezüglich der resultierenden Ergebnisse etablierter Standardverfahren entscheidende Vorteile aufweisen sollte, übersteigt bislang die
theoretischen Möglichkeiten. Effizient lösbare diskrete Optimierungsprobleme, welche komplexe Kontureigenschaften der Objektgrenze einfließen lassen, würden eine Brücke schlagen zur
bisher weitaus praktikableren kontinuierlichen Optimierung [CKS03].
Ein weiterer möglicher Ansatz wäre, das Problem der Trennung von Buchstabenkonturen mit
Graph-Cut zu lösen. Dies ist ein wichtiger Nachbearbeitungsschritt, um Fehler bei der Kontursuche zu beheben. Die aktuelle Implementierung in lprJ verwendet horizontale Projektionen, um
eine geeignete Stelle zu finden.
6.3
Erweiterung der Ebenendetektion mit Graph-Cut
Die vorgestellte Verfeinerung der Ebenendetektion verwendet ein binäres Optimierungsproblem.
Eine Erweiterung könnte die Verfeinerung mehrerer planarer Teilstücke durch den α-ExpansionAlgorithmus in einer Optimierung durchführen. Das noch vorhandene Problem von überlappenden Teilstücken wäre damit gelöst. Zusätzlich wäre es in diesem Kontext sinnvoll, eine passende
Methode für die Vereinigung von mehreren planaren Teilstücken als Teilschritt der Detektion zu
integrieren.
Kapitel 7
Zusammenfassung
Ziel der vorliegenden Arbeit war es, die Möglichkeiten von Graph-Cut-Methoden in der Bildverarbeitung theoretisch und an praktischen Beispielen darzulegen. Diese Verfahren ermöglichen
es, allgemeine Segmentierungsprobleme zu lösen.
In den ersten beiden Kapiteln wurden getrennt voneinander die wichtigsten Resultate der
Bayesschen Bildanalyse und der diskreten Optimierung mit Graph-Cut vorgestellt. Auf der einen
Seite führten die Ausführungen zur Bayesschen Bildanalyse in Kapitel 2 zum Satz von Hammersley und Clifford. Auf der anderen Seite konnte in Kapitel 3 mit den Ergebnissen aktueller Arbeiten [KZ04, FD05] eine Klasse von effizient lösbaren Optimierungsproblemen gefunden werden.
Die eindeutige Charakterisierung dieser Probleme und die Darstellung der Verbindungen zu anderen Gebieten ermöglichte eine umfassende Darstellung des aktuellen Forschungsstandes auf
diesem Gebiet. Weiterhin wurden Grenzen der Berechenbarkeit bei der diskreten Optimierung
aufgezeigt. Die Anwendung von Approximationsalgorithmen, wie etwa dem in Abschnitt 3.4
vorgestellten α-Expansion-Algorithmus, ermöglichte es dennoch ein Ergebnis zu finden, welche
klar definierten Optimalitätsanforderungen (siehe Abschnitt 3.4.2) genügt.
Beide Hauptresultate der ersten Kapitel konnten in Abschnitt 3.4.4 zu einem praktikablen
Werkzeug für die Anwendung in der Bildverarbeitung kombiniert werden.
In Kapitel 4 wurden anschließend verschiedene Problemstellungen vorgestellt, welche effizient mit diskreter Optimierung gelöst werden konnten. Im Kontext eines Industrieprojektes des
Lehrstuhls konnte die Kennzeichenlokalisierung des Kennzeichenlesers lprJ mit einem GraphCut-Ansatz verbessert werden.
Bewegungssegmentierung im Sinne der Detektion planarer Teilstücken in einer Szene wurde in Abschnitt 4.3.2 analog zu einem Ansatz von [XS05] realisiert. Eine zusätzliche Erweiterung dieser Idee führte auf eine Lösung dieser Problemstellung bei der Verwendung einer
69
70
KAPITEL 7. ZUSAMMENFASSUNG
Echtzeit-Tiefenkamera. Das dabei entwickelte Verfahren ermöglicht es, Tiefen und GrauwertInformationen effizient in einem Optimierungsschritt zu kombinieren.
Kapitel 5 zeigte durch Experimente, dass die vorgestellten Verfahren zur Lösung ihrer Problemstellung beitragen. Die Untersuchung der Kennzeichenlokalisierung erfolgte durch die Auswertung der Erkennungsrate des Gesamtsystems. Dabei wurden zusätzlich die Auswirkungen
verschiedener Parameter überprüft. Insgesamt konnte die Erkennungsrate durch das zusätzliche
Graph-Cut basierende Verfahren um durchschnittlich 0.3% Prozentpunkte gesteigert werden.
Die Leistungsfähigkeit des Graph-Cut-Ansatzes bei der Ebenensegmentierung wurde durch
den Vergleich mit Ground-Truth Daten demonstriert. Die Algorithmen führten zu einer signifikanten Verbesserung der initial gefundenen Ebenen. Im Vergleich zum Ansatz, welcher nur
Tiefen-Informationen verwendet, ermöglichte die Fusion mit Grauwert-Informationen eine zusätzliche Minimierung des Fehlers.
Anhang A
Mathematische Details
A.1
Zusammenhang zwischen binärer Bildrestaurierung und
Medianfilter
Die Ähnlichkeit der Ergebnisse zwischen einem binären Medianfilter und der binären Bildrestaurierung wie sie in Abschnitt 2.3.4 vorgestellt wurde, werfen die Frage nach mathematischen
Zusammenhängen auf. Dieser Abschnitt versucht diesbezüglich, mögliche Querverbindungen
aufzuzeigen.
Betrachtet wird zunächst die vollständige Energiefunktion der binären Bildrestaurierung mit
der Konstante βq :
E(L) = βq
X
Ip Lp − α
p∈P
X
L p Lz .
(1.1)
(p,z)∈N
Es gilt weiterhin ohne Beschränkung die folgende Aussage:
Die Beschriftung von Lp ist gleich 1 ⇐⇒
βq Ip − α
X
X
Lz < −βq Ip + α
(p,z)∈N
Lz .
(1.2)
(p,z)∈N
Dabei müssen nur die Summanden der Zielfunktion betrachtet werden, welche von p abhängig
sind. Weitere Umformungen ergeben:

0>

X
Lz  −
(p,z)∈N
71
βq
Ip
α
(GC)
72
ANHANG A. MATHEMATISCHE DETAILS
Es lässt sich leicht sehen, dass im Gegensatz dazu für den Medianfilter die folgende Charakteristik gilt: Lp = 1 ⇐⇒

0>

X
Iz  + Ip
(Median)
(p,z)∈N
Unter den folgenden Annahmen ergibt sich daraufhin die Äquivalenz der beiden Verfahren:
1. Die Beschriftung benachbarter Pixel weicht nicht von den Werten im Originalbild ab: Lz =
Iz .
2. Für die Parameter βq und α gilt: − βαq = 1.
Die erste Forderung ist natürlich bei beliebigen Bildern und beliebiger Position p nicht gegeben. Betrachtet man hingegen eine homogene schwarze Fläche mit einem weißen Punkt im
Inneren, welcher durch Rauschen erzeugt wurde, so kann sich bei beiden Verfahren nur dieser
Punkt in seiner Beschriftung verändern.
Die zweite Annahme lässt sich noch auf die Wahrscheinlichkeit q des Rauschens zurückführen:
1−q
1
α = −βq = log
2
q
1
q=
.
exp (2α) + 1
(1.3)
(1.4)
Für den Wert α = 0.3 aus Beispiel 2.1 ergibt sich daher der Wert q ≈ 0.354, welcher ungefähr mit der gewählten Wahrscheinlichkeit übereinstimmt. Aus Gleichung (GC) lässt sich die
Funktionsweise der binären Bildrestaurierung deutlich erkennen. Der Einfluss der Beobachtung
im aktuellen Pixel wird durch den Parameter γ = − βαq gesteuert. Dieser gewichtet sozusagen
den Pixelwert Ip in der Statistik der Umgebung. Die binäre Bildrestaurierung im Sinne von Abschnitt 2.3.4 kann daher als Verallgemeinerung des Median-Filters angesehen werden.
A.2
Details zum Algorithmus von [BK04]
Die Suchbäume ausgehend vom Knoten s bzw. t seien mit S und T bezeichnet. Diese Suchbäume
sind disjunkt, bilden aber keine Zerlegung der Knotenmenge V (siehe Abbildung A.1). Für den
Baum S gilt, dass jede Kante vom Elternknoten zum Kindknoten nicht gesättigt ist. Im Baum T
gilt das Gleiche für Kanten von den Kindknoten zu den Elternknoten.
A.2. DETAILS ZUM ALGORITHMUS VON [?]
73
Bild A.1: Darstellung der Notation und Vorgehensweise des Algorithmus von [BK04].
Suchbäume: S, T . A dient zur Beschriftung der aktiven Knoten (Blätter des Suchbaumes). Alle
mit P beschrifteten Knoten sind passive Knoten (innere Knoten des Suchbaumes).
Die Knoten der Suchbäume können zwei Zustände annehmen: aktiv (Grenzknoten, Blätter
oder Knoten mit nicht erfassten Nachbarn) und passiv (innere Knoten). Aktive Knoten können
einen Suchbaum erweitern. Wenn ein aktiver Knoten mit einem Nachbarn aus dem anderen Suchbaum verarbeitet wird, dann ist ein damit gesuchter erhöhender (augumenting) Pfad gefunden.
Der Algorithmus lässt sich in folgende 3 Phasen aufteilen:
1. Wachstumsphase: Erweiterung von S und T solange bis sie sich berühren“ und den ersten
”
s-t-Pfad bilden.
2. Erhöhungsphase: Der entsprechende Pfad wird erhöht, dadurch zerfallen S und T in Wälder.
3. Anpassungsphase: Die Bäume S und T werden wiederhergestellt.
Der Zerfall der Bäume S und T in Wälder geschieht, wenn eine Kante vom Elternknoten
zum Kindknoten plötzlich nach der Erhöhung gesättigt ist. In der Arbeit [BK04] werden diese
Kindknoten als Orphans“ bezeichnet. Sie bilden die Wurzelknoten der neuen Teilbäume.
”
In der Anpassungsphase wird anschließend zu jedem Orphan ein neuer Elternknoten gesucht,
welcher sich im gleichen Suchwald befindet wie der Orphan selbst (sozusagen eine Wiederherstellung). Die neue Verbindung zum neuen Elternknoten darf nicht gesättigt sein. Falls es keine
solche Verbindung gibt, wird der Orphan frei gegeben (free node) und alle seine Kindknoten
werden selbst zu Orphans. Daraufhin beginnt der Prozess von neuem.
Der Algorithmus endet, wenn die Suchbäume nicht weiter wachsen können (keine aktiven
Knoten mehr) und die Bäume durch gesättigte Kanten getrennt sind. Weitere algorithmische
Details können [BK04] und [Kol03] entnommen werden.
74
A.3
Minimierung von F 2-Funktionen ist NP-schwer
In [KZ04] wird der Beweis über eine Reduktion des Problems der größten unabhängigen Menge
in einem Graphen geführt. Dieses Problem ist bekanntermaßen NP-schwer.
Sei G = (V, N ) ein beliebiger ungerichteter Graph mit n = ]V und m = ]N . Um die
größte unabhängige Menge1 in G zu finden, dient eine Umformulierung des Problems auf ein
Beschriftungsproblem. Sei L ∈ {0, 1}n ein binärer Vektor, welcher als Repräsentation einer
Teilmenge von Knoten in G verwendet wird. Gesucht ist demnach ein binärer Vektor, welcher
einer größten unabhängigen Menge in G entspricht.
Dieser Vektor lässt sich mit einem Optimierungsproblem mit folgender Form der Zielfunktion finden:
E(L) = −
X
1 X
Li +
Li L j .
2n i
(MaxISet)
(i,j)∈N
Diese Zielfunktion ist nicht mit dem in Abschnitt 2.3.4 beschriebenen Ising-Modell (2.27)
vergleichbar, da dieses Mal der Vektor L mit {0, 1} kodiert wurde. Erkennbar ist ebenfalls, dass
diese Funktion nicht regulär2 ist: 0 · 0 + 1 · 1 > 0 · 1 + 1 · 0.
Satz 1.5 Eine größte unabhängige Menge in einem ungerichteten Graphen G = (V, N ) lässt
sich durch Minimierung von (MaxISet) finden.
Beweis zu 1.5: Sei L̂ die Lösung von (MaxISet). Im Folgenden seien binäre Vektoren L ∈
{0, 1}n zusätzlich zur Vektordarstellung mit ihrer entsprechenden Menge von Knoten aus V
identifiziert.
Annahme 1: L̂ ist keine unabhängige Menge.
Dann gibt es mindestens ein benachbartes Knotenpaar in L̂ und es gilt demnach mit k = ]L̂:
E(L̂) ≥ −
1
k
+1>−
= E({v}).
2n
2n
(1.6)
mit einem beliebigen Knoten v aus V . Daher kann L̂ nicht die Lösung von (MaxISet) sein
und es ergibt sich der gewünschte Widerspruch zur Annahme 1.
Annahme 2: Es gibt eine Clique L in G mit ]L > ]L̂ = k.
1
A ⊆ V ist eine unabhängige Menge in G ⇐⇒ ∀v ∈ A : NG (v) ∩ A = ∅
Aus der Regularität von E würde sich folgende Argumentationskette ergeben: E regulär → E graph-darstellbar
→ (MaxISet) ∈ P → Maximum Independent Set ∈ P → P = N P → Fields Medal.
2
A.4. VERIFIKATION DER GRAPH-KONSTRUKTION BEI F2-FUNKTIONEN
75
Es ergibt sich sofort die Folgerung:
E(L) = −
]L
k
<−
= E(L̂).
2n
2n
(1.7)
Damit wären Annahme 1 und Annahme 2 widerlegt und der Beweis vollständig.
A.4
Verifikation der Graph-Konstruktion bei F 2-Funktionen
Im Folgenden soll die Korrektheit der Graph-Konstruktion für F 2 -Funktionen bewiesen werden.
Als Wegweiser“ dient Tabelle 3.4. Mit ∝ sei die Gleichheit bis auf eine Konstante bezeichnet.
”
Satz 1.8 Die Graph-Konstruktion für F 2 Funktionen, wie in Tabelle 3.4 beschrieben, ist korrekt.
Beweis zu 1.8: Gegeben sei ein minimaler Schnitt C im konstruierten Graphen. Mit L sei die
darauf definierte Beschriftung bezeichnet. Die Schreibweise Li = 0 als Index einer Summe
bedeutet, dass über alle möglichen i summiert wird, für die Li = 0 gilt.
X
w(e) =
e∈C
X
w((vi , vj )) +
X
w((s, vi )) +
Li =1
Li =0
Lj =1
X
w((vi , t))
(1.9)
Li =0
Die einzelnen Kantengewichte können durch die verwendeten Werte bei der Konstruktion
def
i,j def
(siehe Tabelle 3.4) ersetzt werden. Dazu seien die Abkürzungen Eab
= E i,j (a, b) und Eai =
E i (a) verwendet. Für die einzelnen Summanden der obigen Gleichung ergibt sich daraufhin:
X
w((vi , vj )) =
w((s, vi )) =
X
X
E1i − E0i +
Li =1,E1i ≥E0i
Li =1
+
i,j
i,j
i,j
i,j
− E11
E01
+ E10
− E00
(1.10)
Li =0
Lj =1
Li =0
Lj =1
X
X
X
Li =1 j,
X
j,i
j,i
E11
≥E10
Li =1 j,
j,i
j,i
E11
− E10
X
i,j
i,j
E10
− E00
+
(1.11)
i,j
i,j
E10
≥E00
(1.12)
76
X
X
w((vi , t)) =
X
E0i − E1i +
+
i,j
i,j
E00
− E10
+
(1.13)
Li =0 j, E i,j ≤E i,j
Li =0,E1i ≤E0i
Li =0
X
10
X
X
Li =0
j,i
j,i
≤E10
j,E11
j,i
E10
−
j,i
E11
00
(1.14)
Für die E i -Terme gelten folgende Vereinfachungen:
X
Li =1,E1i ≥E0i
E1i − E0i +
X
X
E0i − E1i =
Li =0,E1i ≤E0i
E i (Li ) − E i (1 − Li )
i, E i (Li )≥E i (1−Li )
(1.15)
=
X
E i (Li ) −
i
∝
X
X
i
E i (Li )
i
min E (x)
x∈{0,1}
(1.16)
(1.17)
i
Ziel ist es noch zu zeigen, dass der Ausdruck
P
E i,j (Li , Lj ) und die folgende Summe bis
i,j
auf eine Konstante äquivalent sind:
X
i,j
i,j
i,j
i,j
E01
+ E10
− E00
− E11
+
(1.18)
Li =0
Lj =1
+
X
Li =1 j,
+
X
X
i,j
i,j
E10
− E00
+
(1.19)
i,j
i,j
E11
− E10
+
(1.20)
i,j
i,j
E00
− E10
+
(1.21)
i,j
i,j
E10
− E11
(1.22)
i,j
i,j
E10
≥E00
X
Lj =1 i, E i,j ≥E i,j
11
+
X
10
X
Li =0 j, E i,j ≤E i,j
10
+
X
00
X
Lj =0 i, E i,j ≤E i,j
11
10
An den Summanden (1.18) bis (1.22) lässt sich erkennen, dass es vollkommen legitim ist, die
einzelnen Terme E i,j getrennt voneinander zu betrachten. An dieser Stelle seien daher wieder
A.4. VERIFIKATION DER GRAPH-KONSTRUKTION BEI F2-FUNKTIONEN
77
die folgenden Abkürzungen und die Matrix-Notation der Funktion verwendet:
i,j
i,j
E01
E00
i,j
i,j
E10
E11
!
=
A B
C D
!
(1.23)
Bei einem Term E i,j ist es notwendig, 4 Fälle3 zu untersuchen. Aus der obigen großen Summe lassen sich daraufhin die Summanden angeben, welche von i und j gleichzeitig abhängig
sind. Diese Summanden seien mit S i,j bezeichnet und in der Matrix-Notation dargestellt. Ziel ist
es, zu zeigen, dass S i,j ∝ E i,j gilt.
1. Fall C ≥ A und D ≥ C
S i,j =
=
!
0
B+C −A−D+D−C
C −A
C −A+D−C
!
!
0
B−A
0
B−A
∝
+
C −A D−A
C −A D−A
(1.24)
A A
A A
!
= E i,j
(1.25)
2. Fall C ≥ A und D ≤ C
!
C −D
B+C −A−D
(1.26)
C −A+C −D
C −A
!
!
C −D
B+C −A−D
A−C +D A−C +D
+
= E i,j
2C − A − D
C −A
A−C +D A−C +D
S i,j =
=
(1.27)
3. Fall C ≤ A und D ≥ C
S i,j =
=
3
A−C B+C −A−D+A−C +D−C
0
D−C
!
!
A−C B−C
A−C B−C
∝
+
0
D−C
0
D−C
!
(1.28)
C C
C C
!
= E i,j
(1.29)
Die 4 Fälle sind nicht disjunkt. Bei den jeweiligen Schnittmengen fallen aber die Argumentationen (Umformungen) zu einer zusammen.
78
4. Fall C ≤ A und D ≤ C
S i,j =
=
!
A−C +C −D B+C −A−D+A−C
C −D
0
!
!
!
A−D B−D
A−D B−C
D D
∝
+
= E i,j
C −D
0
C −D
0
D D
(1.30)
(1.31)
Setzt man diese Argumentation für die gesamte Funktion zusammen, erhält man das gewünschte Resultat:
X
e∈C
w(e) ∝
X
i
E i (Li ) +
X
i,j
E i,j (Li , Lj ) = F (L)
(1.32)
Anhang B
Details zu den Experimenten
B.1
Verwendete Parameter bei der Kennzeichenlokalisierung
Sequenz
NLSR520-2005*
NLTest8288
Elzerberg Testset 22282
vx
175
175
350
vy
64
64
80
Tabelle B.1: Verwendete Parameter bei den Experimenten der Kennzeichenlokalisierung
Tabelle B.1 zeigt die verwendeten Angaben für die Maximalgröße eines Nummernschildes.
Als Nachbarschaft bei der Zielfunktion des Optimierungsproblems wurde die 8er-Nachbarschaft
(siehe Abschnitt 2.1) verwendet.
B.2
Problemfälle bei der Kennzeichenlokalisierung
In Abbildung B.1 ist eine Schwierigkeit bei der Kennzeichenlokalisierung erkennbar. Deutsche
Trennungssymbole bewirken, dass der Graph-Cut Ansatz den Rand dieser Zeichen gegenüber
dem Rand des Nummernschildes bevorzugt. Dies kann zwar durch eine größere Teilfixierung des
Vordergrundes verhindet werden, führt aber zu einer stärkeren Abhängigkeit von der Hypothese.
79
80
ANHANG B. DETAILS ZU DEN EXPERIMENTEN
Bild B.1: Problemfall bei der Kennzeichenlokalisierung: Trennung entlang der deutschen
Trennungssymbole: (Links) Origin albild, (Rechts) Segmentierung des Bildes in InterlacedDarstellung
Parameter
γ
λ
αp
βp
κp
κe
Wert
3
1
2
4 · 103
0.03 ∼
= 3cm
0.03 ∼
= 3cm
8
Tabelle B.2: Verwendete Parameter bei den Experimenten der Ebenensegmentierung
B.3
Verwendete Parameter bei der Ebenendetektion
In Tabelle B.2 sind alle verwendeten Parameter bei den Verfahren der Ebenendetektion aufgeführt. Diese Werte wurden bei den Experimenten verwendet und orientieren sich an empirisch
gewählten Werten und Angaben aus der Literatur wie etwa [XS05].
B.4
Weitere Beispielbilder der Ebenendetektion
Bild B.2: Beispiel für eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mit
B.4. WEITERE BEISPIELBILDER DER EBENENDETEKTION
81
Bild B.3: Originalbild von Beispiel 5.5 aufgenommen mit einer Sony Kamera
Die Abbildung B.3 zeigt eine übersichtliche Darstellung der verwendeten Szene von Beispiel 5.5. Ein weiteres Beispiel für das Ergebnis einer Ebenendetektion mit Graph-Cut ist in
Abbildung B.2 dargestellt.
82
ANHANG B. DETAILS ZU DEN EXPERIMENTEN
Literaturverzeichnis
[BDV07]
J. M. Bioucas-Dias, G. Valadao: Phase Unwrapping via Graph Cuts, Image Processing, IEEE Transactions on, Bd. 16, Nr. 3, March 2007, S. 698–709.
[Bes86]
J. Besag: On the Statistical Analysis of Dirty Pictures, Journal of the Royal Statistical Society, Bd. 48, 1986, S. 259–279.
[BFL06]
Y. Boykov, G. Funka-Lea: Graph Cuts and Efficient N-D Image Segmentation, International Journal of Computer Vision, Bd. 70, Nr. 2, 2006, S. 109–131.
[BJ00]
Y. Boykov, M.-P. Jolly: Interactive Organ Segmentation Using Graph Cuts, in
MICCAI ’00: Proceedings of the Third International Conference on Medical Image
Computing and Computer-Assisted Intervention, Springer-Verlag, London, UK,
2000, S. 276–286.
[BJ01a]
Y. Boykov, M. Jolly: Demonstration of segmentation with interactive graph cuts,
in Eighth IEEE International Conference on Computer Vision, 2001. ICCV 2001.
Proceedings, Bd. 2, 7-14 July 2001, S. 741–741.
[BJ01b]
Y. Boykov, M.-P. Jolly: Interactive graph cuts for optimal boundary & region segmentation of objects in N-D images, in Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference on, Bd. 1, 7-14 July 2001, S. 105–112.
[BK03]
Y. Boykov, V. Kolmogorov: Computing geodesics and minimal surfaces via graph
cuts, in Computer Vision, 2003. Proceedings. Ninth IEEE International Conference
on, Bd. 1, 2003, S. 26–33.
[BK04]
Y. Boykov, V. Kolmogorov: An experimental comparison of min-cut/maxflow algorithms for energy minimization in vision, Pattern Analysis and Machine Intelligence,
IEEE Transactions on, Bd. 26, Nr. 9, Sept. 2004, S. 1124–1137.
83
84
[BT99]
LITERATURVERZEICHNIS
S. Birchfield, C. Tomasi: Multiway cut for stereo and motion with slanted surfaces, in Computer Vision, 1999. The Proceedings of the Seventh IEEE International
Conference on, Bd. 1, 20-27 Sept. 1999, S. 489–495.
[BVZ98a] Y. Boykov, O. Veksler, R. Zabih: Markov random fields with efficient approximations, in Computer Vision and Pattern Recognition, 1998. Proceedings. 1998 IEEE
Computer Society Conference on, 23-25 June 1998, S. 648–655.
[BVZ98b] Y. Boykov, O. Veksler, R. Zabih: Efficient Restoration of Multicolor Images with
Independent Noise, TR98-1712, Cornell University, 27, 1998.
[BVZ99a] Y. Boykov, O. Veksler, R. Zabih: Fast approximate energy minimization via graph
cuts, in Computer Vision, 1999. The Proceedings of the Seventh IEEE International
Conference on, Bd. 1, 20-27 Sept. 1999, S. 377–384.
[BVZ99b] Y. Boykov, O. Veksler, R. Zabih: A New Algorithm for Energy Minimization with
Discontinuities, in Energy Minimization Methods in Computer Vision and Pattern
Recognition, 1999, S. 205–220.
[BVZ01]
Y. Boykov, O. Veksler, R. Zabih: Fast approximate energy minimization via graph
cuts, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 23,
Nr. 11, Nov. 2001, S. 1222–1239.
[CG06]
D. Cremers, L. Grady: Statistical Priors for Efficient Combinatorial Optimization
Via Graph Cuts., in Computer Vision - ECCV 2006, 9th European Conference on
Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part III, 2006, S.
263–274.
[CKS03]
D. Cremers, T. Kohlberger, C. Schnörr: Shape Statistics in Kernel Space for Variational Image Segmentation, Pattern Recognition, Bd. 36, Nr. 9, 2003, S. 1929–1943.
[Cun85]
W. H. Cunningham: Minimum Cuts, Modular Functions, and Matroid Polyhedra,
Networks, Bd. 15, 1985, S. 205–215.
[CWC06]
W. Cai, J. Wu, A. Chung: Shape-Based Image Segmentation Using Normalized
Cuts, in IEEE International Conference on Image Processing (ICIP’06), 2006, S.
1101–1104.
85
[CZ01]
D. Cobzas, H. Zhang: Planar patch extraction with noisy depth data, in Proceedings
Third International Conference on 3-D Digital Imaging and Modeling, Quebec, Canada, May 2001, S. 240–245.
[CZ05]
A. Y. S. Chia, V. Zagorodnov: Graph Cut Segmentation on Convoluted Objects,
IEEE International Conference on Image Processing, Bd. 3, 2005, S. 848–851.
[DJP*94]
E. Dahlhaus, D. S. Johnson, C. H. Papadimitriou, P. D. Seymour, M. Yannakakis:
The Complexity of Multiterminal Cuts, SIAM J. Comput., Bd. 23, Nr. 4, 1994, S.
864–894.
[FD05]
D. Freedman, P. Drineas: Energy Minimization via Graph Cuts: Settling What is
Possible, in CVPR ’05: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) - Volume 2, IEEE
Computer Society, Washington, DC, USA, 2005, S. 939–946.
[Fer95]
P. Ferrari: Fast Approximate MAP Restoration of Multicolor Images, Journal of the
Royal Statistical Society, Bd. 57, Nr. 3, 1995, S. 485–500.
[FZ05]
D. Freedman, T. Zhang: Interactive graph cut based segmentation with shape priors,
in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer
Society Conference on, Bd. 1, 2005, S. 755–762.
[GG84]
S. Geman, D. Geman: Stochastic Relaxation, Gibbs Distributions, and the Bayesian
Restoration of Images, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 6, Nr. 6, November 1984, S. 721–741.
[GPS86]
Greig, Porteuous, Seheult: Discussion on On the statistical analysis of dirty pictures,
Journal of the Royal Society of Statistics, Series B, Bd. 48, 1986, S. 282–284.
[GPS89]
Greig, Porteous, Seheult: Exact Maximum A Posteriori Estimation for Binary
Images, Journal of the Royal Statistical Society, Series B, Bd. 51, 1989, S. 271–
279.
[Gra87]
C. Graffigne: Experiments in texture analysis and segmentation, PhD thesis, Brown
University, 1987.
[GS06]
L. Grady, E. Schwartz: Isoperimetric graph partitioning for image segmentation,
Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 28, Nr. 3,
March 2006, S. 469–475.
86
[Hub80]
P. J. Huber: Robust Statistics, John Wiley and Sons, 1980.
[IG98]
H. Ishikawa, D. Geiger: Segmentation by grouping junctions, in IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1998. Proceedings,
23-25 June 1998, S. 125–131.
[IG99]
H. Ishikawa, D. Geiger: Mapping Image Restoration to a Graph Problem, in IEEEEURASIP Workshop on Nonlinear Signal and Image Processing, 1999, S. 20–23.
[Ish03]
H. Ishikawa: Exact optimization for Markov random fields with convex priors, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 25, Nr. 10, Oct.
2003, S. 1333–1336.
[Isi25]
E. Ising: Beitrag zur Theorie des Ferromagnetismus, Zeitschrift fuer Physik, Bd. 31,
1925, S. 253–258.
[JB06]
O. Juan, Y. Boykov: Active Graph Cuts, in Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, Bd. 1, 17-22 June 2006, S.
1023–1029.
[KB05]
V. Kolmogorov, Y. Boykov: What metrics can be approximated by geo-cuts, or
global optimization of length/area and flux, in Computer Vision, 2005. ICCV 2005.
Tenth IEEE International Conference on, Bd. 1, 17-21 Oct. 2005, S. 564–571.
[KD07]
O. Kähler, J. Denzler: Detecting Coplanar Feature Points in Handheld Image Sequences, in Proceedings Conference on Computer Vision Theory and Applications
(VISAPP 2007), Bd. 2, INSTICC Press, Barcelona, March 2007, S. 447–452.
[KKZ03]
J. Kim, V. Kolmogorov, R. Zabih: Visual correspondence using energy minimization and mutual information, in Computer Vision, 2003. Proceedings. Ninth IEEE
International Conference on, Bd. 2, 13-16 Oct. 2003, S. 1033–1040.
[Kol03]
V. Kolmogorov: Graph-based Algorithms for Multi-camera Reconstruction Problem, PhD thesis, Cornell University, CS Department, 2003.
[KR04]
R. Klette, A. Rosenfeld: Digital Geometry: Geometric Methods for Digital Picture
Analysis, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2004.
87
[KR06]
V. Kolmogorov, C. Rother: Comparison of Energy Minimization Algorithms for
Highly Connected Graphs., in Computer Vision - ECCV 2006, 9th European Conference on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part II,
2006, S. 1–15.
[KRD07]
O. Kähler, E. Rodner, J. Denzler: Fusion of Range and Intensity Information Using
Graph-Cut for Planar Patch Segmentation, (submitted to Dynamic 3D Imaging
Workshop 2007), 5 2007.
[KT05]
J. Kleinberg, E. Tardos: Algorithm Design, Addison-Wesley Longman Publishing
Co., Inc., Boston, MA, USA, 2005.
[KT06]
P. Kohli, P. H. S. Torr: Measuring Uncertainty in Graph Cut Solutions - Efficiently
Computing Min-marginal Energies Using Dynamic Graph Cuts., in Computer Vision - ECCV 2006, 9th European Conference on Computer Vision, Graz, Austria,
May 7-13, 2006, Proceedings, Part II, 2006, S. 30–43.
[KTZ05]
M. P. Kumar, P. H. S. Torr, A. Zisserman: OBJ CUT, in CVPR ’05: Proceedings of
the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) - Volume 1, IEEE Computer Society, Washington, DC, USA,
2005, S. 18–25.
[KZ02]
V. Kolmogorov, R. Zabih: Multi-camera Scene Reconstruction via Graph Cuts, in
European Conference on Computer Vision, 2002, S. 82–96.
[KZ04]
V. Kolmogorov, R. Zabin: What energy functions can be minimized via graph cuts?,
Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 26, Nr. 2,
Feb 2004, S. 147–159.
[Lan00]
R. Lange: 3D Time-of-Flight Distance Measurement with Custom Solid-State Image
Sensors in CMOS/CCD-Technology, PhD thesis, University of Siegen, 2000.
[LSGX05] H. Lombaert, Y. Sun, L. Grady, C. Xu: A Multilevel Banded Graph Cuts Method for
Fast Image Segmentation, in ICCV ’05: Proceedings of the Tenth IEEE International Conference on Computer Vision (ICCV’05) Volume 1, IEEE Computer Society,
Washington, DC, USA, 2005, S. 259–265.
88
[Pol]
D. B. Pollard:
Hammersley-clifford theorem for markov random fields. Handouts,
Available at http://www, star.yale.edu/
pollard/251.spring04/Handouts/Hammersley-Clifford.pdf.
[PR75]
Picard, Ratliff: Minimum cuts and related problems, Networks, Bd. 5, 1975, S.
357–370.
[RK06]
C. Rother, V. Kolmogorov: Minimizing non-submodular functions with graph cuts
- a review, MSR-TR-2006-100, Microsoft Research, 2006.
[RMBK06] C. Rother, T. Minka, A. Blake, V. Kolmogorov: Cosegmentation of Image Pairs by
Histogram Matching - Incorporating a Global Constraint into MRFs, in CVPR ’06:
Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition, IEEE Computer Society, Washington, DC, USA, 2006, S.
993–1000.
[RSZ06]
A. Raj, G. Singh, R. Zabih: MRF’s for MRI’s: Bayesian Reconstruction of MR
Images via Graph Cuts., in 2006 IEEE Computer Society Conference on Computer
Vision and Pattern Recognition (CVPR 2006), 17-22 June 2006, New York, NY, USA,
2006, S. 1061–1068.
[SC06]
T. Schoenemann, D. Cremers: Near Real-Time Motion Segmentation Using Graph
Cuts., in DAGM-Symposium, 2006, S. 455–464.
[Sch04]
A. Schrijver: Combinatorial Optimization : Polyhedra and Efficiency (Algorithms
and Combinatorics), Springer, July 2004.
[SG06]
A. K. Sinop, L. Grady: Accurate Banded Graph Cut Segmentation of Thin Structures
Using Laplacian Pyramids., in Medical Image Computing and Computer-Assisted
Intervention - MICCAI 2006, 9th International Conference, Copenhagen, Denmark,
October 1-6, Proceedings, Part II, 2006, S. 896–903.
[SM97]
J. Shi, J. Malik: Motion Segmentation and Tracking using normalized cuts, 962,
University of California, Berkeley, 1997.
[SM98]
J. Shi, J. Malik: Motion segmentation and tracking using normalized cuts, in Proceedings of the Sixth International Conference on Computer Vision, 1998, S. 1154–
1160.
89
[SM00]
J. Shi, J. Malik: Normalized cuts and image segmentation, Pattern Analysis and
Machine Intelligence, IEEE Transactions on, Bd. 22, Nr. 8, Aug. 2000, S. 888–905.
[SRR07]
W. Schorisch, H. Rodner, H.-J. Rodner: Thanks for everything, International Journal for Acknowledgements, Bd. 1, 2007, S. 1–10.
[SZS*06]
R. Szeliski, R. Zabih, D. Scharstein, O. Veksler, V. Kolmogorov, A. Agarwala, M. F.
Tappen, C. Rother: A Comparative Study of Energy Minimization Methods for Markov Random Fields., in Computer Vision - ECCV 2006, 9th European Conference
on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part II, 2006, S.
16–29.
[Vek99]
O. Veksler: Efficient graph-based energy minimization methods in computer vision,
PhD thesis, Faculty of the Graduate School of Cornell University, 1999.
[Vek00]
O. Veksler: Image Segmentation by Nested Cuts, in IEEE Conference on Computer
Vision and Pattern Recognition, Bd. 1, 2000, S. 339–344.
[vH06]
W. von Hansen: Robust Automatic Marker-free Registration of Terrestrial Scan
Data, in Proceedings Photogrammetric Computer Vision 2006, Bd. 36, Bonn, Germany, September 2006, S. 105–110.
[Win06]
G. Winkler: Image Analysis, Random Fields and Markov Chain Monte Carlo Methods, Springer-Verlag New York, Inc., 2006, ISBN 3540442138.
[XS05]
J. Xiao, M. Shah: Motion layer extraction in the presence of occlusion using graph
cuts, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 27,
Nr. 10, Oct. 2005, S. 1644–1659.
[YFW00]
J. S. Yedidia, W. T. Freeman, Y. Weiss: Generalized Belief Propagation, in NIPS,
2000, S. 689–695.
[YS06]
P. Yan, M. Shah: Segmentation of Neighboring Structures by Modeling Their Interaction, in CVPRW ’06: Proceedings of the 2006 Conference on Computer Vision and Pattern Recognition Workshop, IEEE Computer Society, Washington, DC,
USA, 2006, S. 77.
90
Verzeichnis der Bilder
2.1
Binäre Bildrestaurierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1
Konstruktion der Kanten für F2-Funktionen . . . . . . . . . . . . . . . . . . . . 29
3.2
Graphkonstruktion für ein einfaches Beispiel . . . . . . . . . . . . . . . . . . . 31
3.3
Einfaches Graph-Cut-Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4
Beziehungen der Funktionsklassen . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5
Beispiel eines Alpha-Erweiterungsschrittes . . . . . . . . . . . . . . . . . . . . 37
4.1
Veranschaulichung von Gleichung (4.4) . . . . . . . . . . . . . . . . . . . . . . 47
4.2
Segmentierung mit Teilfixierung . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3
Ausgangsbild für die Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . 49
4.4
Veranschaulichung der fixierten Bereiche . . . . . . . . . . . . . . . . . . . . . 49
4.5
Ergebnis der Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . . . . 50
4.6
Beispiel für eine Level-Set Darstellung . . . . . . . . . . . . . . . . . . . . . . . 53
4.7
Beispiel für die sigmoidale Funktion s . . . . . . . . . . . . . . . . . . . . . . . 54
4.8
Bewegungssegmentierung einer Ebene . . . . . . . . . . . . . . . . . . . . . . . 54
4.9
Ebenensegmentierung mit Graph-Cut-Verfeinerung . . . . . . . . . . . . . . . . 57
5.1
Kamera für Echtzeit-Tiefeninformationen . . . . . . . . . . . . . . . . . . . . . 62
5.2
Versuchsaufbau für Beispiel 5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3
Fehler ẽ bei [KD07] Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.4
Fehler ẽ bei Region-Growing Verfahren . . . . . . . . . . . . . . . . . . . . . . 64
5.5
Beispiel für eine Ebenensegmentierung . . . . . . . . . . . . . . . . . . . . . . 65
A.1 Notation von [BK04] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
B.1 Problemfall bei der Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . 80
B.2 Beispiel für eine Ebenensegmentierung . . . . . . . . . . . . . . . . . . . . . . 80
91
92
VERZEICHNIS DER BILDER
B.3 Originalbild von Beispiel 5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Verzeichnis der Tabellen
3.2
3.4
3.6
Laufzeiten von Max-Flow Algorithmen . . . . . . . . . . . . . . . . . . . . . . 25
Graph-Konstruktion für F2-Funktionen . . . . . . . . . . . . . . . . . . . . . . . 30
Literaturverweise: Charakterisierung der graph-darstellbaren Funktionen . . . . . 35
5.1
5.2
5.3
5.4
5.5
5.6
Verwendete Testsequenzen . . . . . . . .
Ergebnisse der Kennzeichenlokalisierung
Auswertung der Laufzeit . . . . . . . . .
Auswertung des Parameters σ . . . . . .
Auswertung des Parameters ux . . . . . .
Durchschnittswerte von ẽ . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
60
60
61
61
65
B.1 Verwendete Parameter bei den Experimenten der Kennzeichenlokalisierung . . . 79
B.2 Verwendete Parameter bei den Experimenten der Ebenensegmentierung . . . . . 80
93

Segmentierung mit Graph-Cut-Methoden

Transcription

Similar documents

Weitere Infos zu Skoliose

Wie kriege ich Hauptspeicher?_20141113114814

Dokument_1 - OPUS Augsburg

Ausarbeitung

Datenblatt Trimble LaserAce 1000

Der Nachbar – Untersuchungen zu einer besonderen

Fingerprint Identification von KESO - BKH