Segmentierung mit Graph-Cut-Methoden

Transcription

Segmentierung mit Graph-Cut-Methoden
Segmentierung mit Graph-Cut-Methoden
Diplomarbeit im Fach Informatik
vorgelegt
von
Erik Rodner
Geboren am 22.05.1983 in Königs Wusterhausen
Angefertigt am
Lehrstuhl für Digitale Bildverarbeitung
Fakultät für Mathematik und Informatik
Friedrich-Schiller-Universität Jena.
Betreuer: Prof. Dr.Ing. J. Denzler, Dr. rer. nat. habil. H. Süße, Dipl.Inf. O. Kähler
Beginn der Arbeit: 4. Februar 2007
Abgabe der Arbeit: 6. Juli 2007
ii
iii
Ich versichere, dass ich die Arbeit ohne fremde Hilfe und ohne Benutzung anderer als der
angegebenen Quellen angefertigt habe und dass die Arbeit in gleicher oder ähnlicher Form noch
keiner anderen Prüfungsbehörde vorgelegen hat und von dieser als Teil einer Prüfungsleistung
angenommen wurde. Alle Ausführungen, die wörtlich oder sinngemäß übernommen wurden,
sind als solche gekennzeichnet.
Die Richtlinien des Lehrstuhls für Studien- und Diplomarbeiten habe ich gelesen und anerkannt, insbesondere die Regelung des Nutzungsrechts.
Jena, den 5. Juli 2007
iv
Übersicht
Die vorliegende Arbeit beschreibt die Verwendung von sogenannten Graph-Cut-Methoden
in der Bildverarbeitung. Diese Methoden lösen Segmentierungsprobleme mit Verfahren der diskreten Optimierung. Notwendige theoretische Grundlagen aus der Bayesschen Bildanalyse, Graphentheorie, diskreten Optimierung und theoretischen Informatik werden dargestellt und in einem gemeinsamen Kontext erläutert. Einen Schwerpunkt bildet dabei eine klare Eingrenzung
der Möglichkeiten von Graph-Cut-Verfahren. Ausgehend von diesen Untersuchungen werden
im weiteren Verlauf der Arbeit zwei Problemstellungen der Bildverarbeitung bearbeitet. Die Lokalisierung des Kennzeichenrandes ist ein wichtiger Schritt im Gesamtsystem eines Kennzeichenlesers und kann effizient durch einen Graph-Cut-Ansatz gelöst werden. Weiterhin werden
Verfahren zur Verbesserung der Ebenendetektion entwickelt, welche es unter anderem ermöglichen, Tiefeninformationen und Grauwertinformationen aktueller Spezialkameras in einem Optimierungsschritt zu kombinieren. Die Auswertung der vorgestellten Verfahren erfolgt anhand von
Experimenten und dem Vergleich mit Ground-Truth Daten.
Abstract
The following work describes the potential of graph cut methods in computer vision. These methods solve segmentation problems with discrete optimization techniques. Theoretic fundamentals from bayesian image analysis, graph theory, discrete optimization and theoretical computer
science are presented and explained in a common framework. Thereby the main focus is the study
of well defined limitations of graph cut methods. Based on these results it is possible to develop
new solutions for two applications. The localization of a license plate border is an important step
in a license plate recognition system and can be solved efficiently with a graph cut approach.
Furthermore different methods to refine planar patch detection are developed, which are able to
combine depth and intensity information from 3-D imaging sensors in a single optimization step.
Evaluation of all proposed algorithms is done by experiments and comparision with ground truth
data.
Inhaltsverzeichnis
1
2
3
Einführung
1
1.1
Literaturüberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2
Verwendete Notationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3
Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
Markov Random Fields
7
2.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2
Satz von Hammersley-Clifford . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3
Schätzung mittels MRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1
MAP-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2
Annahmen der Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.3
Vereinfachungen der Schätzung . . . . . . . . . . . . . . . . . . . . . . 11
2.3.4
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Schätzung von MRF-Zuständen mit minimalen Schnitten
3.1
3.2
3.3
17
Minimale Schnitte in Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.1
Problemdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2
Zusammenhang zur Bestimmung des maximalen Flusses . . . . . . . . . 19
Algorithmen zur Bestimmung des minimalen Schnittes . . . . . . . . . . . . . . 23
3.2.1
Der Algorithmus von Dinic . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.2
Der Algorithmus von Kolmogorov und Boykov . . . . . . . . . . . . . . 24
Diskrete Optimierung mit Graph-Cut . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1
Das Optimierungsproblem und die Funktionsklassen F2 und F3 . . . . . 25
3.3.2
Regularität und Graphkonstruktion für F2 . . . . . . . . . . . . . . . . . 26
3.3.3
Vollständige Charakterisierung . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.4
Der Zusammenhang zu submodularen Funktionen . . . . . . . . . . . . 33
v
vi
INHALTSVERZEICHNIS
3.4
4
4.2
4.3
5.2
7
Beschreibung des Algorithmus . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.2
Eigenschaften des Algorithmus . . . . . . . . . . . . . . . . . . . . . . 39
3.4.3
Anforderungen an Zielfunktionen der Funktionsklasse F2 . . . . . . . . 41
3.4.4
Beziehung zur Schätzung von MRF-Zuständen . . . . . . . . . . . . . . 42
45
Interaktive Segmentierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1.1
Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1.2
Festlegung der unabhängigen Kosten einzelner Pixel . . . . . . . . . . . 46
4.1.3
Wahl der Cliquen-Potentiale 2. Ordnung . . . . . . . . . . . . . . . . . . 46
Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.2
Kennzeichenlokalisierung als binäres Segmentierungsproblem . . . . . . 48
Ebenendetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3.1
Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.2
Ebenendetektion durch Bewegungssegmentierung . . . . . . . . . . . . . 51
4.3.3
Ebenendetektion mit zusätzlicher Tiefeninformation . . . . . . . . . . . 55
Experimente
5.1
6
3.4.1
Anwendungen
4.1
5
alpha-Expansion-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
59
Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.1
Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.2
Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Ebenendetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2.1
Experimentaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2.2
Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Ausblick
67
6.1
Allgemeine Ansätze für die weitere Forschung . . . . . . . . . . . . . . . . . . . 67
6.2
Verbesserung der Kennzeichenerkennung durch Graph-Cut-Verfahren . . . . . . 68
6.3
Erweiterung der Ebenendetektion mit Graph-Cut . . . . . . . . . . . . . . . . . 68
Zusammenfassung
69
A Mathematische Details
71
A.1 Zusammenhang zwischen binärer Bildrestaurierung und Medianfilter . . . . . . . 71
vii
INHALTSVERZEICHNIS
A.2 Details zum Algorithmus von [BK04] . . . . . . . . . . . . . . . . . . . . . . . 72
A.3 Minimierung von F2-Funktionen ist NP-schwer . . . . . . . . . . . . . . . . . . 74
A.4 Verifikation der Graph-Konstruktion bei F2-Funktionen . . . . . . . . . . . . . . 75
B Details zu den Experimenten
B.1 Verwendete Parameter bei der Kennzeichenlokalisierung
B.2 Problemfälle bei der Kennzeichenlokalisierung . . . . .
B.3 Verwendete Parameter bei der Ebenendetektion . . . . .
B.4 Weitere Beispielbilder der Ebenendetektion . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
79
79
80
80
Literaturverzeichnis
83
Verzeichnis der Bilder
91
Verzeichnis der Tabellen
93
viii
INHALTSVERZEICHNIS
Kapitel 1
Einführung
Die folgende Arbeit beschäftigt sich mit den Möglichkeiten der Verwendung diskreter Optimierungsverfahren bei Segmentierungsaufgaben in der Bildverarbeitung. Dabei bezeichnet der
Begriff der Segmentierung eines Bildes allgemein die Zusammenfassung von Pixeln aufgrund
von gewissen Kriterien zu inhaltlich zusammenhängenden Regionen. Diese Definition wirft zwei
Fragestellungen auf: Wie lassen sich anwendungsspezifische Kriterien definieren und wie lässt
sich aufgrund dieser Kriterien eine Segmentierung durchführen?
Bisherige Segmentierungsansätze verwenden meistens eine Folge von einzelnen Operationen und Verarbeitungsschritten wie etwa Kantendetektion und anschließende Kontursuche. Eine
klare mathematische Formulierung der Segmentierungskriterien kann bei dieser Staffelung oft
nicht verwendet werden und ist auch nicht implizit gegeben.
Ein komplett anderer Zugang ist die Segmentierung mit mathematischen Optimierungsverfahren wie bei der Bayessche Bildanalyse. Kriterien für die Segmentierung werden dort anhand
eines Optimierungsproblems angegeben. Der Schwerpunkt dieser Arbeit ist dabei die Verwendung von diskreten Optimierungsproblemen. Als Segmentierungsverfahren kann nach der Entwicklung anwendungsspezifischer Kriterien, im weiteren Verlauf der Arbeit auch als Modell
bezeichnet, ein passendes numerisches Verfahren aus der mathematischen Optimierung gewählt
werden.
So genannte Graph-Cut-Methoden besitzen ihren Ursprung in der mathematischen Optimierung. Grundidee ist die Abbildung eines Optimierungsproblems in ein Problem der Graphentheorie. Die Formulierung des Problems in der Sprache der Graphentheorie ermöglicht es, ein breites
Spektrum von Forschungsergebnissen in diesem Bereich zu verwenden. Vor allem die Resultate
der theoretischen Informatik bieten diesbezüglich klar definierte Grenzen der Berechenbarkeit
und Lösungsansätze für die Ermittlung approximierter Lösungen.
1
2
KAPITEL 1. EINFÜHRUNG
Ziel dieser Arbeit soll es daher unter anderem sein, theoretische Möglichkeiten der Anwendung von Graph-Cut-Verfahren in der Bildverarbeitung aufzuzeigen. Weiterhin werden konkrete
algorithmische Lösungen für ein Problem der industriellen Bildverarbeitung (Kennzeichenlokalisierung) sowie des Rechnersehens (Ebenendetektion) entwickelt und durch Experimente verifiziert.
1.1
Literaturüberblick
Bereits in den frühen Jahren der Bildverarbeitung wurden Segmentierungsprobleme mit mathematischen Optimierungsverfahren gelöst. Ausgangspunkt ist stets die MAP-Schätzung von
Zufallsvariablen mit einem zugrunde liegenden Markov Random Field (MRF) Modell (MRFZufallsvariable). Die für die Schätzung notwendige Optimierung wird dabei im ursprünglichen
Standardwerk [GG84] der Bayesschen Bildanalyse [Win06] mit dem Gibbs Sampler durchgeführt. Dieser Algorithmus ist ein Spezialfall zum allgemeineren Metropolis-Hasting Algorithmus beziehungsweise der Optimierung mit Simulated Annealing. Diese Verfahren können auf
allgemeine Zielfunktionen angewendet werden, daher ist es zum Beispiel nicht möglich obere
Schranken für die Laufzeit anzugeben.
Als weiteres iteratives Verfahren aus den Anfängen sei der Iterated Conditional Modes (ICM)
Algorithmus aus dem Beitrag [Bes86] erwähnt. Eine Anmerkung in der dazugehörigen veröffentlichten Diskussion [GPS86] legt als erstes die Verbindung zur diskreten Optimierung [PR75,
Cun85] offen und ermöglicht so die exakte MAP-Schätzung von MRF-Zufallsvariablen bei binären Segmentierungsproblemen [GPS89]. Grundidee ist die Übertragung auf das Problem des
minimalen Schnittes (Min-Cut) aus der Graphentheorie.
Die Einschränkung auf binäre Probleme galt lange Zeit als unüberwindbare Einschränkung 1 .
Die Arbeiten [IG98, IG99, Ish03] untersuchen daher Bedingungen an die Zielfunktion, für welche auch bei nicht-binären Problemen ein globales exaktes Minimum gefunden werden kann.
In [Fer95] wird hingegen versucht, eine Lösung des allgemeinen Segmentierungsproblems mit
mehreren Klassen durch eine Aufteilung in binäre Probleme zu finden. Die Arbeiten von Boykov, Zabih und Veksler [BVZ98a, BVZ01] 2 verfolgen eine ähnliche Grundidee, welche zum αExpansion-Algorithmus führt und die Grundlage bildet für viele weitere Anwendungen. Der Algorithmus ist ein Approximationsalgorithmus 3 , der nur ein lokales Minimum des NP-schweren
1
Diese Ansicht ist auch noch in aktuellen“ Werken der Bayesschen Bildanalyse vorhanden [Win06].
”
Zur Vollständigkeit seien hier die Arbeiten [BVZ98b, BVZ99a, BVZ99b, Vek99] als verwandte Publikationen
aufgeführt, die manche Details näher beschreiben.
3
Es sei an dieser Stelle erwähnt dass der Algorithmus unabhängig von der Anwendung und dem Ursprung in der
2
1.1. LITERATURÜBERBLICK
3
Ursprungsproblems [DJP*94] sicherstellen kann. Zusammen mit der Abbildung der MAP-Schätzung bei binären Problemen auf das Min-Cut-Problem der kombinatorischen Optimierung nach
[GPS86] werden diese Ansätze in der neueren Literatur oft zusammengefasst als Graph-CutMethoden bezeichnet. Dieser Begriff kann durchaus zu ungewollten Mehrdeutigkeiten führen,
da im Bereich der Segmentierung auch andere Definitionen von Schnitten in einem Graphen verwendet werden. Hervorzuheben ist an dieser Stelle der verwandte Begriff des Normalized-Cut
(N-Cut), welcher nur durch einen Übergang von der diskreten zur kontinuierlichen Optimierung
ermittelt werden kann [SM00, SM97, SM98, CWC06].
Als wichtigste Anwendungsgebiete des α-Expansion-Algorithmus sind die Bestimmung von
dichten Tiefenkarten [KZ02, KKZ03, Kol03], die Segmentierung mit einer Teilfixierung der Labels bei der interaktiven Segmentierung [BJ00, BJ01a, BJ01b, FZ05, BFL06, RMBK06, YS06],
die Segmentierung von beliebigen Bildern [Vek00] ohne A-Priori-Information, die Segmentierung bei Bildern bestimmter Objektkategorien [KTZ05], Phase Unwrapping [BDV07] und die
Segmentierung auf der Grundlage von Bewegungsinformationen [BT99, XS05, SC06] zu nennen.
Für die Verwendung von Graph-Cut-Methoden in der Bildverarbeitung als reines Werkzeug ist es unerlässlich, theoretische Grenzen der Modellierungsmöglichkeiten bei der Anwendung von Graph-Cut-Methoden aufzuzeigen. Einschränkungen bei der Modellierung liegen darin begründet, dass die Zielfunktion nur einer beschränkten Funktionsklasse angehören kann. In
[KZ04] wird für eine große Klasse von Zielfunktionen eine allgemeine Graph-Konstruktion angegeben. Die Ausführungen [FD05] sind eine reine theoretische Abhandlung über die Erweiterbarkeit dieser beschriebenen Funktionsklasse.
Aufgezeigte theoretische Grenzen können in der Praxis natürlich nicht umgangen werden.
Dennoch ist es möglich, durch die Verwendung des Quadratic Pseudo-Boolean Optimization
(QPBO) Algorithmus [RK06, RSZ06] eine partielle Lösung allgemeinerer Optimierungsprobleme zu erhalten.
Neue Ideen, um Graph-Cut-Methoden auch algorithmisch zu verbessern, umfassen die Verbesserung der Laufzeit mit neuen für die Bildverarbeitung angepassten Algorithmen der Optimierung [BK04] sowie die traditionelle Beschleunigung durch Auflösungshierarchien [LSGX05,
SG06, JB06]. Die Möglichkeit, ein Maß für die Unsicherheit eines Segmentierungsergebnisses
zu erhalten, wird durch [KT06] untersucht.
Die Arbeiten [BK03, KB05] ziehen direkte Verbindungen zu anderen Standardansätzen in
der Bildverarbeitung wie etwa level-set Methoden.
Bildverarbeitung in der kombinatorischen bzw. diskreten Optimierung anzusiedeln ist.
4
KAPITEL 1. EINFÜHRUNG
Trotz der Entwicklung neuer Verfahren für die MAP-Schätzung von MRFs wie etwa Loopy
Belief Propagation [YFW00] sind Graph-Cut-Methoden bezüglich ihrer Geschwindigkeit und
der Güte des gefundenen Optimums führend [KR06, SZS*06].
1.2
Verwendete Notationen
Pr(X = X) Für diskrete Zufallsvariablen X sei damit die Wahrscheinlichkeit des Ereignisses
{X = X} bezeichnet. Bei stetigen Zufallsvariablen hingegen steht diese Notation für
die Dichte von X in Abhängigkeit von X. Abkürzend kann auch die Notation Pr(X) in
eindeutigen Situationen verwendet werden. Hingegen impliziert die Schreibweise Pr(X )
eindeutig die Dichte oder Wahrscheinlichkeit als Funktion.
E(X ) bezeichnet den Erwartungswert der Zufallsvariablen X .
δ(x) bezeichnet die Delta-Funktion. x kann eine reelle Zahl oder ein Prädikat sein:

1 x ist wahr, oder x = 1
def
δ(x) =
0 sonst.
(1.1)
P(A) ist eine Notation für die Potenzmenge einer Menge A..
]A bezeichnet für endliche Mengen A die Kardinalität oder Anzahl der Elemente der Menge A.
R+ ist die Menge der nicht-negativen reellen Zahlen.
k · k = k · k2 , k · k∞ auf Rn definierte euklidische Norm und Maximum-Norm.
E i (·), E i,j (·), EC (·) sind Bezeichnungen für einzelne nummerierte Funktionen, welche für jedes
i, j oder C verschieden gewählt werden können.
1.3
Aufbau der Arbeit
Bei der Strukturierung der folgenden Arbeit wurde auf klare Abgrenzung von bekannten theoretischen Ergebnisse zu neuen direkten Anwendungen dieser Ergebnisse bei Problemen der Bildverarbeitung geachtet. Dabei zeigen die theoretischen Ausführungen auch Möglichkeiten auf,
welche über den Horizont der hier besprochenen praktischen Problemlösungen hinausgehen.
1.3. AUFBAU DER ARBEIT
5
In Kapitel 2 werden Markov Random Fields vorgestellt, welche die Grundlage der Bayesschen Bildanalyse bilden. Das darauf folgende Kapitel 3 präsentiert wichtige Ergebnisse der diskreten Optimierung bei Graph-Cut-Methoden und schlägt im letzten Abschnitt die Brücke zur
Bayesschen Bildanalyse. Ausgehend von den ausführlich beschriebenen Möglichkeiten der Optimierungsverfahren ist es möglich, in Kapitel 4 verschiedene Anwendungsmöglichkeiten präzise
und vollständig vorzustellen. Eine Verifikation der im Rahmen dieser Arbeit entstandenen praktischen Ergebnisse und Neuerungen wird in Kapitel 5 durch verschiedene Experimente vorgenommen.
Die Arbeit schließt in den Kapiteln 6 und 7 mit einem Überblick über Verbesserungsmöglichkeiten und Ansätze für eine weitere Forschung auf dem behandelten Gebiet sowie mit einer Zusammenfassung der vorgestellten Ergebnisse. Kapitel A im Anhang bietet dem interessierten Leser zusätzliche mathematische Details in Form von Beweisen und Zusammenhängen. Verwendete Parameter bei den Experimenten und zusätzliche Beispielbilder können Kapitel B entnommen
werden.
6
KAPITEL 1. EINFÜHRUNG
Kapitel 2
Markov Random Fields
In diesem Kapitel soll zunächst der für diese Arbeit notwendige Begriff des Markov Random
Field (MRF) motiviert und erklärt werden. Im zweiten Teil des Kapitels wird die Problemstellung
der Schätzung“ verborgener Bildinformationen mittels MRFs erläutert. Wie diese Schätzung
”
effizient mit so genannten minimalen Schnitten durchgeführt werden kann, ist Bestandteil der
folgenden Kapitel und zentraler theoretischer Schwerpunkt dieser Arbeit.
2.1
Definition
Grundlage für die Definition von MRFs bildet eine Nachbarschaftsstruktur oder allgemeiner ein
Graph. Ein Graph besteht aus einer Knotenmenge und einer auf dieser Menge definierten Relation (Nachbarschaftsrelation, Kantenmenge):
Definition 2.1 Ein Graph1 S ist ein Tupel (V, N ) bestehend aus einer abzählbaren Menge V
und einer irreflexiven Relation N ⊆ V × V .
Ein typischer Graph in der Bildverarbeitung ist zum Beispiel Zn mit den folgenden Relationen:
def
(2.2)
def
(2.3)
N1 ={(p, q) | kp − qk2 = 1; p, q ∈ Zn }
N2 ={(p, q) | kp − qk∞ = 1; p, q ∈ Zn }.
1
Im Folgenden wird nicht der Begriff der Nachbarschaftsstruktur verwendet, da keine Symmetrie der Relation
gefordert sein soll [KR04]. Dem Leser sei hiermit dennoch empfohlen, den Begriff der Nachbarschaft und der
Nachbarschaftsstruktur damit zu assoziieren, um den direkten Bezug zur Bildverarbeitung herzustellen.
7
8
KAPITEL 2. MARKOV RANDOM FIELDS
Für n = 2 werden diese Relationen üblicherweise als 4er- und 8er-Nachbarschaft bezeichnet.
Für eine übersichtlichere Schreibweise ist es von Vorteil den Begriff der (gerichteten) Nachbarschaft eines Knoten (Punktes) zu definieren:
Definition 2.4 Die (gerichtete) Nachbarschaft N S (p) oder abkürzend N (p) eines Graphen S =
def
(V, N ) bezüglich eines Knoten p ∈ V ist auf folgende Weise definiert: N S (p) = {q | (p, q) ∈ N }.
Zugehörig zu einem speziellen Graphen lassen sich stochastische Felder betrachten:
Definition 2.5 Eine Menge {Xp | p ∈ V } heißt stochastisches Feld, allgemeiner stochastischer
Prozess oder Random Field eines Graphen S = (V, N ), wenn für alle p ∈ V : Xp eine
Zufallsvariable2 ist.
Definition 2.6 (Multiindex-Konvention)
def
Eine Einschränkung XM einer Menge {Xp | p ∈ V } ist wie folgt definiert: XM = {Xp | p ∈
V ∩ M }. Analog soll dieser Begriff für Vektoren (Xp )p∈V verwendet werden.
Die Definition eines stochastischen Feldes verlangt nicht die Unabhängigkeit der Zufallsvariablen Xp voneinander. Die Abhängigkeit der Zufallsvariablen ist ein entscheidender Aspekt.
Allgemein ist eine beliebige Zufallsvariable Xp immer von allen anderen Zufallsvariablen Xq mit
q 6= p abhängig. Um diese starke Abhängigkeit zu schwächen und die Modellierung einfacher
zu gestalten, ist es möglich zu fordern, dass eine Zufallsvariable Xp nur von ihren Nachbarn Xq
mit q ∈ N (p) abhängt und von allen anderen unabhängig ist. Diese Forderung führt zu der neuen
Definition eines Markov Random Fields:
Definition 2.7 Eine Menge {Xp | p ∈ V } heißt Markov Random Field eines Graphen S, wenn
sie ein stochastisches Feld ist und folgender Bedingung genügt:
∀p ∈ V : Pr(Xp | XV \{p} ) = Pr(Xp | XN S (p) ).
(2.8)
Anschaulich kann diese Definition in der Bildverarbeitung folgendermaßen betrachtet werden: Wenn die Zufallsvariablen Xp die Pixelwerte eines Bildes sind und der Graph wie im obigen
Beispiel eine Gitterstruktur mit der 8er Nachbarschaft darstellt, dann hängen die Pixelwerte eines
einzelnen Punktes nur von den Pixelwerten seiner Umgebung ab.
2
Auf die genaue Definition einer Zufallsvariable bezüglich eines Wahrscheinlichkeitsraumes soll an dieser Stelle
verzichtet werden.
9
2.2. SATZ VON HAMMERSLEY-CLIFFORD
Die Definition des MRF ist nichts anderes als das n-dimensionale Analogon einer einfachen
Markov-Kette. Die Abhängigkeit einer Markov-Kette wird meist bezüglich der Zeit veranschaulicht: Eine Zufallsvariable Xp ist dann nur vom vorherigen Zeitpunkt Xp−1 abhängig. Durch den
zugrunde liegenden Graphen eines MRF kann die Abhängigkeit der Zufallsvariable Xp örtlich
betrachtet werden. Xp ist durch die Markov-Einschränkung (2.8) nicht mehr global abhängig,
sondern nur lokal.
Abschließend noch zwei kleine Definitionen, welche in der Formulierung weiterer Resultate
von Vorteil sind:
Definition 2.9 Die Gibbs-Darstellung einer Verteilung Pr(X = X), ist die bijektive Transfordef
mation einer Verteilung in eine Energiefunktion EX (X) = − log(Pr(X = X)). Dabei bildet
die Funktion EX in die Menge R ∪ {∞} ab.
Bei einer Likelihood-Verteilung wird oft auch in diesem Zusammenhang von der log-Likelihood-Funktion E gesprochen. Es wurde an dieser Stelle bewusst der Begriff der Gibbs-Verteilung
vermieden, da jede beliebige Verteilung eine Gibbs-Darstellung besitzt und daher auch in diesen Sinne eine Gibbs-Verteilung ist. Die Funktion EX wird im Folgenden auch einfach als E
bezeichnet, falls der Zusammenhang zur zugehörigen Zufallsgröße eindeutig ist.
2.2
Satz von Hammersley-Clifford
Ein wichtiger und anschaulicher Begriff aus der Graphentheorie ist der Begriff der Clique in
einem Graphen:
Definition 2.10 Eine Teilmenge C ⊆ V von Knoten eines Graphen S = (V, N ) heißt Clique,
wenn ∀p ∈ C : C \ {p} ⊆ N S (p).
def
Definition 2.11 Die maximale Cliquengröße ω(S) ist definiert durch: ω(S) =
max
C ist Clique in S
]C.
Aus der Definition der Clique geht hervor, dass die leere Menge sowie jeder einzelne Knoten
Cliquen bilden. Entscheidend für die Charakterisierung von MRFs ist das folgende verblüffende
Resultat von Hammersley, Clifford aus dem Jahr 1968:
Satz 2.12 Es sei X = { Xp }p∈V ein stochastisches Feld eines Graphen S = (V, N ). Dann gilt:
X ist ein MRF ⇐⇒ Pr(X = X) ist eine Verteilung mit der Gibbs-Darstellung:
E(X) =
X
C ist eine Clique in S
EC (XC ).
(2.13)
10
KAPITEL 2. MARKOV RANDOM FIELDS
Beweis zu 2.12: Ein Beweis kann in [Pol] gefunden werden.
Die einzelnen Funktion EC in der Zerlegung (2.13) werden auch oft als Cliquen-Potentiale
bezeichnet. Durch diesen Satz kann die Maximierung der Wahrscheinlichkeit eines MRFs zu
einer Minimierung der Energiefunktion umformuliert werden. Im Folgenden wird die Schätzung
zunächst allgemein beschrieben. Wie sich Funktionen des Typs (2.13) für bestimmte Annahmen
minimieren lassen, ist Bestandteil des Abschnittes 3.4.4.
2.3
2.3.1
Schätzung mittels MRF
MAP-Schätzung
Zunächst ein paar übliche Notationen aus der Bildverarbeitung: Das Bild I ist ein (Zufalls-)
Vektor der Form ( Ip )p∈P . Die einzelnen Werte Ip repräsentieren dabei die Pixeleigenschaften
des Pixels p ∈ P wie etwa Grauwert, Farbinformationen oder andere Maße. Im Folgenden wird
mit der Notation I das Bild als Zufallsvariable betrachtet und eine Ausprägung davon mit I
bezeichnet. Die Menge P ist die Menge aller Punkte des Bildes. Weiterhin sei darauf ein Graph
S = (P, N ) definiert.
I ist im hier behandelten Kontext die Beobachtung bei einer Zustandsschätzung. Ziel ist es,
die grundlegenden Informationen des Bildes zu extrahieren. Im speziellen Fall der Segmentierung, ist dies die Einteilung des Bildes in verschiedene beschriftete (mit Zahlen von 1 bis K)
Bereiche. Jeder Pixel besitzt demnach die Information der Zugehörigkeit zu einem Bildbereich.
Sei deshalb mit L, beziehungsweise der Ausprägung L = ( Lp )p∈P mit Lp ∈ {1, . . . , K} die
Beschriftung eines Bildes dargestellt. Einzelne Werte Lp der Beschriftung werden als Label oder
Zustand bezeichnet
Ganz ähnlich zu der Modellierung bei Hidden-Markov-Modellen (siehe Zusammenhang von
MRF und Markov-Ketten) ist nur das Bild I beobachtbar. Die eigentlichen Zustände Lp des
Markov-Modells bleiben unsichtbar und müssen aus der Beobachtung und den zugrunde liegenden Abhängigkeiten geschätzt werden. Mit Abhängigkeiten sind hier die stochastischen Abhängigkeiten der einzelnen Zufallsvariablen Lp gemeint. Bei Hidden-Markov-Modellen werden
diese durch eine einfache stationäre 3 Markov-Kette als Übergangswahrscheinlichkeiten und Zustandswahrscheinlichkeiten repräsentiert. Allgemein gesehen ist dies eine Modellierung der APriori-Wahrscheinlichkeit von L.
3
stationär, homogen ⇐⇒ Übergangswahrscheinlichkeiten sind zeitunabhängig
11
2.3. SCHÄTZUNG MITTELS MRF
Die hier vorgestellte Schätzung mittels MRF ist eine MAP-Schätzung:
L̂MAP = argmax Pr(L = L | I = I) = argmax Pr(L = L , I = I) =
L
L
= argmax Pr(I = I|L = L)Pr(L = L).
(2.14)
L
Die Verteilungen Pr(I = I | L = L) und Pr(L = L) werden in diesem Kontext auch oft
als Likelihood-Verteilung beziehungsweise A-Priori-Verteilung bezeichnet. Abkürzend sollen im
weiteren Verlauf dafür die Bezeichnungen Pr(I|L) und Pr(L) verwendet werden.
2.3.2
Annahmen der Schätzung
In vielen Arbeiten der Bayesschen Bildanalyse [Win06, BVZ98a] werden folgende Modellierungsannahmen vorgenommen:
A1. Die Likelihood-Verteilung lässt sich zerlegen durch: Pr(I|L) =
Q
Pr(Ip |Lp ).
p∈P
A2. L ist ein MRF auf dem Graphen S.
Die Annahme A1 ist aber für die Praxis ungenügend (siehe Abschnitt 4 und [KTZ05]). Aus
diesem Grund soll im weiteren Verlauf anstatt 1 und 2 auch die Annahme A1’ untersucht werden:
A1’. Pr(L|I) ist ein MRF auf dem Graphen S 4
2.3.3
Vereinfachungen der Schätzung
Aus den bisher gewonnenen Erkenntnissen und Annahmen kann die Schätzung in ein entsprechendes diskretes Optimierungsproblem umformuliert werden. Es sei zunächst noch einmal die
MAP-Schätzung als Minimierung der Energiefunktion von Pr(L|I) formuliert:
L̂MAP = argmin(− log Pr(L|I)) = argmin(− log Pr(I|L) − log Pr(L)).
L
4
(2.15)
L
Genauer gesagt definiert man hier eine Zufallsvariable Y(I) abhängig vom Parameter I mit der Verteilung
Pr(L|I). Die Forderung ist daraufhiin, dass Y(I) ein MRF ist.
12
KAPITEL 2. MARKOV RANDOM FIELDS
Untersuchung von A1 und A2
Durch Annahme A2 und den Satz von Hammersley-Clifford 2.12 lässt sich − log(Pr(L)) in
die Form von Gleichung (2.13) bringen. Als Vereinfachung lässt sich für die zu minimierende
Funktion (proportional zur Energiefunktion von Pr(L|I)) E(L) schreiben:
X
E(L) = − log(Pr(I|L)) +
EC (LC ).
(2.16)
C ist eine Clique in S
Annahme A1 ergibt eine weitere Vereinfachung zu:
!
EA1,2 (L) = − log
Y
Pr(Ip |Lp )
=−
X
X
log(Pr(Ip |Lp )) +
X
p
ELikelihood
(Lp ) +
p∈P
EC (LC )
C ist eine Clique in S
p∈P
=
EC (LC )
C ist eine Clique in S
p∈P
X
X
+
EC (LC ).
(2.17)
C ist eine Clique in S
Untersuchung von A1’
Annahme A1’ ergibt hingegen eine verallgemeinerte Form:
EA1’ (L) =
X
ECI (LC ).
(2.18)
C ist eine Clique in S
In beiden Fällen bestimmt die maximale Cliquengröße ω(S) die Anzahl der Argumente der
Funktionen EC und ECI .
2.3.4
Beispiele
Es sollen im Folgenden ein paar Beispiele für die Schätzung mittels MRFs vorgestellt werden.
In diesen Beispielen wird deutlich wie die Verteilungen modelliert werden können und welche
Energiefunktionen sich daraus ergeben.
13
2.3. SCHÄTZUNG MITTELS MRF
Binäre Bildrestaurierung
Gegeben sei ein verrauschtes Binärbild. Ziel ist es, ausgehend von einer Modellierung des Rauschens und einer Modellierung der A-Priori-Bildinformation Pr(L) das Originalbild möglichst
”
gut“ zu rekonstruieren.
Die möglichen Werte der Pixel Ip sowie die Werte der Labels Lp (Pixelwerte des Originalbildes) seien −1 und 1. Analog zu [Win06] sei das Rauschen N als multiplikatives Rauschen
modelliert, welches einer Bernoulli-Verteilung unterliegt:

q
Pr(Np = v) =
1 − q
v = −1
.
(2.19)
v = +1
Die Beobachtung ergibt sich durch die komponentenweise Multiplikation von N und L:
∀p ∈ P : Ip = Np · Lp
(2.20)
Das Modell erfüllt demnach Annahme A1 und A2. Für die Likelihood-Funktion Pr(Ip |Lp )
einzelner Pixel gilt:

q
Pr(Ip |Lp ) =
1 − q
Ip = −Lp
(2.21)
Ip = Lp
Die Energiefunktion der Verteilung Pr(I|L) kann daher folgendermaßen geschrieben werden
(ein Term aus Gleichung (2.17)):
− log Pr(I|L) = −]{p | Ip = −Lp } log q − ]{p | Ip = Lp } log(1 − q).
(2.22)
Aus
1
δ(Ip = Lp ) = (Ip Lp + 1)
(2.23)
2
δ(Ip = −Lp ) = 1 − δ(Ip = Lp )
(2.24)
1
= − (Ip Lp − 1)
(2.25)
2
q
folgt unmittelbar mit der Konstante c = ]P log 1−q
, welche bei der Optimierung vernachlässigt werden kann:
14
KAPITEL 2. MARKOV RANDOM FIELDS
1
− log Pr(I|L) = − log
2
1−q
q
X
Ip Lp + c.
(2.26)
p∈P
Als A-Priori-Modell sei ein Spezialfall (homogene Gewichtung mit α > 0) des so genannten
Ising-Modells [Isi25] verwendet mit der Energiefunktion:
X
− log Pr(L) = −α
Lp L z .
(2.27)
(p,z)∈N
Anschaulich kann man sich Gleichung (2.27) als Bewertung von homogenen Flächen vorstellen. Die Energiefunktion des A-Priori-Modells hat dabei zwei mögliche Minima: L ≡ −1
und L ≡ 1. Generell liefert ein Bild mit großen zusammenhängenden homogenen Flächen eine
niedrigeren Funktionswert als ein Bild mit vielen Objektgrenzen.
Der Parameter α dient dazu, in der Praxis die Gewichtung zwischen der A-Priori-Information
und dem Einfluss der Beobachtung einzustellen. Die zu minimierende Energiefunktion EA 1,2 =
E1 (L) besitzt dann, bis auf eine additive Konstante, die folgende Form:
1
E1 (L) = − log
2
1−q
q
X
p∈P
Ip Lp − α
X
Lp L z .
(2.28)
(p,z)∈N
Diese Art von Energiefunktionen lässt sich effizient und global mit Graph-Cut-Methoden optimieren (siehe Abschnitt 3.3). Abbildung 2.1 zeigt ein Beispiel der binären Bildrestaurierung.
Das entstandene rechte restaurierte Bild ist eine MAP-Schätzung von L und wurde mit den in Kapitel 3 beschriebenen Graph-Konstruktionen und Algorithmen durchgeführt. Das dazugehörige
Programm testImageRestoration ist Bestandteil der zu dieser Arbeit gehörenden Software. Es sei abschließend darauf hingewiesen, dass für die binäre Bildrestaurierung ebenfalls
ein normaler Medianfilter angewendet werden kann, welcher ähnliche Ergebnisse liefert. Eine
theoretische Verbindung zwischen beiden Ansätzen wird in Abschnitt A.1 erläutert. Die obige
Darstellung als Anwendung von Graph-Cut dient demnach ausschließlich zur Vorstellung der
theoretischen Ergebnisse und ist für die Praxis als gering zu bezeichnen.
15
2.3. SCHÄTZUNG MITTELS MRF
Bild 2.1: Binäre Bildrestaurierung (Links) Originalbild, (Mitte) verrauschtes Originalbild,
(Rechts) MAP-Schätzung des Originalbildes mit Graph-Cut (α = 0.3, p = 0.4)
Das verallgemeinerte Potts-Modell
Das Potts-Modell kann als Verallgemeinerung des speziellen Ising-Modells (2.27) angesehen
werden. Das einfache Potts-Model
− log Pr(L) = α
X
δ(Lp 6= Lq ).
(2.29)
(p,q)∈N
ist dabei nicht auf binäre Werte von L beschränkt, sondern kann bei einer beliebigen Anzahl von Labels verwendet werden. Wie auch beim Ising-Modell wird hier die Existenz großer
homogener Flächen (bzgl. L) belohnt.
Das verallgemeinerte Potts-Modell wurde von [BVZ98a] vorgestellt. Vergleichbare Ansätze
für die Bildverarbeitung lassen sich aber bereits schon früher in den Arbeiten von Graffigne
[Gra87] finden. Wie beim ursprünglichen Ising-Modell werden hier Kanten zwischen Punkten
mit verschiedenen Labels (Grenze zwischen zwei Regionen) nicht homogen mit einer Konstante
α bewertet, sondern mit einer ortsabhängigen Gewichtung Ep,q ≥ 0:
X
Ep,q δ(Lp 6= Lq )
(2.30)
(p,q)∈N
In [BJ01b, BFL06] wird Ep,q mit einer Funktion abhängig von der Beobachtung I gewählt,
daher kann bei diesen Arbeiten Modell (2.30) nicht als A-Priori-Modell verwendet werden. Eine
Interpretation im Sinne von Annahme A1’ (Abschnitt 2.3.2) ist in diesem Fall hingegen möglich
und sinnvoll. Für eine ausführliche Beschreibung der Gewichtung aus [BJ01b, BFL06] sei an
dieser Stelle auf Abschnitt 4.1 verwiesen. Es wird sich im weiteren Verlauf der Arbeit herausstellen, dass eine Schätzung mittels MRFs mit einem verallgemeinerten Potts-Modell effizient
mit minimalen Schnitten in Graphen gelöst werden kann.
16
KAPITEL 2. MARKOV RANDOM FIELDS
Kapitel 3
Schätzung von MRF-Zuständen mit
minimalen Schnitten
Dieses Kapitel bildet den theoretischen Kern der vorliegenden Arbeit. Zunächst soll hier das Prinzip des minimalen Schnittes“ (Min-Cut, Graph-Cut) in Graphen vorgestellt werden. Ausgehend
”
von einer klar definierten Problembeschreibung werden einige Spezialfälle, Verallgemeinerungen und Zusammenhänge zu anderen Problemen der diskreten Optimierung hergestellt. Die Notation und die Darstellung der Resultate folgt dem Buch von Schrijver [Sch04]. An dieser Stelle
sei ebenfalls das Buch von Kleinberg und Tardos [KT05] empfohlen. Abschnitt 3.2 beschreibt
anschließend mögliche effiziente Algorithmen zur Bestimmung von minimalen Schnitten in Graphen.
Welche diskreten Optimierungsprobleme lassen sich mit minimalen Schnitten lösen? Diese
Frage ist der Ausgangspunkt der Arbeiten [PR75, KZ04, FD05, RK06] und entscheidend für die
Anwendung in der Bildverarbeitung. Ziel ist es, eine entsprechende Charakterisierung von Zielfunktionen zu erreichen. So kann bei einem gegebenen Optimierungsproblem der Bildverarbeitung erkannt werden, ob eine Übertragung auf das Problem eines minimalen Schnittes möglich
ist. Die Resultate dieser Arbeiten werden in Abschnitt 3.3 näher erörtert.
Ausgehend von den erarbeiteten Grundlagen aus Kapitel 2 wird weiterhin in Abschnitt 3.4
die Schätzung mittels MRFs mit dem α-Expansion-Algorithmus vorgestellt.
17
18 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
3.1
3.1.1
Minimale Schnitte in Graphen
Problemdefinition
Im Folgenden sollen gewichtete Graphen G = (V, N, w) mit der nicht-negativen Kantengewichtung w : N → R+ betrachtet werden. Diese Einschränkung auf nicht-negative Gewichte ist eine
wichtige Forderung, um im weiteren Verlauf effiziente Algorithmen zu entwickeln.
Allgemein lässt sich auf der Kantengewichtung eine Erweiterung w : P(N ) → R+ definieren (A ⊆ N ):
def
w(A) =
X
w(e).
(3.1)
e∈A
Definition 3.2 Mit ϑout (v) und ϑin (v) sei der Outdegree bzw. Indegree eines Knotens v ∈ V
bezeichnet. Diese Bezeichnung soll an dieser Stelle gleich für Knotenmengen erweitert werden:
def
1. ϑout (v) = {(v, q) ∈ N }
def
2. ϑout (A) = {(p, q) ∈ N | p ∈ A, q ∈ V \ A}
def
3. ϑin (v) = {(q, v) ∈ N }
def
4. ϑin (A) = {(q, p) ∈ N | p ∈ A, q ∈ V \ A}.
Definition 3.3 Ein s, t-Schnitt oder s, t-Cut C eines Graphen G = (V, N ) mit s, t ∈ V ist eine
Zerlegung {S, V \ S} der Knotenmenge V mit S ⊂ V , s ∈ S und t ∈ V \ S. Die Symbolik C
steht sowohl für die Zerlegung der Knotenmenge als auch für die darauf induzierte Kantenmenge
{(p, q) | p ∈ S und q ∈ V \ S}. Für die zu einem Schnitt C gehörende Knotenmenge S wird die
Bezeichnung S(C) verwendet.
Definition 3.4 Die Kosten eines s, t-Schnittes C sind gemäß der obigen Vereinbarungen mit
w(C), w(ϑout (S(C))) oder abkürzend |C| bezeichnet.
Offensichtlich gibt es im allgemeinen Fall mehrere s, t-Schnitte C, daher ist es von Interesse
den1 Schnitt zu finden, der minimale Kosten besitzt:
argmin
w(C).
(MinCut)
C ist ein s,t-Schnitt in G
1
Genauer gesagt, wird ein minimaler Schnitt gesucht, da auch das Problem des minimalen Schnittes nicht immer
eine eindeutige Lösung besitzt.
19
3.1. MINIMALE SCHNITTE IN GRAPHEN
Das Problem des minimalen Schnittes, oft als Min-Cut oder auch Graph-Cut bezeichnet,2
ist daher von den Knoten s und t abhängig und wird durch diese parametrisiert. Die Knoten s
und t werden aus diesem Grund als Terminals bezeichnet. Wichtig ist, dass die Kosten eines
Schnittes abhängig von der Richtung sind: Es werden nur Kanten von S nach V \ S gezählt. Eine
Formulierung des Problems ohne Terminals ist eine wenig sinnvolle Aufgabe und würde immer
zu der trivialen Zerlegung {V, ∅} führen.
3.1.2
Zusammenhang zur Bestimmung des maximalen Flusses
Grundlage für die folgenden Definitionen ist ein Graph G = (V, N ). Der Begriff des Flusses
eines Graphen lässt sich am besten anhand eines Rohrsystems erläutern. Jede Kante e eines Graphen repräsentiert eine Rohrverbindung mit der Kapazität w(e). Ausgehend von einem Knoten
s fließt nun Wasser zu einem Knoten t. Ein Fluss ist ein möglicher Zustand der Rohre während
solch eines Vorganges. Dabei gilt das 1. Kirchhoffsche Gesetz, welches sicherstellt, dass an Rohrverbindungsstellen (Knoten im Graphen) die Menge des hinfließenden Wassers gleich der Menge des abfließenden Wassers ist. Der Wert eines Flusses ist die transportierte Wassermenge von
Knoten s zu Knoten t in einem Zeitpunkt“. Das Rohrsystem (Graph) legt weiterhin die maxi”
male Wassermenge oder den maximalen Fluss fest, der bei solch einem Vorgang von s nach t
transportiert werden kann. Diese Beschreibung wird im Folgenden mathematisch formuliert.
Definition 3.5 Eine Abbildung f : N → R+ (Verallgemeinerung auf f : P(N ) → R+ analog
zu w) ist ein s, t-Fluss oder vereinfachend Fluss ⇐⇒
1. ∀ e ∈ N : f (e) ≥ 0
2. ∀ v ∈ V \ {s, t} : f (ϑout (v)) = f (ϑin (v)).
def
def
Definition 3.6 Der Wert eines Flusses f ist |f | = f (ϑout (s)) − f (ϑin (s)), oder |f | = f (ϑout (s))
für den hier behandelten Spezialfall mit f (ϑin (s)) = 0.
Definition 3.7 f ist zulässig bezüglich w
⇐⇒
∀ e ∈ N : f (e) ≤ w(e).
An dieser Stelle ist es schon möglich das Problem des maximalen Flusses zu definieren:
argmax
|f |.
(MaxFlow)
f ist ein zulässiger s,t-Fluss in G
2
Der Begriff Graph-Cut ist eigentlich ein allgemeinerer Begriff, da es viele verschiedene Möglichkeiten gibt
einen Schnitt in einem Graph zu definieren [SM00, GS06].
20 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
Der folgende Begriff der Überschussfunktion ist ein praktisches Werkzeug im Beweis des
Min-Cut-Max-Flow-Theorems 3.26.
Definition 3.8 Die Überschussfunktion ∆f : P(V ) → R ist definiert als:
def
∆f (U ) = f (ϑin (U )) − f (ϑout (U )).
(excess)
def
Konvention ∀ v ∈ V : ∆f (v) = ∆f ({v}).
Beispiel 3.9 Aus der Definition der Überschussfunktion ∆f folgt sofort, dass für alle Knoten v,
ausgenommen die Knoten s und t, ∆f (v) = 0 gilt.
Lemma 3.10 ∀ U ⊆ V : ∆f (U ) =
P
∆f (v).
v∈U
Beweis zu 3.10: Es sei zunächst die rechte Seite der Gleichung betrachtet:
X

X
in
out

∆f (v) =
f (ϑ (v)) − f (ϑ (v)) 
v∈U
v∈U



X
X
X






=
f
((p,
v))
−
f
((v,
p))



.
v∈U
(p,v)∈N
(3.11)
(v,p)∈N
In der letzten Summe existiert für jede Kante e ∈ N zwischen zwei Knoten x, y ∈ U der Term
f (e) und der Term −f (e) als Summand (ähnlich wie bei Teleskopsummen). Daher vereinfacht
sich die Gleichung zu:

=
X

X

v∈U
X
f ((p, v)) −
p∈V \U, (p,v)∈N
f ((v, p)) .
(3.12)
p∈V \U, (v,p)∈N
Die linke Seite der Gleichung kann durch Anwendung der Definitionen zu einem äquivalenten Ergebnis umgeformt werden:
∆f (U ) = f (ϑin (U )) − f (ϑout (U ))
X
=
f ((q, p)) −
p∈U, q∈V \U,
(q,p)∈N
X
p∈U, q∈V \U,
(p,q)∈N
f ((p, q)).
(3.13)
3.1. MINIMALE SCHNITTE IN GRAPHEN
21
Lemma 3.14 Sei f ein beliebiger zulässiger s, t-Fluss und C ein beliebiger s, t-Schnitt, dann
gilt3 :
|f | ≤ |C| = w(ϑout (S(C))).
(3.15)
Weiterhin gilt die Gleichheit bei dieser Ungleichung ⇐⇒
1. ∀ e ∈ ϑout (S(C)) : f (e) = w(e) und
2. ∀ e ∈ ϑin (S(C)) : f (e) = 0.
Beweis zu 3.14: Die Überlegung aus Beispiel 3.9 liefert:
∆f (S(C)) =
X
∆f (v) =
v∈S(C)
=
X


f (ϑin (v)) − f (ϑout (v)) + ∆f (s) =
v∈S(C)\{s}
= ∆f (s).
(3.16)
Aus dieser Überlegung folgt nahezu unmittelbar der Beweis des Lemmas:
|f | = −∆f (s)
= −∆f (S(C))
= f (ϑout (S(C))) − f (ϑin (S(C)))
≤ w(ϑout (S(C))) = |C|.
Der zweite Teil der Aussage ist aus der obigen Abschätzung ersichtlich.
(3.17)
Der Begriff des Residual-Graphen ist entscheidend für den Beweis des Satzes 3.26 sowie für
die Beschreibung der Algorithmen.
Definition 3.18 Sei e = (p, q) ∈ N eine Kante. Mit e−1 sei im Folgenden die Kante (q, p)
def
bezeichnet. Für eine Kantenmenge S ⊆ N ist weiterhin S −1 = {e−1 |e ∈ S}.
Definition 3.19 Sei f ein zulässiger Fluss. Eine Kante e ∈ G heißt gesättigt (bezüglich f ), wenn
f (e) = w(e).
3
Diese Ungleichung wird auch oft als schwache Dualität“ bezeichnet um den Zusammenhang zur linearen
”
Optimierung zu verdeutlichen.
22 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
Definition 3.20 Sei f ein zulässiger Fluss. Der Residual-Graph Df = (V, Nf ) besitzt die gleiche Knotenmenge wie G und die Kantenmenge:
def
Nf = {e | e ∈ N, f (e) < w(e)} ∪ {e−1 | e ∈ N, f (e) > 0}.
(3.21)
Lemma 3.22 Sei f ein zulässiger Fluss. Wenn der Residual-Graph Df keinen s, t-Pfad besitzt,
dann gelten für die Knotenmenge S = {x ∈ V | ∃Weg von s nach x in Df } folgende
Aussagen:
1. C mit S(C) = S ist ein minimaler Schnitt.
2. |f | = w(ϑout (S)) = |C|.
3. f ist ein maximaler Fluss.
Beweis zu 3.22: Alle Kanten an der Grenze von S müssen gesättigt sein, ansonsten wäre es
möglich S zu erweitern (Widerspruch zur Definition von S):
∀e ∈ ϑout
/ Nf
G (S) : e ∈
(3.23)
Für alle Kanten an der Grenze zu S gilt analog:
−1
∀e ∈ ϑin
∈
/ Nf
G (S) : e
(3.24)
out
in
Daraus folgt nach Definition von Nf : f (ϑout
G (S)) = w(ϑG (S)) und f (ϑG (S)) = 0). Die
obige Konstruktion von C lässt sofort erkennen, dass durch s ∈ S und t ∈ V \ S die Zerlegung
C ein Schnitt ist. Es gelten daher folgende Schlussfolgerungen analog zu Lemma 3.14:
|f | = f (ϑout (S)) − f (ϑin (S))
= w(ϑout (S))
(3.25)
Annahme: Der Schnitt C ist nicht minimal.
Dann gibt es einen Schnitt C 0 mit |C 0 | < |C|. Daraus folgt aber unmittelbar die Verletzung
von Lemma 3.14 durch |C 0 | < |f | und man erhält einen Widerspruch. Die letzte Teilaussage
folgt ebenfalls aus Lemma 3.14 und Teilaussage 1.
Der folgende Satz ist das essentielle theoretische Fundament für die effiziente Berechnung
eines minimalen Schnittes. Der Beweis wurde von Ford und Fulkerson im Jahre 1954 für ungerichtete Graphen sowie 1956 von Dantzig und Fulkerson für gerichtete Graphen geführt. Die
23
3.2. ALGORITHMEN ZUR BESTIMMUNG DES MINIMALEN SCHNITTES
konstruktive Art des Beweises liefert sofort den ersten Ansatz zur Berechnung eines maximalen
Flusses, welcher zum Algorithmus der erhöhenden“ Pfade von Dinic führt. Dieser Algorithmus
”
wird in Abschnitt 3.2.1 noch näher dargestellt.
Satz 3.26 Min-Cut=Max-Flow Theorem
ˆ = |fˆ|.
Sei fˆ eine Lösung von (MaxFlow) und Cˆ eine Lösung von (MinCut)4 . Dann gilt: |C|
Die Kosten eines minimalen Schnittes sind demnach gleich dem Wert des maximalen Flusses
(bezüglich der Terminals s und t).
Beweis zu 3.26: Sei f ein maximaler Fluss. Nach Lemma 3.14 genügt es zu zeigen, dass es einen
s, t-Schnitt C mit Kosten |f | gibt.
Annahme: Im Residual-Graph Df gibt es einen s, t-Pfad P .
Dann sei die Funktion χP wie folgt definiert:



1
e∈P


def
χP (e) = −1 e−1 ∈ P .



0
sonst
(3.27)
Diese Definition ist gültig, da man sich auf kreisfreie Pfade P beschränken kann (entweder e ∈ P
oder e−1 ∈ P ). Für geeignetes > 0 ist dann
def
f 0 = f + χP
(3.28)
wieder ein zulässiger Fluss mit |f 0 | = |f | + . Dies ist allerdings ein Widerspruch zur Maximalität von f . Es gibt demnach im Residual-Graph Df keinen s, t-Pfad. Dann kann man nach
Lemma 3.22 einen Schnitt C konstruieren mit |C| = |f |.
Bemerkung 3.29 Der Satz 3.26 ist ein Spezialfall der Dualität bei der linearen Optimierung.
Das Problem des minimalen Schnittes ist dual zum Problem des maximalen Flusses.
3.2
Algorithmen zur Bestimmung des minimalen Schnittes
Satz 3.26 zeigt, dass sich eine Berechnung des minimalen Schnittes in einem Graphen auf die Bestimmung des maximalen Flusses eines Graphen zurückführen lässt: Der Residualgraph besitzt
am Ende der Berechnung mindestens zwei Zusammenhangskomponenten. Aufgrund der nicht
4
Beide Probleme müssen keine eindeutige Lösung besitzen
24 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
gesicherten Eindeutigkeit können auch mehr als zwei Zusammenhangskomponenten entstehen.
Dadurch ergibt sich der minimale Schnitt als eine der Möglichkeiten, die Zusammenhangskomponenten in zwei entsprechende Gruppen einzuteilen.
3.2.1
Der Algorithmus von Dinic
Der Algorithmus von Dinic gehört zur Gruppe der Augmenting Path (erhöhender Pfad) Algorithmen. Diese Algorithmen verwenden die Idee des Beweises von Satz 3.26 und versuchen solange
s, t-Pfade im Residualgraphen zu finden und diese zu erhöhen, bis durch die Nichtexistenz solcher Pfade ein maximaler Fluss gefunden ist (siehe Lemma 3.22). Der Begriff erhöhen“ bedeutet
”
dabei die Aktualisierung von f im Sinne von Gleichung (3.28).
Der Algorithmus von Dinic verwendet eine Breitensuche und verarbeitet in einem Zyklus
Stück für Stück alle kürzesten Wege mit einer festen Länge k. Die Laufzeit beträgt O(mn2 ).
3.2.2
Der Algorithmus von Kolmogorov und Boykov
Der Algorithmus von Kolmogorov und Boykov [BK04] kann die asymptotische Laufzeit der
bisherigen Max-Flow-Algorithmen nicht verbessern. Der dort vorgestellte Algorithmus besitzt
sogar eine wesentlich schlechtere asymptotische Laufzeit. Es hat sich jedoch in den Experimenten von [BK04] gezeigt, dass für die Aufgaben der Bildverarbeitung dieser Algorithmus bessere
durchschnittliche empirische Laufzeiten liefert.
Grundlage für eine Beschleunigung der bisherigen Algorithmen ist die spezielle Struktur der
Graphen bei Bildverarbeitungsproblemen, welche durch Graph-Cut gelöst werden können:
1. Der Graph G ist bezogen auf die Knotenmenge V \{s, t} meist k-regulär (lokale homogene
Nachbarschaft).
2. Es existieren viele Verbindungen zu den Terminals.
Der Algorithmus von [BK04] gehört wie der Algorithmus von Dinic zu den Augmenting
Path Algorithmen. Der Algorithmus von Dinic hat bei der Anwendung auf Probleme der Bildverarbeitung ein entscheidendes Problem. In jedem Schritt müssen fast alle Pixel (Knoten) neu
verarbeitet werden, um den entsprechenden Suchbaum zu konstruieren.
Der Algorithmus von [BK04] umgeht dieses Problem, in dem von der Quelle s und von der
Senke t jeweils ein Suchbaum konstruiert wird, welcher in den nächsten Schritten der Pfadsuche
weiterverwendet werden kann. Der Algorithmus liefert eine asymptotische Worst-Case Laufzeit
von O(mn2 |C|).
25
3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT
Dinic
Boykov und Kolmogorov
Goldberg und Tarjan
O(mn2 )
O(mn2 |C|)
2
O(nm log( nm ))
Tabelle 3.2: Laufzeiten verschiedener Max-Flow Algorithmen
3.3
Diskrete Optimierung mit Graph-Cut
Ziel des folgenden Abschnittes ist es, Klassen von binären Optimierungsproblemen zu definieren, welche effizient mit minimalen Schnitten in Graphen gelöst werden können. Dabei besitzt
das Attribut effizient“ zwei Bedeutungen: polynomielle Laufzeit des Algorithmus und Optimie”
rung mit Zusicherungen für die Güte des gefundenen Optimums. Eine Charakterisierung dieser
Optimierungsprobleme lässt sich in aller Ausführlichkeit in der Arbeit [KZ04] finden. Die dort
beschriebenen Resultate und Konstruktionen sollen in diesem Abschnitt erläutert und diskutiert
werden.
3.3.1
Das Optimierungsproblem und die Funktionsklassen F 2 und F 3
Eine klare Definition der Optimierungsprobleme ist Ausgangspunkt der Untersuchung. Allgemein soll das folgende diskrete Optimierungsproblem behandelt werden:
L̂ = argmin F (L).
(BinF )
L∈{0,1}n
Die Funktion F : {0, 1}n → R ist Element einer speziellen Funktionsklasse. Folgende allgemeine Funktionsklassen werden in [KZ04] vorgestellt:
Definition 3.30 Eine Funktion5 F ist Element der Funktionsklasse F 2 ⇐⇒
F besitzt eine Darstellung6 mit Funktionen E i und E i,j der folgenden Form
n
X
(3.31)
Definition 3.32 Eine Funktion F ist Element der Funktionsklasse F 3
⇐⇒ F besitzt eine
i=1
5
6
E i (Li ) +
X
E i,j (Li , Lj ).
F (L) =
i<j
i,j∈{1,...,n}
Diese Definition ist nicht auf binäre Funktionen beschränkt.
Die Darstellung (3.31) ist nicht eindeutig.
26 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
Darstellung7 mit Funktionen E i , E i,j und E i,j,k der folgenden Form
F (L) =
n
X
E i (Li ) +
i=1
X
E i,j (Li , Lj ) +
i<j
i,j∈{1,...,n}
X
E i,j,k (Li , Lj , Lk ).
(3.33)
i<j<k
i,j,k∈{1,...,n}
Dem aufmerksamen Leser, der bereits einen Blick in Kapitel 2 und den Satz von HammersleyClifford 2.12 geworfen hat, wird die Analogie zu der Darstellung (2.13) auffallen. Tatsächlich
sind bis auf eine additive Konstante die Funktionsklassen F 2 und F 3 als Gibbs-Darstellung eines MRF mit ω(S) ≤ 2 und ω(S) ≤ 3 deutbar. Dieser Zusammenhang schlägt eine Brücke zu
der Schätzung mittels MRFs, welche in Abschnitt 3.4.4 näher erläutert wird. In den weiteren Abschnitten werden aus diesem Grund die Funktionen E i , E i,j , E i,j,k (und später allgemeiner E β )
ebenfalls als Cliquen-Potentiale bezeichnet.
3.3.2
Regularität und Graphkonstruktion für F 2
Die Minimierung allgemeiner F 2 -Funktionen ist NP-schwer. Ein Beweis dafür ist in [KZ04]
aufgeführt und in Abschnitt A.3 erläutert. Diese Tatsache ist Auslöser für eine Untersuchung
der Fragestellung, welche echten Untermengen von F 2 -Funktionen auf das Min-Cut-Problem
reduziert werden können.
Eine Verbindung zum Problem des minimalen Schnittes lässt sich bereits an der binären
Darstellung eines Schnittes C erkennen:
Definition 3.34 Sei L ∈ {0, 1}n ein binärer Vektor und G ein Graph mit V = {s, t, v1 , . . . , vn }.
Dann ist C L der Schnitt des Graphen, der durch die Zerlegung {S, T } entsteht mit:
1. s ∈ S
2. t ∈ T
3. vi ∈ S, wenn Li = 0
4. vi ∈ T , wenn Li = 1
Analog lässt sich anhand eines Schnittes in eineindeutiger Weise ein Vektor L(C) angeben.
Bemerkung 3.35 Es können auch Graphen mit mehr als n + 2 Knoten betrachtet werden. Ein
Schnitt C definiert dann zwar in eindeutiger Weise einen Vektor bzw. eine Beschriftung L(C),
7
Die Darstellung (3.33) ist ebenfalls nicht eindeutig.
27
3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT
jedoch ist die Umkehrung nicht mehr möglich. Ein Schnitt C L lässt sich dennoch, konsistent zur
obigen Definition, als Minimum aller möglichen Schnitte definieren:
CL =
argmin
|C|.
(3.36)
C ist ein Schnitt mit den Eigenschaften aus Definition 3.34
Zunächst sei die etwas umständliche Ziel-Beschreibung der Reduktion auf das Min-CutProblem formalisiert und mit einem entsprechenden Begriff versehen:
Definition 3.37 Eine Funktion F heißt graph-darstellbar ⇐⇒ Das zu F gehörende Optimierungsproblem (BinF ) lässt sich auf das Problem (MinCut) des minimalen s, t-Schnittes auf
folgende Weise zurückführen:
Zu (BinF ) gibt es einen Graph G = (V, N ) mit Knoten (Terminals) s und t sowie eine
Kantengewichtung w : N → R+ , so dass gilt:
∃κ : ∀L ∈ {0, 1}n : F (L) = |C L | + κ
(3.38)
ˆ
Da durch |C L | alle Schnitte im Graphen G dargestellt werden können, gilt : L̂ = L(C)
Wie lassen sich Funktionen aus F 2 charakterisieren, die graph-darstellbar sind? Diese Fragestellung wird durch einen Satz von [KZ04] beantwortet. Vor der Formulierung des Satzes, sei
aber zuerst der entscheidende Begriff der Regularität eingeführt und erläutert:
Definition 3.39 Eine Funktion E : {0, 1}2 → R heißt regulär oder submodular ⇐⇒
E(0, 0) + E(1, 1) ≤ E(0, 1) + E(1, 0)
(Reg2 )
Eine Funktion F ∈ F 2 sei ebenfalls als regulär bezeichnet ⇐⇒ alle Funktionen E i,j einer
F 2 -Darstellung sind regulär.
Beispiel 3.40 Die einzelnen Summanden des Ising-Modells (2.27) sind regulär (α ≥ 0):
E(0, 1) + E(1, 0) = −α − α ≤ α + α = E(0, 0) + E(1, 1)
Satz 3.42 Die Summe von zwei graph-darstellbaren Funktionen ist wieder graph-darstellbar.
Beweis zu 3.42: Siehe Anhang von [KZ04].
28 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
⇐⇒
Satz 3.43 F is graph-darstellbar
regulär.
Jeder Term E i,j in der Darstellung (3.31) von F ist
Bemerkung 3.44 Es sei bemerkt, dass die Darstellung einer Funktion F in der Form (3.31)
nicht eindeutig ist, die Regularität davon aber nicht beeinflusst wird.
Die Terme E i (Li ) können zum Beispiel komplett in die Terme E i,j (Li , Lj ) einfließen:
X
i
i
E (Li ) +
X
i,j
E (Li , Lj ) =
i<j
X
i<j
=
X
1
1
i
j
E (Li , Lj ) +
E (Li ) +
E (Lj )
n−i−1
j−1
i,j
Ẽ i,j (Li , Lj )
i<j
Die Regularität ist aber invariant bezüglich der Änderung der Darstellung (3.31):
Ẽ i,j (0, 0) + Ẽ i,j (1, 1) = E i,j (0, 0) + E i,j (1, 1) +
+
1
E i (0) + E i (1) +
n−i−1
1
E j (0) + E j (1)
j−1
≤ E i,j (0, 1) + E i,j (1, 0) + . . .
= Ẽ i,j (0, 1) + Ẽ i,j (1, 0)
Beweis zu 3.43: Die Rückrichtung soll anhand einer Konstruktion des entsprechenden Graphen
gezeigt werden. In Folge der konstruktiven Art des Beweises ist damit implizit auch ein Algorithmus beschrieben, welcher reguläre F 2 -Funktionen minimiert. Die andere Richtung wird später
allgemeiner bewiesen durch Satz 3.53. Für einen formaleren Beweis des Satzes sei auf Satz (1.8)
im Anhang verwiesen.
Durch Satz 3.42 ist es möglich, die Konstruktion des Graphen für die einzelnen Summanden
getrennt vorzunehmen und danach den Gesamtgraphen zusammenzusetzen. Dabei werden die
Kanten zu einer Kantenmenge vereinigt und die Kantengewichte bei gleichen Kanten summiert
def
8
Sei mit V = {s, t, v1 , . . . , vn } die Knotenmenge des Graphen bezeichnet. Wichtig bei der
Konstruktion ist die Sicherstellung von nicht-negativen Kantengewichten.
Konstruktion von E i : Ein Term E i entspricht den Kosten für Zuweisung von Li zu den
einzelnen Klassen 0 (symbolisiert durch Terminal s) und 1 (Terminal t) ohne Beachtung der
Abhängigkeiten zu den anderen Komponenten von L. Für jeden Term E i wird daher eine Kante
8
Satz 3.42 sichert eigentlich nur die Aussage des Satzes, aber nicht, dass der zusammengesetzte Graph wirklich
eine geeignete Konstruktion des Gesamtproblems ist.
29
3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT
Bild 3.1: Konstruktion des Graphen für F 2 Funktionen mit den verwendeten Abkürzungen aus
Tabelle (3.45) (Quelle [KZ04])
e zu einem Terminal hinzugefügt. Bei E i (1) − E i (0) ≥ 0 ergibt sich die Kante e = (s, vi ) mit
Gewicht E i (1) − E i (0) (Abbildung 3.1 a). Ansonsten wird die Verbindung e von Knoten vi zu
Terminal t mit Gewicht E i (0) − E i (1) gesetzt (Abbildung 3.1 b). Diese Konstruktion findet auf
folgende Weise ihre plausible Begründung: Die Bedingung E i (1) − E i (0) ≥ 0 bedeutet, dass die
Kosten für die Zuweisung von Li zu Klasse 0 (Terminal s) größer sind als bei Klasse 1. Wenn
nach der Optimierung Li mit 1 belegt ist, gehört die Kante e zum minimalen Schnitt, da die
Knoten vi und s getrennt werden. Die zusätzlichen“ Kosten der Zuweisung von Li zu Klasse 0
”
werden demnach beim Optimalwert berücksichtigt.
Konstruktion von E i,j :
Für die Konstruktion des Graphen dienen folgende Abkürzungen:
E i,j (0, 0) E i,j (0, 1)
E i,j (1, 0) E i,j (1, 1)
!
=
A B
C D
!
(3.45)
30 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
Term
Ei
Bedingung
E (1) − E i (0) ≥ 0
E i (1) − E i (0) ≤ 0
i
E i,j
E i,j
C −A≥0
C −A≤0
C −D ≥0
C −D ≤0
Kante
Gewicht
i
(s, vi )
E (1) − E i (0)
(vi , t)
E i (0) − E i (1)
(vi , vj ) B + C − A − D
(s, vi )
C −A
(vi , t)
A−C
(vj , t)
C −D
(s, vj )
D−C
Tabelle 3.4: Übersicht über die Graph-Konstruktion für reguläre F 2 -Funktionen
Die Funktion E i,j lässt sich in die folgenden additiven Bestandteile zerlegen:
D+
A−C A−C
0
0
!
+
C −D 0
C −D 0
!
+
0 B+C −A−D
0
0
!
(3.46)
Der erste Summand wird bei der Konstruktion vernachlässigt, da es sich nur um eine additive
Konstante handelt. Die beiden folgenden Summanden hängen von einer einzigen Variable ab und
können daher analog zu den E i Termen konstruiert werden. Die Kosten B + C − A − D zählen
nur, bei einer Zuordnung von Knoten vi zu Terminal s und von Knoten vj zu Terminal t. Daher
kann der letzte Summand in der Zerlegung (3.46) durch eine Kante e = (vi , vj ) mit Gewicht
w(e) = B + C − A − D repräsentiert werden (Abbildung 3.1 c,d). Die Nicht-Negativität dieser
Kante ist durch die Regularitätsbedingung (Reg2 ) sichergestellt.
Bemerkung 3.47 An der Zerlegung von E i,j in Gleichung (3.46) lassen sich auch prinzipielle
Einschränkungen des Modells erkennen. Die Darstellung der Funktionen E i,j lässt sich immer
auf folgendes Modell reduzieren:

E
i,j
E i,j (Li , Lj ) =
0
Lj > L i
(3.48)
sonst
Diese Darstellung sei im Folgenden als gerichtetes Potts-Modell bezeichnet.
Die Abbildungen 3.3 und 3.2 zeigen ein einfaches Beispiel für die Segmentierung mit GraphCut. Dieses Beispiel soll die Ähnlichkeit von Segmentierungsproblemen und dem Min-CutProblem offenlegen. Ziel ist es, das Originalbild in 3.3 zu segmentieren. Der konstruierte Graph 3.2
enthält Kanten zwischen Pixelknoten (Knoten im Graphen, die einem Pixel im Bild entsprechen)
3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT
31
Bild 3.2: Schema der Konstruktion des Graphen für das Beispielbild 3.3 und Darstellung des
minimalen Schnittes
und den Terminals um die Kosten einzelner Pixel zu kodieren (E i ). Die Kantengewichte zwischen zwei Pixelknoten werden hingegen entsprechend der Funktionen E i,j belegt. Für diese
beispielhafte Darstellung wird das Potts-Modell verwendet und E i,j so gewählt, dass bei geringen Grauwertdifferenzen |Ii − Ij | hohe Kosten in der Zielfunktion entstehen9 . Weiterhin soll
die linke obere (bzw. rechte untere) Ecke des 9 Pixel großen Bildes mit hohen Kosten für den
Vordergrund (bzw. Hintergrund) belegt werden. Bei der anschließenden Optimierung wird daher eine optimale Kante zwischen den gegenüberliegenden Ecken gefunden. Eine allgemeinere
Darstellung des Zusammenhangs zur Segmentierung befindet sich in Abschnitt 3.4.4.
3.3.3
Vollständige Charakterisierung
Der Begriff der Regularität kann wie folgt erweitert werden:
Definition 3.49 Sei α eine Indexmenge mit α ⊆ {1, . . . , n}. Für eine feste Belegung Lfix = Lα
9
Ein Beispiel für eine solche Wahl von E i,j ist die Festlegung von Gleichung 4.3 in Abschnitt 4.1.3.
32 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
Bild 3.3: (Links) Originalbild, (Rechts) Segmentierung aufgrund des minimalen Schnittes in
Abbildung 3.2
def
α
α
(B) = F (L) mit
: {0, 1}n−]α → R gegeben durch: Fproj
ist die Projektion Fproj

Lfix
def
γ(i)
Li =
B
τ (i)
i∈α
(3.50)
sonst
und entsprechenden Funktionen γ und τ für die Zuordnung der Indizes.
Definition 3.51 Sei F : {0, 1}n → R eine Funktion.
1. Für n = 1 (nur ein Argument) ist jede Funktion F regulär.
2. Für n = 2 ist die Funktion F regulär, wenn sie die Bedingung (Reg2 ) erfüllt.
3. Für n > 2 ist die Funktion F regulär ⇐⇒ jede Projektion von F mit zwei Argumenten
ist regulär.
Bemerkung 3.52 Es ist nicht sofort offensichtlich, dass diese Definition wirklich eine Erweiterung von Definition 3.39 darstellt. Grundlage für die Definition 3.39 bildete die entsprechende
Darstellung als Summe von E i und E i,j . Die obige Charakterisierung ist hingegen direkt unabhängig von der Darstellung. Wie in Bemerkung 3.44 bereits schon erwähnt, ist der Begriff
der Regularität 3.39 ebenfalls vollständig von der Darstellung (3.31) unabhängig. Ein genauer Beweis für diesen Sachverhalt und der Äquivalenz der beiden Definitionen befindet sich in
[KZ04].
Der folgende Satz ist ein Resultat aus [KZ04]:
Satz 3.53 Jede graph-darstellbare Funktion ist regulär.
3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT
33
Beweis zu 3.53: Siehe [KZ04].
Eine Verallgemeinerung der Definitionen 3.30 und 3.32 ist nahe liegend und wird in der Arbeit [FD05] für eine vollständige Charakterisierung der graph-darstellbaren Funktionen verwendet. Damit ist [FD05] eine direkte Erweiterung der Ausführungen von [KZ04]. Zur Definition
der Klasse F k soll die Multiindex-Konvention 2.6 aus Abschnitt 2.1 verwendet werden:
Definition 3.54 Eine Funktion F ist Element der Funktionsklasse F k ⇐⇒ F besitzt eine
Darstellung mit Funktionen E β (β ⊆ {1, . . . , n}, ]β ≤ k) der folgenden Form:
X
F (L) =
E β (Lβ ).
(3.55)
β⊆{1,...,n}
]β≤k
Ziel der Arbeit [FD05] ist es erneut eine Charakterisierung der Klasse der graph-darstellbaren
Funktionen vorzunehmen. Folgendes Resultat kann für die Klasse F k aufgestellt werden:
Satz 3.56 Die Mengen α und β seien Indexmengen mit α, β ⊆ {1, . . . , n} Weiterhin sei für eine
beliebige binäre Funktion F mit n-Argumenten die Notation Fβ mit Fβ = F (L) und (Li =
1 ⇐⇒ i ∈ β) erklärt.
Wenn eine Funktion F ∈ F k die Bedingung
∀α, 2 ≤ ]α ≤ k :
X
(−1)]α−]β Fβ ≤ 0
(FReg)
β⊆α
erfüllt, dann ist sie graph-darstellbar.
Beweis zu 3.56: Siehe [FD05].
Bemerkung 3.57 Die Bedingung (FReg) reduziert sich für k = 2 und k = 3 auf die Regularitätsbedingung 3.51.
3.3.4
Der Zusammenhang zu submodularen Funktionen
Als Einstieg sei gleich die Definition einer submodularen Funktion gegeben:
Definition 3.58 Eine (Mengen-)Funktion f : P(U) → R ist submodular 10 ⇐⇒
∀A, B ⊆ U : f (A ∪ B) + f (A ∩ B) ≤ f (A) + f (B)
10
(SubMod)
Analog lassen sich die Begriffe supermodular (≥) und modular (=) mit einer entsprechenden Änderung der
Relation in Bedingung SubMod definieren.
34 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
Der Zusammenhang von Mengenfunktionen f und binären Funktionen F kann in folgender
Weise dargestellt werden:
Sei M eine endliche Menge mit n Elementen xi für 1 ≤ i ≤ n. Für jede Mengenfunktion
def
f : P(U) → R kann eine entsprechende binäre Funktion Ff mit Ff (χA ) = f (A) definiert werden. χA ist eine Schreibweise der charakteristischen Funktion von A als binärer Vektor. Diese
Zuordnung ist bijektiv, denn zu jeder binären Funktion F kann in analoger Weise eine Mengenfunktion fF deklariert werden. Diese Bijektivität liegt in der Äquivalenz der Darstellung einer
Menge in Mengenschreibweise und als charakteristische Funktion begründet. Aus diesem Grund
sei im Folgenden der Begriff der Submodularität (SubMod) und Regularität 3.51 für binäre Funktionen und Mengenfunktionen gleichermaßen verwendet.
Eine Bemermerkung über den Zusammenhang zwischen submodularen Funktionen und graphdarstellbaren Funktionen findet sich bereits in [KZ04]. Schon in der Arbeit von Cunningham
[Cun85] konnte gezeigt werden, dass das Problem des minimalen Schnittes (MinCut) als Minimierung einer submodularen Funktion umformuliert werden kann.
Satz 3.59 Jede submodulare Funktion f ist regulär im Sinne von Definition 3.51.
Beweis zu 3.59: Die Übertragung, bezüglich der obigen Beschreibung der bijektiven Zuordnung
zwischen Mengenfunktionen und binären Funktionen, der Definition 3.39 führt zu der folgenden
Bedingung:
∀x, y ∈ M, x 6= y ∀D ⊆ M \ {x, y} :
f (D) + f (D ∪ {x, y}) ≤ f (D ∪ {x}) + f (D ∪ {y})
(3.60)
Es bleibt also zu zeigen, dass submodulare Funktionen f die Bedingung (3.60) erfüllen. Seien
def
def
D, x, y so gewählt wie es Bedingung (3.60) vorschreibt. Mit A = D ∪ {x} und B = D ∪ {y}
folgt unmittelbar:
f (A ∪ B) = f (D ∪ {x, y})
(3.61)
f (A ∩ B) = f (D)
(3.62)
Damit folgt aus der Submodularität (SubMod) mit A, B die Regularitätsforderung (3.60). Satz 3.63 Jede reguläre Funktion f im Sinne von Bedingung 3.51 ist submodular.
3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT
35
Literatur
Resultate
Funktionsklasse
[Cun85, PR75] graph-darstellbare Funktionen sind submodulare
submodular
Funktionen, cut
”
functions“
F 2 -regulär ⊂ F 3 -regulär ⊆ graph- reguläre Funktio[KZ04]
darstellbar ⊆ regulär = submodular nen
Satz 3.56
F k -Funktionen
[FD05]
mit der Eigenschaft (FReg)
Tabelle 3.6: Literaturverweise: Charakterisierung der graph-darstellbaren Funktionen
Beweis zu 3.63: Zu zeigen ist, dass aus der Bedingung (3.60) die Submodularität der Funktion f
folgt. In [KZ04] wird die Bedingung (3.60) als alternative Charakterisierung der Submodularität
angeführt. Daraus folgt unmittelbar der Beweis des Satzes.
Korrolar 3.64 Die Begriffe regulär und submodular sind äquivalent.
Die Kriterien der Graph-Darstellbarkeit sind demnach vielfältig und fallen bei den Fällen F 2
und F 3 komplett zusammen. Abbildung 3.4 versucht diese Zusammenhänge zu verdeutlichen.
In Tabelle 3.6 werden noch einmal die Literaturverweise mit den entsprechenden Resultaten
dargestellt.
Bild 3.4: Darstellungen der Beziehungen der einzelnen Funktionsklassen: (Links) für F k Funktionen, (Rechts) für die Spezialfälle F 2 und F 3 . Die Freedman-Drineas Bedingung verweist
auf die hinreichende Bedingung (FReg) von [FD05].
36 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
3.4
α-Expansion-Algorithmus
Bisher wurden Resultate vorgestellt, welche es ermöglichen, das binäre Optimierungsproblem
(BinF ) für Funktionen mit gewissen Einschränkungen (Regularität, F k ) zu lösen. Übertragen
auf die Zuweisung zu bestimmten Klassen wurden daher nur Zweiklassen-Probleme gelöst. Bei
der ursprünglichen Zielsetzung der Schätzung mittels MRFs wird aber die Einteilung in K unterschiedliche Klassen benötigt (siehe Abschnitt 2.3.1):
L̂ = argmin F (L)
l∈{1,...,K}n
(OptF )
Ein Ansatz mit Blick auf die bisherige Vorgehensweise wäre es, wieder zusätzliche Einschränkungen für die Zielfunktionen zu suchen, so dass auch dieses nicht-binäre Problem auf
das Problem des minimalen Schnittes zurückgeführt werden kann. Die Arbeiten von Ishikawa et
al. [IG98, IG99, Ish03] verfolgen diese Idee und gelangen zu einer Funktionsklasse K ⊂ F 2 .
i,j
Diese Funktionsklasse beinhaltet alle Funktionen mit konvexen11 Cliquen-Potentialen EK
der
Form:
def
i,j
E i,j (Li , Lj ) = EK
(Li − Lj )
(3.65)
Diese Funktionsklasse schränkt die Modellierung stark ein. So genügt zum Beispiel das PottsModell (2.29) nicht diesen Bedingungen.
Eine weitere Ansatzmöglichkeit ist die Erweiterung des Min-Cut-Problems (MinCut) auf
ein ähnliches Problem mit mehr als zwei Terminals. Diese Formulierung wird als Minimum”
Multiway-Cut“ bezeichnet. Die Minimierung ist für beliebige Graphen leider NP-schwer [DJP*94].
Die Suche nach einem exakten Algorithmus, welcher in polynomieller Zeit läuft, kann daher optimistischeren Forschern überlassen werden.
In der Bildverarbeitung ist die Suche nach exakten“ Algorithmen oft gar nicht wesent”
lich. Typische Einschränkungen bei Anwendungen sind der Informationsverlust des Aufnahmeprozesses, gravierende Modellannahmen und häufig auftretende Problemformulierungen, die
aufgrund ihrer Komplexität generell nicht exakt gestellt werden können. Daher sind ohne Beschränkung der Allgemeinheit, die Auswirkungen der Approximation bei der Optimierung im
Gegensatz zu anderen Einflüssen vernachlässigbar.
Die Arbeiten [Vek99, BVZ99a] stellen daher ein Algorithmus vor, welcher nicht immer das
globale Optimum berechnet, sondern eine Art lokales Optimum. Dabei erfolgt die Berechnung
11
Die Konvexität beschränkt sich bei Funktionen g : N → R auf ∀x ∈ N : g(x + 1) − 2g(x) + g(x − 1) ≥ 0.
3.4. ALPHA-EXPANSION-ALGORITHMUS
37
Bild 3.5: Auswirkungen einer Iteration des α-Expansion-Algorithmus (α-Erweiterungsschritt)
am Beispiel der Klasse der weißen Pixel [KZ04].
der Lösung auf iterative Weise. Ein Teil des Gesamtproblems wird in jeder Iteration auf ein
binäres Problem abgebildet und mit den üblichen Algorithmen (siehe Abschnitt 3.2) gelöst.
3.4.1
Beschreibung des Algorithmus
Ziel soll es sein, Probleme der Form (OptF ) zu lösen. In Abschnitt 3.4.3 wird anschließend
gezeigt, welche Bedingungen dabei an die Zielfunktion geknüpft werden müssen.
Anschaulich geht der Algorithmus folgendermaßen vor: Am Anfang ist eine Startlösung
L = L(0) gegeben. In jeder Iteration wird nun ein Label α fest gewählt. Alle Komponenten
(Punkte) von L, welche bereits mit α beschriftet sind, werden in der aktuellen Iteration nicht
geändert. Ziel der Iteration ist es, für alle anderen Komponenten (Punkte) von L folgende binäre
Entscheidungsfrage zu lösen:
Soll die aktuelle Beschriftung der Komponente geändert und auf α gesetzt werden ?
Dies führt zu einer Erweiterung (Expansion) der Klasse α. Ein Beispiel für die Auswirkungen
einer Iteration ist in Abbildung 3.5 dargestellt.
Grundlage für die mathematische Formulierung bilden so genannte zulässige Schritte im
def
Raum SK = {1, . . . , K}n . Diese definieren eine Umgebung U (L) eines Vektor L ∈ SK . In
jeder Iteration kann durch Übertragung auf das schon anschaulich beschriebene binäre Problem
ein Minimum in einer Umgebung gefunden werden. Es ist möglich, dieses Verfahren als eine Art dynamische lokale Suche in einem Graphen zu betrachtet. Die Arbeiten [Vek99, KT05]
bezeichnen es direkt als Spezialfall der üblichen lokalen Suche. Ausgehend von den direkten
Beschreibungen des Algorithmus in [BVZ99a, SZS*06] sei aber darauf hingewiesen, dass der
konkrete Ablauf nicht direkt dem Konzept der Lokalen Suche“ entspricht. Dieser Unterschied
”
wird nach der Beschreibung des Algorithmus deutlich.
In [Vek99, BVZ99a] wurden zwei unterschiedliche Konzepte (α-Expansion und α, β-Swap)
38 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
für zulässige Schritte definiert und getestet, von denen an dieser Stelle nur das empirisch beste
Konzept der α-Expansion vorgestellt werden soll:
Definition 3.66 Ein Schritt im Raum SK ist ein Paar (L1 , L2 ) mit L1 , L2 ∈ SK .
(L1 , L2 ) ist ein zulässiger α-Erweiterungsschritt ⇐⇒
∀i ∈ {1, . . . , n} : (L2i = L1i ) ∨ (L2i = α).
(3.67)
Die Menge der durch diese zulässigen Schritte definierten Vektoren L2 definieren eine Umgebung
U α (L1 ).
Der bereits skizzierte Ablauf des Algorithmus kann jetzt exakt formuliert werden: In jeder
Iteration k erfolgt die Auswahl eines festen Label α(k). Ausgehend von dieser Wahl wird das
folgende allgemeine Teilproblem gelöst:
L(k+1) =
argmin
F (L).
(3.68)
L ∈ U α(k) (L(k) )
Durch die Wahl der Umgebung kann das Problem folgendermaßen als binäres Problem beschrieben werden: Zunächst ist durch die aktuelle Beschriftung L(k) und die Wahl des Labels
α(k) die Zielfunktion in der passenden Umgebung nur noch von einem binären Vektor B abhängig.
Dieser kodiert die Information, ob ein Punkt seine Beschriftung beibehält oder die Beschriftung
auf α gesetzt wird. Daher lässt sich für die neue binäre Zielfunktion Ekbin schreiben:
def
Ekbin (B) = F (L(B))
(3.69)

α(k) B = 1
i
def
Li (B) =
.
(k)
L
Bi = 0
i
(3.70)
mit
Nicht jeder binäre Vektor B kodiert hingegen einen zulässigen Nachbarn“ von L(k) . Es gilt
”
(k)
die Einschränkung: ∀i mit Li = α(k) : Bi = 1. Alle bisherigen α-Beschriftungen werden
dadurch fixiert. Durch diese Festlegung ergibt sich folgendes binäre Teilproblem:
L(k+1) = Γ (L(k) ,
argmin
B∈{0,1}n
(k)
∀Li =α(k):Bi =1
Ekbin (B)).
(Subα )
39
3.4. ALPHA-EXPANSION-ALGORITHMUS
Die Funktion Γ dient dazu, die Information des binären Vektors B zu dekodieren“ und es
”
gilt
def
Γ (L(k) , B) = L(B)
(3.71)
mit der Festlegung von L(B) durch Gleichung (3.70).
Das in die Gleichung (Subα ) eingebettete Optimierungsproblem ist ein bekanntes Optimierungsproblem der Form (BinF ), welches unter den beschriebenen Anforderungen auf das Problem des minimalen Schnittes in einem Graphen reduziert werden kann. Die Übertragung dieser Anforderungen auf die Zielfunktion F werden im Abschnitt 3.4.3 näher untersucht. Weiterhin führt die zusätzliche Nebenbedingung lediglich auf eine Minimierung einer Projektion von
def
E = Ekbin :
ω
argmin E(B) = argmin Eproj
(B̃)
B∈{0,1}n
∀i∈ω:Bi =1
(3.72)
B̃∈{0,1}n−]ω
def
(k)
Die Indexmenge ω umfasst alle fixierten Komponenten: ω = ω(k) = {i | Li
fixierte Vektor der Projektion ist Bω ≡ 1.
= α(k)}. Der
Es gibt verschiedene Möglichkeiten die Funktion α(k) und damit die Wahl des fixierten Labels vorzunehmen. In den Arbeiten [Vek99, BVZ99b, BVZ01] wird vorgeschlagen, alle möglichen Labels nacheinander durch eine Iteration abzuarbeiten. Solch ein Zyklus wird dann solange
wiederholt, bis eine weitere Minimierung des Funktionswertes von F nicht mehr möglich ist. Die
Reihenfolge der Labels in einem Zyklus kann eine zu Beginn des Zyklus zufällig gewählte Permutation sein. In bisher bekannten Beschreibungen des α-Expansion-Algorithmus sind weitere
Details ausgespart. Der Algorithmus ist diesbezüglich noch einmal in der Pseudocodebeschreibung 3.1 zusammengefasst und richtet sich nach der konkreten Implementierung von Olga Veksler, auf die in der Arbeit [SZS*06] verwiesen wird. Der genaue Ablauf zeigt den Unterschied zur
Lokalen Suche“: Die Nachbarschaft einer Beschriftung hängt explizit vom ausgewählten fixier”
ten Label α(k) ab. Sie ist daher vom genauen Weg der Suche abhängig. Dies steht im Kontrast
zu der fixierten Nachbarschaft bei der üblichen Lokalen Suche“.
”
3.4.2
Eigenschaften des Algorithmus
Die Terminierung des Algorithmus ist aus folgenden Gründen gesichert. Die Zielfunktion F ist
auf der Menge SK offensichtlich nach unten beschränkt, da die Menge SK endlich ist. Da in
jedem erfolgreichen Zyklus der Zielfunktionswert reduziert wird : F (L(k) ) < Fold , können nur
endlich viele Zyklen durchlaufen werden. Unter ein paar zusätzlichen Annahmen ist es sogar
40 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
Pseudocode 3.1: α-Expansion-Algorithmus
Waehle eine Anfangsbeschriftung L(0)
k := 0
Fold := ∞
do
success := 0
π = Zufaellige oder fest gewaehlte Permutation von {1, . . . , K}
for i := 1 . . . K do
α := π(i)
L(k+1) = Loesung des Unterproblems (Subα )
k := k + 1
end
if F (L(k) ) < Fold then
success := 1
Fold := F (L(k) )
end
while ( success and k < maxIterations )
möglich, die Terminierung in O(n) Zyklen zu beweisen [Vek99].
Der α-Expansion-Algorithmus erzeugt, wie bereits angesprochen, nicht notwendigerweise ein globales Minimum. Der Algorithmus liefert hingegen immer ein Art lokales Minimum
bezüglich der möglichen α-Expansionsschritte. Eine wichtige Fragestellung in diesem Zusammenhang ist die Entfernung“ des Resultates des Algorithmus vom globalen Minimum. Dies
”
mündet in der so genannten Approximationsgüte (relative approximation):
Satz 3.73 Sei L̂ das globale Minimum von F ∈ F 2 , L das Resultat des α-Expansion-Algorithmus
und o.B.d.A. F (L̂) ≥ 0. Dann gilt folgende Abschätzung:

F (L̂) ≤ F (L) ≤ 2 max
i,j
max E i,j (α, β)

min E i,j (α, β)
 F (L̂)
α6=β
(3.74)
α6=β
Beweis zu 3.73: Siehe Veksler [Vek99] (Originalarbeit) oder Kleinberg und Tardos [KT05]. Korrolar 3.75 Sei L̂ das globale Minimum von F ∈ F 2 mit F (L̂) ≥ 0 und L das Resultat
des α-Expansion-Algorithmus. Dann gilt für das verallgemeinerte Potts-Modell E i,j (Li , Lj ) =
Ei,j δ(Li 6= Lj ) mit Ei,j ≥ 0:
F (L̂) ≤ F (L) ≤ 2F (L̂)
(3.76)
Beweis zu 3.75: Es gilt:
max E i,j (α, β) = min E i,j (α, β)
α6=β
α6=β
und nach Satz 3.73 folgt sofort Aussage (3.76).
41
3.4. ALPHA-EXPANSION-ALGORITHMUS
3.4.3
Anforderungen an die Zielfunktion bei F ∈ F 2
In Abschnitt 3.3 wurden die Anforderungen an eine binäre Funktion untersucht, so dass diese
mit einer Reduzierung auf das Problem des minimalen Schnittes optimiert werden kann. Im
Folgenden seien Funktionen F : SK → R aus F 2 betrachtet:
F (L) =
n
X
X
F i (Li ) +
i=1
F i,j (Li , Lj )
i<j
i,j∈{1,...,n}
Die in jeder Iteration des α-Expansion-Algorithmus auftretende Zielfunktion des binären
def
ω
. Die Definition von E induziert die folgende Darstellung der
Teilproblem (Subα ) sei E = Eproj
Funktion mit L(B) nach Gleichung 3.70:
E(B) =
X
F i (α) +
i∈ω
+
X
F i (Li (B))+
i∈ω
/
X
F (α, α) +
i<j, i∈ω, j∈ω
+
X
i,j
X
F i,j (Li (B), α)+
i<j, i∈ω,
/ j∈ω
X
F i,j (α, Lj (B)) +
i<j, i∈ω, j ∈ω
/
F i,j (Li (B), Lj (B))
(3.79)
i<j, i∈ω,
/ j ∈ω
/
Die Funktion E besitzt daher ebenfalls eine F 2 -Darstellung mit i, j ∈
/ ω:
E(B) =
X
E i (B) +
i
X
E i,j (Bi , Bj ) + C
i<j
und
E i,j (Bi , Bj ) = F i,j (Li (B), Lj (B))
i
i
E (Bi ) = F (Li (B)) +
n
X
i,j
F (Li (B), α) +
j=i+1
C=
X
i∈ω
F i (α) +
X
i−1
X
F j,i (α, Li (B))
j=1
F i,j (α, α).
i<j, i∈ω, j∈ω
C ist eine von B unabhängige Konstante und kann daher bei der Optimierung vernachlässigt
werden. Um die Minimierung in einer Iteration durchzuführen, muss die Funktion E regulär
42 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
sein:
∀i, j ∈ ω : E i,j (0, 0) + E i,j (1, 1) ≤ E i,j (0, 1) + E i,j (1, 0).
(3.81)
Diese Bedingung überträgt sich auf F in folgender Weise:
(k)
(k)
∀i, j mit Li 6= α 6= Lj :
(k)
(k)
(k)
(k)
F i,j (Li , Lj ) + F i,j (α, α) ≤ F i,j (Li , α) + F i,j (α, Lj )
(3.82)
Damit wird aber nur die Regularität in einer Iteration für ein spezielles L(k) gefordert. Ein
notwendiges12 Kriterium für die Regularität in einer beliebigen Iteration ist daraufhin im folgenden Satz dargestellt.
Satz 3.83 Sei F : SK → R die Zielfunktion des Problems (OptF ) und F ∈ F 2 . Wenn für alle
Funktionen F i,j aus der F 2 -Darstellung von F folgende Bedingung erfüllt ist:
∀α, β, γ mit β 6= α 6= γ : F i,j (β, γ) + F i,j (α, α) ≤ F i,j (β, α) + F i,j (α, γ)
(3.84)
dann lässt sich die Funktion F mit dem α-Expansion-Algorithmus minimieren und es gelten
die in Abschnitt 3.4.2 angeführten Eigenschaften des gefundenen (lokalen) Optimums.
Beispiel 3.85 Das verallgemeinerte Potts-Modell mit Ei,j ≥ 0 (siehe Abschnitt 2.3.4) genügt der
Bedingung (3.84):
F i,j (β, α) = F i,j (α, γ) = Ei,j
(3.86)
F i,j (α, α) = 0
(3.87)
F i,j (β, γ) = Ei,j δ(β 6= γ).
(3.88)
Daraus folgt unmittelbar:
Ei,j δ(β 6= γ) + 0 ≤ Ei,j + Ei,j
3.4.4
(3.89)
Beziehung zur Schätzung von MRF-Zuständen
Die Beziehung der besprochenen Optimierungsprobleme zur Schätzung von MRF-Zuständen
(siehe Kapitel 2) lässt sich ziemlich schnell erkennen. Die zu minimierende Zielfunktion E bei
Dieses Kriterium kann nur als notwendig bezeichnet werden, da L(k) beliebig ist aber nicht zwangsweise jede
Komponente während des Algorithmus jedes mögliche Label annehmen muss.
12
43
3.4. ALPHA-EXPANSION-ALGORITHMUS
der MAP-Schätzung (siehe Gleichung (2.16), Abschnitt 2.3.3) hat im allgemeinen Fall (Annahme A1’) die Form:
E(L) =
X
ECI (LC ).
(3.90)
C ist eine Clique in S
Aus dieser Darstellung lässt sich erkennen, dass E zur Funktionsklasse F ω(S) gehört. Bei der
4er-Nachbarschaft (siehe Abschnitt 2.1) genügt daher eine Betrachtung von F 2 -Funktionen mit
der ursprünglichen Definition der Regularität 3.39:
E(L) =
X
i
E i (Li ) +
X
E i,j (Li , Lj )
(3.91)
(i,j)∈N
Die Anforderungen an die einzelnen Summanden E i,j übertragen sich damit auf natürliche
Weise auf die Cliquenpotentiale ECI 13 .
Bei einem Übergang von der 4er-Nachbarschaft auf die 8er Nachbarschaft ist es bereits notwendig F 4 -Funktionen zu betrachten. Da diese in der Konstruktion des entsprechenden Graphen
unhandlich sowie die Anforderungen der Regularität im Gegensatz zu F 2 -Funktionen nicht so
leicht nachzuprüfen sind, ist es üblich sich auf eine Approximation durch F 2 -Funktionen zu
beschränken.
Zur Erinnerung sei an dieser Stelle angemerkt, dass die Notation E I die Abhängigkeit von der Beobachtung I
ausdrückt.
13
44 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN
Kapitel 4
Anwendungen
Die allgemeine abstrakte Beschreibung von Graph-Cut-Methoden ermöglicht eine vielseitige
Anwendung in unterschiedlichen Gebieten der Bildverarbeitung. Die folgenden Abschnitte dienen der Beschreibung der Problemstellungen, welche im Kontext dieser Arbeit mit Graph-Cut
gelöst werden konnten.
Die Beschreibung der interaktiven Segmentierung“ in Abschnitt 4.1 dient dazu, einen ent”
scheidenden Grundansatz bei der Modellierung vorzustellen, welcher später bei der Kennzeichenlokalisierung 4.2 effektiv angewendet werden kann.
Anschließend werden Grundaspekte der Bewegungssegmentierung vorgestellt, welche zu der
Ebenensegmentierung mit Tiefeninformationen führen.
4.1
Interaktive Segmentierung
Im Folgenden soll das Prinzip der Teilfixierung bei der Anwendung von Graph-Cut-Methoden
vorgestellt werden. Der Begriff Interaktive Segmentierung“ wird hier verwendet, da diese Art
”
von Segmentierung hauptsächlich bei der benutzerunterstützten Segmentierung von medizinischen Bild- oder Voxeldaten zum Einsatz kommt. Es sei aber explizit darauf hingewiesen, dass
die Grundidee auch bei automatischen Segmentierungen (siehe Abschnitt 4.2) anwendbar ist und
daher an dieser Stelle vorgestellt wird.
4.1.1
Aufgabenstellung
Ziel soll es sein, ein Bild in eine fest vorgegebene Anzahl K von Regionen zu unterteilen. Dabei muss eine Region nicht zwangsläufig nur eine Zusammenhangskomponente bilden. Im Ge45
46
KAPITEL 4. ANWENDUNGEN
gensatz zu der Segmentierung von allgemeinen Bildern ohne Zusatzinformationen in Gebiete,
wie etwa bei der Verwendung von Normalized-Cuts [GS06, SM00], ist bei dieser Aufgabenstellung zusätzlich eine Teilauswahl von Punkten aller K Regionen gegeben. Im Folgenden soll
die Formulierung Teilfixierung“ verwendet werden. Dieser Unterschied ist das Analogon zur
”
Unterscheidung von überwachten und unüberwachten Lernverfahren.
4.1.2
Festlegung der unabhängigen Kosten einzelner Pixel
Eine Teilfixierung im Bild (n-dimensional) I ist eine Folge Ω = {Pi }K
i=1 von paarweise disjunkten Punktemengen Pi ⊂ Zn . Analog zu Abschnitt 2.3.1 soll wieder eine Beschriftung L des
Bildes I geschätzt werden. Ein paar Komponenten dieser Beschriftung sind bereits durch die
Teilfixierung festgelegt: xi ∈ Pk → Li = k.
Die Wahrscheinlichkeit Pr(Li = k|Ii ) für diese Punkte ist demnach 1 für xi ∈ Pk und 0 für
alle anderen möglichen Werte aus {1, . . . , K}. Übertragen auf die dazugehörige Zielfunktion E
ergibt sich für die E i Terme mit xi ∈ Pk :

∞
def
i
E (Li ) =
0
Li 6= k
(4.1)
Li = k.
Bei der Implementierung kann die für die Optimierung äquivalente Variante mit

−H
def
i
E (Li ) =
0
Li = k
(4.2)
Li 6= k.
verwendet werden. Der Wert H ist dabei ein praktisch genügend großer Wert. Eine andere
Möglichkeit ist es, den α-Expansion-Algorithmus so anzupassen, dass alle Knoten vi des Graphen mit xi ∈ Pk mit den entsprechenden Terminals vereinigt1 werden.
4.1.3
Wahl der Cliquen-Potentiale 2. Ordnung
Entscheidend für die Beschriftung der anderen Pixel ist die Festlegung der Cliquen Potentiale
2. Ordnung (Terme E i,j ). Diese Funktionen bestimmen die Grenzen der Regionen und werden
daher oft als smoothness cost oder Nachbarschaftsbewertung bezeichnet.
1
Eine Vereinigung von Knoten v und Knoten w eines Graphen ist ein Knoten q mit N (q) = (N (v) ∪ N (w)) \
{v, w}.
47
4.1. INTERAKTIVE SEGMENTIERUNG
Bild 4.1: Veranschaulichung
der Gleichung (4.4) mit unterschiedlichen Werten für σ und
2 x
p(x, σ) = exp − exp − 2σ
2
An den Grenzen der Regionen einer Beschriftung sollen auch starke Kanten im Bild I auftreten, daher seien die Funktionen E i,j analog zu [BFL06] wie folgt gewählt:
(Ii − Ij )2
E (Li , Lj ) = exp −
2σ 2
i,j
def
1
δ(Li 6= Lj ).
kxi − xj k
(4.3)
In diesem Zusammenhang ist es wichtig festzustellen, dass es keine theoretische Begründung
für die Verwendung dieser Normalverteilungsdichte gibt. Die Zielfunktion ist von ihrer theoretischen Bedeutung immer der negative Logarithmus einer Dichte, daher ergibt sich für die zugrunde liegende Dichte“ 2 von (4.3):
”
Pr(Li = Li , Lj = Lj |I) = exp(−E i,j (Li , Lj )).
(4.4)
Aus der Abbildung 4.1 ist ersichtlich, dass Kanten einer Stärke größer 3σ bevorzugt werden. Die Arbeit [CZ05] verwendet eine Wahl der Nachbarschaftsbewertung analog zu (4.3) und
zeigte durch Experimente eine signifikante Verbesserung der Segmentierungsergebnisse im Vergleich zu anderen Funktionstypen. Aufgrund der Spezifikation der einzelnen Bestandteile der
Energiefunktion ist der gesamte Algorithmus bereits beschrieben. Abbildung 4.2 stellt anhand
der einzelnen Schritte des α-Expansion-Algorithmus ein Beispiel für eine Segmentierung vor.
2
Die Funktion bildet keine Dichte im mathematischen Sinne, da ihr uneigentliches Integral nicht beschränkt ist.
48
KAPITEL 4. ANWENDUNGEN
Bild 4.2: Bildreihenfolge von links nach rechts bzw. oben nach unten: (1) Originalbild, (2) Auswahl der Teilfixierung, (3)-(8) Die einzelnen Iterationen des α-Expansion-Algorithmus im ersten
Zyklus (Die nächsten Iterationen führen zu keiner weiteren Verbesserung des Zielfunktionswertes, daher bricht der Algorithmus ab).
4.2
4.2.1
Kennzeichenlokalisierung
Einführung
Die moderne Verkehrssicherheitstechnik in Form von automatischen Geschwindigkeitsmesssystemen ist ohne die automatische Detektion und Erkennung von KFZ-Nummernschildern in Bildaufnahmen undenkbar geworden. Ein so genannter Kennzeichenleser muss dabei viele Teilprobleme lösen: Detektion der Nummernschilder, Ausrichtung, Buchstabensegmentierung, Buchstabenerkennung, Syntaktische Überprüfung.
Die Ausrichtung der Nummernschilder kann dabei anhand der Ausrichtung des Nummernschild-Randes erfolgen. In einem dafür notwendigen ersten Schritt ist es möglich, die Hypothese
des Nummernschildes mittels anderer Bildverarbeitungsmethoden zu finden. Diese Hypothese
im Eingabebild I sei im Folgenden mit xh bezeichnet.
4.2.2
Kennzeichenlokalisierung als binäres Segmentierungsproblem
Die Segmentierung des Randes kann als ein binäres Segmentierungsproblem aufgefasst werden.
Ziel ist es, das Bild I in eine Kennzeichenregion 1 (begrenzt durch den gesuchten Rand) und eine
Hintergrundregion 0 aufzuteilen.
Die Größe des Nummernschildes ist a priori nicht bekannt. Im Folgenden soll aber von einer
maximalen Breite wx und maximalen Höhe wy ausgegangen werden.
49
4.2. KENNZEICHENLOKALISIERUNG
Bild 4.3: Ausgeschnittener Bildbereich um die gefundene Hypothese des Nummernschildes
Bild 4.4: Festlegung der fixierten Labels für das optimale Region Growing“ mit Graph-Cut:
”
(roter Bereich in der Mitte) E i (1) = −∞, (grüner Bereich am Rand) E i (0) = −∞
Die Idee der Kennzeichenlokalisierung ist äquivalent zum Grundgedanken der interaktiven
Bildsegmentierung wie sie in Abschnitt 4.1 vorgestellt wurde. Für eine korrekte Beschreibung
des Algorithmus reicht es daher, eine Teilfixierung des Bildes anzugeben. Die Zielfunktion lässt
sich analog zu den Gleichungen (4.2) und (4.3) aufstellen.
In einem gewissen Bereich um die Hypothese xh wird eine Fixierung der Beschriftung der
Kennzeichenregion (Li = 1) vorgenommen:
def
P1 = {x | |x1 − xh1 | ≤
ux
uy
∨ |x2 − xh2 | ≤ }.
2
2
(4.5)
Die Parameter ux und uy sollten so gewählt werden, dass die entstehende Region P1 mindestens einen Hintergrundpixel des Nummernschildes enthält, auch wenn die Hypothese direkt
auf einem Zeichen des Nummernschildes liegt. Die Größe ux ist somit indirekt abhängig von der
maximalen Breite eines Zeichens.
Ausgehend von der Angabe der maximalen Größe eines Nummernschildes erfolgt die Fest-
50
KAPITEL 4. ANWENDUNGEN
Bild 4.5: Ergebnis der Segmentierung des Nummernschildes von Beispielbild 4.3. Der rotgestreifte Bereich markiert das gefundene Nummernschild.
legung, dass auf dem maximalen Rand alle Pixel dem Hintergrund angehören:
wx
wy
∨ |x2 − xh2 | =
}
(4.6)
2
2
Eine Veranschaulichung dieser Festlegungen ist in Abbildung 4.4 dargestellt. Da ausgehend
von einem Punkt eine optimale Kontur (im Sinne des Bildgradienten senkrecht zur Kontur) gesucht wird, kann das Verfahren als optimales Region-Growing“ bezeichnet werden.
”
def
P0 = {x | |x1 − xh1 | =
4.3
Ebenendetektion
Die Detektion von Ebenen ist in vielen Anwendungen der 3D-Bildverarbeitung ein wichtiger
Teilschritt. Ziel ist es räumlich planare Teilstücke in einer Szene zu erkennen.
Eine Möglichkeit ist es, aus einer gegebenen Folge von Aufnahmen verfolgte Punktmerkmale so zu gruppieren, dass sie jeweils einer gemeinsamen Homographie unterliegen [KD07]. In
der Arbeit [KD07] wurde weiterhin gezeigt, dass aus dieser Gruppierung nur dann auf planare
Teilstücke geschlossen werden kann, wenn die Kamerabewegung eine Translation beinhaltet.
Neue Kameras mit Echtzeit-Tiefeninformationen [Lan00] ermöglichen es hingegen, einen
ganz anderen Zugang zu wählen. Die Detektion planarer Teilstücke kann dadurch Standardverfahren verwenden, welche auf 3D-Punktewolken arbeiten [vH06, CZ01]. Eine Möglichkeit ist es
zum Beispiel, eine Art Region Growing durchzuführen. Dabei wird, wenn der Abstand zur bisher
geschätzten Ebene einen gewissen Schwellwert unterschreitet, ein Punkt zur Region hinzugefügt.
Eine Verbesserung der Schätzung erfolgt daraufhin Schritt für Schritt durch neue Punkte.
In den folgenden Abschnitten wird eine Verbesserung beider Ansätze vorgestellt. Zunächst
kommt ein beliebiges Verfahren der Ebenendetektion3 zur Anwendung, um eine Startschätzung
3
Für eine Beschreibung dieser Verfahren sei an dieser Stelle auf die Originalarbeiten [KD07, vH06, CZ01] oder
51
4.3. EBENENDETEKTION
zu erhalten. Diese Schätzung wird danach durch eine Graph-Cut-Segmentierung verbessert.
4.3.1
Problemstellung
Sei Rπ die Menge der abgebildeten Punkte im Bild I einer Ebene π im Raum. Die Anwendung
eines Verfahrens der Ebenendetektion [CZ01, KD07] liefert eine Startschätzung S der Menge
Rπ . Beim Verfahren von [KD07] kann zum Beispiel eine Auswahl von zufälligen Punkten in
der konvexen Hülle der Punktmerkmale verwendet werden. Um die Schätzung zu verbessern,
kann das zugrunde liegende Segmentierungsproblem wieder als binäres Optimierungsproblem
formuliert werden. Die Beschriftung Li = 1 bedeutet dann, dass der Punkt xi zu Rπ gehört.
4.3.2
Ebenendetektion durch Bewegungssegmentierung
Um ausgehend von verfolgten Punktmerkmalen eine vollständige Segmentierung einer Bildsequenz durchzuführen, wurde in [XS05] Graph-Cut verwendet. Der Begriff vollständig“ bezieht
”
sich auf die Gruppierung der Pixel: Jeder Pixel in jedem Bild wird genau einer Komponente
zugeordnet, die während der Sequenz eine gemeinsame Bewegung durchführt.
Ein Hauptbestandteil der Arbeit [XS05] ist die Erweiterung von verfolgten Punktmerkmale
mit Graph-Cut. Dieser Ansatz kann effizient für die Ebenensegmentierung verwendet werden.
Gegeben seien die Startschätzung S der Ebenenpunkte sowie die bereits ermittelte Bewegung der Ebene als Homographie H vom aktuellen Bild It zu einem früheren Bild der Sequenz
It−ν . H ist eine 3x3 Matrix, die homogene Bildkoordinaten ineinander abbildet. Im Folgenden
sei die Schreibweise H(x) verwendet, um die resultierende nicht-lineare Abbildung direkt in
Bildkoordinaten auszudrücken.
Ausgehend von diesen Informationen lässt sich nun das Differenzbild ∆ berechnen:
def
∆i = |It (xi ) − It−ν (H(xi ))|.
(4.7)
Unter der Annahme einer perfekten Abbildung verschwindet ∆ auf dem gesuchten Ebenenstück sowie in homogenen Gebieten. Bei realen Aufnahmen ist diese Annahme natürlich
unhaltbar und eine Optimierung mit Graph-Cut erscheint sinnvoll. Dadurch kann ein kompaktes
Gebiet ermittelt werden, welches gewisse Bedingung am Rand und im Inneren erfüllen muss.
Diese Bedingungen werden im Folgenden durch die Bewertung einzelner Pixel E i und die
auf die Zusammenfassung in [KRD07] verwiesen.
52
KAPITEL 4. ANWENDUNGEN
Bewertung der Objektgrenze E i,j ausgedrückt:
F (L) =
n
X
E i (Li ) +
i=1
X
E i,j δ(Li 6= Lj ).
(4.8)
i,j∈N
Wieder dient das verallgemeinerte Potts-Modell dazu, die Bewertung der Objektgrenze zu
modellieren. In [XS05] werden folgende Bedingungen an das Innere der Ebenenregion gestellt:
1. geringe Werte von ∆i
2. beschränkter Abstand“ zur Anfangsschätzung.
”
Die zweite Bedingung kann durch die Verwendung einer sogenannten Level-Set-Darstellung4
erreicht werden. Für die Anfangsschätzung S lässt sich dazu ein Bildmaske M erstellen:

1 x ∈ S
i
def
Mi =
0 sonst.
(4.9)
Die Level-Set-Darstellung ϑ ergibt sich anschließend aus einer zweidimensionalen Gaußfilterung des Bildes M :
def
ϑ = Gσ ∗ M.
(4.10)
Gσ ist in diesem Fall ein uniformer zweidimensionaler Gaußkern mit großer“ Varianz σ. Das
”
Bild ϑ führt zu einer Glättung der Grenzen von M . Die Werte von ϑ fallen monoton orthogonal
zu der Objektgrenze in M . Dies wird in der Kostenfunktion dazu verwendet, einen plausiblen
Abstand zur Anfangsschätzung zu definieren. Abbildung 4.6 zeigt ein Beispiel für die Funktion
ϑ. An den dort abgebildeten Höhenlinien ist die Grundform der Anfangsschätzung erkennbar.
Geringe Werte von ∆i mit kleinen Kosten zu belegen, kann durch eine speziell gewählte
Funktion s erzielt werden. Analog zu [XS05] ergibt sich insgesamt folgende Kostenfunktion:

s(∆ , α , β )
i
h
h
def
i
Ehomography
(l) =
(1 − s(∆ , α , β ))ϑ
i
h
h
i
4
l=1
(4.11)
l=0
Der Begriff Level-Set bezeichnet eigentlich Höhenlinien, bzw. eine Menge von Punkte mit gleicher zKoordinate.
53
4.3. EBENENDETEKTION
Bild 4.6: Beispiel für die Level-Set-Darstellung ϑ: Stetig fortgesetzte Oberfläche der Funktion
mit Höhenlinien.
mit der durch α und β parametrisierten Sigmoid-Funktion5 s:
def
s(∆i , αh , βh ) =
1 tan−1 (αh (∆i − βh ))
+
.
2
π
(4.12)
Die Funktion s besitzt eine Art Phasenübergang an der Stelle βh , dessen Länge“ bzw. Glatt”
heit durch αh beeinflusst wird. Es ergeben sich daher Kosten von ≈ 1 für Werte von ∆i wesentlich größer als βh und Kosten von 0 für Werte wesentlich kleiner als βh . Beispiele für den Verlauf
dieser Funktion sind in Abbildung 4.7 dargestellt.
Legt man die Annahme zugrunde, dass an der Grenze der Projektion der Ebene eine Kante
im Bild auftritt, kann diese mit niedrigen Kosten belegt werden. Diese Idee wird auch in der
Arbeit [XS05] verwendet. Die dort vorgeschlagene Kostenfunktion ist stückweise definiert:
i,j
Eintensity

γ
|I(xi ) − I(xj )| < κe
def
=
1.0 sonst.
(4.13)
Mit γ > 1 erhalten Objektgrenzen mit einem Gradient kleiner einem gewissen Schwellwert
κe höhere Kosten. Die komplette Zielfunktion hat nach der zusätzlichen Einführung eines Ge5
Der Begriff der Sigmoid-Funktion ist nicht eindeutig einer Funktion zugeordnet, sondern beschreibt immer ein
Element der Klasse aller sigmoidalen Funktionen.
54
KAPITEL 4. ANWENDUNGEN
Bild 4.7: Beispiele für den Funktionsverlauf der sigmoidalen Funktion s mit der ArkustangensDarstellung (4.12)
Bild 4.8: Erweiterung einer Ebene mit Graph-Cut und Homographie-Informationen: (innere
blaue Kontur) Ebene vor der Graph-Cut-Segmentierung (äußere blaue Kontur) Ebene nach der
Erweiterung mit Graph-Cut
wichtungsparameters λ die folgende Form:
F (L) =
n
X
i=1
E i (Li ) + λ
X
E i,j δ(Li 6= Lj )
(4.14)
(i,j)∈N
Ein Beispiel für die Anwendung von Graph-Cut bei der Ebenendetektion mit HomographieInformationen ist in Abbildung 4.8 dargestellt.
55
4.3. EBENENDETEKTION
4.3.3
Ebenendetektion mit zusätzlicher Tiefeninformation
Filterung der Tiefeninformation
Eine Filterung der Eingabedaten ist bei jeder Anwendung der Bildverarbeitung ein wichtiger
Schritt. Tiefeninformationen aktueller Kameras, wie etwa der PMD 19k (Abbildung 5.1), sind
oft stark verrauscht und liefern viele Ausreißer in den Tiefenwerten.
Um diese Ausgangssituation zu verbessern, wurden zwei Filterungen durchgeführt. Die Kamera liefert Kamera zusätzlich die Amplitudenwerte der Infrarot-Wellen in einem Sensor. Eine
geringe Amplitude lässt auf eine geringe Abstrahlung der aktiven Beleuchtung in der Szene
schließen. An diesen Stellen ist eine robuste Tiefenschätzung schwierig [Lan00] und die Wahrscheinlichkeit eines Ausreißers im Tiefenbild hoch. Die erste Filterung löscht daher die Tiefeninformation in Pixeln, bei denen der Amplitudenwert unter einem gewissen Schwellwert (z.B.
2.0) fällt. Anschließend erfolgt eine zweite Filterung mit einem 3x3 Median-Filter.
Verwendung der Tiefeninformation
Durch die Tiefeninformationen der Kamera (Abbildung 5.1) und deren vorher bestimmte intrinsische Kameraparameter ist es möglich, für jeden Punkt x des Bildes den Punkt x(3D) im
Raum relativ zum Kamerazentrum zu bestimmen. In Abschnitt 4.3.2 wurde als Maß für die Zugehörigkeit einzelner Pixel zur Ebene π ein Differenzbild berechnet. Ausgehend von den bereits
ermittelten 3D-Punkten lässt sich ein anderes Maß definieren, welches die exakte mathematische
Zugehörigkeit zur Ebene im Raum betrachtet.
Zunächst ist eine Bestimmung der Ebenenparameter notwendig. Unter Verwendung der Punkte S lässt sich eine allgemeine Schätzung im Sinne von M-Estimation [Hub80] anwenden:
n̂ = argmin
n
X
ρ(nT x(3D) − 1).
(4.15)
x∈S
Dabei ist ρ eine geeignete robuste Fehlerfunktion wie etwa die Huber-Funktion [Hub80]. Die
Lösung des Optimierungsproblems (4.15) führt auf eine iterative gewichtete Kleinste-Quadrate
Schätzung (IRLS). Es ist relativ leicht zu sehen, dass bei der Schätzung keine Ebene ermittelt werden kann, die durch den Ursprung (Kamerazentrum) verläuft. Diese mathematische Einschränkung spielt in der Praxis keine Rolle, da jede Ebene, die das Kamerazentrum schneidet,
nur eine Gerade in der Bildebene bildet.
Ein geeignetes Maß für die Zugehörigkeit eines Punktes zur Ebene lässt sich durch den Ab-
56
KAPITEL 4. ANWENDUNGEN
stand zur geschätzten Ebene definieren:
def
∆i =
|n̂T x(3D)
− 1|
i
.
kn̂k
(4.16)
Dieser Abstand liefert die entscheidende Information bei der Aufstellung der passenden Energiefunktionen.
Definition der Energiefunktionen
Bei der Pixelbewertung (Cliquen-Potentiale 1. Ordnung) ist es notwendig, folgende Sonderbehandlungen vorzunehmen:
1. Teilfixierung des Bildrandes auf die Hintergrundbeschriftung
2. Stellen an denen keine Tiefeninformationen verfügbar sind, können nur durch die Informationen der Nachbarn ( Kosten E i,j ) beschriftet werden.
Die Bildrandbehandlung ist ein nicht zu unterschätzendes Problem bei der Graph-Cut-Segmentierung:
Für Objektgrenzen am Bildrand entstehen im Gegensatz zu Grenzen im Bild keine Kosten. Dies
kann oft zu einer falschen Segmentierung führen. Die Annahme von Hintergrundpixeln am Rand
behebt dieses Problem.
Pixel ohne Tiefeninformationen entstehen durch die angewendeten Filteroperationen aus Abschnitt 4.3.3. Eine mathematische Beschreibung dieser Sonderfälle als Energiefunktion ist die
Folgende:



0
keine Tiefeninformation an Position xi verfügbar


def
i
Eplane
(Li ) = −∞
Li = 0 ∧ xi liegt am Bildrand



Ẽ i (L ) sonst.
i
plane
(4.17)
Analog zu der Bewertung des Differenzbildes in Abschnitt 4.3.2 lässt sich der restliche Teil
der Funktion definieren:

s(∆ , α , β )
Li = 1
i
p
p
def
i
Ẽplane
(Li ) =
1 − s(∆ , α , β ) L = 0.
i
p
p
i
(4.18)
Die Bewertung von Objektgrenzen kann auf zwei verschiedene Arten durchgeführt werden.
Eine Möglichkeit ist es, Kanten im Distanzbild ∆ zu betrachten. Wird zum Beispiel eine Ebene
57
4.3. EBENENDETEKTION
Bild 4.9: Beispiel für eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mit
Graph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwendung von Tiefen- und Grauwertinformationen
vor einem weiter entfernten Hintergrund segmentiert, so ist klar ersichtlich, dass sich in ∆ an den
Objektgrenzen eine klare Kante abzeichnet. Die Angabe der Kosten für die Objektgrenze erfolgt
dabei wieder analog zu Abschnitt 4.3.2 mit einer stückweise definierten Funktion:
i,j
Eplane

γ
|∆i − ∆j | < κp
def
=
1.0 sonst.
(4.19)
Insgesamt ergibt sich wieder folgende Zielfunktion für das Segmentierungsproblems:
F depth (L) =
X
i
Eplane
(Li ) + λ
i
X
i,j
Eplane
δ(Li 6= Lj ).
(4.20)
(i,j)∈N
Fusion mit Grauwertinformationen
Zusätzlich zur Tiefe liefert die Kamera ein Infrarot-Bild der Szene. Die Verwendung der bisher beschriebenen Zielfunktion (4.20) führt hingegen zu einer Segmentierung, die lediglich auf
den Tiefeninformationen basiert. Aus diesem Grund ist es Ziel des folgenden Abschnittes, eine
Fusion der Informationen aus Infrarot-Bild, im Folgenden allgemein als Grauwertinformation
bezeichnet, mit den Tiefeninformationen während der Segmentierung zu erreichen.
Ein Ansatz ist es, die Bewertung der Objektgrenze im Infrarot-Bild I anstatt im Distanzbild ∆
vorzunehmen. Dabei kann wieder die Festlegung (4.13) aus Abschnitt 4.3.2 verwendet werden.
Die Kombination aus den beiden unterschiedlichen Kostenfunktionen ergibt daraufhin die für
die Fusion verwendete Zielfunktion F fusion :
F fusion (L) =
X
i
i
Eplane
(Li ) + λ
X
(i,j)∈N
i,j
Eintensity
δ(Li 6= Lj ).
(4.21)
58
KAPITEL 4. ANWENDUNGEN
Abbildung 4.9 zeigt auf anschauliche Weise wie diese Fusion zu besseren Ergebnissen bei
der Segmentierung führen kann. Bisherige Ebenen-Segmentierungsalgorithmen basierten entweder auf reinen 3D-Informationen oder auf Grauwertinformationen. Durch die Kombination von
einzelnen Optimierungskriterien in einer Zielfunktion ist es möglich geworden, beide Informationsquellen in einem Prozess effektiv zu nutzen.
Die Verwendung der Homographie-Information als dritte Informationsquelle ist leider bei
der heutigen gängigen Auflösung der Kameras von 19k Bildpunkten noch nicht nutzbar. Die
Schätzung der Homographie und die Bestimmung eines Differenzbildes ist leider nur bei größeren Auflösungen robust möglich.
An dieser Stelle sei weiterhin angemerkt, dass im ermittelten Infrarot-Bild der verwendeten
PMD-Kamera oft Phasensprünge auftreten können, die abhängig von den Oberflächen der Objekte in der Szene sind. Eine Modellierung dieser Effekte, wie sie in normalen“ Grauwertbilder
”
nicht auftreten, wurde bisher nicht vorgenommen.
Kapitel 5
Experimente
Das folgende Kapitel soll die Möglichkeiten von Graph-Cut-Verfahren durch Experimente aufzeigen. Dabei werden unterschiedliche Ansätze gegenüber gestellt und die Auswirkungen der
Parameter aufgezeigt. Im Vordergrund bei der Auswahl der Experimente stand die Verwendung
von realen Bildmaterial.
So wurde für die Kennzeichenlokalisierung das in Abschnitt 4.2 beschriebene Verfahren in
das Gesamtsystem lprJ des an der Universität Jena entwickelten Kennzeichenlesers zusätzlich
integriert. Die Auswertung erfolgte anschließend auf der Grundlage der Gesamterkennungsrate.
Bei der Ebenendetektion wurden Ground-Truth Informationen für verschiedene Szenen erstellt, welche eine quantitative Auswertung der in Abschnitt 4.3 vorgestellten Algorithmen ermöglichten.
5.1
Kennzeichenlokalisierung
Im Rahmen einer Kooperation mit der Firma ROBOT Visual Systems GmbH entwickelte der
Lehrstuhl für digitale Bildverarbeitung an der Universität Jena den Kennzeichenleser lprJ. Dieses
bereits existierende Gesamtsystem wurde um zusätzliche Komponenten der Graph-Cut-Optimierung
erweitert.
5.1.1
Experiment
Die Auswertung erfolgte auf unterschiedlichen Testreihen von Straßenszenen. Die Charakteristik
der einzelnen Sequenzen ist in Tabelle 5.1 aufgelistet.
Die Lokalisierung von Nummernschildrändern wie in Abschnitt 4.2 vorgestellt, wird für jede
59
60
KAPITEL 5. EXPERIMENTE
Charakteristik
≈Zeichenhöhe ]Bilder
90% niederländische Nummernschilder,
12
6079
viele Tagesaufnahmen
NLSR520-200510 90% niederländische Nummernschilder,
12
4882
viele Tagesaufnahmen
NLTest8288
nur niederländische Nummernschilder
16
8287
Elzerberg22282
95% deutsche Nummernschilder, Nacht24
4054
aufnahmen
Bezeichnung
NLSR520-200509
Tabelle 5.1: Verwendete Testsequenzen bei der Auswertung der Kennzeichenlokalisierung. Mit
]Bilder ist die Anzahl der Bilder in der Sequenz bezeichnet, welche mindestens ein Nummernschild enthalten.
Sequenz
NLSR520-200509
NLSR520-200510
NLTest8288
Elzerberg22282
Ergebnis von lprJ ohne GC
85.11%
69.44%
87.53%
45.34%
mit GC Differenz
85.66% +0.55%
69.83% +0.39%
87.69% +0.16%
45.44% +0.10%
Tabelle 5.2: Ergebnisse der Kennzeichenlokalisierung mit/ohne Graph-Cut-Erweiterung (σ =
3, ux = 21, uy = 11). Die Ergebnisse basieren auf der Erweiterung der Basis-Version von lprJ
vom 5.6.2007.
Nummernschild-Hypothese aufgerufen, falls alle bisher in lprJ integrierten Verfahren fehlschlagen. In Tabelle 5.2 sind die Gesamterkennungsraten mit und ohne Erweiterung aufgelistet.
Die zusätzliche Verwendung des Graph-Cut-Ansatzes bewirkt zwangsläufig eine längere Laufzeit der Gesamterkennung. Aus diesem Grund wurde zusätzlich zu der Erkennungsrate auch
die durchschnittliche Laufzeit untersucht. Die Ergebnisse sind in Tabelle 5.3 festgehalten. Der
Zeitmessung startet nach dem Einlesen des Bildes in den Hauptspeicher und endet mit dessen
Freigabe.
Die Festlegung der Energiefunktionen aus Abschnitt 4.2 ist von verschiedenen Parameter
Sequenz
NLSR520-200509
NLSR520-200510
NLTest8288
Elzerberg22282
Durchschn. Laufzeit ohne GC
7.19s
6.73s
1.81s
3.88s
mit GC
7.60s
7.24s
1.93s
4.21s
Differenz
+0.41s
+0.51s
+0.12s
+0.33s
Tabelle 5.3: Durchschnittliche Laufzeit für die komplette Verarbeitung eines Bildes. Parameterbelegung wie in Tabelle 5.2.
5.1. KENNZEICHENLOKALISIERUNG
Parameter σ
1.0
2.0
3.0
4.0
5.0
6.0
61
Ergebnis von lprJ mit Graph-Cut
85.54%
85.56%
85.66%
85.66%
85.59%
85.51%
Tabelle 5.4: Auswertung des Parameters σ (Bewertung der Objektgrenzen) bei der Kennzeichenlokalisierung anhand der Sequenz NLSR520-200509 (ux = 21, uy = 11)
Parameter ux
15
17
19
20
21
23
25
Ergebnis von lprJ mit Graph-Cut
85.51%
85.54%
85.54%
85.54%
85.54%
85.52%
85.52%
Tabelle 5.5: Auswertung des Parameters ux (Größe der fixierten Region) bei der Kennzeichenlokalisierung anhand der Sequenz NLSR520-200509 (σ = 1, uy = 11)
abhängig. Die Untersuchung der Auswirkung dieser Parameter wurde ebenfalls anhand der Gesamterkennungsrate durchgeführt.
Der Parameter σ (Tabelle 5.4) steuert den Einfluß der Bewertung der Objektgrenze. Durch
ux (Tabelle 5.5) wird hingegen die Größe der inneren fixierten Region festgelegt.
5.1.2
Auswertung
Durch die Kennzeichenlokalisierung mit Graph-Cut-Methoden konnte eine Verbesserung der
Gesamterkennungsrate (siehe Tabelle 5.2) des Kennzeichenlesers erzielt werden. Die verwendeten Testsequenzen beinhalten eine Vielzahl von herausfordernden Problemstellungen (Schatten,
Buchstabensegmentierung mit Kontextinformation, Detektion), welche nur durch eine Vielzahl
von Algorithmen und Ansätzen lösbar sind. Eine Verbesserung von durchschnittlich 0.3% ist
daher in diesen Bereichen der Erkennungsrate ein wichtiger Schritt.
Die Auswertung der Laufzeit in Tabelle 5.3 zeigt, dass die Verwendung des Graph-CutAnsatzes eine Verlängerung der Laufzeit um durchschnittlich 340 msec bewirkt. Diese zusätz-
62
KAPITEL 5. EXPERIMENTE
Bild 5.1: Verwendete Kamera für Echtzeit-Tiefeninformationen: PMD Kamera 19k
liche Zeit ist im Verhältnis zur Gesamtzeit der Erkennung vernachlässigbar. Dennoch ist es
abhängig vom Anwendungsgebiet, ob eine leichte Verbesserung der Gesamterkennung durch
eine solche Erhöhung der Laufzeit sinnvoll ist.
Die Auswertung der Parameter in den Tabellen 5.4 und 5.5 zeigt außerdem, dass deren Wert
den Erkennungsprozess nicht signifikant beeinflusst. Eine rein heuristische Festlegung von σ und
ux ist demnach zulässig.
5.2
Ebenendetektion
5.2.1
Experimentaufbau
Als Kamera mit Echtzeit-Tiefeninformation wurde die PMD 19k (Abbildung 5.1) mit einer Auflösung
von 160x120 Bildpunkten verwendet.
Die quantitative Auswertung wurde anhand von drei Bildsequenzen durchgeführt. Die dabei
verwendete Szene stellt eine Art räumliches Kalibriermuster dar, welches gute Punktmerkmale für die Verfolgung liefert. Für die Sequenzen wurden Ground-Truth Informationen erstellt.
Diese Ground-Truth Informationen beinhalteten die Anzahl der ebenen Teilstücke im Bild sowie zugehörige Bildpunkte. Die Generierung dieser Informationen erfolgte ausgehend von einer
manuellen Startauswahl mit Hilfe der Ebenenverfolgung und zusätzlicher manueller Korrekturen
innerhalb der Sequenz.
Der Fehler bzw. Abstand zwischen zwei ebenen Teilstücken (Regionen) wurde anhand des
folgenden Verhältnisses berechnet:
e(A, B) =
](A \ B) + ](B \ A)
.
]A + ]B
(5.1)
63
5.2. EBENENDETEKTION
Bild 5.2: Versuchsaufbau für Beispiel 5.5
Dieses Fehlermaß ist 0 genau dann, wenn die Regionen A und B identisch sind und 1 falls
es sich um disjunkte Mengen handelt. Der Zähler wird auch oft als symmetrische Differenz
von A mit B bezeichnet. In jedem Bild der Sequenz müssen mehrere Ground-Truth Regionen
und geschätzte Regionen miteinander verglichen werden. Da die Zuordnung zueinander nicht
gegeben ist, erfolgt die Bestimmung des minimalen Fehlers ẽ zwischen zwei Regionen 1 :
ẽ =
min
e(A, B).
(5.2)
Ground-Truth Region A,
Berechnete Region B
Dadurch ist es möglich, für ein Bild mit einzigen Wert eine quantitative Aussage bezüglich
der Genauigkeit der Segmentierung zu erhalten. Für jede Sequenz konnten daraufhin Durchschnittswerte von ẽ gebildet werden. Die ermittelten Werte sind in Tabelle 5.6 dargestellt. Die
Bewegung der Kamera in den verwendeten Sequenzen beinhaltet zu jedem Zeitpunkt eine Translation. Daher wurde der in der Arbeit [KD07] vorgestellte Translations-Test nicht benötigt. Verwendete Modellparameter sind in Tabelle B.2 des Abschnittes B.3 aufgelistet.
Abbildung 5.3 zeigt beispielhaft den Fehler ẽ bei jedem erfolgreichen Detektionsschritt in
der Sequenz seq1. Aus Gründen der Übersichtlichkeit wurden nur die auf [KD07] basierenden
Verfahren in der Abbildung verglichen. Das Verfahren von [KD07] kann nicht in jedem Bild der
Sequenz eine Gruppe von Punktmerkmale finden, welche der gleichen Homographie unterliegen.
Daher erfolgte nur an den in Abbildung 5.3 markierten Stellen eine Detektion.
Eine ähnliche Darstellung der Resultate für die Ebenendetektion auf der Grundlage von
1
Analog wurde auch die Auswertung der Kennzeichenerkennung bei lprJ durchgeführt. Der dort verwendete
Abstand ist die Levenshtein-Distanz zwischen den Kennzeichen-Strings.
64
KAPITEL 5. EXPERIMENTE
Bild 5.3: Beispielhafte Darstellung des Fehlers ẽ anhand der Szene seq1 für die auf [KD07]
basierenden Verfahren.
Bild 5.4: Beispielhafte Darstellung des Fehlers ẽ anhand der Szene seq1 für die auf RegionGrowing basierenden Verfahren.
65
5.2. EBENENDETEKTION
Bild 5.5: Beispiel für eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mit
Graph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwendung von Tiefen- und Grauwertinformationen
Region-Growing [KRD07] lässt sich Abbildung 5.4 entnehmen. Das Startverfahren benötigt nur
die Information eines einzelnen Bildes und kann daher die Detektion von planaren Teilstücken
in jedem Bild der Sequenz vornehmen.
Bei der Anwendung des Verfahrens in realen Aufnahmen treten oft Probleme mit der Punktverfolgung auf. Dies liegt in der niedrigen Auflösung des Infrarot-Bildes begründet, welches die
zusätzliche Schwierigkeit von Phasensprüngen aufweist. Eine qualitative Auswertung von realen
Sequenzen wurde daher immer mit dem Region-Growing Varianten durchgeführt. Abbildung 5.5
zeigt ein Beispiel solch einer Szene. In Abbildung B.3 des Anhangs befindet sich eine, mit einer
anderen Kamera aufgenommene, Darstellung.
5.2.2
Auswertung
Die Entwicklung der Verfahren für die Ebenensegmentierung basierten auf zwei Thesen, welche
im Folgenden anhand der Daten aus den Experimenten ausgewertet werden.
Die erste These ist, dass die Verfeinerung der bereits gefundenen ebenen Teilstücke durch
eine Segmentierung mit Graph-Cut zu einer Verbesserung der Ebenendetektion führt. Die ermittelten Werte des Fehlers ẽ in Tabelle 5.6 bestätigen diese Vermutung. Der durchschnittliche
Fehler bei den zwei Varianten der Graph-Cut-Segmentierung liegt signifikant unterhalb des FehVerfahren
[KD07] + Graph Cut mit F fusion
[KD07] + Graph Cut mit F depth
[KD07]
Region Growing + Graph Cut mit F fusion
Region Growing + Graph Cut mit F depth
Region Growing
seq1
0.153
0.184
0.462
0.178
0.213
0.556
seq2
0.244
0.252
0.345
0.239
0.249
0.476
seq3
0.214
0.217
0.260
0.202
0.205
0.459
Tabelle 5.6: Durchschnittswerte von ẽ für verschiedene Szenen und die vorgestellten Verfahren.
66
KAPITEL 5. EXPERIMENTE
lers des ursprünglichen Verfahrens. Sowohl beim Region-Growing in den reinen 3D-Daten als
auch bei der Detektion von planaren Teilstücke nach [KD07] konnte daher durch einen Optimierungsschritt mit Graph-Cut die Segmentierung verbessert werden.
Die Verwendung von Informationen aus dem Infrarot-Bild wurde motiviert durch eine zweite These: Die Fusion von Tiefeninformation und Grauwertinformation kann zu einer weiteren
Verbesserung der Segmentierung führen. Auch diese These wird durch Tabelle 5.6 bestätigt. Der
Fehler beim Verfahren, welches die Fusion verwendet, ist bei allen 3 Sequenzen und beiden
Ansätzen geringer als bei der Verwendung reiner Tiefeninformation.
Beide Aussagen lassen sich ebenfalls in den Abbildungen 5.3 und 5.4 erkennen. Die Kurven der Graph-Cut-Ansätze liegen weit unterhalb der Verfahren, welche die Startlösung liefern.
Durch die Fusion kann daraufhin eine zweite Verbesserung erzielt werden.
Kapitel 6
Ausblick
Die Möglichkeiten der allgemeinen Erweiterung der vorgestellten Verfahren konzentrieren sich
auf die drei Kernbereiche: Modellerweiterungen, Theorie, Algorithmik. Weiterhin lassen sich
natürlich auch Verbesserungsansätze bei den im Rahmen dieser Arbeit vorgestellten Anwendungen erkennen.
6.1
Allgemeine Ansätze für die weitere Forschung
Ausgangspunkt für die in dieser Arbeit verwendeten Modelle war immer das verallgemeinerte Potts-Modell. Dies lag vor allem an der Regularitätsforderung, die kaum eine andere Wahl
(siehe Abschnitt 3.3.2, Bemerkung 3.47) ermöglicht. Grundlegend stellt sich aber die Frage, ob
es nicht durch die Verallgemeinerung von [FD05] möglich ist, komplexere Modelle zu verwenden. Dabei wird es zwangsläufig nötig sein, die richtige Balance zwischen der Güte des Modells
und der Komplexität der entstehenden Graphen zu finden. Schon eine Verwendung von CliquenPotentialen 3. Ordnung erzwingt die Einführung zusätzlicher Knoten und Kanten.
Bisherige theoretische Untersuchung von Graph-Cut-Verfahren beschränkten sich oft auf die
Charakterisierung von graph-darstellbaren1 Funktionen. In der Arbeit [Vek00] wurden hingegen topologische“ Eigenschaften von Segmentierungsergebnissen untersucht, welche durch die
”
Anwendung von Graph-Cut-Verfahren entstehen. Eine Fortführung dieser Untersuchungen für
allgemeinere Modelle könnte generell zu theoretischen Richtlinien führen, welche die Entwicklung von geeigneten Zielfunktionen bei vielen anderen Anwendungen unterstützen könnten. In
vielen Arbeiten wurden bereits verwendete Ansätze aus früheren Arbeiten übernommen, ohne
1
Graph-darstellbare Funktionen sind Zielfunktionen von Optimierungsproblemen, welche auf das Min-CutProblem abgebildet werden können (siehe Abschnitt 3.3.2).
67
68
KAPITEL 6. AUSBLICK
die Möglichkeiten der Weiterentwicklung und Spezialisierung auf das aktuelle Problem voll auszuschöpfen.
Ein ähnliches Problem sind die vielen Parameter der Zielfunktion, welche nur durch empirisch ermittelte Richtwerte festgelegt werden. Die Arbeit [CG06] bietet an dieser Stelle erste
Ansätze, um Modelle bzw. Zielfunktionen anzulernen. Dadurch wäre es möglich, eine Vielzahl
von Parametern automatisch zu bestimmen und sich von bisher gewählten Heuristiken zu lösen.
6.2
Verbesserung der Kennzeichenerkennung durch GraphCut-Verfahren
Die Verwendung von diskreten Optimierungsproblemen und deren Lösung in Form von GraphCut-Verfahren ist in vielen Teilschritten der Kennzeichenerkennung denkbar. Im Rahmen dieser
Arbeit konnte ein weiteres Verfahren zur Kennzeichenlokalisierung entwickelt werden.
Welche Möglichkeiten sich bei der Segmentierung mit Graph-Cut-Methoden im Bereich der
Buchstabensegmentierung in einem gefundenen Kennzeichen ergeben, bleibt weiterhin offen.
Eine gezielte Modellierung dieser Anwendung, welche bezüglich der resultierenden Ergebnisse etablierter Standardverfahren entscheidende Vorteile aufweisen sollte, übersteigt bislang die
theoretischen Möglichkeiten. Effizient lösbare diskrete Optimierungsprobleme, welche komplexe Kontureigenschaften der Objektgrenze einfließen lassen, würden eine Brücke schlagen zur
bisher weitaus praktikableren kontinuierlichen Optimierung [CKS03].
Ein weiterer möglicher Ansatz wäre, das Problem der Trennung von Buchstabenkonturen mit
Graph-Cut zu lösen. Dies ist ein wichtiger Nachbearbeitungsschritt, um Fehler bei der Kontursuche zu beheben. Die aktuelle Implementierung in lprJ verwendet horizontale Projektionen, um
eine geeignete Stelle zu finden.
6.3
Erweiterung der Ebenendetektion mit Graph-Cut
Die vorgestellte Verfeinerung der Ebenendetektion verwendet ein binäres Optimierungsproblem.
Eine Erweiterung könnte die Verfeinerung mehrerer planarer Teilstücke durch den α-ExpansionAlgorithmus in einer Optimierung durchführen. Das noch vorhandene Problem von überlappenden Teilstücken wäre damit gelöst. Zusätzlich wäre es in diesem Kontext sinnvoll, eine passende
Methode für die Vereinigung von mehreren planaren Teilstücken als Teilschritt der Detektion zu
integrieren.
Kapitel 7
Zusammenfassung
Ziel der vorliegenden Arbeit war es, die Möglichkeiten von Graph-Cut-Methoden in der Bildverarbeitung theoretisch und an praktischen Beispielen darzulegen. Diese Verfahren ermöglichen
es, allgemeine Segmentierungsprobleme zu lösen.
In den ersten beiden Kapiteln wurden getrennt voneinander die wichtigsten Resultate der
Bayesschen Bildanalyse und der diskreten Optimierung mit Graph-Cut vorgestellt. Auf der einen
Seite führten die Ausführungen zur Bayesschen Bildanalyse in Kapitel 2 zum Satz von Hammersley und Clifford. Auf der anderen Seite konnte in Kapitel 3 mit den Ergebnissen aktueller Arbeiten [KZ04, FD05] eine Klasse von effizient lösbaren Optimierungsproblemen gefunden werden.
Die eindeutige Charakterisierung dieser Probleme und die Darstellung der Verbindungen zu anderen Gebieten ermöglichte eine umfassende Darstellung des aktuellen Forschungsstandes auf
diesem Gebiet. Weiterhin wurden Grenzen der Berechenbarkeit bei der diskreten Optimierung
aufgezeigt. Die Anwendung von Approximationsalgorithmen, wie etwa dem in Abschnitt 3.4
vorgestellten α-Expansion-Algorithmus, ermöglichte es dennoch ein Ergebnis zu finden, welche
klar definierten Optimalitätsanforderungen (siehe Abschnitt 3.4.2) genügt.
Beide Hauptresultate der ersten Kapitel konnten in Abschnitt 3.4.4 zu einem praktikablen
Werkzeug für die Anwendung in der Bildverarbeitung kombiniert werden.
In Kapitel 4 wurden anschließend verschiedene Problemstellungen vorgestellt, welche effizient mit diskreter Optimierung gelöst werden konnten. Im Kontext eines Industrieprojektes des
Lehrstuhls konnte die Kennzeichenlokalisierung des Kennzeichenlesers lprJ mit einem GraphCut-Ansatz verbessert werden.
Bewegungssegmentierung im Sinne der Detektion planarer Teilstücken in einer Szene wurde in Abschnitt 4.3.2 analog zu einem Ansatz von [XS05] realisiert. Eine zusätzliche Erweiterung dieser Idee führte auf eine Lösung dieser Problemstellung bei der Verwendung einer
69
70
KAPITEL 7. ZUSAMMENFASSUNG
Echtzeit-Tiefenkamera. Das dabei entwickelte Verfahren ermöglicht es, Tiefen und GrauwertInformationen effizient in einem Optimierungsschritt zu kombinieren.
Kapitel 5 zeigte durch Experimente, dass die vorgestellten Verfahren zur Lösung ihrer Problemstellung beitragen. Die Untersuchung der Kennzeichenlokalisierung erfolgte durch die Auswertung der Erkennungsrate des Gesamtsystems. Dabei wurden zusätzlich die Auswirkungen
verschiedener Parameter überprüft. Insgesamt konnte die Erkennungsrate durch das zusätzliche
Graph-Cut basierende Verfahren um durchschnittlich 0.3% Prozentpunkte gesteigert werden.
Die Leistungsfähigkeit des Graph-Cut-Ansatzes bei der Ebenensegmentierung wurde durch
den Vergleich mit Ground-Truth Daten demonstriert. Die Algorithmen führten zu einer signifikanten Verbesserung der initial gefundenen Ebenen. Im Vergleich zum Ansatz, welcher nur
Tiefen-Informationen verwendet, ermöglichte die Fusion mit Grauwert-Informationen eine zusätzliche Minimierung des Fehlers.
Anhang A
Mathematische Details
A.1
Zusammenhang zwischen binärer Bildrestaurierung und
Medianfilter
Die Ähnlichkeit der Ergebnisse zwischen einem binären Medianfilter und der binären Bildrestaurierung wie sie in Abschnitt 2.3.4 vorgestellt wurde, werfen die Frage nach mathematischen
Zusammenhängen auf. Dieser Abschnitt versucht diesbezüglich, mögliche Querverbindungen
aufzuzeigen.
Betrachtet wird zunächst die vollständige Energiefunktion der binären Bildrestaurierung mit
der Konstante βq :
E(L) = βq
X
Ip Lp − α
p∈P
X
L p Lz .
(1.1)
(p,z)∈N
Es gilt weiterhin ohne Beschränkung die folgende Aussage:
Die Beschriftung von Lp ist gleich 1 ⇐⇒
βq Ip − α
X
X
Lz < −βq Ip + α
(p,z)∈N
Lz .
(1.2)
(p,z)∈N
Dabei müssen nur die Summanden der Zielfunktion betrachtet werden, welche von p abhängig
sind. Weitere Umformungen ergeben:

0>

X
Lz  −
(p,z)∈N
71
βq
Ip
α
(GC)
72
ANHANG A. MATHEMATISCHE DETAILS
Es lässt sich leicht sehen, dass im Gegensatz dazu für den Medianfilter die folgende Charakteristik gilt: Lp = 1 ⇐⇒

0>

X
Iz  + Ip
(Median)
(p,z)∈N
Unter den folgenden Annahmen ergibt sich daraufhin die Äquivalenz der beiden Verfahren:
1. Die Beschriftung benachbarter Pixel weicht nicht von den Werten im Originalbild ab: Lz =
Iz .
2. Für die Parameter βq und α gilt: − βαq = 1.
Die erste Forderung ist natürlich bei beliebigen Bildern und beliebiger Position p nicht gegeben. Betrachtet man hingegen eine homogene schwarze Fläche mit einem weißen Punkt im
Inneren, welcher durch Rauschen erzeugt wurde, so kann sich bei beiden Verfahren nur dieser
Punkt in seiner Beschriftung verändern.
Die zweite Annahme lässt sich noch auf die Wahrscheinlichkeit q des Rauschens zurückführen:
1−q
1
α = −βq = log
2
q
1
q=
.
exp (2α) + 1
(1.3)
(1.4)
Für den Wert α = 0.3 aus Beispiel 2.1 ergibt sich daher der Wert q ≈ 0.354, welcher ungefähr mit der gewählten Wahrscheinlichkeit übereinstimmt. Aus Gleichung (GC) lässt sich die
Funktionsweise der binären Bildrestaurierung deutlich erkennen. Der Einfluss der Beobachtung
im aktuellen Pixel wird durch den Parameter γ = − βαq gesteuert. Dieser gewichtet sozusagen
den Pixelwert Ip in der Statistik der Umgebung. Die binäre Bildrestaurierung im Sinne von Abschnitt 2.3.4 kann daher als Verallgemeinerung des Median-Filters angesehen werden.
A.2
Details zum Algorithmus von [BK04]
Die Suchbäume ausgehend vom Knoten s bzw. t seien mit S und T bezeichnet. Diese Suchbäume
sind disjunkt, bilden aber keine Zerlegung der Knotenmenge V (siehe Abbildung A.1). Für den
Baum S gilt, dass jede Kante vom Elternknoten zum Kindknoten nicht gesättigt ist. Im Baum T
gilt das Gleiche für Kanten von den Kindknoten zu den Elternknoten.
A.2. DETAILS ZUM ALGORITHMUS VON [?]
73
Bild A.1: Darstellung der Notation und Vorgehensweise des Algorithmus von [BK04].
Suchbäume: S, T . A dient zur Beschriftung der aktiven Knoten (Blätter des Suchbaumes). Alle
mit P beschrifteten Knoten sind passive Knoten (innere Knoten des Suchbaumes).
Die Knoten der Suchbäume können zwei Zustände annehmen: aktiv (Grenzknoten, Blätter
oder Knoten mit nicht erfassten Nachbarn) und passiv (innere Knoten). Aktive Knoten können
einen Suchbaum erweitern. Wenn ein aktiver Knoten mit einem Nachbarn aus dem anderen Suchbaum verarbeitet wird, dann ist ein damit gesuchter erhöhender (augumenting) Pfad gefunden.
Der Algorithmus lässt sich in folgende 3 Phasen aufteilen:
1. Wachstumsphase: Erweiterung von S und T solange bis sie sich berühren“ und den ersten
”
s-t-Pfad bilden.
2. Erhöhungsphase: Der entsprechende Pfad wird erhöht, dadurch zerfallen S und T in Wälder.
3. Anpassungsphase: Die Bäume S und T werden wiederhergestellt.
Der Zerfall der Bäume S und T in Wälder geschieht, wenn eine Kante vom Elternknoten
zum Kindknoten plötzlich nach der Erhöhung gesättigt ist. In der Arbeit [BK04] werden diese
Kindknoten als Orphans“ bezeichnet. Sie bilden die Wurzelknoten der neuen Teilbäume.
”
In der Anpassungsphase wird anschließend zu jedem Orphan ein neuer Elternknoten gesucht,
welcher sich im gleichen Suchwald befindet wie der Orphan selbst (sozusagen eine Wiederherstellung). Die neue Verbindung zum neuen Elternknoten darf nicht gesättigt sein. Falls es keine
solche Verbindung gibt, wird der Orphan frei gegeben (free node) und alle seine Kindknoten
werden selbst zu Orphans. Daraufhin beginnt der Prozess von neuem.
Der Algorithmus endet, wenn die Suchbäume nicht weiter wachsen können (keine aktiven
Knoten mehr) und die Bäume durch gesättigte Kanten getrennt sind. Weitere algorithmische
Details können [BK04] und [Kol03] entnommen werden.
74
ANHANG A. MATHEMATISCHE DETAILS
A.3
Minimierung von F 2-Funktionen ist NP-schwer
In [KZ04] wird der Beweis über eine Reduktion des Problems der größten unabhängigen Menge
in einem Graphen geführt. Dieses Problem ist bekanntermaßen NP-schwer.
Sei G = (V, N ) ein beliebiger ungerichteter Graph mit n = ]V und m = ]N . Um die
größte unabhängige Menge1 in G zu finden, dient eine Umformulierung des Problems auf ein
Beschriftungsproblem. Sei L ∈ {0, 1}n ein binärer Vektor, welcher als Repräsentation einer
Teilmenge von Knoten in G verwendet wird. Gesucht ist demnach ein binärer Vektor, welcher
einer größten unabhängigen Menge in G entspricht.
Dieser Vektor lässt sich mit einem Optimierungsproblem mit folgender Form der Zielfunktion finden:
E(L) = −
X
1 X
Li +
Li L j .
2n i
(MaxISet)
(i,j)∈N
Diese Zielfunktion ist nicht mit dem in Abschnitt 2.3.4 beschriebenen Ising-Modell (2.27)
vergleichbar, da dieses Mal der Vektor L mit {0, 1} kodiert wurde. Erkennbar ist ebenfalls, dass
diese Funktion nicht regulär2 ist: 0 · 0 + 1 · 1 > 0 · 1 + 1 · 0.
Satz 1.5 Eine größte unabhängige Menge in einem ungerichteten Graphen G = (V, N ) lässt
sich durch Minimierung von (MaxISet) finden.
Beweis zu 1.5: Sei L̂ die Lösung von (MaxISet). Im Folgenden seien binäre Vektoren L ∈
{0, 1}n zusätzlich zur Vektordarstellung mit ihrer entsprechenden Menge von Knoten aus V
identifiziert.
Annahme 1: L̂ ist keine unabhängige Menge.
Dann gibt es mindestens ein benachbartes Knotenpaar in L̂ und es gilt demnach mit k = ]L̂:
E(L̂) ≥ −
1
k
+1>−
= E({v}).
2n
2n
(1.6)
mit einem beliebigen Knoten v aus V . Daher kann L̂ nicht die Lösung von (MaxISet) sein
und es ergibt sich der gewünschte Widerspruch zur Annahme 1.
Annahme 2: Es gibt eine Clique L in G mit ]L > ]L̂ = k.
1
A ⊆ V ist eine unabhängige Menge in G ⇐⇒ ∀v ∈ A : NG (v) ∩ A = ∅
Aus der Regularität von E würde sich folgende Argumentationskette ergeben: E regulär → E graph-darstellbar
→ (MaxISet) ∈ P → Maximum Independent Set ∈ P → P = N P → Fields Medal.
2
A.4. VERIFIKATION DER GRAPH-KONSTRUKTION BEI F2-FUNKTIONEN
75
Es ergibt sich sofort die Folgerung:
E(L) = −
]L
k
<−
= E(L̂).
2n
2n
(1.7)
Damit wären Annahme 1 und Annahme 2 widerlegt und der Beweis vollständig.
A.4
Verifikation der Graph-Konstruktion bei F 2-Funktionen
Im Folgenden soll die Korrektheit der Graph-Konstruktion für F 2 -Funktionen bewiesen werden.
Als Wegweiser“ dient Tabelle 3.4. Mit ∝ sei die Gleichheit bis auf eine Konstante bezeichnet.
”
Satz 1.8 Die Graph-Konstruktion für F 2 Funktionen, wie in Tabelle 3.4 beschrieben, ist korrekt.
Beweis zu 1.8: Gegeben sei ein minimaler Schnitt C im konstruierten Graphen. Mit L sei die
darauf definierte Beschriftung bezeichnet. Die Schreibweise Li = 0 als Index einer Summe
bedeutet, dass über alle möglichen i summiert wird, für die Li = 0 gilt.
X
w(e) =
e∈C
X
w((vi , vj )) +
X
w((s, vi )) +
Li =1
Li =0
Lj =1
X
w((vi , t))
(1.9)
Li =0
Die einzelnen Kantengewichte können durch die verwendeten Werte bei der Konstruktion
def
i,j def
(siehe Tabelle 3.4) ersetzt werden. Dazu seien die Abkürzungen Eab
= E i,j (a, b) und Eai =
E i (a) verwendet. Für die einzelnen Summanden der obigen Gleichung ergibt sich daraufhin:
X
w((vi , vj )) =
w((s, vi )) =
X
X
E1i − E0i +
Li =1,E1i ≥E0i
Li =1
+
i,j
i,j
i,j
i,j
− E11
E01
+ E10
− E00
(1.10)
Li =0
Lj =1
Li =0
Lj =1
X
X
X
Li =1 j,
X
j,i
j,i
E11
≥E10
Li =1 j,
j,i
j,i
E11
− E10
X
i,j
i,j
E10
− E00
+
(1.11)
i,j
i,j
E10
≥E00
(1.12)
76
ANHANG A. MATHEMATISCHE DETAILS
X
X
w((vi , t)) =
X
E0i − E1i +
+
i,j
i,j
E00
− E10
+
(1.13)
Li =0 j, E i,j ≤E i,j
Li =0,E1i ≤E0i
Li =0
X
10
X
X
Li =0
j,i
j,i
≤E10
j,E11
j,i
E10
−
j,i
E11
00
(1.14)
Für die E i -Terme gelten folgende Vereinfachungen:
X
Li =1,E1i ≥E0i
E1i − E0i +
X
X
E0i − E1i =
Li =0,E1i ≤E0i
E i (Li ) − E i (1 − Li )
i, E i (Li )≥E i (1−Li )
(1.15)
=
X
E i (Li ) −
i
∝
X
X
i
E i (Li )
i
min E (x)
x∈{0,1}
(1.16)
(1.17)
i
Ziel ist es noch zu zeigen, dass der Ausdruck
P
E i,j (Li , Lj ) und die folgende Summe bis
i,j
auf eine Konstante äquivalent sind:
X
i,j
i,j
i,j
i,j
E01
+ E10
− E00
− E11
+
(1.18)
Li =0
Lj =1
+
X
Li =1 j,
+
X
X
i,j
i,j
E10
− E00
+
(1.19)
i,j
i,j
E11
− E10
+
(1.20)
i,j
i,j
E00
− E10
+
(1.21)
i,j
i,j
E10
− E11
(1.22)
i,j
i,j
E10
≥E00
X
Lj =1 i, E i,j ≥E i,j
11
+
X
10
X
Li =0 j, E i,j ≤E i,j
10
+
X
00
X
Lj =0 i, E i,j ≤E i,j
11
10
An den Summanden (1.18) bis (1.22) lässt sich erkennen, dass es vollkommen legitim ist, die
einzelnen Terme E i,j getrennt voneinander zu betrachten. An dieser Stelle seien daher wieder
A.4. VERIFIKATION DER GRAPH-KONSTRUKTION BEI F2-FUNKTIONEN
77
die folgenden Abkürzungen und die Matrix-Notation der Funktion verwendet:
i,j
i,j
E01
E00
i,j
i,j
E10
E11
!
=
A B
C D
!
(1.23)
Bei einem Term E i,j ist es notwendig, 4 Fälle3 zu untersuchen. Aus der obigen großen Summe lassen sich daraufhin die Summanden angeben, welche von i und j gleichzeitig abhängig
sind. Diese Summanden seien mit S i,j bezeichnet und in der Matrix-Notation dargestellt. Ziel ist
es, zu zeigen, dass S i,j ∝ E i,j gilt.
1. Fall C ≥ A und D ≥ C
S i,j =
=
!
0
B+C −A−D+D−C
C −A
C −A+D−C
!
!
0
B−A
0
B−A
∝
+
C −A D−A
C −A D−A
(1.24)
A A
A A
!
= E i,j
(1.25)
2. Fall C ≥ A und D ≤ C
!
C −D
B+C −A−D
(1.26)
C −A+C −D
C −A
!
!
C −D
B+C −A−D
A−C +D A−C +D
+
= E i,j
2C − A − D
C −A
A−C +D A−C +D
S i,j =
=
(1.27)
3. Fall C ≤ A und D ≥ C
S i,j =
=
3
A−C B+C −A−D+A−C +D−C
0
D−C
!
!
A−C B−C
A−C B−C
∝
+
0
D−C
0
D−C
!
(1.28)
C C
C C
!
= E i,j
(1.29)
Die 4 Fälle sind nicht disjunkt. Bei den jeweiligen Schnittmengen fallen aber die Argumentationen (Umformungen) zu einer zusammen.
78
ANHANG A. MATHEMATISCHE DETAILS
4. Fall C ≤ A und D ≤ C
S i,j =
=
!
A−C +C −D B+C −A−D+A−C
C −D
0
!
!
!
A−D B−D
A−D B−C
D D
∝
+
= E i,j
C −D
0
C −D
0
D D
(1.30)
(1.31)
Setzt man diese Argumentation für die gesamte Funktion zusammen, erhält man das gewünschte Resultat:
X
e∈C
w(e) ∝
X
i
E i (Li ) +
X
i,j
E i,j (Li , Lj ) = F (L)
(1.32)
Anhang B
Details zu den Experimenten
B.1
Verwendete Parameter bei der Kennzeichenlokalisierung
Sequenz
NLSR520-2005*
NLTest8288
Elzerberg Testset 22282
vx
175
175
350
vy
64
64
80
Tabelle B.1: Verwendete Parameter bei den Experimenten der Kennzeichenlokalisierung
Tabelle B.1 zeigt die verwendeten Angaben für die Maximalgröße eines Nummernschildes.
Als Nachbarschaft bei der Zielfunktion des Optimierungsproblems wurde die 8er-Nachbarschaft
(siehe Abschnitt 2.1) verwendet.
B.2
Problemfälle bei der Kennzeichenlokalisierung
In Abbildung B.1 ist eine Schwierigkeit bei der Kennzeichenlokalisierung erkennbar. Deutsche
Trennungssymbole bewirken, dass der Graph-Cut Ansatz den Rand dieser Zeichen gegenüber
dem Rand des Nummernschildes bevorzugt. Dies kann zwar durch eine größere Teilfixierung des
Vordergrundes verhindet werden, führt aber zu einer stärkeren Abhängigkeit von der Hypothese.
79
80
ANHANG B. DETAILS ZU DEN EXPERIMENTEN
Bild B.1: Problemfall bei der Kennzeichenlokalisierung: Trennung entlang der deutschen
Trennungssymbole: (Links) Origin albild, (Rechts) Segmentierung des Bildes in InterlacedDarstellung
Parameter
γ
λ
αp
βp
κp
κe
Wert
3
1
2
4 · 103
0.03 ∼
= 3cm
0.03 ∼
= 3cm
8
Tabelle B.2: Verwendete Parameter bei den Experimenten der Ebenensegmentierung
B.3
Verwendete Parameter bei der Ebenendetektion
In Tabelle B.2 sind alle verwendeten Parameter bei den Verfahren der Ebenendetektion aufgeführt. Diese Werte wurden bei den Experimenten verwendet und orientieren sich an empirisch
gewählten Werten und Angaben aus der Literatur wie etwa [XS05].
B.4
Weitere Beispielbilder der Ebenendetektion
Bild B.2: Beispiel für eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mit
Graph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwendung von Tiefen- und Grauwertinformationen
B.4. WEITERE BEISPIELBILDER DER EBENENDETEKTION
81
Bild B.3: Originalbild von Beispiel 5.5 aufgenommen mit einer Sony Kamera
Die Abbildung B.3 zeigt eine übersichtliche Darstellung der verwendeten Szene von Beispiel 5.5. Ein weiteres Beispiel für das Ergebnis einer Ebenendetektion mit Graph-Cut ist in
Abbildung B.2 dargestellt.
82
ANHANG B. DETAILS ZU DEN EXPERIMENTEN
Literaturverzeichnis
[BDV07]
J. M. Bioucas-Dias, G. Valadao: Phase Unwrapping via Graph Cuts, Image Processing, IEEE Transactions on, Bd. 16, Nr. 3, March 2007, S. 698–709.
[Bes86]
J. Besag: On the Statistical Analysis of Dirty Pictures, Journal of the Royal Statistical Society, Bd. 48, 1986, S. 259–279.
[BFL06]
Y. Boykov, G. Funka-Lea: Graph Cuts and Efficient N-D Image Segmentation, International Journal of Computer Vision, Bd. 70, Nr. 2, 2006, S. 109–131.
[BJ00]
Y. Boykov, M.-P. Jolly: Interactive Organ Segmentation Using Graph Cuts, in
MICCAI ’00: Proceedings of the Third International Conference on Medical Image
Computing and Computer-Assisted Intervention, Springer-Verlag, London, UK,
2000, S. 276–286.
[BJ01a]
Y. Boykov, M. Jolly: Demonstration of segmentation with interactive graph cuts,
in Eighth IEEE International Conference on Computer Vision, 2001. ICCV 2001.
Proceedings, Bd. 2, 7-14 July 2001, S. 741–741.
[BJ01b]
Y. Boykov, M.-P. Jolly: Interactive graph cuts for optimal boundary & region segmentation of objects in N-D images, in Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference on, Bd. 1, 7-14 July 2001, S. 105–112.
[BK03]
Y. Boykov, V. Kolmogorov: Computing geodesics and minimal surfaces via graph
cuts, in Computer Vision, 2003. Proceedings. Ninth IEEE International Conference
on, Bd. 1, 2003, S. 26–33.
[BK04]
Y. Boykov, V. Kolmogorov: An experimental comparison of min-cut/max- flow algorithms for energy minimization in vision, Pattern Analysis and Machine Intelligence,
IEEE Transactions on, Bd. 26, Nr. 9, Sept. 2004, S. 1124–1137.
83
84
[BT99]
LITERATURVERZEICHNIS
S. Birchfield, C. Tomasi: Multiway cut for stereo and motion with slanted surfaces, in Computer Vision, 1999. The Proceedings of the Seventh IEEE International
Conference on, Bd. 1, 20-27 Sept. 1999, S. 489–495.
[BVZ98a] Y. Boykov, O. Veksler, R. Zabih: Markov random fields with efficient approximations, in Computer Vision and Pattern Recognition, 1998. Proceedings. 1998 IEEE
Computer Society Conference on, 23-25 June 1998, S. 648–655.
[BVZ98b] Y. Boykov, O. Veksler, R. Zabih: Efficient Restoration of Multicolor Images with
Independent Noise, TR98-1712, Cornell University, 27, 1998.
[BVZ99a] Y. Boykov, O. Veksler, R. Zabih: Fast approximate energy minimization via graph
cuts, in Computer Vision, 1999. The Proceedings of the Seventh IEEE International
Conference on, Bd. 1, 20-27 Sept. 1999, S. 377–384.
[BVZ99b] Y. Boykov, O. Veksler, R. Zabih: A New Algorithm for Energy Minimization with
Discontinuities, in Energy Minimization Methods in Computer Vision and Pattern
Recognition, 1999, S. 205–220.
[BVZ01]
Y. Boykov, O. Veksler, R. Zabih: Fast approximate energy minimization via graph
cuts, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 23,
Nr. 11, Nov. 2001, S. 1222–1239.
[CG06]
D. Cremers, L. Grady: Statistical Priors for Efficient Combinatorial Optimization
Via Graph Cuts., in Computer Vision - ECCV 2006, 9th European Conference on
Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part III, 2006, S.
263–274.
[CKS03]
D. Cremers, T. Kohlberger, C. Schnörr: Shape Statistics in Kernel Space for Variational Image Segmentation, Pattern Recognition, Bd. 36, Nr. 9, 2003, S. 1929–1943.
[Cun85]
W. H. Cunningham: Minimum Cuts, Modular Functions, and Matroid Polyhedra,
Networks, Bd. 15, 1985, S. 205–215.
[CWC06]
W. Cai, J. Wu, A. Chung: Shape-Based Image Segmentation Using Normalized
Cuts, in IEEE International Conference on Image Processing (ICIP’06), 2006, S.
1101–1104.
LITERATURVERZEICHNIS
85
[CZ01]
D. Cobzas, H. Zhang: Planar patch extraction with noisy depth data, in Proceedings
Third International Conference on 3-D Digital Imaging and Modeling, Quebec, Canada, May 2001, S. 240–245.
[CZ05]
A. Y. S. Chia, V. Zagorodnov: Graph Cut Segmentation on Convoluted Objects,
IEEE International Conference on Image Processing, Bd. 3, 2005, S. 848–851.
[DJP*94]
E. Dahlhaus, D. S. Johnson, C. H. Papadimitriou, P. D. Seymour, M. Yannakakis:
The Complexity of Multiterminal Cuts, SIAM J. Comput., Bd. 23, Nr. 4, 1994, S.
864–894.
[FD05]
D. Freedman, P. Drineas: Energy Minimization via Graph Cuts: Settling What is
Possible, in CVPR ’05: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) - Volume 2, IEEE
Computer Society, Washington, DC, USA, 2005, S. 939–946.
[Fer95]
P. Ferrari: Fast Approximate MAP Restoration of Multicolor Images, Journal of the
Royal Statistical Society, Bd. 57, Nr. 3, 1995, S. 485–500.
[FZ05]
D. Freedman, T. Zhang: Interactive graph cut based segmentation with shape priors,
in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer
Society Conference on, Bd. 1, 2005, S. 755–762.
[GG84]
S. Geman, D. Geman: Stochastic Relaxation, Gibbs Distributions, and the Bayesian
Restoration of Images, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 6, Nr. 6, November 1984, S. 721–741.
[GPS86]
Greig, Porteuous, Seheult: Discussion on On the statistical analysis of dirty pictures,
Journal of the Royal Society of Statistics, Series B, Bd. 48, 1986, S. 282–284.
[GPS89]
Greig, Porteous, Seheult: Exact Maximum A Posteriori Estimation for Binary
Images, Journal of the Royal Statistical Society, Series B, Bd. 51, 1989, S. 271–
279.
[Gra87]
C. Graffigne: Experiments in texture analysis and segmentation, PhD thesis, Brown
University, 1987.
[GS06]
L. Grady, E. Schwartz: Isoperimetric graph partitioning for image segmentation,
Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 28, Nr. 3,
March 2006, S. 469–475.
86
LITERATURVERZEICHNIS
[Hub80]
P. J. Huber: Robust Statistics, John Wiley and Sons, 1980.
[IG98]
H. Ishikawa, D. Geiger: Segmentation by grouping junctions, in IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1998. Proceedings,
23-25 June 1998, S. 125–131.
[IG99]
H. Ishikawa, D. Geiger: Mapping Image Restoration to a Graph Problem, in IEEEEURASIP Workshop on Nonlinear Signal and Image Processing, 1999, S. 20–23.
[Ish03]
H. Ishikawa: Exact optimization for Markov random fields with convex priors, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 25, Nr. 10, Oct.
2003, S. 1333–1336.
[Isi25]
E. Ising: Beitrag zur Theorie des Ferromagnetismus, Zeitschrift fuer Physik, Bd. 31,
1925, S. 253–258.
[JB06]
O. Juan, Y. Boykov: Active Graph Cuts, in Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, Bd. 1, 17-22 June 2006, S.
1023–1029.
[KB05]
V. Kolmogorov, Y. Boykov: What metrics can be approximated by geo-cuts, or
global optimization of length/area and flux, in Computer Vision, 2005. ICCV 2005.
Tenth IEEE International Conference on, Bd. 1, 17-21 Oct. 2005, S. 564–571.
[KD07]
O. Kähler, J. Denzler: Detecting Coplanar Feature Points in Handheld Image Sequences, in Proceedings Conference on Computer Vision Theory and Applications
(VISAPP 2007), Bd. 2, INSTICC Press, Barcelona, March 2007, S. 447–452.
[KKZ03]
J. Kim, V. Kolmogorov, R. Zabih: Visual correspondence using energy minimization and mutual information, in Computer Vision, 2003. Proceedings. Ninth IEEE
International Conference on, Bd. 2, 13-16 Oct. 2003, S. 1033–1040.
[Kol03]
V. Kolmogorov: Graph-based Algorithms for Multi-camera Reconstruction Problem, PhD thesis, Cornell University, CS Department, 2003.
[KR04]
R. Klette, A. Rosenfeld: Digital Geometry: Geometric Methods for Digital Picture
Analysis, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2004.
LITERATURVERZEICHNIS
87
[KR06]
V. Kolmogorov, C. Rother: Comparison of Energy Minimization Algorithms for
Highly Connected Graphs., in Computer Vision - ECCV 2006, 9th European Conference on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part II,
2006, S. 1–15.
[KRD07]
O. Kähler, E. Rodner, J. Denzler: Fusion of Range and Intensity Information Using
Graph-Cut for Planar Patch Segmentation, (submitted to Dynamic 3D Imaging
Workshop 2007), 5 2007.
[KT05]
J. Kleinberg, E. Tardos: Algorithm Design, Addison-Wesley Longman Publishing
Co., Inc., Boston, MA, USA, 2005.
[KT06]
P. Kohli, P. H. S. Torr: Measuring Uncertainty in Graph Cut Solutions - Efficiently
Computing Min-marginal Energies Using Dynamic Graph Cuts., in Computer Vision - ECCV 2006, 9th European Conference on Computer Vision, Graz, Austria,
May 7-13, 2006, Proceedings, Part II, 2006, S. 30–43.
[KTZ05]
M. P. Kumar, P. H. S. Torr, A. Zisserman: OBJ CUT, in CVPR ’05: Proceedings of
the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) - Volume 1, IEEE Computer Society, Washington, DC, USA,
2005, S. 18–25.
[KZ02]
V. Kolmogorov, R. Zabih: Multi-camera Scene Reconstruction via Graph Cuts, in
European Conference on Computer Vision, 2002, S. 82–96.
[KZ04]
V. Kolmogorov, R. Zabin: What energy functions can be minimized via graph cuts?,
Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 26, Nr. 2,
Feb 2004, S. 147–159.
[Lan00]
R. Lange: 3D Time-of-Flight Distance Measurement with Custom Solid-State Image
Sensors in CMOS/CCD-Technology, PhD thesis, University of Siegen, 2000.
[LSGX05] H. Lombaert, Y. Sun, L. Grady, C. Xu: A Multilevel Banded Graph Cuts Method for
Fast Image Segmentation, in ICCV ’05: Proceedings of the Tenth IEEE International Conference on Computer Vision (ICCV’05) Volume 1, IEEE Computer Society,
Washington, DC, USA, 2005, S. 259–265.
88
LITERATURVERZEICHNIS
[Pol]
D. B. Pollard:
Hammersley-clifford theorem for markov random fields. Handouts,
Available at http://www, star.yale.edu/
pollard/251.spring04/Handouts/Hammersley-Clifford.pdf.
[PR75]
Picard, Ratliff: Minimum cuts and related problems, Networks, Bd. 5, 1975, S.
357–370.
[RK06]
C. Rother, V. Kolmogorov: Minimizing non-submodular functions with graph cuts
- a review, MSR-TR-2006-100, Microsoft Research, 2006.
[RMBK06] C. Rother, T. Minka, A. Blake, V. Kolmogorov: Cosegmentation of Image Pairs by
Histogram Matching - Incorporating a Global Constraint into MRFs, in CVPR ’06:
Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition, IEEE Computer Society, Washington, DC, USA, 2006, S.
993–1000.
[RSZ06]
A. Raj, G. Singh, R. Zabih: MRF’s for MRI’s: Bayesian Reconstruction of MR
Images via Graph Cuts., in 2006 IEEE Computer Society Conference on Computer
Vision and Pattern Recognition (CVPR 2006), 17-22 June 2006, New York, NY, USA,
2006, S. 1061–1068.
[SC06]
T. Schoenemann, D. Cremers: Near Real-Time Motion Segmentation Using Graph
Cuts., in DAGM-Symposium, 2006, S. 455–464.
[Sch04]
A. Schrijver: Combinatorial Optimization : Polyhedra and Efficiency (Algorithms
and Combinatorics), Springer, July 2004.
[SG06]
A. K. Sinop, L. Grady: Accurate Banded Graph Cut Segmentation of Thin Structures
Using Laplacian Pyramids., in Medical Image Computing and Computer-Assisted
Intervention - MICCAI 2006, 9th International Conference, Copenhagen, Denmark,
October 1-6, Proceedings, Part II, 2006, S. 896–903.
[SM97]
J. Shi, J. Malik: Motion Segmentation and Tracking using normalized cuts, 962,
University of California, Berkeley, 1997.
[SM98]
J. Shi, J. Malik: Motion segmentation and tracking using normalized cuts, in Proceedings of the Sixth International Conference on Computer Vision, 1998, S. 1154–
1160.
LITERATURVERZEICHNIS
89
[SM00]
J. Shi, J. Malik: Normalized cuts and image segmentation, Pattern Analysis and
Machine Intelligence, IEEE Transactions on, Bd. 22, Nr. 8, Aug. 2000, S. 888–905.
[SRR07]
W. Schorisch, H. Rodner, H.-J. Rodner: Thanks for everything, International Journal for Acknowledgements, Bd. 1, 2007, S. 1–10.
[SZS*06]
R. Szeliski, R. Zabih, D. Scharstein, O. Veksler, V. Kolmogorov, A. Agarwala, M. F.
Tappen, C. Rother: A Comparative Study of Energy Minimization Methods for Markov Random Fields., in Computer Vision - ECCV 2006, 9th European Conference
on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part II, 2006, S.
16–29.
[Vek99]
O. Veksler: Efficient graph-based energy minimization methods in computer vision,
PhD thesis, Faculty of the Graduate School of Cornell University, 1999.
[Vek00]
O. Veksler: Image Segmentation by Nested Cuts, in IEEE Conference on Computer
Vision and Pattern Recognition, Bd. 1, 2000, S. 339–344.
[vH06]
W. von Hansen: Robust Automatic Marker-free Registration of Terrestrial Scan
Data, in Proceedings Photogrammetric Computer Vision 2006, Bd. 36, Bonn, Germany, September 2006, S. 105–110.
[Win06]
G. Winkler: Image Analysis, Random Fields and Markov Chain Monte Carlo Methods, Springer-Verlag New York, Inc., 2006, ISBN 3540442138.
[XS05]
J. Xiao, M. Shah: Motion layer extraction in the presence of occlusion using graph
cuts, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 27,
Nr. 10, Oct. 2005, S. 1644–1659.
[YFW00]
J. S. Yedidia, W. T. Freeman, Y. Weiss: Generalized Belief Propagation, in NIPS,
2000, S. 689–695.
[YS06]
P. Yan, M. Shah: Segmentation of Neighboring Structures by Modeling Their Interaction, in CVPRW ’06: Proceedings of the 2006 Conference on Computer Vision and Pattern Recognition Workshop, IEEE Computer Society, Washington, DC,
USA, 2006, S. 77.
90
LITERATURVERZEICHNIS
Verzeichnis der Bilder
2.1
Binäre Bildrestaurierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1
Konstruktion der Kanten für F2-Funktionen . . . . . . . . . . . . . . . . . . . . 29
3.2
Graphkonstruktion für ein einfaches Beispiel . . . . . . . . . . . . . . . . . . . 31
3.3
Einfaches Graph-Cut-Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4
Beziehungen der Funktionsklassen . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5
Beispiel eines Alpha-Erweiterungsschrittes . . . . . . . . . . . . . . . . . . . . 37
4.1
Veranschaulichung von Gleichung (4.4) . . . . . . . . . . . . . . . . . . . . . . 47
4.2
Segmentierung mit Teilfixierung . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3
Ausgangsbild für die Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . 49
4.4
Veranschaulichung der fixierten Bereiche . . . . . . . . . . . . . . . . . . . . . 49
4.5
Ergebnis der Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . . . . 50
4.6
Beispiel für eine Level-Set Darstellung . . . . . . . . . . . . . . . . . . . . . . . 53
4.7
Beispiel für die sigmoidale Funktion s . . . . . . . . . . . . . . . . . . . . . . . 54
4.8
Bewegungssegmentierung einer Ebene . . . . . . . . . . . . . . . . . . . . . . . 54
4.9
Ebenensegmentierung mit Graph-Cut-Verfeinerung . . . . . . . . . . . . . . . . 57
5.1
Kamera für Echtzeit-Tiefeninformationen . . . . . . . . . . . . . . . . . . . . . 62
5.2
Versuchsaufbau für Beispiel 5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3
Fehler ẽ bei [KD07] Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.4
Fehler ẽ bei Region-Growing Verfahren . . . . . . . . . . . . . . . . . . . . . . 64
5.5
Beispiel für eine Ebenensegmentierung . . . . . . . . . . . . . . . . . . . . . . 65
A.1 Notation von [BK04] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
B.1 Problemfall bei der Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . 80
B.2 Beispiel für eine Ebenensegmentierung . . . . . . . . . . . . . . . . . . . . . . 80
91
92
VERZEICHNIS DER BILDER
B.3 Originalbild von Beispiel 5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Verzeichnis der Tabellen
3.2
3.4
3.6
Laufzeiten von Max-Flow Algorithmen . . . . . . . . . . . . . . . . . . . . . . 25
Graph-Konstruktion für F2-Funktionen . . . . . . . . . . . . . . . . . . . . . . . 30
Literaturverweise: Charakterisierung der graph-darstellbaren Funktionen . . . . . 35
5.1
5.2
5.3
5.4
5.5
5.6
Verwendete Testsequenzen . . . . . . . .
Ergebnisse der Kennzeichenlokalisierung
Auswertung der Laufzeit . . . . . . . . .
Auswertung des Parameters σ . . . . . .
Auswertung des Parameters ux . . . . . .
Durchschnittswerte von ẽ . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
60
60
61
61
65
B.1 Verwendete Parameter bei den Experimenten der Kennzeichenlokalisierung . . . 79
B.2 Verwendete Parameter bei den Experimenten der Ebenensegmentierung . . . . . 80
93