Segmentierung mit Graph-Cut-Methoden
Transcription
Segmentierung mit Graph-Cut-Methoden
Segmentierung mit Graph-Cut-Methoden Diplomarbeit im Fach Informatik vorgelegt von Erik Rodner Geboren am 22.05.1983 in Königs Wusterhausen Angefertigt am Lehrstuhl für Digitale Bildverarbeitung Fakultät für Mathematik und Informatik Friedrich-Schiller-Universität Jena. Betreuer: Prof. Dr.Ing. J. Denzler, Dr. rer. nat. habil. H. Süße, Dipl.Inf. O. Kähler Beginn der Arbeit: 4. Februar 2007 Abgabe der Arbeit: 6. Juli 2007 ii iii Ich versichere, dass ich die Arbeit ohne fremde Hilfe und ohne Benutzung anderer als der angegebenen Quellen angefertigt habe und dass die Arbeit in gleicher oder ähnlicher Form noch keiner anderen Prüfungsbehörde vorgelegen hat und von dieser als Teil einer Prüfungsleistung angenommen wurde. Alle Ausführungen, die wörtlich oder sinngemäß übernommen wurden, sind als solche gekennzeichnet. Die Richtlinien des Lehrstuhls für Studien- und Diplomarbeiten habe ich gelesen und anerkannt, insbesondere die Regelung des Nutzungsrechts. Jena, den 5. Juli 2007 iv Übersicht Die vorliegende Arbeit beschreibt die Verwendung von sogenannten Graph-Cut-Methoden in der Bildverarbeitung. Diese Methoden lösen Segmentierungsprobleme mit Verfahren der diskreten Optimierung. Notwendige theoretische Grundlagen aus der Bayesschen Bildanalyse, Graphentheorie, diskreten Optimierung und theoretischen Informatik werden dargestellt und in einem gemeinsamen Kontext erläutert. Einen Schwerpunkt bildet dabei eine klare Eingrenzung der Möglichkeiten von Graph-Cut-Verfahren. Ausgehend von diesen Untersuchungen werden im weiteren Verlauf der Arbeit zwei Problemstellungen der Bildverarbeitung bearbeitet. Die Lokalisierung des Kennzeichenrandes ist ein wichtiger Schritt im Gesamtsystem eines Kennzeichenlesers und kann effizient durch einen Graph-Cut-Ansatz gelöst werden. Weiterhin werden Verfahren zur Verbesserung der Ebenendetektion entwickelt, welche es unter anderem ermöglichen, Tiefeninformationen und Grauwertinformationen aktueller Spezialkameras in einem Optimierungsschritt zu kombinieren. Die Auswertung der vorgestellten Verfahren erfolgt anhand von Experimenten und dem Vergleich mit Ground-Truth Daten. Abstract The following work describes the potential of graph cut methods in computer vision. These methods solve segmentation problems with discrete optimization techniques. Theoretic fundamentals from bayesian image analysis, graph theory, discrete optimization and theoretical computer science are presented and explained in a common framework. Thereby the main focus is the study of well defined limitations of graph cut methods. Based on these results it is possible to develop new solutions for two applications. The localization of a license plate border is an important step in a license plate recognition system and can be solved efficiently with a graph cut approach. Furthermore different methods to refine planar patch detection are developed, which are able to combine depth and intensity information from 3-D imaging sensors in a single optimization step. Evaluation of all proposed algorithms is done by experiments and comparision with ground truth data. Inhaltsverzeichnis 1 2 3 Einführung 1 1.1 Literaturüberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Verwendete Notationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Markov Random Fields 7 2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Satz von Hammersley-Clifford . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 Schätzung mittels MRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.1 MAP-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.2 Annahmen der Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.3 Vereinfachungen der Schätzung . . . . . . . . . . . . . . . . . . . . . . 11 2.3.4 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Schätzung von MRF-Zuständen mit minimalen Schnitten 3.1 3.2 3.3 17 Minimale Schnitte in Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.1.1 Problemdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.1.2 Zusammenhang zur Bestimmung des maximalen Flusses . . . . . . . . . 19 Algorithmen zur Bestimmung des minimalen Schnittes . . . . . . . . . . . . . . 23 3.2.1 Der Algorithmus von Dinic . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2.2 Der Algorithmus von Kolmogorov und Boykov . . . . . . . . . . . . . . 24 Diskrete Optimierung mit Graph-Cut . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.1 Das Optimierungsproblem und die Funktionsklassen F2 und F3 . . . . . 25 3.3.2 Regularität und Graphkonstruktion für F2 . . . . . . . . . . . . . . . . . 26 3.3.3 Vollständige Charakterisierung . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.4 Der Zusammenhang zu submodularen Funktionen . . . . . . . . . . . . 33 v vi INHALTSVERZEICHNIS 3.4 4 4.2 4.3 5.2 7 Beschreibung des Algorithmus . . . . . . . . . . . . . . . . . . . . . . . 37 3.4.2 Eigenschaften des Algorithmus . . . . . . . . . . . . . . . . . . . . . . 39 3.4.3 Anforderungen an Zielfunktionen der Funktionsklasse F2 . . . . . . . . 41 3.4.4 Beziehung zur Schätzung von MRF-Zuständen . . . . . . . . . . . . . . 42 45 Interaktive Segmentierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.2 Festlegung der unabhängigen Kosten einzelner Pixel . . . . . . . . . . . 46 4.1.3 Wahl der Cliquen-Potentiale 2. Ordnung . . . . . . . . . . . . . . . . . . 46 Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.2 Kennzeichenlokalisierung als binäres Segmentierungsproblem . . . . . . 48 Ebenendetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.3.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.3.2 Ebenendetektion durch Bewegungssegmentierung . . . . . . . . . . . . . 51 4.3.3 Ebenendetektion mit zusätzlicher Tiefeninformation . . . . . . . . . . . 55 Experimente 5.1 6 3.4.1 Anwendungen 4.1 5 alpha-Expansion-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 59 Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.1.1 Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.1.2 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Ebenendetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.2.1 Experimentaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.2.2 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Ausblick 67 6.1 Allgemeine Ansätze für die weitere Forschung . . . . . . . . . . . . . . . . . . . 67 6.2 Verbesserung der Kennzeichenerkennung durch Graph-Cut-Verfahren . . . . . . 68 6.3 Erweiterung der Ebenendetektion mit Graph-Cut . . . . . . . . . . . . . . . . . 68 Zusammenfassung 69 A Mathematische Details 71 A.1 Zusammenhang zwischen binärer Bildrestaurierung und Medianfilter . . . . . . . 71 vii INHALTSVERZEICHNIS A.2 Details zum Algorithmus von [BK04] . . . . . . . . . . . . . . . . . . . . . . . 72 A.3 Minimierung von F2-Funktionen ist NP-schwer . . . . . . . . . . . . . . . . . . 74 A.4 Verifikation der Graph-Konstruktion bei F2-Funktionen . . . . . . . . . . . . . . 75 B Details zu den Experimenten B.1 Verwendete Parameter bei der Kennzeichenlokalisierung B.2 Problemfälle bei der Kennzeichenlokalisierung . . . . . B.3 Verwendete Parameter bei der Ebenendetektion . . . . . B.4 Weitere Beispielbilder der Ebenendetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 79 79 80 80 Literaturverzeichnis 83 Verzeichnis der Bilder 91 Verzeichnis der Tabellen 93 viii INHALTSVERZEICHNIS Kapitel 1 Einführung Die folgende Arbeit beschäftigt sich mit den Möglichkeiten der Verwendung diskreter Optimierungsverfahren bei Segmentierungsaufgaben in der Bildverarbeitung. Dabei bezeichnet der Begriff der Segmentierung eines Bildes allgemein die Zusammenfassung von Pixeln aufgrund von gewissen Kriterien zu inhaltlich zusammenhängenden Regionen. Diese Definition wirft zwei Fragestellungen auf: Wie lassen sich anwendungsspezifische Kriterien definieren und wie lässt sich aufgrund dieser Kriterien eine Segmentierung durchführen? Bisherige Segmentierungsansätze verwenden meistens eine Folge von einzelnen Operationen und Verarbeitungsschritten wie etwa Kantendetektion und anschließende Kontursuche. Eine klare mathematische Formulierung der Segmentierungskriterien kann bei dieser Staffelung oft nicht verwendet werden und ist auch nicht implizit gegeben. Ein komplett anderer Zugang ist die Segmentierung mit mathematischen Optimierungsverfahren wie bei der Bayessche Bildanalyse. Kriterien für die Segmentierung werden dort anhand eines Optimierungsproblems angegeben. Der Schwerpunkt dieser Arbeit ist dabei die Verwendung von diskreten Optimierungsproblemen. Als Segmentierungsverfahren kann nach der Entwicklung anwendungsspezifischer Kriterien, im weiteren Verlauf der Arbeit auch als Modell bezeichnet, ein passendes numerisches Verfahren aus der mathematischen Optimierung gewählt werden. So genannte Graph-Cut-Methoden besitzen ihren Ursprung in der mathematischen Optimierung. Grundidee ist die Abbildung eines Optimierungsproblems in ein Problem der Graphentheorie. Die Formulierung des Problems in der Sprache der Graphentheorie ermöglicht es, ein breites Spektrum von Forschungsergebnissen in diesem Bereich zu verwenden. Vor allem die Resultate der theoretischen Informatik bieten diesbezüglich klar definierte Grenzen der Berechenbarkeit und Lösungsansätze für die Ermittlung approximierter Lösungen. 1 2 KAPITEL 1. EINFÜHRUNG Ziel dieser Arbeit soll es daher unter anderem sein, theoretische Möglichkeiten der Anwendung von Graph-Cut-Verfahren in der Bildverarbeitung aufzuzeigen. Weiterhin werden konkrete algorithmische Lösungen für ein Problem der industriellen Bildverarbeitung (Kennzeichenlokalisierung) sowie des Rechnersehens (Ebenendetektion) entwickelt und durch Experimente verifiziert. 1.1 Literaturüberblick Bereits in den frühen Jahren der Bildverarbeitung wurden Segmentierungsprobleme mit mathematischen Optimierungsverfahren gelöst. Ausgangspunkt ist stets die MAP-Schätzung von Zufallsvariablen mit einem zugrunde liegenden Markov Random Field (MRF) Modell (MRFZufallsvariable). Die für die Schätzung notwendige Optimierung wird dabei im ursprünglichen Standardwerk [GG84] der Bayesschen Bildanalyse [Win06] mit dem Gibbs Sampler durchgeführt. Dieser Algorithmus ist ein Spezialfall zum allgemeineren Metropolis-Hasting Algorithmus beziehungsweise der Optimierung mit Simulated Annealing. Diese Verfahren können auf allgemeine Zielfunktionen angewendet werden, daher ist es zum Beispiel nicht möglich obere Schranken für die Laufzeit anzugeben. Als weiteres iteratives Verfahren aus den Anfängen sei der Iterated Conditional Modes (ICM) Algorithmus aus dem Beitrag [Bes86] erwähnt. Eine Anmerkung in der dazugehörigen veröffentlichten Diskussion [GPS86] legt als erstes die Verbindung zur diskreten Optimierung [PR75, Cun85] offen und ermöglicht so die exakte MAP-Schätzung von MRF-Zufallsvariablen bei binären Segmentierungsproblemen [GPS89]. Grundidee ist die Übertragung auf das Problem des minimalen Schnittes (Min-Cut) aus der Graphentheorie. Die Einschränkung auf binäre Probleme galt lange Zeit als unüberwindbare Einschränkung 1 . Die Arbeiten [IG98, IG99, Ish03] untersuchen daher Bedingungen an die Zielfunktion, für welche auch bei nicht-binären Problemen ein globales exaktes Minimum gefunden werden kann. In [Fer95] wird hingegen versucht, eine Lösung des allgemeinen Segmentierungsproblems mit mehreren Klassen durch eine Aufteilung in binäre Probleme zu finden. Die Arbeiten von Boykov, Zabih und Veksler [BVZ98a, BVZ01] 2 verfolgen eine ähnliche Grundidee, welche zum αExpansion-Algorithmus führt und die Grundlage bildet für viele weitere Anwendungen. Der Algorithmus ist ein Approximationsalgorithmus 3 , der nur ein lokales Minimum des NP-schweren 1 Diese Ansicht ist auch noch in aktuellen“ Werken der Bayesschen Bildanalyse vorhanden [Win06]. ” Zur Vollständigkeit seien hier die Arbeiten [BVZ98b, BVZ99a, BVZ99b, Vek99] als verwandte Publikationen aufgeführt, die manche Details näher beschreiben. 3 Es sei an dieser Stelle erwähnt dass der Algorithmus unabhängig von der Anwendung und dem Ursprung in der 2 1.1. LITERATURÜBERBLICK 3 Ursprungsproblems [DJP*94] sicherstellen kann. Zusammen mit der Abbildung der MAP-Schätzung bei binären Problemen auf das Min-Cut-Problem der kombinatorischen Optimierung nach [GPS86] werden diese Ansätze in der neueren Literatur oft zusammengefasst als Graph-CutMethoden bezeichnet. Dieser Begriff kann durchaus zu ungewollten Mehrdeutigkeiten führen, da im Bereich der Segmentierung auch andere Definitionen von Schnitten in einem Graphen verwendet werden. Hervorzuheben ist an dieser Stelle der verwandte Begriff des Normalized-Cut (N-Cut), welcher nur durch einen Übergang von der diskreten zur kontinuierlichen Optimierung ermittelt werden kann [SM00, SM97, SM98, CWC06]. Als wichtigste Anwendungsgebiete des α-Expansion-Algorithmus sind die Bestimmung von dichten Tiefenkarten [KZ02, KKZ03, Kol03], die Segmentierung mit einer Teilfixierung der Labels bei der interaktiven Segmentierung [BJ00, BJ01a, BJ01b, FZ05, BFL06, RMBK06, YS06], die Segmentierung von beliebigen Bildern [Vek00] ohne A-Priori-Information, die Segmentierung bei Bildern bestimmter Objektkategorien [KTZ05], Phase Unwrapping [BDV07] und die Segmentierung auf der Grundlage von Bewegungsinformationen [BT99, XS05, SC06] zu nennen. Für die Verwendung von Graph-Cut-Methoden in der Bildverarbeitung als reines Werkzeug ist es unerlässlich, theoretische Grenzen der Modellierungsmöglichkeiten bei der Anwendung von Graph-Cut-Methoden aufzuzeigen. Einschränkungen bei der Modellierung liegen darin begründet, dass die Zielfunktion nur einer beschränkten Funktionsklasse angehören kann. In [KZ04] wird für eine große Klasse von Zielfunktionen eine allgemeine Graph-Konstruktion angegeben. Die Ausführungen [FD05] sind eine reine theoretische Abhandlung über die Erweiterbarkeit dieser beschriebenen Funktionsklasse. Aufgezeigte theoretische Grenzen können in der Praxis natürlich nicht umgangen werden. Dennoch ist es möglich, durch die Verwendung des Quadratic Pseudo-Boolean Optimization (QPBO) Algorithmus [RK06, RSZ06] eine partielle Lösung allgemeinerer Optimierungsprobleme zu erhalten. Neue Ideen, um Graph-Cut-Methoden auch algorithmisch zu verbessern, umfassen die Verbesserung der Laufzeit mit neuen für die Bildverarbeitung angepassten Algorithmen der Optimierung [BK04] sowie die traditionelle Beschleunigung durch Auflösungshierarchien [LSGX05, SG06, JB06]. Die Möglichkeit, ein Maß für die Unsicherheit eines Segmentierungsergebnisses zu erhalten, wird durch [KT06] untersucht. Die Arbeiten [BK03, KB05] ziehen direkte Verbindungen zu anderen Standardansätzen in der Bildverarbeitung wie etwa level-set Methoden. Bildverarbeitung in der kombinatorischen bzw. diskreten Optimierung anzusiedeln ist. 4 KAPITEL 1. EINFÜHRUNG Trotz der Entwicklung neuer Verfahren für die MAP-Schätzung von MRFs wie etwa Loopy Belief Propagation [YFW00] sind Graph-Cut-Methoden bezüglich ihrer Geschwindigkeit und der Güte des gefundenen Optimums führend [KR06, SZS*06]. 1.2 Verwendete Notationen Pr(X = X) Für diskrete Zufallsvariablen X sei damit die Wahrscheinlichkeit des Ereignisses {X = X} bezeichnet. Bei stetigen Zufallsvariablen hingegen steht diese Notation für die Dichte von X in Abhängigkeit von X. Abkürzend kann auch die Notation Pr(X) in eindeutigen Situationen verwendet werden. Hingegen impliziert die Schreibweise Pr(X ) eindeutig die Dichte oder Wahrscheinlichkeit als Funktion. E(X ) bezeichnet den Erwartungswert der Zufallsvariablen X . δ(x) bezeichnet die Delta-Funktion. x kann eine reelle Zahl oder ein Prädikat sein: 1 x ist wahr, oder x = 1 def δ(x) = 0 sonst. (1.1) P(A) ist eine Notation für die Potenzmenge einer Menge A.. ]A bezeichnet für endliche Mengen A die Kardinalität oder Anzahl der Elemente der Menge A. R+ ist die Menge der nicht-negativen reellen Zahlen. k · k = k · k2 , k · k∞ auf Rn definierte euklidische Norm und Maximum-Norm. E i (·), E i,j (·), EC (·) sind Bezeichnungen für einzelne nummerierte Funktionen, welche für jedes i, j oder C verschieden gewählt werden können. 1.3 Aufbau der Arbeit Bei der Strukturierung der folgenden Arbeit wurde auf klare Abgrenzung von bekannten theoretischen Ergebnisse zu neuen direkten Anwendungen dieser Ergebnisse bei Problemen der Bildverarbeitung geachtet. Dabei zeigen die theoretischen Ausführungen auch Möglichkeiten auf, welche über den Horizont der hier besprochenen praktischen Problemlösungen hinausgehen. 1.3. AUFBAU DER ARBEIT 5 In Kapitel 2 werden Markov Random Fields vorgestellt, welche die Grundlage der Bayesschen Bildanalyse bilden. Das darauf folgende Kapitel 3 präsentiert wichtige Ergebnisse der diskreten Optimierung bei Graph-Cut-Methoden und schlägt im letzten Abschnitt die Brücke zur Bayesschen Bildanalyse. Ausgehend von den ausführlich beschriebenen Möglichkeiten der Optimierungsverfahren ist es möglich, in Kapitel 4 verschiedene Anwendungsmöglichkeiten präzise und vollständig vorzustellen. Eine Verifikation der im Rahmen dieser Arbeit entstandenen praktischen Ergebnisse und Neuerungen wird in Kapitel 5 durch verschiedene Experimente vorgenommen. Die Arbeit schließt in den Kapiteln 6 und 7 mit einem Überblick über Verbesserungsmöglichkeiten und Ansätze für eine weitere Forschung auf dem behandelten Gebiet sowie mit einer Zusammenfassung der vorgestellten Ergebnisse. Kapitel A im Anhang bietet dem interessierten Leser zusätzliche mathematische Details in Form von Beweisen und Zusammenhängen. Verwendete Parameter bei den Experimenten und zusätzliche Beispielbilder können Kapitel B entnommen werden. 6 KAPITEL 1. EINFÜHRUNG Kapitel 2 Markov Random Fields In diesem Kapitel soll zunächst der für diese Arbeit notwendige Begriff des Markov Random Field (MRF) motiviert und erklärt werden. Im zweiten Teil des Kapitels wird die Problemstellung der Schätzung“ verborgener Bildinformationen mittels MRFs erläutert. Wie diese Schätzung ” effizient mit so genannten minimalen Schnitten durchgeführt werden kann, ist Bestandteil der folgenden Kapitel und zentraler theoretischer Schwerpunkt dieser Arbeit. 2.1 Definition Grundlage für die Definition von MRFs bildet eine Nachbarschaftsstruktur oder allgemeiner ein Graph. Ein Graph besteht aus einer Knotenmenge und einer auf dieser Menge definierten Relation (Nachbarschaftsrelation, Kantenmenge): Definition 2.1 Ein Graph1 S ist ein Tupel (V, N ) bestehend aus einer abzählbaren Menge V und einer irreflexiven Relation N ⊆ V × V . Ein typischer Graph in der Bildverarbeitung ist zum Beispiel Zn mit den folgenden Relationen: def (2.2) def (2.3) N1 ={(p, q) | kp − qk2 = 1; p, q ∈ Zn } N2 ={(p, q) | kp − qk∞ = 1; p, q ∈ Zn }. 1 Im Folgenden wird nicht der Begriff der Nachbarschaftsstruktur verwendet, da keine Symmetrie der Relation gefordert sein soll [KR04]. Dem Leser sei hiermit dennoch empfohlen, den Begriff der Nachbarschaft und der Nachbarschaftsstruktur damit zu assoziieren, um den direkten Bezug zur Bildverarbeitung herzustellen. 7 8 KAPITEL 2. MARKOV RANDOM FIELDS Für n = 2 werden diese Relationen üblicherweise als 4er- und 8er-Nachbarschaft bezeichnet. Für eine übersichtlichere Schreibweise ist es von Vorteil den Begriff der (gerichteten) Nachbarschaft eines Knoten (Punktes) zu definieren: Definition 2.4 Die (gerichtete) Nachbarschaft N S (p) oder abkürzend N (p) eines Graphen S = def (V, N ) bezüglich eines Knoten p ∈ V ist auf folgende Weise definiert: N S (p) = {q | (p, q) ∈ N }. Zugehörig zu einem speziellen Graphen lassen sich stochastische Felder betrachten: Definition 2.5 Eine Menge {Xp | p ∈ V } heißt stochastisches Feld, allgemeiner stochastischer Prozess oder Random Field eines Graphen S = (V, N ), wenn für alle p ∈ V : Xp eine Zufallsvariable2 ist. Definition 2.6 (Multiindex-Konvention) def Eine Einschränkung XM einer Menge {Xp | p ∈ V } ist wie folgt definiert: XM = {Xp | p ∈ V ∩ M }. Analog soll dieser Begriff für Vektoren (Xp )p∈V verwendet werden. Die Definition eines stochastischen Feldes verlangt nicht die Unabhängigkeit der Zufallsvariablen Xp voneinander. Die Abhängigkeit der Zufallsvariablen ist ein entscheidender Aspekt. Allgemein ist eine beliebige Zufallsvariable Xp immer von allen anderen Zufallsvariablen Xq mit q 6= p abhängig. Um diese starke Abhängigkeit zu schwächen und die Modellierung einfacher zu gestalten, ist es möglich zu fordern, dass eine Zufallsvariable Xp nur von ihren Nachbarn Xq mit q ∈ N (p) abhängt und von allen anderen unabhängig ist. Diese Forderung führt zu der neuen Definition eines Markov Random Fields: Definition 2.7 Eine Menge {Xp | p ∈ V } heißt Markov Random Field eines Graphen S, wenn sie ein stochastisches Feld ist und folgender Bedingung genügt: ∀p ∈ V : Pr(Xp | XV \{p} ) = Pr(Xp | XN S (p) ). (2.8) Anschaulich kann diese Definition in der Bildverarbeitung folgendermaßen betrachtet werden: Wenn die Zufallsvariablen Xp die Pixelwerte eines Bildes sind und der Graph wie im obigen Beispiel eine Gitterstruktur mit der 8er Nachbarschaft darstellt, dann hängen die Pixelwerte eines einzelnen Punktes nur von den Pixelwerten seiner Umgebung ab. 2 Auf die genaue Definition einer Zufallsvariable bezüglich eines Wahrscheinlichkeitsraumes soll an dieser Stelle verzichtet werden. 9 2.2. SATZ VON HAMMERSLEY-CLIFFORD Die Definition des MRF ist nichts anderes als das n-dimensionale Analogon einer einfachen Markov-Kette. Die Abhängigkeit einer Markov-Kette wird meist bezüglich der Zeit veranschaulicht: Eine Zufallsvariable Xp ist dann nur vom vorherigen Zeitpunkt Xp−1 abhängig. Durch den zugrunde liegenden Graphen eines MRF kann die Abhängigkeit der Zufallsvariable Xp örtlich betrachtet werden. Xp ist durch die Markov-Einschränkung (2.8) nicht mehr global abhängig, sondern nur lokal. Abschließend noch zwei kleine Definitionen, welche in der Formulierung weiterer Resultate von Vorteil sind: Definition 2.9 Die Gibbs-Darstellung einer Verteilung Pr(X = X), ist die bijektive Transfordef mation einer Verteilung in eine Energiefunktion EX (X) = − log(Pr(X = X)). Dabei bildet die Funktion EX in die Menge R ∪ {∞} ab. Bei einer Likelihood-Verteilung wird oft auch in diesem Zusammenhang von der log-Likelihood-Funktion E gesprochen. Es wurde an dieser Stelle bewusst der Begriff der Gibbs-Verteilung vermieden, da jede beliebige Verteilung eine Gibbs-Darstellung besitzt und daher auch in diesen Sinne eine Gibbs-Verteilung ist. Die Funktion EX wird im Folgenden auch einfach als E bezeichnet, falls der Zusammenhang zur zugehörigen Zufallsgröße eindeutig ist. 2.2 Satz von Hammersley-Clifford Ein wichtiger und anschaulicher Begriff aus der Graphentheorie ist der Begriff der Clique in einem Graphen: Definition 2.10 Eine Teilmenge C ⊆ V von Knoten eines Graphen S = (V, N ) heißt Clique, wenn ∀p ∈ C : C \ {p} ⊆ N S (p). def Definition 2.11 Die maximale Cliquengröße ω(S) ist definiert durch: ω(S) = max C ist Clique in S ]C. Aus der Definition der Clique geht hervor, dass die leere Menge sowie jeder einzelne Knoten Cliquen bilden. Entscheidend für die Charakterisierung von MRFs ist das folgende verblüffende Resultat von Hammersley, Clifford aus dem Jahr 1968: Satz 2.12 Es sei X = { Xp }p∈V ein stochastisches Feld eines Graphen S = (V, N ). Dann gilt: X ist ein MRF ⇐⇒ Pr(X = X) ist eine Verteilung mit der Gibbs-Darstellung: E(X) = X C ist eine Clique in S EC (XC ). (2.13) 10 KAPITEL 2. MARKOV RANDOM FIELDS Beweis zu 2.12: Ein Beweis kann in [Pol] gefunden werden. Die einzelnen Funktion EC in der Zerlegung (2.13) werden auch oft als Cliquen-Potentiale bezeichnet. Durch diesen Satz kann die Maximierung der Wahrscheinlichkeit eines MRFs zu einer Minimierung der Energiefunktion umformuliert werden. Im Folgenden wird die Schätzung zunächst allgemein beschrieben. Wie sich Funktionen des Typs (2.13) für bestimmte Annahmen minimieren lassen, ist Bestandteil des Abschnittes 3.4.4. 2.3 2.3.1 Schätzung mittels MRF MAP-Schätzung Zunächst ein paar übliche Notationen aus der Bildverarbeitung: Das Bild I ist ein (Zufalls-) Vektor der Form ( Ip )p∈P . Die einzelnen Werte Ip repräsentieren dabei die Pixeleigenschaften des Pixels p ∈ P wie etwa Grauwert, Farbinformationen oder andere Maße. Im Folgenden wird mit der Notation I das Bild als Zufallsvariable betrachtet und eine Ausprägung davon mit I bezeichnet. Die Menge P ist die Menge aller Punkte des Bildes. Weiterhin sei darauf ein Graph S = (P, N ) definiert. I ist im hier behandelten Kontext die Beobachtung bei einer Zustandsschätzung. Ziel ist es, die grundlegenden Informationen des Bildes zu extrahieren. Im speziellen Fall der Segmentierung, ist dies die Einteilung des Bildes in verschiedene beschriftete (mit Zahlen von 1 bis K) Bereiche. Jeder Pixel besitzt demnach die Information der Zugehörigkeit zu einem Bildbereich. Sei deshalb mit L, beziehungsweise der Ausprägung L = ( Lp )p∈P mit Lp ∈ {1, . . . , K} die Beschriftung eines Bildes dargestellt. Einzelne Werte Lp der Beschriftung werden als Label oder Zustand bezeichnet Ganz ähnlich zu der Modellierung bei Hidden-Markov-Modellen (siehe Zusammenhang von MRF und Markov-Ketten) ist nur das Bild I beobachtbar. Die eigentlichen Zustände Lp des Markov-Modells bleiben unsichtbar und müssen aus der Beobachtung und den zugrunde liegenden Abhängigkeiten geschätzt werden. Mit Abhängigkeiten sind hier die stochastischen Abhängigkeiten der einzelnen Zufallsvariablen Lp gemeint. Bei Hidden-Markov-Modellen werden diese durch eine einfache stationäre 3 Markov-Kette als Übergangswahrscheinlichkeiten und Zustandswahrscheinlichkeiten repräsentiert. Allgemein gesehen ist dies eine Modellierung der APriori-Wahrscheinlichkeit von L. 3 stationär, homogen ⇐⇒ Übergangswahrscheinlichkeiten sind zeitunabhängig 11 2.3. SCHÄTZUNG MITTELS MRF Die hier vorgestellte Schätzung mittels MRF ist eine MAP-Schätzung: L̂MAP = argmax Pr(L = L | I = I) = argmax Pr(L = L , I = I) = L L = argmax Pr(I = I|L = L)Pr(L = L). (2.14) L Die Verteilungen Pr(I = I | L = L) und Pr(L = L) werden in diesem Kontext auch oft als Likelihood-Verteilung beziehungsweise A-Priori-Verteilung bezeichnet. Abkürzend sollen im weiteren Verlauf dafür die Bezeichnungen Pr(I|L) und Pr(L) verwendet werden. 2.3.2 Annahmen der Schätzung In vielen Arbeiten der Bayesschen Bildanalyse [Win06, BVZ98a] werden folgende Modellierungsannahmen vorgenommen: A1. Die Likelihood-Verteilung lässt sich zerlegen durch: Pr(I|L) = Q Pr(Ip |Lp ). p∈P A2. L ist ein MRF auf dem Graphen S. Die Annahme A1 ist aber für die Praxis ungenügend (siehe Abschnitt 4 und [KTZ05]). Aus diesem Grund soll im weiteren Verlauf anstatt 1 und 2 auch die Annahme A1’ untersucht werden: A1’. Pr(L|I) ist ein MRF auf dem Graphen S 4 2.3.3 Vereinfachungen der Schätzung Aus den bisher gewonnenen Erkenntnissen und Annahmen kann die Schätzung in ein entsprechendes diskretes Optimierungsproblem umformuliert werden. Es sei zunächst noch einmal die MAP-Schätzung als Minimierung der Energiefunktion von Pr(L|I) formuliert: L̂MAP = argmin(− log Pr(L|I)) = argmin(− log Pr(I|L) − log Pr(L)). L 4 (2.15) L Genauer gesagt definiert man hier eine Zufallsvariable Y(I) abhängig vom Parameter I mit der Verteilung Pr(L|I). Die Forderung ist daraufhiin, dass Y(I) ein MRF ist. 12 KAPITEL 2. MARKOV RANDOM FIELDS Untersuchung von A1 und A2 Durch Annahme A2 und den Satz von Hammersley-Clifford 2.12 lässt sich − log(Pr(L)) in die Form von Gleichung (2.13) bringen. Als Vereinfachung lässt sich für die zu minimierende Funktion (proportional zur Energiefunktion von Pr(L|I)) E(L) schreiben: X E(L) = − log(Pr(I|L)) + EC (LC ). (2.16) C ist eine Clique in S Annahme A1 ergibt eine weitere Vereinfachung zu: ! EA1,2 (L) = − log Y Pr(Ip |Lp ) =− X X log(Pr(Ip |Lp )) + X p ELikelihood (Lp ) + p∈P EC (LC ) C ist eine Clique in S p∈P = EC (LC ) C ist eine Clique in S p∈P X X + EC (LC ). (2.17) C ist eine Clique in S Untersuchung von A1’ Annahme A1’ ergibt hingegen eine verallgemeinerte Form: EA1’ (L) = X ECI (LC ). (2.18) C ist eine Clique in S In beiden Fällen bestimmt die maximale Cliquengröße ω(S) die Anzahl der Argumente der Funktionen EC und ECI . 2.3.4 Beispiele Es sollen im Folgenden ein paar Beispiele für die Schätzung mittels MRFs vorgestellt werden. In diesen Beispielen wird deutlich wie die Verteilungen modelliert werden können und welche Energiefunktionen sich daraus ergeben. 13 2.3. SCHÄTZUNG MITTELS MRF Binäre Bildrestaurierung Gegeben sei ein verrauschtes Binärbild. Ziel ist es, ausgehend von einer Modellierung des Rauschens und einer Modellierung der A-Priori-Bildinformation Pr(L) das Originalbild möglichst ” gut“ zu rekonstruieren. Die möglichen Werte der Pixel Ip sowie die Werte der Labels Lp (Pixelwerte des Originalbildes) seien −1 und 1. Analog zu [Win06] sei das Rauschen N als multiplikatives Rauschen modelliert, welches einer Bernoulli-Verteilung unterliegt: q Pr(Np = v) = 1 − q v = −1 . (2.19) v = +1 Die Beobachtung ergibt sich durch die komponentenweise Multiplikation von N und L: ∀p ∈ P : Ip = Np · Lp (2.20) Das Modell erfüllt demnach Annahme A1 und A2. Für die Likelihood-Funktion Pr(Ip |Lp ) einzelner Pixel gilt: q Pr(Ip |Lp ) = 1 − q Ip = −Lp (2.21) Ip = Lp Die Energiefunktion der Verteilung Pr(I|L) kann daher folgendermaßen geschrieben werden (ein Term aus Gleichung (2.17)): − log Pr(I|L) = −]{p | Ip = −Lp } log q − ]{p | Ip = Lp } log(1 − q). (2.22) Aus 1 δ(Ip = Lp ) = (Ip Lp + 1) (2.23) 2 δ(Ip = −Lp ) = 1 − δ(Ip = Lp ) (2.24) 1 = − (Ip Lp − 1) (2.25) 2 q folgt unmittelbar mit der Konstante c = ]P log 1−q , welche bei der Optimierung vernachlässigt werden kann: 14 KAPITEL 2. MARKOV RANDOM FIELDS 1 − log Pr(I|L) = − log 2 1−q q X Ip Lp + c. (2.26) p∈P Als A-Priori-Modell sei ein Spezialfall (homogene Gewichtung mit α > 0) des so genannten Ising-Modells [Isi25] verwendet mit der Energiefunktion: X − log Pr(L) = −α Lp L z . (2.27) (p,z)∈N Anschaulich kann man sich Gleichung (2.27) als Bewertung von homogenen Flächen vorstellen. Die Energiefunktion des A-Priori-Modells hat dabei zwei mögliche Minima: L ≡ −1 und L ≡ 1. Generell liefert ein Bild mit großen zusammenhängenden homogenen Flächen eine niedrigeren Funktionswert als ein Bild mit vielen Objektgrenzen. Der Parameter α dient dazu, in der Praxis die Gewichtung zwischen der A-Priori-Information und dem Einfluss der Beobachtung einzustellen. Die zu minimierende Energiefunktion EA 1,2 = E1 (L) besitzt dann, bis auf eine additive Konstante, die folgende Form: 1 E1 (L) = − log 2 1−q q X p∈P Ip Lp − α X Lp L z . (2.28) (p,z)∈N Diese Art von Energiefunktionen lässt sich effizient und global mit Graph-Cut-Methoden optimieren (siehe Abschnitt 3.3). Abbildung 2.1 zeigt ein Beispiel der binären Bildrestaurierung. Das entstandene rechte restaurierte Bild ist eine MAP-Schätzung von L und wurde mit den in Kapitel 3 beschriebenen Graph-Konstruktionen und Algorithmen durchgeführt. Das dazugehörige Programm testImageRestoration ist Bestandteil der zu dieser Arbeit gehörenden Software. Es sei abschließend darauf hingewiesen, dass für die binäre Bildrestaurierung ebenfalls ein normaler Medianfilter angewendet werden kann, welcher ähnliche Ergebnisse liefert. Eine theoretische Verbindung zwischen beiden Ansätzen wird in Abschnitt A.1 erläutert. Die obige Darstellung als Anwendung von Graph-Cut dient demnach ausschließlich zur Vorstellung der theoretischen Ergebnisse und ist für die Praxis als gering zu bezeichnen. 15 2.3. SCHÄTZUNG MITTELS MRF Bild 2.1: Binäre Bildrestaurierung (Links) Originalbild, (Mitte) verrauschtes Originalbild, (Rechts) MAP-Schätzung des Originalbildes mit Graph-Cut (α = 0.3, p = 0.4) Das verallgemeinerte Potts-Modell Das Potts-Modell kann als Verallgemeinerung des speziellen Ising-Modells (2.27) angesehen werden. Das einfache Potts-Model − log Pr(L) = α X δ(Lp 6= Lq ). (2.29) (p,q)∈N ist dabei nicht auf binäre Werte von L beschränkt, sondern kann bei einer beliebigen Anzahl von Labels verwendet werden. Wie auch beim Ising-Modell wird hier die Existenz großer homogener Flächen (bzgl. L) belohnt. Das verallgemeinerte Potts-Modell wurde von [BVZ98a] vorgestellt. Vergleichbare Ansätze für die Bildverarbeitung lassen sich aber bereits schon früher in den Arbeiten von Graffigne [Gra87] finden. Wie beim ursprünglichen Ising-Modell werden hier Kanten zwischen Punkten mit verschiedenen Labels (Grenze zwischen zwei Regionen) nicht homogen mit einer Konstante α bewertet, sondern mit einer ortsabhängigen Gewichtung Ep,q ≥ 0: X Ep,q δ(Lp 6= Lq ) (2.30) (p,q)∈N In [BJ01b, BFL06] wird Ep,q mit einer Funktion abhängig von der Beobachtung I gewählt, daher kann bei diesen Arbeiten Modell (2.30) nicht als A-Priori-Modell verwendet werden. Eine Interpretation im Sinne von Annahme A1’ (Abschnitt 2.3.2) ist in diesem Fall hingegen möglich und sinnvoll. Für eine ausführliche Beschreibung der Gewichtung aus [BJ01b, BFL06] sei an dieser Stelle auf Abschnitt 4.1 verwiesen. Es wird sich im weiteren Verlauf der Arbeit herausstellen, dass eine Schätzung mittels MRFs mit einem verallgemeinerten Potts-Modell effizient mit minimalen Schnitten in Graphen gelöst werden kann. 16 KAPITEL 2. MARKOV RANDOM FIELDS Kapitel 3 Schätzung von MRF-Zuständen mit minimalen Schnitten Dieses Kapitel bildet den theoretischen Kern der vorliegenden Arbeit. Zunächst soll hier das Prinzip des minimalen Schnittes“ (Min-Cut, Graph-Cut) in Graphen vorgestellt werden. Ausgehend ” von einer klar definierten Problembeschreibung werden einige Spezialfälle, Verallgemeinerungen und Zusammenhänge zu anderen Problemen der diskreten Optimierung hergestellt. Die Notation und die Darstellung der Resultate folgt dem Buch von Schrijver [Sch04]. An dieser Stelle sei ebenfalls das Buch von Kleinberg und Tardos [KT05] empfohlen. Abschnitt 3.2 beschreibt anschließend mögliche effiziente Algorithmen zur Bestimmung von minimalen Schnitten in Graphen. Welche diskreten Optimierungsprobleme lassen sich mit minimalen Schnitten lösen? Diese Frage ist der Ausgangspunkt der Arbeiten [PR75, KZ04, FD05, RK06] und entscheidend für die Anwendung in der Bildverarbeitung. Ziel ist es, eine entsprechende Charakterisierung von Zielfunktionen zu erreichen. So kann bei einem gegebenen Optimierungsproblem der Bildverarbeitung erkannt werden, ob eine Übertragung auf das Problem eines minimalen Schnittes möglich ist. Die Resultate dieser Arbeiten werden in Abschnitt 3.3 näher erörtert. Ausgehend von den erarbeiteten Grundlagen aus Kapitel 2 wird weiterhin in Abschnitt 3.4 die Schätzung mittels MRFs mit dem α-Expansion-Algorithmus vorgestellt. 17 18 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN 3.1 3.1.1 Minimale Schnitte in Graphen Problemdefinition Im Folgenden sollen gewichtete Graphen G = (V, N, w) mit der nicht-negativen Kantengewichtung w : N → R+ betrachtet werden. Diese Einschränkung auf nicht-negative Gewichte ist eine wichtige Forderung, um im weiteren Verlauf effiziente Algorithmen zu entwickeln. Allgemein lässt sich auf der Kantengewichtung eine Erweiterung w : P(N ) → R+ definieren (A ⊆ N ): def w(A) = X w(e). (3.1) e∈A Definition 3.2 Mit ϑout (v) und ϑin (v) sei der Outdegree bzw. Indegree eines Knotens v ∈ V bezeichnet. Diese Bezeichnung soll an dieser Stelle gleich für Knotenmengen erweitert werden: def 1. ϑout (v) = {(v, q) ∈ N } def 2. ϑout (A) = {(p, q) ∈ N | p ∈ A, q ∈ V \ A} def 3. ϑin (v) = {(q, v) ∈ N } def 4. ϑin (A) = {(q, p) ∈ N | p ∈ A, q ∈ V \ A}. Definition 3.3 Ein s, t-Schnitt oder s, t-Cut C eines Graphen G = (V, N ) mit s, t ∈ V ist eine Zerlegung {S, V \ S} der Knotenmenge V mit S ⊂ V , s ∈ S und t ∈ V \ S. Die Symbolik C steht sowohl für die Zerlegung der Knotenmenge als auch für die darauf induzierte Kantenmenge {(p, q) | p ∈ S und q ∈ V \ S}. Für die zu einem Schnitt C gehörende Knotenmenge S wird die Bezeichnung S(C) verwendet. Definition 3.4 Die Kosten eines s, t-Schnittes C sind gemäß der obigen Vereinbarungen mit w(C), w(ϑout (S(C))) oder abkürzend |C| bezeichnet. Offensichtlich gibt es im allgemeinen Fall mehrere s, t-Schnitte C, daher ist es von Interesse den1 Schnitt zu finden, der minimale Kosten besitzt: argmin w(C). (MinCut) C ist ein s,t-Schnitt in G 1 Genauer gesagt, wird ein minimaler Schnitt gesucht, da auch das Problem des minimalen Schnittes nicht immer eine eindeutige Lösung besitzt. 19 3.1. MINIMALE SCHNITTE IN GRAPHEN Das Problem des minimalen Schnittes, oft als Min-Cut oder auch Graph-Cut bezeichnet,2 ist daher von den Knoten s und t abhängig und wird durch diese parametrisiert. Die Knoten s und t werden aus diesem Grund als Terminals bezeichnet. Wichtig ist, dass die Kosten eines Schnittes abhängig von der Richtung sind: Es werden nur Kanten von S nach V \ S gezählt. Eine Formulierung des Problems ohne Terminals ist eine wenig sinnvolle Aufgabe und würde immer zu der trivialen Zerlegung {V, ∅} führen. 3.1.2 Zusammenhang zur Bestimmung des maximalen Flusses Grundlage für die folgenden Definitionen ist ein Graph G = (V, N ). Der Begriff des Flusses eines Graphen lässt sich am besten anhand eines Rohrsystems erläutern. Jede Kante e eines Graphen repräsentiert eine Rohrverbindung mit der Kapazität w(e). Ausgehend von einem Knoten s fließt nun Wasser zu einem Knoten t. Ein Fluss ist ein möglicher Zustand der Rohre während solch eines Vorganges. Dabei gilt das 1. Kirchhoffsche Gesetz, welches sicherstellt, dass an Rohrverbindungsstellen (Knoten im Graphen) die Menge des hinfließenden Wassers gleich der Menge des abfließenden Wassers ist. Der Wert eines Flusses ist die transportierte Wassermenge von Knoten s zu Knoten t in einem Zeitpunkt“. Das Rohrsystem (Graph) legt weiterhin die maxi” male Wassermenge oder den maximalen Fluss fest, der bei solch einem Vorgang von s nach t transportiert werden kann. Diese Beschreibung wird im Folgenden mathematisch formuliert. Definition 3.5 Eine Abbildung f : N → R+ (Verallgemeinerung auf f : P(N ) → R+ analog zu w) ist ein s, t-Fluss oder vereinfachend Fluss ⇐⇒ 1. ∀ e ∈ N : f (e) ≥ 0 2. ∀ v ∈ V \ {s, t} : f (ϑout (v)) = f (ϑin (v)). def def Definition 3.6 Der Wert eines Flusses f ist |f | = f (ϑout (s)) − f (ϑin (s)), oder |f | = f (ϑout (s)) für den hier behandelten Spezialfall mit f (ϑin (s)) = 0. Definition 3.7 f ist zulässig bezüglich w ⇐⇒ ∀ e ∈ N : f (e) ≤ w(e). An dieser Stelle ist es schon möglich das Problem des maximalen Flusses zu definieren: argmax |f |. (MaxFlow) f ist ein zulässiger s,t-Fluss in G 2 Der Begriff Graph-Cut ist eigentlich ein allgemeinerer Begriff, da es viele verschiedene Möglichkeiten gibt einen Schnitt in einem Graph zu definieren [SM00, GS06]. 20 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN Der folgende Begriff der Überschussfunktion ist ein praktisches Werkzeug im Beweis des Min-Cut-Max-Flow-Theorems 3.26. Definition 3.8 Die Überschussfunktion ∆f : P(V ) → R ist definiert als: def ∆f (U ) = f (ϑin (U )) − f (ϑout (U )). (excess) def Konvention ∀ v ∈ V : ∆f (v) = ∆f ({v}). Beispiel 3.9 Aus der Definition der Überschussfunktion ∆f folgt sofort, dass für alle Knoten v, ausgenommen die Knoten s und t, ∆f (v) = 0 gilt. Lemma 3.10 ∀ U ⊆ V : ∆f (U ) = P ∆f (v). v∈U Beweis zu 3.10: Es sei zunächst die rechte Seite der Gleichung betrachtet: X X in out ∆f (v) = f (ϑ (v)) − f (ϑ (v)) v∈U v∈U X X X = f ((p, v)) − f ((v, p)) . v∈U (p,v)∈N (3.11) (v,p)∈N In der letzten Summe existiert für jede Kante e ∈ N zwischen zwei Knoten x, y ∈ U der Term f (e) und der Term −f (e) als Summand (ähnlich wie bei Teleskopsummen). Daher vereinfacht sich die Gleichung zu: = X X v∈U X f ((p, v)) − p∈V \U, (p,v)∈N f ((v, p)) . (3.12) p∈V \U, (v,p)∈N Die linke Seite der Gleichung kann durch Anwendung der Definitionen zu einem äquivalenten Ergebnis umgeformt werden: ∆f (U ) = f (ϑin (U )) − f (ϑout (U )) X = f ((q, p)) − p∈U, q∈V \U, (q,p)∈N X p∈U, q∈V \U, (p,q)∈N f ((p, q)). (3.13) 3.1. MINIMALE SCHNITTE IN GRAPHEN 21 Lemma 3.14 Sei f ein beliebiger zulässiger s, t-Fluss und C ein beliebiger s, t-Schnitt, dann gilt3 : |f | ≤ |C| = w(ϑout (S(C))). (3.15) Weiterhin gilt die Gleichheit bei dieser Ungleichung ⇐⇒ 1. ∀ e ∈ ϑout (S(C)) : f (e) = w(e) und 2. ∀ e ∈ ϑin (S(C)) : f (e) = 0. Beweis zu 3.14: Die Überlegung aus Beispiel 3.9 liefert: ∆f (S(C)) = X ∆f (v) = v∈S(C) = X f (ϑin (v)) − f (ϑout (v)) + ∆f (s) = v∈S(C)\{s} = ∆f (s). (3.16) Aus dieser Überlegung folgt nahezu unmittelbar der Beweis des Lemmas: |f | = −∆f (s) = −∆f (S(C)) = f (ϑout (S(C))) − f (ϑin (S(C))) ≤ w(ϑout (S(C))) = |C|. Der zweite Teil der Aussage ist aus der obigen Abschätzung ersichtlich. (3.17) Der Begriff des Residual-Graphen ist entscheidend für den Beweis des Satzes 3.26 sowie für die Beschreibung der Algorithmen. Definition 3.18 Sei e = (p, q) ∈ N eine Kante. Mit e−1 sei im Folgenden die Kante (q, p) def bezeichnet. Für eine Kantenmenge S ⊆ N ist weiterhin S −1 = {e−1 |e ∈ S}. Definition 3.19 Sei f ein zulässiger Fluss. Eine Kante e ∈ G heißt gesättigt (bezüglich f ), wenn f (e) = w(e). 3 Diese Ungleichung wird auch oft als schwache Dualität“ bezeichnet um den Zusammenhang zur linearen ” Optimierung zu verdeutlichen. 22 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN Definition 3.20 Sei f ein zulässiger Fluss. Der Residual-Graph Df = (V, Nf ) besitzt die gleiche Knotenmenge wie G und die Kantenmenge: def Nf = {e | e ∈ N, f (e) < w(e)} ∪ {e−1 | e ∈ N, f (e) > 0}. (3.21) Lemma 3.22 Sei f ein zulässiger Fluss. Wenn der Residual-Graph Df keinen s, t-Pfad besitzt, dann gelten für die Knotenmenge S = {x ∈ V | ∃Weg von s nach x in Df } folgende Aussagen: 1. C mit S(C) = S ist ein minimaler Schnitt. 2. |f | = w(ϑout (S)) = |C|. 3. f ist ein maximaler Fluss. Beweis zu 3.22: Alle Kanten an der Grenze von S müssen gesättigt sein, ansonsten wäre es möglich S zu erweitern (Widerspruch zur Definition von S): ∀e ∈ ϑout / Nf G (S) : e ∈ (3.23) Für alle Kanten an der Grenze zu S gilt analog: −1 ∀e ∈ ϑin ∈ / Nf G (S) : e (3.24) out in Daraus folgt nach Definition von Nf : f (ϑout G (S)) = w(ϑG (S)) und f (ϑG (S)) = 0). Die obige Konstruktion von C lässt sofort erkennen, dass durch s ∈ S und t ∈ V \ S die Zerlegung C ein Schnitt ist. Es gelten daher folgende Schlussfolgerungen analog zu Lemma 3.14: |f | = f (ϑout (S)) − f (ϑin (S)) = w(ϑout (S)) (3.25) Annahme: Der Schnitt C ist nicht minimal. Dann gibt es einen Schnitt C 0 mit |C 0 | < |C|. Daraus folgt aber unmittelbar die Verletzung von Lemma 3.14 durch |C 0 | < |f | und man erhält einen Widerspruch. Die letzte Teilaussage folgt ebenfalls aus Lemma 3.14 und Teilaussage 1. Der folgende Satz ist das essentielle theoretische Fundament für die effiziente Berechnung eines minimalen Schnittes. Der Beweis wurde von Ford und Fulkerson im Jahre 1954 für ungerichtete Graphen sowie 1956 von Dantzig und Fulkerson für gerichtete Graphen geführt. Die 23 3.2. ALGORITHMEN ZUR BESTIMMUNG DES MINIMALEN SCHNITTES konstruktive Art des Beweises liefert sofort den ersten Ansatz zur Berechnung eines maximalen Flusses, welcher zum Algorithmus der erhöhenden“ Pfade von Dinic führt. Dieser Algorithmus ” wird in Abschnitt 3.2.1 noch näher dargestellt. Satz 3.26 Min-Cut=Max-Flow Theorem ˆ = |fˆ|. Sei fˆ eine Lösung von (MaxFlow) und Cˆ eine Lösung von (MinCut)4 . Dann gilt: |C| Die Kosten eines minimalen Schnittes sind demnach gleich dem Wert des maximalen Flusses (bezüglich der Terminals s und t). Beweis zu 3.26: Sei f ein maximaler Fluss. Nach Lemma 3.14 genügt es zu zeigen, dass es einen s, t-Schnitt C mit Kosten |f | gibt. Annahme: Im Residual-Graph Df gibt es einen s, t-Pfad P . Dann sei die Funktion χP wie folgt definiert: 1 e∈P def χP (e) = −1 e−1 ∈ P . 0 sonst (3.27) Diese Definition ist gültig, da man sich auf kreisfreie Pfade P beschränken kann (entweder e ∈ P oder e−1 ∈ P ). Für geeignetes > 0 ist dann def f 0 = f + χP (3.28) wieder ein zulässiger Fluss mit |f 0 | = |f | + . Dies ist allerdings ein Widerspruch zur Maximalität von f . Es gibt demnach im Residual-Graph Df keinen s, t-Pfad. Dann kann man nach Lemma 3.22 einen Schnitt C konstruieren mit |C| = |f |. Bemerkung 3.29 Der Satz 3.26 ist ein Spezialfall der Dualität bei der linearen Optimierung. Das Problem des minimalen Schnittes ist dual zum Problem des maximalen Flusses. 3.2 Algorithmen zur Bestimmung des minimalen Schnittes Satz 3.26 zeigt, dass sich eine Berechnung des minimalen Schnittes in einem Graphen auf die Bestimmung des maximalen Flusses eines Graphen zurückführen lässt: Der Residualgraph besitzt am Ende der Berechnung mindestens zwei Zusammenhangskomponenten. Aufgrund der nicht 4 Beide Probleme müssen keine eindeutige Lösung besitzen 24 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN gesicherten Eindeutigkeit können auch mehr als zwei Zusammenhangskomponenten entstehen. Dadurch ergibt sich der minimale Schnitt als eine der Möglichkeiten, die Zusammenhangskomponenten in zwei entsprechende Gruppen einzuteilen. 3.2.1 Der Algorithmus von Dinic Der Algorithmus von Dinic gehört zur Gruppe der Augmenting Path (erhöhender Pfad) Algorithmen. Diese Algorithmen verwenden die Idee des Beweises von Satz 3.26 und versuchen solange s, t-Pfade im Residualgraphen zu finden und diese zu erhöhen, bis durch die Nichtexistenz solcher Pfade ein maximaler Fluss gefunden ist (siehe Lemma 3.22). Der Begriff erhöhen“ bedeutet ” dabei die Aktualisierung von f im Sinne von Gleichung (3.28). Der Algorithmus von Dinic verwendet eine Breitensuche und verarbeitet in einem Zyklus Stück für Stück alle kürzesten Wege mit einer festen Länge k. Die Laufzeit beträgt O(mn2 ). 3.2.2 Der Algorithmus von Kolmogorov und Boykov Der Algorithmus von Kolmogorov und Boykov [BK04] kann die asymptotische Laufzeit der bisherigen Max-Flow-Algorithmen nicht verbessern. Der dort vorgestellte Algorithmus besitzt sogar eine wesentlich schlechtere asymptotische Laufzeit. Es hat sich jedoch in den Experimenten von [BK04] gezeigt, dass für die Aufgaben der Bildverarbeitung dieser Algorithmus bessere durchschnittliche empirische Laufzeiten liefert. Grundlage für eine Beschleunigung der bisherigen Algorithmen ist die spezielle Struktur der Graphen bei Bildverarbeitungsproblemen, welche durch Graph-Cut gelöst werden können: 1. Der Graph G ist bezogen auf die Knotenmenge V \{s, t} meist k-regulär (lokale homogene Nachbarschaft). 2. Es existieren viele Verbindungen zu den Terminals. Der Algorithmus von [BK04] gehört wie der Algorithmus von Dinic zu den Augmenting Path Algorithmen. Der Algorithmus von Dinic hat bei der Anwendung auf Probleme der Bildverarbeitung ein entscheidendes Problem. In jedem Schritt müssen fast alle Pixel (Knoten) neu verarbeitet werden, um den entsprechenden Suchbaum zu konstruieren. Der Algorithmus von [BK04] umgeht dieses Problem, in dem von der Quelle s und von der Senke t jeweils ein Suchbaum konstruiert wird, welcher in den nächsten Schritten der Pfadsuche weiterverwendet werden kann. Der Algorithmus liefert eine asymptotische Worst-Case Laufzeit von O(mn2 |C|). 25 3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT Dinic Boykov und Kolmogorov Goldberg und Tarjan O(mn2 ) O(mn2 |C|) 2 O(nm log( nm )) Tabelle 3.2: Laufzeiten verschiedener Max-Flow Algorithmen 3.3 Diskrete Optimierung mit Graph-Cut Ziel des folgenden Abschnittes ist es, Klassen von binären Optimierungsproblemen zu definieren, welche effizient mit minimalen Schnitten in Graphen gelöst werden können. Dabei besitzt das Attribut effizient“ zwei Bedeutungen: polynomielle Laufzeit des Algorithmus und Optimie” rung mit Zusicherungen für die Güte des gefundenen Optimums. Eine Charakterisierung dieser Optimierungsprobleme lässt sich in aller Ausführlichkeit in der Arbeit [KZ04] finden. Die dort beschriebenen Resultate und Konstruktionen sollen in diesem Abschnitt erläutert und diskutiert werden. 3.3.1 Das Optimierungsproblem und die Funktionsklassen F 2 und F 3 Eine klare Definition der Optimierungsprobleme ist Ausgangspunkt der Untersuchung. Allgemein soll das folgende diskrete Optimierungsproblem behandelt werden: L̂ = argmin F (L). (BinF ) L∈{0,1}n Die Funktion F : {0, 1}n → R ist Element einer speziellen Funktionsklasse. Folgende allgemeine Funktionsklassen werden in [KZ04] vorgestellt: Definition 3.30 Eine Funktion5 F ist Element der Funktionsklasse F 2 ⇐⇒ F besitzt eine Darstellung6 mit Funktionen E i und E i,j der folgenden Form n X (3.31) Definition 3.32 Eine Funktion F ist Element der Funktionsklasse F 3 ⇐⇒ F besitzt eine i=1 5 6 E i (Li ) + X E i,j (Li , Lj ). F (L) = i<j i,j∈{1,...,n} Diese Definition ist nicht auf binäre Funktionen beschränkt. Die Darstellung (3.31) ist nicht eindeutig. 26 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN Darstellung7 mit Funktionen E i , E i,j und E i,j,k der folgenden Form F (L) = n X E i (Li ) + i=1 X E i,j (Li , Lj ) + i<j i,j∈{1,...,n} X E i,j,k (Li , Lj , Lk ). (3.33) i<j<k i,j,k∈{1,...,n} Dem aufmerksamen Leser, der bereits einen Blick in Kapitel 2 und den Satz von HammersleyClifford 2.12 geworfen hat, wird die Analogie zu der Darstellung (2.13) auffallen. Tatsächlich sind bis auf eine additive Konstante die Funktionsklassen F 2 und F 3 als Gibbs-Darstellung eines MRF mit ω(S) ≤ 2 und ω(S) ≤ 3 deutbar. Dieser Zusammenhang schlägt eine Brücke zu der Schätzung mittels MRFs, welche in Abschnitt 3.4.4 näher erläutert wird. In den weiteren Abschnitten werden aus diesem Grund die Funktionen E i , E i,j , E i,j,k (und später allgemeiner E β ) ebenfalls als Cliquen-Potentiale bezeichnet. 3.3.2 Regularität und Graphkonstruktion für F 2 Die Minimierung allgemeiner F 2 -Funktionen ist NP-schwer. Ein Beweis dafür ist in [KZ04] aufgeführt und in Abschnitt A.3 erläutert. Diese Tatsache ist Auslöser für eine Untersuchung der Fragestellung, welche echten Untermengen von F 2 -Funktionen auf das Min-Cut-Problem reduziert werden können. Eine Verbindung zum Problem des minimalen Schnittes lässt sich bereits an der binären Darstellung eines Schnittes C erkennen: Definition 3.34 Sei L ∈ {0, 1}n ein binärer Vektor und G ein Graph mit V = {s, t, v1 , . . . , vn }. Dann ist C L der Schnitt des Graphen, der durch die Zerlegung {S, T } entsteht mit: 1. s ∈ S 2. t ∈ T 3. vi ∈ S, wenn Li = 0 4. vi ∈ T , wenn Li = 1 Analog lässt sich anhand eines Schnittes in eineindeutiger Weise ein Vektor L(C) angeben. Bemerkung 3.35 Es können auch Graphen mit mehr als n + 2 Knoten betrachtet werden. Ein Schnitt C definiert dann zwar in eindeutiger Weise einen Vektor bzw. eine Beschriftung L(C), 7 Die Darstellung (3.33) ist ebenfalls nicht eindeutig. 27 3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT jedoch ist die Umkehrung nicht mehr möglich. Ein Schnitt C L lässt sich dennoch, konsistent zur obigen Definition, als Minimum aller möglichen Schnitte definieren: CL = argmin |C|. (3.36) C ist ein Schnitt mit den Eigenschaften aus Definition 3.34 Zunächst sei die etwas umständliche Ziel-Beschreibung der Reduktion auf das Min-CutProblem formalisiert und mit einem entsprechenden Begriff versehen: Definition 3.37 Eine Funktion F heißt graph-darstellbar ⇐⇒ Das zu F gehörende Optimierungsproblem (BinF ) lässt sich auf das Problem (MinCut) des minimalen s, t-Schnittes auf folgende Weise zurückführen: Zu (BinF ) gibt es einen Graph G = (V, N ) mit Knoten (Terminals) s und t sowie eine Kantengewichtung w : N → R+ , so dass gilt: ∃κ : ∀L ∈ {0, 1}n : F (L) = |C L | + κ (3.38) ˆ Da durch |C L | alle Schnitte im Graphen G dargestellt werden können, gilt : L̂ = L(C) Wie lassen sich Funktionen aus F 2 charakterisieren, die graph-darstellbar sind? Diese Fragestellung wird durch einen Satz von [KZ04] beantwortet. Vor der Formulierung des Satzes, sei aber zuerst der entscheidende Begriff der Regularität eingeführt und erläutert: Definition 3.39 Eine Funktion E : {0, 1}2 → R heißt regulär oder submodular ⇐⇒ E(0, 0) + E(1, 1) ≤ E(0, 1) + E(1, 0) (Reg2 ) Eine Funktion F ∈ F 2 sei ebenfalls als regulär bezeichnet ⇐⇒ alle Funktionen E i,j einer F 2 -Darstellung sind regulär. Beispiel 3.40 Die einzelnen Summanden des Ising-Modells (2.27) sind regulär (α ≥ 0): E(0, 1) + E(1, 0) = −α − α ≤ α + α = E(0, 0) + E(1, 1) Satz 3.42 Die Summe von zwei graph-darstellbaren Funktionen ist wieder graph-darstellbar. Beweis zu 3.42: Siehe Anhang von [KZ04]. 28 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN ⇐⇒ Satz 3.43 F is graph-darstellbar regulär. Jeder Term E i,j in der Darstellung (3.31) von F ist Bemerkung 3.44 Es sei bemerkt, dass die Darstellung einer Funktion F in der Form (3.31) nicht eindeutig ist, die Regularität davon aber nicht beeinflusst wird. Die Terme E i (Li ) können zum Beispiel komplett in die Terme E i,j (Li , Lj ) einfließen: X i i E (Li ) + X i,j E (Li , Lj ) = i<j X i<j = X 1 1 i j E (Li , Lj ) + E (Li ) + E (Lj ) n−i−1 j−1 i,j Ẽ i,j (Li , Lj ) i<j Die Regularität ist aber invariant bezüglich der Änderung der Darstellung (3.31): Ẽ i,j (0, 0) + Ẽ i,j (1, 1) = E i,j (0, 0) + E i,j (1, 1) + + 1 E i (0) + E i (1) + n−i−1 1 E j (0) + E j (1) j−1 ≤ E i,j (0, 1) + E i,j (1, 0) + . . . = Ẽ i,j (0, 1) + Ẽ i,j (1, 0) Beweis zu 3.43: Die Rückrichtung soll anhand einer Konstruktion des entsprechenden Graphen gezeigt werden. In Folge der konstruktiven Art des Beweises ist damit implizit auch ein Algorithmus beschrieben, welcher reguläre F 2 -Funktionen minimiert. Die andere Richtung wird später allgemeiner bewiesen durch Satz 3.53. Für einen formaleren Beweis des Satzes sei auf Satz (1.8) im Anhang verwiesen. Durch Satz 3.42 ist es möglich, die Konstruktion des Graphen für die einzelnen Summanden getrennt vorzunehmen und danach den Gesamtgraphen zusammenzusetzen. Dabei werden die Kanten zu einer Kantenmenge vereinigt und die Kantengewichte bei gleichen Kanten summiert def 8 Sei mit V = {s, t, v1 , . . . , vn } die Knotenmenge des Graphen bezeichnet. Wichtig bei der Konstruktion ist die Sicherstellung von nicht-negativen Kantengewichten. Konstruktion von E i : Ein Term E i entspricht den Kosten für Zuweisung von Li zu den einzelnen Klassen 0 (symbolisiert durch Terminal s) und 1 (Terminal t) ohne Beachtung der Abhängigkeiten zu den anderen Komponenten von L. Für jeden Term E i wird daher eine Kante 8 Satz 3.42 sichert eigentlich nur die Aussage des Satzes, aber nicht, dass der zusammengesetzte Graph wirklich eine geeignete Konstruktion des Gesamtproblems ist. 29 3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT Bild 3.1: Konstruktion des Graphen für F 2 Funktionen mit den verwendeten Abkürzungen aus Tabelle (3.45) (Quelle [KZ04]) e zu einem Terminal hinzugefügt. Bei E i (1) − E i (0) ≥ 0 ergibt sich die Kante e = (s, vi ) mit Gewicht E i (1) − E i (0) (Abbildung 3.1 a). Ansonsten wird die Verbindung e von Knoten vi zu Terminal t mit Gewicht E i (0) − E i (1) gesetzt (Abbildung 3.1 b). Diese Konstruktion findet auf folgende Weise ihre plausible Begründung: Die Bedingung E i (1) − E i (0) ≥ 0 bedeutet, dass die Kosten für die Zuweisung von Li zu Klasse 0 (Terminal s) größer sind als bei Klasse 1. Wenn nach der Optimierung Li mit 1 belegt ist, gehört die Kante e zum minimalen Schnitt, da die Knoten vi und s getrennt werden. Die zusätzlichen“ Kosten der Zuweisung von Li zu Klasse 0 ” werden demnach beim Optimalwert berücksichtigt. Konstruktion von E i,j : Für die Konstruktion des Graphen dienen folgende Abkürzungen: E i,j (0, 0) E i,j (0, 1) E i,j (1, 0) E i,j (1, 1) ! = A B C D ! (3.45) 30 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN Term Ei Bedingung E (1) − E i (0) ≥ 0 E i (1) − E i (0) ≤ 0 i E i,j E i,j C −A≥0 C −A≤0 C −D ≥0 C −D ≤0 Kante Gewicht i (s, vi ) E (1) − E i (0) (vi , t) E i (0) − E i (1) (vi , vj ) B + C − A − D (s, vi ) C −A (vi , t) A−C (vj , t) C −D (s, vj ) D−C Tabelle 3.4: Übersicht über die Graph-Konstruktion für reguläre F 2 -Funktionen Die Funktion E i,j lässt sich in die folgenden additiven Bestandteile zerlegen: D+ A−C A−C 0 0 ! + C −D 0 C −D 0 ! + 0 B+C −A−D 0 0 ! (3.46) Der erste Summand wird bei der Konstruktion vernachlässigt, da es sich nur um eine additive Konstante handelt. Die beiden folgenden Summanden hängen von einer einzigen Variable ab und können daher analog zu den E i Termen konstruiert werden. Die Kosten B + C − A − D zählen nur, bei einer Zuordnung von Knoten vi zu Terminal s und von Knoten vj zu Terminal t. Daher kann der letzte Summand in der Zerlegung (3.46) durch eine Kante e = (vi , vj ) mit Gewicht w(e) = B + C − A − D repräsentiert werden (Abbildung 3.1 c,d). Die Nicht-Negativität dieser Kante ist durch die Regularitätsbedingung (Reg2 ) sichergestellt. Bemerkung 3.47 An der Zerlegung von E i,j in Gleichung (3.46) lassen sich auch prinzipielle Einschränkungen des Modells erkennen. Die Darstellung der Funktionen E i,j lässt sich immer auf folgendes Modell reduzieren: E i,j E i,j (Li , Lj ) = 0 Lj > L i (3.48) sonst Diese Darstellung sei im Folgenden als gerichtetes Potts-Modell bezeichnet. Die Abbildungen 3.3 und 3.2 zeigen ein einfaches Beispiel für die Segmentierung mit GraphCut. Dieses Beispiel soll die Ähnlichkeit von Segmentierungsproblemen und dem Min-CutProblem offenlegen. Ziel ist es, das Originalbild in 3.3 zu segmentieren. Der konstruierte Graph 3.2 enthält Kanten zwischen Pixelknoten (Knoten im Graphen, die einem Pixel im Bild entsprechen) 3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT 31 Bild 3.2: Schema der Konstruktion des Graphen für das Beispielbild 3.3 und Darstellung des minimalen Schnittes und den Terminals um die Kosten einzelner Pixel zu kodieren (E i ). Die Kantengewichte zwischen zwei Pixelknoten werden hingegen entsprechend der Funktionen E i,j belegt. Für diese beispielhafte Darstellung wird das Potts-Modell verwendet und E i,j so gewählt, dass bei geringen Grauwertdifferenzen |Ii − Ij | hohe Kosten in der Zielfunktion entstehen9 . Weiterhin soll die linke obere (bzw. rechte untere) Ecke des 9 Pixel großen Bildes mit hohen Kosten für den Vordergrund (bzw. Hintergrund) belegt werden. Bei der anschließenden Optimierung wird daher eine optimale Kante zwischen den gegenüberliegenden Ecken gefunden. Eine allgemeinere Darstellung des Zusammenhangs zur Segmentierung befindet sich in Abschnitt 3.4.4. 3.3.3 Vollständige Charakterisierung Der Begriff der Regularität kann wie folgt erweitert werden: Definition 3.49 Sei α eine Indexmenge mit α ⊆ {1, . . . , n}. Für eine feste Belegung Lfix = Lα 9 Ein Beispiel für eine solche Wahl von E i,j ist die Festlegung von Gleichung 4.3 in Abschnitt 4.1.3. 32 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN Bild 3.3: (Links) Originalbild, (Rechts) Segmentierung aufgrund des minimalen Schnittes in Abbildung 3.2 def α α (B) = F (L) mit : {0, 1}n−]α → R gegeben durch: Fproj ist die Projektion Fproj Lfix def γ(i) Li = B τ (i) i∈α (3.50) sonst und entsprechenden Funktionen γ und τ für die Zuordnung der Indizes. Definition 3.51 Sei F : {0, 1}n → R eine Funktion. 1. Für n = 1 (nur ein Argument) ist jede Funktion F regulär. 2. Für n = 2 ist die Funktion F regulär, wenn sie die Bedingung (Reg2 ) erfüllt. 3. Für n > 2 ist die Funktion F regulär ⇐⇒ jede Projektion von F mit zwei Argumenten ist regulär. Bemerkung 3.52 Es ist nicht sofort offensichtlich, dass diese Definition wirklich eine Erweiterung von Definition 3.39 darstellt. Grundlage für die Definition 3.39 bildete die entsprechende Darstellung als Summe von E i und E i,j . Die obige Charakterisierung ist hingegen direkt unabhängig von der Darstellung. Wie in Bemerkung 3.44 bereits schon erwähnt, ist der Begriff der Regularität 3.39 ebenfalls vollständig von der Darstellung (3.31) unabhängig. Ein genauer Beweis für diesen Sachverhalt und der Äquivalenz der beiden Definitionen befindet sich in [KZ04]. Der folgende Satz ist ein Resultat aus [KZ04]: Satz 3.53 Jede graph-darstellbare Funktion ist regulär. 3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT 33 Beweis zu 3.53: Siehe [KZ04]. Eine Verallgemeinerung der Definitionen 3.30 und 3.32 ist nahe liegend und wird in der Arbeit [FD05] für eine vollständige Charakterisierung der graph-darstellbaren Funktionen verwendet. Damit ist [FD05] eine direkte Erweiterung der Ausführungen von [KZ04]. Zur Definition der Klasse F k soll die Multiindex-Konvention 2.6 aus Abschnitt 2.1 verwendet werden: Definition 3.54 Eine Funktion F ist Element der Funktionsklasse F k ⇐⇒ F besitzt eine Darstellung mit Funktionen E β (β ⊆ {1, . . . , n}, ]β ≤ k) der folgenden Form: X F (L) = E β (Lβ ). (3.55) β⊆{1,...,n} ]β≤k Ziel der Arbeit [FD05] ist es erneut eine Charakterisierung der Klasse der graph-darstellbaren Funktionen vorzunehmen. Folgendes Resultat kann für die Klasse F k aufgestellt werden: Satz 3.56 Die Mengen α und β seien Indexmengen mit α, β ⊆ {1, . . . , n} Weiterhin sei für eine beliebige binäre Funktion F mit n-Argumenten die Notation Fβ mit Fβ = F (L) und (Li = 1 ⇐⇒ i ∈ β) erklärt. Wenn eine Funktion F ∈ F k die Bedingung ∀α, 2 ≤ ]α ≤ k : X (−1)]α−]β Fβ ≤ 0 (FReg) β⊆α erfüllt, dann ist sie graph-darstellbar. Beweis zu 3.56: Siehe [FD05]. Bemerkung 3.57 Die Bedingung (FReg) reduziert sich für k = 2 und k = 3 auf die Regularitätsbedingung 3.51. 3.3.4 Der Zusammenhang zu submodularen Funktionen Als Einstieg sei gleich die Definition einer submodularen Funktion gegeben: Definition 3.58 Eine (Mengen-)Funktion f : P(U) → R ist submodular 10 ⇐⇒ ∀A, B ⊆ U : f (A ∪ B) + f (A ∩ B) ≤ f (A) + f (B) 10 (SubMod) Analog lassen sich die Begriffe supermodular (≥) und modular (=) mit einer entsprechenden Änderung der Relation in Bedingung SubMod definieren. 34 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN Der Zusammenhang von Mengenfunktionen f und binären Funktionen F kann in folgender Weise dargestellt werden: Sei M eine endliche Menge mit n Elementen xi für 1 ≤ i ≤ n. Für jede Mengenfunktion def f : P(U) → R kann eine entsprechende binäre Funktion Ff mit Ff (χA ) = f (A) definiert werden. χA ist eine Schreibweise der charakteristischen Funktion von A als binärer Vektor. Diese Zuordnung ist bijektiv, denn zu jeder binären Funktion F kann in analoger Weise eine Mengenfunktion fF deklariert werden. Diese Bijektivität liegt in der Äquivalenz der Darstellung einer Menge in Mengenschreibweise und als charakteristische Funktion begründet. Aus diesem Grund sei im Folgenden der Begriff der Submodularität (SubMod) und Regularität 3.51 für binäre Funktionen und Mengenfunktionen gleichermaßen verwendet. Eine Bemermerkung über den Zusammenhang zwischen submodularen Funktionen und graphdarstellbaren Funktionen findet sich bereits in [KZ04]. Schon in der Arbeit von Cunningham [Cun85] konnte gezeigt werden, dass das Problem des minimalen Schnittes (MinCut) als Minimierung einer submodularen Funktion umformuliert werden kann. Satz 3.59 Jede submodulare Funktion f ist regulär im Sinne von Definition 3.51. Beweis zu 3.59: Die Übertragung, bezüglich der obigen Beschreibung der bijektiven Zuordnung zwischen Mengenfunktionen und binären Funktionen, der Definition 3.39 führt zu der folgenden Bedingung: ∀x, y ∈ M, x 6= y ∀D ⊆ M \ {x, y} : f (D) + f (D ∪ {x, y}) ≤ f (D ∪ {x}) + f (D ∪ {y}) (3.60) Es bleibt also zu zeigen, dass submodulare Funktionen f die Bedingung (3.60) erfüllen. Seien def def D, x, y so gewählt wie es Bedingung (3.60) vorschreibt. Mit A = D ∪ {x} und B = D ∪ {y} folgt unmittelbar: f (A ∪ B) = f (D ∪ {x, y}) (3.61) f (A ∩ B) = f (D) (3.62) Damit folgt aus der Submodularität (SubMod) mit A, B die Regularitätsforderung (3.60). Satz 3.63 Jede reguläre Funktion f im Sinne von Bedingung 3.51 ist submodular. 3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT 35 Literatur Resultate Funktionsklasse [Cun85, PR75] graph-darstellbare Funktionen sind submodulare submodular Funktionen, cut ” functions“ F 2 -regulär ⊂ F 3 -regulär ⊆ graph- reguläre Funktio[KZ04] darstellbar ⊆ regulär = submodular nen Satz 3.56 F k -Funktionen [FD05] mit der Eigenschaft (FReg) Tabelle 3.6: Literaturverweise: Charakterisierung der graph-darstellbaren Funktionen Beweis zu 3.63: Zu zeigen ist, dass aus der Bedingung (3.60) die Submodularität der Funktion f folgt. In [KZ04] wird die Bedingung (3.60) als alternative Charakterisierung der Submodularität angeführt. Daraus folgt unmittelbar der Beweis des Satzes. Korrolar 3.64 Die Begriffe regulär und submodular sind äquivalent. Die Kriterien der Graph-Darstellbarkeit sind demnach vielfältig und fallen bei den Fällen F 2 und F 3 komplett zusammen. Abbildung 3.4 versucht diese Zusammenhänge zu verdeutlichen. In Tabelle 3.6 werden noch einmal die Literaturverweise mit den entsprechenden Resultaten dargestellt. Bild 3.4: Darstellungen der Beziehungen der einzelnen Funktionsklassen: (Links) für F k Funktionen, (Rechts) für die Spezialfälle F 2 und F 3 . Die Freedman-Drineas Bedingung verweist auf die hinreichende Bedingung (FReg) von [FD05]. 36 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN 3.4 α-Expansion-Algorithmus Bisher wurden Resultate vorgestellt, welche es ermöglichen, das binäre Optimierungsproblem (BinF ) für Funktionen mit gewissen Einschränkungen (Regularität, F k ) zu lösen. Übertragen auf die Zuweisung zu bestimmten Klassen wurden daher nur Zweiklassen-Probleme gelöst. Bei der ursprünglichen Zielsetzung der Schätzung mittels MRFs wird aber die Einteilung in K unterschiedliche Klassen benötigt (siehe Abschnitt 2.3.1): L̂ = argmin F (L) l∈{1,...,K}n (OptF ) Ein Ansatz mit Blick auf die bisherige Vorgehensweise wäre es, wieder zusätzliche Einschränkungen für die Zielfunktionen zu suchen, so dass auch dieses nicht-binäre Problem auf das Problem des minimalen Schnittes zurückgeführt werden kann. Die Arbeiten von Ishikawa et al. [IG98, IG99, Ish03] verfolgen diese Idee und gelangen zu einer Funktionsklasse K ⊂ F 2 . i,j Diese Funktionsklasse beinhaltet alle Funktionen mit konvexen11 Cliquen-Potentialen EK der Form: def i,j E i,j (Li , Lj ) = EK (Li − Lj ) (3.65) Diese Funktionsklasse schränkt die Modellierung stark ein. So genügt zum Beispiel das PottsModell (2.29) nicht diesen Bedingungen. Eine weitere Ansatzmöglichkeit ist die Erweiterung des Min-Cut-Problems (MinCut) auf ein ähnliches Problem mit mehr als zwei Terminals. Diese Formulierung wird als Minimum” Multiway-Cut“ bezeichnet. Die Minimierung ist für beliebige Graphen leider NP-schwer [DJP*94]. Die Suche nach einem exakten Algorithmus, welcher in polynomieller Zeit läuft, kann daher optimistischeren Forschern überlassen werden. In der Bildverarbeitung ist die Suche nach exakten“ Algorithmen oft gar nicht wesent” lich. Typische Einschränkungen bei Anwendungen sind der Informationsverlust des Aufnahmeprozesses, gravierende Modellannahmen und häufig auftretende Problemformulierungen, die aufgrund ihrer Komplexität generell nicht exakt gestellt werden können. Daher sind ohne Beschränkung der Allgemeinheit, die Auswirkungen der Approximation bei der Optimierung im Gegensatz zu anderen Einflüssen vernachlässigbar. Die Arbeiten [Vek99, BVZ99a] stellen daher ein Algorithmus vor, welcher nicht immer das globale Optimum berechnet, sondern eine Art lokales Optimum. Dabei erfolgt die Berechnung 11 Die Konvexität beschränkt sich bei Funktionen g : N → R auf ∀x ∈ N : g(x + 1) − 2g(x) + g(x − 1) ≥ 0. 3.4. ALPHA-EXPANSION-ALGORITHMUS 37 Bild 3.5: Auswirkungen einer Iteration des α-Expansion-Algorithmus (α-Erweiterungsschritt) am Beispiel der Klasse der weißen Pixel [KZ04]. der Lösung auf iterative Weise. Ein Teil des Gesamtproblems wird in jeder Iteration auf ein binäres Problem abgebildet und mit den üblichen Algorithmen (siehe Abschnitt 3.2) gelöst. 3.4.1 Beschreibung des Algorithmus Ziel soll es sein, Probleme der Form (OptF ) zu lösen. In Abschnitt 3.4.3 wird anschließend gezeigt, welche Bedingungen dabei an die Zielfunktion geknüpft werden müssen. Anschaulich geht der Algorithmus folgendermaßen vor: Am Anfang ist eine Startlösung L = L(0) gegeben. In jeder Iteration wird nun ein Label α fest gewählt. Alle Komponenten (Punkte) von L, welche bereits mit α beschriftet sind, werden in der aktuellen Iteration nicht geändert. Ziel der Iteration ist es, für alle anderen Komponenten (Punkte) von L folgende binäre Entscheidungsfrage zu lösen: Soll die aktuelle Beschriftung der Komponente geändert und auf α gesetzt werden ? Dies führt zu einer Erweiterung (Expansion) der Klasse α. Ein Beispiel für die Auswirkungen einer Iteration ist in Abbildung 3.5 dargestellt. Grundlage für die mathematische Formulierung bilden so genannte zulässige Schritte im def Raum SK = {1, . . . , K}n . Diese definieren eine Umgebung U (L) eines Vektor L ∈ SK . In jeder Iteration kann durch Übertragung auf das schon anschaulich beschriebene binäre Problem ein Minimum in einer Umgebung gefunden werden. Es ist möglich, dieses Verfahren als eine Art dynamische lokale Suche in einem Graphen zu betrachtet. Die Arbeiten [Vek99, KT05] bezeichnen es direkt als Spezialfall der üblichen lokalen Suche. Ausgehend von den direkten Beschreibungen des Algorithmus in [BVZ99a, SZS*06] sei aber darauf hingewiesen, dass der konkrete Ablauf nicht direkt dem Konzept der Lokalen Suche“ entspricht. Dieser Unterschied ” wird nach der Beschreibung des Algorithmus deutlich. In [Vek99, BVZ99a] wurden zwei unterschiedliche Konzepte (α-Expansion und α, β-Swap) 38 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN für zulässige Schritte definiert und getestet, von denen an dieser Stelle nur das empirisch beste Konzept der α-Expansion vorgestellt werden soll: Definition 3.66 Ein Schritt im Raum SK ist ein Paar (L1 , L2 ) mit L1 , L2 ∈ SK . (L1 , L2 ) ist ein zulässiger α-Erweiterungsschritt ⇐⇒ ∀i ∈ {1, . . . , n} : (L2i = L1i ) ∨ (L2i = α). (3.67) Die Menge der durch diese zulässigen Schritte definierten Vektoren L2 definieren eine Umgebung U α (L1 ). Der bereits skizzierte Ablauf des Algorithmus kann jetzt exakt formuliert werden: In jeder Iteration k erfolgt die Auswahl eines festen Label α(k). Ausgehend von dieser Wahl wird das folgende allgemeine Teilproblem gelöst: L(k+1) = argmin F (L). (3.68) L ∈ U α(k) (L(k) ) Durch die Wahl der Umgebung kann das Problem folgendermaßen als binäres Problem beschrieben werden: Zunächst ist durch die aktuelle Beschriftung L(k) und die Wahl des Labels α(k) die Zielfunktion in der passenden Umgebung nur noch von einem binären Vektor B abhängig. Dieser kodiert die Information, ob ein Punkt seine Beschriftung beibehält oder die Beschriftung auf α gesetzt wird. Daher lässt sich für die neue binäre Zielfunktion Ekbin schreiben: def Ekbin (B) = F (L(B)) (3.69) α(k) B = 1 i def Li (B) = . (k) L Bi = 0 i (3.70) mit Nicht jeder binäre Vektor B kodiert hingegen einen zulässigen Nachbarn“ von L(k) . Es gilt ” (k) die Einschränkung: ∀i mit Li = α(k) : Bi = 1. Alle bisherigen α-Beschriftungen werden dadurch fixiert. Durch diese Festlegung ergibt sich folgendes binäre Teilproblem: L(k+1) = Γ (L(k) , argmin B∈{0,1}n (k) ∀Li =α(k):Bi =1 Ekbin (B)). (Subα ) 39 3.4. ALPHA-EXPANSION-ALGORITHMUS Die Funktion Γ dient dazu, die Information des binären Vektors B zu dekodieren“ und es ” gilt def Γ (L(k) , B) = L(B) (3.71) mit der Festlegung von L(B) durch Gleichung (3.70). Das in die Gleichung (Subα ) eingebettete Optimierungsproblem ist ein bekanntes Optimierungsproblem der Form (BinF ), welches unter den beschriebenen Anforderungen auf das Problem des minimalen Schnittes in einem Graphen reduziert werden kann. Die Übertragung dieser Anforderungen auf die Zielfunktion F werden im Abschnitt 3.4.3 näher untersucht. Weiterhin führt die zusätzliche Nebenbedingung lediglich auf eine Minimierung einer Projektion von def E = Ekbin : ω argmin E(B) = argmin Eproj (B̃) B∈{0,1}n ∀i∈ω:Bi =1 (3.72) B̃∈{0,1}n−]ω def (k) Die Indexmenge ω umfasst alle fixierten Komponenten: ω = ω(k) = {i | Li fixierte Vektor der Projektion ist Bω ≡ 1. = α(k)}. Der Es gibt verschiedene Möglichkeiten die Funktion α(k) und damit die Wahl des fixierten Labels vorzunehmen. In den Arbeiten [Vek99, BVZ99b, BVZ01] wird vorgeschlagen, alle möglichen Labels nacheinander durch eine Iteration abzuarbeiten. Solch ein Zyklus wird dann solange wiederholt, bis eine weitere Minimierung des Funktionswertes von F nicht mehr möglich ist. Die Reihenfolge der Labels in einem Zyklus kann eine zu Beginn des Zyklus zufällig gewählte Permutation sein. In bisher bekannten Beschreibungen des α-Expansion-Algorithmus sind weitere Details ausgespart. Der Algorithmus ist diesbezüglich noch einmal in der Pseudocodebeschreibung 3.1 zusammengefasst und richtet sich nach der konkreten Implementierung von Olga Veksler, auf die in der Arbeit [SZS*06] verwiesen wird. Der genaue Ablauf zeigt den Unterschied zur Lokalen Suche“: Die Nachbarschaft einer Beschriftung hängt explizit vom ausgewählten fixier” ten Label α(k) ab. Sie ist daher vom genauen Weg der Suche abhängig. Dies steht im Kontrast zu der fixierten Nachbarschaft bei der üblichen Lokalen Suche“. ” 3.4.2 Eigenschaften des Algorithmus Die Terminierung des Algorithmus ist aus folgenden Gründen gesichert. Die Zielfunktion F ist auf der Menge SK offensichtlich nach unten beschränkt, da die Menge SK endlich ist. Da in jedem erfolgreichen Zyklus der Zielfunktionswert reduziert wird : F (L(k) ) < Fold , können nur endlich viele Zyklen durchlaufen werden. Unter ein paar zusätzlichen Annahmen ist es sogar 40 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN Pseudocode 3.1: α-Expansion-Algorithmus Waehle eine Anfangsbeschriftung L(0) k := 0 Fold := ∞ do success := 0 π = Zufaellige oder fest gewaehlte Permutation von {1, . . . , K} for i := 1 . . . K do α := π(i) L(k+1) = Loesung des Unterproblems (Subα ) k := k + 1 end if F (L(k) ) < Fold then success := 1 Fold := F (L(k) ) end while ( success and k < maxIterations ) möglich, die Terminierung in O(n) Zyklen zu beweisen [Vek99]. Der α-Expansion-Algorithmus erzeugt, wie bereits angesprochen, nicht notwendigerweise ein globales Minimum. Der Algorithmus liefert hingegen immer ein Art lokales Minimum bezüglich der möglichen α-Expansionsschritte. Eine wichtige Fragestellung in diesem Zusammenhang ist die Entfernung“ des Resultates des Algorithmus vom globalen Minimum. Dies ” mündet in der so genannten Approximationsgüte (relative approximation): Satz 3.73 Sei L̂ das globale Minimum von F ∈ F 2 , L das Resultat des α-Expansion-Algorithmus und o.B.d.A. F (L̂) ≥ 0. Dann gilt folgende Abschätzung: F (L̂) ≤ F (L) ≤ 2 max i,j max E i,j (α, β) min E i,j (α, β) F (L̂) α6=β (3.74) α6=β Beweis zu 3.73: Siehe Veksler [Vek99] (Originalarbeit) oder Kleinberg und Tardos [KT05]. Korrolar 3.75 Sei L̂ das globale Minimum von F ∈ F 2 mit F (L̂) ≥ 0 und L das Resultat des α-Expansion-Algorithmus. Dann gilt für das verallgemeinerte Potts-Modell E i,j (Li , Lj ) = Ei,j δ(Li 6= Lj ) mit Ei,j ≥ 0: F (L̂) ≤ F (L) ≤ 2F (L̂) (3.76) Beweis zu 3.75: Es gilt: max E i,j (α, β) = min E i,j (α, β) α6=β α6=β und nach Satz 3.73 folgt sofort Aussage (3.76). 41 3.4. ALPHA-EXPANSION-ALGORITHMUS 3.4.3 Anforderungen an die Zielfunktion bei F ∈ F 2 In Abschnitt 3.3 wurden die Anforderungen an eine binäre Funktion untersucht, so dass diese mit einer Reduzierung auf das Problem des minimalen Schnittes optimiert werden kann. Im Folgenden seien Funktionen F : SK → R aus F 2 betrachtet: F (L) = n X X F i (Li ) + i=1 F i,j (Li , Lj ) i<j i,j∈{1,...,n} Die in jeder Iteration des α-Expansion-Algorithmus auftretende Zielfunktion des binären def ω . Die Definition von E induziert die folgende Darstellung der Teilproblem (Subα ) sei E = Eproj Funktion mit L(B) nach Gleichung 3.70: E(B) = X F i (α) + i∈ω + X F i (Li (B))+ i∈ω / X F (α, α) + i<j, i∈ω, j∈ω + X i,j X F i,j (Li (B), α)+ i<j, i∈ω, / j∈ω X F i,j (α, Lj (B)) + i<j, i∈ω, j ∈ω / F i,j (Li (B), Lj (B)) (3.79) i<j, i∈ω, / j ∈ω / Die Funktion E besitzt daher ebenfalls eine F 2 -Darstellung mit i, j ∈ / ω: E(B) = X E i (B) + i X E i,j (Bi , Bj ) + C i<j und E i,j (Bi , Bj ) = F i,j (Li (B), Lj (B)) i i E (Bi ) = F (Li (B)) + n X i,j F (Li (B), α) + j=i+1 C= X i∈ω F i (α) + X i−1 X F j,i (α, Li (B)) j=1 F i,j (α, α). i<j, i∈ω, j∈ω C ist eine von B unabhängige Konstante und kann daher bei der Optimierung vernachlässigt werden. Um die Minimierung in einer Iteration durchzuführen, muss die Funktion E regulär 42 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN sein: ∀i, j ∈ ω : E i,j (0, 0) + E i,j (1, 1) ≤ E i,j (0, 1) + E i,j (1, 0). (3.81) Diese Bedingung überträgt sich auf F in folgender Weise: (k) (k) ∀i, j mit Li 6= α 6= Lj : (k) (k) (k) (k) F i,j (Li , Lj ) + F i,j (α, α) ≤ F i,j (Li , α) + F i,j (α, Lj ) (3.82) Damit wird aber nur die Regularität in einer Iteration für ein spezielles L(k) gefordert. Ein notwendiges12 Kriterium für die Regularität in einer beliebigen Iteration ist daraufhin im folgenden Satz dargestellt. Satz 3.83 Sei F : SK → R die Zielfunktion des Problems (OptF ) und F ∈ F 2 . Wenn für alle Funktionen F i,j aus der F 2 -Darstellung von F folgende Bedingung erfüllt ist: ∀α, β, γ mit β 6= α 6= γ : F i,j (β, γ) + F i,j (α, α) ≤ F i,j (β, α) + F i,j (α, γ) (3.84) dann lässt sich die Funktion F mit dem α-Expansion-Algorithmus minimieren und es gelten die in Abschnitt 3.4.2 angeführten Eigenschaften des gefundenen (lokalen) Optimums. Beispiel 3.85 Das verallgemeinerte Potts-Modell mit Ei,j ≥ 0 (siehe Abschnitt 2.3.4) genügt der Bedingung (3.84): F i,j (β, α) = F i,j (α, γ) = Ei,j (3.86) F i,j (α, α) = 0 (3.87) F i,j (β, γ) = Ei,j δ(β 6= γ). (3.88) Daraus folgt unmittelbar: Ei,j δ(β 6= γ) + 0 ≤ Ei,j + Ei,j 3.4.4 (3.89) Beziehung zur Schätzung von MRF-Zuständen Die Beziehung der besprochenen Optimierungsprobleme zur Schätzung von MRF-Zuständen (siehe Kapitel 2) lässt sich ziemlich schnell erkennen. Die zu minimierende Zielfunktion E bei Dieses Kriterium kann nur als notwendig bezeichnet werden, da L(k) beliebig ist aber nicht zwangsweise jede Komponente während des Algorithmus jedes mögliche Label annehmen muss. 12 43 3.4. ALPHA-EXPANSION-ALGORITHMUS der MAP-Schätzung (siehe Gleichung (2.16), Abschnitt 2.3.3) hat im allgemeinen Fall (Annahme A1’) die Form: E(L) = X ECI (LC ). (3.90) C ist eine Clique in S Aus dieser Darstellung lässt sich erkennen, dass E zur Funktionsklasse F ω(S) gehört. Bei der 4er-Nachbarschaft (siehe Abschnitt 2.1) genügt daher eine Betrachtung von F 2 -Funktionen mit der ursprünglichen Definition der Regularität 3.39: E(L) = X i E i (Li ) + X E i,j (Li , Lj ) (3.91) (i,j)∈N Die Anforderungen an die einzelnen Summanden E i,j übertragen sich damit auf natürliche Weise auf die Cliquenpotentiale ECI 13 . Bei einem Übergang von der 4er-Nachbarschaft auf die 8er Nachbarschaft ist es bereits notwendig F 4 -Funktionen zu betrachten. Da diese in der Konstruktion des entsprechenden Graphen unhandlich sowie die Anforderungen der Regularität im Gegensatz zu F 2 -Funktionen nicht so leicht nachzuprüfen sind, ist es üblich sich auf eine Approximation durch F 2 -Funktionen zu beschränken. Zur Erinnerung sei an dieser Stelle angemerkt, dass die Notation E I die Abhängigkeit von der Beobachtung I ausdrückt. 13 44 KAPITEL 3. SCHÄTZUNG VON MRF-ZUSTÄNDEN MIT MINIMALEN SCHNITTEN Kapitel 4 Anwendungen Die allgemeine abstrakte Beschreibung von Graph-Cut-Methoden ermöglicht eine vielseitige Anwendung in unterschiedlichen Gebieten der Bildverarbeitung. Die folgenden Abschnitte dienen der Beschreibung der Problemstellungen, welche im Kontext dieser Arbeit mit Graph-Cut gelöst werden konnten. Die Beschreibung der interaktiven Segmentierung“ in Abschnitt 4.1 dient dazu, einen ent” scheidenden Grundansatz bei der Modellierung vorzustellen, welcher später bei der Kennzeichenlokalisierung 4.2 effektiv angewendet werden kann. Anschließend werden Grundaspekte der Bewegungssegmentierung vorgestellt, welche zu der Ebenensegmentierung mit Tiefeninformationen führen. 4.1 Interaktive Segmentierung Im Folgenden soll das Prinzip der Teilfixierung bei der Anwendung von Graph-Cut-Methoden vorgestellt werden. Der Begriff Interaktive Segmentierung“ wird hier verwendet, da diese Art ” von Segmentierung hauptsächlich bei der benutzerunterstützten Segmentierung von medizinischen Bild- oder Voxeldaten zum Einsatz kommt. Es sei aber explizit darauf hingewiesen, dass die Grundidee auch bei automatischen Segmentierungen (siehe Abschnitt 4.2) anwendbar ist und daher an dieser Stelle vorgestellt wird. 4.1.1 Aufgabenstellung Ziel soll es sein, ein Bild in eine fest vorgegebene Anzahl K von Regionen zu unterteilen. Dabei muss eine Region nicht zwangsläufig nur eine Zusammenhangskomponente bilden. Im Ge45 46 KAPITEL 4. ANWENDUNGEN gensatz zu der Segmentierung von allgemeinen Bildern ohne Zusatzinformationen in Gebiete, wie etwa bei der Verwendung von Normalized-Cuts [GS06, SM00], ist bei dieser Aufgabenstellung zusätzlich eine Teilauswahl von Punkten aller K Regionen gegeben. Im Folgenden soll die Formulierung Teilfixierung“ verwendet werden. Dieser Unterschied ist das Analogon zur ” Unterscheidung von überwachten und unüberwachten Lernverfahren. 4.1.2 Festlegung der unabhängigen Kosten einzelner Pixel Eine Teilfixierung im Bild (n-dimensional) I ist eine Folge Ω = {Pi }K i=1 von paarweise disjunkten Punktemengen Pi ⊂ Zn . Analog zu Abschnitt 2.3.1 soll wieder eine Beschriftung L des Bildes I geschätzt werden. Ein paar Komponenten dieser Beschriftung sind bereits durch die Teilfixierung festgelegt: xi ∈ Pk → Li = k. Die Wahrscheinlichkeit Pr(Li = k|Ii ) für diese Punkte ist demnach 1 für xi ∈ Pk und 0 für alle anderen möglichen Werte aus {1, . . . , K}. Übertragen auf die dazugehörige Zielfunktion E ergibt sich für die E i Terme mit xi ∈ Pk : ∞ def i E (Li ) = 0 Li 6= k (4.1) Li = k. Bei der Implementierung kann die für die Optimierung äquivalente Variante mit −H def i E (Li ) = 0 Li = k (4.2) Li 6= k. verwendet werden. Der Wert H ist dabei ein praktisch genügend großer Wert. Eine andere Möglichkeit ist es, den α-Expansion-Algorithmus so anzupassen, dass alle Knoten vi des Graphen mit xi ∈ Pk mit den entsprechenden Terminals vereinigt1 werden. 4.1.3 Wahl der Cliquen-Potentiale 2. Ordnung Entscheidend für die Beschriftung der anderen Pixel ist die Festlegung der Cliquen Potentiale 2. Ordnung (Terme E i,j ). Diese Funktionen bestimmen die Grenzen der Regionen und werden daher oft als smoothness cost oder Nachbarschaftsbewertung bezeichnet. 1 Eine Vereinigung von Knoten v und Knoten w eines Graphen ist ein Knoten q mit N (q) = (N (v) ∪ N (w)) \ {v, w}. 47 4.1. INTERAKTIVE SEGMENTIERUNG Bild 4.1: Veranschaulichung der Gleichung (4.4) mit unterschiedlichen Werten für σ und 2 x p(x, σ) = exp − exp − 2σ 2 An den Grenzen der Regionen einer Beschriftung sollen auch starke Kanten im Bild I auftreten, daher seien die Funktionen E i,j analog zu [BFL06] wie folgt gewählt: (Ii − Ij )2 E (Li , Lj ) = exp − 2σ 2 i,j def 1 δ(Li 6= Lj ). kxi − xj k (4.3) In diesem Zusammenhang ist es wichtig festzustellen, dass es keine theoretische Begründung für die Verwendung dieser Normalverteilungsdichte gibt. Die Zielfunktion ist von ihrer theoretischen Bedeutung immer der negative Logarithmus einer Dichte, daher ergibt sich für die zugrunde liegende Dichte“ 2 von (4.3): ” Pr(Li = Li , Lj = Lj |I) = exp(−E i,j (Li , Lj )). (4.4) Aus der Abbildung 4.1 ist ersichtlich, dass Kanten einer Stärke größer 3σ bevorzugt werden. Die Arbeit [CZ05] verwendet eine Wahl der Nachbarschaftsbewertung analog zu (4.3) und zeigte durch Experimente eine signifikante Verbesserung der Segmentierungsergebnisse im Vergleich zu anderen Funktionstypen. Aufgrund der Spezifikation der einzelnen Bestandteile der Energiefunktion ist der gesamte Algorithmus bereits beschrieben. Abbildung 4.2 stellt anhand der einzelnen Schritte des α-Expansion-Algorithmus ein Beispiel für eine Segmentierung vor. 2 Die Funktion bildet keine Dichte im mathematischen Sinne, da ihr uneigentliches Integral nicht beschränkt ist. 48 KAPITEL 4. ANWENDUNGEN Bild 4.2: Bildreihenfolge von links nach rechts bzw. oben nach unten: (1) Originalbild, (2) Auswahl der Teilfixierung, (3)-(8) Die einzelnen Iterationen des α-Expansion-Algorithmus im ersten Zyklus (Die nächsten Iterationen führen zu keiner weiteren Verbesserung des Zielfunktionswertes, daher bricht der Algorithmus ab). 4.2 4.2.1 Kennzeichenlokalisierung Einführung Die moderne Verkehrssicherheitstechnik in Form von automatischen Geschwindigkeitsmesssystemen ist ohne die automatische Detektion und Erkennung von KFZ-Nummernschildern in Bildaufnahmen undenkbar geworden. Ein so genannter Kennzeichenleser muss dabei viele Teilprobleme lösen: Detektion der Nummernschilder, Ausrichtung, Buchstabensegmentierung, Buchstabenerkennung, Syntaktische Überprüfung. Die Ausrichtung der Nummernschilder kann dabei anhand der Ausrichtung des Nummernschild-Randes erfolgen. In einem dafür notwendigen ersten Schritt ist es möglich, die Hypothese des Nummernschildes mittels anderer Bildverarbeitungsmethoden zu finden. Diese Hypothese im Eingabebild I sei im Folgenden mit xh bezeichnet. 4.2.2 Kennzeichenlokalisierung als binäres Segmentierungsproblem Die Segmentierung des Randes kann als ein binäres Segmentierungsproblem aufgefasst werden. Ziel ist es, das Bild I in eine Kennzeichenregion 1 (begrenzt durch den gesuchten Rand) und eine Hintergrundregion 0 aufzuteilen. Die Größe des Nummernschildes ist a priori nicht bekannt. Im Folgenden soll aber von einer maximalen Breite wx und maximalen Höhe wy ausgegangen werden. 49 4.2. KENNZEICHENLOKALISIERUNG Bild 4.3: Ausgeschnittener Bildbereich um die gefundene Hypothese des Nummernschildes Bild 4.4: Festlegung der fixierten Labels für das optimale Region Growing“ mit Graph-Cut: ” (roter Bereich in der Mitte) E i (1) = −∞, (grüner Bereich am Rand) E i (0) = −∞ Die Idee der Kennzeichenlokalisierung ist äquivalent zum Grundgedanken der interaktiven Bildsegmentierung wie sie in Abschnitt 4.1 vorgestellt wurde. Für eine korrekte Beschreibung des Algorithmus reicht es daher, eine Teilfixierung des Bildes anzugeben. Die Zielfunktion lässt sich analog zu den Gleichungen (4.2) und (4.3) aufstellen. In einem gewissen Bereich um die Hypothese xh wird eine Fixierung der Beschriftung der Kennzeichenregion (Li = 1) vorgenommen: def P1 = {x | |x1 − xh1 | ≤ ux uy ∨ |x2 − xh2 | ≤ }. 2 2 (4.5) Die Parameter ux und uy sollten so gewählt werden, dass die entstehende Region P1 mindestens einen Hintergrundpixel des Nummernschildes enthält, auch wenn die Hypothese direkt auf einem Zeichen des Nummernschildes liegt. Die Größe ux ist somit indirekt abhängig von der maximalen Breite eines Zeichens. Ausgehend von der Angabe der maximalen Größe eines Nummernschildes erfolgt die Fest- 50 KAPITEL 4. ANWENDUNGEN Bild 4.5: Ergebnis der Segmentierung des Nummernschildes von Beispielbild 4.3. Der rotgestreifte Bereich markiert das gefundene Nummernschild. legung, dass auf dem maximalen Rand alle Pixel dem Hintergrund angehören: wx wy ∨ |x2 − xh2 | = } (4.6) 2 2 Eine Veranschaulichung dieser Festlegungen ist in Abbildung 4.4 dargestellt. Da ausgehend von einem Punkt eine optimale Kontur (im Sinne des Bildgradienten senkrecht zur Kontur) gesucht wird, kann das Verfahren als optimales Region-Growing“ bezeichnet werden. ” def P0 = {x | |x1 − xh1 | = 4.3 Ebenendetektion Die Detektion von Ebenen ist in vielen Anwendungen der 3D-Bildverarbeitung ein wichtiger Teilschritt. Ziel ist es räumlich planare Teilstücke in einer Szene zu erkennen. Eine Möglichkeit ist es, aus einer gegebenen Folge von Aufnahmen verfolgte Punktmerkmale so zu gruppieren, dass sie jeweils einer gemeinsamen Homographie unterliegen [KD07]. In der Arbeit [KD07] wurde weiterhin gezeigt, dass aus dieser Gruppierung nur dann auf planare Teilstücke geschlossen werden kann, wenn die Kamerabewegung eine Translation beinhaltet. Neue Kameras mit Echtzeit-Tiefeninformationen [Lan00] ermöglichen es hingegen, einen ganz anderen Zugang zu wählen. Die Detektion planarer Teilstücke kann dadurch Standardverfahren verwenden, welche auf 3D-Punktewolken arbeiten [vH06, CZ01]. Eine Möglichkeit ist es zum Beispiel, eine Art Region Growing durchzuführen. Dabei wird, wenn der Abstand zur bisher geschätzten Ebene einen gewissen Schwellwert unterschreitet, ein Punkt zur Region hinzugefügt. Eine Verbesserung der Schätzung erfolgt daraufhin Schritt für Schritt durch neue Punkte. In den folgenden Abschnitten wird eine Verbesserung beider Ansätze vorgestellt. Zunächst kommt ein beliebiges Verfahren der Ebenendetektion3 zur Anwendung, um eine Startschätzung 3 Für eine Beschreibung dieser Verfahren sei an dieser Stelle auf die Originalarbeiten [KD07, vH06, CZ01] oder 51 4.3. EBENENDETEKTION zu erhalten. Diese Schätzung wird danach durch eine Graph-Cut-Segmentierung verbessert. 4.3.1 Problemstellung Sei Rπ die Menge der abgebildeten Punkte im Bild I einer Ebene π im Raum. Die Anwendung eines Verfahrens der Ebenendetektion [CZ01, KD07] liefert eine Startschätzung S der Menge Rπ . Beim Verfahren von [KD07] kann zum Beispiel eine Auswahl von zufälligen Punkten in der konvexen Hülle der Punktmerkmale verwendet werden. Um die Schätzung zu verbessern, kann das zugrunde liegende Segmentierungsproblem wieder als binäres Optimierungsproblem formuliert werden. Die Beschriftung Li = 1 bedeutet dann, dass der Punkt xi zu Rπ gehört. 4.3.2 Ebenendetektion durch Bewegungssegmentierung Um ausgehend von verfolgten Punktmerkmalen eine vollständige Segmentierung einer Bildsequenz durchzuführen, wurde in [XS05] Graph-Cut verwendet. Der Begriff vollständig“ bezieht ” sich auf die Gruppierung der Pixel: Jeder Pixel in jedem Bild wird genau einer Komponente zugeordnet, die während der Sequenz eine gemeinsame Bewegung durchführt. Ein Hauptbestandteil der Arbeit [XS05] ist die Erweiterung von verfolgten Punktmerkmale mit Graph-Cut. Dieser Ansatz kann effizient für die Ebenensegmentierung verwendet werden. Gegeben seien die Startschätzung S der Ebenenpunkte sowie die bereits ermittelte Bewegung der Ebene als Homographie H vom aktuellen Bild It zu einem früheren Bild der Sequenz It−ν . H ist eine 3x3 Matrix, die homogene Bildkoordinaten ineinander abbildet. Im Folgenden sei die Schreibweise H(x) verwendet, um die resultierende nicht-lineare Abbildung direkt in Bildkoordinaten auszudrücken. Ausgehend von diesen Informationen lässt sich nun das Differenzbild ∆ berechnen: def ∆i = |It (xi ) − It−ν (H(xi ))|. (4.7) Unter der Annahme einer perfekten Abbildung verschwindet ∆ auf dem gesuchten Ebenenstück sowie in homogenen Gebieten. Bei realen Aufnahmen ist diese Annahme natürlich unhaltbar und eine Optimierung mit Graph-Cut erscheint sinnvoll. Dadurch kann ein kompaktes Gebiet ermittelt werden, welches gewisse Bedingung am Rand und im Inneren erfüllen muss. Diese Bedingungen werden im Folgenden durch die Bewertung einzelner Pixel E i und die auf die Zusammenfassung in [KRD07] verwiesen. 52 KAPITEL 4. ANWENDUNGEN Bewertung der Objektgrenze E i,j ausgedrückt: F (L) = n X E i (Li ) + i=1 X E i,j δ(Li 6= Lj ). (4.8) i,j∈N Wieder dient das verallgemeinerte Potts-Modell dazu, die Bewertung der Objektgrenze zu modellieren. In [XS05] werden folgende Bedingungen an das Innere der Ebenenregion gestellt: 1. geringe Werte von ∆i 2. beschränkter Abstand“ zur Anfangsschätzung. ” Die zweite Bedingung kann durch die Verwendung einer sogenannten Level-Set-Darstellung4 erreicht werden. Für die Anfangsschätzung S lässt sich dazu ein Bildmaske M erstellen: 1 x ∈ S i def Mi = 0 sonst. (4.9) Die Level-Set-Darstellung ϑ ergibt sich anschließend aus einer zweidimensionalen Gaußfilterung des Bildes M : def ϑ = Gσ ∗ M. (4.10) Gσ ist in diesem Fall ein uniformer zweidimensionaler Gaußkern mit großer“ Varianz σ. Das ” Bild ϑ führt zu einer Glättung der Grenzen von M . Die Werte von ϑ fallen monoton orthogonal zu der Objektgrenze in M . Dies wird in der Kostenfunktion dazu verwendet, einen plausiblen Abstand zur Anfangsschätzung zu definieren. Abbildung 4.6 zeigt ein Beispiel für die Funktion ϑ. An den dort abgebildeten Höhenlinien ist die Grundform der Anfangsschätzung erkennbar. Geringe Werte von ∆i mit kleinen Kosten zu belegen, kann durch eine speziell gewählte Funktion s erzielt werden. Analog zu [XS05] ergibt sich insgesamt folgende Kostenfunktion: s(∆ , α , β ) i h h def i Ehomography (l) = (1 − s(∆ , α , β ))ϑ i h h i 4 l=1 (4.11) l=0 Der Begriff Level-Set bezeichnet eigentlich Höhenlinien, bzw. eine Menge von Punkte mit gleicher zKoordinate. 53 4.3. EBENENDETEKTION Bild 4.6: Beispiel für die Level-Set-Darstellung ϑ: Stetig fortgesetzte Oberfläche der Funktion mit Höhenlinien. mit der durch α und β parametrisierten Sigmoid-Funktion5 s: def s(∆i , αh , βh ) = 1 tan−1 (αh (∆i − βh )) + . 2 π (4.12) Die Funktion s besitzt eine Art Phasenübergang an der Stelle βh , dessen Länge“ bzw. Glatt” heit durch αh beeinflusst wird. Es ergeben sich daher Kosten von ≈ 1 für Werte von ∆i wesentlich größer als βh und Kosten von 0 für Werte wesentlich kleiner als βh . Beispiele für den Verlauf dieser Funktion sind in Abbildung 4.7 dargestellt. Legt man die Annahme zugrunde, dass an der Grenze der Projektion der Ebene eine Kante im Bild auftritt, kann diese mit niedrigen Kosten belegt werden. Diese Idee wird auch in der Arbeit [XS05] verwendet. Die dort vorgeschlagene Kostenfunktion ist stückweise definiert: i,j Eintensity γ |I(xi ) − I(xj )| < κe def = 1.0 sonst. (4.13) Mit γ > 1 erhalten Objektgrenzen mit einem Gradient kleiner einem gewissen Schwellwert κe höhere Kosten. Die komplette Zielfunktion hat nach der zusätzlichen Einführung eines Ge5 Der Begriff der Sigmoid-Funktion ist nicht eindeutig einer Funktion zugeordnet, sondern beschreibt immer ein Element der Klasse aller sigmoidalen Funktionen. 54 KAPITEL 4. ANWENDUNGEN Bild 4.7: Beispiele für den Funktionsverlauf der sigmoidalen Funktion s mit der ArkustangensDarstellung (4.12) Bild 4.8: Erweiterung einer Ebene mit Graph-Cut und Homographie-Informationen: (innere blaue Kontur) Ebene vor der Graph-Cut-Segmentierung (äußere blaue Kontur) Ebene nach der Erweiterung mit Graph-Cut wichtungsparameters λ die folgende Form: F (L) = n X i=1 E i (Li ) + λ X E i,j δ(Li 6= Lj ) (4.14) (i,j)∈N Ein Beispiel für die Anwendung von Graph-Cut bei der Ebenendetektion mit HomographieInformationen ist in Abbildung 4.8 dargestellt. 55 4.3. EBENENDETEKTION 4.3.3 Ebenendetektion mit zusätzlicher Tiefeninformation Filterung der Tiefeninformation Eine Filterung der Eingabedaten ist bei jeder Anwendung der Bildverarbeitung ein wichtiger Schritt. Tiefeninformationen aktueller Kameras, wie etwa der PMD 19k (Abbildung 5.1), sind oft stark verrauscht und liefern viele Ausreißer in den Tiefenwerten. Um diese Ausgangssituation zu verbessern, wurden zwei Filterungen durchgeführt. Die Kamera liefert Kamera zusätzlich die Amplitudenwerte der Infrarot-Wellen in einem Sensor. Eine geringe Amplitude lässt auf eine geringe Abstrahlung der aktiven Beleuchtung in der Szene schließen. An diesen Stellen ist eine robuste Tiefenschätzung schwierig [Lan00] und die Wahrscheinlichkeit eines Ausreißers im Tiefenbild hoch. Die erste Filterung löscht daher die Tiefeninformation in Pixeln, bei denen der Amplitudenwert unter einem gewissen Schwellwert (z.B. 2.0) fällt. Anschließend erfolgt eine zweite Filterung mit einem 3x3 Median-Filter. Verwendung der Tiefeninformation Durch die Tiefeninformationen der Kamera (Abbildung 5.1) und deren vorher bestimmte intrinsische Kameraparameter ist es möglich, für jeden Punkt x des Bildes den Punkt x(3D) im Raum relativ zum Kamerazentrum zu bestimmen. In Abschnitt 4.3.2 wurde als Maß für die Zugehörigkeit einzelner Pixel zur Ebene π ein Differenzbild berechnet. Ausgehend von den bereits ermittelten 3D-Punkten lässt sich ein anderes Maß definieren, welches die exakte mathematische Zugehörigkeit zur Ebene im Raum betrachtet. Zunächst ist eine Bestimmung der Ebenenparameter notwendig. Unter Verwendung der Punkte S lässt sich eine allgemeine Schätzung im Sinne von M-Estimation [Hub80] anwenden: n̂ = argmin n X ρ(nT x(3D) − 1). (4.15) x∈S Dabei ist ρ eine geeignete robuste Fehlerfunktion wie etwa die Huber-Funktion [Hub80]. Die Lösung des Optimierungsproblems (4.15) führt auf eine iterative gewichtete Kleinste-Quadrate Schätzung (IRLS). Es ist relativ leicht zu sehen, dass bei der Schätzung keine Ebene ermittelt werden kann, die durch den Ursprung (Kamerazentrum) verläuft. Diese mathematische Einschränkung spielt in der Praxis keine Rolle, da jede Ebene, die das Kamerazentrum schneidet, nur eine Gerade in der Bildebene bildet. Ein geeignetes Maß für die Zugehörigkeit eines Punktes zur Ebene lässt sich durch den Ab- 56 KAPITEL 4. ANWENDUNGEN stand zur geschätzten Ebene definieren: def ∆i = |n̂T x(3D) − 1| i . kn̂k (4.16) Dieser Abstand liefert die entscheidende Information bei der Aufstellung der passenden Energiefunktionen. Definition der Energiefunktionen Bei der Pixelbewertung (Cliquen-Potentiale 1. Ordnung) ist es notwendig, folgende Sonderbehandlungen vorzunehmen: 1. Teilfixierung des Bildrandes auf die Hintergrundbeschriftung 2. Stellen an denen keine Tiefeninformationen verfügbar sind, können nur durch die Informationen der Nachbarn ( Kosten E i,j ) beschriftet werden. Die Bildrandbehandlung ist ein nicht zu unterschätzendes Problem bei der Graph-Cut-Segmentierung: Für Objektgrenzen am Bildrand entstehen im Gegensatz zu Grenzen im Bild keine Kosten. Dies kann oft zu einer falschen Segmentierung führen. Die Annahme von Hintergrundpixeln am Rand behebt dieses Problem. Pixel ohne Tiefeninformationen entstehen durch die angewendeten Filteroperationen aus Abschnitt 4.3.3. Eine mathematische Beschreibung dieser Sonderfälle als Energiefunktion ist die Folgende: 0 keine Tiefeninformation an Position xi verfügbar def i Eplane (Li ) = −∞ Li = 0 ∧ xi liegt am Bildrand Ẽ i (L ) sonst. i plane (4.17) Analog zu der Bewertung des Differenzbildes in Abschnitt 4.3.2 lässt sich der restliche Teil der Funktion definieren: s(∆ , α , β ) Li = 1 i p p def i Ẽplane (Li ) = 1 − s(∆ , α , β ) L = 0. i p p i (4.18) Die Bewertung von Objektgrenzen kann auf zwei verschiedene Arten durchgeführt werden. Eine Möglichkeit ist es, Kanten im Distanzbild ∆ zu betrachten. Wird zum Beispiel eine Ebene 57 4.3. EBENENDETEKTION Bild 4.9: Beispiel für eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mit Graph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwendung von Tiefen- und Grauwertinformationen vor einem weiter entfernten Hintergrund segmentiert, so ist klar ersichtlich, dass sich in ∆ an den Objektgrenzen eine klare Kante abzeichnet. Die Angabe der Kosten für die Objektgrenze erfolgt dabei wieder analog zu Abschnitt 4.3.2 mit einer stückweise definierten Funktion: i,j Eplane γ |∆i − ∆j | < κp def = 1.0 sonst. (4.19) Insgesamt ergibt sich wieder folgende Zielfunktion für das Segmentierungsproblems: F depth (L) = X i Eplane (Li ) + λ i X i,j Eplane δ(Li 6= Lj ). (4.20) (i,j)∈N Fusion mit Grauwertinformationen Zusätzlich zur Tiefe liefert die Kamera ein Infrarot-Bild der Szene. Die Verwendung der bisher beschriebenen Zielfunktion (4.20) führt hingegen zu einer Segmentierung, die lediglich auf den Tiefeninformationen basiert. Aus diesem Grund ist es Ziel des folgenden Abschnittes, eine Fusion der Informationen aus Infrarot-Bild, im Folgenden allgemein als Grauwertinformation bezeichnet, mit den Tiefeninformationen während der Segmentierung zu erreichen. Ein Ansatz ist es, die Bewertung der Objektgrenze im Infrarot-Bild I anstatt im Distanzbild ∆ vorzunehmen. Dabei kann wieder die Festlegung (4.13) aus Abschnitt 4.3.2 verwendet werden. Die Kombination aus den beiden unterschiedlichen Kostenfunktionen ergibt daraufhin die für die Fusion verwendete Zielfunktion F fusion : F fusion (L) = X i i Eplane (Li ) + λ X (i,j)∈N i,j Eintensity δ(Li 6= Lj ). (4.21) 58 KAPITEL 4. ANWENDUNGEN Abbildung 4.9 zeigt auf anschauliche Weise wie diese Fusion zu besseren Ergebnissen bei der Segmentierung führen kann. Bisherige Ebenen-Segmentierungsalgorithmen basierten entweder auf reinen 3D-Informationen oder auf Grauwertinformationen. Durch die Kombination von einzelnen Optimierungskriterien in einer Zielfunktion ist es möglich geworden, beide Informationsquellen in einem Prozess effektiv zu nutzen. Die Verwendung der Homographie-Information als dritte Informationsquelle ist leider bei der heutigen gängigen Auflösung der Kameras von 19k Bildpunkten noch nicht nutzbar. Die Schätzung der Homographie und die Bestimmung eines Differenzbildes ist leider nur bei größeren Auflösungen robust möglich. An dieser Stelle sei weiterhin angemerkt, dass im ermittelten Infrarot-Bild der verwendeten PMD-Kamera oft Phasensprünge auftreten können, die abhängig von den Oberflächen der Objekte in der Szene sind. Eine Modellierung dieser Effekte, wie sie in normalen“ Grauwertbilder ” nicht auftreten, wurde bisher nicht vorgenommen. Kapitel 5 Experimente Das folgende Kapitel soll die Möglichkeiten von Graph-Cut-Verfahren durch Experimente aufzeigen. Dabei werden unterschiedliche Ansätze gegenüber gestellt und die Auswirkungen der Parameter aufgezeigt. Im Vordergrund bei der Auswahl der Experimente stand die Verwendung von realen Bildmaterial. So wurde für die Kennzeichenlokalisierung das in Abschnitt 4.2 beschriebene Verfahren in das Gesamtsystem lprJ des an der Universität Jena entwickelten Kennzeichenlesers zusätzlich integriert. Die Auswertung erfolgte anschließend auf der Grundlage der Gesamterkennungsrate. Bei der Ebenendetektion wurden Ground-Truth Informationen für verschiedene Szenen erstellt, welche eine quantitative Auswertung der in Abschnitt 4.3 vorgestellten Algorithmen ermöglichten. 5.1 Kennzeichenlokalisierung Im Rahmen einer Kooperation mit der Firma ROBOT Visual Systems GmbH entwickelte der Lehrstuhl für digitale Bildverarbeitung an der Universität Jena den Kennzeichenleser lprJ. Dieses bereits existierende Gesamtsystem wurde um zusätzliche Komponenten der Graph-Cut-Optimierung erweitert. 5.1.1 Experiment Die Auswertung erfolgte auf unterschiedlichen Testreihen von Straßenszenen. Die Charakteristik der einzelnen Sequenzen ist in Tabelle 5.1 aufgelistet. Die Lokalisierung von Nummernschildrändern wie in Abschnitt 4.2 vorgestellt, wird für jede 59 60 KAPITEL 5. EXPERIMENTE Charakteristik ≈Zeichenhöhe ]Bilder 90% niederländische Nummernschilder, 12 6079 viele Tagesaufnahmen NLSR520-200510 90% niederländische Nummernschilder, 12 4882 viele Tagesaufnahmen NLTest8288 nur niederländische Nummernschilder 16 8287 Elzerberg22282 95% deutsche Nummernschilder, Nacht24 4054 aufnahmen Bezeichnung NLSR520-200509 Tabelle 5.1: Verwendete Testsequenzen bei der Auswertung der Kennzeichenlokalisierung. Mit ]Bilder ist die Anzahl der Bilder in der Sequenz bezeichnet, welche mindestens ein Nummernschild enthalten. Sequenz NLSR520-200509 NLSR520-200510 NLTest8288 Elzerberg22282 Ergebnis von lprJ ohne GC 85.11% 69.44% 87.53% 45.34% mit GC Differenz 85.66% +0.55% 69.83% +0.39% 87.69% +0.16% 45.44% +0.10% Tabelle 5.2: Ergebnisse der Kennzeichenlokalisierung mit/ohne Graph-Cut-Erweiterung (σ = 3, ux = 21, uy = 11). Die Ergebnisse basieren auf der Erweiterung der Basis-Version von lprJ vom 5.6.2007. Nummernschild-Hypothese aufgerufen, falls alle bisher in lprJ integrierten Verfahren fehlschlagen. In Tabelle 5.2 sind die Gesamterkennungsraten mit und ohne Erweiterung aufgelistet. Die zusätzliche Verwendung des Graph-Cut-Ansatzes bewirkt zwangsläufig eine längere Laufzeit der Gesamterkennung. Aus diesem Grund wurde zusätzlich zu der Erkennungsrate auch die durchschnittliche Laufzeit untersucht. Die Ergebnisse sind in Tabelle 5.3 festgehalten. Der Zeitmessung startet nach dem Einlesen des Bildes in den Hauptspeicher und endet mit dessen Freigabe. Die Festlegung der Energiefunktionen aus Abschnitt 4.2 ist von verschiedenen Parameter Sequenz NLSR520-200509 NLSR520-200510 NLTest8288 Elzerberg22282 Durchschn. Laufzeit ohne GC 7.19s 6.73s 1.81s 3.88s mit GC 7.60s 7.24s 1.93s 4.21s Differenz +0.41s +0.51s +0.12s +0.33s Tabelle 5.3: Durchschnittliche Laufzeit für die komplette Verarbeitung eines Bildes. Parameterbelegung wie in Tabelle 5.2. 5.1. KENNZEICHENLOKALISIERUNG Parameter σ 1.0 2.0 3.0 4.0 5.0 6.0 61 Ergebnis von lprJ mit Graph-Cut 85.54% 85.56% 85.66% 85.66% 85.59% 85.51% Tabelle 5.4: Auswertung des Parameters σ (Bewertung der Objektgrenzen) bei der Kennzeichenlokalisierung anhand der Sequenz NLSR520-200509 (ux = 21, uy = 11) Parameter ux 15 17 19 20 21 23 25 Ergebnis von lprJ mit Graph-Cut 85.51% 85.54% 85.54% 85.54% 85.54% 85.52% 85.52% Tabelle 5.5: Auswertung des Parameters ux (Größe der fixierten Region) bei der Kennzeichenlokalisierung anhand der Sequenz NLSR520-200509 (σ = 1, uy = 11) abhängig. Die Untersuchung der Auswirkung dieser Parameter wurde ebenfalls anhand der Gesamterkennungsrate durchgeführt. Der Parameter σ (Tabelle 5.4) steuert den Einfluß der Bewertung der Objektgrenze. Durch ux (Tabelle 5.5) wird hingegen die Größe der inneren fixierten Region festgelegt. 5.1.2 Auswertung Durch die Kennzeichenlokalisierung mit Graph-Cut-Methoden konnte eine Verbesserung der Gesamterkennungsrate (siehe Tabelle 5.2) des Kennzeichenlesers erzielt werden. Die verwendeten Testsequenzen beinhalten eine Vielzahl von herausfordernden Problemstellungen (Schatten, Buchstabensegmentierung mit Kontextinformation, Detektion), welche nur durch eine Vielzahl von Algorithmen und Ansätzen lösbar sind. Eine Verbesserung von durchschnittlich 0.3% ist daher in diesen Bereichen der Erkennungsrate ein wichtiger Schritt. Die Auswertung der Laufzeit in Tabelle 5.3 zeigt, dass die Verwendung des Graph-CutAnsatzes eine Verlängerung der Laufzeit um durchschnittlich 340 msec bewirkt. Diese zusätz- 62 KAPITEL 5. EXPERIMENTE Bild 5.1: Verwendete Kamera für Echtzeit-Tiefeninformationen: PMD Kamera 19k liche Zeit ist im Verhältnis zur Gesamtzeit der Erkennung vernachlässigbar. Dennoch ist es abhängig vom Anwendungsgebiet, ob eine leichte Verbesserung der Gesamterkennung durch eine solche Erhöhung der Laufzeit sinnvoll ist. Die Auswertung der Parameter in den Tabellen 5.4 und 5.5 zeigt außerdem, dass deren Wert den Erkennungsprozess nicht signifikant beeinflusst. Eine rein heuristische Festlegung von σ und ux ist demnach zulässig. 5.2 Ebenendetektion 5.2.1 Experimentaufbau Als Kamera mit Echtzeit-Tiefeninformation wurde die PMD 19k (Abbildung 5.1) mit einer Auflösung von 160x120 Bildpunkten verwendet. Die quantitative Auswertung wurde anhand von drei Bildsequenzen durchgeführt. Die dabei verwendete Szene stellt eine Art räumliches Kalibriermuster dar, welches gute Punktmerkmale für die Verfolgung liefert. Für die Sequenzen wurden Ground-Truth Informationen erstellt. Diese Ground-Truth Informationen beinhalteten die Anzahl der ebenen Teilstücke im Bild sowie zugehörige Bildpunkte. Die Generierung dieser Informationen erfolgte ausgehend von einer manuellen Startauswahl mit Hilfe der Ebenenverfolgung und zusätzlicher manueller Korrekturen innerhalb der Sequenz. Der Fehler bzw. Abstand zwischen zwei ebenen Teilstücken (Regionen) wurde anhand des folgenden Verhältnisses berechnet: e(A, B) = ](A \ B) + ](B \ A) . ]A + ]B (5.1) 63 5.2. EBENENDETEKTION Bild 5.2: Versuchsaufbau für Beispiel 5.5 Dieses Fehlermaß ist 0 genau dann, wenn die Regionen A und B identisch sind und 1 falls es sich um disjunkte Mengen handelt. Der Zähler wird auch oft als symmetrische Differenz von A mit B bezeichnet. In jedem Bild der Sequenz müssen mehrere Ground-Truth Regionen und geschätzte Regionen miteinander verglichen werden. Da die Zuordnung zueinander nicht gegeben ist, erfolgt die Bestimmung des minimalen Fehlers ẽ zwischen zwei Regionen 1 : ẽ = min e(A, B). (5.2) Ground-Truth Region A, Berechnete Region B Dadurch ist es möglich, für ein Bild mit einzigen Wert eine quantitative Aussage bezüglich der Genauigkeit der Segmentierung zu erhalten. Für jede Sequenz konnten daraufhin Durchschnittswerte von ẽ gebildet werden. Die ermittelten Werte sind in Tabelle 5.6 dargestellt. Die Bewegung der Kamera in den verwendeten Sequenzen beinhaltet zu jedem Zeitpunkt eine Translation. Daher wurde der in der Arbeit [KD07] vorgestellte Translations-Test nicht benötigt. Verwendete Modellparameter sind in Tabelle B.2 des Abschnittes B.3 aufgelistet. Abbildung 5.3 zeigt beispielhaft den Fehler ẽ bei jedem erfolgreichen Detektionsschritt in der Sequenz seq1. Aus Gründen der Übersichtlichkeit wurden nur die auf [KD07] basierenden Verfahren in der Abbildung verglichen. Das Verfahren von [KD07] kann nicht in jedem Bild der Sequenz eine Gruppe von Punktmerkmale finden, welche der gleichen Homographie unterliegen. Daher erfolgte nur an den in Abbildung 5.3 markierten Stellen eine Detektion. Eine ähnliche Darstellung der Resultate für die Ebenendetektion auf der Grundlage von 1 Analog wurde auch die Auswertung der Kennzeichenerkennung bei lprJ durchgeführt. Der dort verwendete Abstand ist die Levenshtein-Distanz zwischen den Kennzeichen-Strings. 64 KAPITEL 5. EXPERIMENTE Bild 5.3: Beispielhafte Darstellung des Fehlers ẽ anhand der Szene seq1 für die auf [KD07] basierenden Verfahren. Bild 5.4: Beispielhafte Darstellung des Fehlers ẽ anhand der Szene seq1 für die auf RegionGrowing basierenden Verfahren. 65 5.2. EBENENDETEKTION Bild 5.5: Beispiel für eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mit Graph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwendung von Tiefen- und Grauwertinformationen Region-Growing [KRD07] lässt sich Abbildung 5.4 entnehmen. Das Startverfahren benötigt nur die Information eines einzelnen Bildes und kann daher die Detektion von planaren Teilstücken in jedem Bild der Sequenz vornehmen. Bei der Anwendung des Verfahrens in realen Aufnahmen treten oft Probleme mit der Punktverfolgung auf. Dies liegt in der niedrigen Auflösung des Infrarot-Bildes begründet, welches die zusätzliche Schwierigkeit von Phasensprüngen aufweist. Eine qualitative Auswertung von realen Sequenzen wurde daher immer mit dem Region-Growing Varianten durchgeführt. Abbildung 5.5 zeigt ein Beispiel solch einer Szene. In Abbildung B.3 des Anhangs befindet sich eine, mit einer anderen Kamera aufgenommene, Darstellung. 5.2.2 Auswertung Die Entwicklung der Verfahren für die Ebenensegmentierung basierten auf zwei Thesen, welche im Folgenden anhand der Daten aus den Experimenten ausgewertet werden. Die erste These ist, dass die Verfeinerung der bereits gefundenen ebenen Teilstücke durch eine Segmentierung mit Graph-Cut zu einer Verbesserung der Ebenendetektion führt. Die ermittelten Werte des Fehlers ẽ in Tabelle 5.6 bestätigen diese Vermutung. Der durchschnittliche Fehler bei den zwei Varianten der Graph-Cut-Segmentierung liegt signifikant unterhalb des FehVerfahren [KD07] + Graph Cut mit F fusion [KD07] + Graph Cut mit F depth [KD07] Region Growing + Graph Cut mit F fusion Region Growing + Graph Cut mit F depth Region Growing seq1 0.153 0.184 0.462 0.178 0.213 0.556 seq2 0.244 0.252 0.345 0.239 0.249 0.476 seq3 0.214 0.217 0.260 0.202 0.205 0.459 Tabelle 5.6: Durchschnittswerte von ẽ für verschiedene Szenen und die vorgestellten Verfahren. 66 KAPITEL 5. EXPERIMENTE lers des ursprünglichen Verfahrens. Sowohl beim Region-Growing in den reinen 3D-Daten als auch bei der Detektion von planaren Teilstücke nach [KD07] konnte daher durch einen Optimierungsschritt mit Graph-Cut die Segmentierung verbessert werden. Die Verwendung von Informationen aus dem Infrarot-Bild wurde motiviert durch eine zweite These: Die Fusion von Tiefeninformation und Grauwertinformation kann zu einer weiteren Verbesserung der Segmentierung führen. Auch diese These wird durch Tabelle 5.6 bestätigt. Der Fehler beim Verfahren, welches die Fusion verwendet, ist bei allen 3 Sequenzen und beiden Ansätzen geringer als bei der Verwendung reiner Tiefeninformation. Beide Aussagen lassen sich ebenfalls in den Abbildungen 5.3 und 5.4 erkennen. Die Kurven der Graph-Cut-Ansätze liegen weit unterhalb der Verfahren, welche die Startlösung liefern. Durch die Fusion kann daraufhin eine zweite Verbesserung erzielt werden. Kapitel 6 Ausblick Die Möglichkeiten der allgemeinen Erweiterung der vorgestellten Verfahren konzentrieren sich auf die drei Kernbereiche: Modellerweiterungen, Theorie, Algorithmik. Weiterhin lassen sich natürlich auch Verbesserungsansätze bei den im Rahmen dieser Arbeit vorgestellten Anwendungen erkennen. 6.1 Allgemeine Ansätze für die weitere Forschung Ausgangspunkt für die in dieser Arbeit verwendeten Modelle war immer das verallgemeinerte Potts-Modell. Dies lag vor allem an der Regularitätsforderung, die kaum eine andere Wahl (siehe Abschnitt 3.3.2, Bemerkung 3.47) ermöglicht. Grundlegend stellt sich aber die Frage, ob es nicht durch die Verallgemeinerung von [FD05] möglich ist, komplexere Modelle zu verwenden. Dabei wird es zwangsläufig nötig sein, die richtige Balance zwischen der Güte des Modells und der Komplexität der entstehenden Graphen zu finden. Schon eine Verwendung von CliquenPotentialen 3. Ordnung erzwingt die Einführung zusätzlicher Knoten und Kanten. Bisherige theoretische Untersuchung von Graph-Cut-Verfahren beschränkten sich oft auf die Charakterisierung von graph-darstellbaren1 Funktionen. In der Arbeit [Vek00] wurden hingegen topologische“ Eigenschaften von Segmentierungsergebnissen untersucht, welche durch die ” Anwendung von Graph-Cut-Verfahren entstehen. Eine Fortführung dieser Untersuchungen für allgemeinere Modelle könnte generell zu theoretischen Richtlinien führen, welche die Entwicklung von geeigneten Zielfunktionen bei vielen anderen Anwendungen unterstützen könnten. In vielen Arbeiten wurden bereits verwendete Ansätze aus früheren Arbeiten übernommen, ohne 1 Graph-darstellbare Funktionen sind Zielfunktionen von Optimierungsproblemen, welche auf das Min-CutProblem abgebildet werden können (siehe Abschnitt 3.3.2). 67 68 KAPITEL 6. AUSBLICK die Möglichkeiten der Weiterentwicklung und Spezialisierung auf das aktuelle Problem voll auszuschöpfen. Ein ähnliches Problem sind die vielen Parameter der Zielfunktion, welche nur durch empirisch ermittelte Richtwerte festgelegt werden. Die Arbeit [CG06] bietet an dieser Stelle erste Ansätze, um Modelle bzw. Zielfunktionen anzulernen. Dadurch wäre es möglich, eine Vielzahl von Parametern automatisch zu bestimmen und sich von bisher gewählten Heuristiken zu lösen. 6.2 Verbesserung der Kennzeichenerkennung durch GraphCut-Verfahren Die Verwendung von diskreten Optimierungsproblemen und deren Lösung in Form von GraphCut-Verfahren ist in vielen Teilschritten der Kennzeichenerkennung denkbar. Im Rahmen dieser Arbeit konnte ein weiteres Verfahren zur Kennzeichenlokalisierung entwickelt werden. Welche Möglichkeiten sich bei der Segmentierung mit Graph-Cut-Methoden im Bereich der Buchstabensegmentierung in einem gefundenen Kennzeichen ergeben, bleibt weiterhin offen. Eine gezielte Modellierung dieser Anwendung, welche bezüglich der resultierenden Ergebnisse etablierter Standardverfahren entscheidende Vorteile aufweisen sollte, übersteigt bislang die theoretischen Möglichkeiten. Effizient lösbare diskrete Optimierungsprobleme, welche komplexe Kontureigenschaften der Objektgrenze einfließen lassen, würden eine Brücke schlagen zur bisher weitaus praktikableren kontinuierlichen Optimierung [CKS03]. Ein weiterer möglicher Ansatz wäre, das Problem der Trennung von Buchstabenkonturen mit Graph-Cut zu lösen. Dies ist ein wichtiger Nachbearbeitungsschritt, um Fehler bei der Kontursuche zu beheben. Die aktuelle Implementierung in lprJ verwendet horizontale Projektionen, um eine geeignete Stelle zu finden. 6.3 Erweiterung der Ebenendetektion mit Graph-Cut Die vorgestellte Verfeinerung der Ebenendetektion verwendet ein binäres Optimierungsproblem. Eine Erweiterung könnte die Verfeinerung mehrerer planarer Teilstücke durch den α-ExpansionAlgorithmus in einer Optimierung durchführen. Das noch vorhandene Problem von überlappenden Teilstücken wäre damit gelöst. Zusätzlich wäre es in diesem Kontext sinnvoll, eine passende Methode für die Vereinigung von mehreren planaren Teilstücken als Teilschritt der Detektion zu integrieren. Kapitel 7 Zusammenfassung Ziel der vorliegenden Arbeit war es, die Möglichkeiten von Graph-Cut-Methoden in der Bildverarbeitung theoretisch und an praktischen Beispielen darzulegen. Diese Verfahren ermöglichen es, allgemeine Segmentierungsprobleme zu lösen. In den ersten beiden Kapiteln wurden getrennt voneinander die wichtigsten Resultate der Bayesschen Bildanalyse und der diskreten Optimierung mit Graph-Cut vorgestellt. Auf der einen Seite führten die Ausführungen zur Bayesschen Bildanalyse in Kapitel 2 zum Satz von Hammersley und Clifford. Auf der anderen Seite konnte in Kapitel 3 mit den Ergebnissen aktueller Arbeiten [KZ04, FD05] eine Klasse von effizient lösbaren Optimierungsproblemen gefunden werden. Die eindeutige Charakterisierung dieser Probleme und die Darstellung der Verbindungen zu anderen Gebieten ermöglichte eine umfassende Darstellung des aktuellen Forschungsstandes auf diesem Gebiet. Weiterhin wurden Grenzen der Berechenbarkeit bei der diskreten Optimierung aufgezeigt. Die Anwendung von Approximationsalgorithmen, wie etwa dem in Abschnitt 3.4 vorgestellten α-Expansion-Algorithmus, ermöglichte es dennoch ein Ergebnis zu finden, welche klar definierten Optimalitätsanforderungen (siehe Abschnitt 3.4.2) genügt. Beide Hauptresultate der ersten Kapitel konnten in Abschnitt 3.4.4 zu einem praktikablen Werkzeug für die Anwendung in der Bildverarbeitung kombiniert werden. In Kapitel 4 wurden anschließend verschiedene Problemstellungen vorgestellt, welche effizient mit diskreter Optimierung gelöst werden konnten. Im Kontext eines Industrieprojektes des Lehrstuhls konnte die Kennzeichenlokalisierung des Kennzeichenlesers lprJ mit einem GraphCut-Ansatz verbessert werden. Bewegungssegmentierung im Sinne der Detektion planarer Teilstücken in einer Szene wurde in Abschnitt 4.3.2 analog zu einem Ansatz von [XS05] realisiert. Eine zusätzliche Erweiterung dieser Idee führte auf eine Lösung dieser Problemstellung bei der Verwendung einer 69 70 KAPITEL 7. ZUSAMMENFASSUNG Echtzeit-Tiefenkamera. Das dabei entwickelte Verfahren ermöglicht es, Tiefen und GrauwertInformationen effizient in einem Optimierungsschritt zu kombinieren. Kapitel 5 zeigte durch Experimente, dass die vorgestellten Verfahren zur Lösung ihrer Problemstellung beitragen. Die Untersuchung der Kennzeichenlokalisierung erfolgte durch die Auswertung der Erkennungsrate des Gesamtsystems. Dabei wurden zusätzlich die Auswirkungen verschiedener Parameter überprüft. Insgesamt konnte die Erkennungsrate durch das zusätzliche Graph-Cut basierende Verfahren um durchschnittlich 0.3% Prozentpunkte gesteigert werden. Die Leistungsfähigkeit des Graph-Cut-Ansatzes bei der Ebenensegmentierung wurde durch den Vergleich mit Ground-Truth Daten demonstriert. Die Algorithmen führten zu einer signifikanten Verbesserung der initial gefundenen Ebenen. Im Vergleich zum Ansatz, welcher nur Tiefen-Informationen verwendet, ermöglichte die Fusion mit Grauwert-Informationen eine zusätzliche Minimierung des Fehlers. Anhang A Mathematische Details A.1 Zusammenhang zwischen binärer Bildrestaurierung und Medianfilter Die Ähnlichkeit der Ergebnisse zwischen einem binären Medianfilter und der binären Bildrestaurierung wie sie in Abschnitt 2.3.4 vorgestellt wurde, werfen die Frage nach mathematischen Zusammenhängen auf. Dieser Abschnitt versucht diesbezüglich, mögliche Querverbindungen aufzuzeigen. Betrachtet wird zunächst die vollständige Energiefunktion der binären Bildrestaurierung mit der Konstante βq : E(L) = βq X Ip Lp − α p∈P X L p Lz . (1.1) (p,z)∈N Es gilt weiterhin ohne Beschränkung die folgende Aussage: Die Beschriftung von Lp ist gleich 1 ⇐⇒ βq Ip − α X X Lz < −βq Ip + α (p,z)∈N Lz . (1.2) (p,z)∈N Dabei müssen nur die Summanden der Zielfunktion betrachtet werden, welche von p abhängig sind. Weitere Umformungen ergeben: 0> X Lz − (p,z)∈N 71 βq Ip α (GC) 72 ANHANG A. MATHEMATISCHE DETAILS Es lässt sich leicht sehen, dass im Gegensatz dazu für den Medianfilter die folgende Charakteristik gilt: Lp = 1 ⇐⇒ 0> X Iz + Ip (Median) (p,z)∈N Unter den folgenden Annahmen ergibt sich daraufhin die Äquivalenz der beiden Verfahren: 1. Die Beschriftung benachbarter Pixel weicht nicht von den Werten im Originalbild ab: Lz = Iz . 2. Für die Parameter βq und α gilt: − βαq = 1. Die erste Forderung ist natürlich bei beliebigen Bildern und beliebiger Position p nicht gegeben. Betrachtet man hingegen eine homogene schwarze Fläche mit einem weißen Punkt im Inneren, welcher durch Rauschen erzeugt wurde, so kann sich bei beiden Verfahren nur dieser Punkt in seiner Beschriftung verändern. Die zweite Annahme lässt sich noch auf die Wahrscheinlichkeit q des Rauschens zurückführen: 1−q 1 α = −βq = log 2 q 1 q= . exp (2α) + 1 (1.3) (1.4) Für den Wert α = 0.3 aus Beispiel 2.1 ergibt sich daher der Wert q ≈ 0.354, welcher ungefähr mit der gewählten Wahrscheinlichkeit übereinstimmt. Aus Gleichung (GC) lässt sich die Funktionsweise der binären Bildrestaurierung deutlich erkennen. Der Einfluss der Beobachtung im aktuellen Pixel wird durch den Parameter γ = − βαq gesteuert. Dieser gewichtet sozusagen den Pixelwert Ip in der Statistik der Umgebung. Die binäre Bildrestaurierung im Sinne von Abschnitt 2.3.4 kann daher als Verallgemeinerung des Median-Filters angesehen werden. A.2 Details zum Algorithmus von [BK04] Die Suchbäume ausgehend vom Knoten s bzw. t seien mit S und T bezeichnet. Diese Suchbäume sind disjunkt, bilden aber keine Zerlegung der Knotenmenge V (siehe Abbildung A.1). Für den Baum S gilt, dass jede Kante vom Elternknoten zum Kindknoten nicht gesättigt ist. Im Baum T gilt das Gleiche für Kanten von den Kindknoten zu den Elternknoten. A.2. DETAILS ZUM ALGORITHMUS VON [?] 73 Bild A.1: Darstellung der Notation und Vorgehensweise des Algorithmus von [BK04]. Suchbäume: S, T . A dient zur Beschriftung der aktiven Knoten (Blätter des Suchbaumes). Alle mit P beschrifteten Knoten sind passive Knoten (innere Knoten des Suchbaumes). Die Knoten der Suchbäume können zwei Zustände annehmen: aktiv (Grenzknoten, Blätter oder Knoten mit nicht erfassten Nachbarn) und passiv (innere Knoten). Aktive Knoten können einen Suchbaum erweitern. Wenn ein aktiver Knoten mit einem Nachbarn aus dem anderen Suchbaum verarbeitet wird, dann ist ein damit gesuchter erhöhender (augumenting) Pfad gefunden. Der Algorithmus lässt sich in folgende 3 Phasen aufteilen: 1. Wachstumsphase: Erweiterung von S und T solange bis sie sich berühren“ und den ersten ” s-t-Pfad bilden. 2. Erhöhungsphase: Der entsprechende Pfad wird erhöht, dadurch zerfallen S und T in Wälder. 3. Anpassungsphase: Die Bäume S und T werden wiederhergestellt. Der Zerfall der Bäume S und T in Wälder geschieht, wenn eine Kante vom Elternknoten zum Kindknoten plötzlich nach der Erhöhung gesättigt ist. In der Arbeit [BK04] werden diese Kindknoten als Orphans“ bezeichnet. Sie bilden die Wurzelknoten der neuen Teilbäume. ” In der Anpassungsphase wird anschließend zu jedem Orphan ein neuer Elternknoten gesucht, welcher sich im gleichen Suchwald befindet wie der Orphan selbst (sozusagen eine Wiederherstellung). Die neue Verbindung zum neuen Elternknoten darf nicht gesättigt sein. Falls es keine solche Verbindung gibt, wird der Orphan frei gegeben (free node) und alle seine Kindknoten werden selbst zu Orphans. Daraufhin beginnt der Prozess von neuem. Der Algorithmus endet, wenn die Suchbäume nicht weiter wachsen können (keine aktiven Knoten mehr) und die Bäume durch gesättigte Kanten getrennt sind. Weitere algorithmische Details können [BK04] und [Kol03] entnommen werden. 74 ANHANG A. MATHEMATISCHE DETAILS A.3 Minimierung von F 2-Funktionen ist NP-schwer In [KZ04] wird der Beweis über eine Reduktion des Problems der größten unabhängigen Menge in einem Graphen geführt. Dieses Problem ist bekanntermaßen NP-schwer. Sei G = (V, N ) ein beliebiger ungerichteter Graph mit n = ]V und m = ]N . Um die größte unabhängige Menge1 in G zu finden, dient eine Umformulierung des Problems auf ein Beschriftungsproblem. Sei L ∈ {0, 1}n ein binärer Vektor, welcher als Repräsentation einer Teilmenge von Knoten in G verwendet wird. Gesucht ist demnach ein binärer Vektor, welcher einer größten unabhängigen Menge in G entspricht. Dieser Vektor lässt sich mit einem Optimierungsproblem mit folgender Form der Zielfunktion finden: E(L) = − X 1 X Li + Li L j . 2n i (MaxISet) (i,j)∈N Diese Zielfunktion ist nicht mit dem in Abschnitt 2.3.4 beschriebenen Ising-Modell (2.27) vergleichbar, da dieses Mal der Vektor L mit {0, 1} kodiert wurde. Erkennbar ist ebenfalls, dass diese Funktion nicht regulär2 ist: 0 · 0 + 1 · 1 > 0 · 1 + 1 · 0. Satz 1.5 Eine größte unabhängige Menge in einem ungerichteten Graphen G = (V, N ) lässt sich durch Minimierung von (MaxISet) finden. Beweis zu 1.5: Sei L̂ die Lösung von (MaxISet). Im Folgenden seien binäre Vektoren L ∈ {0, 1}n zusätzlich zur Vektordarstellung mit ihrer entsprechenden Menge von Knoten aus V identifiziert. Annahme 1: L̂ ist keine unabhängige Menge. Dann gibt es mindestens ein benachbartes Knotenpaar in L̂ und es gilt demnach mit k = ]L̂: E(L̂) ≥ − 1 k +1>− = E({v}). 2n 2n (1.6) mit einem beliebigen Knoten v aus V . Daher kann L̂ nicht die Lösung von (MaxISet) sein und es ergibt sich der gewünschte Widerspruch zur Annahme 1. Annahme 2: Es gibt eine Clique L in G mit ]L > ]L̂ = k. 1 A ⊆ V ist eine unabhängige Menge in G ⇐⇒ ∀v ∈ A : NG (v) ∩ A = ∅ Aus der Regularität von E würde sich folgende Argumentationskette ergeben: E regulär → E graph-darstellbar → (MaxISet) ∈ P → Maximum Independent Set ∈ P → P = N P → Fields Medal. 2 A.4. VERIFIKATION DER GRAPH-KONSTRUKTION BEI F2-FUNKTIONEN 75 Es ergibt sich sofort die Folgerung: E(L) = − ]L k <− = E(L̂). 2n 2n (1.7) Damit wären Annahme 1 und Annahme 2 widerlegt und der Beweis vollständig. A.4 Verifikation der Graph-Konstruktion bei F 2-Funktionen Im Folgenden soll die Korrektheit der Graph-Konstruktion für F 2 -Funktionen bewiesen werden. Als Wegweiser“ dient Tabelle 3.4. Mit ∝ sei die Gleichheit bis auf eine Konstante bezeichnet. ” Satz 1.8 Die Graph-Konstruktion für F 2 Funktionen, wie in Tabelle 3.4 beschrieben, ist korrekt. Beweis zu 1.8: Gegeben sei ein minimaler Schnitt C im konstruierten Graphen. Mit L sei die darauf definierte Beschriftung bezeichnet. Die Schreibweise Li = 0 als Index einer Summe bedeutet, dass über alle möglichen i summiert wird, für die Li = 0 gilt. X w(e) = e∈C X w((vi , vj )) + X w((s, vi )) + Li =1 Li =0 Lj =1 X w((vi , t)) (1.9) Li =0 Die einzelnen Kantengewichte können durch die verwendeten Werte bei der Konstruktion def i,j def (siehe Tabelle 3.4) ersetzt werden. Dazu seien die Abkürzungen Eab = E i,j (a, b) und Eai = E i (a) verwendet. Für die einzelnen Summanden der obigen Gleichung ergibt sich daraufhin: X w((vi , vj )) = w((s, vi )) = X X E1i − E0i + Li =1,E1i ≥E0i Li =1 + i,j i,j i,j i,j − E11 E01 + E10 − E00 (1.10) Li =0 Lj =1 Li =0 Lj =1 X X X Li =1 j, X j,i j,i E11 ≥E10 Li =1 j, j,i j,i E11 − E10 X i,j i,j E10 − E00 + (1.11) i,j i,j E10 ≥E00 (1.12) 76 ANHANG A. MATHEMATISCHE DETAILS X X w((vi , t)) = X E0i − E1i + + i,j i,j E00 − E10 + (1.13) Li =0 j, E i,j ≤E i,j Li =0,E1i ≤E0i Li =0 X 10 X X Li =0 j,i j,i ≤E10 j,E11 j,i E10 − j,i E11 00 (1.14) Für die E i -Terme gelten folgende Vereinfachungen: X Li =1,E1i ≥E0i E1i − E0i + X X E0i − E1i = Li =0,E1i ≤E0i E i (Li ) − E i (1 − Li ) i, E i (Li )≥E i (1−Li ) (1.15) = X E i (Li ) − i ∝ X X i E i (Li ) i min E (x) x∈{0,1} (1.16) (1.17) i Ziel ist es noch zu zeigen, dass der Ausdruck P E i,j (Li , Lj ) und die folgende Summe bis i,j auf eine Konstante äquivalent sind: X i,j i,j i,j i,j E01 + E10 − E00 − E11 + (1.18) Li =0 Lj =1 + X Li =1 j, + X X i,j i,j E10 − E00 + (1.19) i,j i,j E11 − E10 + (1.20) i,j i,j E00 − E10 + (1.21) i,j i,j E10 − E11 (1.22) i,j i,j E10 ≥E00 X Lj =1 i, E i,j ≥E i,j 11 + X 10 X Li =0 j, E i,j ≤E i,j 10 + X 00 X Lj =0 i, E i,j ≤E i,j 11 10 An den Summanden (1.18) bis (1.22) lässt sich erkennen, dass es vollkommen legitim ist, die einzelnen Terme E i,j getrennt voneinander zu betrachten. An dieser Stelle seien daher wieder A.4. VERIFIKATION DER GRAPH-KONSTRUKTION BEI F2-FUNKTIONEN 77 die folgenden Abkürzungen und die Matrix-Notation der Funktion verwendet: i,j i,j E01 E00 i,j i,j E10 E11 ! = A B C D ! (1.23) Bei einem Term E i,j ist es notwendig, 4 Fälle3 zu untersuchen. Aus der obigen großen Summe lassen sich daraufhin die Summanden angeben, welche von i und j gleichzeitig abhängig sind. Diese Summanden seien mit S i,j bezeichnet und in der Matrix-Notation dargestellt. Ziel ist es, zu zeigen, dass S i,j ∝ E i,j gilt. 1. Fall C ≥ A und D ≥ C S i,j = = ! 0 B+C −A−D+D−C C −A C −A+D−C ! ! 0 B−A 0 B−A ∝ + C −A D−A C −A D−A (1.24) A A A A ! = E i,j (1.25) 2. Fall C ≥ A und D ≤ C ! C −D B+C −A−D (1.26) C −A+C −D C −A ! ! C −D B+C −A−D A−C +D A−C +D + = E i,j 2C − A − D C −A A−C +D A−C +D S i,j = = (1.27) 3. Fall C ≤ A und D ≥ C S i,j = = 3 A−C B+C −A−D+A−C +D−C 0 D−C ! ! A−C B−C A−C B−C ∝ + 0 D−C 0 D−C ! (1.28) C C C C ! = E i,j (1.29) Die 4 Fälle sind nicht disjunkt. Bei den jeweiligen Schnittmengen fallen aber die Argumentationen (Umformungen) zu einer zusammen. 78 ANHANG A. MATHEMATISCHE DETAILS 4. Fall C ≤ A und D ≤ C S i,j = = ! A−C +C −D B+C −A−D+A−C C −D 0 ! ! ! A−D B−D A−D B−C D D ∝ + = E i,j C −D 0 C −D 0 D D (1.30) (1.31) Setzt man diese Argumentation für die gesamte Funktion zusammen, erhält man das gewünschte Resultat: X e∈C w(e) ∝ X i E i (Li ) + X i,j E i,j (Li , Lj ) = F (L) (1.32) Anhang B Details zu den Experimenten B.1 Verwendete Parameter bei der Kennzeichenlokalisierung Sequenz NLSR520-2005* NLTest8288 Elzerberg Testset 22282 vx 175 175 350 vy 64 64 80 Tabelle B.1: Verwendete Parameter bei den Experimenten der Kennzeichenlokalisierung Tabelle B.1 zeigt die verwendeten Angaben für die Maximalgröße eines Nummernschildes. Als Nachbarschaft bei der Zielfunktion des Optimierungsproblems wurde die 8er-Nachbarschaft (siehe Abschnitt 2.1) verwendet. B.2 Problemfälle bei der Kennzeichenlokalisierung In Abbildung B.1 ist eine Schwierigkeit bei der Kennzeichenlokalisierung erkennbar. Deutsche Trennungssymbole bewirken, dass der Graph-Cut Ansatz den Rand dieser Zeichen gegenüber dem Rand des Nummernschildes bevorzugt. Dies kann zwar durch eine größere Teilfixierung des Vordergrundes verhindet werden, führt aber zu einer stärkeren Abhängigkeit von der Hypothese. 79 80 ANHANG B. DETAILS ZU DEN EXPERIMENTEN Bild B.1: Problemfall bei der Kennzeichenlokalisierung: Trennung entlang der deutschen Trennungssymbole: (Links) Origin albild, (Rechts) Segmentierung des Bildes in InterlacedDarstellung Parameter γ λ αp βp κp κe Wert 3 1 2 4 · 103 0.03 ∼ = 3cm 0.03 ∼ = 3cm 8 Tabelle B.2: Verwendete Parameter bei den Experimenten der Ebenensegmentierung B.3 Verwendete Parameter bei der Ebenendetektion In Tabelle B.2 sind alle verwendeten Parameter bei den Verfahren der Ebenendetektion aufgeführt. Diese Werte wurden bei den Experimenten verwendet und orientieren sich an empirisch gewählten Werten und Angaben aus der Literatur wie etwa [XS05]. B.4 Weitere Beispielbilder der Ebenendetektion Bild B.2: Beispiel für eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mit Graph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwendung von Tiefen- und Grauwertinformationen B.4. WEITERE BEISPIELBILDER DER EBENENDETEKTION 81 Bild B.3: Originalbild von Beispiel 5.5 aufgenommen mit einer Sony Kamera Die Abbildung B.3 zeigt eine übersichtliche Darstellung der verwendeten Szene von Beispiel 5.5. Ein weiteres Beispiel für das Ergebnis einer Ebenendetektion mit Graph-Cut ist in Abbildung B.2 dargestellt. 82 ANHANG B. DETAILS ZU DEN EXPERIMENTEN Literaturverzeichnis [BDV07] J. M. Bioucas-Dias, G. Valadao: Phase Unwrapping via Graph Cuts, Image Processing, IEEE Transactions on, Bd. 16, Nr. 3, March 2007, S. 698–709. [Bes86] J. Besag: On the Statistical Analysis of Dirty Pictures, Journal of the Royal Statistical Society, Bd. 48, 1986, S. 259–279. [BFL06] Y. Boykov, G. Funka-Lea: Graph Cuts and Efficient N-D Image Segmentation, International Journal of Computer Vision, Bd. 70, Nr. 2, 2006, S. 109–131. [BJ00] Y. Boykov, M.-P. Jolly: Interactive Organ Segmentation Using Graph Cuts, in MICCAI ’00: Proceedings of the Third International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer-Verlag, London, UK, 2000, S. 276–286. [BJ01a] Y. Boykov, M. Jolly: Demonstration of segmentation with interactive graph cuts, in Eighth IEEE International Conference on Computer Vision, 2001. ICCV 2001. Proceedings, Bd. 2, 7-14 July 2001, S. 741–741. [BJ01b] Y. Boykov, M.-P. Jolly: Interactive graph cuts for optimal boundary & region segmentation of objects in N-D images, in Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference on, Bd. 1, 7-14 July 2001, S. 105–112. [BK03] Y. Boykov, V. Kolmogorov: Computing geodesics and minimal surfaces via graph cuts, in Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on, Bd. 1, 2003, S. 26–33. [BK04] Y. Boykov, V. Kolmogorov: An experimental comparison of min-cut/max- flow algorithms for energy minimization in vision, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 26, Nr. 9, Sept. 2004, S. 1124–1137. 83 84 [BT99] LITERATURVERZEICHNIS S. Birchfield, C. Tomasi: Multiway cut for stereo and motion with slanted surfaces, in Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference on, Bd. 1, 20-27 Sept. 1999, S. 489–495. [BVZ98a] Y. Boykov, O. Veksler, R. Zabih: Markov random fields with efficient approximations, in Computer Vision and Pattern Recognition, 1998. Proceedings. 1998 IEEE Computer Society Conference on, 23-25 June 1998, S. 648–655. [BVZ98b] Y. Boykov, O. Veksler, R. Zabih: Efficient Restoration of Multicolor Images with Independent Noise, TR98-1712, Cornell University, 27, 1998. [BVZ99a] Y. Boykov, O. Veksler, R. Zabih: Fast approximate energy minimization via graph cuts, in Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference on, Bd. 1, 20-27 Sept. 1999, S. 377–384. [BVZ99b] Y. Boykov, O. Veksler, R. Zabih: A New Algorithm for Energy Minimization with Discontinuities, in Energy Minimization Methods in Computer Vision and Pattern Recognition, 1999, S. 205–220. [BVZ01] Y. Boykov, O. Veksler, R. Zabih: Fast approximate energy minimization via graph cuts, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 23, Nr. 11, Nov. 2001, S. 1222–1239. [CG06] D. Cremers, L. Grady: Statistical Priors for Efficient Combinatorial Optimization Via Graph Cuts., in Computer Vision - ECCV 2006, 9th European Conference on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part III, 2006, S. 263–274. [CKS03] D. Cremers, T. Kohlberger, C. Schnörr: Shape Statistics in Kernel Space for Variational Image Segmentation, Pattern Recognition, Bd. 36, Nr. 9, 2003, S. 1929–1943. [Cun85] W. H. Cunningham: Minimum Cuts, Modular Functions, and Matroid Polyhedra, Networks, Bd. 15, 1985, S. 205–215. [CWC06] W. Cai, J. Wu, A. Chung: Shape-Based Image Segmentation Using Normalized Cuts, in IEEE International Conference on Image Processing (ICIP’06), 2006, S. 1101–1104. LITERATURVERZEICHNIS 85 [CZ01] D. Cobzas, H. Zhang: Planar patch extraction with noisy depth data, in Proceedings Third International Conference on 3-D Digital Imaging and Modeling, Quebec, Canada, May 2001, S. 240–245. [CZ05] A. Y. S. Chia, V. Zagorodnov: Graph Cut Segmentation on Convoluted Objects, IEEE International Conference on Image Processing, Bd. 3, 2005, S. 848–851. [DJP*94] E. Dahlhaus, D. S. Johnson, C. H. Papadimitriou, P. D. Seymour, M. Yannakakis: The Complexity of Multiterminal Cuts, SIAM J. Comput., Bd. 23, Nr. 4, 1994, S. 864–894. [FD05] D. Freedman, P. Drineas: Energy Minimization via Graph Cuts: Settling What is Possible, in CVPR ’05: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) - Volume 2, IEEE Computer Society, Washington, DC, USA, 2005, S. 939–946. [Fer95] P. Ferrari: Fast Approximate MAP Restoration of Multicolor Images, Journal of the Royal Statistical Society, Bd. 57, Nr. 3, 1995, S. 485–500. [FZ05] D. Freedman, T. Zhang: Interactive graph cut based segmentation with shape priors, in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, Bd. 1, 2005, S. 755–762. [GG84] S. Geman, D. Geman: Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 6, Nr. 6, November 1984, S. 721–741. [GPS86] Greig, Porteuous, Seheult: Discussion on On the statistical analysis of dirty pictures, Journal of the Royal Society of Statistics, Series B, Bd. 48, 1986, S. 282–284. [GPS89] Greig, Porteous, Seheult: Exact Maximum A Posteriori Estimation for Binary Images, Journal of the Royal Statistical Society, Series B, Bd. 51, 1989, S. 271– 279. [Gra87] C. Graffigne: Experiments in texture analysis and segmentation, PhD thesis, Brown University, 1987. [GS06] L. Grady, E. Schwartz: Isoperimetric graph partitioning for image segmentation, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 28, Nr. 3, March 2006, S. 469–475. 86 LITERATURVERZEICHNIS [Hub80] P. J. Huber: Robust Statistics, John Wiley and Sons, 1980. [IG98] H. Ishikawa, D. Geiger: Segmentation by grouping junctions, in IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1998. Proceedings, 23-25 June 1998, S. 125–131. [IG99] H. Ishikawa, D. Geiger: Mapping Image Restoration to a Graph Problem, in IEEEEURASIP Workshop on Nonlinear Signal and Image Processing, 1999, S. 20–23. [Ish03] H. Ishikawa: Exact optimization for Markov random fields with convex priors, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 25, Nr. 10, Oct. 2003, S. 1333–1336. [Isi25] E. Ising: Beitrag zur Theorie des Ferromagnetismus, Zeitschrift fuer Physik, Bd. 31, 1925, S. 253–258. [JB06] O. Juan, Y. Boykov: Active Graph Cuts, in Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, Bd. 1, 17-22 June 2006, S. 1023–1029. [KB05] V. Kolmogorov, Y. Boykov: What metrics can be approximated by geo-cuts, or global optimization of length/area and flux, in Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on, Bd. 1, 17-21 Oct. 2005, S. 564–571. [KD07] O. Kähler, J. Denzler: Detecting Coplanar Feature Points in Handheld Image Sequences, in Proceedings Conference on Computer Vision Theory and Applications (VISAPP 2007), Bd. 2, INSTICC Press, Barcelona, March 2007, S. 447–452. [KKZ03] J. Kim, V. Kolmogorov, R. Zabih: Visual correspondence using energy minimization and mutual information, in Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on, Bd. 2, 13-16 Oct. 2003, S. 1033–1040. [Kol03] V. Kolmogorov: Graph-based Algorithms for Multi-camera Reconstruction Problem, PhD thesis, Cornell University, CS Department, 2003. [KR04] R. Klette, A. Rosenfeld: Digital Geometry: Geometric Methods for Digital Picture Analysis, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2004. LITERATURVERZEICHNIS 87 [KR06] V. Kolmogorov, C. Rother: Comparison of Energy Minimization Algorithms for Highly Connected Graphs., in Computer Vision - ECCV 2006, 9th European Conference on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part II, 2006, S. 1–15. [KRD07] O. Kähler, E. Rodner, J. Denzler: Fusion of Range and Intensity Information Using Graph-Cut for Planar Patch Segmentation, (submitted to Dynamic 3D Imaging Workshop 2007), 5 2007. [KT05] J. Kleinberg, E. Tardos: Algorithm Design, Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 2005. [KT06] P. Kohli, P. H. S. Torr: Measuring Uncertainty in Graph Cut Solutions - Efficiently Computing Min-marginal Energies Using Dynamic Graph Cuts., in Computer Vision - ECCV 2006, 9th European Conference on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part II, 2006, S. 30–43. [KTZ05] M. P. Kumar, P. H. S. Torr, A. Zisserman: OBJ CUT, in CVPR ’05: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) - Volume 1, IEEE Computer Society, Washington, DC, USA, 2005, S. 18–25. [KZ02] V. Kolmogorov, R. Zabih: Multi-camera Scene Reconstruction via Graph Cuts, in European Conference on Computer Vision, 2002, S. 82–96. [KZ04] V. Kolmogorov, R. Zabin: What energy functions can be minimized via graph cuts?, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 26, Nr. 2, Feb 2004, S. 147–159. [Lan00] R. Lange: 3D Time-of-Flight Distance Measurement with Custom Solid-State Image Sensors in CMOS/CCD-Technology, PhD thesis, University of Siegen, 2000. [LSGX05] H. Lombaert, Y. Sun, L. Grady, C. Xu: A Multilevel Banded Graph Cuts Method for Fast Image Segmentation, in ICCV ’05: Proceedings of the Tenth IEEE International Conference on Computer Vision (ICCV’05) Volume 1, IEEE Computer Society, Washington, DC, USA, 2005, S. 259–265. 88 LITERATURVERZEICHNIS [Pol] D. B. Pollard: Hammersley-clifford theorem for markov random fields. Handouts, Available at http://www, star.yale.edu/ pollard/251.spring04/Handouts/Hammersley-Clifford.pdf. [PR75] Picard, Ratliff: Minimum cuts and related problems, Networks, Bd. 5, 1975, S. 357–370. [RK06] C. Rother, V. Kolmogorov: Minimizing non-submodular functions with graph cuts - a review, MSR-TR-2006-100, Microsoft Research, 2006. [RMBK06] C. Rother, T. Minka, A. Blake, V. Kolmogorov: Cosegmentation of Image Pairs by Histogram Matching - Incorporating a Global Constraint into MRFs, in CVPR ’06: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, IEEE Computer Society, Washington, DC, USA, 2006, S. 993–1000. [RSZ06] A. Raj, G. Singh, R. Zabih: MRF’s for MRI’s: Bayesian Reconstruction of MR Images via Graph Cuts., in 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2006), 17-22 June 2006, New York, NY, USA, 2006, S. 1061–1068. [SC06] T. Schoenemann, D. Cremers: Near Real-Time Motion Segmentation Using Graph Cuts., in DAGM-Symposium, 2006, S. 455–464. [Sch04] A. Schrijver: Combinatorial Optimization : Polyhedra and Efficiency (Algorithms and Combinatorics), Springer, July 2004. [SG06] A. K. Sinop, L. Grady: Accurate Banded Graph Cut Segmentation of Thin Structures Using Laplacian Pyramids., in Medical Image Computing and Computer-Assisted Intervention - MICCAI 2006, 9th International Conference, Copenhagen, Denmark, October 1-6, Proceedings, Part II, 2006, S. 896–903. [SM97] J. Shi, J. Malik: Motion Segmentation and Tracking using normalized cuts, 962, University of California, Berkeley, 1997. [SM98] J. Shi, J. Malik: Motion segmentation and tracking using normalized cuts, in Proceedings of the Sixth International Conference on Computer Vision, 1998, S. 1154– 1160. LITERATURVERZEICHNIS 89 [SM00] J. Shi, J. Malik: Normalized cuts and image segmentation, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 22, Nr. 8, Aug. 2000, S. 888–905. [SRR07] W. Schorisch, H. Rodner, H.-J. Rodner: Thanks for everything, International Journal for Acknowledgements, Bd. 1, 2007, S. 1–10. [SZS*06] R. Szeliski, R. Zabih, D. Scharstein, O. Veksler, V. Kolmogorov, A. Agarwala, M. F. Tappen, C. Rother: A Comparative Study of Energy Minimization Methods for Markov Random Fields., in Computer Vision - ECCV 2006, 9th European Conference on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part II, 2006, S. 16–29. [Vek99] O. Veksler: Efficient graph-based energy minimization methods in computer vision, PhD thesis, Faculty of the Graduate School of Cornell University, 1999. [Vek00] O. Veksler: Image Segmentation by Nested Cuts, in IEEE Conference on Computer Vision and Pattern Recognition, Bd. 1, 2000, S. 339–344. [vH06] W. von Hansen: Robust Automatic Marker-free Registration of Terrestrial Scan Data, in Proceedings Photogrammetric Computer Vision 2006, Bd. 36, Bonn, Germany, September 2006, S. 105–110. [Win06] G. Winkler: Image Analysis, Random Fields and Markov Chain Monte Carlo Methods, Springer-Verlag New York, Inc., 2006, ISBN 3540442138. [XS05] J. Xiao, M. Shah: Motion layer extraction in the presence of occlusion using graph cuts, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 27, Nr. 10, Oct. 2005, S. 1644–1659. [YFW00] J. S. Yedidia, W. T. Freeman, Y. Weiss: Generalized Belief Propagation, in NIPS, 2000, S. 689–695. [YS06] P. Yan, M. Shah: Segmentation of Neighboring Structures by Modeling Their Interaction, in CVPRW ’06: Proceedings of the 2006 Conference on Computer Vision and Pattern Recognition Workshop, IEEE Computer Society, Washington, DC, USA, 2006, S. 77. 90 LITERATURVERZEICHNIS Verzeichnis der Bilder 2.1 Binäre Bildrestaurierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1 Konstruktion der Kanten für F2-Funktionen . . . . . . . . . . . . . . . . . . . . 29 3.2 Graphkonstruktion für ein einfaches Beispiel . . . . . . . . . . . . . . . . . . . 31 3.3 Einfaches Graph-Cut-Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.4 Beziehungen der Funktionsklassen . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.5 Beispiel eines Alpha-Erweiterungsschrittes . . . . . . . . . . . . . . . . . . . . 37 4.1 Veranschaulichung von Gleichung (4.4) . . . . . . . . . . . . . . . . . . . . . . 47 4.2 Segmentierung mit Teilfixierung . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.3 Ausgangsbild für die Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . 49 4.4 Veranschaulichung der fixierten Bereiche . . . . . . . . . . . . . . . . . . . . . 49 4.5 Ergebnis der Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . . . . 50 4.6 Beispiel für eine Level-Set Darstellung . . . . . . . . . . . . . . . . . . . . . . . 53 4.7 Beispiel für die sigmoidale Funktion s . . . . . . . . . . . . . . . . . . . . . . . 54 4.8 Bewegungssegmentierung einer Ebene . . . . . . . . . . . . . . . . . . . . . . . 54 4.9 Ebenensegmentierung mit Graph-Cut-Verfeinerung . . . . . . . . . . . . . . . . 57 5.1 Kamera für Echtzeit-Tiefeninformationen . . . . . . . . . . . . . . . . . . . . . 62 5.2 Versuchsaufbau für Beispiel 5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.3 Fehler ẽ bei [KD07] Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.4 Fehler ẽ bei Region-Growing Verfahren . . . . . . . . . . . . . . . . . . . . . . 64 5.5 Beispiel für eine Ebenensegmentierung . . . . . . . . . . . . . . . . . . . . . . 65 A.1 Notation von [BK04] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 B.1 Problemfall bei der Kennzeichenlokalisierung . . . . . . . . . . . . . . . . . . . 80 B.2 Beispiel für eine Ebenensegmentierung . . . . . . . . . . . . . . . . . . . . . . 80 91 92 VERZEICHNIS DER BILDER B.3 Originalbild von Beispiel 5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Verzeichnis der Tabellen 3.2 3.4 3.6 Laufzeiten von Max-Flow Algorithmen . . . . . . . . . . . . . . . . . . . . . . 25 Graph-Konstruktion für F2-Funktionen . . . . . . . . . . . . . . . . . . . . . . . 30 Literaturverweise: Charakterisierung der graph-darstellbaren Funktionen . . . . . 35 5.1 5.2 5.3 5.4 5.5 5.6 Verwendete Testsequenzen . . . . . . . . Ergebnisse der Kennzeichenlokalisierung Auswertung der Laufzeit . . . . . . . . . Auswertung des Parameters σ . . . . . . Auswertung des Parameters ux . . . . . . Durchschnittswerte von ẽ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 60 60 61 61 65 B.1 Verwendete Parameter bei den Experimenten der Kennzeichenlokalisierung . . . 79 B.2 Verwendete Parameter bei den Experimenten der Ebenensegmentierung . . . . . 80 93