Evaluation der Keying-Techniken für das Augmented Studio

Transcription

Evaluation der Keying-Techniken für
das Augmented Studio (Offline)
von
Fu, Man-Man
aus China
Bachelorarbeit eingereicht an der
Fakultät Medien
(Fachbereich Mediensysteme)
zum Erreichen des akademischen Grades
B ACHELOR OF S CIENCE
an der
B AUHAUS -U NIVERSITÄT W EIMAR
Betreuer der Arbeit:
Jun. Prof. Dr. Oliver Bimber
Bauhaus-Universität Weimar
Erstbetreuer
Prof. Dr. Charles Albert Wüthrich
Bauhaus-Universität Weimar
Zweitbetreuer
Tag der Einreichung:
10. Januar 2008
Erklärung
Hiermit erkläre ich, dass ich diese Arbeit selbstständig erstellt und keine anderen als die angegebenen Hilfsmittel benutzt habe.
Weimar, den 10. Januar 2008
Man-Man Fu
Kurzfassung
Mit Hilfe von Blue-Screen-Verfahren in virtuellen Studios ist es möglich, Videoaufnahmen von realen Szenen mit zusätzlichem Bildmaterial, wie zum Beispiel
Computergrafiken, zu überlagern. Das virtuelle Studio beschränkt sich auf eine spezielle Aufnahmeumgebung und dadurch erhebliche Produktionskosten
verursachen können. Das Augmented Studio ist ein Anwendungsbeispiel der
Juniorprofessur Augmented Reality an der Fakultät Medien der Bauhaus-Universität
Weimar für TV-Produktion. In diesem Studio wurden drei Prototypen für KeyingVerfahren gebaut, um Ersatzmöglichkeiten des herkömmlichen Studios zu finden.
Die drei Prototypen sind Chroma-Keying, Flash-Keying und Flash-ChromaKeying. Ein Projektor-Kamera-System kann einen Blue-Screen auf beliebige
Hintergründe, wie zum Beispiel auf eine Steinmauer, eine Tapete oder einen
Vorhang durch ein spezielles Verfahren erzeugen. Dieses Verfahren verwendet eine radiometrische Kompensation1 . Dadurch wird ein scheinbar uniformer Blauhintergrund für das Chroma-Keying geschaffen. Der Flash-KeyingPrototyp wird mit Hilfe einer LED-Beleuchtung, die mit dem Projekt-KameraSystem synchronisiert und pro Sekunde 60mal auf den Vordergrund beleuchtet
wird, realisiert. Dadurch werden 120 Bilder pro Sekunde auf zwei Arten aufgenommen: Ein Einzelbild ist mit voll beleuchtetem Vordergrund, während das
nachfolgende Einzelbild den Vordergrund unbeleuchtet aufnimmt. Man extrahiert eine Matte aufgrund der Differenz dieser zwei Arten von Bildern. Eine
Kombination der beiden Keyings heißt hier das Flash-Chroma-Keying, bei dem
eine Blitzfrequenz von 30 Hz eingestellt ist.
1 Abkürzung:
RK
II
Kurzfassung
In dieser Arbeit wurde der Schwerpunkt auf die Evaluation dieser drei KeyingTechniken gelegt, um das Potenzial des Augmented Studios zu untersuchen.
Aus den Ergebnissen der vorgelegten Arbeit sind folgende Schlüsse zu ziehen: Die radiometrisch kompensierten Hintergründe sind für ein erfolgreiches
Keying sehr wichtig. Vor allem bei einer niedrigen Umgebungshelligkeit bekommt man die beste Matte. Generell ist eine Trennung des Vordergrundes von
dem Hintergrund für ein opakes Objekt wie zum Beispiel eine Hand mit wenig Detailverlust realisierbar. Schwierig wird das Keying von den transparenten oder halbtransparenten Gegenständen wie Glas oder Haare. Der Nachteil
von dem Chroma-Keying ist die farbliche Einschränkung der Vordergrundobjekte. Das Flash-Keying liefert zwar keine schelchten Ergebnisse, jedoch muss
man Schwellwerte manuell einstellen, um ein gutes Ergebnis zu erzielen. Da
die Hintergründe wegen der Marker für Kameratracking unterschiedlich sind,
entsteht das Matte-Bild auf dem Hintergrund mehr oder weniger Rauschen.
Das Flash-Keying ist außerdem sehr sensitiv für schwarze Oberfläche oder
ähnliche auf dem Vordergrund. Der Flash-Chroma-Keying-Prototyp ist eine
Erweiterung des Flash-Keying-Prototyps und des Chroma-Keying-Prototyps.
In diesem Prototyp werden Farbinformationen und temporale Informationen
verwendet. Dieser erlaubt es, eine beliebige Farbe der Vordergrundobjekte auszuwählen, was ihn von den anderen beiden Prototypen unterscheidet. Die Bewegungsunschärfe bringt vor allem Problem bei den drei Keying-Prototypen.
Aufgrund der visuellen besseren Keying-Qualität und der freien Farbwahl für
den Vordergrund hebt sich das Flash-Chroma-Keying von den restlichen Verfahren ab.
Zudem wurden Keyingtechniken in dieser Arbeit vorgestellt, die im Rahmen
von Augmented Studio eingesetzt werden können.
III
Danksagung
Mein besonderer Dank gilt Herrn Prof. Dr. Oliver Bimber, der es mir ermöglichte an diesem interessanten Thema zu arbeiten, für die ausgezeichnete Betreuung dieser Arbeit und die vielen hilfreichen Gespräche und Anregungen.
Ein weiterer Dank geht an Herrn Prof. Dr. Charles Albert Wüthrich für das
Lesen meiner Arbeit.
Ein spezieller Dank geht an Anselm Grundhöfer, der mich bei dem Aufbau der
Testumgebung unterstützt hat. Ganz besonders bedanken möchte ich mich bei
Daniel Kurz, der mir Hilfestellungen zur praktischen Umsetzung gegeben hat.
Ganz persönlich möchte ich mich bei meinen Eltern und Feng He bedanken,
die mir stets Mut und Unterstützung gegeben haben.
Dankbar bin ich für Erich Bruns, Sebastian Thiele, Martin Triebel, Arnd Oberländer, Anselm Grundhöfer und Daniel Kurz, die diese Arbeit sprachlich korrigiert haben.
Während meiner Zeit in Weimar habe ich die gute Zusammenarbeit und die
angenehme Arbeitsatmosphäre mit AR Labor Kollegen genossen.
Danke Frau Zsuzsanna Walz für ihre Freundlichkeit und Hilfsbereitschaft.
IV
Inhaltsverzeichnis
Kurzfassung
II
Danksagung
IV
Abbildungsverzeichnis
XI
Tabellenverzeichnis
XII
1 Einleitung
1
1.1
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Vorschau der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
Kapitelübersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2 Grundlagen des digitalen Compositing
6
2.1
Was ist Matting und Keying . . . . . . . . . . . . . . . . . . . . . .
6
2.2
Compositing-Gleichung . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3
Allgemeine Probleme . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3 Keying mit bekanntem Hintergrund
3.1
3.2
Einfarbiger Hintergrund . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1
Luma-Key . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.2
Chroma-Key . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Mehrfarbiger Hintergrund . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1
3.3
Difference-key . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Hilfe Matte: Garbage-Matting . . . . . . . . . . . . . . . . . . . . . 22
4 Keying mit unbekanntem Hintergrund
4.1
11
23
Offline Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
V
Inhaltsverzeichnis
4.2
4.1.1
Trimap-basierte Verfahren . . . . . . . . . . . . . . . . . . . 23
4.1.2
Segmentierungsbasierte Verfahren . . . . . . . . . . . . . . 34
4.1.3
Defocus Matting . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.4
Flash Matting . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Real-time Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.1
Hardwarekeyer für den Studioeinsatz . . . . . . . . . . . . 44
4.2.2
Matting von Tiefeninformationen . . . . . . . . . . . . . . 45
4.2.3
Polarization-Matting . . . . . . . . . . . . . . . . . . . . . . 48
4.2.4
Defocus-Difference-Matting . . . . . . . . . . . . . . . . . . 50
4.2.5
Flash-Keying (bbc) . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.6
Soft Scissors . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Auswertung der Chrominanz-Methode
54
5.1
Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2
Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3
5.2.1
Die Aufnahme der Eingangsmaterialien . . . . . . . . . . . 55
5.2.2
Keying der aufgenommenen Videos . . . . . . . . . . . . . 61
5.2.3
Auswertung der Compositing-Qualität . . . . . . . . . . . 64
Unterschiedliche Testbedingungen . . . . . . . . . . . . . . . . . . 67
5.3.1
Unterschiedliche Umgebungshelligkeiten . . . . . . . . . . 67
5.3.2
Unterschiedliche Hintergründe . . . . . . . . . . . . . . . . 69
5.3.3
Unterschiedliche Testobjekte . . . . . . . . . . . . . . . . . 72
5.3.4
Mit der radiometrischen Kompensation oder ohne RK . . 75
5.4
Testergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.5
Diskussion und Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6 Auswertung der temporalen Methode
82
6.1
Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.2
Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.3
6.2.1
Hardware und Software . . . . . . . . . . . . . . . . . . . . 83
6.2.2
Flash-Keying-Prototyp . . . . . . . . . . . . . . . . . . . . . 85
6.2.3
Flash-Chroma-Keying-Prototyp . . . . . . . . . . . . . . . 86
Flash-Keying-Prototyp . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.3.1
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
VI
Inhaltsverzeichnis
6.3.2
6.4
Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Flash-Chroma-Keying-Prototyp . . . . . . . . . . . . . . . . . . . . 90
6.4.1
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.4.2
Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.5
Testergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.6
Diskussion und Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7 Zusammenfassung und Ausblick
7.1
7.2
101
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.1
Chroma-Keying . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.2
Flash-Keying . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.1.3
Flash-Chroma-Keying . . . . . . . . . . . . . . . . . . . . . 102
7.1.4
Gemeinsames Problem . . . . . . . . . . . . . . . . . . . . . 103
Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
VII
1.1
Chroma-Keying Evaluation ErsteReihe(Vertikal ) Steinmauer, Tapete und Vorhang als Projektionsflächen ZweiteReihe(Vertikal )
Blue-Screens DritteReihe(Vertikal ) Blue-Screen Aufnahmen mit
unterschiedlichen Vordergrundobjekte VierteReihe(Vertikal ) Mattes Fn f teReihe(Vertikal ) Composite-Bilder . . . . . . . . . . . . .
1.2
3
Prinzip des Flash-Chroma-Keyings ( a) Bild mit unbeleuchtetem
Vordergrund und dem Blauhintergrund (b) Bild mit beleuchteter Szene (c) Matte (d) Invertierte Matte (e) neuer Hintergrund
( f ) separierter Vordergrund ( g) separierter Hintergrund (h) CompositeBild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1
Keying ( a) Fliegender Superman (b) Superman Green-Screen
Aufnahme ( Bildquelle : http : //www.superman − returns.in f o/cpg133)
2.2
Digitales Compositing . . . . . . . . . . . . . . . . . . . . . . . . .
8
3.1
Luminanz Key . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2
LumaKey Skalierungsoperation [SH06, Seite 8] . . . . . . . . . . . 13
3.3
Schritte des Farbdifferenz Keys . . . . . . . . . . . . . . . . . . . . 17
3.4
3D RGB Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.5
3D-Keyer ( a) Blue-Screen-Aufnahme (Bildquelle: [Chu07, Seite 14]); (b)Farbclustering, F: Vordergund, B: Hintergrund (Bildquelle: [Chu07, Seite 14]); (c) zwei Kugeln mit gemeinsamem
Mittelpunkt und unterschiedlichen Radien; Pixel innerhalb S1
sind vollständig durchsichtig, Pixel innerhalb S2, außerhalb S1
sind halbtransparent, Pixel außerhalb S2 sind nicht durchsichtig (Bildquelle:[SH06, Seite 13]); (d) Konvexe Hülle schließt die
Hintergrundpixel ein (Bildquelle:[SH06, Seite 14]). . . . . . . . . . 19
VIII
7
3.6
Ermittelung der Sichtbarkeit für einen Pixel unter Verwendung
der Kugeln für Toleranz und Weichheit (Bildquelle: [SH06], editiert) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1
KnockOut2 für Adobe Photoshop ( a) Originalbild; (b) Außenlinie und Innenlinie; (c) Composite; (d) Trimap. . . . . . . . . . . . 24
4.2
KnockOut Algorithmus (Bildquelle: [Chu04], editiert) . . . . . . . 25
4.3
Ruzon und Tomasi Algorithmus (Bildquelle: [Chu04], editiert) . . 26
4.4
Clustering der Farben im RGB Raum(Bildquelle: [PH05]) . . . . . 28
4.5
Hillman Trimap-Algorithmus (Bildquelle: [Chu04], editiert) . . . 28
4.6
Bayesian Trimap-Algorithmus (Bildquelle: [Chu04], editiert) . . . 29
4.7
Skizze des Wahrscheinlichkeitstheorems ( a) Ereignis A unter Voraussetzung B; (b) Anwendung für Matte-Extraktion. . . . . . . . 30
4.8
MAP Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.9
Grenzbedingungen des Poisson-Mattings. ( a) Global-Poisson-Matting:
Trimap {Ω F , Ω B , Ω} wurde vom Nutzer spezifiziert. δΩ ist der
Außenrand von der unbekannten Region Ω. (b) Local-PoissonMatting: Nutzer wählen eine lokale Region Ω L aus. δΩ ist Außenrand von der lokalen unbekannten Region Ω ∩ Ω L (Bildquelle: [SJTS04]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.10 Segmentierung für ein 3 × 3 Bild. . . . . . . . . . . . . . . . . . . . 35
4.11 GrabCut. ( a) Material. (b) Segmentierung. (c) Markierungslasso. (d) Markierungsrechteck. . . . . . . . . . . . . . . . . . . . . . 36
4.12 Szenario von „Depth from Defocus“ . . . . . . . . . . . . . . . . . 38
4.13 Vordergrund Flash Matting. ( a) Flash Bild. (b) No-Flash Bild. (c)
Flash-only Bild. (d) Matte . . . . . . . . . . . . . . . . . . . . . . . 43
4.14 5-Augen Kamerakopf von CMU Video-Rate Stereo Maschine . . . 45
4.15 ZCAM: Depth is key . . . . . . . . . . . . . . . . . . . . . . . . . . 47
IX
4.16 Prinzip des Polarisationskeys: ( a) Polarisiertes Hintergrundlicht
und unpolarisiertes Vordergrundlicht betritt die Kamera. (b) Der
Beamsplitter spaltet das Licht durch Polarisation, um „In-Phase“
und „Out of Phase“ Bilder zu erzeugen. (c) „In-Phase“ Bild mit
einem helleren Hintergrund. (d) „Out of Phase“ Bild mit einem
dunkleren Hintergrund. (e) Die absolute Differenz zwischen (c)
und (d). ( f ) Matte. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.17 Trimap von Soft Scissor
. . . . . . . . . . . . . . . . . . . . . . . . 51
4.18 Random Walk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1
Projektor-Kamera-System für Blue Screen . . . . . . . . . . . . . . 57
5.2
Hintergründe im Vergleich. ( a) Steinmauer (original) (b) Steinmauer (mit RK) (c) Steinamer (ohne RK) (d) Vorhang (original)
(e) Vorhang (mit RK) ( f ) Vorhang (ohne RK) ( g) Tapete (original) (h) Tapete(mit RK) (i ) Tapete (ohne RK) . . . . . . . . . . . . 58
5.3
Keying-Vorgang von der dvMatte . . . . . . . . . . . . . . . . . . . 63
5.4
Justierung von der Base-Matte ( a) Das Original-Videobild vor
dem unkompensierten blauen Hintergrund „Steinmauer“ unter
Beleuchtungsstufe 1 (Sehe Tabelle 5.1) (b) Auswahl der zwei Referenzfarben (c) Unkorrigierte Base Matte (d) Korrigierte Base
Matte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.5
RGB Verteilung für die Steinmauer in 4 Helligkeitsstufen (ohne
RK) ( a) − (d) entspricht den Stufen 1 − 4 . . . . . . . . . . . . . . 68
5.6
Material der Hintergründe in RGB Parade ( a) Ideal weiße Leinwand (b) Steinmauer (c) Tapete (d) Vorhang . . . . . . . . . . . . 70
5.7
Steinmauer ohne RK der Helligkeitsstufe 1 ( a) original-Videobild
(b) Base-Matte (c) Final-Matte (d) Compositing . . . . . . . . . . 71
5.8
Tapete ohne RK der Helligkeitsstufe 3 ( a) original-Videobild (b)
Base-Matte (c) Final-Matte (d) Compositing . . . . . . . . . . . . 71
5.9
Vorhang ohne RK der Helligkeitsstufe 3 ( a) Original-Videobild
(b) Base-Matte (c) Final-Matte (d) Compositing . . . . . . . . . . 72
X
5.10 Compositingbilder mit verschiedenen Objekten ( a) Vorhang, Stufe 1, mit RK, Normal (b)Tapete, Stufe 2, mit RK, Detail (c) Tapete, Stufe 2, mit RK, Transparent (d) Steinmauer, Stufe 3, mit RK,
Reflektion (e) Steinmauer, Stufe 1, mit RK, Motion Blur . . . . . . 73
5.11 Steinmauer - Normal - Stufe 1 . . . . . . . . . . . . . . . . . . . . . 75
5.12 Vorhang - Detail -Stufe 2 . . . . . . . . . . . . . . . . . . . . . . . . 76
5.13 Steinmauer - Reflektion - Stufe 3 . . . . . . . . . . . . . . . . . . . 77
5.14 Tapete - Transparenz - Stufe 4 . . . . . . . . . . . . . . . . . . . . . 78
5.15 Steinmauer Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.16 Tapete Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.17 Vorhang Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.1
Flash-Keying Studioaufbau ( a) Koaxiale Kamera (b) Synchronisationseinheit (c) LED-Beleuchtungseinheit ( Bildquelle : http :
//www.uni − weimar.de/medien/ar/g f x/research70. jpg) . . . . 84
6.2
Implementation des Flash-Keyings . . . . . . . . . . . . . . . . . . 88
6.3
Ergebnis des Flash-Keyings . . . . . . . . . . . . . . . . . . . . . . 89
6.4
Aufnahme der Eingangsmaterialien . . . . . . . . . . . . . . . . . 90
6.5
Separation der zweiartigen Videobilder . . . . . . . . . . . . . . . 91
6.6
Erzeugen des Zwischenbildes durch Interpolation . . . . . . . . . 92
6.7
Testergebnis des Flash-Chroma-Keying: ( a) Vorhang: Detail und
Reflektion, (b) Steinmauer: Transparenz, (c) Steinmauer: Motion
Blur und Detail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.8
Vergleich der Gleichmäßigkeit der Projektionsflächen bei unkorrigiertem Base-Matte ( a) Steinmauer (b) Vorhang . . . . . . . . . 96
6.9
Highlight Problem: ( a) Highlight im beleuchteten Bild (b) Highlight von Projektor (c) unkorrigierte Base-Matte (d) korrigierte
Base-Matte (e) Composite-Bild . . . . . . . . . . . . . . . . . . . . 97
6.10 Farbeinschränkung bei dem Chroma Keying . . . . . . . . . . . . 99
XI
Tabellenverzeichnis
5.1
Aufnahmeplan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2
Überblick des gängigen DV-Formats . . . . . . . . . . . . . . . . . 62
6.1
Beste Testbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.2
9 Testfälle für den Flash-Chroma-Keying-Prototyp . . . . . . . . . 94
6.3
Black-Point-Werte von Steinmauer und Vorhang . . . . . . . . . . 96
XII
1 Einleitung
1.1 Motivation
Im Gebiet der digitalen Postproduktion wird das digitale Compositing von
mehreren Videobildern immer bedeutsamer. Großartige Kinofilme und moderne Fernsehsendungen sind ohne synthetische Bilder kaum noch vorstellbar.
Die Technik, die künstliche und reelle Bilder kombiniert, nennt man „Keying(Matting)“. Diese Technik erlaubt es, aufgenommene Objekte vor einem
neuen Hintergrund darzustellen. Das Ziel der Forschung in diesem Bereich
ist die Generierung eines synthetischen Bildes, das durch Betrachter nicht von
einem klassischen aufgenommenen Bild zu unterscheiden ist.
Jun. Professor Dr. Bimber und seine Studenten haben ein Augmented Studio
für TV-Produktion aufgebaut, dass der spezielle virtuelle Effekt eingesetzt werden konnte. Kürzlich wurde ein Projekt eingerichtet, dass sich mit KeyingVerfahren beschäftig. Dafür wurden drei Prototypen des Keyings gebaut. Ein
Chroma-Keying wird mit Hilfe der Projektor-Kamera-Kalibrierung und der
radiometrischen Kompensation an beliebigen Orten unter bestimmter Umgebungshelligkeit realisierbar. Das Flash-Keying extrahiert eine Matte an hand
der Intensitätsdifferenz zwischen dem „beleuchteten Bild“ und dem „unbeleuchteten Bild“. Die Kombination des Chroma-Keyings mit dem Flash-Keying
ist durch einen Flash-Chroma-Keying-Prototyp realisiert. Bisher blieb die Frage
offen, wie gut die Ergebnisse des Keyings basierend auf dem vorhandenen System sind. Sie hat mir Denkstöße gegeben. Ich arbeit gerne bei der Filmaufnahme und Filmschnitt. Mit Filmeffekt sowie Keying bin ich bereits vertraut. Aufgrund dessen habe ich es mir als Aufgabe dieser Arbeit gestellt, unterschiedliche Keying-Verfahren in dieser Umgebung zu evaluieren und zu entwickeln.
1
1 Einleitung
Dieses Thema wird man zu folgenden Fragen geführt: Seit wann gibt es Filme
mit Keying? Welche mathematischen Funktionen verbergen sich hinter dieser
Technik? Was ist der heutige Stand der Forschung? Welche wichtigen Ansätze
und Methoden existieren in diesem Bereich? Welcher Einfluss hat die radiometrische Kompensation für das Chroma-Keying-Verfahren? Wie gut kann die
Kombination mit Flash-Keying funktionieren? Welche Möglichkeiten der Keyingtechnik für Augmented Studio sind noch vorhanden? Diese Fragen liefern
die Grundlage für diese Arbeit.
Es gibt mehrere Veröffentlichungen in diesem Gebiet. Es ist sinnvoll, die alle
gängigen Keying-Algorithmen als eine Einführung für die Leser in eine geordnete Reihenfolge wiederzugeben. Die existierenden Keying-Algorithmen werden in dieser Arbeit zusammengefasst und vorgestellt.
Die Auswertung der Verfahren wird detailliert dargestellt. Die resultierenden
Ergebnisse dieser Arbeit sollen helfen, das Keying für Augmented Studio zu
verbessern.
1.2 Vorschau der Ergebnisse
In dieser Arbeit werden drei Prototypen des Keyings vorgestellt. Das ChromaKeying basiert auf Chrominanz-Informationen des Bildes. Der Projektor projiziert eine uniforme blaue Farbe auf den unterschiedlichen Hintergrundflächen.
Wie Abbildung 1.1 darbietet, dass die Steinmauer, die Tapete und der Vorhang als Projektionsflächen eingesetzt wurden. Durch die Projektor-KameraKalibrierung und die radiometrische Kompensation1 wird ein scheinbar gleichmäßiger Blue-Screen generiert. Ein vergleich zwischen der Keying-Qualitäten
bei Aktivierung und Deaktivierung der RK dient zur Beurteilung, ob die Verwendung der RK für Chroma-Keying hilfreich ist, ein erfolgreiches Keying zu
erzielen. Aus den Ergebnissen dieser vorgelegten Arbeit ergibt sich die Schlussfolgerung, dass die RK für die Erzeugung eines regelmäßigen Hintergrundes
sehr wichtig ist, was eine entscheidende Rolle für Chroma-Keying-Prototyp
1 Abkürzung:
RK
2
1 Einleitung
mit RK
ohne RK
Abbildung 1.1: Chroma-Keying Evaluation ErsteReihe(Vertikal ) Steinmauer, Tapete und Vorhang als Projektionsflächen
ZweiteReihe(Vertikal )
Blue-Screens
DritteReihe(Vertikal )
Blue-Screen Aufnahmen mit unterschiedlichen Vordergrundobjekte VierteReihe(Vertikal ) Mattes Fn f teReihe(Vertikal )
Composite-Bilder
spielt. Abbildung 1.1 kann die Ergebnisse veranschaulichen. Die CompositeBilder ohne RK werden die diffus reflektierende Hintergründe hergestellt oder
bei der Erhaltung der diffus freien Hintergründe die Vordergrunddetails verliert. Die Composite-Bilder mit RK hingegen bekommen wenigeren Detailverlust trotz der Erhaltung der diffus freien Hintergründe. Die Testvideos wurden
unter unterschiedlichen Stufen der Umgebungshelligkeit aufgenommen. Aus
der Evaluation ergibt sich, dass eine völlig dunkle Umgebung für die KeyingQualität günstig ist. Die Keying-Qualität unter den unterschiedlichen Vordergrundobjekten wurde ebenfalls ausgewertet.
Das Flash-Chroma-Keiyng ist eine Kombination des Chroma-Keyings mit einem Flash-Keying. Die Kamera nimmt die Videobilder abwechselnd in zwei
Arten mit Hilfe der LED-Beleuchtungseinheit, die mit dem Projektor und der
Kamera synchronisiert, auf. Die LED-Beleuchtung blitzt die Szene pro Sekunde 30mal mit einer kurzen Dauer von 16,6 ms. Wenn die LED-Beleuchtung
eingeschaltet ist, nimmt die Kamera ein Videobild mit beleuchteter Szene auf.
3
1 Einleitung
(a)
(c)
(b)
(f)
*
=
(h)
+
(b)
(d)
=
(g)
(e)
=
*
Abbildung 1.2: Prinzip des Flash-Chroma-Keyings ( a) Bild mit unbeleuchtetem Vordergrund und dem Blauhintergrund (b) Bild mit beFlash-chromakey
leuchteter Szene (c) Matte (d) Invertierte Matte (e) neuer Hintergrund ( f ) separierter Vordergrund ( g) separierter Hintergrund (h) Composite-Bild
Wenn sie ausgeschaltet ist, nimmt die Kamera ein Videobild mit unbeleuchtetem Vordergrundobjekt und einem radiometrisch kompensierten blauen Hintergrund. Die Videobilder mit beleuchteter Szene wurden aus dem gesamten
Video aussortiert und in eigenes Video gefasst, wobei die Reihfolge unverändert geblieben ist. Wegen der Aussortierung des nächstgelegenen Bildes entsteht ein lückenhaftes Video, jedes zweite Bild ist im Video gefehlt. Ein Zwischenbild, das die Lücke füllen soll, wurde durch die lineare Interpolation
zwischen je zwei benachbarten Videobildern generiert. Eine Matte von der unbeleuchteten Videobildern wurde mit dem Chroma-Keying extrahiert. Da die
Matte-Extraktion nur abhängig von einer Bildart ist, existiert eine Einschränkung der Farben auf dem Vordergrund nicht. Diese erweiterte Methode kann
als eine Verbesserung der vorherigen Prototypen angesehen werden. Abbildung 1.2 zeigt das Keying-Prinzip des Flash-Chroma-Keying-Prototyp.
1.3 Kapitelübersicht
Dieser Abschnitt gibt einen Überblick über die einzelnen Kapitel dieser Arbeit
und ihre Zusammenhänge.
4
1 Einleitung
Die vorliegende Arbeit ist sich in 7 Kapitel gegliedert.
Kapitel 1 ist die vorliegende Einleitung.
Kapitel 2 beschreibt die Grundlage des digitalen Compositing und die allgemeinen Probleme.
Kapitel 3 stellt das primitive Keyingverfahren vor. Je nach dem ob der Hintergrund bekannt ist, teilt man das Keying in 2 Kategorien auf, nämlich die primitive Keyingtechnik und die hochwertige Matte-Extraktion. Je komplizierter der
Hintergrund ist, desto höher ist die Anforderung stellt an die Keyingtechnik.
Kapitel 4 bildet den Schwerpunkt dieser Arbeit auf den unterschiedlichen Algorithmen der Keyingtechnik und gibt einen Überblick über den aktuellen
Stand der Forschung des Keying(Matting)-Verfahren. Die Verfahren können in
zwei Gruppen unterteilt werden: die Online-Verfahren haben den Vorteil, dass
sie sehr schnell sind, während die Offline-Verfahren eine höhere Qualität erreichen können. Hier wird einige wichtige Algorithmen des Keying-Verfahrens
vorgestellt.
Kapitel 5 beschäftigt sich mit der Auswertung der Ergebnisse der ChrominanzMethode. Bei dieser ersten Methode wird das Chroma-Keying unter unterschiedlichen Lichtbedingungen mit speziellen Vordergrundobjekten und verschiedenen Hintergrundsituationen getestet. Ziel ist die Bestimmung der Beeinflussungsfaktor der Keying-Qualität. Anschließend wird das Testergebnis
zusammengefasst und zur Diskussion gestellt.
Kapitel 6 stellt die Ergebnisse der Auswertung der temporalen Methode in
Kombination mit der Chrominanz- Methode dar. Die Frage, inwiefern die KeyingQualität durch das Hinzufügen des zeitlichen Faktors verbessert werden kann,
ist noch offen.
Das abschließende Kapitel fasst die Ergebnisse der Arbeit zusammen und schlag
anhand der Auswertung weitere Verbesserungsmöglichkeiten des Keying-Studios
vor.
5
2 Grundlagen des digitalen
Compositing
2.1 Was ist Matting und Keying
Man hat im Film viele wundervolle Szenen gesehen, wie zum Beispiel der
fliegenden Superman (Siehe Abbildung 2.1). Aber Fliegen wie ein Vogel über
einen Berg bleibt dem Menschen nur ein Traum. Ein Trick wurde im Film des
Supermans eingesetzt, das so genannte Matting oder Keying.
Matting (Matte) ist analog zu dem Begriff „Alpha Kanal“, der die Information über die Transparenz vom Pixel transportiert. Neben den drei Kanälen Rot,
Grün und Blau (RGB) für die Farbdarstellung auf dem Bildschirm oder der
CMYK -Kodierung für die Druckfarben wird über den Alpha-Kanal zusätzlich ein Byte pro Pixel für die Information über die Durchsichtigkeit benötigt.
Damit lassen sich 256 Graustufen darstellen, die die Durchsichtigkeit, beziehungsweise Deckkraft des jeweiligen Pixels in einem Bild bestimmen. Ein weißer Pixel (255) im Alpha-Kanal erzeugt auf dem Monitor einen hundertprozentigen sichtbaren Pixel im Gesamt-Bild. Ein schwarzer Pixel (0) im Alpha-Kanal
lässt das Gesamt-Bild an dieser Stelle durchsichtig erscheinen. Die Pixelwerte
können auch zwischen 0 und 1 normiert werden. Filmindustrie verwendet oft
diesen Begriff, während Fernsehproduktion „Key“ oder „Keying“ benutzt. Ein
Key gibt an, welche Farbe oder welcher Bereich von Farben im Bild transparent
wird. Solche weggekeyte Farben können für einen Monochrom-Hintergrund
verwendet werden. z. B. für Blue Screen- oder Green Screen-Aufnahmen.
Durch Matting und Keying [Bri99] wird das interessante Vordergrundelement
extrahiert, das wiederum per Kompositing auf neuem Hintergrund platziert
6
Abbildung 2.1: Keying ( a) Fliegender Superman (b) Superman GreenScreen Aufnahme ( Bildquelle : http : //www.superman −
returns.in f o/cpg133)
wird. Traditionelles Filmkompositing heißt auch optisches Compositing. Es basiert auf dem fotographischen und fotochemischen Prozess. Der Schauspieler
wurde vor einer blauen Leinwand aufgenommen, dann konnte das Blau des
Hintergrunds über einen Gelbfilter entfernt werden. Der Schauspieler wurde
als Vordergrund aus dem blauen Hintergrund extrahiert und im Labor an neuen Kompositionen aus fantasievollen Filmstoffen geknobelt. Mit dem Zeitalter
des Computers hielten auch die digitalen Effekte Einzug in den Film. Und so
dauerte es nicht lange, bis Algorithmen entwickelt wurden, die die fotografischen Verfahren simulieren und somit ersetzen konnten.
2.2 Compositing-Gleichung
Man betrachtet ein Bild (C ) als ein Compositing aus zwei Bildebenen, Vordergrund ( F ) und Hintergrund ( B). α ist der normalisierte Durchsichtigkeitsparameter. Er liegt zwischen 0.0 und 1.0. Dann ergibt sich folgende Gleichung:
C = α ∗ F + (1 − α ) ∗ B
Abbildung 2.2 demonstriert Gleichung 2.1.
7
(2.1)
Abbildung 2.2: Digitales Compositing
Für das Farbbild mit drei Farbkanäle Rot, Grün und Blau kann man aus Gleichung 2.1 ein Gleichungssystem 2.2 für das dreikanalige Compositing ableiten,
wobei die untergestellte Buchstaben R, G und B die drei Kanäle kennzeichnen:

CR


FR


BR







 CG  = α  FG  + (1 − α)  BG 
CB
FB
BB
(2.2)
(C ) ist gegeben. In diesem Gleichungssystem gibt es 3 lineare Gleichungen mit
7 Unbekannten FR , FG , FB , BR , BG , BB , α. Auf den ersten Blick ist dieses Problem
unlösbar. YUNG-YU CHUNG [Chu07, Seite 19] fasste 3 Lösungsversuche zusammen.
1. Verringerung der Unbekannten: Falls Hintergrund ( B) bekannt ist, z.B.
Blue-Screen, dann gibt es jeder Pixel 4 Unbekannte FR , FG , FB , α; Ein anderes Beispiel dafür ist das Differenz Matting, wo die beide Hintergründe
vorgegeben werden.
2. Erweiterung der Beobachtung: Falls zusätzliche Informationen gefunden werden, dann kann man das Problem lösen. Ein Beispiel dafür ist die
Triangulationsmethode, die von SMITH und BLINN [Smi95] vorgeführt
wurde. In diesem Verfahren wurde das Objekt zweimal aufgenommen,
einmal vor einem Blue-Screen, einmal ohne.
3. Hinzufügen des Priors: Benutzer skizziert vorab den Vordergrund. Was
außerhalb des Umriss ist, wird weggekeyt. Oder man verwendet das
Trimap-Verfahren, indem man das Bild in 3 Regionen segmentiert, nämlich Vordergrund, Hintergrund und Unbekannte Zone.
8
Es gibt außerhalb der drei Methoden noch viele anderen Möglichkeiten. Allgemein gesagt, je komplexer der Hintergrund ist, desto schwerer ist die Trennung
von Vorder- und Hintergrund. Viele Forscher haben versucht, Hardware und
Software zum Gelingen des vernünftigen Keyings zu entwerfen. In den folgenden Abschnitten wird Ihnen ein kurzer Überblick über den Forschungsstand
der Keying Technik gegeben.
2.3 Allgemeine Probleme
Ein gelungenes Film-Compositing setzt voraus, dass die interessanten Vordergrundelemente sauber von dem ungewünschten Hintergrund extrahiert werden. Bei Keying treten vor allem 3 Problemfälle ein.
Das erste Problem ist das so genannte „Hard Mask“. Man spricht von einer
„binären“ Matte. SMITH [Smi95] spricht von „Bitmask“. Die Matte funktioniert wie ein Schalter, der nur zwei Zustände (0 oder 1) hat. Was der klassische analoge optische Druck genauso handhabt. Solche Matte ist durchaus
einfach und schnell zu erzeugen, aber dadurch entsteht auch eine harte Kante,
was beim Compositing unrealistisch erscheint. Es wird fast immer einen Übergang zwischen Vordergrund und Hintergrund gebraucht, welcher weder 100
Protzentisch Schwarz noch 100 Protzentisch Weiß ist. Darum wird eine weiche
Kante benötigt. Ein Weichfilter für die Matte tut es hier sehr gut. Wünschenswert wäre ein Weichfilter anstatt auf die ganze Matte nur auf Kantenbereiche
zu verwenden.
Aber für die halbtransparenten Objekte wie zum Beispiel Glas und Haarspitzen kommt ein Weichfilter überhaupt nicht in Frage. Für Haare ist eine Präsizion erstrebenswert. Die Halb-Transparenz Information eines Glases ist schwer
mit einer solchen „Hard Mask“ zu ermitteln. Insbesondere solche Pixel, die
durch den Farbanteil des Vordergrundes und des Hintergrundes geteilt sind.
Eine Möglichkeit, dieses Problem zu lösen ist das Hinzufügen eines AlphaKanals, wo jeder Pixel einen Transparenzwert zugewiesen bekommt. Wobei
die Berechnung dieses Alphawertes nicht so einfach ist. Später wird es zeigen,
9
dass die Forscher an verschiedenen Algorithmen arbeiten, um den Alphawert
schnell und effizient auszurechnen.
Die dritte unschöne Sache bei Keying ist das „Spill“. Wie vorher schon erwähnt,
das ist oft schwierig, die ganz feinen Elemente, wie zum Beispiel die Haare, aus
dem Hintergrund zu extrahieren. Bei Verwendung des Bluescreen-Verfahrens
ist oft eine Einfärbung der Hintergrundfarbe an den Objektkanten wie zum
Beispiel, den Haaren, den Armen sichtbar. Solche Effekte nennt man „Spill“.
Spill entsteht, wenn Licht vom Blauhintergrund reflektiert wird. Momentan
gibt es das Verfahren Despill, welches nichts anderes als eine Farbekorrektur
ist. Ein bestimmter Farbkanal wird dabei unterdrückt. Zum Beispiel wird man
den Blauanteil des Blue-Screens herabsetzen. Bei Compositing werden sie vor
dem neuen Hintergrund nicht mehr auffallen. Wenn die Korrekturarbeit nur
auf den Kantenbereich ausgeführt wird, dann bleibt der Farbwert des gesamten Bildes erhalten, was wünschenswert ist.
Alle Probleme, die oben diskutiert werden, werden innerhalb des laufenden
Kapitel noch nahe betrachtet werden.
10
Die Eigenschaft des Hintergrundes spielt bei den Keying-Verfahren eine entscheidende Rolle. Je uneinheitlicher die Hintergrundfarbe ist, desto schwieriger wird das Vordergrundobjekt von dem Hintergrund getrennt. Je komplizierter der Hintergrund ist, desto langsamer wird der Keying-Vorgang. Das Ziel in
diesem Gebiet ist, von einem komplizierten Hintergrund, sogar wandelbarem
[Bri99], das Vordergrundobjekt sauber und möglichweiser in Echtzeit zu extrahieren. Um einen gesamten Überblick zu geben, wird es bei primitivsten
Keying-Verfahren anfängt. Unter bekanntem Hintergrund versteht man das
Wissen der Hintergrundfarbinformation.
3.1 Einfarbiger Hintergrund
BRINKMANN [Bri99, Seite 81] hat das Keying beim einfarbigen Hintergrund
grob in 2 Kategorien unterteilt. Keying basiert auf der Luminanz-Information
oder auf der Chrominanz-Information. Luminanz ist die Helligkeit eines Bildes, währen Chrominanz die Farbe eines Bildes entspricht.
3.1.1 Luma-Key
Die Grundidee des Luma-Keys ist eine Extraktion aufgrund des Intensitätsunterschiedes zwischen Vordergrundobjekt und Hintergrund. Der LuminanzKeyer1 konvertiert ein 3 kanaliges RGB Farbbild in ein einkanaliges Graustufenbild. Das Konvertierungsgesetz lautet (Siehe Gleichung 3.1):
1 Keyer
bedeutet ein Programm, das den Keying-Vorgang druchfürht.
11
Abbildung 3.1: Luminanz Key
Luminanz = 0.30R + 0.59G + 0.11B
(3.1)
Das bedeutet, der Luminanz-Wert jedes Pixels ist eine Summe von 30% Rotanteil, 59 % Grünanteil und 11 % Blauanteil. Diese Gewichtung der drei einzelnen
Farbkomponenten besagt, dass die menschlichen Augen bei Farbensehen unterschiedliche Helligkeiten wahrnehmen. Beispielsweise wird Grün heller als
Rot und Blau wahrgenommen.
Nachdem die Helligkeitsinformation gebildet wurde, legt man einen Schwellenwert fest, der zwischen 0 und 255 liegen. Alle Pixel, deren Grauwerte kleiner als der Schwellenwert oder deren Grauwerte größer als der Schwellenwert
sind, werden weggekeyt. Das erzeugt eine „Bitmask“, harte Matte. Natürlich
kann solche Matte noch zwei Skalierungsoperationen „Softness“ und „Tolerance“ hinzufügen. Wie Abbildung 3.2 zeigt. Die Weichheit(Softness) spiegelt
die Steilheit des Übergangs zwischen schwarz und weiß wieder, während die
Toleranz(Tolerance) nach der Breite des Luminanz-Wertes vom Minimum bis
zum Maximum fragt. Der Mittelpunkt(Center) stellt den durchschnittlichen
Luminanz-Wert der Matte dar. Dadurch wird der Luminanz-Wert jedes Pixels
in der Matte skaliert. Anstatt einer harten Matte, ist das Resultat eine weiche
Matte.
Das Luma-Key kann praktisch angewendet werden, wenn ein sehr helles Objekt vor einem dunklen Hintergrund aufgenommen wird (vgl. Abbildung 3.1).
Das ist zwar ein einfaches Verfahren, aber gegenüber Chromakey weniger se-
12
Abbildung 3.2: LumaKey Skalierungsoperation [SH06, Seite 8]
lektiv. Wenn das Vordergrund-Objekt dunklere Stellen aufweist, werden die
Löcher in der Matte entstehen können.
3.1.2 Chroma-Key
Der Chroma-Keyer erstellt eine Matte aufgrund der Farbinformation. ChromaKey filtert alle Pixel heraus, die einer bestimmten Key-Farbe ähneln. Weil die
Kamera das Licht in die drei Grundfarben Rot, Grün und Blau zerlegt und diese dann aufnimmt, für die Keyfarbe kann jede dieser drei Farben verwendet
werden. In der Praxis kommt immer Blau oder Grün als Keyfarbe zur Anwendung. Bei Film- und Fernsehpostproduktion ist ein solcher Blue-Screen2 und
Green-Screen3 am häufigsten eingesetzt worden. Die Menschen als Hauptdarsteller des Film und des Fernsehens müssen meistens von dem Hintergrund extrahiert werden. Um eine vernünftige Matte zu erzeugen, soll die Hintergrundfarbe möglichst nicht im Vordergrund vorkommen. Die Menschhaut hat wenigeren Farbanteil an Grün und Blau, deshalb werden Blau und Grün als Hin2 Seit
langer Zeit wurde die Blaufarbe bei Film verwendet. Mit Gelbfilter konnte man die
Keyfarbe ausfiltern.
3 Seit kurzer Zeit wird es beim digitalen Compositing immer mehr zum Einsatz gekommen,
weil Blau höchste Farbrauschen hat. Nachteil von dem GreenScreen ist mehr Spill wegen
der höheren Reflektion.
13
tergrundfarbe standardisiert. Die Frage, welches Verfahren, Blue-Screen oder
Green-Screen, besser für die Matte-extraktion eingesetzt werden kann, bleibt
individuell.
Die Methoden, die anhand der Chrominanz-Information die Matte erstellen,
sind folgende:
HSL-Key
WRIGHT hat in seinem Buch den HSL-Keyer beschrieben [Wri02, Seite 22].
Der Chroma-Keyer konvertiert ein RGB-Bild in HSL4 -Bild. H: Hue(Farbe), S:
Saturation (Sättigung), L: Luminance(Helligkeit). Der Grund für diese Konvertierung ist, dass das HSL-Farbsystem über andere Eigenschaften als RGBFarbsystem verfügt. Wenn der Keyer beispielsweise die verschiedenen Farbsättigungswerte unterscheidbar machen muss, dann wird RGB nutzlos, weil
es diese Eigenschaft gar nicht besitzt. Mit HSL wird mehr Spielraum bei Keying schaffen. Zuerst wählt man eine bestimmte Farbe als Keyfarbe aus, die das
Zentrum des Chromakeys repräsentiert. Dann können noch verschiedene Toleranzen über Farbsättigungs- oder Helligkeitsbereiche variiert werden.
Wie wird dieser Vorgang mathematisch formuliert? Angenommen es wird als
Erstes eine Keyfarbe Hkey festlegt. Aufgrund der Beschränkung in der Beleuchtungstechnik, schaffen selbst professionelle Studios nicht vollständig gleichmäßige Hintergrundfarbe zu erzeugen. Um solche Unregelmäßigkeit der Hintergrundfarbe darzustellen, wird hier ein Toleranzwert zur Keyfarbe Th benötigt.
Falls der Farbwert des Bildpixels H pixel in diesem Toleranzbereich ist, dann ergibt sich der Mattewert Hmatte von diesem Pixel 1, anderenfalls 0:
(
Hmatte =
1 i f ( Hkey − Th ) < H pixel < ( Hkey + Th )
otherwise
0
4 Außerdem
(3.2)
existieren noch zwei andere Begriffe wie zum Beispiel HSV(Hue, Saturation, Value) oder HSB(Hue, Saturation, Brightness).
14
Unter gleichen Umständen werden zwei andere Parameter Smatte und Lmatte
von dem HSL Farbsystem berechnet.
(
Smatte =
otherwise
0
(
Lmatte =
1 i f (Skey − Ts ) < S pixel < (Skey + Ts )
1 i f ( Lkey − Tl ) < L pixel < ( Lkey + Tl )
otherwise
0
(3.3)
(3.4)
Dann werden die drei Resultate in einer finalen Mattewert M pixel zusammengefasst.
M pixel = α ∗ Hmatte + β ∗ Smatte + γ ∗ Lmatte
wobei α + β + γ = 1
(3.5)
Der HSL-Chroma-Keyer hat zwei wichtige Vorteile sowohl bei der Auswahl
einer beliebigen Farbe als Keyfarbe als auch bei der Variation der Sättigung
und Helligkeit. Ein Beispiel dafür ist, wenn ein Schatten auf ein Gesicht geworfen wird, kann man mit Sättigungskontrolle und Helligkeitskontrolle feststellen, dass der Schatten nicht nur dunkler als die Gesichtshaut ist, sondern
auch einen niedrigeren Sättigungswert besitzt.
Das Problem bei dem Keyer ist in der Regel, dass eine harte Kante entsteht,
wie vorher schon erwähnt wurde. Zudem wurde bereits diskutiert werden,
dass der Chroma-Keyer Schwächen in halb-transparenten Bereichen hat und
deshalb auch nur bedingt für Blue-Screen-Material geeignet ist. Das wird im
späteren Kapitel mit sehr vielen Beispielen getestet.
Color-difference-Key
Der Farbe-Differenz-Key kann auf die „Color Difference Method“ von Petro
Vlahos in den 60er Jahren zurückverfolgt werden. Ursprünglich war sie ein
chemischer und optischer Prozess, der viel mehr in Filmproduktionen eingesetzt wurde. Der Farbe-Differenz-Key wird mit der Digitalisierungsentwicklung immer populärer. Er ist effektiver, weil er sehr saubere Kanten extrahie-
15
ren kann und gute Qualität bei Halb-Transparenzen hat. Dieser Keyer macht
nicht nur die Extraktion der Matte, viel mehr kombiniert der dem umfassenden Prozess von Farbkorrektur, Matte-Extraktion und Bildkombination. Man
legt dabei neben einem mittleren Farbwert auch eine gewisse Abweichung fest.
Der Farbdifferenz-Keyer funktioniert besser, wenn eine der Grundfarben (Rot,
Grün oder Blau) als Hintergrundfarbe verwendet wird.
Dieser Key besteht aus drei Schritten. Angenommen es handelt sich um eine
Blue-Screen-Aufnahme.
Der erste Schritt führt eine Farbkorrektur auf dem Bild aus. Ziel ist es möglichst den blauen Hintergrund schwarz zu färben. Dies lässt sich leicht umsetzen, wenn jedem Pixel, dessen Blauanteil größer als dessen Grünanteil ist,
der Wert des Grünanteils zugewiesen wird. Dadurch bekommt man ein neues
korrigiertes Bild.
In einer Art Pseudocode liest sich das wie folgt:
I f Blau > Gr ün
then NeuBlau = Gr ün
(3.6)
else NeuBlau = Blau
Angenommen, das Originalbild hat einen reinen Blauwert auf seinem Hintergrund. Dann hat der Hintergrund von dem originalen Bild I drei Parameter
Br , Bg und Bb , deren Wert nach Normierung zwischen 0 und 1 ist, hier I [0, 0, 1].
Nach Tausch zwischen Blau und Grün, wird ein neues Bild I 0 erzeugt. Dessen Wert ändert sich in I 0 [0, 0, 0], d.h. alle Hintergrundpixel werden auf 0 gesetzt. Das ist nur ein idealer Fall, normalerweise braucht man diese Vorgehensweise zur Elimierung des Blauanteils auf dem Vordergrund. Auf den Randbereichen des Vordergrundes kann der blaue Hintergrund durch das blaugetränkte Umgebungslicht unabsichtlich reflektiert werden. Dadurch entsteht
das Spill-Problem, das vorher schon mal gesprochen wurde. Dies ist ein Schritt
in die entgegengesetzte Richtung. Was für einen Blue-Screen sehr von Vorteil ist. BRINKMANN bezeichnet ein solches Verfahren als „Spill Suppression“
[Bri99, Seite 84], auch Anti-Spill genannt.
16
Kapitel 4 Chroma Key
Originalbild
1
Korrigiertes Bild
2
Invertierte Matte
3
Matte
*
Composite
* =
Hintergrund
Abbildung 3.3: Schritte des Farbdifferenz Keys
Im zweiten Schritt wird die Matte generiert. Hierzu wird im Originalbild für
jeden Pixel das Maximum des Rot- oder Grünwertes vom Blauwert subtrahiert.
Auf diese Weise wird eine invertierte Matte generiert.
InvertierteMatte = Blau − Maximum( Gr ün, Rot)
(3.7)
Weil der Mattewert wie üblich normiert wurde, erhält man die Matte, indem
man die invertierte Matte von 1 abzieht.
Matte = 1 − InvertierteMatte
(3.8)
Im dritten Schritt kombiniert man durch Addition und Multiplikation aller Elemente, die man bisher bekommen hat.
Composite = Matte ∗ KorrigiertesBild + InvertierteMatte ∗ Hintergrund (3.9)
Damit sind alle Bedingungen erfüllt, um ein ausgewogenes Ganzes zu bilden.
Abbildung 3.3 zeigt den Vorgang noch einmal anschaulich.
Viele professionelle Compositing Werkzeuge bieten die Spill Suppression an,
17
Cyan
Blue
White
(0,255,255)
(255,255,255)
Magenta (255,0,255)
(0,0,255)
Yellow
Green
(255,255,0)
(0,255,0)
P2(r2,g2,b2)
P1(r1,g1,b1)
Red
Black
(0,0,0)
(255,0,0)
Abbildung 3.4: 3D RGB Raum
aber sie kommt nicht ohne Preis. Während das blaue Spill vom ersten Schritt
unterdrückt wird, wird der Vordergrundfarbton auch verändert. Manche Vordergrundobjekte wirken dann verwachend. Das beeinträchtigt natürlich die
Compositing-Qualität. Diese Nebenwirkung kann man damit mindern, indem
man die Vordergrundobjekte durch spezielle Masken explizit vor unerwünschter Änderung der Farbe schützt.
3D-Key
Die RGB Farben können in einem dreidimensionalen Raum dargestellt werden,
indem man die Farbwerte aller Bildpunkte im 3D Raum abbildet. Die X-, Y-,
Z-Koordinaten entsprechen den RGB Farbwerten. REITAN sprach von einer
räumlichen Aufteilung der Farbwerte auf einem Bild [Rei98], so eine Art wie
Colour Clustering[PPS03]. Abbildung 3.4 (a) gibt uns eine Veranschaulichung
des RGB-Raums in 3D.
Die Grundidee hinter dem 3D-Key ist eine Gruppierung der gleichartigen Farbtöne im dreidimensionalen RGB Raum, danach kann der 3D-Keyer mit einem
3D Körper die Pixel, die zum Hintergrund gehören, einschließen. Der Körper
kann beliebig sein, so nutzt zum Beispiel TZI-Keyer5 eine Kugel als Einschlie5 TZI
ist eine Ankürzung von Technologie-Zentrum Information in der Universität Bremen.
18
Abbildung 3.5: 3D-Keyer ( a) Blue-Screen-Aufnahme (Bildquelle: [Chu07, Seite 14]); (b)Farbclustering, F: Vordergund, B: Hintergrund (Bildquelle: [Chu07, Seite 14]); (c) zwei Kugeln mit gemeinsamem
Mittelpunkt und unterschiedlichen Radien; Pixel innerhalb S1
sind vollständig durchsichtig, Pixel innerhalb S2, außerhalb S1
sind halbtransparent, Pixel außerhalb S2 sind nicht durchsichtig (Bildquelle:[SH06, Seite 13]); (d) Konvexe Hülle schließt die
Hintergrundpixel ein (Bildquelle:[SH06, Seite 14]).
ßungsform der verschiedenen Farbtöne, der Primatte-Keyer6 nutzt eine komplizierte Form, ein Polyeder mit 128 Flächen, um hochwertige Einteilung der
Farbinformation zu ermöglichen.
Man wird TZI-Keyer [SH06, Seite 18] als ein typische Beispiel des 3D-Keys hier
näher betrachten. Abbildung 3.5( a) zeigt uns das Eingangsmaterial. Es handelt
sich um eine Blue-Screen-Aufnahme. Nach dem Farbclustering in RGB Würfel, wie es in Abbildung 3.5 (b) deutlich zu sehen ist, befinden sich die blaue
Hintergrundfarbe und die gelbe Vordergrundfarbe auf unterschiedlichen Positionen im 3D RGB-Raum. Sie sind weit voneinander entfernt. Der Abstand
zwischen beiden Bildpunkten, die jeweils in Vorder- oder Hintergrund liegen,
kann als die Länge oder den Betrag eins Vektors in 3D Koordinaten angesehen
werden. Die Distanz zwischen 2 Punkten in 3D RGB Raum kann somit nach
dem Satz des Pythagoras berechnet werden:
D=
q
(r2 − r1 )2 + ( g2 − g1 )2 (b2 − b1 )2
6 Der
(3.10)
Primatte-Keyer wurde im Jahre 1992 von der Imagica Corporation (Tokyo) entwickelt
und von Photron Ltd.(Tokyo)vermarktet.
19
to
le
DT
DS
ra
nc
e
key color
v=0
s
es
ftn
o
s
0<v<1
v=1
Abbildung 3.6: Ermittelung der Sichtbarkeit für einen Pixel unter Verwendung
der Kugeln für Toleranz und Weichheit (Bildquelle: [SH06], editiert)
Dazu schauen Sie sich Abbildung 3.4 an.
Je deutlicher sich die Vordergrundfarbe von Hintergrundfarbe unterscheidet,
desto größer ist die Distanz D, vice versa. Wenn man anstatt einer harten Matte ein weiches erstellen möchte, sollte man die 2 Parameter, „Tolerance“ und
„Softness“ einstellen. In Abbildung 3.6 zeigt zwei Kugeln mit gemeinsamem
Mittelpunkt und unterschiedlichen Radien, die die Funktion der zwei Parameter andeuten.
In diesem 3D RGB Raum wird die 3 Koordinaten X, Y, Z auf 1 normiert. Dann
wird die Sichtbarkeit V jedes Pixels aufgrund der Distanz D zwischen Referenzpunkt auf den zwei Kugeln ausgerechnet. Der maximale Abstand zwi√
schen 2 Punkte beträgt 1 + 1 + 1 ≈ 1.732. „key color“ stellt den gemeinsamen Mittelpunkt zweier Kugeln. Von dem Punkt aus berechnet man den Wert
V. Man setzt 2 Kugeldurchmesser als globale Schwellenwerte ein. Der Durchmesser DT definiert die Region, die aufwärts bis V = 0.0 ist. Der Durchmesser
DS definiert die Region, die abwärts bis V = 1.0. Durchsichtigkeit gleich Null
bedeutet völlige transparent, d.h. definitiv die Hintergrundfarbe. Anders her-
20
um besagt V = 1.0 die gänzliche Undurchsichtigkeit, bzw. den Vordergrundfarbbereich.
Die Vorteile des TZI-Keyer ist Einfachheit und Schnelligkeit. der Nachteil ist
weniger Präzision bei der Extraktion der Kanten.
Primatte-Keyer ist ein bekanntes professionelles Werkzeug zur Matte-Generierung.
Er benutzt ein verformbares Polygon. Das ursprüngliche kugelförmige Polygon konnte verschiedene Farbtöne einschließen und damit eine komplexe geometrische Form annehmen. Diese Eigenschaft ermöglicht, verschiedenste Sättigungsund Helligkeitsstufen des Hintergrunds in den Key einzuschließen. Dadurch
können schwierige Hintergründe bearbeitet werden [Lot03, Seie 56].
Zusammenfassend macht der 3D-Keyer selbst dann möglich, ein gutes Resultat
zu bekommen, wenn sich Vorder- und Hintergrundfarben sehr ähneln [Lot03,
Seie 61].
3.2 Mehrfarbiger Hintergrund
3.2.1 Difference-key
Dieses Matting-Verfahren basiert auf absolute Pixelwertdifferenz zwischen zwei
Bildern, den gleichen Hintergrund haben. Um ein Differenz Matte zu erzeugen,
muss man zwei Aufnahmen hintereinander durchführen. Vorab nimmt man
nur den Hintergrund auf, dann stellt man das Objekt davor und nimmt noch
einmal auf. Das Bild ohne Objekt nennt man „Clean plate“, mit Objekt „Target plate“ [Wri02, Seite 27]. Die Matte erzeugt man, indem das „Clean plate“
jeweils in den drei Farbkanälen von „Target plate“ abgezogen wird. Um den
negativen Wert zu vermeiden, wird der Absolutwert davon genommen.
RoheDi f f erenzMatte = ( abs( R1 − R2 )) + ( abs( G1 − G2 )) + ( abs( B1 − B2 ))
(3.11)
Die Differenz-Matte hat seine Beschränkungen. Zunächst braucht man eine
21
statische Kamera mit Stativ, um exakte gleiche Hintergründe zu gewinnen.
Für Video benötig man eine spezielle Hardwareinstallation, um die perfekte Synchronisation der Kamerabewegung zu gewähren. Zweitens, wegen der
unterschiedlichen Lichtverhältnisse, dem Schattenwurf und dem Filmgrain,
ist es nicht möglich, vollkommen identische Hintergrundbilder aufzunehmen.
Als eine Kompletlösung darf der Differenz-Key zwar nicht fungieren, aber als
„first-pass method“ [Bri99, Seite 83] ist es gut zu gebrauchen.
3.3 Hilfe Matte: Garbage-Matting
Garbage bedeutet Abfall, Müll. Garbage-Matting ist ein Preprozess, welcher
bestimmte Stellen im Bild ganz durchsichtig oder deckend macht.
„Außen-Garbage-Matte“ kann anfällige Stellen auf dem Hintergrund, Schatten
und Highlighting auf Blue-Screens (Green-Screens) oder unerwünschte Gegenständen im Bild vorab löschen.
„Innen-Garbage-Matte“ kann auch eine bestimmte Stelle auf dem Vordergrund
explizit einschließen. Wenn der Vordergrund die Hintergrundfarben enthält.
Zum Beispiel grüne Augen beim Green-Sreen. Dabei markiert man vor richtiger Matte-Extraktion die Augenstelle, die bei Keying-Prozess nicht weggekeyt
werden kann.
Es erfolgt durch eine manuelle Eingabe von Anwender. Der meiste Keyer, der
über Garbage Funktion verfügt, stellt uns ein Werkzeug der Bereichauswahl
zur Verfügung. Die Bereiche werden hier meistens als geometrische Grundformen wie Kreis oder Rechteck definiert. Die Eckpunkte sind variabel, um
beliebige Stelle einzuschließen. Man beachtet darauf, dass die Bereiche, die als
Garbage Matte dienen, nicht kleiner als das Vordergrundobjekt und nicht größer als der Hintergrund sein sollten.
22
4 Keying mit unbekanntem
Hintergrund
Idealweise extrahiert man eine hochwertige Matte von einem Bild oder einem
Video, das einen beliebigen unbekannten Hintergrund hat. Wenn der Hintergrund unbekannt ist, spricht man von einem natürlichen Hintergrund. Diese
Matte-Extraktion ist bekannt als „Natural Image Matting“. Wie in dem Anschnitt 2.2 erwähnt, wird bei unbekanntem Hintergrund der Compositing-Prozess
schwieriger. Schwerpunkt bei so einem Matting ist die Berechnung des α-Wertes.
Aufgrund unterschiedlicher Einstellung des Hardware und Implementierung
verschiedener Algorithmen, kann das Matting Verfahren Offline oder Realtime
betrieben werden.
4.1 Offline Verfahren
Als Offline Matting zählen Verfahren, die entweder eine Benutzerinteraktion
fordern oder hohen Rechenaufwand benötigen. Zum Beispiel braucht die bei
nicht automatisch erzeugte Trimap meistens eine manuelle Vordefinition des
Vorder- und Hintergrund durch den Anwender. Wenn Matting auf eine lange Abfolge von mehreren Bildern anstatt auf statistischen Bildern angewendet
wird, ist es unmöglich, den Prozess noch in Echtzeit laufen zu lassen.
4.1.1 Trimap-basierte Verfahren
Trimap, wie schon der Name sagt, zerlegt das Bild in drei Regionen (vgl. Gleichung 4.1):
23
Region1 = Vordergrund, α = 1;
(4.1)
Region2 = Hintergrund, α = 0;
Region3 = Unbekannt, 0 < α < 1;
Der α-Wert jedes Pixels wird versucht, zu ermitteln. Alle Pixel, die definitiv
zum Vordergrund gehören, haben einen α-Wert gleich 1; Alle Pixel, die sich auf
dem Hintergrund befinden, werden mit dem α-Wert 0 weggekeyt; Alle Pixel,
die dazwischen liegen, benötigen die Ermittelung. Die unbekannte Region ist
ein Übergangsbereich zwischen Vorder- und Hintergrund. Sie umrandet das
Vordergrundobjekt. An Hand KnockOut 21 wird dieses Trimap-Verfahren intuitiv betrachtet werden.
(a)
(b)
(c)
Unknow
(d)
FG
BG
BG
Abbildung 4.1: KnockOut2 für Adobe Photoshop ( a) Originalbild; (b) Außenlinie und Innenlinie; (c) Composite; (d) Trimap.
Auf dem originalen Bild zeichnet man zuerst eine innere Konturlinie innerhalb
des Vordergrundobjektes, die aber in der Nähe von Objektkanten liegt. Dann
erstellt man eine äußere Konturlinie auf dem Hintergrund, die sich nah zu dem
Vordergrundobjekt befindet. Der Abstand zwischen Innenlinie und Außenlinie
soll ausreichend für die kritische Stelle des Keying sein. Der Bereich zwischen
den beiden nennt man den Übergang oder die Unbekannte Region. Die Ermittelung des α-Wert und der Vordergrundfarbe innerhalb dieser Region ist
Hauptaufgabe der Trimap.
Es existieren viele Keying-Verfahren, die auf dem Grundprinzip der Trimap
beruhen. Nun folgt es ein Überblick über die Trimap-Verfahren.
1 Das
KnockOut 2 ist die Plug-In Software von der Firma Corel für Adobe Photoshop.
24
r
1-αr
C
F
αr
B
B‘
αg
1-αg
g
Abbildung 4.2: KnockOut Algorithmus (Bildquelle: [Chu04], editiert)
KnockOut
Knockout
Der Knockout-Algorithmus wurde von der Firma Ultimatte entwickelt. Beschrieben wurde er von BERMAN et al.[AB00]. Abbildung 4.2 stellt die Grundidee zur Schau.
Nach der Segmentation vom Benutzer mann man die Vordergrund- und Hintergrundfarben in die unbekannte Region rechnen. Für einen gegebenen Pixel in unbekannter Region lässt man C seine RGB-Farben kennzeichnen. Seine
Vordergrundfarbe F wird als ein gewichteter Mittelwert aller Pixel, die sich
auf dem Rand der bekannten Vordergrundregion befinden, berechnet. Das Gewicht für die nächsten liegende bekannten Pixel ist auf 1 festgelegt. Das Gewicht läuft linear mit der Entfernung aus und erreicht 0 für die Pixel, die doppelt so weit von dem nächsten liegenden Pixel entfernt sind. Die gleiche Prozedur wird anfangs für die Abschätzung des Hintergrundes B0 angewendet,
der auf dem nächsten liegenden bekannten Hintergrundpixel basiert. Die abgeschätzte Hintergrundfarbe B0 kann dann optimiert werden, indem C auf einer
senkrecht zum Liniensegment FB0 stehenden Ebene projiziert wird. Diese Ebene läuft durch den Punkt B0 . Der projizierte Punkt B ist der optimierte Punkt
B0 .
α=
ϕ(C ) − ϕ( B)
ϕ( F ) − ϕ( B)0
(4.2)
ϕ(•) projiziert eine Farbe zu einer der möglichen Achsen im RGB Raum. Das
25
∑F
F
P(F)
1-α
∑C
C
C
P(C)
α
P(B)
B
∑B
Ruzon-Tomasi
Abbildung 4.3: Ruzon und Tomasi Algorithmus (Bildquelle: [Chu04], editiert)
entgültige α ist der Mittelwert aller Projektionen. Die Gewichte sind proportional zu Nenner in Gleichung 4.2 für jede Farbachse im RGB Raum.
Ruzon und Tomasi
Im Jahr 2000 schlug RUZON und TOMASI [RMA00] die statistische Methode
zur Berechnung des α-Wertes vor. Ihres Verfahren sieht wie folgt aus:
1. Segmentation des Bildes: Wie gewohnt, mit Hilfe des Benutzers wurden
die drei Regionen segmentiert.
2. Partitionierung der unbekannten Region in Unterregionen: Für jede
Unterregion wurde ein Rechteck konstruiert, das auch nahe zu dieser unbekannten Region liegende bekannte Vordergrund- und Hintergrundregionen umfasst. Die Pixel, die sich innerhalb des Rechtecks sich befinden,
wurden als Verteilungsprobe P( F ) und B( F ) behandelt. Abbildung 4.3
links demonstriert diesen Vorgang.
3. Clusterisierung der Vordergrund- und Hintergrundpixel innerhalb des
Rechtecks: Diese Vordergrund- und Hintergrundpixel wurden jeweils in
kohärenten Cluster aufgeteilt und jeweils die unorientierte Gauß-Verteilung
im RGB Raum verwendet. Jedes Cluster bekam einen gewichteten Mittelwert F, sowie B und ihre diagonale Kovarianz ∑ F und auch ∑ B .
26
4. Paarung des Vordergrundclusters mit dem Hintergrundcluster: Hier wurde solche Paare mit Hilfe des Schwellenwertes ausgeschlossen, die „Intersektion Konflikt“ und „Winkel Konflikt“ verursachen konnten. Für jedes
Paar ist sein Verteilungszentrum F bzw. B der gewichtete Mittelwert von
den Vordergrund- und Hintergrundfarben.
5. Abschätzen der Zwischenverteilung: Die Farbe C wird als eine Zwischenverteilung P(C ) behandelt, die irgendwo zwischen Vordergrundund Hintergrundverteilung liegt. Die Zwischenverteilung ist als eine Summe aller Gauß-Verteilungen definiert, wobei jede Gauß-Verteilung auf einem eindeutigen Mittelwert C entlang einer Linie zwischen F und B mit
geringfügiger interpolierten Kovariante ∑ C ist.
6. Optimierung des α-Wertes: Der optimale α-Wert ist eine Zwischenverteilung für die beobachtete Farbe, die maximale Wahrscheinlichkeit besitzt,
d.h. er ist unabhängig von F und B gewählt. F- und B-Farben werden
dann zu Endpunkten eines Liniensegments durch die beobachtete Farbe C. Falls C maximale Wahrscheinlichkeit hat, dann ist der Wert aus
BC
BF
der gesuchte α-Wert jedes Paares. Somit ist die Compositing Gleichung
erfüllt.
Hillman
Das Trimap-Verfahren von HILLMAN [PJD01] et al. basiert auf „principal component analysis“(PCA). Nach ihrer Beobachtung stellten sie fest, dass jedes
Farbcluster regelrecht stangenförmig wie eine Zigarette im RGB Raum verteilt
ist (Siehe Abbildung 4.4). Grund dafür ist, dass die Pixel entweder von dem
gleichen Grundfarbton mit unterschiedlichen Beleuchtungsgeraden oder Teil
eines Übergangs zwischen zwei Farben sind.
Durch Scannen des Bildes mit einem Raster wird jeder noch nicht verarbeiteten
Pixel, das mit einem festen Radius sowohl den Hintergrund und als auch den
Vordergrund umfasst, in der unbekannten Region gefunden und weiter verarbeitet. Die Pixel, die innerhalb des festen Radius liegen, werden jeweils als
Farbproben zum Vorder- und Hintergrundcluster zugeordnet.
27
Hillman and Hannah / Natural Image Matting
foreground cluster
background cluster
background colourline
foreground colourline
180
160
140
120
100
80
60
40
20
0
250
200
150
200 180
160 140
120 100
100
80
60
50
40
20
0 0
Abbildung 4.4: Clustering der Farben im RGB Raum(Bildquelle: [PH05])
Figure 3: Foreground and background clusters approximated by colour lines. The axes are the ordinates of RGB
colourspace
F
1
F
Lum(x)−min(Lum)
i. Bucket= max(Lum)−min(Lum)
ii. Total(Bucket) += S(x)
iii. Counts(Bucket) +=1
F‘
1-α
e. for x (0..B) Means(x)=Total(x)/Counts(x)
2. Connect Lines:
F2
C‘
C
α
B2
B
B‘
a. for x (1..B)
B1
i. if kMeans(x) − Means(x − 1)k < threshold
A. Hillman
Connect Means(x) and Means(x − 1)
Abbildung 4.5:
Hillman Trimap-Algorithmus (Bildquelle: [Chu04], editiert)
Fig. 3 shows an example of foreground and background
clusters and the colour lines used to approximate. In this case
the lines are unbroken; this is not always the case.
PCA wurde für das Finden der Hauptorientierung im RGB Raum eingesetzt.
Die angesammelten
Farbproben
auf die gefundene Hauptachse proji5.1. Processing
using colourwurden
lines
2 auf der unbedeutenden Achse wurde verworfen.
ziert. Die Varianz
Once colour
lines have been formed, processing proceeds
exactly as before. The initial clean foreground and background
colour estimates
f and b are
the nearest points
Abbildung 4.5 illustriert
die Theorie
Hillmans.
F1 , F2onund B1 , B2 sind jeweils
the foreground and background lines. These are found by
zwei Spitzenpunkte
von point
Vorderund
Hintergrundcluster.
C ist ein beliebiger
taking the nearest
on each
section
of the line to s, the
point
under
classification,
and
finding
the
closest
of
these.
Pixel in unbekannter Region, dessen α-Wert hier zu berechnen ist. F 0 ist der
Punkt auf F1 F2 , der am nächsten an Punkt C liegt. B0 ist der Punkt auf der Linie
5.2. Results
Figure
shows the
processing
thed.h.
Gema
ist in
der 4Statistik
dasresults
Maß ofdes
Streuens,
sieimage
bezeichnet,
wie stark
die with
Werte
Figure
4: Results
of applying the Colour L
with
the
Colour
Lines
algorithm.
This
image
is
1612
× 1673
der Zufallsgröße X um den Erwartungswert E( X ) streuen.
Sie wird berechnet,
indemimage
man(top), shown over white
rithm to the Gema
pixels,
of motion
resolution
data. There
is lit- und durch die Anzahl der
die Abstände
dertypical
Messwert
vompicture
Mittelwert
quadriert,
addiert
backgrounds
the top of the head, which causes diffiMesswerte tle
teiltcontrast
[OB91,around
Seite 51].
culty extracting individual hairs. Some of the highlights on
the left hand side are too close to the background colour and
appear as holes. Details of alpha channels produced by the
2 Varianz
28
c The Eurographics A
F
F
1-α
σC
∑F
C
C
α
B
P(F)
P(C)
P(B)
B
∑B
Abbildung 4.6: Bayesian Trimap-Algorithmus (Bildquelle: [Chu04], editiert)
Bayesian
B1 B2 , der die kleinste Entfernung von C hat. C 0 ist als der Projektionspunkt von
C auf F 0 B0 . α ist somit die Ratio von den Längen zwischen C 0 B0 und F 0 B0 . Die
restliche Berechnung von F und B verläuft in gleicher Weise wie der RuzonTomasi Algorithmus.
Bayesian
Die Trimap von CHUANG [CCSS01] ist ein statistischer Matting-Algorithmus.
Das Problem wurde zum Teil durch den Aufbau der Wahrscheinlichkeitsverteilung des Vorder- und Hintergrundes von einer gegebenen Nachbarschaft
gelöst. Ein kontinuierliches Schiebefenster wurde zur Definition der Nachbarschaft verwendet. Die Berechnung verläuft von Vorder- und Hintergrund nach
innen wie eine Zwiebelschicht. Abbildung 4.6 links demonstriert diese Situation.
Der Bayessche-Algorithmus basiert auf dem folgenden Bayesschen Theorem.
Angenommen, P( A) die A-Priori-Wahrscheinlichkeit ist für ein Ereignis A;
P( B) ist die A-Priori-Wahrscheinlichkeit für ein Ereignis B (Siehe Abbildung
4.7 ( a)). Bei endlich vielen Ereignissen ergibt sich das Bayessche Theorem folgendermaßen: Wenn Ak (k = 1, ..., N ) eine Zerlegung des Ereignisraumes in
disjunkte Ereignisse ist, gilt für die A-Posteriori-Wahrscheinlichkeit P( Ai | B)
[OB91, Seite 31] (Siehe Gleichung 4.3):
29
A
F
α
B
B
C
(a)
(b)
Abbildung 4.7: Skizze des Wahrscheinlichkeitstheorems ( a) Ereignis A unter
Voraussetzung B; (b) Anwendung für Matte-Extraktion.
Baysian
Satz von Bayes
P ( Ai | B ) =
P ( B | Ai ) P ( Ai )
P( B| Ak ) P( Ak )
∑kN=1
(4.3)
Daraus kann man dann die Formel für das Matting Problem ableiten (vgl. Gleichung 4.4):
P( F, B, α|C ) =
P(C | F, B, α) P( F ) P( B) P(α)
P(C )
(4.4)
Zur Veranschaulichung dieser Ableitung steht Abbildung 4.7 (b) zur Verfügung.
Vorteil von diesem Theorem ist die Umkehrung der Schlussfolgerung, d.h.
bei den gegebenen Ereignissen kann man empirisch die Wahrscheinlichkeit
der Bedingung, Voraussetzung oder Ursache ermitteln. Wie zum Beispiel ein
Anti-Spam-Tool für das E-Mail. Das Tool analysiert den Charakter der Wörter(Ereignisse) und legt dann die Eigenschaft des Spams (Ursache) fest.
Um die beste Schätzung für F, B und α beim gegebenen C zu finden, wird die
Wahrscheinlichkeitsverteilung maximiert (vgl. Abbildung 4.8). Hierbei steht
die Abkürzung MAP für Maximum-A-Posteriori. Mit Hilfe des Bayesschen
Satzes kann man das Resultat als Maximierung über eine Summe von Log Likelihood artikulieren. Weil der Logarithmus eine streng monoton wachsende
Funktion ist, kann man auch den Logarithmus der Likelihood-Funktion maximieren. Abbildung 4.8 deutet dies an. Angenommen, α hat eine einheitliche
30
A priors Wahrscheinlichkeit
A posterior Wahrscheinlichkeit
arg max P ( F , B, α | C ) = arg max
L (•) = LogP (•)
P (C | F , B, α ) P ( F ) P ( B ) P (α )
P (C )
Likelihood Schätzung
= arg max L(C | F , B, α ) + L( F ) + L( B ) + L(α )
Log Likelihood
Log Likelihood
Angenommen ist L(α) eine einheitliche Verteilung. Æ L(α) konstant
= arg max L (C | F , B, α ) + L ( F ) + L ( B )
1
2
3
Abbildung 4.8: MAP Schätzung
Verteilung, dann ist L(α) konstant. Man braucht nur noch drei Teile zu schätzen.
• L(C|F,B,α): Es wird die Differenz zwischen der beobachteten Farbe und
der durch Schätzung von F, B, α vorhersagten Farbe gemessen. In Abbildung 4.6 rechts wird gezeigt, dass C eine Standardabweichung σc mit
dem Gauß-Wahrscheinlichkeitsverteilungszentrum C hat.
• L(F): Hier wird der räumliche Zusammenhang genutzt. Man bildet die
Wahrscheinlichkeitsverteilung der Farbe unter Nutzung der bekannten
und zuvor abgeschätzten Vordergrundfarbe mit der Nachbarschaft N jedes Pixels zu jedem Cluster wird der gewichtete Mittelwert F und seine
gewichtete Kovarianz3 ∑ F berechnet.
• L(B): Analog zu L( F ).
Der α-Wert wird schließlich durch Projektion auf das Liniensegment FB im
RGB Raum ausgewertet. Der Projektionsschritt nähert sich Ruzon-Tomasi und
Hillman.
3 Kovarianz
ist in der Statistik das Maß des Zusammenhangs bzw. der Unabhängigkeit zweier
Zufallsgrößen X und Y. Die Kovarianz ist positiv, wenn X und Y tendenziell einen gleichsinnigen linearen Zusammenhang aufweisen; Die Kovarianz ist negativ, wenn X und Y einen
gegensinnigen linearen Zusammenhang besitzen; Die Kovarianz ist 0, so besteht kein Zusammenhang oder ein nicht linearer Zusammenhang [OB91, Seite 85].
31
Abbildung 4.9: Grenzbedingungen des Poisson-Mattings. ( a) Global-PoissonMatting: Trimap {Ω F , Ω B , Ω} wurde vom Nutzer spezifiziert.
δΩ ist der Außenrand von der unbekannten Region Ω. (b)
Local-Poisson-Matting: Nutzer wählen eine lokale Region Ω L
aus. δΩ ist Außenrand von der lokalen unbekannten Region
Ω ∩ Ω L (Bildquelle: [SJTS04]).
Poisson
Anders als Bayesian-Matting rekonstruiert das Poisson-Mtting-Verfahren die
Matte von einem kontinuierlichen Matte-Gradient-Feld durch Lösen der PoissonGleichung in einem Benutzer definierten Trimap. SUN et al. [SJTS04] spricht
von einem „semi-automatic“ Verfahren.
Das Verfahren besteht aus zwei Schritten, globales Possion-Matting und lokales
Poisson-Matting. Abbildung 4.9 führt die beiden Situationen vor Augen.
Zuerst wird eine partielle Ableitung auf beider Seite der Formel 2.1 durchgeführt.
∇C = ( F − B)∇α + α∇ F + (1 − α)∇ B
(4.5)
• Global-Poisson: Angenommen, es sind ∇ F und ∇ B ≈ 0, d.h. die Änderung der Intensität in Vorder- und Hintergrund ist so gering, dass man
sie ignorieren kann. Dann kann die Gleichung 4.5 so vereinfacht werden.
32
∇α = div
∇C
F−B
(4.6)
Die Grenzbedingung eines beliebigen Pixels nach Dirichlet lautet:
(
b
α p |αΩ =
1 p ∈ ΩF
0 p ∈ ΩB
(4.7)
Dann kann man durch Gauß-Seidel oder Overrelaxation die Gleichung
4.7 lösen. Für ein Farbbild, berechnet man jeweils 3 Kanäle im Graustufen Kanal. Die Pixel, deren Wert größer als 0.95 ist, lassen sich in den
Vordergrund einordnen. Die Pixel, deren Wert kleiner als 0.05 ist, werden
dem Hintergrund zugeordnet. Diesen Schritt wiederholt man, bis alle zu
berechnenden Pixel kategorisiert sind.
• Lokal-Poisson: Angenommen, die Änderung mancher Vorder- und Hintergrundregionen ist groß, d.h. ∇ F (∇ B) 6= 0. Die Gleichung 4.5 kann
dann so formuliert werden:
∇α = A(∇C − D )
(wobei A =
1
, D = [α∇ F + (1 − α)∇ B])
F−B
(4.8)
A beeinflusst die Matte-Gradient-Skala. D ist das Matte-Gradient-Feld4 .
Die lokale Dirichlet Grenzbedingung eines beliebigen Pixels ist definiert
als:
b
α p |αΩ


 1
=
0


αg
p ∈ ΩF
Ω F ist Vordergrund
p ∈ ΩB
Ω B ist Hintergrund
p∈Ω
Ω ist Unbekannte Region)
4 Angenommen,
(4.9)
D strebt beim global Poisson Matting gegen Null, so wird A automatisch von
dem Bild berechnet.
33
α g ist aktuelle Matte in der unbekannten Region innerhalb der lokalen
Grenzregion.
Schließlich kann man die Pixel der unbekannten Region in den Vorder- und
Hintergrund entsprechend dem α-Wert einordnen. Das lokale Poisson Matting
verfügt noch über einige Filtertools5 , um eine hochwertige Matte zu erzeugen.
4.1.2 Segmentierungsbasierte Verfahren
„Unter „Segmentierung“ eines Bildes versteht man allgemein die Zusammenfassung von den Pixel aufgrund von gewissen Kriterien zu inhaltlich zusammenhängend Regionen“ [Rod07].
Die Topologie der Segmentierung ist unbeschränkt, und beide Segmente „Objekt“ und „Hintergrund“ können aus mehreren isolierten Teilen bestehen. Somit kann so eine Technik auch für Digital Compositing verwendet werden.
Man schneidet ein Objekt aus dem Hintergrund aus und fügt einen beliebigen
Hintergrund an. Es existiert viele Segmentierungstools, die unterschiedliche
Nutzervorgabe fordern. Es folgen einige Beispiele solcher Tools.
GraphCut
Boykov und Jolly [YYB01] hatten im Jahre 2000 eine neue Methode der Segmentierung aufgestellt. Dieses Verfahren basiert auf der Graustufenfarbinformation und den Kontrastwerten. Jeder Pixel wird als ein einzelner Knoten angesehen und die Kanten zwischen den Knoten werden nach den Kontrastwerten gewichtet(Px,y ). Die Knoten werden in 2 Kategorien untergeteilt, Objekt S
und Hintergrund T. MinCut und MaxFlow Algorithmus liefern einen optimalen Schnitt, der Objekt und Hintergrund in zwei Segmente zerteilt. Abbildung
4.10 zeigt uns ein einfaches 2D Segmentationsbeispiel für ein 3 × 3 Bild.
Unpraktisch bei dem Verfahren ist die Notwendigkeit der Nutzervorgabe sowohl in sicheren Vordergrund als auch in sicheren Hintergrund.
5 Der
Verstärkpinsel, der Klone-Pinsel, Hochpassfilter und Diffusionsfilter
34
Objekt terminal
S
cut
Ps,2
Ps,1
Ps,5
Ps,4
P1
P2
n1,2
n1,4
P3
n2,3
N2,3
P4
n3,6
P5
n4,5
n4,7
n5,6
P6
n6,9
n5,8
P7
P8
n7,8
PT,8
n8,9
PT,3
PT,6
PT,9
PT,7
Background terminal
P9
T
GraphCut
Abbildung 4.10: Segmentierung für ein 3 × 3 Bild.
GrabCut
Drei Jahre später wurde eine bessere Methode für die Segmentation von ROTHER et al. [RKB04] erfunden. Die GrabCut Vorgehensweise nutzt anstatt Graustufenwert die Farbinformation. Dazu wird nicht mehr wie bei GraphCut das
Grauwert Histogramm verwendet, sondern ein Gaussian-Mixture-Model. Die
Segmentationsanpassung geschieht mittels Erwartung- Maximierung. Ein iterativer Ansatz wird hier eingesetzt, damit eine stetige Verbesserung der Segmentation ermöglicht wird.
Die Forderung an die Nutzervorgabe bleibt nur noch beim Hintergrund, indem
man interessante Objekte mit einem Rechteck umschließt.
Man sieht in Abbildung 4.11, dass durch Ziehen eines Markierungslassos oder
Markierungsrechteckes eine Trimap entstanden ist. Wobei der Hintergrund mit
NULLEN und der Vordergrund mit EINSEN gefüllt werden. Dazwischen ist
die gemischt Fläche, die den halbe Wert des Vordergrundes hat.
Man kann auch mit Vordergrundpinsel und Hintergrundpinsel durch Ziehen
einer Linie auf das Objekt oder auf den Hintergrund die falschen Segmentationsteile zurückgewinnen, damit ein Bild vollkomment segementiert wird.
35
4 Keying
unbekanntem
Kapitel 2 Keyingverfahren
Trimap: mit
GrabCut
(a)
(b)
Hintergrund
(c)
(d)
Abbildung 4.11: GrabCut. ( a) Material. (b) Segmentierung. (c) Markierungslasso. (d) Markierungsrechteck.
Wenn die Farbe nicht „reichlich“ ist, dann bekommt man ein ungenaues Ergebnis.
Referenz: C. Rother et al. ’04, Grabcut- interactive foreground extraction using iterated graph cuts
MorphCut
Ob eine gute Segmentation gelungen ist, hängt hauptsächlich von einem komplizierten Hintergrund ab. Für ein Bild mit Schiff auf dem Wasser ist es schwer,
die Merkmale zu extrahieren, weil der Hintrgrund kontrastreich und texturiert
ist.
Um den hohen Kontrast und die geringe Farbinformation auch für den GrabCut nutzbar zu machen, haben RUSCH, RUWWE und ZÖLZER eine zusätzliche morphologische Operation zwischen zwei aufeinander folgenden Iterationsschritten eingefügt. Diese Dilation-Operation verbreitert nach jedem Schritt
die berechnete Schnittlinie zwischen Vorder- und Hintergrund, vergrößert also das Objekt selbst, und führt zu einem besseren und stabileren Endergebnis
[O.R05].
4.1.3 Defocus Matting
Das ideale Matting Verfahren soll für eine Szene mit einem beliebigen unbekannten und möglicherweise bewegten Hintergrund geeignet sein. Die bisher
erläuterten Verfahren haben unterschiedliche Beschränkungen. Um diesen ent-
36
gegenzuwirken, haben MCGUIRE et al. ein neues Verfahren entwickelt, das mit
speziellen Kameras die Bilder hinsichtlich ihrer Schärfe untersucht.
Als Kriterium für die Beurteilung der Schärfe dient bei dieser Vorgehensweise die Beziehung zwischen hochfrequenten und niederfrequenten Anteilen im
Bild, da die Defokussierung einen Tiefpasscharakter besitzt. Das ist „Depth
from Defocus“ [MW98].
Defocus Video Matting
MCGUIRE et al. machen von „Depth from Defocus“ voll Gebrauch [MM05]. Bei
ihrem Verfahren wurde der Multiparameter Video Kamera eingerichtet. Durch
einen Strahlsplitt besitzen drei Kameras ein gemeinsames Optikzentrum. Eine
der drei Kameras ist eine Pinhole-Kamera, die andere zwei Kameras fokussieren jeweils auf den Vordergrund und auf den Hintergrund.
Der Defokus im Vorder- und Hintergrund tritt auf, weil der Lichtstrahlenkegel von einem Punkt die Bildebene auf eine Kreisscheibe durchschneidet.
Das Resultat kann durch eine „Point Spread Function“(PSF) oder „Kreis von
Verschmelzung“ beschrieben werden, d.h. PSF beschreibt die Unschärfeeigenschaften eines realen Systems.
Abbildung 4.12 zeigt das Szenario.
r ist Radius des Pixels
IP ist Pinhole Kamerabild
IF ist auf Vordergrund fokussiertes Bild
IB ist auf Hintergrund fokussiertes Bild
Kamera fokussiert auf Tiefe ZF
Der Punkt ist auf ZR
f ist Fokuslänge
φ ist f-nummer
37
IF
IB
Linse
αF
Optische Achse
ZFf
ZF - f
(F in Fokus)
B
r
ZBf
ZB - f
Z=0
(B in Fokus)
ZF
ZR
ZB
Abbildung 4.12: Szenario von „Depth from Defocus“
σ ist Breite des Pixels
f
r=
2σφ
ZR ( Z F − f )
Z F ( ZR − f ) − 1
(4.10)
Die PSF variiert für jeden Pixel auf dem Hintergrund: Es ist Null für einen
verdeckten Pixel, eine Kreisscheibe für einen unverdeckten Pixel und ein kleiner Ausschnitt aus dem α-Bild für teilweise einen verdeckten Pixel. Allerdings
wird es einfach in zwei von drei wichtige Fälle ausgedrückt:
1. Pinhole: IP = αF + (1 − α) B
2. Fokussiert auf Hintergrund: IB = (αF ) ⊗ disk(r F ) + (1 − α ⊗ (disk(r F )) B
3. Fokussiert auf Vordergrund: IF = (αF ) + (1 − α)( B ⊗ disk (r B ))
Eine Trimap aus der Defokus-Formel wird automatisch erzeugt, indem man
die Pixel mit hoher Frequenz Nachbarschaft auf der Grundlage der Z Werte in
drei Region klassifiziert.
38
Aus der Gleichung 3 bekommt man keine direkte Lösung. Stattdessen kann
man eine globale Lösung finden, indem man die Fehler Funktion zwischen
betrachtetem Bild und rekonstruiertem Bild minimiert. Weil die Gleichung 3
lineare Operationen hat, kann man deren Ableitung ausrechnen. Somit ist der
Gradient der Fehlerfunktion einfach zu berechnen.
Die Optimierung wird durch Regularisation mit der Maximum-LikelihoodMethode realisiert.
Die Qualität des Mattings ist zufrieden stellend und die Berechnungsgeschwindigkeit beträgt „One minute per frame“. Im Vergleich zu JOSHI et al. [JMA+ 07]
Verfahren erscheint dies noch zu langsam.
Bei erweitertem Defocus Matting von Joshi et al. wird das um einige Punkte
verbessert. Das Kameraarray A-Cam besteht aus drei Kameras, die ein einzelnes Projektionszentrum besitzen und ein baumartigen Strahlsplitt gemeinsam
benutzen. Das Lichtverteilungssystem wurde auch so verbessert, dass jeder
Sensor die gleiche Lichtmenge empfinden kann. Unterschied mit dem Vorgänger ist die Nutzung eines „nonparametric model“. Eine Trainingsphase ist am
Anfang der Berechnung eingesetzt, sodass die Geschwindigkeit um ein Fach
beschleunigt wird.
Depth-of-Feld-based alpha-matte extraction
Bei dem Defocus Matting Gebiet ist noch ein Ansatz zu betrachten. REINHARD und KHAN [RK05] nutzen eine einzelne Kamera mit unterschiedlichem Fokus für ein unbewegtes Bild. Um eine Matte zu extrahieren, braucht
man zwei Bilder, die mit unbewegter Kamera hintereinander fotografiert sind.
Ein Bild fokussiert auf den Vordergrund, das andere auf den Hintergrund.
Dann wird automatisch eine Alpha-Matte, das die Zugehörigkeit der Pixel
zeigt, durch pixelweisen Vergleich der beiden Bilder erzeugt. Dieser Algorithmus ist inspiriert durch den menschlichen Sehprozess.
Der Algorithmus führt vier Schritte aus:
1. Non linear response compression: Komprimieren den Luminanzbereich
39
um L herum. Luminanz wird aus den RGB Signalen durch die Gleichung
3.1 berechnet. Zwei Bilder können bei Luminanz-Bilder unterschiedlich
sein. Deshalb wird bevor sie pixelweise verglichen werden, deren LuminanzWert durch Durchschnittsbildung korrigiert. Bei sehr dunklen Regionen
ist der Luminanz-wert negativ. Um dies zu vermeiden, wird jedes Bild
durch seine logarithmische durchschnittliche Luminanz skaliert:
L = exp
1
N
∑ log(δ + L(x, y)
!
(4.11)
x,y
L0 ( x, y) =
L( x, y)
L( x, y) + L
(4.12)
L ist der Mittelwert von Luminanz
L0 ist der korrigierte Luminanz-Wert
N ist die Pixelanzahl in dem Bild
σ ist kleine Konstant(hier 10−8 ), um Nullwert für Logarithmus zu vermeiden
2. Center-surround analysis: Die Differenz zwischen zwei Gauß-unscharfen
Bildidern erzeugt eine lokale Schätzung der Variabilität für jeden Pixel in
ihrem Kontrast. Eine Gaußsche Reaktion R wird durch Faltung des Bildes
L0 mit einem Gaußschen Kern Fσ erstellt.
Fσ ( x, y) =
x 2 + y2
1
exp
−
πσ2
σ2
Rσ ( x, y) = L0 ( x, y) ⊗ Fσ ( x, y)
(4.13)
(4.14)
σ ist der Umfang der Unschärfe
So kann man die Differenz zwischen zwei unscharfen Bildern mit unterschiedlichen Kerngrößen berechnen, indem man die größere von der
kleineren abzieht. Folge ist die lokale Variabilität:
40
Vσ1σ2 =
Rσ1 ( x, y) − Rσ2 ( x, y)
,
Rσ2 ( x, y)
σ2 = σ1 + 1,
normiert
(4.15)
Das menschliche Sehsystem berechnet eine Summe von solchen Skalierungen, d.h. dieses Verfahren wird wiederholt bei immer größerem σ.
Der Absolutwert jeder Skalierung wird genommen:
n
V=
∑ Vσ σ + (x, y)
i i 1
(4.16)
i =1
Die Variabilität im Vordergrundbild V f g ist hoher als die Variabilität V bg
im Hintergrund. Ein Vergleich erlaubt eine Verfeinerung der Gleichung
4.17:
V0 =
n
∑
fg
bg
|Vσi σi+1 ( x, y)| − |Vσi σi+1 ( x, y)|
fg
bg
i =1 |Vσi σi+1 ( x, y )| + |Vσi σi+1 ( x, y )| + e
, e = 10−2 vermeiden Division durch 0
(4.17)
Klassifizierungsbedingungen:
• V 0 > 0(positiv), dann gehört Pixel zum Vordergrundobjekt
• V 0 < 0(negativ), dann gehört Pixel zum Hintergrund
• V 0 ≈ 0(niedrige Kontrast), die Zugehörigkeit des Pixels ist unentscheidbar
3. Filling-in:Die originale Szene wird mit Hilfe des Kantensignals rekonstruiert:
• Schwarz ⇒ negative Wert (V 0 < 0) ⇒ Hintergrund
• Weiß ⇒ positive Wert (V 0 > 0) ⇒ Vordergrund
• Grau ⇒ nähert sich an 0 (V 0 ≈ 0) ⇒ unbestimmte Region
Niedrige räumliche Frequenzen sind im Kantensignal vermindert, aber
es ist nicht völlig abwesend, weshalb ein Diffusion Algorithmus einge-
41
setzt wurde. Jeder Pixel nimmt Bezug auf die Summe von seinen 4 Nachbarpixeln.
4. Clean-up: Mit Schwellenwert wird eine binäre Matte erzeugt.
Dieses Verfahren ist durchaus einfacher, aber hat auch einige Beschränkungen:
Es muss immer gewährleistet werden, dass die Kamera nur auf das Objekt
fokussiert, wenn ein Teil von Hintergrund mitfokussiert, dann wird dieser Teil
auch zum Objekt gezählt. Das macht die Ungenauigkeit der Extraktion. Lösung
ist, dass Objekt nah vor die Kamera zu stellen.
4.1.4 Flash Matting
SUN et al. [SZTS06] haben eine neue Methode zur Matte-Extraktion unter Nutzung des Bildpaares vorgeschlagen. Das Bildpaar wird mit einer Kamera in
gleicher Position aufgenommen, wobei bei einem Bild das Vordergrundobjekt
geblitzt wird und beim anderen Bild nicht. Der Hintergrund ist vom Vordergrund weiter entfernt, weshalb der Hintergrund kein Licht aus dem Kamerablitz empfangen kann. Angenommen, die Hintergründe sind von dem geblitzten Bild und von dem ungeblitzten Bild ungefähr gleich sind. d.h. B ≈ B f . Aus
der Gleichung 2.1 folgt die Gleichung für das ungeblitztes Bild I:
I = αF + (1 − α) B
(4.18)
I f = αF f + (1 − α) B
(4.19)
und das geblitztes Bild I f :
Man bekommt die Vordergrund-Flash-Matting Gleichung, indem man die Gleichung 4.19 von 4.18 subtrahiert.
I 0 = I f − I = αF f − F = αF 0
42
(4.20)
(a)
(b)
(c)
(d)
Abbildung 4.13: Vordergrund Flash Matting. ( a) Flash Bild. (b) No-Flash Bild.
(c) Flash-only Bild. (d) Matte
I 0 ist hier das Flash-only Bild. Abbildung 4.13 zeigt uns das Vordergrund-FlashMatting an.
Es wird eine Trimap generiert und das Bayessche Matting verwendet.
arg maxα,F,B,F0 L(α, F, B, F 0 | I, I 0 ) =
arg maxα,F,B,F0 L( I |α, F, B) + L( I 0 |α, F 0 ) + L( F ) + L( B + L( F 0 ) + L(α) (4.21)
Obere Gleichung kann auch so reduziert werden.
arg maxα,F0 L(α, F 0 | I 0 ) = arg maxα,F0 L( I 0 |α, F 0 ) + L( F 0 ) + L(α)
(4.22)
Es ist kalr, dass L(α) konstant ist.
L( I |α, F, B) =
− k I − αF − (1 − α) Bk
σI2
(4.23)
− k I 0 − αF 0 k
σI20
(4.24)
L( I 0 |α, F 0 ) =
−1
L( F ) = −( F − F )T ∑( F − F )
F
43
(4.25)
n
o
1
Wobei F, ∑−
Mittelwert und Kovarianz Matrix von der geschätzten GaußF
o
n
1
definiert.
Verteilung sind. L( B) ist auf ähnliche Weise mit B, ∑−
B
−1
L( F 0 ) = −( F 0 − F 0 )T ∑( F − F 0 )
(4.26)
F0
Von der Gleichung 4.21 wird die partielle Ableitung gebildet. Daraus folgt der
α-Wert:
α=
σI20 ( F − B)T ( I − B) + σI2 F 0T I 0
σI20 ( F − B)T ( F − B) + σI2 F 0T F 0
(4.27)
und die Darstellung der 3 × 3 Matrix:

1
Iα
∑−
F + σ2




Iα(1−α)
σI2
2
I
Iα(1−α)
σI2
2
−1
∑ B + Iα
σI2
0
0


 
−1
Iα
F
+
∑
2
F
σI 
 F

    −1 B + I (1− α ) 
0
∑
 B =  B
σI2 



0
0
−
1
−1
Iα2
0
F
∑ F0 F + σI 2α
∑ F 0 + σ2

0
I0
(4.28)
I0
Analog zum Vordergrund-Flash-Matting kann der Algorithmus auch für HintergrundFlash-Matting eingesetzt werden.
4.2 Real-time Verfahren
Mit Hilfe spezieller Hardware können die Keying- und Matting-Verfahren auch
in Echtzeit ausführt werden.
4.2.1 Hardwarekeyer für den Studioeinsatz
Im digitalen Fernsehstudio benutzt man spezielle Keyinghardware6 , um Keying in Echtzeit zu realisieren. Solche Hardwarekeyer finden in Live-Sendung
6 Ultimatte
oder Primatte
44
Abbildung 4.14: 5-Augen Kamerakopf von CMU Video-Rate Stereo Maschine
Einsatz und können mit dem virtuellen Studio kombiniert werden. Beispielsweise wird ein Moderator vor einem blauen Vorhang im Studio aufgenommen
und gleichzeitig in eine Videosequenz, die ein exotisches Dorf in Südamerika
zeigt, welche als Hintergrund dient, integriert. Der Zuschauer glaubt, dass der
Moderator vor Ort ist.
Momentan kann diese spezielle, kommerzielle Studiotechnik vor allem bei BlueScreen oder Green-Screen ihre Verwendung finden. Viele Wissenschaftler bemühen sich, ein Echtzeit-Verfahren für natürliche Umgebungen zu entwickeln.
Eine dieser Versuche ist Matting an Hand der Tiefeninformationen.
4.2.2 Matting von Tiefeninformationen
Z-Keying
Voraussetzung für diese Methode ist das Vorhandensein eines Z-Kanals. Bei
Bildmischergestütztem Keying ist dies das Key-Signal. Hierbei wird von einem exakten Tiefenwert ausgegangen, um die Stanzmaske zu erstellen. Alle
Pixelwerte über einen festgelegten Schwellwert nehmen weiß, alle darunter
schwarz und somit den für den Alpha-Kanal regulären, transparenten Farbwert an.
KNADE et al. [Kan95] demonstrierten ihre Z-Keying mit einer „CMU7 VideoRate Stereo Maschine“. Abbildung 4.14 illustriert den Kamerakopf mit fünf Kameras.
7 Carnegie
Mellon University
45
Diese Methode benötigt vier Inputbilder: ein reales Bild IR( x, y), eine Tiefenmap IRd( x, y) aus IR( x, y), ein synthetisches Bild IS( x, y), und eine Tiefenmap
ISd( x, y) aus IS( x, y). x,y sind hier Pixelkoordinaten in 2D. Für jeden Pixel vergleicht der Z-Keyer die beiden Tiefenmaps -welches sich näher an der Kamera
befindet wird zum Vordergrundobjekt gezählt. Das Outputbild IO( x, y) ist wie
folgt beschrieben:
(
IO( x, y) =
IR( x, y) wenn IRd( x, y) ≤ ISd( x, y)
IS( x, y)
wenn IRd( x, y) > ISd( x, y)
(4.29)
Depth-Keying
GVILI et al. entwickelten und bauten eine neuartige Videokamera: ZCAM, die
sowohl RGB als auch D-Signale produzieren kann. D steht hierbei für die relative Distanz der Kamera zu den Pixel.
3DVs innovative ZCAM8 ist in Abbildung 4.15 zu sehen. Neben einem RGBSensor ist zusätzlich ein Tiefensensor eingebaut.
Das Konzept solcher Tiefenkameras basiert auf einer Lichtlaufzeitmessung. Ein
Laserlichtimpuls im Infrarotbereich wird von einer Lichtquelle ausgesandt. Sobald er auf ein Objekt trifft, wird er reflektiert und von einem Lichtsensor verarbeitet. Kürzere Lichtlaufzeiten bedeuten, dass sich das Objekt näher an der
Kamera befindet, längere, das es sich um ein weiter entferntes Objekt handelt.
Daraus wird eine Tiefenmap rekonstruiert. Nachdem der Schwellenwert festgelegt wurde, kann man das Vordergrundobjekt vom Hintergrund separieren.
Man bekommt eine binäre Matte. Zusätzlich wird der Randbereich des Objekts
noch verfeinert, indem man jeden Pixel zu seinen vier Nachbarn in Bezug setzt.
Man berechnet für jeden Pixel im Randbereich einen neuen Alphawert, welcher
der gewichteten Summe der Alphawert der benachbarten Pixel entspricht.
8 Firma
3DV
46
Abbildung 4.15: ZCAM: Depth is key
3D-Keying
Das Frauenhofer Institut [MR07] hat eine 3D-CAM für ein neuartiges KeyingVerfahren im Bereich der Tiefeninformation entwickelt.
Mit diesem 3D-CAM-System kann man ein Tiefenbild einer realen Szene produzieren, indem die Reflektion eines Infrarotlichts(IR) gemessen wird. Jeder
Pixel in den Tiefenbildern korrespondiert dabei mit jedem Farbpixel. Die Aufnahme erfolgt in Echtzeit.
Das 3D-CAM-System setzt sich aus zwei Hardwarekomponenten zusammen:
1. Eine spezielle Sensorik ist für die Tiefenkamera zuständig.
2. Die Extraktion- und Kompositions-Algorithmen sind von einer selbst entwickelten Hardware unterstützt und in Echtzeit ausgeführt.
47
4.2.3 Polarization-Matting
Beim üblichen Live-Studio-Keying verwendet man Chroma-Key. Aber dieser
Key hat viele Beschränkungen auf die Vorder- und Hintergrundfarbe. Um diese Nachteile zu vermeiden, kam BEN-EZRA [BE00] auf die Idee das unsichtbare Signale Polarisationslicht zu nutzen.
Das Studiosetup kann auf zwei Arten realisiert werden. Von hinten beleuchtet: Das Licht leuchtet von Hinten durch zwei Schichten, die jeweils Diffusor
und linearer Polarisator sind. Das Vordergrundobjekt wird durch das nicht polarisierte Umgebungslicht beleuchtet. In diesem Fall nimmt die Kamera den
unpolarisierten Vordergrund sowie den polarisierten Hintergrund auf. Silberfilter: Die Lichtquelle wird durch zwei Schichten gefiltert, die jeweils Diffusor
und linearer Polarisator sind. Der Hintergrund ist mit einem Silberfilter ausgestattet. Wenn das Licht auf den Hintergrund fällt, wird es vom Silberfilter
wegreflektiert. Das Vordergrundobjekt wird durch Beleuchtung entpolarisiert.
MCGUIRE et al. haben sich in ihrem Realtime Studio mit Polarisationskey beschäftigt. Um eine schnellere Fokussierung zu ermöglichen, haben sie eine neue
elektronische Blende gebaut, welche auf einer normalen Kamera befestigt werden kann.
Ein horizontalen Polarfilter mit einem Pinhole, ein vertikaler Polarfilter und eine, dazwischen angebrachte Platte aus Ferroelektrischem Flüssigkristall (FELC)
wurden auf dem Objektiv montiert. Diese aktive, optische Komponente dreht
die Polarisation des einfallenden Lichts um 90◦ , wenn Spannung angelegt ist.
Der FELC ist schneller als ein LCD - er kann bis zu 10kHz schalten.
Abbildung 4.16 demonstriert die Arbeitsweise des unsichtbaren Keys.
Die Matte wird durch nicht lineare Sigmoid-Funktion
1
1+`−α( x− β)
berechnet, wo-
bei x ist die absolute Differenz, α ein Anstiegparameter und β Zentrumspunkt
ist. α und β können vom Benutzer selbst festgelegt werden.
Beschränkung: Wenn der Polarisationsfilter 45◦ von der Kamera weggerichtet
ist, kann kein Intensitätsunterschied festgestellt werden.
MCGUIRE und MATUSIK [MM06] benutzen eine passive, natürliche Beleuch-
48
Abbildung 4.16: Prinzip des Polarisationskeys: ( a) Polarisiertes Hintergrundlicht und unpolarisiertes Vordergrundlicht betritt die Kamera.
(b) Der Beamsplitter spaltet das Licht durch Polarisation, um
„In-Phase“ und „Out of Phase“ Bilder zu erzeugen. (c) „InPhase“ Bild mit einem helleren Hintergrund. (d) „Out of Phase“ Bild mit einem dunkleren Hintergrund. (e) Die absolute
Differenz zwischen (c) und (d). ( f ) Matte.
tung aus normalem Raum- oder Sonnenlicht, die unpolarisiert, inkohärent und
unstruktuiert ist. Das alternative Design der Kamera mit zwei Sensoren und einem Polarisationsstrahlsplitter ermöglicht es, ein Bild mit grauem Hintergrund
und ein weiteres, mit schwarzem Hintergrund, gleichzeitig aufzunehmen. Die
Berechnung der Matte wird mit der Triangulation-Methode von SMITH und
BLINN [SB96] durchgeführt.
I0 = αF + (1 − α) B0
I1 = αF + (1 − α) B1
(4.30)
Dann berechnet man den unbekannten Vordergrund F und das triangulierte α:
α T = ( I0 − I1 )/( B0 − B1 ) − 1
α T FT = I0 − (1 − α T ) B0
(4.31)
In Vergleich zum Blue-Screen ist diese Methode besser für reflektiertes, blaues
49
Licht, Spiegelreflektion, blaue Objekte im Vordergrund und feine Details geeignet. Aber auch seine Beschränkung ist unvermeidbar. Diese Methode verliert
den Unterschied, wenn die Kamera sich 45◦ über ihre optische Achse dreht.
4.2.4 Defocus-Difference-Matting
MCGUIRE und MATUSIK [MM05] lassen sich von der Triangulation und Defokussierung inspirieren. Durch eine spezielle Einrichtung entwickelten sie ein
Realtime-Matting-Verfahren, das so genannte „Defocus difference matting“ (DDM).
Wie das „Defocus Video Matting“ [MMP+ 05] in Offline teilen sich zwei Kameras, unterschiedlicher Fokussierung, ein gemeinsames Projektionszentrum.
Aus zwei Bildern wird mit Hilfe des Triangulation-Algorithmus das α, sowie
der Vordergrund berechnet.
4.2.5 Flash-Keying (bbc)
Im Live-Studio ist es manchmal notwendig das virtuelle Objekt, mit dem Moderator in die reale Szene zu integrieren. Klassischer Chroma-Key kann unter
diesen Umständen nicht verwendet werden, da kein farbiger Hintergrund existiert. Eine Projektgruppe von BBC Research9 entwickelte einen Flash Key mit
pulsierendem, blauem Licht auf dem Moderator.
Das Kamerabild generiert ein Keysignal auf dem beleuchteten Blau. Ein „Clean“Kamerasignal wird erzeugt, indem sie das pulsierende blaue Licht mit einem
Filter ablöst, der sorgfältig die zeitliche und farbige Eigenschaft auswählt. Der
Lichttakt beträgt 75Hz, die Belichtungszeit der Kamera liegt bei einer 150stel
Sekunde.
9 Man
kann
unter
folgendem
link
das
Projekt
http://www.bbc.co.uk/rd/projects/virtual/flash-keying/index.shtml
50
nachlesen:
Abbildung 4.17: Trimap von Soft Scissor
4.2.6 Soft Scissors
Das System „Soft Scissors“ aktualisiert die Matte in Echtzeit, während der Nutzer eine grobe Kontur entlang der Grenze des Vordergrundobjekts zeichnet
(vgl. Abbildung 4.17). Es wird angenommen, dass diese Kontur eine Trimap
definiert. In der Regel geht man davon aus, dass die Pixel am linken Rand der
Kontur (blau) im Hintergrund liegen. Die Pixel am rechten Rand der Kontur
(rot) liegen im Vordergrund. Der Bereich in der Mitte der Kontur (graue Pixel) wird als unbekannt angenommen. Sowohl die Randbedingung als auch
die Breite der Kontur kann durch Nutzervorgabe oder vom System, durch eine
Analyse der Bildstatistik, dynamisch angepasst werden.
Der Maskierungsbereich Ωt (hell- und dunkelgrün) wird mit Hilfe der „Soft
Graph-labeling“- Methode berechnet. Abbildung 4.18 zeigt die Graphenstruktur. Jeder Knoten stellt einen Pixel dar. F und B sind virtuelle Knoten, die
Vorder- und Hintergrund repräsentiert. Die weiße Knoten stellen die unbekannten Pixel im Bild dar. Die hellrote und hellblaue Knoten sind die Grenzknoten, die nicht nur von Nutzer markierten Vordergrund- und Hintergrundpixel, sondern auch unbekannten Pixel auf dem Rand Ωt , deren α-Wert bereits
in vorherigen Schritt geschätzt sind, erhalten. Dann benutzt man ein Nicht-
51
Parametrisches Modell, um Vordergrund- und Hintergrundverteilung auszuwerten. Die Datengewicht ωi,F , ωi,B der Kanten zwischen Pixel i und den virtuellen Knoten werden, basierend auf diesen Verteilungen, festgelegt. Die Pixel, die eine ähnliche Farbe wie die Vordergrund- und Hintergrundfarbe aufweisen, haben ein stärkeres ωi,F bzw. ωi,B . Die α-Werte sind dementsprechend
höher oder niedriger. ωi,j ist das Kantengewicht zwischen Pixel i und seinen
Nachbarn j. Jeder Pixel ist mit seinen 25 räumlichen Nachbarn verbunden.
Hier wird der Algorithmus „Random Walk“[GSAW05] angewendet (vgl. Abbildung 4.18(a)). Random Walk bestimmt den α-Wert, indem ein Random Walker in Pixel i platziert wird und zu seinem Nachbarknoten j mit der Wahrscheinlichkeit
ωi,j
∑ j ωi,j
wandert. Der Walker bewegt sich von j zu einem anderen
Nachbarn k auf die gleiche Weise, bis er einen der Grenzknoten erreicht. Die
Wahrscheinlichkeit, dass der Walker im virtuellen knoten des Vordergrundes
endet, bestimmt den α-Wert des Pixels i.
Die Vordergrundfarbe wird bestimmt, indem man der Kante zwischen i und
0
0
seinem Nachbarn j ein Farbgewicht ωi,j zuweist, wobei ωi,j = |αi − α j | + e, e
ist ein kleiner Wert, der sicherstellt, dass das Gewicht größer 0 wird. Dieses
Kantengewicht kodiert die expliziten Glättungs-Prioren auf F, die dort stärker sind, wo αi und α j eine größere Entfernung zueinander haben. Für die rot
umrandeten Vordergrundpixel (vgl. Abbildung 4.18 (b)) gilt ihre richtige Farbe als Grenzkriterium, während für die blau umrandeten Hintergrundpixel als
Grenzkriterium gilt.
Die Aktualisierungsregion wird wie folgt behandelt: Alle Pixel, die durch den
Benutzer in der aktuellen Iteration neu markiert werden, werden als Grenzpixel mit einem zugeordneten Label von 1 (dunkelgrüne Knoten in Abbildung
4.18 (c)) behandelt. Dieses Label entspricht nicht dem α-Wert der Pixel, sondern stellt die Auswirkungen der neuen Input-Region auf den Pixel dar. Alle
anderen Pixel, die weiß gekennzeichnet sind (vgl. Abbildung 4.18 (c)), wurde
in den vorangegangenen Iterationen wie unbekannte Pixel behandelt.
Mit dem „Random Walk“ soll festgelegt werden, wie weit sich die potenziellen Änderungen der α-Werte durch die neu markierten Pixel in Richtung der
Bildgrenze fortpflanzen werden. Wenn das Gewicht zwischen den benachbar-
52
j
ΩB
ΩF
W‘i,j
i
Wi,F
Wi,B
(b)
j
Wi,j
i
i
Wi,j
(a)
j
(c)
Abbildung 4.18: Random Walk
ten Pixel hoch (Distanz ist größer) ist, dann wird ein glättere Region in einem
größeren Ωt resultieren und umgekehrt.
53
5 Auswertung der
Chrominanz-Methode
5.1 Einleitung
In Live-Studio ist die Separation des Vordergrundobjektes an Hand der Farbinformation ein allgemeines Problem (vgl. Abschnitt 3.1). Zu den Chrominanzbasierten Keyingverfahren zählen Blue Screen und Green Screen, der meistens
von Studio verwendet sind. Aber um ein vernünftiges Keying zu ermöglichen,
muss das herkömmliche Studio mit sehr speziellen Produktionsbedingungen
eingerichtet werden.
Zuerst muss eine blaue (oder grüne) Leinwand als Hintergrund zur Verfügung stehen. Die Leinwand muss möglichst regelmäßig sein. Jede Ungleichmäßigkeit, die hellere oder dunklere Stellen auf dem Hintergrund verursacht,
wird von dem Keyer als Farbvariation registriert. Die Bandbreite an Blautönen
(Grüntönen), welche der Keyer herausfiltern muss, klettert auffällig hoch. Die
Hintergrund- und Vordergrundfarben werden in RGB Farbraum schwer auseinander zerlegt. Dies hat zur Folge, dass Vorder- und Hintergrundfarben im
RGB-Farbraum schwer zu trennen sind, was zu einer verminderten KeyingQualität führt.
Um eine uniforme Ausleuchtung zu erzielen, muss die Studiobeleuchtung sorgfältig eingestellt werden. Um Hotspot zu vermeiden, werden, wenn möglich,
diffuse Lichtquellen eingesetzt. Unter Hotspot versteht man den Heißpunkt,
der ein von einer Lichtquelle auf eine Leinwand geworfener Lichtfleck ist.
54
Der Darsteller sollte möglichst gewisse Distanz zum blauen Hintergrund haben, damit kein Schatten darauf geworfen werden kann.
Die Forscher der Juniorprofessur Augmented Reality an der Fakultät Medien
der Bauhaus-Universität Weimar haben versucht, durch Einsetzen anderer Studiotechnik diese Einschränkungen zu vermeiden. Das in dem AR (Augmented Reality) Labor entwickelte Projektor-Kamera-System ermöglicht es, visuelle Informationen auf nahezu beliebigen Oberfläche darzustellen [GB08]. Anstatt einer Korrektur der Hintergrundbeleuchtung [Ley07] macht das System
Gebrauch von einer radiometrischen Kompensation, um Chromakeying in beliebigen Umgebungen zu ermöglichen.
Das Schwergewicht dieser Arbeit wurde auf das Testen und auf die Evaluation dieses neuen Einsatzgebietes des Projektor-Kamera-Systems gelegt. Eine
methodische Auswertung wird hierfür verwendet.
5.2 Aufbau
Diese Auswertung besteht aus 3 Hauptphasen:
1. die Realtime-Phase für die Aufnahme von Eingangsmaterialien in Augmented Studio;
2. die Offline-Phase für die Verarbeitung der Testvideos mit professionellen
Software und Keying-Plug-Ins;
3. die Evaluationsphase.
5.2.1 Die Aufnahme der Eingangsmaterialien
Hardware
Die Aufnahme der Testmaterialien erfolgt in ARLabor der Fakultät Medien.
Das Projektor-Kamera-System ist mit folgenden Komponenten ausgestattet:
2 Projektoren: Sony VPL-CX80
55
• Auflösung: XGA
• Auflösung mit Kompression : 1024 × 768
• Heilligkeit(ANSI Lumen): 3000
• Kontrast: 350:1
• Technik: LCD
Videokamera: Sony HDR-HC7E
• System: Digital
• Format: MiniDV
• Optischer Zoom: 10-fach
• Bildauflösung: 720 × 576
• Brennweite: 5.4-54 mm
• Videoaufnahmen: in DV Qualität
• Firewire Anschluss: Ja
Rechner: Standard PC
• Prozessor: Core2Duo 6300, 1.8GHz
• Arbeitsspeicher: 2.00GB
• Graphikkarte: NVidia Quadro FX 1500
• Festplattenkapazität: 120 GB /7200 Umdrehungen
Beleuchtung auf Hintergrund: LED-Beleuchtungssystem
• Lichtleistung: 4800 Lumen
Beleuchtung auf Vordergrund: Übliche Tischlampe
Wie Abbildung 5.1 illustriert, sind die zwei Projektoren durch einem Beamsplitter mit dem Rechner verbunden, während die Videokamera per Firewire an
den Rechner angeschlossen ist. Der Rechner steuert die gesamte Kamerakalibrierung und die radiometrische Kompensation. Ein LED-Beleuchtungssystem,
56
Studio Konfiguration von Chroma Key
Beleuchtung auf Vordergrund
(Kein Licht soll auf den HG fallen)
Beleuchtung auf Hintergrund
(Die Stärke kann variiert werden)
Projizieren auf Hintergrundbilder
mit Blaufarbton
2 Projektoren
Steinmauer
Vediokamera
Tapete
B
F
Szene Objekt
Vordergrund
Vorhang
Normal
Blau
Original
Mit RK*
Unterschiedliche Hintergründe
Detail
Beam Splitter
Transparent
Rechner
Steuerung des Kamerakalibrierungsprozesses
und der radiometrischen Kompensation.
Reflektion
*Radiometrische Kompensation
Abbildung 5.1: Projektor-Kamera-System für Blue Screen
welches ebenfalls im ARLAbor eingebaut ist, sorgt für die Variierung der Hintergrundhelligkeit zum Testzweck. Eine kleine Tischlampe wird für die Beleuchtung des Vordergrundobjektes verwendet, damit dieses Licht nur auf das
Objekt und nicht auf den Hintergrund fallen kann. Eine blaue Leinwand ist
hier überflüssig. Die Projektoren projizieren einen uniformen Blaufarbton auf
den beliebigen Hintergrund, zum Testzweck wird es 3 Oberflächematerialien
ausgewählt: eine Steinmauer, einen Vorhang und eine Tapete.
Software
Zur Aufnahme wurden zwei verschiedene Programme verwendet. Ein Programm, das im ARLabor entwickelt ist, kontrolliert die geometrische und radiometrische Projektor-Kamera-Kalibrierung [OBG07].
Das System führt folgende Schritte aus, damit ein möglich gleichmäßiger BlueScreen erzeugt werden kann.
Die Videokamera fungiert in diesem System als Referenzperspektive. Daraus
kann man die Projektionsoberfläche beobachten, die scheinbar gleichmäßig ist.
57
Kapitel 4 Chroma Key Unterschiedlicher Hintergrund
(a)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(i)
Abbildung 5.2: Hintergründe im Vergleich. ( a) Steinmauer (original) (b) Steinmauer (mit RK) (c) Steinamer (ohne RK) (d) Vorhang (original)
(e) Vorhang (mit RK) ( f ) Vorhang (ohne RK) ( g) Tapete (original) (h) Tapete(mit RK) (i ) Tapete (ohne RK)
Um diesen simulierten Effekt zu erzeugen, muss eine Abbildung zwischen
Projektor- und Kamerapixel generiert werden.
Durch die radiometrische Kompensation kann jeder Projektorpixel die Änderung der Farbe, die durch das Materialeigenschaften der Oberfläche generiert
werden, kompensieren. Deshalb kann man aus der Kameraperspektive eine
gleichmäßige Blauwand sehen, falls der Projektor einen blauen Farbton auf die
vorher neutralisierte Oberfläche projiziert. Abbildung 5.2 demonstriert den visuellen Eindruck der kompensierten Hintergründe mit unterschiedlichen Materialien. Es kann gesehen werden, die blaue Hintergründe, die mit der radiometrischen Kompensation die Farbe projiziert wurden, einen vergleichsweise
gleichmäßigeren Blaufarbton erzeugen, während die den blauen Farbton direkt darauf anstrahlte Hintergründe sehr unregelmäßig sind.
AMCAP ist ein Aufnahme-Tool. Das Programm greift das Signal von TV-Karten,
Webcams und anderen Videoquellen ab. Dieses Tool nimmt die Testvideos mit
einer Auflösung von 720 ∗ 576 (PAL) und einer Video-Rate von 25 fps auf.
58
Aufnahmekonzeption
Mit Hilfe des Projektor-Kamera Systems ist ein blauer Hintergrund fertig gestellt. d.h. Der Blue-Screen wird zur den Aufzeichnung eingesetzt. Bevor die
Aufzeichnungsarbeit beginnt, wird ein Aufnahmeplan aufgrund der Evaluationsinhalte erstellt werden. Die Beurteilung der Keying-Qualität an Hand der
Chrominanz-Information kann durch eine vielseitige Kombination von unterschiedlichen Materialitäten der Vordergrundobjekte und des Hintergrundes
erfolgen. Außerdem noch zwei Parameter werden hauptsächlich in Betracht
kommen.
1. die Helligkeit der Umgebung (gering bis hoch)
2. die radiometrische Kompensation (aktiviert oder deaktiviert)
Die Helligkeit des Hintergrundes wird stufenweise festgelegt, indem man eine LED-Beleuchtung verwendet und die Lichtleistung variiert. Dadurch kann
man diagnostizieren, ob die Intensität der Hintergrundfarbe einen Einfluss auf
die Qualität des Compositings haben kann. Für jede Kombination zwischen
verschiedenen Vordergrundobjekten und Hintergrundoberflächen werden zwei
Videos aufgenommen, einer mit der radiometrischen Kompensation (Abkürzung mit RK)und einer ohne RK. Dann kann man daraufhin vergleichen, mit
welchen eine bessere Keying-Qualität erzielt werden kann
Tabelle 5.1 gibt einen Überblick über die durchgeführten Aufnahmen.
Diese sind insgesamt 4 ∗ 3 ∗ 5 ∗ 2 = 120 Fallunterscheidungen, wobei die Helligkeitsvariation in vier Stufen unterteilt wurde. Die Vordergrundobjekte werden vor drei unterschiedlichen Hintergrundmaterialien aufgenommen. Fünf
Gegenstände repräsentieren die verschiedenen Eigenschaften des Vordergrundes. Die Hand mit ihrer massiven Form gehört zum wenigeren kritischen Aspekt
des Keyings, während die vier anderen Objekte die Problemfälle des Keyers
demonstrieren können. Die Haare haben feine Details auf den Haarspitzen. Ein
Glas hat die Eigenschaft von der Transparenz. Eine Metallkatze reflektiert Licht
auf ihrem Körper, dadurch ein Highlight entstanden ist. Die Handbewegung
simuliert Bewegungsunschärfe. Alle Fälle werden zweimal aufgenommen, ein-
59
Horizontal:
Hintergrundoberfläche,
Vertikal:
Umgebungshelligkeit
Stufen 1
Ohne
Umgebungslicht;
LED-Beleuchtung:
Aus
Stufe 2
Ohne
Umgebungslicht;
LED-Beleuchtung:
Schwach
Stufen 3
Ohne
Umgebungslicht;
LED-Beleuchtung:
Stark
Stufen 4
Umgebungslicht,
Innenraum;
LED-Beleuchtung:
Aus
Steinmauer
Hand
Haare
Glas
Metallkatze
Bewegung
Hand
Haare
Glas
Metallkatze
Bewegung
Hand
Haare
Glas
Metallkatze
Bewegung
Hand
Haare
Glas
Metallkatze
Bewegung
Tapeten
Hand
Haare
Glas
Metallkatze
Bewegung
Hand
Haare
Glas
Metallkatze
Bewegung
Hand
Haare
Glas
Metallkatze
Bewegung
Hand
Haare
Glas
Metallkatze
Bewegung
Tabelle 5.1: Aufnahmeplan
60
Vorhang
Hand
Haare
Glas
Metallkatze
Bewegung
Hand
Haare
Glas
Metallkatze
Bewegung
Hand
Haare
Glas
Metallkatze
Bewegung
Hand
Haare
Glas
Metallkatze
Bewegung
mal wird der Projektor die reine blaue Farbe auf dem Hintergrund ohne RK
projiziert, einmal mit RK.
5.2.2 Keying der aufgenommenen Videos
Hardware und Software
Das Keying-Verfahren erfolgt nicht in Echtzeit. Mit Hilfe der professionellen
Keying-Software werden die Videomaterialien gekeyt.
Der Keying-Vorgang wurde auf einem Rechner mit folgender Hardwarekonfiguration durchgeführt:
• Prozessor: intel(R) Pentium(R) 4, 2.8 GHz
• Arbeitsspeicher: 1.00 GB
• Graphikkarte: NIVIDIA GeForce 6800 GT
• Festplatte: 40 GB /5600 Umdrehungen
Die rohen Videos wurden mit „Adobe Premiere Pro 1.5“ geschnitten und in
„Adobe After Effects 7.0“ importiert. Es sind mehrere integrierte Keying-Werkzeuge
in „After Effects 7.0“ als Effekte verfügbar. Zur Ausarbeitung der aufgenommenen Videos wurde ein kommerzielle Plug-In „dvMatte Pro 1.5“ für „After Effects“ eingesetzt. Dieses Plug-In stammt von der Firma dvGarage1 . Der Grund
für die Auswahl dieses Plug-Ins aus mehreren existierenden Plug-Ins ist es,
dass dieser Keyer für die Lösung des speziellen Problems bei Keying der MiniDV Videomaterialien entworfen ist.
Das digitale Video (DV) kodiert die RGB Signale in YUV Signale, welche die
Helligkeitsinformationen (Luminanz) und Farbton- und Farbsättigungsinformation (Chrominanz) kombiniert. Der Y Kanal beschreibt das Luma (Lichtintensitätswert). Die UV Kanäle kommen von der Differenz zwischen 8-Bit RGB
Blau oder Rot und dem Helligkeitswert. Ein umkompensierter YUV-Farbraum
1 http://www.dvgarage.com/prod/prod.php?prod=dvmatteae
61
Format
Anbeiter
Auflösung
Abtastung
DV
Konsortium von
60 Hersteller
720 × 480
4:1:1 (NTSC)
720 × 576
4:2:0 (PAL)
DVCAM
Sony
720 × 480
4:1:1 (NTSC)
720 × 576
4:2:0 (PAL)
DVCPRO
Panasonic,
Philips,
Ikegami,
Hitachi
720 × 480
4:1:1 (NTSC)
720 × 576
4:1:1 (PAL)
Digital8
Sony
720 × 480
4:1:1 (NTSC)
720 × 576
4:2:0 (PAL)
Tabelle 5.2: Überblick des gängigen DV-Formats
besitzt eine Abtastfrequenz in Form von 4:4:4. Weil die menschliche Augen für
Helligkeit empfindlicher als für die Farben, kann die Chroma Abtastfrequenz
horizontal oder horizontal-vertikal im Verhältnis 2:1 (4:1 oder 4:0) reduziert
werden. Dadurch kann die Videosignale bis ca. 33% komprimiert werden. Daraus folgt die andere Formate für dieses Farbmodell 4:2:2, 4:1:1 und 4:2:0. D.h.
Mit einem geringen visuellen Qualitätsverlust besitzt man digitalen Video in
einem Bruchteil des Speicherplatzes gegenüber Analog Videos. Die folgende
Tabelle 5.2 zeigt einige gebräuchlichste DV Formate [Wac04, Seite 62-76].
DVMatte verwendet genau die Luminanzinformation, die volle Auflösung hat,
um den Alphawert des feinen scharfen Kanten der Vordergrundobjekte zu definieren. Daraus entstandene Matte heißt hier Detail-Matte.
Das Rendering ist sehr schnell. Außerdem ist sein Interface einfach, übersichtlich gestaltet.
Arbeitsweise der dvMatte
Der dvMatte Keyer arbeitet mit dem doppelten „Color Difference Key“ (vgl.
Abschnitt 3.1.2), um eine Base-Matte2 zu erzeugen. Mit der Luminanzkanal
generiert er noch eine Detail-Matte für die feine Kante der Vordergrundobjekte.
Schließlich werden die beiden Matten integriert.
2 Eine
Base-Matte ist eine Basis-Matte, das nach der Angleichung der Referenzfarben mit Hintergrundfarben erzeugt wurde.
62
TestSoftware DVMatte:
DVMatte: Keyingvorgang
Originales Bild
Korrigiertes Bild
Base Matte
Detail Matte
1
Final Matte
=
+
2 (b)
2 (d)
2 (c)
2 (a)
Inv. Base Matte
3
Base Matte
5
Inv. Final Matte
Composite
+
=
2(d)
Final Matte
Inv. Final Matte
3
Hintergrundbild
Haare als Beispiel
für Base Matte und
Detail Matte Mischung
*
4
Abbildung 5.3: Keying-Vorgang von der dvMatte
Abbildung 5.3 weist den Vorgang der dvMatte auf, der mit der weißen Schrift
auf dem roten Kästchen durchnummeriert ist.
1. Farbkorrektur: Mit dem Eyedropper wählt man zweimal Farben als Keyfarbe aus dem Hintergrund. Einmal soll der Eyedropper auf der hellsten
Stelle anklicken, anderes mal auf der dunkelsten Stelle. Keyfarbe 1 berechnet ein neues Bild 1 nach der Formel 3.6, Keyfarbe 2 berechnet ein
neues Bild 2 nach der gleichen Formel. Dann werden die beiden neuen
Bilder in ein korrigiertes Bild durch Überblendung zusammengefasst.
2. Erzeugung der invertierten Matte aus dem Originalbild:
• (a) Nachdem man die beide Keyfarben festgelegt haben, werden
gleichzeitig zwei Invertierte Teil-Base-Mattes nach der Formel 3.7
erzeugt. Man bekommt daher eine Base-Matte, indem sich die beiden Teil-Base-Mattes überblenden.
• (b)Die perfekte Base-Matte wird durch Einstellung des entsprechenden Werts generiert. Hier muss man hauptsächlich 2 Parameter, nämlich „Black Point“ und „White Point“, anpassen.
• (c) Man variiert die Parameter in Detail-Matte Option so, dass die
halbtransparente Stelle wie Haarspitze oder Glas stimmt.
63
• (d) Man erhält eine Final-Matte, indem man die Base-Matte und die
Detail-Matte übereinander blenden.
3. Die invertierte Final-Matte wird durch Abziehen der Final-Matte von 1
fertig gestellt.
4. Ein Teil der Compositing-Operator wird durch Multiplikation zwischen
Invertierter Final-Matte und dem Hintergrundbild vorberechnet.
5. Compositing mit Over-Operator (Siehe Formel 3.9).
Die Rohmaterialien werden zu jedem Fall (120 Fälle) drei Videos (Original,
Matte und Compositing.) gerendert. Die 360 Videos sind den Evaluationen zur
Verfügung gestanden.
5.2.3 Auswertung der Compositing-Qualität
Hardware und Software
Die Evaluation wird mit gleichem Rechner wie bei der Verarbeitung der rohen Videomaterialien durchgeführt. Die grundlegende Software bleibt selbstverständlich dieselbe wie im vorherigen Schritt. Die Werte der Ergebnisse sind
mit dem Microsoft Excel diagrammatisch dargestellt (Siehe Abschnitt ??). Um
die Änderung der Farbverteilung in RGB Kanäle zu interpretieren, ist ein kleines Werkzeug „RGB Parade“ von Adobe Premiere Pro 1.5 zur Anwendung
gekommen.
Die Evaluationsmethode
Die Auswertungen sind auf zwei Aspekte von der Keying-Qualität fokussiert:
1. dem visuellen Vergleich von resultierenden Matte- und Compositing-Videos,
2. dem parametrischen Unterschied des Matte-Videos.
64
Die optische Qualitätsverschiedenheit von Compositing Bildern zwischen Hintergrund mit RK3 und Hintergrund ohne RK ist zwar subjektiv, aber es ist bei
manchen Testfällen sehr deutlich. Wenn die Blaufarbwerte des Hintergrundes
nicht überall auf dem Bild konstant sind, ist das Matte-Bild mit dem Rauschen
auf dem Hintergrund registriert. Das Hintergrundrauschen verursacht die diffusen Stellen auf dem Compositing-Bild. Dann muss man durch Einsetzen eines Schwellenwertes das Rauschen möglichst unterdrücken, indem man die
grauen Flecken auf dem Hintergrund in Schwarz ändert. Die Verwandlung
bedeutet auch Datenverlust des Vordergrundobjektes, wie zum Beispiel eine
feine Haarspitze, die eine halb-transparente Farbe hat, wird durch Erhöhen
des Schwellenwertes verschwinden. Man bekommt zwar einen gleichmäßigen
durchsichtigen Hintergrund im Matte-Bild, aber gleichzeitig einen unvollständigen Vordergrund, was manchmal zu den fehlenden Objektteilen führt. Dies
wird später noch durch Bilder verdeutlichen.
Durch die RK bekommt man eine regelmäßige Hintergrundfarbe, die sofort
nach der Auswahl der Referenzfarben in Schwarz wandeln kann. Eine Nachkorrektur ist durchaus minimal, das bringt Vorteil für die mehr Erhaltung des
Vordergrunddetails.
In Anbetracht der oben genannten Umstände werden folgende Vorschläge für
den visuellen Vergleich unterbreiten. Der Schwellenwert wird so angepasst,
dass die Hintergründe ganz schwarz sind. Dann wird der Verlust der Vordergrundobjekte gezeigt werden. Je starker die Uneinheitlichkeit der Hintergrundfarben ist, desto schlimmer wird der Verlust des Vordergrundobjektes.
Wer mehr Unvollständigkeit des Vordergrundobjektes verursacht, ist weniger
geeignet für das Keying.
Die Tests können auch in einer anderen Ausrichtung durchgeführt werden.
Ein gemeinsamer Schwellwert wird für beide Videos festgelegt. Dann wird es
überprüft, welches Compositing eine bessere Qualität liefert, d.h. weniger Diffuse auf dem Composite-Bild hat. Je unregelmäßiger die Hintergrundfarbe ist,
desto mehr wird das Rauschen auf dem neuen Compositinghintergrund zu sehen, was nicht Wünschenswert ist.
3 Die
Radiometrische Kompensation.
65
Kapitel 4 Chroma Key Color Difference Methode
high bg color
low bg color
(a)
(b)
(c)
(d)
Abbildung 5.4: Justierung von der Base-Matte ( a) Das Original-Videobild vor
dem
unkompensierten
blauen Hintergrund „Steinmauer“ unStufen1, Base matte Ohne
RK, Ohne
Einstellung von BP
ter Beleuchtungsstufe 116,70,255
(Sehe Tabelle
5.1) (Alpha
b) Auswahl
der zwei
/ 6,26,100
= 179, Alpha
= 74
Referenzfarben (c) Unkorrigierte Base Matte (d) Korrigierte Base Matte
Man kann durch die beiden Testrichtungen auch beurteilen, ob die Hintergründe mit RK die Keying-Qualität positiv beeinflusst.
Andere Aspekte der Auswertung erfolgten durch den Vergleich der Parameter
des
Keying-Werkzeuges
(hier von
das
Stufen
1 Base matte mit RK, Ohne Einstellung
BP Plug-In dvMatte), um reine
AlphaSubjektivität
= 82, Alpha =zu65
15,31,113 / 28,30,95
vermeiden.
Durch Auswahl der beiden Keyfarben, ein hellstes Blau und andere dunkelstes
Blau (vgl. Abbildung 5.4(b)), erhält man ein Graustufenbild, das unkorrigierte
Base-Matte heißt (vgl. Abbildung 5.4(c). Aber das Ergebnis bei der unkorrigierten Base-Matte ist noch nicht zufrieden stellend, da auf dem Hintergrund noch
graufarbige Stellen existieren. Hier muss man die Matte noch einjustieren, indem man den Kontrast der unkorrigierten Base-Matte erhöht. Das Kontrasterhöhen ist analog zur Veränderung des Kontrasts mit der Tonwertkorrektur in
Photoshop.
Eine Korrektur für die primitive Base-Matte wird durch 2 Parameter bewerkstelligt. Das „Black Point“ und „White Point“ sollen so eingestellt werden, dass
der Vordergrund ganz weiß erscheint und der Hintergrund rein schwarz.
• Das Black Point ist der wichtigsten Schwellenwert der Base-Matte. Alle
Pixel, die unter dem eingestellten Wert liegen, werden auf schwarz gesetzt. Abbildung 5.4 (d) ist ein Resultat der Anpassung des „Black Point“
Wertes.
66
• Den Wert von „White Point“ kann man hier so einstellen, dass die Vordergrundobjekte möglichst weiß(hell) erscheinen, zu hohe Werte führen
leicht dazu, dass die Kanten zu weit ausgedehnt werden. Den Wert von
„White Point“ sollte man vorsichtig mit dem Schieber anpassen. Hier
lässt sich erfahrungsgemäß an der Base-Matte wenig verbessern.
Wichtig ist jedoch, die Werte so gering wie möglich zu halten, damit eine möglichst große Bandbreite an Grautönen erhalten werden kann. Die Grautöne treten meistens dort auf, wo sich halbtransparente Bereiche befinden. z.B. in der
Haarspitze und in den Gläsern. Wenn zu viele Grautöne in der Matte weggekeyt wären, würde die Vordergrundinformation verloren gehen. Dieser Verlust
bedeutet eine Minderung der Compositing-Qualität.
5.3 Unterschiedliche Testbedingungen
Die 120 Videosequenzen wurden unter verschiedenen Testbedingungen aufgenommen, die an Hand der unterschiedlichen Beleuchtungsstufen, Oberflächlichkeiten der Vordergrunde, die Materialeigenschaften der Hintergründe und
Aus- und Einschalten der Radiometrischen Kompensation4 kategorisiert werden (Siehe Tabelle 5.1). In diesem Abschnitt werden separat die Einzelheiten
betrachtet.
5.3.1 Unterschiedliche Umgebungshelligkeiten
Hier sind insgesamt 4 Helligkeitsstufen für die Hintergründe mit Hilfe der
LED5 -Beleuchtung eingestellt. Die LED-Beleuchtung hat eine Lichtleistung von
4000 Lumen, die ein weißes Licht mit einer Farbtemperatur von 5600k6 anstrahlt. Um den Unterschied der Helligkeitsstufen zu interpretieren, wird ein
kleines Werkzeug verwendet. In Abode Premiere Pro 1.5 verfügt ein Monitor
4 Das
Software des Projektor-Kamera Systems ist so programmiert, dass man eine Option für
das Ein- und Ausschalten der Radiometrischen Kompensation per Mausklick auswählen
kann.
5 Light Emitting Diode
6 tageslichtähnliches Licht
67
(a)
(b)
(c)
(d)
Abbildung 5.5: RGB Verteilung für die Steinmauer in 4 Helligkeitsstufen (ohne
RK) ( a) − (d) entspricht den Stufen 1 − 4
SM ohne
Rk S1-4
„RGB Parade“,
in dem
werden die Wellenformen für die Werte des Rot-, Grün-
und Blaukanals des Videobildes nacheinander in einem Diagramm angezeigt.
Dadurch kann man die Verteilung von Farbkomponenten in einem Videobild
betrachten. Die Werte der einzelnen Farbkanäle werden proportional zueinander im Maßstab von 0 bis 100 gemessen. Abbildung 5.5 wird die 4 Helligkeitsstufen aufgrund eines Beispiel von Steinmauer Blue-Screen ohne RK angezeigt.
Helligkeitsstufe 1
Umgebungslicht wird aus dem Projektionsraum durch geschlossenen Tür und
Fenster ausgeschlossen. LED-Beleuchtung bleibt ausschalten. Der Raum ist sehr
dunkel. Das ist ideale Helligkeitssituation für das Projektor-Kamera-System.
Aus Abbildung 5.5 ( a) kann man die Farbverteilung in RGB-Farbraum anschauen. Die Rot- und Grünfarbtöne liegen im unteren Wertbereich, während
der Blauanteil einen hohen Wert besitzt.
Helligkeitsstufe 2
Umgebungslicht ist nicht vorhanden. Die LED-Beleuchtung wird eingeschaltet und auf schwach eingestellt. Sie hellt den Hintergrund minimal auf. Das
Resultat kann man aus Abbildung 5.5(b) ablesen. Die Rot- und Grünfarbtöne
sind leicht nach oben verschoben. Die Bandbereite der Rot- und Grünfarbwerte
erhöhen sich auch ein wenig.
68
Helligkeitsstufe 3
Umgebungslicht ist bei diesem Fall ausgeschlossen. Die LED-Beleuchtung wird
sehr stark eingestellt. Die Hintergrundfarben sowohl mit RK als auch ohne
RK verändern sich sehr stark. Weil die LED mit einem Abstand von einem
Meter von Hintergrund entfernt ist, wirkt die Aufhellung ungleichmäßig aus.
d.h. in die Mitte der Hintergründe wird es mehr aufgehellt als bei dem Rand.
Das bringt besonderes Problem bei Keying. Die Hintergrundrauschen kommen
meisten aus den Bereich, wo die Aufhellung sehr stark ist. Aus Abbildung 5.5
(c) kann man deutlich sehen, dass die Rot- und Grünfarbtöne stark nach oben
verschoben sind. Die Bandbereite der jeweiligen Farbtöne sind auch schnell
erweitert. Das ist die kritische Stelle des Keyings.
Helligkeitsstufe 4
Bei diesem Fall wird die LED ausgeschaltet. Das Umgebungslicht ist zugelassen, indem man die Tür und die Fenster aufmacht. Wegen der Räumlichkeit
des Labors wird das Umgebungslicht nicht hell genug, so dass es nicht im Sinne von Tagslicht entspricht. Deshalb liegen dessen Farbwerte leicht über den
zweiten Fall mit schwacher LED-Beleuchtung. Abbildung 5.5 (d) stellt sich die
Situation dar. Der Einfluss auf die Keying-Qualität ist auch nahe an den zweiten Helligkeitsstufen. Darauf wird im späteren Abschnitt detaillierter eingehen.
5.3.2 Unterschiedliche Hintergründe
Eine reine weiße Leinwand schafft ideale Projektionsoberfläche für einen Projektor. Weil die Werte von den RGB Farbkanäle alle 255 (in Abbildung 5.6 ( a)
100)sind, kann der Projektor eine reine Blaufarbe darauf projizieren. Für beliebige Oberfläche kommt dann der Projektor ohne RK nicht aus. Die unterschiedlichen Eigenschaften der Oberflächenmaterialien beeinflussen die Qualität der
radiometrischen Kompensation. Steinmauer, Tapete und Vorhang werden zu
69
(a)
(c)
(b)
(d)
Abbildung 5.6: Material der Hintergründe in RGB Parade ( a) Ideal weiße Leinwand (b) Steinmauer (c) Tapete (d) Vorhang
Testzwecken genutzt. Eine allgemeine Interpretation der Oberflächenmerkmale wird durch RGB Parade7 gemacht (vgl. Abbildung 5.6).
Steinmauer
Diese unebene Struktur der Steinmauer beeinträchtigt die Erhaltung der halbtransparenten Glasoberfläche bei Keying. Abbildung 5.7 (b) drückt solchen Zustand aus. Wenn man den Hintergrundkontrast reguliert, wie Abbildung 5.7
(c) gezeigt ist, dann verschwindet das Glas teilweise. Verglicht man das Original (5.7 ( a)) mit dem Compositing (5.7 (d)), stellt man fest, dass Objektdetails
verloren gegangen sind. Mit RK können diese Fehler korrigiert werden. Dies
wird in Abschnitt 5.3.4 erläutert.
Tapete
Diese Tapete, die zur Evaluation verwendet wurde, hat vergleichsweise einheitlichere Materialeigenschaften (vgl. Abbildung 5.6(b)). Die Farbtöne sind
7 Adobe
Premiere Pro 1.5
70
(a)
(b)
(c)
(d)
Abbildung 5.7: Steinmauer ohne RK der Helligkeitsstufe 1 ( a) originalVideobild (b) Base-Matte (c) Final-Matte (d) Compositing
Steinmauer ohne rk stufen1 transparent
(a)
(b)
(c)
(d)
Abbildung 5.8: Tapete ohne RK der Helligkeitsstufe 3 ( a) original-Videobild
(b) Base-Matte (c) Final-Matte (d) Compositing
Tapete ohne rk stufen3 transparent
nicht sehr vielfältig mit einem etwas dunkleren Blumenmuster, welches jedoch
mit einer glänzenden Farbe beschichtet ist. Wenn das Licht darauf trifft, werden die Blumen reflektiert. Wegen der Einfachheit der Farbtöne gelingt die radiometrische Kompensation unter Helligkeitsstufe 1 sehr gut(vgl. Abbildung
5.2 (h)). Das ist für Keying des transparenten Glases und der feinen Haare sehr
von Vorteil. Aber unter sehr starker Lichtleistung wird sie heftig reflektiert.
Das verursacht ein hohes Hintergrundrauschen, wie Abbildung 5.8 ausdrücklich zeigt. Bei Compositing ist die Hälft des Glases durch Hintergrundrauschen
weggekeyt.
71
(a)
(b)
(c)
(d)
Abbildung 5.9: Vorhang ohne RK der Helligkeitsstufe 3 ( a) Original-Videobild
(b) Base-Matte (c) Final-Matte (d) Compositing
Vorhang
Dieser Vorhang ist ein Stoff, der nicht reflektiert. Er hat aber variable Farbtöne und an manchen Stelle auch Falten. Die Bandbereite der Farbwerte ist recht
groß, wie Abbildung 5.6(d) zeigt. Es gibt visuell einen sehr bunten Eindruck.
Um solche Oberfläche zu kompensieren, ist eine harte Arbeit des RK Verfahrens. Das Keying von Reflektion auf Objektoberfläche im Fall der Metallkatze
ist normalerweise problemlos, weil die Highlight-Stellen hohe Farbwerte im
Gegenteil zum Hintergrund haben. Aber für den Fall der starken Aufhellung
des Hintergrundes treten Probleme auf. Die reflektierte Stelle auf dem Objekt
wird bei Compositing durchsichtig (vgl. Abbildung 5.8) per Einjustierung des
Hintergrundkontrastes, wenn man einen diffus fehlenden neuen Hintergrund
haben will.
5.3.3 Unterschiedliche Testobjekte
Die unterschiedlichen Vordergrundobjekte, die zur Auswertung gewählt wurden, sind vor allem kritische Objekte. Diese besitzen entweder halb-transparente
Stelle, wie zum Beispiel Haarspitze und Glaskörper, oder die unscharfe Region,
die eine Mischung von Objekt- und Hintergrundfarben repräsentiert. In Kombination mit den verschiedenen Testbedingungen ist es gelungen, die Objekte
von dem alten Hintergrund besser zu trennen und auf neuen Hintergrund zu
72
(a)
(b)
(c)
(d)
(e)
Abbildung 5.10: Compositingbilder mit verschiedenen Objekten ( a) Vorhang,
Stufe 1, mit RK, Normal (b)Tapete, Stufe 2, mit RK, Detail (c)
Tapete, Stufe 2, mit RK, Transparent (d) Steinmauer, Stufe 3,
mit RK, Reflektion (e) Steinmauer, Stufe 1, mit RK, Motion
A vorhang Blur
stufen 1 rk normal
B tapete stufen2 rk detail
C tapete stufen 2 rk transparent
setzen. Abbildung
zeigt
die gelungene Bilder des Keyings mit unterschiedD steinmauer5.10
stufen3
rk reflektion
E
steinmauer
stufen1
rk
motion
blur
lichen Objekte.
Bemerkung: Das Licht auf Vordergrundobjekt soll vorsichtig eingesetzt werden, damit es nicht auf den Hintergrund fällt.
Normal - Hand
Die Hand stellt einen normalen Gegenstand dar, der keine feine Kanten und
auch keine halbtransparente Stelle hat. Das Keying der Hand ist deshalb wenig problematisch, sogar unter Helligkeitsstufe 3. Bei schwacher Beleuchtung
auf die Vordergrundobjekte kann ein schwarzer Rand darum entstehen, was
unschön aussieht. Für das schwierige Hintergrundmaterial zum Beispiel Vorhang kann auch eine gelungene Trennung des Vordergrundobjekts zum Beispiel Hand von dem Hintergrund durchführen (vgl. Abbildung 5.10 ( a)).
Details - Haare
Detail ist auch ein Schwerfall für Keyer. Für ein grobes Einsetzen der Schwellenwert konnte nicht pixlegenau der α-Wert bestimmt werden. Deshalb ist das
Keying von Haaren mehr oder weniger mit dem Detailverlust verbunden, falls
man einen reinen schwarzen Hintergrund im Mattebild bekommen möchte.
73
Vor allem bei einem sehr unregelmäßigen Hintergrund, wie zum Beispiel der
Vorhang kann der Keyer leicht Haarspitze und Hintergrundrauschen verwechseln. Eine gute RK, wie zum Beispiel die Tapete unter Helligkeitsstufe 2 reduziert den Detailverlust. (vgl. Abbildung 5.10 (b)).
Transparenz - Glas
Transparente und Halb-transparente Objekte sind ebenfalls schwer mit dem
Chroma-Key zu behandeln. Wenn das Hintergrundrauschen sehr stark ist, dann
wird eine teilweise Verschwindung des Vordergrundobjekts unvermeidbar. Abbildung 5.10 (c) zeigt ein gelungenes Keying, das das transparente Glas noch
vollständig darstellt.
Reflektion - Metall
Eine glatte Metalloberfläche reflektiert, wenn das Licht darauf strahlt. Dieser
Effekt kann man auch Highlighting nennen. Dieser Effekt erzeugt nur ein geringes Problem, weil die Highlighting-Stellen sehr hohe Werte besitzen, manche sogar fast ausschließlich weiße Farbe. Wenn ein Spiegel etwas Blaues spiegelt, dann ist es schwierig, diese Stelle noch bei Compositing mit einem α Wert
1 als Vordergrund darzustellen. Sie erscheint entweder halbtransparent oder
gar durchsichtig, so dass an dieser Stelle die Hintergrundfarbe zu sehen sein
kann. Abbildung 5.10 (d) zeigt einen gelungenen Fall.
Motion Blur - Handbewegung
Handbewegung bringt Unschärfe, diese nennt man auch „Motion Blur“. Wo
die Stelle ja stark verschwommen ausschaut, ist eine Mischung der Vordergrundfarben mit Hintergrundfarben. Bei der Handbewegung sieht man einen
halbtransparenten Rand mit der Farbe Violett um die Finger. Die Bewegungsunschärfe kann man nicht einfach entfernen, sondern nur durch eine Farbkorrektur auf diesem Bereich die bläulichen Farbtöne weglöschen. Sie verursacht
eine schlechte Qualität bei Compositing. Abbildung 5.10 (e) sieht schon besser
74
Kapitel 4 Chroma Key Auswertungsergebnis
Steinmauer – Normal – Stufen 1
1.Originales Bild
(ohne RK)
2.Compositing Bild
3. Compositing Bild
(fehlerfreier HG, ohne RK) (fehlerfreier VG, ohne RK)
4. Originales Bild
(mit RK)
3. Compositing Bild
(fehlerfreier HG, mit RK)
3. Compositing Bild
(fehlerfreier VG, mit RK)
Abbildung 5.11: Steinmauer - Normal - Stufe 1
aus, aber bei dem Randbereich der Fingern sind auch die bläuliche Farbtöne
störend.
5.3.4 Mit der radiometrischen Kompensation oder ohne RK
Im Abschnitt 5.2.3 wurde erwähnt, dass zwei verschiedene Tests durchgeführt
wurden. Es wurde überprüft, ob der Detailverlust bei Erhaltung der saubersten
Hintergründe im Compositing Bild auftaucht, oder wie viele diffuse Reflektionen auf dem Hintergrund bei Bewahrung der besten Qualität der Vordergründe erhalten sind.
Vier Bildreihen, in denen verschiedene Testbedingungen kombiniert wurden,
stellen die visuellen Ergebnisse zur Schau.
Abbildung 5.11 deutet den Unterschied zwischen mit RK und ohne RK an. Der
Hintergrund (ohne RK) hat im Compositing Bild bei Erhaltung eines besseren
75
Vorhang – Details – Stufen2
1.Originales Bild
(ohne RK)
2.Compositing Bild
(fehlerfreier HG, ohne RK)
3. Compositing Bild
(fehlerfreier VG, ohne RK)
4. Originales Bild
(mit RK)
3. Compositing Bild
3. Compositing Bild
Abbildung 5.12: Vorhang - Detail -Stufe 2
Vordergrundes dunkle Flecken, während der Hintergrund (mit RK) sehr sauber ist. Der Detailverlust wird hier wegen der Objektmerkmale kaum wahrgenommen.
Bei Helligkeitsstufe 2 macht das Keying ohne RK schwere Arbeit. In zwei Richtungen ist dieses Keying fehlerhaft. Man kann schwer einen Kompromiss zwischen dem sauberen Hintergrund und dem verlustfreien Vordergrund finden.
Aber der Hintergrund mit RK sieht ganz überzeugend aus. Abbildung 5.12
weist dies auf.
Bei Stufe 3 wird der Hintergrund sowohl „ohne RK“ als auch „mit RK“ sehr
stark aufgehellt. Das macht den Keying-Vorgang problematisch. Weil die Steinmauer eine gute RK bekommt, kann die Metallkatze noch vernünftig von dem
Hintergrund getrennt werden. Im Vergleich mit einem transparenten Objekt
hat die Katze einen groben Rand und die halb-transparente Stelle existiert auch
nicht, deshalb tritt der Detailverlust bei erwünschten Hintergrund trotz ohne
76
Steinmauer – Reflektion – Stufen3
1.Originales Bild
(ohne RK)
2.Compositing Bild
3. Compositing Bild
4. Originales Bild
(mit RK)
3. Compositing Bild
3. Compositing Bild
Abbildung 5.13: Steinmauer - Reflektion - Stufe 3
RK nicht auf. Zu mindestens wird er visuell nicht wahrgenommen (vgl. Abbildung 5.13).
Wenn es um die Transparenz geht, muss man auf die Regulierung der Keyingparameter sehr vorsichtig angehen. Weil der Glaskörper halbdurchsichtig
ist, stellt er an den Keyer hohe Anforderung. Wie Abbildung 5.14 zeigt, mit
unregelmäßigem Hintergrund gehen sehr viele Details verloren. Ein sauberer
Hintergrund ohne RK verursacht eine teilweise Unsichtbarkeit des Glases.
Der „Motion Blur“ zählt zur schwierigsten Arbeit des Keyers. In diesen Fall
bleiben beide sowohl mit RK als auch ohne RK schlechte Ergebnisse.
77
Tapeten – Transparent – Stufen4
1.Originales Bild
(ohne RK)
2.Compositing Bild
3. Compositing Bild
4. Originales Bild
(mit RK)
3. Compositing Bild
3. Compositing Bild
Abbildung 5.14: Tapete - Transparenz - Stufe 4
5.4 Testergebnisse
Visuelle Informationen besagen, dass mit RK gute Ergebnisse erzielen kann als
ohne RK. Parametrische Informationen können diese Aussage weiter beweisen.
Diagramm 5.15 zeigt, dass die Hintergründe mit RK überlegen. Die Überlegenheit ist bei erhöhte Helligkeitsstufen minimiert sind, d.h. der Qualitätsunterschied zwischen mit RK und ohne RK wird bei starker Aufhellung des Hintergrundes gering sein. Wie bereits erwähnt ähnelt sich die Situation unter Helligkeitsstufe 4 mit Stufe 2 und deshalb ist hier nur noch von Stufe 1 bis Stufe 3
dargeboten. Der „Motion Blur“ steht mit hohen Black Point Wert ganz oben.
Die Tendenz bei der Tapete (vgl. Diagramm 5.16) ist ähnlich wie bei der Steinmauer. Hier ist ein steiler Anstieg von Stufen 2 zur Stufen 3 zu sehen. d.h.
Bei erhöhten Helligkeitsstufen verschlechtert sich die Keying-Qualität. Bei den
Stufen 1 und 2 hat die Tapete wegen seiner guten RK den geringsten Black-
78
Normal (ohne RK) Normal (mit RK)
Detail (ohne RK) Detail (mit RK)
98.1
37.5
106.5
63.1
106.3
86
112.3
69.9
207.3
189.3
138.6
129.5
Stufe 1
Stufe 2
Stufe 3
Fehlerfreier Hintergrund: Steinmauer
250
Normal (ohne RK)
Black Point Wert
200
Normal (mit RK)
Detail (ohne RK)
Detail (mit RK)
150
Transparent (ohne RK)
Transparent (mit RK)
100
Reflektion (ohne RK)
Reflektion (mit RK)
Motion Blur (ohne RK)
50
Motion Blur (mit RK)
0
Stufe 1
Stufe 2
Stufe 3
Vordergrundobjekte
Normal (ohne RK) Normal (mit RK) Detail (ohne RK) Detail (mit RK)
Stufe 1
Stufe 2
Stufe 3
107.2
33.8
126.2
42.5
114.6
56.4
132.5
250.3
232.4
201.4
Abbildung 5.15: Steinmauer Diagramm
49.6
199.4
Fehlerfreier Hintergrund: Tapete
300
250
Normal (ohne RK)
Black Point Wert
Normal (mit RK)
Detail (ohne RK)
200
Detail (mit RK)
150
100
Reflektion (mit RK)
Motion Blut (mit RK)
50
0
Stufe 1
Stufe 2
Stufe 3
Vordergrundobjekte
Abbildung 5.16: Tapete Diagramm
79
Normal (ohne RK) Normal (mit RK) Detail (ohne RK) Detail (mit RK)
Stufe 1
Stufe 2
Stufe 3
110.9
66.5
143.2 der Chrominanz-Methode
63.1
141.2
5 Auswertung
135.6
66.5
68.8
154.6
253.8
229.1
183.6
Fehlerfreier Hintergrund: Vorhang
300
Normal (ohne RK)
250
Black Point Wert
Normal (mit RK)
Detail (ohne RK)
200
Detail (mit RK)
150
100
Reflektion (mit RK)
50
Motion Blur (mit RK)
0
Stufe 1
Stufe 2
Stufe 3
Vordergrundobjekte
Abbildung 5.17: Vorhang Diagramm
Point-Wert. Der „Motion Blur“ ist hier genau so schlecht wie bei der Steinmauer.
Der Vorhang hat schon bei Stufen 1 einen höheren Balck-Point-Wert, wenn die
Hintergründe nicht radiometrisch kompensiert wurden. Das Keying für Transparenz und Detail ist eher schwer, hier muss man höheren Black Point Wert
einstellen, was aber entsprechend einen höheren Detailverlust des Vordergrundobjekts bedeutet (vgl. Diagramm 5.17).
Aus den visuellen und parametrischen Daten kann man eine Schlussfolgerung
ziehen.
Die Hintergründe sollen möglichst dunkel sein, starke Aufhellungen bringen
das Keying an seine Grenzen.
Mit RK verbessert man die Gleichmäßigkeit der Projektionsfläche, was zu einer
besseren Qualität des Keyings führt.
80
5.5 Diskussion und Fazit
Zusammenfassend sollte der Blue Screen egal ob Stoff, Wandfarbe oder Hintergrundkarton eine möglichst gleichmäßige und intensive Farbe haben und
darf nicht glänzen. Der genaue Farbton ist nicht wichtig, solange er gleichmäßig ist. Die Farbe kann auch weiß sein, solange Vordergrundobjekt selbst nichts
weißes an sich hat.
Farbkontraste werden bei DV stark komprimiert, was zu störender Artefaktsbildung führt. Kamera sollte möglichst mit einer hohen Auflösung sein und mit
geringer Tiefenschärfe arbeiten, dadurch werden Unebenheiten und Fehler des
Hintergrundes im doppelten Sinne „entschärft“.
Mit RK kann man das Vorprozess der komplizierte Einstellung von Studiolicht erspart (Einrichten des Studiolicht dauert mindesten ein paar Stunden).
Man braucht auch nicht unbedingt eine große blaue Leinwand zum Drehort
transportieren (Transportarbeit gespart). Und der Projektor strahlt auf beliebige Oberflächen, wie zum Beispiel auf tapezierte Wand (braucht man die Wand
nicht blau lackieren, die Handarbeit gespart), oder auf einen Fenstervorhang.
Bunte Vorhang und auch Falten ist, kein Problem.
Aber das Chroma-Key selber hat sein Limit. Die Vordergrundfarbe soll in keinem Fall eine Ähnlichkeit wie die Hintergrundfarbe haben. Selbst wenn der
Darsteller eine violette Krawatte eingetragen hätte, kann es schon zu Problemen kommen.
Für Live-Studio existieren momentan noch nicht sehr viele Möglichkeiten, während Offline Verfahren reichlich Algorithmen für sehr gute Matte-Extraktion
verfügen, wie es in Kapitel 4.1 schon erwöhnt.
Deshalb wird man noch versucht, das Verfahren in Verbindung mit zeitlichen
Merkmalen der Videos auszuprobieren. Das folgende Kapitel wird eine weitere
Vorgehensweise des Keyings mit unserem Projektor-Kamera-System erörtert.
81
6 Auswertung der temporalen
Methode
6.1 Einleitung
Das letzte Kapitel 5 hat gezeigt, dass die Qualität von Chroma-Keying mit Hilfe
von RK erhöht werden kann. Die Umgebungshelligkeit am Aufnahmeort sollte
möglichst gering sein, da das Video welches mit der Helligkeitsstufe eins und
unter Verwendung von radiometrischer Kompensation aufgenommen wurde,
die besten Chroma-Keying-Ergebnisse lieferte. Eine wichtige Einschränkung
dieses Verfahrens ist, dass sich im Vordergrund keine Farben befinden dürfen,
welche ähnlich dem Hintergrund sind, da diese Bereiche sonst fälschlicherweise dem Hintergrund zugeordnet werden. Die Vordergrundbeleuchtung mit einer Tischlampe war zu schwach, was zur einen Beeinträchtigung der Bildqualität geführt hat.
Im ARLabor wurde ein weiteres Verfahren prototypisch entwickelt, welches
unter Verwendung von temporal kodierten Informationen eine Matte-Extraktion
ermöglicht. Dieses Verfahren nennt man Flash-Keying. Ein relativ aktuelles
Verfahren, das „Flash Matting“, wurde im Abschnitt 4.1.4 erläutert. Photographiert wird jeweils ein Bildpaar mit gleich bekanntem Hintergrund. Auf einem
der Bilder wurde der Vordergrund durch einen Blitz beleuchtet, auf dem anderen nicht. Damit der Hintergrund nicht vom Blitz beeinflusst wird, distanziert
man den Vordergrund ausreichend weit vom Hintergrund. Anhand der Differenz der beiden Bilder lässt sich der α Wert und somit die Matte berechnen.
Dieses Verfahren ist ursprünglich für eine statische Szene entwickelt worden,
82
der Flash-Keying-Prototyp in Augmented Studio realisiert jedoch eine Echtzeitanwendung, welche für dynamische Szenen verwendet werden kann.
Eine Videokamera nimmt immer Bildpaare auf. Ein Bildpaar sind dabei zwei
aufeinander folgende Bilder, wobei im einen Bild der Vordergrund durch ein
mit der Kamera synchronisiertes Beleuchtungssystem beleuchtet wird, im anderen nicht. Anhand dieses Bildpaares lässt sich der Vordergrund extrahieren,
indem man pixelweise die Differenz der Intensitäten der beiden Bilder berechnet. Mit Hilfe eines vorgegebenen Schwellenwertes bekommt man schließlich
eine binäre Matte. Das Flash-Keying hat, wie auch Chroma-Keying, eine farbliche Einschränkung. Zum Beispiel führen schwarze Farbtöne im Vordergrund
wieder zu einer fälschlichen Zuordnung zum Hintergrund, da die Differenz
zwischen beleuchtetem und nicht beleuchtetem schwarz zu gering ist.
Um die Einschränkungen der beiden Verfahren überwunden zu werden, wurde ein Kombi-Prototyp entwickelt, welcher Flash-Keying und Chroma-Keying
kombiniert, genannt Flash-Chroma-Keying. Während der Vordergrund unbeleuchtet ist, projiziert ein Projektor mit Hilfe von RK eine uniforme blaue Fläche auf die Test-Projektionsoberfläche. Bei der anschließenden Matte-Extraktion
mittels Chroma-Keying werden nur jene Einzelbilder verwendet, in denen der
Vordergrund nicht beleuchtet ist. Dadurch gibt es keine Einschränkung der
Farben des Vordergrundes mehr, da dieser stets schwarz ist. Im Folgenden werden die Einzelheiten detailliert beschrieben.
6.2 Aufbau
Abbildung 6.1 zeigt den Aufbau des Studios zum Flash-Keying [AGB07a].
6.2.1 Hardware und Software
Der Flash-Keying-Prototyp besteht aus folgenden technischen Komponenten:
Projektor: Optoma DX733 DLP Projection Display
• Auflösung: XGA
83
Abbildung 6.1: Flash-Keying
Studioaufbau
( a)
Koaxiale
Kamera
(b)
Synchronisationseinheit
(c)
LEDBeleuchtungseinheit ( Bildquelle : http : //www.uni −
weimar.de/medien/ar/g f x/research70. jpg)
• Auflösung mit Kompression : 1024 × 768
• Heilligkeit(ANSI Lumen): 2500
• Kontrast: 2500:1
• Technik: DLP
Videokamera: Gragonfly Express von Point Grey
• System: Digital
• Verwendete Fotoauflösung: 640 × 480
• Bildrate: 640 × 480 bei 200 fps
• Schnittstelle: 9-pin IEEE-1394 800MB/s
• Prozessor: Core2Duo 6300, 1.8GHz
84
• Arbeitsspeicher: 2.00GB
• Grafikkarte: NVidia Quadro FX 1500
• Festplattenkapazität: 120 GB /7200 Umdrehungen
Beleuchtung des Vordergrundes: LED Beleuchtungssystem
• Lichtleistung: 4800 Lumen
In diesem Prototyp verwendet man anstatt eines LCD-Projektors ein DLP-Projektor1 ,
da dieser über eine höhere Geschwindigkeit verfügt. Dadurch wird ein Nachziehen des Bildes verhindert. Für diesen Prototyp wurde eine Geschwindigkeit
von 120 Hz eingestellt.
Die Videokamera besteht aus zwei Kameras, deren Frustrah mit Hilfe eines
halbtransparenten Spiegels, vereint wurde. Das LED-Beleuchtungssystem ist
synchronisiert mit dem Projektor-Kamera-System und schaltet sich pro Sekunde 120mal ein und aus.
Die Aufnahme der Videobilder folgt durch das Tool FlyCap für die PTGREY
Dragonfly Kamera.
Für die aufgenommenen Bilder wurde zum Testzweck ein kleines Tool implementiert. Die Offline-Bearbeitung der Filmmaterialien erfolgte in Adobe After
Effects. Der verwendete Keyer war dvMatte Version 1.5 der Firma dvGarage.
6.2.2 Flash-Keying-Prototyp
Für den Prototyp des Flash-Keyings [AGB07b] wurde ein TV-Studio simuliert.
Ein Sprecher sitzt an einem Tisch und berichtet über das Wetter. Hinter ihm
befindet sich eine Projektionsleinwand, auf die der Projektor ein Video mit
den nicht wahrnehmbaren Markern von hinten projiziert. Bei den versteckten
Markern handelt es sich um ARTag Marker, welche zur Bestimmung von Position und Orientierung der Kamera dienen. Diese Marker wurden mit Hilfe
einer dynamischen ∆-kodierten Temporal-Modulation-Methode in das Videobild integriert. Ein statisches Binärcode-Bild, der Marker, ist im Originalbild
1 Digital
Light Processing
85
eingebettet. Dazu subtrahiert man vom Originalbild einen ∆ Wert und projiziert das Resultat. Im folgenden Frame addiert man denselben ∆ Wert auf
das Originalbild. Man spricht bei diesem Bild von einem Kompensationsbild.
Wenn die beiden Bilder abwechselnd mit einer Geschwindigkeit oberhalb der
CFF2 (hier 120 Hz) projiziert werden, nimmt das menschliche Auge nur noch
das Originalbild dar. Die synchronisierte Kamera jedoch kann jedes Einzelbild
aufnehmenden und somit durch Analyse zweier aufeinander folgender Bilder
die ∆-Werte, welche in diesem Fall Marker sind, rekonstruieren. Diese Marker
können nun zwar zur Kameraverfolgung dienen, verursachen allerdings Probleme beim Flash-Keying. Dieses Problem wird später noch im Abschnitt 6.3.2
diskutiert werden.
Die LED-Beleuchtung strahlt weißes Licht mit einer Farbtemperatur von 5600
Kelvin auf den Vordergrund. Dieses LED-Beleuchtungssystem erhellt den Vordergrund mit einem Hochfrequenz-Blitz, der den Vordergrund pro Sekunde
Sechzig mal mit einer kurzen Dauer von 8,3ms beleuchtet. Dadurch werden
120 Bilder pro Sekunde aufgenommen. Die Hälfte davon ist unbeleuchtet.
6.2.3 Flash-Chroma-Keying-Prototyp
Der Aufbau des Flash-Chroma-Keying Prototyps basiert auf dem Flash-KeyingPrototyp. Anstatt des im Hintergrundvideo eingebetteten nicht wahrnehmbaren Binärcodes wird mit Hilfe von RK eine uniform blaue Fläche auf eine
beliebige Projektionsfläche als Hintergrund projiziert. Das Projektor-KameraSystem ist mit der LED-Beleuchtung synchronisiert. Während der Vordergrund
gerade unbeleuchtet ist, strahlt der Projektor ein uniformes blaues Licht. Um eine gleichmäßige blaue Fläche zu schaffen, wurde ein Vorprozess durchgeführt.
Mit der Hilfe von radiometrischer Kompensation erscheint die Projektion, als
würde man auf eine ebene weiße Oberfläche projizieren. Die LED-Beleuchtung
beleuchtet die Szene mit einem Takt von 30 Hz, dadurch werden 60 Bilder aufgenommen. Die Hälfte davon hat einen unbeleuchteten Vordergrund.
2 Critical
Flicker Frequency
86
6.3 Flash-Keying-Prototyp
6.3.1 Anwendung
Ein Tool wurde zum Zweck des Testes implementiert. Die Bilder, die als Eingangsmaterialien durch das Tool getestet wurden, waren durch diesen Prototyp aufgenommen.
Die aufgenommene Szene ist einfach eine sich bewegende Hand. Die Videobilder sind in zwei Kategorien untergeteilt. Eine Gruppe der Bilder haben den
unbeleuchteten Vordergrund, die anderen haben den Vordergrund beleuchtet.
Die Hintergründe der beiden entsprechenden Bilder sind aufgrund der eingebetteten Marker unterschiedlich. Das kleine Tool sollte die Eingangsmaterialien einlesen, eine Matte extrahieren und ein Composite-Video in Echtzeit
ausgeben. Das Programm wurde in C++, OpenGL und OpenCV implementiert, um das Flash-Keying der aufgenommenen Videos zu testen. Abbildung
6.2 demonstriert die wichtigsten Keying-Schritte, welche von 1 bis 6 nummeriert sind.
Schritt 1: Das Differenzbild zwischen zwei korrespondierenden Bildern wird
erzeugt, indem man die Intensitätswerte der beiden Bilder pixelweise subtrahiert. Das Differenzbild hat einen fast schwarzen Hintergrund mit Rauschen,
welches durch die Ungleichheit der Marker verursacht wird.
Schritt 2: Das Differenzbild wird in die einzelnen Farbkanäle (Rot, Grün, Blau)
separiert, in denen derselbe Pixel unterschiedliche Intensitäten besitzen kann.
Schritt 3: Aus den drei einkanaligen Bildern ist die maximale Intensität der einzelnen Pixel zu berechnen. Das Resultat ist ein neues Graustufenbild, welches
als Basisbild für die Matte-Extraktion dient.
Schritt 4: Zwei Schwellenwerte werden vorgegeben, die eine hohe Intensität
und eine niedrige Intensität haben. Die Pixel, deren Intensität kleiner als der
niedrige Schwellenwert ist, werden als Hintergrund klassifiziert. Ihre Werte
werden auf 0 gesetzt, was einen reinen schwarzen Farbton darstellt. Die Pixel,
deren Intensität größer als der hohe Schwellenwert ist, werden dem Vorder-
87
R
I2 unbeleuchtetes Originalbild
I1 beleuchtetes Originalbild
I‘ Differenzbild
Max (R,G,B)
2
_
1
3
Separation
=
G
Max
B
Matte
4
Invertierte Matte
5
2 Schwellenwert:
Matte < = lowTH Æ 0.0
lowTH < Matte < highTH Æ max (R, G, B)
Matte >= highTH Æ 255.0
Invertieren
Glättung des Objektrandes
6
Matte
Vordergrundbild
separierter Vordergrund
=
*
separierter Hintergrund
invertierte Matte
Hintergrundbild
*
Composite-Bild
+ =
=
Abbildung 6.2: Implementation des Flash-Keyings
grund zugeordnet. Deren Intensitätswerte werden auf 255 gesetzt, was einen
reinen weißen Farbton repräsentiert. Pixel deren Intensität dazwischen liegt,
werden nicht verändert. Sie bilden den der Randbereich der Objekte, welche
graue Farbtöne haben. Dadurch wird eine Trimap erstellt, wie es im Abschnitt
4.1.1 erklärt wurde.
Schritt 5: Aus dieser Trimap kann man eine invertierte Matte generieren. Um
einen harten Übergang zwischen Vordergrund und Hintergrund zu verbessern, wird der Randbereich durch einen 3 × 3 Gaußfilter geglättet.
Schritt 6: Durch Anwendung der Compositing-Formel [Wri02] wird der Vordergrund abschließend vor einen neuen Hintergrund gesetzt.
Vordergrundbild ∗ Matte = separierterVordergrund
(6.1)
Hintergrundbild ∗ invertierteMatte = separierterHintergrund
(6.2)
88
Abbildung 6.3: Ergebnis des Flash-Keyings
separierterVordergrund + separierterHintergrund = CompositeBild
(6.3)
Auf diese Weise wird ein Composite-Bild erzeugt.
Das kleines Flash-Keying-Tool lädt zunächst die beiden Arten von Bildern als
Bildfolge ein. Die Berechnung wird anschließend in Echtzeit durchgeführt.
6.3.2 Auswertung
Die Schwellenwerte lassen sich durch einen Schieber auf dem Interface des
Tools justieren. Bei einer Einstellung für den niedrigen Schwellenwert von 105
und dem hohen von 125 lassen sich gute Ergebnisse erzielen (vgl. Abbildung
6.3). Wo sich die Hand schnell bewegt, entsteht eine verschwommene Bewegungsunschärfe um den Finger, die durch das rot gestrichelte Quadrat gekennzeichnet ist. Durch Justierung der Schwellenwerte lässt sich der unscharfe
Rand unterdrücken, was im rechten Bild zu sehen ist.
Aber auch Flash-Keying funktioniert nicht ohne Probleme. Die diffuse Stelle,
die im Originalbild durch Schatten erzeugt und mit einer kreisförmigen gestrichelten roten Linien kennzeichnet ist, ist im Composite-Bild fast verschwunden
(Siehe Abbildung 6.3). Aufgrund des Flash-Keying-Prinzips werden dunkele
Farbtöne auf dem Vordergrund bei der Matte-Extraktion problematisch. Beispielsweise werden die schwarzen Haare bei Flash-Keying fälschlicherweise
als Hintergrund interpretiert und somit weggekeyt.
89
Helligkeitstufe:
Mit oder Ohne RK:
1
mit
Tabelle 6.1: Beste Testbedingungen
Abbildung 6.4: Aufnahme der Eingangsmaterialien
Wieder gibt es eine Einschränkung auf bestimmte Farbtöne für den Vordergrund. Gibt es überhaupt ein Keying-Verfahren, das ohne solche Einschränkungen auskommt? Ja, der Flash-Chroma-Keying Prototyp erlaubt es, einen
Vordergrund von beliebiger Farbe zu verwenden.
6.4 Flash-Chroma-Keying-Prototyp
Time
warping 1
6.4.1
Anwendung
Die Videos, die für die Auswertungen zur Verfügung gestellt wurden, wurden
durch das vorgestellte Projektor-Kamera System aufgenommen.
Zunächst wurde ein Video mit 60 fps aufgenommen, wobei sich die Einzelbilder in zwei Gruppen unterscheiden lassen. Wie Abbildung 6.4 illustriert, zeigt
jedes zweite Einzelbild einen unbeleuchteten Vordergrund und einen blauen
Hintergrund, der durch RK gleichmäßig erscheint. Während das die dazwischen befindlichen Bilder einen vollständig beleuchteten Vordergrund zeigen.
Die Blue-Screen-Aufnahme wurde unter den besten Bedingungen (Siehe Tabelle 6.1), welche im letzten Kapitel erläutert wurden, aufgenommen.
Zunächst wird das aufgenommene Video in zwei Videos gespalten, indem man
die gleichartigen Bilder der Reihe nach gruppiert. Dadurch bekommt man zwei
Videos mit jeweils 30 fps. Die beiden Videos werden in der professionellen
90
?
Ein Frame
?
?
?
?
Abbildung 6.5: Separation der zweiartigen Videobilder
Software3 als zwei sich überlappende Ebene bearbeitet. Jetzt taucht das Problem auf, dass in den beiden getrennten Videos abwechselnd das entsprechenTime warping 2
de Bild zum anderen Video fehlt, wie in Abbildung 6.5 dargestellt. Die roten
und grünen gestrichelten Quadrate kennzeichnen die fehlenden Bilder, die nur
im jeweils anderen Video enthalten sind. Die Kontinuität der Bewegung wird
quasi zeitlich diskret gemacht.
Eine Möglichkeit, die fehlenden Zwischenbilder zu approximieren bildet die
Interpolation. Man kann zwischen zwei Originalbildern pixelweise interpolieren und dadurch ein neues virtuelles Zwischenbild erzeugen. Das virtuelle Bild
ist nur eine Approximation des fehlenden Bildes, das mit dem Bild der unterliegenden Ebene synchronisiert werden muss. Abbildung 6.6 stellt diese Interpolation dar.
Jeder Ebene soll der Effekt des „Time-Warping“ hinzugefügt werden. Adobe After Effects Pro 7.0 verfügt über einen solchen zeitlichen Effekt, der auf
Deutsch „Zeitverkrümmung“ heißt4 . Mit diesem Effekt kann man die Wiedergabegeschwindigkeit ändern und die Interpolationsmethode für Erzeugung eines Zwischenbildes festlegen.
Danach werden die folgenden wichtigen Parameter für die Bestimmung der
Interpolation der Pixelbewegung und die Matte-Ebene angegeben.
• Pixelbewegung wird als Interpolationsmethode ausgewählt, weil dadurch
3 Adobe
After Effects Pro 1.5 und Plug-In dvMatte
4 http://help.adobe.com/de_DE/AfterEffects/8.0/help.html?content=WS641C5190-1DAD-
4150-B17F-F339C6DF1FB2.html
91
Interpolation
Interpolation
Interpolation
Time
warping 3 6.6:
Abbildung
Interpolation
Interpolation
Erzeugen des Zwischenbildes durch Interpolation
das Zwischenbild aufgrund der Analyse der Pixelbewegung in benachbarten Bildern und durch Erstellen von Bewegungsvektoren erzeugt wird.
• Wiedergabegeschwindigkeit stellt man auf 50% ein, damit nur ein Zwischenbild erstellt wird.
• Vektordetail bezeichnet die Anzahl der Bewegungsvektoren, die bei der
Interpolation berücksichtigt werden. Wenn man einen Vektor pro Pixel
einstellen möchte, so gibt man bei dieser Option den Wert 100 an. In diesem Beispiel reicht der Wert 20.
• Aus einem Bild erstellen gibt an, ob man das Zwischenbild aus den zwei
nächstgelegenen Einzelbildern erstellt.
• Filterung beeinflusst die Schärfe des Zwischenbildes.
• Fehlerschwellenwert gibt die Genauigkeit der Pixelübereinstimmung von
einem Bild zu nächsten an. Ein höherer Wert führt zu weniger Bewegungsvektoren und mehr Überblendungen.
• Gewichtung gibt die Gewichtung der drei Kanäle an und somit, wessen
Analyse am stärksten berücksichtigt werden soll.
92
• Bewegungsunschärfe verfügt über zwei Parameter, die die Intensität und
den Grad der Glättung der Bewegungsunschärfe bestimmen.
• Matte-Ebene und Matte Kanal definieren die Ebene, die als Matte verwendet werden soll.
• Quellbeschneidungen verbessert Artefakte an den Objektkanten.
Nach der sorgfältigen Einstellung sind die Bewegungen der beiden Videos
synchronisiert, die auf zwei Videospuren gelegt wurden. Wobei man darauf
beachten muss, dass das Blue-Screen-Video einen Frame nach hinten verschoben wurde. Zuerst wird nun auf das Blue-Screen-Video der Matte-Filter dvMatte angewendet. Man wählt zwei Referenz-Farben: einen hellsten blauen
Farbton und einen niedrigsten blauen Farbton. Als Ergebnis bekommt man ein
Graustufenbild, dessen Hintergrund noch nicht hundertprozentig schwarz ist.
Nach der Einstellung des Black-Point-Wertes bekommt man eine Base-Matte.
Black-Point stellt hier einen Schwellenwert dar, der zwischen 0 und 255 liegen. Alle Pixel, deren Grauwert unter dem Schwellenwert liegen, werden in
der Matte schwarz dargestellt. Pixel mit einem Grauwert größer oder gleich
dem Schwellenwert werden in der Matte auf weiß gesetzt. Nach Justierung
des Black-Point-Wertes wird man eine Base-Matte erhalten. Für transparente
Objekte und Details lassen sich weitere Parameter für eine Detail Matte (Siehe
5.2.2) anpassen um abschließend eine Final-Matte (Siehe 5.2.2) zu generieren.
Man kann nun diese Matte-Ebene mit der darunterliegenden Ebene (das Video
mit beleuchtetem Vordergrund) multiplizieren, in dem man den Effekt „Luminanzschablone“ auf die Blue Screen Ebene anwendet. Unter Luminanzschablone versteht man, dass die helleren Pixel der Ebene weniger transparent als
die dunklen Pixel sind. Daher bekommt man ein Bild mit dem Vordergrund
und schwarzem Hintergrund, was „separierter Vordergrund“ (Siehe Formel
6.1) genannt wird. Dann kopiert man die Blue-Screen-Ebene und legt sie über
die zu ersetzende Hintergrundebene. Durch die Option „Luminanzsilhouette“ wird aus den beiden Ebenen ein neuer „separierter Hintergrund“ (Siehe
Formel 6.2). Der neue Hintergrund kann ein stilles Bild oder auch ein Echtzeitvideo sein. Unter Luminanzsilhouette versteht man, dass die helleren Pixel
der Ebene transparenter sind als die dunklen. Die beiden Luminanz-Effekten
93
Eigenschaft des Vordergrundes
Normal
Detail
Transparenz
Reflektion
Motion-Blur
Projektionsflächen
Steinmauer Vorhang
*****
*****
****
***
****
nicht getestet
*****
*****
*
*
Tabelle 6.2: 9 Testfälle für den Flash-Chroma-Keying-Prototyp
fungieren nach den gleichen Prinzipien wie die Formel 6.1 und 6.2. Schließlich
fasst man den separierter Vordergrund und den separierter Hintergrund zusammen, indem man die Blue-Screen Ebene als bewegte Maske über die Füllebene zieht und dem Video mit beleuchtetem Vordergrund als Füllebene die
Option “Luma Matte“ gibt. Dieses Vorgehen ähnelt der Formel 6.3.
6.4.2 Auswertung
Insgesamt sind drei Testvideos aufgenommen worden. Diese ermöglichen es,
die folgenden neun Fälle zu testen. In der Tabelle 6.2 wird eine Bewertung
jedes einzelnen Falles auf Basis seiner visuellen Erscheinung angegeben. Das
Sternchen kennzeichnet den Grad der Keying-Qualität. Fünf Sternchen bedeutet sehr gute Qualität, während ein Sternchen die kritischsten Fälle kennzeichnet. Generell ist das Keying mit einer Steinmauer besser als mit einem Vorhang.
Weil der Vorhang über eine sehr breite Bandbreite an Farbtönen verfügt, ist das
Trennen von Hintergrund und Vordergrund mittels Chroma-Keying schwierig
zu realisieren.
Dieses Keying-Verfahren erziehlt eine sehr gute Qualität, wenn das Vordergrundobjekt ein normaler Gegenstand ist oder ein Gegenstand mit glänzender
Oberfläche, welche zu Reflektionen führt. Bei Transparenz und Semi-Transparenz
ist der visuelle Eindruck des Keyings für beide Projektionsflächen durchaus in
Ordnung (vgl. Abbildung 6.7 ( a) und (b)). Motion-Blur bringt dagegen immer
Problem. Wenn das Vordergrundobjekt sehr stark bewegt wird, taucht eine pixelweise Verschiebung auf. Der Grund dafür ist die gewisse Ungenauigkeit der
94
(a)
(b)
(c)
Abbildung 6.7: Testergebnis des Flash-Chroma-Keying: ( a) Vorhang: Detail
und Reflektion, (b) Steinmauer: Transparenz, (c) Steinmauer:
Motion Blur und Detail
Interpolation. Man kann zwar die Parameter im „Tuning“5 anpassen, damit
solche unerwünschten Vektorverzerrungen zu minimieren. Eine vollständige
Beseitigung der Vektorverzerrung ist jedoch durch die Interpolation schwierig. In Abbildung 6.7 (c) ist dieser Fehler auf dem Ärmel und auf dem Rand
der Hand zu sehen.
Je niedriger der Black-Point-Wert eingestellt wird, desto mehr Details gehen
verloren. Je gleichmäßiger der Hintergrund ist, desto kleiner kann den BlackPoint-Wert wählen. Zum Beispiel hat die Steinmauer einen einheitlicheren Hintergrund als der Vorhang. Die Haare vor der Steinmauer als Hintergrund werden weniger weggekeyt als vor dem Vorhang. Dies ist der Fall, da der Detailverlust der Haarspitzen mit der Steinmauer als Hintergrund viel geringer
ist als vor dem Vorhang. Visuell gesehen bleiben von den Haaren im Bild 6.7
(c) viel mehr Details erhalten als im Bild 6.7 ( a). Die Haare sind zwar in beiden Bildern nicht identisch, aber es ist sehr deutlich zu sehen, dass die Haare
vor dem Vorhang schlechter gekeyt werden als vor der Steinmauer. Der BlackPoint-Wert von der Steinmauer ist mehr als ein Drittel niedriger als jener von
dem Vorhang (siehe Tabelle 6.3). Somit ist der Detailverlust für beide Fälle unterschiedlich groß.
Das weitere Argument kann dieser Aussage zugunsten. Abbildung 6.8 demonstriert den Unterschied der Gleichmäßigkeit von der Steinmauer und von
dem Vorhang. Die beiden unkorrigierten Base-Mattes wurden verglichen un5 Unter
Effekt „TimeWarping“ zu finden.
95
Hintergrund
Steinmauer
Vorhang
Black-Point-Wert
53
83
Tabelle 6.3: Black-Point-Werte von Steinmauer und Vorhang
(a)
(b)
Abbildung 6.8: Vergleich der Gleichmäßigkeit der Projektionsflächen bei unkorrigiertem Base-Matte ( a) Steinmauer (b) Vorhang
ter Verwendung des Black-Point-Wertes 0. Das heißt, sie befinden sich im ursprünglichen Zustand nach dem Vergleich mit den Referenzfarben. Durch die
zwei unskalierten Base-Matten lässt sich eine visuelle Beurteilung der Gleichmäßigkeit der beiden Hintergründe treffen. Die Steinmauer hat wegen seiner
kleineren Farbbandbreite einen wesentlich geringeren Kontrast, während der
Vorhang trotz RK6 vergleichsweise unregelmäßige Farbtöne aufweist.
Die Einschränkungen der Farbtöne auf dem Vordergrund sind bei dem Verfahren überwunden. Aber ein anderes Problem taucht auf. Das ist das Highlight
des Glases wegen der Beleuchtung des Vordergrundes (vgl. Abbildung 6.4.2
( a)). Da das korrespondierende Bild, dessen Vordergrund unbeleuchtet ist, ein
ganz anderes Lichtverhältnis hat. Die Glasoberfläche empfängt nur minimal
Licht aus dem Projektor (vgl. Abbildung 6.4.2 (b)). Bei der Matte-Extraktion
gibt es an der Stelle, wo im beleuchteten Bild ein Highlight zu sehen ist, ganz
geringe Pixelintensitäten (sogar null, vgl. Abbildung 6.4.2 (c) und (d)). Durch
spätere Multiplikation des beleuchteten Bildes mit der null wird das Highlight
so dunkel, dass man es nicht mehr wahrnehmen kann. In Abbildung 6.4.2 (e)
verschwindet das Highlight des Composite-Bildes. Nur in dem Teil, bei dem
6 Radiometrische
Kompensation
96
(a)
(b)
(c)
(d)
(e)
Abbildung 6.9: Highlight Problem: ( a) Highlight im beleuchteten Bild (b)
Highlight von Projektor (c) unkorrigierte Base-Matte (d) korrigierte Base-Matte (e) Composite-Bild
highlighting
der Hintergrund durch Haare verdeckt ist, bleibt das Highlight noch sichtbar.
Das Glas ohne Highlight wirkt unrealistisch.
6.5 Testergebnisse
Das Testergebnis von Flash-Chroma-Keying ist durchaus zufrieden stellend.
Die Qualität ist das Beste, was man bisher getestet hat. Zusammenfassend lassen sich folgende Schlussfolgerungen ziehen:
1. Die Steinmauer kann sehr gut radiometrisch kompensiert werden, weswegen das Keying mit der Steinmauer als Projektionsfläche besonders
gut gelingt. Dieses Resultat ähnelt dem Resultat des Chroma-Keyings im
Abschnitt ??.
2. Der normale Gegenstand mit einer soliden Form und auch der Gegenstand mit glänzender Oberfläche können problemlos gekeyt werden. Dies
trifft ebenfalls auf das Chroma-Keying zu.
3. Die Gleichmäßigkeit der Projektionsoberfläche spielt eine entscheidende
97
Rolle für transparente oder halbtransparente Objekte. Wenn der Hintergrund kontrastreich ist, wird die Qualität des Keying solcher Objekte vermindert – vergleiche die Aussage über Chroma-Keying im Abschnitt ??.
4. Die Bewegungsunschärfe ist ein großes Problem jedes Keyingverfahrens.
Bei der Verwendung von Chrominanz-Informationen ist es schwer, den
gemischten Blauanteil im Vordergrund wegzubekommen. Genau so ist
das Keying mit temporalen Informationen kompliziert, da hier Bilder von
verschiedenen Zeitpunkten unter der Annahme verwendet werden, sie
seien zum gleichen Zeitpunkt aufgenommen. Deseiteren approximiert
die Interpolation die fehlenden Zwischenbilder, bzw. fehlenden Bewegungen nur. Für eine sehr schnelle Bewegung mit Bewegungsunschärfe
führt diese Approximation zu weiteren Abweichungen.
6.6 Diskussion und Fazit
Der Flash-Chroma-Keying Prototyp leistet gute Arbeit. Er hat gegenüber des
Chroma-Keyings oder des Flash-Keyings folgende Vorteile:
1. Es gibt hier keine Beschränkung der Vordergrundfarben mehr. Da das reine Flash-Keying auf dem Unterschied der Intensität basiert, werden schwarze Bereiche im Vordergrund nicht als solcher erkannt. Die Farbe blau ist bei
Chroma-Keying nicht im Vordergrund zu verwenden, weil sie als Hintergrund
weggekeyt wird. Da die Matte-Extraktion bei Flash-Chroma-Keying nur die
unbeleuchtete Filmsequenzen berücksichtigt, die einen fast7 schwarzen Vordergrund haben. Als Beispiel dient Abbildung 6.10, wo in beiden Bildern ein
bläuliches Haarband zu sehen ist. Beim Chroma-Keying wird das Haarband im
Composite-Bild als Loch (bzw. Hintergrund) dargestellt, während es im vorgestellten Kombi-Keying Verfahren noch perfekt vor dem neuen Hintergrund
dargestellt wird. Die schwarzen Haare sind ebenfalls problemlos von dem Hintergrund zu trennen.
2. Die ungewollte Beleuchtung des Hintergrunds mit dem Vordergrundlicht
7 Die
Intensitäten aller Pixel liegen nahe bei null.
98
FlashChroma Keying
Composite-Bild
Originalbild
Chroma Keying
Composite-Bild
Originalbild
Abbildung 6.10: Farbeinschränkung bei dem Chroma Keying
führt zu keinen Fehlern mehr, da während der Aufnahme des blauen Hintergrundes die LED-Beleuchtung ganz ausgeschaltet ist. Bei Chroma-Keying ist
auf dem Hintergrund manchmal ein violett zu sehen, da das Vordergrundlicht
den Hintergrund beleuchtet.
Aufgrund dieser Gegenüberstellung kann man sagen, dass der Flash-ChromaKeying-Prototyp definitiv eine Verbesserung des Chroma-Keyings darstellt. Jedoch ist auch dieses Verfahren nicht frei von Problemen. Das Hauptproblem
liegt hier in der Genauigkeit der Interpolation des Zwischenbildes bei schnellen Bewegungen.
Natürlich kann man durch eine sorgfältige Justierung der Parameter von entsprechender Software8 die Genauigkeit der Interpolation verbessern. Eine Verdopplung des Blitztaktes des LED-Beleuchtungssystems kann auch zur Verringerung der Interpolationsfehler beitragen. Wenn die LED-Beleuchtung 120mal
pro Sekunde ein- und ausschaltet wird, werden 120 Bilder auf zwei Arten aufgenommen. Die Anzahl jeder Art von Bildern beträgt 60. Der Unterschied zwischen zwei nächstgelegenen Bildern wird so gering, dass quasi identische Zwischenbilder in zwei Ebenen durch die Interpolation erzeugt werden können.
8 Hier
ist Adobe After Effects.
99
Aber dies bringt auch Nachteil. Wenn die Blitzdauer verkürzt wird, werden
die Bilder dunkel.
100
Dieses Kapitel schließt diese Arbeit ab. Es werden zunächst die drei betrachteten Keying-Verfahren zusammengefasst. Gefolgt wird dies von den Ergebnissen der Auswertung dieser Verfahren. Der letzte Abschnitt gibt einen Ausblick
auf die Zukunft des Keyings und des Augmented Studios.
7.1 Zusammenfassung
7.1.1 Chroma-Keying
Beim Chroma-Keying extrahiert man eine Matte anhand der Chrominanzinformationen des Bildes, also anhand der Farbwerte. Theoretisch kann man jede beliebige Farbe als Hintergrund definieren, aber meist wird grün oder blau
verwendet. In Augmented Studio verwendet man Blue-Screen-Verfahren. Die
meisten Keyer erlauben mittels eines Farbtoleranz-Reglers zu bestimmen, welche ähnlichen Farben auch noch zum Hintergrund gezählt werden sollen. Projiziert der Projektor zum Beispiel eine uniforme blaue Farbe auf einen Vorhang,
der sehr bunt ist, dann wird der Blue-Screen kontrastreichen Farbabstufungen
der Blaufarbtöne erhalten, die der Keyer nicht mehr klar zuordnen kann. Je
mehr Farbabstufungen existieren, desto höher muss der Farbtoleranz-Regler
gestellt werden, welcher in einer direkten Proportion zum Detailverlust steht.
Es kann sogar scheitern, eine vollständige Matte zu extrahieren. Die Radiometrische Kompensation hilft bei der Erzeugung eines scheinbar gleichmäßigen
blauen Hintergrundes. Der Kontrast des Hintergrundes wird somit verringert,
was zu weniger Detailverlust führt. Ziel der Evaluation war es, die Auswirkungen von RK für Chroma-Keying zu bestimmen. Das Ergebnis der Evaluati-
101
on ist die Schlussfolgerung, dass dieser Prototyp die besten Ergebnisse in einer
dunklen Umgebung liefert. Die Steinmauer als Hintergrund ist besser geeignet
für ein gelungenes Chroma-Keying als der bunte Vorhang.
Aber das Chroma-Keying hat einen grundlegenden Nachteil, welcher die Einschränkung des Vordergrundes auf nicht-blaue Farbtöne ist. Wenn der Moderator in einem TV Studio eine blaue Krawatte trägt, wird sie bei dem CompositeBild verschwinden. Bei der Beleuchtung des Vordergrundes taucht in manchen
Fällen ein Problem auf. Um man das Licht, das nur auf den Vordergrund fallen
darf, nicht auf den Hintergrund fallen zu lassen, muss eine gewisse Entfernung
zwischen Vorder- und Hintergrund eingehalten werden. Bei der Aufnahme
der Testfilme konnte der Vordergrund aufgrund der Räumlichkeit nicht ausreichend weit vom Hintergrund entfernt platziert werden. Deshalb wurde eine
normale Tischlampe eingesetzt, um für eine möglichst schwache Beleuchtung
des Vordergrundes zu sorgen. Das Bild wird bei schlechten Lichtverhältnissen
verrauscht aussehen.
7.1.2 Flash-Keying
Das Flash-Keying löst dieses Problem auf eine ganz andere Art. Ein auf einem Blitz-Mechanismus basiertes Beleuchtungssystem wurde hier eingesetzt.
Man schaltet eine LED-Beleuchtung mit einer kurzen Dauer ein und wieder
aus. Dadurch bekommt man ein Bild mit völlig beleuchtetem Vordergrund und
das nächste Bild mit völlig unbeleuchtetem Vordergrund. Da der Vordergrund
hinreichend beleuchtet ist, hat das Composite-Bild eine bessere visuelle Qualität. Allerdings ist der Vordergrund hier auf helle Farbtöne beschränkt. Sobald
schwarze Bereiche im Vordergrund auftauchen, kommt es zu Fehlern.
7.1.3 Flash-Chroma-Keying
Das Flash-Chroma-Keying ist – wie der Name vermuten lässt – ein KombiVerfahren, das zuerst die temporale Information benutzt, um zwei völlig unterschiedliche Arten von Videobildern zu erzeugen. Die eine Hälfte der Einzelbilder zeigt den unbeleuchteten Vordergrund und den projizierten Blue-Screen
102
im Hintergrund. Da der Vordergrund wie eine Silhouette auf dem blauen Hintergrund zu sehen ist, lässt sich eine Matte erstellen, indem man die blaue
Farbe wegkeyt. Die andere Hälfte der Einzelbilder – welche Vorder- und Hintergrund unter voller Beleuchtung zeigen – wurde nun bei Durchführung der
Composite-Operation verwendet, indem jeder Pixel des Bildes mit dem korrespondierenden Pixel der Matte multipliziert wird. Das Highlight auf dem
Glas im beleuchteten Bild wird hierbei zu einem Problem. Da im Unbeleuchten Bild an der entsprechenden Stelle das Highlight überhaupt nicht vorhanden ist, kann diese Multiplikation eine null ergeben, wodurch das Highlight
im Composite-Bild gänzlich verschwindet. Ohne Highlight sieht das Glas anschließend unrealistisch aus. Der Fakt, dass das Bild mit beleuchteter Szene an
der Matte-Erzeugung nicht beteiligt ist, erlaubt eine freie Farbwahl auf dem
Vordergrund. Besonders feine Objektkanten wie zum Beispiel Haare sind mit
der Kombi-Methode deutlich besser erhalten als in den zwei anderen Verfahren. Die Evaluation hat ergeben, dass das Keying unter Verwendung des FlashChroma-Keying-Prototyps die vergleichsweise beste Qualität liefert.
7.1.4 Gemeinsames Problem
Bei allen drei Keying-Verfahren ist die Bewegungsunschärfe ein großes Problem, da die Verfahren hier keine guten Ergebnisse liefern. Der blaue Anteil,
der mit blauem Hintergrund gemischt wurde, ist bei dem Chroma-Keying schwer
wegzukriegen. Deshalb bieten manche Keyingprogramme eine Bereichkorrektur für die Kantenfarben an, was sehr viel Zeitaufwand beansprucht.
Eine nicht identische Pixelverschiebung zweier überlappenden Bilder bei schnelleren Bewegungen verursacht eine Bewegungsunschärfe für das Flash-ChromaKeying. Die beiden Zwischenbilder, die jeweils durch Interpolation zweier Nachbarbilder erzeugt sind, liegen auf zwei Ebenen. Um ein Composite-Bild fertig
zu stellen müssen die beiden Videos über zeitlich exakt synchronisierte Pixelbewegungen verfügen. Durch Interpolation lässt sich jedoch immer nur ein
approximiertes Zwischenbild gewinnen, nicht zwangsläufig das exakte. Falls
nur ein winziger Fehler auftritt, wird man sofort darauf aufmerksam, da die
Szene dann fehlerhaft wirkt.
103
Um diese Problem zu lösen, kann man versuchen, den Blitztakt der LED Beleuchtung zu verdoppeln. Somit kann der Unterschied zwischen einem Videobild und dessen nächsten Videobild möglichst verringert werden.
Oder man kann anstatt der Chrominanz-Information und der temporalen Information die Tiefeninformation des Bildes anwenden.
7.2 Ausblick
Das Augmented Studio ermöglicht es, das herkömmliche TV-Studio zu ersetzen. Dabei werden die von üblichen TV-Studios verursachten hohe Produktionskosten sowie der Aufwand gesenkt werden können. Darüber hinaus öffnet
die Verwendung von Augmented Reality (AR) neue Perspektiven für Studiotechnik und TV-Produktionen.
Für diese Arbeit wurden 3 Keyingverfahren aufgebaut und getestet. Es gibt
jedoch noch weitere Möglichkeit, den Keying-Prototypen zu verbessern. Am
Anfang dieser Arbeit wurde ein Überblick über die verschiedenen KeyingVerfahren gegeben. Diese können als Anregungen für weitere Versuche dienen.
MCGUIRE und MATUSIK [MMP+ 05] schlugen ein Defocus-Matting unter Verwendung zweier Videokameras, die sich ein gemeinsames Projektionszentrum
teilen, vor. Dazu wurde ein Kamerasystem mit zwei Kameras und einem Beamsplitter konstruiert. Man lässt eine Kamera auf den Vordergrund fokussieren, die andere ist eine Pinhole-Kamera. Diese Einrichtung des KameraSystems kann für unser Projektor-Kamera-System eingesetzt werden. Angenommen kann dieses Keying-Verfahren als ein Kombi-Verfahren – ChromaDefocus-Keying genannt werden.
Angenommen, ein Projektor projiziert ein Hochfrequenzmuster auf einen beliebigen Hintergrund, der bekannt ist. Durch die Pinhole-Kamera wird man ein
Bild mit gleichem scharfen Vordergrund und Hintergrund aufnehmen. Die Kamera, die nur auf den Vordergrund fokussiert ist, erhält ein Bild mit scharfem
Vordergrund und defokussiertem Hintergrund. Das hat zur Folge, dass man
durch unterschiedliche Hintergründe mit gleichem Vordergründe eine Matte
104
extrahiert. I p ist das Pinhole-Kamera-Bild, B p ist sein Hintergrund. Iv ist das
Vordergrund-Fokus-Bild, Bv ist sein Hintergrund. Dann leiten sich aus der Formel 2.1 die folgende Gleichungen:
I p = α ∗ F + (1 − α ) ∗ B p ⇒ I p = α ∗ ( F − B p ) + B p
(7.1)
Iv = α ∗ F + (1 − α) ∗ Bv ⇒ Iv = α ∗ ( F − Bv ) + Bv
(7.2)
Aus den Formeln 7.1 und 7.2 ergibt sich:
α = 1−
I p − Iv
B p − Bv
(7.3)
Da B p und Bv bekannt sind, lässt sich nun der α-Wert ausrechnen.
Für die Beleuchtung des Vordergrundes kann man die LED-Beleuchtungseinheit
benutzen.
Es gibt noch viele Möglichkeiten, um ein gelungenes Keying zu erzielen. Die
Ideen sind unerschöpflich.
105
Literaturverzeichnis
[AB00]
A RIE B ERMAN, Paul V. Method for removing from an image the background surrounding a selected objekt. 2000 4.1.1
[AGB07a]
A NSELM G RUNDHÖFER, Ferry H. ; B IMBER, Oliver. Coded Projection
and Illumination for Television Studios. Eurographics 2007. 2007 6.2
[AGB07b] A NSELM G RUNDHÖFER, Ferry H. ; B IMBER, Oliver. Dynamic Adaption of projected Imperceptible Codes. Bauhaus-Universität Weimar.
2007 6.2.2
[BE00]
B EN -E ZRA, M.: Segmentation with Invisible Signal, 2000, S. 32–37
4.2.3
[Bri99]
B RINKMANN, Ron: The art and science of digital compositing. San
Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 1999. –
364 S. – ISBN 0–12–133960–2 2.1, 3, 3.1, 3.1.2, 3.2.1
[CCSS01]
C HUANG, Y. ; C URLESS, B. ; S ALESIN, D. ; S ZELISKI, R. A bayesian
approach to digital matting. 2001 4.1.1
[Chu04]
C HUANG, Yung-Yu: New models and methods for matting and compositing, Diss., 2004. – Chair-Brian Curless and Chair-David H. Salesin
(document), 4.2, 4.3, 4.5, 4.6
[Chu07]
C HUANG, Yung-Yu. Matting and compositing (lecture presentation).
2007 (document), 2.2, 3.5
[GB08]
G RUNDHÖFER, Anselm ; B IMBER, Oliver: Real-Time Adaptive Radiometric Compensation. In: IEEE Transactions on Visualization and
Computer Graphics 14 (2008), Nr. 1, S. 97–108. – ISSN 1077–2626 5.1
106
[GSAW05] G RADY, Leo ; S CHIWIETZ, Thomas ; A HARON, Shmuel ; W ESTER MANN , Rüdiger:
Random Walks for Interactive Alpha-Matting. In:
V ILLANUEVA, J. J. (Hrsg.): Proceedings of the Fifth IASTED International Conference on Visualization, Imaging and Image Processing. Benidorm, Spain : ACTA Press, Sept. 2005, S. 423–429 4.2.6
[JMA+ 07] J OSHI, Neel ; M ATUSIK, Wojciech ; AVIDAN, Shai ; P FISTER, Hanspeter ; F REEMAN, William T.: Exploring Defocus Matting: Nonparametric Acceleration, Super-Resolution, and Off-Center Matting.
In: IEEE Comput. Graph. Appl. 27 (2007), Nr. 2, S. 43–52. – ISSN
0272–1716 4.1.3
[Kan95]
K ANADE, T. Video-rate Z keying: a new method for merging images.
1995 4.2.2
[Ley07]
L EY, Christian; Mehnert M.: GPU-Based Background Illumination
Correction for Blue Screen Matting. In: Conference Proceedings of
the 11th IEEE International Symposium on Consumer Electronics 2007.
Dallas/Texas USA, 2007, S. 1912–1915 5.1
[Lot03]
L OTTENBURGER, Helmut. Analyse professioneller Keyingtechnologien
und -methoden. 2003 3.1.2
[MM05]
M C G UIRE, Morgan ; M ATUSIK, Wojciech: Defocus difference matting. In: SIGGRAPH ’05: ACM SIGGRAPH 2005 Sketches. New York,
NY, USA : ACM Press, 2005, S. 104 4.1.3, 4.2.4
[MM06]
M C G UIRE, Morgan ; M ATUSIK, Wojciech: Real-time triangulation
matting using passive polarization. In: SIGGRAPH ’06: ACM SIGGRAPH 2006 Sketches. New York, NY, USA : ACM Press, 2006. –
ISBN 1–59593–364–6, S. 88 4.2.3
[MMP+ 05] M C G UIRE, Morgan ; M ATUSIK, Wojciech ; P FISTER, Hanspeter ;
H UGHES, John F. ; D URAND, Frédo: Defocus video matting. In:
SIGGRAPH ’05: ACM SIGGRAPH 2005 Papers. New York, NY, USA
: ACM Press, 2005, S. 567–576 4.2.4, 7.2
[MR07]
M ARTIN R EISER, Günter Z.: 3D-CAM Tiefenkamera und Tiefen-
107
keying / Frauenhof-Institut LMK IMS. 2007. – Forschungsbericht
4.2.2
[MW98]
M ASAHIRO WATANABE, Shree K. N.: Rational Filters for Passive
Depth from Defocus, In Proceedings International Journal of Computer Version 27(3), 1998, S. 203–225 4.1.3
[OB91]
O. B EYER, V. Pieper J. T.: Wahrscheinlichkeits-rechnung und mathematische Statistik. Leipzig Deutschland : B.G.Teubner Verlagsgesellschaft K.-G, 1991. – 216 S. – ISBN 3–322–00802–9 2, 4.1.1, 3
[OBG07]
O LIVER B IMBER, Gordon W. ; G RUNDHÖFER, Anselm: The Visual
Computing of Projektor-Camera Systems. In: State of the Art Reports(STARs). Prague,Czech Republic : Eurographics 2007, 2007. –
ISBN 1017–4656, S. 23–46 5.2.1
[O.R05]
O.R USCH, U.Zölzer. Image Segmentation in Naval Ship Images. 2005
4.1.2
[PH05]
P ETER H ILLMAN, John H.: Natural Image Matting. In: Second International Conference on Video, Vision and Graphics, 2005, S. 211–218
(document), 4.4
[PJD01]
P., Hillman ; J., Hannah ; D., Renshaw: Alpha Channel Estimation in High Resolution Images and Image Sequences. In: CVPR01,
2001, S. I:1063–1068 4.1.1
[PPS03]
P ETER P EER, Jure K. ; S OLINA, Franc. Human Skin Colour Clustering
for Face Detection. 2003 3.1.2
[Rei98]
R EITAN, Paula J.: 3D visualization of color image histograms. In:
Comput. Netw. ISDN Syst. 30 (1998), Nr. 20-21, S. 2025–2035. – ISSN
0169–7552 3.1.2
[RK05]
R EINHARD, Erik ; K HAN, Erum A.: Depth-of-field-based alphamatte extraction. In: APGV ’05: Proceedings of the 2nd symposium on
Applied perception in graphics and visualization. New York, NY, USA
: ACM Press, 2005. – ISBN 1–59593–139–2, S. 95–102 4.1.3
108
[RKB04]
R OTHER, Carsten ; K OLMOGOROV, Vladimir ; B LAKE, Andrew:
GrabCut:̈ interactive foreground extraction using iterated graph
cuts. In: SIGGRAPH ’04: ACM SIGGRAPH 2004 Papers. New York,
NY, USA : ACM Press, 2004, S. 309–314 4.1.2
[RMA00]
RUZON M. A., TOMASI.: Alpha estimation in natural images. In:
In Proceedings of CVPR 2000 1 (2000), June, S. 18–25 4.1.1
[Rod07]
R ODNER, Erik. Segmentierung mit Graph-Cut-Methoden. 2007 4.1.2
[SB96]
S MITH, Alvy R. ; B LINN, James F.: Blue screen matting. In: SIGGRAPH ’96: Proceedings of the 23rd annual conference on Computer
graphics and interactive techniques. New York, NY, USA : ACM Press,
1996. – ISBN 0–89791–746–4, S. 259–268 4.2.3
[SH06]
S CHULTZ, C. ; H ERMES, Th:
Digital Keying Methods
/
Technologie-Zentrum Informatik (TZI), Universität Bremen. 2006.
– Forschungsbericht. TZI-Bericht Nr. 40 (document), 3.2, 3.5, 3.1.2,
3.6
[SJTS04]
S UN, Jian ; J IA, Jiaya ; TANG, Chi-Keung ; S HUM, Heung-Yeung:
Poisson matting. In: SIGGRAPH ’04: ACM SIGGRAPH 2004 Papers.
New York, NY, USA : ACM Press, 2004, S. 315–321 (document), 4.9,
4.1.1
[Smi95]
S MITH, A. Alpha and the History of Digital Compositing. 1995 2, 2.3
[SZTS06]
S UN, Jian ; Z HANG, Weiwei ; TANG, Xiaoou ; S HUM, Heung Y.:
Background Cut. In: ECCV (2), 2006, S. 628–641 4.1.4
[Wac04]
WACKER, Holger: Adobe Premiere Pro Kompendium - Video digital:
Schnitt, Effekte. München, Deutschland : Markt und Technik; Auflage: 1, 2004. – 662 S. – ISBN 3827266629 5.2.2
[Wri02]
W RIGHT, Steve: Digital Composition for Film and Video. Focal Press
Visual Effects and Animation, 2002. – 451 S 3.1.2, 3.2.1, 6.3.1
[YYB01]
Y URI Y. B OYKOV, Marie-Pierre J.: Interactive Graph Cuts for Optimal Boundary und Region Segmentation of Objects in N-D Images.
109
In: Internation Conference on Computer Vision. Vancouver, Canada,
July 2001 4.1.2
110

Evaluation der Keying-Techniken für das Augmented Studio

Transcription

Similar documents

Bedienungsanleitung - mitsubishi

kidzlife Messemagazin Januar 2014 - 4

"B" und

Musicians Life_Ausgabe_01.06