Evaluation der Keying-Techniken für das Augmented Studio
Transcription
Evaluation der Keying-Techniken für das Augmented Studio
Evaluation der Keying-Techniken für das Augmented Studio (Offline) von Fu, Man-Man aus China Bachelorarbeit eingereicht an der Fakultät Medien (Fachbereich Mediensysteme) zum Erreichen des akademischen Grades B ACHELOR OF S CIENCE an der B AUHAUS -U NIVERSITÄT W EIMAR Betreuer der Arbeit: Jun. Prof. Dr. Oliver Bimber Bauhaus-Universität Weimar Erstbetreuer Prof. Dr. Charles Albert Wüthrich Bauhaus-Universität Weimar Zweitbetreuer Tag der Einreichung: 10. Januar 2008 Erklärung Hiermit erkläre ich, dass ich diese Arbeit selbstständig erstellt und keine anderen als die angegebenen Hilfsmittel benutzt habe. Weimar, den 10. Januar 2008 Man-Man Fu Kurzfassung Mit Hilfe von Blue-Screen-Verfahren in virtuellen Studios ist es möglich, Videoaufnahmen von realen Szenen mit zusätzlichem Bildmaterial, wie zum Beispiel Computergrafiken, zu überlagern. Das virtuelle Studio beschränkt sich auf eine spezielle Aufnahmeumgebung und dadurch erhebliche Produktionskosten verursachen können. Das Augmented Studio ist ein Anwendungsbeispiel der Juniorprofessur Augmented Reality an der Fakultät Medien der Bauhaus-Universität Weimar für TV-Produktion. In diesem Studio wurden drei Prototypen für KeyingVerfahren gebaut, um Ersatzmöglichkeiten des herkömmlichen Studios zu finden. Die drei Prototypen sind Chroma-Keying, Flash-Keying und Flash-ChromaKeying. Ein Projektor-Kamera-System kann einen Blue-Screen auf beliebige Hintergründe, wie zum Beispiel auf eine Steinmauer, eine Tapete oder einen Vorhang durch ein spezielles Verfahren erzeugen. Dieses Verfahren verwendet eine radiometrische Kompensation1 . Dadurch wird ein scheinbar uniformer Blauhintergrund für das Chroma-Keying geschaffen. Der Flash-KeyingPrototyp wird mit Hilfe einer LED-Beleuchtung, die mit dem Projekt-KameraSystem synchronisiert und pro Sekunde 60mal auf den Vordergrund beleuchtet wird, realisiert. Dadurch werden 120 Bilder pro Sekunde auf zwei Arten aufgenommen: Ein Einzelbild ist mit voll beleuchtetem Vordergrund, während das nachfolgende Einzelbild den Vordergrund unbeleuchtet aufnimmt. Man extrahiert eine Matte aufgrund der Differenz dieser zwei Arten von Bildern. Eine Kombination der beiden Keyings heißt hier das Flash-Chroma-Keying, bei dem eine Blitzfrequenz von 30 Hz eingestellt ist. 1 Abkürzung: RK II Kurzfassung In dieser Arbeit wurde der Schwerpunkt auf die Evaluation dieser drei KeyingTechniken gelegt, um das Potenzial des Augmented Studios zu untersuchen. Aus den Ergebnissen der vorgelegten Arbeit sind folgende Schlüsse zu ziehen: Die radiometrisch kompensierten Hintergründe sind für ein erfolgreiches Keying sehr wichtig. Vor allem bei einer niedrigen Umgebungshelligkeit bekommt man die beste Matte. Generell ist eine Trennung des Vordergrundes von dem Hintergrund für ein opakes Objekt wie zum Beispiel eine Hand mit wenig Detailverlust realisierbar. Schwierig wird das Keying von den transparenten oder halbtransparenten Gegenständen wie Glas oder Haare. Der Nachteil von dem Chroma-Keying ist die farbliche Einschränkung der Vordergrundobjekte. Das Flash-Keying liefert zwar keine schelchten Ergebnisse, jedoch muss man Schwellwerte manuell einstellen, um ein gutes Ergebnis zu erzielen. Da die Hintergründe wegen der Marker für Kameratracking unterschiedlich sind, entsteht das Matte-Bild auf dem Hintergrund mehr oder weniger Rauschen. Das Flash-Keying ist außerdem sehr sensitiv für schwarze Oberfläche oder ähnliche auf dem Vordergrund. Der Flash-Chroma-Keying-Prototyp ist eine Erweiterung des Flash-Keying-Prototyps und des Chroma-Keying-Prototyps. In diesem Prototyp werden Farbinformationen und temporale Informationen verwendet. Dieser erlaubt es, eine beliebige Farbe der Vordergrundobjekte auszuwählen, was ihn von den anderen beiden Prototypen unterscheidet. Die Bewegungsunschärfe bringt vor allem Problem bei den drei Keying-Prototypen. Aufgrund der visuellen besseren Keying-Qualität und der freien Farbwahl für den Vordergrund hebt sich das Flash-Chroma-Keying von den restlichen Verfahren ab. Zudem wurden Keyingtechniken in dieser Arbeit vorgestellt, die im Rahmen von Augmented Studio eingesetzt werden können. III Danksagung Mein besonderer Dank gilt Herrn Prof. Dr. Oliver Bimber, der es mir ermöglichte an diesem interessanten Thema zu arbeiten, für die ausgezeichnete Betreuung dieser Arbeit und die vielen hilfreichen Gespräche und Anregungen. Ein weiterer Dank geht an Herrn Prof. Dr. Charles Albert Wüthrich für das Lesen meiner Arbeit. Ein spezieller Dank geht an Anselm Grundhöfer, der mich bei dem Aufbau der Testumgebung unterstützt hat. Ganz besonders bedanken möchte ich mich bei Daniel Kurz, der mir Hilfestellungen zur praktischen Umsetzung gegeben hat. Ganz persönlich möchte ich mich bei meinen Eltern und Feng He bedanken, die mir stets Mut und Unterstützung gegeben haben. Dankbar bin ich für Erich Bruns, Sebastian Thiele, Martin Triebel, Arnd Oberländer, Anselm Grundhöfer und Daniel Kurz, die diese Arbeit sprachlich korrigiert haben. Während meiner Zeit in Weimar habe ich die gute Zusammenarbeit und die angenehme Arbeitsatmosphäre mit AR Labor Kollegen genossen. Danke Frau Zsuzsanna Walz für ihre Freundlichkeit und Hilfsbereitschaft. IV Inhaltsverzeichnis Kurzfassung II Danksagung IV Abbildungsverzeichnis XI Tabellenverzeichnis XII 1 Einleitung 1 1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Vorschau der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Kapitelübersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Grundlagen des digitalen Compositing 6 2.1 Was ist Matting und Keying . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Compositing-Gleichung . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 Allgemeine Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3 Keying mit bekanntem Hintergrund 3.1 3.2 Einfarbiger Hintergrund . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.1 Luma-Key . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.2 Chroma-Key . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Mehrfarbiger Hintergrund . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.1 3.3 Difference-key . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Hilfe Matte: Garbage-Matting . . . . . . . . . . . . . . . . . . . . . 22 4 Keying mit unbekanntem Hintergrund 4.1 11 23 Offline Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 V Inhaltsverzeichnis 4.2 4.1.1 Trimap-basierte Verfahren . . . . . . . . . . . . . . . . . . . 23 4.1.2 Segmentierungsbasierte Verfahren . . . . . . . . . . . . . . 34 4.1.3 Defocus Matting . . . . . . . . . . . . . . . . . . . . . . . . 36 4.1.4 Flash Matting . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Real-time Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.2.1 Hardwarekeyer für den Studioeinsatz . . . . . . . . . . . . 44 4.2.2 Matting von Tiefeninformationen . . . . . . . . . . . . . . 45 4.2.3 Polarization-Matting . . . . . . . . . . . . . . . . . . . . . . 48 4.2.4 Defocus-Difference-Matting . . . . . . . . . . . . . . . . . . 50 4.2.5 Flash-Keying (bbc) . . . . . . . . . . . . . . . . . . . . . . . 50 4.2.6 Soft Scissors . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5 Auswertung der Chrominanz-Methode 54 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.2 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.3 5.2.1 Die Aufnahme der Eingangsmaterialien . . . . . . . . . . . 55 5.2.2 Keying der aufgenommenen Videos . . . . . . . . . . . . . 61 5.2.3 Auswertung der Compositing-Qualität . . . . . . . . . . . 64 Unterschiedliche Testbedingungen . . . . . . . . . . . . . . . . . . 67 5.3.1 Unterschiedliche Umgebungshelligkeiten . . . . . . . . . . 67 5.3.2 Unterschiedliche Hintergründe . . . . . . . . . . . . . . . . 69 5.3.3 Unterschiedliche Testobjekte . . . . . . . . . . . . . . . . . 72 5.3.4 Mit der radiometrischen Kompensation oder ohne RK . . 75 5.4 Testergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.5 Diskussion und Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . 81 6 Auswertung der temporalen Methode 82 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.2 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.3 6.2.1 Hardware und Software . . . . . . . . . . . . . . . . . . . . 83 6.2.2 Flash-Keying-Prototyp . . . . . . . . . . . . . . . . . . . . . 85 6.2.3 Flash-Chroma-Keying-Prototyp . . . . . . . . . . . . . . . 86 Flash-Keying-Prototyp . . . . . . . . . . . . . . . . . . . . . . . . . 87 6.3.1 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 VI Inhaltsverzeichnis 6.3.2 6.4 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Flash-Chroma-Keying-Prototyp . . . . . . . . . . . . . . . . . . . . 90 6.4.1 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.4.2 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.5 Testergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.6 Diskussion und Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . 98 7 Zusammenfassung und Ausblick 7.1 7.2 101 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 7.1.1 Chroma-Keying . . . . . . . . . . . . . . . . . . . . . . . . . 101 7.1.2 Flash-Keying . . . . . . . . . . . . . . . . . . . . . . . . . . 102 7.1.3 Flash-Chroma-Keying . . . . . . . . . . . . . . . . . . . . . 102 7.1.4 Gemeinsames Problem . . . . . . . . . . . . . . . . . . . . . 103 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 VII Abbildungsverzeichnis 1.1 Chroma-Keying Evaluation ErsteReihe(Vertikal ) Steinmauer, Tapete und Vorhang als Projektionsflächen ZweiteReihe(Vertikal ) Blue-Screens DritteReihe(Vertikal ) Blue-Screen Aufnahmen mit unterschiedlichen Vordergrundobjekte VierteReihe(Vertikal ) Mattes Fn f teReihe(Vertikal ) Composite-Bilder . . . . . . . . . . . . . 1.2 3 Prinzip des Flash-Chroma-Keyings ( a) Bild mit unbeleuchtetem Vordergrund und dem Blauhintergrund (b) Bild mit beleuchteter Szene (c) Matte (d) Invertierte Matte (e) neuer Hintergrund ( f ) separierter Vordergrund ( g) separierter Hintergrund (h) CompositeBild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1 Keying ( a) Fliegender Superman (b) Superman Green-Screen Aufnahme ( Bildquelle : http : //www.superman − returns.in f o/cpg133) 2.2 Digitales Compositing . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1 Luminanz Key . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2 LumaKey Skalierungsoperation [SH06, Seite 8] . . . . . . . . . . . 13 3.3 Schritte des Farbdifferenz Keys . . . . . . . . . . . . . . . . . . . . 17 3.4 3D RGB Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.5 3D-Keyer ( a) Blue-Screen-Aufnahme (Bildquelle: [Chu07, Seite 14]); (b)Farbclustering, F: Vordergund, B: Hintergrund (Bildquelle: [Chu07, Seite 14]); (c) zwei Kugeln mit gemeinsamem Mittelpunkt und unterschiedlichen Radien; Pixel innerhalb S1 sind vollständig durchsichtig, Pixel innerhalb S2, außerhalb S1 sind halbtransparent, Pixel außerhalb S2 sind nicht durchsichtig (Bildquelle:[SH06, Seite 13]); (d) Konvexe Hülle schließt die Hintergrundpixel ein (Bildquelle:[SH06, Seite 14]). . . . . . . . . . 19 VIII 7 Abbildungsverzeichnis 3.6 Ermittelung der Sichtbarkeit für einen Pixel unter Verwendung der Kugeln für Toleranz und Weichheit (Bildquelle: [SH06], editiert) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.1 KnockOut2 für Adobe Photoshop ( a) Originalbild; (b) Außenlinie und Innenlinie; (c) Composite; (d) Trimap. . . . . . . . . . . . 24 4.2 KnockOut Algorithmus (Bildquelle: [Chu04], editiert) . . . . . . . 25 4.3 Ruzon und Tomasi Algorithmus (Bildquelle: [Chu04], editiert) . . 26 4.4 Clustering der Farben im RGB Raum(Bildquelle: [PH05]) . . . . . 28 4.5 Hillman Trimap-Algorithmus (Bildquelle: [Chu04], editiert) . . . 28 4.6 Bayesian Trimap-Algorithmus (Bildquelle: [Chu04], editiert) . . . 29 4.7 Skizze des Wahrscheinlichkeitstheorems ( a) Ereignis A unter Voraussetzung B; (b) Anwendung für Matte-Extraktion. . . . . . . . 30 4.8 MAP Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.9 Grenzbedingungen des Poisson-Mattings. ( a) Global-Poisson-Matting: Trimap {Ω F , Ω B , Ω} wurde vom Nutzer spezifiziert. δΩ ist der Außenrand von der unbekannten Region Ω. (b) Local-PoissonMatting: Nutzer wählen eine lokale Region Ω L aus. δΩ ist Außenrand von der lokalen unbekannten Region Ω ∩ Ω L (Bildquelle: [SJTS04]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.10 Segmentierung für ein 3 × 3 Bild. . . . . . . . . . . . . . . . . . . . 35 4.11 GrabCut. ( a) Material. (b) Segmentierung. (c) Markierungslasso. (d) Markierungsrechteck. . . . . . . . . . . . . . . . . . . . . . 36 4.12 Szenario von „Depth from Defocus“ . . . . . . . . . . . . . . . . . 38 4.13 Vordergrund Flash Matting. ( a) Flash Bild. (b) No-Flash Bild. (c) Flash-only Bild. (d) Matte . . . . . . . . . . . . . . . . . . . . . . . 43 4.14 5-Augen Kamerakopf von CMU Video-Rate Stereo Maschine . . . 45 4.15 ZCAM: Depth is key . . . . . . . . . . . . . . . . . . . . . . . . . . 47 IX Abbildungsverzeichnis 4.16 Prinzip des Polarisationskeys: ( a) Polarisiertes Hintergrundlicht und unpolarisiertes Vordergrundlicht betritt die Kamera. (b) Der Beamsplitter spaltet das Licht durch Polarisation, um „In-Phase“ und „Out of Phase“ Bilder zu erzeugen. (c) „In-Phase“ Bild mit einem helleren Hintergrund. (d) „Out of Phase“ Bild mit einem dunkleren Hintergrund. (e) Die absolute Differenz zwischen (c) und (d). ( f ) Matte. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.17 Trimap von Soft Scissor . . . . . . . . . . . . . . . . . . . . . . . . 51 4.18 Random Walk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.1 Projektor-Kamera-System für Blue Screen . . . . . . . . . . . . . . 57 5.2 Hintergründe im Vergleich. ( a) Steinmauer (original) (b) Steinmauer (mit RK) (c) Steinamer (ohne RK) (d) Vorhang (original) (e) Vorhang (mit RK) ( f ) Vorhang (ohne RK) ( g) Tapete (original) (h) Tapete(mit RK) (i ) Tapete (ohne RK) . . . . . . . . . . . . 58 5.3 Keying-Vorgang von der dvMatte . . . . . . . . . . . . . . . . . . . 63 5.4 Justierung von der Base-Matte ( a) Das Original-Videobild vor dem unkompensierten blauen Hintergrund „Steinmauer“ unter Beleuchtungsstufe 1 (Sehe Tabelle 5.1) (b) Auswahl der zwei Referenzfarben (c) Unkorrigierte Base Matte (d) Korrigierte Base Matte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.5 RGB Verteilung für die Steinmauer in 4 Helligkeitsstufen (ohne RK) ( a) − (d) entspricht den Stufen 1 − 4 . . . . . . . . . . . . . . 68 5.6 Material der Hintergründe in RGB Parade ( a) Ideal weiße Leinwand (b) Steinmauer (c) Tapete (d) Vorhang . . . . . . . . . . . . 70 5.7 Steinmauer ohne RK der Helligkeitsstufe 1 ( a) original-Videobild (b) Base-Matte (c) Final-Matte (d) Compositing . . . . . . . . . . 71 5.8 Tapete ohne RK der Helligkeitsstufe 3 ( a) original-Videobild (b) Base-Matte (c) Final-Matte (d) Compositing . . . . . . . . . . . . 71 5.9 Vorhang ohne RK der Helligkeitsstufe 3 ( a) Original-Videobild (b) Base-Matte (c) Final-Matte (d) Compositing . . . . . . . . . . 72 X Abbildungsverzeichnis 5.10 Compositingbilder mit verschiedenen Objekten ( a) Vorhang, Stufe 1, mit RK, Normal (b)Tapete, Stufe 2, mit RK, Detail (c) Tapete, Stufe 2, mit RK, Transparent (d) Steinmauer, Stufe 3, mit RK, Reflektion (e) Steinmauer, Stufe 1, mit RK, Motion Blur . . . . . . 73 5.11 Steinmauer - Normal - Stufe 1 . . . . . . . . . . . . . . . . . . . . . 75 5.12 Vorhang - Detail -Stufe 2 . . . . . . . . . . . . . . . . . . . . . . . . 76 5.13 Steinmauer - Reflektion - Stufe 3 . . . . . . . . . . . . . . . . . . . 77 5.14 Tapete - Transparenz - Stufe 4 . . . . . . . . . . . . . . . . . . . . . 78 5.15 Steinmauer Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.16 Tapete Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.17 Vorhang Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.1 Flash-Keying Studioaufbau ( a) Koaxiale Kamera (b) Synchronisationseinheit (c) LED-Beleuchtungseinheit ( Bildquelle : http : //www.uni − weimar.de/medien/ar/g f x/research70. jpg) . . . . 84 6.2 Implementation des Flash-Keyings . . . . . . . . . . . . . . . . . . 88 6.3 Ergebnis des Flash-Keyings . . . . . . . . . . . . . . . . . . . . . . 89 6.4 Aufnahme der Eingangsmaterialien . . . . . . . . . . . . . . . . . 90 6.5 Separation der zweiartigen Videobilder . . . . . . . . . . . . . . . 91 6.6 Erzeugen des Zwischenbildes durch Interpolation . . . . . . . . . 92 6.7 Testergebnis des Flash-Chroma-Keying: ( a) Vorhang: Detail und Reflektion, (b) Steinmauer: Transparenz, (c) Steinmauer: Motion Blur und Detail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 6.8 Vergleich der Gleichmäßigkeit der Projektionsflächen bei unkorrigiertem Base-Matte ( a) Steinmauer (b) Vorhang . . . . . . . . . 96 6.9 Highlight Problem: ( a) Highlight im beleuchteten Bild (b) Highlight von Projektor (c) unkorrigierte Base-Matte (d) korrigierte Base-Matte (e) Composite-Bild . . . . . . . . . . . . . . . . . . . . 97 6.10 Farbeinschränkung bei dem Chroma Keying . . . . . . . . . . . . 99 XI Tabellenverzeichnis 5.1 Aufnahmeplan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2 Überblick des gängigen DV-Formats . . . . . . . . . . . . . . . . . 62 6.1 Beste Testbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.2 9 Testfälle für den Flash-Chroma-Keying-Prototyp . . . . . . . . . 94 6.3 Black-Point-Werte von Steinmauer und Vorhang . . . . . . . . . . 96 XII 1 Einleitung 1.1 Motivation Im Gebiet der digitalen Postproduktion wird das digitale Compositing von mehreren Videobildern immer bedeutsamer. Großartige Kinofilme und moderne Fernsehsendungen sind ohne synthetische Bilder kaum noch vorstellbar. Die Technik, die künstliche und reelle Bilder kombiniert, nennt man „Keying(Matting)“. Diese Technik erlaubt es, aufgenommene Objekte vor einem neuen Hintergrund darzustellen. Das Ziel der Forschung in diesem Bereich ist die Generierung eines synthetischen Bildes, das durch Betrachter nicht von einem klassischen aufgenommenen Bild zu unterscheiden ist. Jun. Professor Dr. Bimber und seine Studenten haben ein Augmented Studio für TV-Produktion aufgebaut, dass der spezielle virtuelle Effekt eingesetzt werden konnte. Kürzlich wurde ein Projekt eingerichtet, dass sich mit KeyingVerfahren beschäftig. Dafür wurden drei Prototypen des Keyings gebaut. Ein Chroma-Keying wird mit Hilfe der Projektor-Kamera-Kalibrierung und der radiometrischen Kompensation an beliebigen Orten unter bestimmter Umgebungshelligkeit realisierbar. Das Flash-Keying extrahiert eine Matte an hand der Intensitätsdifferenz zwischen dem „beleuchteten Bild“ und dem „unbeleuchteten Bild“. Die Kombination des Chroma-Keyings mit dem Flash-Keying ist durch einen Flash-Chroma-Keying-Prototyp realisiert. Bisher blieb die Frage offen, wie gut die Ergebnisse des Keyings basierend auf dem vorhandenen System sind. Sie hat mir Denkstöße gegeben. Ich arbeit gerne bei der Filmaufnahme und Filmschnitt. Mit Filmeffekt sowie Keying bin ich bereits vertraut. Aufgrund dessen habe ich es mir als Aufgabe dieser Arbeit gestellt, unterschiedliche Keying-Verfahren in dieser Umgebung zu evaluieren und zu entwickeln. 1 1 Einleitung Dieses Thema wird man zu folgenden Fragen geführt: Seit wann gibt es Filme mit Keying? Welche mathematischen Funktionen verbergen sich hinter dieser Technik? Was ist der heutige Stand der Forschung? Welche wichtigen Ansätze und Methoden existieren in diesem Bereich? Welcher Einfluss hat die radiometrische Kompensation für das Chroma-Keying-Verfahren? Wie gut kann die Kombination mit Flash-Keying funktionieren? Welche Möglichkeiten der Keyingtechnik für Augmented Studio sind noch vorhanden? Diese Fragen liefern die Grundlage für diese Arbeit. Es gibt mehrere Veröffentlichungen in diesem Gebiet. Es ist sinnvoll, die alle gängigen Keying-Algorithmen als eine Einführung für die Leser in eine geordnete Reihenfolge wiederzugeben. Die existierenden Keying-Algorithmen werden in dieser Arbeit zusammengefasst und vorgestellt. Die Auswertung der Verfahren wird detailliert dargestellt. Die resultierenden Ergebnisse dieser Arbeit sollen helfen, das Keying für Augmented Studio zu verbessern. 1.2 Vorschau der Ergebnisse In dieser Arbeit werden drei Prototypen des Keyings vorgestellt. Das ChromaKeying basiert auf Chrominanz-Informationen des Bildes. Der Projektor projiziert eine uniforme blaue Farbe auf den unterschiedlichen Hintergrundflächen. Wie Abbildung 1.1 darbietet, dass die Steinmauer, die Tapete und der Vorhang als Projektionsflächen eingesetzt wurden. Durch die Projektor-KameraKalibrierung und die radiometrische Kompensation1 wird ein scheinbar gleichmäßiger Blue-Screen generiert. Ein vergleich zwischen der Keying-Qualitäten bei Aktivierung und Deaktivierung der RK dient zur Beurteilung, ob die Verwendung der RK für Chroma-Keying hilfreich ist, ein erfolgreiches Keying zu erzielen. Aus den Ergebnissen dieser vorgelegten Arbeit ergibt sich die Schlussfolgerung, dass die RK für die Erzeugung eines regelmäßigen Hintergrundes sehr wichtig ist, was eine entscheidende Rolle für Chroma-Keying-Prototyp 1 Abkürzung: RK 2 1 Einleitung mit RK ohne RK Abbildung 1.1: Chroma-Keying Evaluation ErsteReihe(Vertikal ) Steinmauer, Tapete und Vorhang als Projektionsflächen ZweiteReihe(Vertikal ) Blue-Screens DritteReihe(Vertikal ) Blue-Screen Aufnahmen mit unterschiedlichen Vordergrundobjekte VierteReihe(Vertikal ) Mattes Fn f teReihe(Vertikal ) Composite-Bilder spielt. Abbildung 1.1 kann die Ergebnisse veranschaulichen. Die CompositeBilder ohne RK werden die diffus reflektierende Hintergründe hergestellt oder bei der Erhaltung der diffus freien Hintergründe die Vordergrunddetails verliert. Die Composite-Bilder mit RK hingegen bekommen wenigeren Detailverlust trotz der Erhaltung der diffus freien Hintergründe. Die Testvideos wurden unter unterschiedlichen Stufen der Umgebungshelligkeit aufgenommen. Aus der Evaluation ergibt sich, dass eine völlig dunkle Umgebung für die KeyingQualität günstig ist. Die Keying-Qualität unter den unterschiedlichen Vordergrundobjekten wurde ebenfalls ausgewertet. Das Flash-Chroma-Keiyng ist eine Kombination des Chroma-Keyings mit einem Flash-Keying. Die Kamera nimmt die Videobilder abwechselnd in zwei Arten mit Hilfe der LED-Beleuchtungseinheit, die mit dem Projektor und der Kamera synchronisiert, auf. Die LED-Beleuchtung blitzt die Szene pro Sekunde 30mal mit einer kurzen Dauer von 16,6 ms. Wenn die LED-Beleuchtung eingeschaltet ist, nimmt die Kamera ein Videobild mit beleuchteter Szene auf. 3 1 Einleitung (a) (c) (b) (f) * = (h) + (b) (d) = (g) (e) = * Abbildung 1.2: Prinzip des Flash-Chroma-Keyings ( a) Bild mit unbeleuchtetem Vordergrund und dem Blauhintergrund (b) Bild mit beFlash-chromakey leuchteter Szene (c) Matte (d) Invertierte Matte (e) neuer Hintergrund ( f ) separierter Vordergrund ( g) separierter Hintergrund (h) Composite-Bild Wenn sie ausgeschaltet ist, nimmt die Kamera ein Videobild mit unbeleuchtetem Vordergrundobjekt und einem radiometrisch kompensierten blauen Hintergrund. Die Videobilder mit beleuchteter Szene wurden aus dem gesamten Video aussortiert und in eigenes Video gefasst, wobei die Reihfolge unverändert geblieben ist. Wegen der Aussortierung des nächstgelegenen Bildes entsteht ein lückenhaftes Video, jedes zweite Bild ist im Video gefehlt. Ein Zwischenbild, das die Lücke füllen soll, wurde durch die lineare Interpolation zwischen je zwei benachbarten Videobildern generiert. Eine Matte von der unbeleuchteten Videobildern wurde mit dem Chroma-Keying extrahiert. Da die Matte-Extraktion nur abhängig von einer Bildart ist, existiert eine Einschränkung der Farben auf dem Vordergrund nicht. Diese erweiterte Methode kann als eine Verbesserung der vorherigen Prototypen angesehen werden. Abbildung 1.2 zeigt das Keying-Prinzip des Flash-Chroma-Keying-Prototyp. 1.3 Kapitelübersicht Dieser Abschnitt gibt einen Überblick über die einzelnen Kapitel dieser Arbeit und ihre Zusammenhänge. 4 1 Einleitung Die vorliegende Arbeit ist sich in 7 Kapitel gegliedert. Kapitel 1 ist die vorliegende Einleitung. Kapitel 2 beschreibt die Grundlage des digitalen Compositing und die allgemeinen Probleme. Kapitel 3 stellt das primitive Keyingverfahren vor. Je nach dem ob der Hintergrund bekannt ist, teilt man das Keying in 2 Kategorien auf, nämlich die primitive Keyingtechnik und die hochwertige Matte-Extraktion. Je komplizierter der Hintergrund ist, desto höher ist die Anforderung stellt an die Keyingtechnik. Kapitel 4 bildet den Schwerpunkt dieser Arbeit auf den unterschiedlichen Algorithmen der Keyingtechnik und gibt einen Überblick über den aktuellen Stand der Forschung des Keying(Matting)-Verfahren. Die Verfahren können in zwei Gruppen unterteilt werden: die Online-Verfahren haben den Vorteil, dass sie sehr schnell sind, während die Offline-Verfahren eine höhere Qualität erreichen können. Hier wird einige wichtige Algorithmen des Keying-Verfahrens vorgestellt. Kapitel 5 beschäftigt sich mit der Auswertung der Ergebnisse der ChrominanzMethode. Bei dieser ersten Methode wird das Chroma-Keying unter unterschiedlichen Lichtbedingungen mit speziellen Vordergrundobjekten und verschiedenen Hintergrundsituationen getestet. Ziel ist die Bestimmung der Beeinflussungsfaktor der Keying-Qualität. Anschließend wird das Testergebnis zusammengefasst und zur Diskussion gestellt. Kapitel 6 stellt die Ergebnisse der Auswertung der temporalen Methode in Kombination mit der Chrominanz- Methode dar. Die Frage, inwiefern die KeyingQualität durch das Hinzufügen des zeitlichen Faktors verbessert werden kann, ist noch offen. Das abschließende Kapitel fasst die Ergebnisse der Arbeit zusammen und schlag anhand der Auswertung weitere Verbesserungsmöglichkeiten des Keying-Studios vor. 5 2 Grundlagen des digitalen Compositing 2.1 Was ist Matting und Keying Man hat im Film viele wundervolle Szenen gesehen, wie zum Beispiel der fliegenden Superman (Siehe Abbildung 2.1). Aber Fliegen wie ein Vogel über einen Berg bleibt dem Menschen nur ein Traum. Ein Trick wurde im Film des Supermans eingesetzt, das so genannte Matting oder Keying. Matting (Matte) ist analog zu dem Begriff „Alpha Kanal“, der die Information über die Transparenz vom Pixel transportiert. Neben den drei Kanälen Rot, Grün und Blau (RGB) für die Farbdarstellung auf dem Bildschirm oder der CMYK -Kodierung für die Druckfarben wird über den Alpha-Kanal zusätzlich ein Byte pro Pixel für die Information über die Durchsichtigkeit benötigt. Damit lassen sich 256 Graustufen darstellen, die die Durchsichtigkeit, beziehungsweise Deckkraft des jeweiligen Pixels in einem Bild bestimmen. Ein weißer Pixel (255) im Alpha-Kanal erzeugt auf dem Monitor einen hundertprozentigen sichtbaren Pixel im Gesamt-Bild. Ein schwarzer Pixel (0) im Alpha-Kanal lässt das Gesamt-Bild an dieser Stelle durchsichtig erscheinen. Die Pixelwerte können auch zwischen 0 und 1 normiert werden. Filmindustrie verwendet oft diesen Begriff, während Fernsehproduktion „Key“ oder „Keying“ benutzt. Ein Key gibt an, welche Farbe oder welcher Bereich von Farben im Bild transparent wird. Solche weggekeyte Farben können für einen Monochrom-Hintergrund verwendet werden. z. B. für Blue Screen- oder Green Screen-Aufnahmen. Durch Matting und Keying [Bri99] wird das interessante Vordergrundelement extrahiert, das wiederum per Kompositing auf neuem Hintergrund platziert 6 2 Grundlagen des digitalen Compositing Abbildung 2.1: Keying ( a) Fliegender Superman (b) Superman GreenScreen Aufnahme ( Bildquelle : http : //www.superman − returns.in f o/cpg133) wird. Traditionelles Filmkompositing heißt auch optisches Compositing. Es basiert auf dem fotographischen und fotochemischen Prozess. Der Schauspieler wurde vor einer blauen Leinwand aufgenommen, dann konnte das Blau des Hintergrunds über einen Gelbfilter entfernt werden. Der Schauspieler wurde als Vordergrund aus dem blauen Hintergrund extrahiert und im Labor an neuen Kompositionen aus fantasievollen Filmstoffen geknobelt. Mit dem Zeitalter des Computers hielten auch die digitalen Effekte Einzug in den Film. Und so dauerte es nicht lange, bis Algorithmen entwickelt wurden, die die fotografischen Verfahren simulieren und somit ersetzen konnten. 2.2 Compositing-Gleichung Man betrachtet ein Bild (C ) als ein Compositing aus zwei Bildebenen, Vordergrund ( F ) und Hintergrund ( B). α ist der normalisierte Durchsichtigkeitsparameter. Er liegt zwischen 0.0 und 1.0. Dann ergibt sich folgende Gleichung: C = α ∗ F + (1 − α ) ∗ B Abbildung 2.2 demonstriert Gleichung 2.1. 7 (2.1) 2 Grundlagen des digitalen Compositing Abbildung 2.2: Digitales Compositing Für das Farbbild mit drei Farbkanäle Rot, Grün und Blau kann man aus Gleichung 2.1 ein Gleichungssystem 2.2 für das dreikanalige Compositing ableiten, wobei die untergestellte Buchstaben R, G und B die drei Kanäle kennzeichnen: CR FR BR CG = α FG + (1 − α) BG CB FB BB (2.2) (C ) ist gegeben. In diesem Gleichungssystem gibt es 3 lineare Gleichungen mit 7 Unbekannten FR , FG , FB , BR , BG , BB , α. Auf den ersten Blick ist dieses Problem unlösbar. YUNG-YU CHUNG [Chu07, Seite 19] fasste 3 Lösungsversuche zusammen. 1. Verringerung der Unbekannten: Falls Hintergrund ( B) bekannt ist, z.B. Blue-Screen, dann gibt es jeder Pixel 4 Unbekannte FR , FG , FB , α; Ein anderes Beispiel dafür ist das Differenz Matting, wo die beide Hintergründe vorgegeben werden. 2. Erweiterung der Beobachtung: Falls zusätzliche Informationen gefunden werden, dann kann man das Problem lösen. Ein Beispiel dafür ist die Triangulationsmethode, die von SMITH und BLINN [Smi95] vorgeführt wurde. In diesem Verfahren wurde das Objekt zweimal aufgenommen, einmal vor einem Blue-Screen, einmal ohne. 3. Hinzufügen des Priors: Benutzer skizziert vorab den Vordergrund. Was außerhalb des Umriss ist, wird weggekeyt. Oder man verwendet das Trimap-Verfahren, indem man das Bild in 3 Regionen segmentiert, nämlich Vordergrund, Hintergrund und Unbekannte Zone. 8 2 Grundlagen des digitalen Compositing Es gibt außerhalb der drei Methoden noch viele anderen Möglichkeiten. Allgemein gesagt, je komplexer der Hintergrund ist, desto schwerer ist die Trennung von Vorder- und Hintergrund. Viele Forscher haben versucht, Hardware und Software zum Gelingen des vernünftigen Keyings zu entwerfen. In den folgenden Abschnitten wird Ihnen ein kurzer Überblick über den Forschungsstand der Keying Technik gegeben. 2.3 Allgemeine Probleme Ein gelungenes Film-Compositing setzt voraus, dass die interessanten Vordergrundelemente sauber von dem ungewünschten Hintergrund extrahiert werden. Bei Keying treten vor allem 3 Problemfälle ein. Das erste Problem ist das so genannte „Hard Mask“. Man spricht von einer „binären“ Matte. SMITH [Smi95] spricht von „Bitmask“. Die Matte funktioniert wie ein Schalter, der nur zwei Zustände (0 oder 1) hat. Was der klassische analoge optische Druck genauso handhabt. Solche Matte ist durchaus einfach und schnell zu erzeugen, aber dadurch entsteht auch eine harte Kante, was beim Compositing unrealistisch erscheint. Es wird fast immer einen Übergang zwischen Vordergrund und Hintergrund gebraucht, welcher weder 100 Protzentisch Schwarz noch 100 Protzentisch Weiß ist. Darum wird eine weiche Kante benötigt. Ein Weichfilter für die Matte tut es hier sehr gut. Wünschenswert wäre ein Weichfilter anstatt auf die ganze Matte nur auf Kantenbereiche zu verwenden. Aber für die halbtransparenten Objekte wie zum Beispiel Glas und Haarspitzen kommt ein Weichfilter überhaupt nicht in Frage. Für Haare ist eine Präsizion erstrebenswert. Die Halb-Transparenz Information eines Glases ist schwer mit einer solchen „Hard Mask“ zu ermitteln. Insbesondere solche Pixel, die durch den Farbanteil des Vordergrundes und des Hintergrundes geteilt sind. Eine Möglichkeit, dieses Problem zu lösen ist das Hinzufügen eines AlphaKanals, wo jeder Pixel einen Transparenzwert zugewiesen bekommt. Wobei die Berechnung dieses Alphawertes nicht so einfach ist. Später wird es zeigen, 9 2 Grundlagen des digitalen Compositing dass die Forscher an verschiedenen Algorithmen arbeiten, um den Alphawert schnell und effizient auszurechnen. Die dritte unschöne Sache bei Keying ist das „Spill“. Wie vorher schon erwähnt, das ist oft schwierig, die ganz feinen Elemente, wie zum Beispiel die Haare, aus dem Hintergrund zu extrahieren. Bei Verwendung des Bluescreen-Verfahrens ist oft eine Einfärbung der Hintergrundfarbe an den Objektkanten wie zum Beispiel, den Haaren, den Armen sichtbar. Solche Effekte nennt man „Spill“. Spill entsteht, wenn Licht vom Blauhintergrund reflektiert wird. Momentan gibt es das Verfahren Despill, welches nichts anderes als eine Farbekorrektur ist. Ein bestimmter Farbkanal wird dabei unterdrückt. Zum Beispiel wird man den Blauanteil des Blue-Screens herabsetzen. Bei Compositing werden sie vor dem neuen Hintergrund nicht mehr auffallen. Wenn die Korrekturarbeit nur auf den Kantenbereich ausgeführt wird, dann bleibt der Farbwert des gesamten Bildes erhalten, was wünschenswert ist. Alle Probleme, die oben diskutiert werden, werden innerhalb des laufenden Kapitel noch nahe betrachtet werden. 10 3 Keying mit bekanntem Hintergrund Die Eigenschaft des Hintergrundes spielt bei den Keying-Verfahren eine entscheidende Rolle. Je uneinheitlicher die Hintergrundfarbe ist, desto schwieriger wird das Vordergrundobjekt von dem Hintergrund getrennt. Je komplizierter der Hintergrund ist, desto langsamer wird der Keying-Vorgang. Das Ziel in diesem Gebiet ist, von einem komplizierten Hintergrund, sogar wandelbarem [Bri99], das Vordergrundobjekt sauber und möglichweiser in Echtzeit zu extrahieren. Um einen gesamten Überblick zu geben, wird es bei primitivsten Keying-Verfahren anfängt. Unter bekanntem Hintergrund versteht man das Wissen der Hintergrundfarbinformation. 3.1 Einfarbiger Hintergrund BRINKMANN [Bri99, Seite 81] hat das Keying beim einfarbigen Hintergrund grob in 2 Kategorien unterteilt. Keying basiert auf der Luminanz-Information oder auf der Chrominanz-Information. Luminanz ist die Helligkeit eines Bildes, währen Chrominanz die Farbe eines Bildes entspricht. 3.1.1 Luma-Key Die Grundidee des Luma-Keys ist eine Extraktion aufgrund des Intensitätsunterschiedes zwischen Vordergrundobjekt und Hintergrund. Der LuminanzKeyer1 konvertiert ein 3 kanaliges RGB Farbbild in ein einkanaliges Graustufenbild. Das Konvertierungsgesetz lautet (Siehe Gleichung 3.1): 1 Keyer bedeutet ein Programm, das den Keying-Vorgang druchfürht. 11 3 Keying mit bekanntem Hintergrund Abbildung 3.1: Luminanz Key Luminanz = 0.30R + 0.59G + 0.11B (3.1) Das bedeutet, der Luminanz-Wert jedes Pixels ist eine Summe von 30% Rotanteil, 59 % Grünanteil und 11 % Blauanteil. Diese Gewichtung der drei einzelnen Farbkomponenten besagt, dass die menschlichen Augen bei Farbensehen unterschiedliche Helligkeiten wahrnehmen. Beispielsweise wird Grün heller als Rot und Blau wahrgenommen. Nachdem die Helligkeitsinformation gebildet wurde, legt man einen Schwellenwert fest, der zwischen 0 und 255 liegen. Alle Pixel, deren Grauwerte kleiner als der Schwellenwert oder deren Grauwerte größer als der Schwellenwert sind, werden weggekeyt. Das erzeugt eine „Bitmask“, harte Matte. Natürlich kann solche Matte noch zwei Skalierungsoperationen „Softness“ und „Tolerance“ hinzufügen. Wie Abbildung 3.2 zeigt. Die Weichheit(Softness) spiegelt die Steilheit des Übergangs zwischen schwarz und weiß wieder, während die Toleranz(Tolerance) nach der Breite des Luminanz-Wertes vom Minimum bis zum Maximum fragt. Der Mittelpunkt(Center) stellt den durchschnittlichen Luminanz-Wert der Matte dar. Dadurch wird der Luminanz-Wert jedes Pixels in der Matte skaliert. Anstatt einer harten Matte, ist das Resultat eine weiche Matte. Das Luma-Key kann praktisch angewendet werden, wenn ein sehr helles Objekt vor einem dunklen Hintergrund aufgenommen wird (vgl. Abbildung 3.1). Das ist zwar ein einfaches Verfahren, aber gegenüber Chromakey weniger se- 12 3 Keying mit bekanntem Hintergrund Abbildung 3.2: LumaKey Skalierungsoperation [SH06, Seite 8] lektiv. Wenn das Vordergrund-Objekt dunklere Stellen aufweist, werden die Löcher in der Matte entstehen können. 3.1.2 Chroma-Key Der Chroma-Keyer erstellt eine Matte aufgrund der Farbinformation. ChromaKey filtert alle Pixel heraus, die einer bestimmten Key-Farbe ähneln. Weil die Kamera das Licht in die drei Grundfarben Rot, Grün und Blau zerlegt und diese dann aufnimmt, für die Keyfarbe kann jede dieser drei Farben verwendet werden. In der Praxis kommt immer Blau oder Grün als Keyfarbe zur Anwendung. Bei Film- und Fernsehpostproduktion ist ein solcher Blue-Screen2 und Green-Screen3 am häufigsten eingesetzt worden. Die Menschen als Hauptdarsteller des Film und des Fernsehens müssen meistens von dem Hintergrund extrahiert werden. Um eine vernünftige Matte zu erzeugen, soll die Hintergrundfarbe möglichst nicht im Vordergrund vorkommen. Die Menschhaut hat wenigeren Farbanteil an Grün und Blau, deshalb werden Blau und Grün als Hin2 Seit langer Zeit wurde die Blaufarbe bei Film verwendet. Mit Gelbfilter konnte man die Keyfarbe ausfiltern. 3 Seit kurzer Zeit wird es beim digitalen Compositing immer mehr zum Einsatz gekommen, weil Blau höchste Farbrauschen hat. Nachteil von dem GreenScreen ist mehr Spill wegen der höheren Reflektion. 13 3 Keying mit bekanntem Hintergrund tergrundfarbe standardisiert. Die Frage, welches Verfahren, Blue-Screen oder Green-Screen, besser für die Matte-extraktion eingesetzt werden kann, bleibt individuell. Die Methoden, die anhand der Chrominanz-Information die Matte erstellen, sind folgende: HSL-Key WRIGHT hat in seinem Buch den HSL-Keyer beschrieben [Wri02, Seite 22]. Der Chroma-Keyer konvertiert ein RGB-Bild in HSL4 -Bild. H: Hue(Farbe), S: Saturation (Sättigung), L: Luminance(Helligkeit). Der Grund für diese Konvertierung ist, dass das HSL-Farbsystem über andere Eigenschaften als RGBFarbsystem verfügt. Wenn der Keyer beispielsweise die verschiedenen Farbsättigungswerte unterscheidbar machen muss, dann wird RGB nutzlos, weil es diese Eigenschaft gar nicht besitzt. Mit HSL wird mehr Spielraum bei Keying schaffen. Zuerst wählt man eine bestimmte Farbe als Keyfarbe aus, die das Zentrum des Chromakeys repräsentiert. Dann können noch verschiedene Toleranzen über Farbsättigungs- oder Helligkeitsbereiche variiert werden. Wie wird dieser Vorgang mathematisch formuliert? Angenommen es wird als Erstes eine Keyfarbe Hkey festlegt. Aufgrund der Beschränkung in der Beleuchtungstechnik, schaffen selbst professionelle Studios nicht vollständig gleichmäßige Hintergrundfarbe zu erzeugen. Um solche Unregelmäßigkeit der Hintergrundfarbe darzustellen, wird hier ein Toleranzwert zur Keyfarbe Th benötigt. Falls der Farbwert des Bildpixels H pixel in diesem Toleranzbereich ist, dann ergibt sich der Mattewert Hmatte von diesem Pixel 1, anderenfalls 0: ( Hmatte = 1 i f ( Hkey − Th ) < H pixel < ( Hkey + Th ) otherwise 0 4 Außerdem (3.2) existieren noch zwei andere Begriffe wie zum Beispiel HSV(Hue, Saturation, Value) oder HSB(Hue, Saturation, Brightness). 14 3 Keying mit bekanntem Hintergrund Unter gleichen Umständen werden zwei andere Parameter Smatte und Lmatte von dem HSL Farbsystem berechnet. ( Smatte = otherwise 0 ( Lmatte = 1 i f (Skey − Ts ) < S pixel < (Skey + Ts ) 1 i f ( Lkey − Tl ) < L pixel < ( Lkey + Tl ) otherwise 0 (3.3) (3.4) Dann werden die drei Resultate in einer finalen Mattewert M pixel zusammengefasst. M pixel = α ∗ Hmatte + β ∗ Smatte + γ ∗ Lmatte wobei α + β + γ = 1 (3.5) Der HSL-Chroma-Keyer hat zwei wichtige Vorteile sowohl bei der Auswahl einer beliebigen Farbe als Keyfarbe als auch bei der Variation der Sättigung und Helligkeit. Ein Beispiel dafür ist, wenn ein Schatten auf ein Gesicht geworfen wird, kann man mit Sättigungskontrolle und Helligkeitskontrolle feststellen, dass der Schatten nicht nur dunkler als die Gesichtshaut ist, sondern auch einen niedrigeren Sättigungswert besitzt. Das Problem bei dem Keyer ist in der Regel, dass eine harte Kante entsteht, wie vorher schon erwähnt wurde. Zudem wurde bereits diskutiert werden, dass der Chroma-Keyer Schwächen in halb-transparenten Bereichen hat und deshalb auch nur bedingt für Blue-Screen-Material geeignet ist. Das wird im späteren Kapitel mit sehr vielen Beispielen getestet. Color-difference-Key Der Farbe-Differenz-Key kann auf die „Color Difference Method“ von Petro Vlahos in den 60er Jahren zurückverfolgt werden. Ursprünglich war sie ein chemischer und optischer Prozess, der viel mehr in Filmproduktionen eingesetzt wurde. Der Farbe-Differenz-Key wird mit der Digitalisierungsentwicklung immer populärer. Er ist effektiver, weil er sehr saubere Kanten extrahie- 15 3 Keying mit bekanntem Hintergrund ren kann und gute Qualität bei Halb-Transparenzen hat. Dieser Keyer macht nicht nur die Extraktion der Matte, viel mehr kombiniert der dem umfassenden Prozess von Farbkorrektur, Matte-Extraktion und Bildkombination. Man legt dabei neben einem mittleren Farbwert auch eine gewisse Abweichung fest. Der Farbdifferenz-Keyer funktioniert besser, wenn eine der Grundfarben (Rot, Grün oder Blau) als Hintergrundfarbe verwendet wird. Dieser Key besteht aus drei Schritten. Angenommen es handelt sich um eine Blue-Screen-Aufnahme. Der erste Schritt führt eine Farbkorrektur auf dem Bild aus. Ziel ist es möglichst den blauen Hintergrund schwarz zu färben. Dies lässt sich leicht umsetzen, wenn jedem Pixel, dessen Blauanteil größer als dessen Grünanteil ist, der Wert des Grünanteils zugewiesen wird. Dadurch bekommt man ein neues korrigiertes Bild. In einer Art Pseudocode liest sich das wie folgt: I f Blau > Gr ün then NeuBlau = Gr ün (3.6) else NeuBlau = Blau Angenommen, das Originalbild hat einen reinen Blauwert auf seinem Hintergrund. Dann hat der Hintergrund von dem originalen Bild I drei Parameter Br , Bg und Bb , deren Wert nach Normierung zwischen 0 und 1 ist, hier I [0, 0, 1]. Nach Tausch zwischen Blau und Grün, wird ein neues Bild I 0 erzeugt. Dessen Wert ändert sich in I 0 [0, 0, 0], d.h. alle Hintergrundpixel werden auf 0 gesetzt. Das ist nur ein idealer Fall, normalerweise braucht man diese Vorgehensweise zur Elimierung des Blauanteils auf dem Vordergrund. Auf den Randbereichen des Vordergrundes kann der blaue Hintergrund durch das blaugetränkte Umgebungslicht unabsichtlich reflektiert werden. Dadurch entsteht das Spill-Problem, das vorher schon mal gesprochen wurde. Dies ist ein Schritt in die entgegengesetzte Richtung. Was für einen Blue-Screen sehr von Vorteil ist. BRINKMANN bezeichnet ein solches Verfahren als „Spill Suppression“ [Bri99, Seite 84], auch Anti-Spill genannt. 16 3 Keying mit bekanntem Hintergrund Kapitel 4 Chroma Key Originalbild 1 Korrigiertes Bild 2 Invertierte Matte 3 Matte * Composite * = Hintergrund Abbildung 3.3: Schritte des Farbdifferenz Keys Im zweiten Schritt wird die Matte generiert. Hierzu wird im Originalbild für jeden Pixel das Maximum des Rot- oder Grünwertes vom Blauwert subtrahiert. Auf diese Weise wird eine invertierte Matte generiert. InvertierteMatte = Blau − Maximum( Gr ün, Rot) (3.7) Weil der Mattewert wie üblich normiert wurde, erhält man die Matte, indem man die invertierte Matte von 1 abzieht. Matte = 1 − InvertierteMatte (3.8) Im dritten Schritt kombiniert man durch Addition und Multiplikation aller Elemente, die man bisher bekommen hat. Composite = Matte ∗ KorrigiertesBild + InvertierteMatte ∗ Hintergrund (3.9) Damit sind alle Bedingungen erfüllt, um ein ausgewogenes Ganzes zu bilden. Abbildung 3.3 zeigt den Vorgang noch einmal anschaulich. Viele professionelle Compositing Werkzeuge bieten die Spill Suppression an, 17 3 Keying mit bekanntem Hintergrund Cyan Blue White (0,255,255) (255,255,255) Magenta (255,0,255) (0,0,255) Yellow Green (255,255,0) (0,255,0) P2(r2,g2,b2) P1(r1,g1,b1) Red Black (0,0,0) (255,0,0) Abbildung 3.4: 3D RGB Raum aber sie kommt nicht ohne Preis. Während das blaue Spill vom ersten Schritt unterdrückt wird, wird der Vordergrundfarbton auch verändert. Manche Vordergrundobjekte wirken dann verwachend. Das beeinträchtigt natürlich die Compositing-Qualität. Diese Nebenwirkung kann man damit mindern, indem man die Vordergrundobjekte durch spezielle Masken explizit vor unerwünschter Änderung der Farbe schützt. 3D-Key Die RGB Farben können in einem dreidimensionalen Raum dargestellt werden, indem man die Farbwerte aller Bildpunkte im 3D Raum abbildet. Die X-, Y-, Z-Koordinaten entsprechen den RGB Farbwerten. REITAN sprach von einer räumlichen Aufteilung der Farbwerte auf einem Bild [Rei98], so eine Art wie Colour Clustering[PPS03]. Abbildung 3.4 (a) gibt uns eine Veranschaulichung des RGB-Raums in 3D. Die Grundidee hinter dem 3D-Key ist eine Gruppierung der gleichartigen Farbtöne im dreidimensionalen RGB Raum, danach kann der 3D-Keyer mit einem 3D Körper die Pixel, die zum Hintergrund gehören, einschließen. Der Körper kann beliebig sein, so nutzt zum Beispiel TZI-Keyer5 eine Kugel als Einschlie5 TZI ist eine Ankürzung von Technologie-Zentrum Information in der Universität Bremen. 18 3 Keying mit bekanntem Hintergrund Abbildung 3.5: 3D-Keyer ( a) Blue-Screen-Aufnahme (Bildquelle: [Chu07, Seite 14]); (b)Farbclustering, F: Vordergund, B: Hintergrund (Bildquelle: [Chu07, Seite 14]); (c) zwei Kugeln mit gemeinsamem Mittelpunkt und unterschiedlichen Radien; Pixel innerhalb S1 sind vollständig durchsichtig, Pixel innerhalb S2, außerhalb S1 sind halbtransparent, Pixel außerhalb S2 sind nicht durchsichtig (Bildquelle:[SH06, Seite 13]); (d) Konvexe Hülle schließt die Hintergrundpixel ein (Bildquelle:[SH06, Seite 14]). ßungsform der verschiedenen Farbtöne, der Primatte-Keyer6 nutzt eine komplizierte Form, ein Polyeder mit 128 Flächen, um hochwertige Einteilung der Farbinformation zu ermöglichen. Man wird TZI-Keyer [SH06, Seite 18] als ein typische Beispiel des 3D-Keys hier näher betrachten. Abbildung 3.5( a) zeigt uns das Eingangsmaterial. Es handelt sich um eine Blue-Screen-Aufnahme. Nach dem Farbclustering in RGB Würfel, wie es in Abbildung 3.5 (b) deutlich zu sehen ist, befinden sich die blaue Hintergrundfarbe und die gelbe Vordergrundfarbe auf unterschiedlichen Positionen im 3D RGB-Raum. Sie sind weit voneinander entfernt. Der Abstand zwischen beiden Bildpunkten, die jeweils in Vorder- oder Hintergrund liegen, kann als die Länge oder den Betrag eins Vektors in 3D Koordinaten angesehen werden. Die Distanz zwischen 2 Punkten in 3D RGB Raum kann somit nach dem Satz des Pythagoras berechnet werden: D= q (r2 − r1 )2 + ( g2 − g1 )2 (b2 − b1 )2 6 Der (3.10) Primatte-Keyer wurde im Jahre 1992 von der Imagica Corporation (Tokyo) entwickelt und von Photron Ltd.(Tokyo)vermarktet. 19 3 Keying mit bekanntem Hintergrund to le DT DS ra nc e key color v=0 s es ftn o s 0<v<1 v=1 Abbildung 3.6: Ermittelung der Sichtbarkeit für einen Pixel unter Verwendung der Kugeln für Toleranz und Weichheit (Bildquelle: [SH06], editiert) Dazu schauen Sie sich Abbildung 3.4 an. Je deutlicher sich die Vordergrundfarbe von Hintergrundfarbe unterscheidet, desto größer ist die Distanz D, vice versa. Wenn man anstatt einer harten Matte ein weiches erstellen möchte, sollte man die 2 Parameter, „Tolerance“ und „Softness“ einstellen. In Abbildung 3.6 zeigt zwei Kugeln mit gemeinsamem Mittelpunkt und unterschiedlichen Radien, die die Funktion der zwei Parameter andeuten. In diesem 3D RGB Raum wird die 3 Koordinaten X, Y, Z auf 1 normiert. Dann wird die Sichtbarkeit V jedes Pixels aufgrund der Distanz D zwischen Referenzpunkt auf den zwei Kugeln ausgerechnet. Der maximale Abstand zwi√ schen 2 Punkte beträgt 1 + 1 + 1 ≈ 1.732. „key color“ stellt den gemeinsamen Mittelpunkt zweier Kugeln. Von dem Punkt aus berechnet man den Wert V. Man setzt 2 Kugeldurchmesser als globale Schwellenwerte ein. Der Durchmesser DT definiert die Region, die aufwärts bis V = 0.0 ist. Der Durchmesser DS definiert die Region, die abwärts bis V = 1.0. Durchsichtigkeit gleich Null bedeutet völlige transparent, d.h. definitiv die Hintergrundfarbe. Anders her- 20 3 Keying mit bekanntem Hintergrund um besagt V = 1.0 die gänzliche Undurchsichtigkeit, bzw. den Vordergrundfarbbereich. Die Vorteile des TZI-Keyer ist Einfachheit und Schnelligkeit. der Nachteil ist weniger Präzision bei der Extraktion der Kanten. Primatte-Keyer ist ein bekanntes professionelles Werkzeug zur Matte-Generierung. Er benutzt ein verformbares Polygon. Das ursprüngliche kugelförmige Polygon konnte verschiedene Farbtöne einschließen und damit eine komplexe geometrische Form annehmen. Diese Eigenschaft ermöglicht, verschiedenste Sättigungsund Helligkeitsstufen des Hintergrunds in den Key einzuschließen. Dadurch können schwierige Hintergründe bearbeitet werden [Lot03, Seie 56]. Zusammenfassend macht der 3D-Keyer selbst dann möglich, ein gutes Resultat zu bekommen, wenn sich Vorder- und Hintergrundfarben sehr ähneln [Lot03, Seie 61]. 3.2 Mehrfarbiger Hintergrund 3.2.1 Difference-key Dieses Matting-Verfahren basiert auf absolute Pixelwertdifferenz zwischen zwei Bildern, den gleichen Hintergrund haben. Um ein Differenz Matte zu erzeugen, muss man zwei Aufnahmen hintereinander durchführen. Vorab nimmt man nur den Hintergrund auf, dann stellt man das Objekt davor und nimmt noch einmal auf. Das Bild ohne Objekt nennt man „Clean plate“, mit Objekt „Target plate“ [Wri02, Seite 27]. Die Matte erzeugt man, indem das „Clean plate“ jeweils in den drei Farbkanälen von „Target plate“ abgezogen wird. Um den negativen Wert zu vermeiden, wird der Absolutwert davon genommen. RoheDi f f erenzMatte = ( abs( R1 − R2 )) + ( abs( G1 − G2 )) + ( abs( B1 − B2 )) (3.11) Die Differenz-Matte hat seine Beschränkungen. Zunächst braucht man eine 21 3 Keying mit bekanntem Hintergrund statische Kamera mit Stativ, um exakte gleiche Hintergründe zu gewinnen. Für Video benötig man eine spezielle Hardwareinstallation, um die perfekte Synchronisation der Kamerabewegung zu gewähren. Zweitens, wegen der unterschiedlichen Lichtverhältnisse, dem Schattenwurf und dem Filmgrain, ist es nicht möglich, vollkommen identische Hintergrundbilder aufzunehmen. Als eine Kompletlösung darf der Differenz-Key zwar nicht fungieren, aber als „first-pass method“ [Bri99, Seite 83] ist es gut zu gebrauchen. 3.3 Hilfe Matte: Garbage-Matting Garbage bedeutet Abfall, Müll. Garbage-Matting ist ein Preprozess, welcher bestimmte Stellen im Bild ganz durchsichtig oder deckend macht. „Außen-Garbage-Matte“ kann anfällige Stellen auf dem Hintergrund, Schatten und Highlighting auf Blue-Screens (Green-Screens) oder unerwünschte Gegenständen im Bild vorab löschen. „Innen-Garbage-Matte“ kann auch eine bestimmte Stelle auf dem Vordergrund explizit einschließen. Wenn der Vordergrund die Hintergrundfarben enthält. Zum Beispiel grüne Augen beim Green-Sreen. Dabei markiert man vor richtiger Matte-Extraktion die Augenstelle, die bei Keying-Prozess nicht weggekeyt werden kann. Es erfolgt durch eine manuelle Eingabe von Anwender. Der meiste Keyer, der über Garbage Funktion verfügt, stellt uns ein Werkzeug der Bereichauswahl zur Verfügung. Die Bereiche werden hier meistens als geometrische Grundformen wie Kreis oder Rechteck definiert. Die Eckpunkte sind variabel, um beliebige Stelle einzuschließen. Man beachtet darauf, dass die Bereiche, die als Garbage Matte dienen, nicht kleiner als das Vordergrundobjekt und nicht größer als der Hintergrund sein sollten. 22 4 Keying mit unbekanntem Hintergrund Idealweise extrahiert man eine hochwertige Matte von einem Bild oder einem Video, das einen beliebigen unbekannten Hintergrund hat. Wenn der Hintergrund unbekannt ist, spricht man von einem natürlichen Hintergrund. Diese Matte-Extraktion ist bekannt als „Natural Image Matting“. Wie in dem Anschnitt 2.2 erwähnt, wird bei unbekanntem Hintergrund der Compositing-Prozess schwieriger. Schwerpunkt bei so einem Matting ist die Berechnung des α-Wertes. Aufgrund unterschiedlicher Einstellung des Hardware und Implementierung verschiedener Algorithmen, kann das Matting Verfahren Offline oder Realtime betrieben werden. 4.1 Offline Verfahren Als Offline Matting zählen Verfahren, die entweder eine Benutzerinteraktion fordern oder hohen Rechenaufwand benötigen. Zum Beispiel braucht die bei nicht automatisch erzeugte Trimap meistens eine manuelle Vordefinition des Vorder- und Hintergrund durch den Anwender. Wenn Matting auf eine lange Abfolge von mehreren Bildern anstatt auf statistischen Bildern angewendet wird, ist es unmöglich, den Prozess noch in Echtzeit laufen zu lassen. 4.1.1 Trimap-basierte Verfahren Trimap, wie schon der Name sagt, zerlegt das Bild in drei Regionen (vgl. Gleichung 4.1): 23 4 Keying mit unbekanntem Hintergrund Region1 = Vordergrund, α = 1; (4.1) Region2 = Hintergrund, α = 0; Region3 = Unbekannt, 0 < α < 1; Der α-Wert jedes Pixels wird versucht, zu ermitteln. Alle Pixel, die definitiv zum Vordergrund gehören, haben einen α-Wert gleich 1; Alle Pixel, die sich auf dem Hintergrund befinden, werden mit dem α-Wert 0 weggekeyt; Alle Pixel, die dazwischen liegen, benötigen die Ermittelung. Die unbekannte Region ist ein Übergangsbereich zwischen Vorder- und Hintergrund. Sie umrandet das Vordergrundobjekt. An Hand KnockOut 21 wird dieses Trimap-Verfahren intuitiv betrachtet werden. (a) (b) (c) Unknow (d) FG BG BG Abbildung 4.1: KnockOut2 für Adobe Photoshop ( a) Originalbild; (b) Außenlinie und Innenlinie; (c) Composite; (d) Trimap. Auf dem originalen Bild zeichnet man zuerst eine innere Konturlinie innerhalb des Vordergrundobjektes, die aber in der Nähe von Objektkanten liegt. Dann erstellt man eine äußere Konturlinie auf dem Hintergrund, die sich nah zu dem Vordergrundobjekt befindet. Der Abstand zwischen Innenlinie und Außenlinie soll ausreichend für die kritische Stelle des Keying sein. Der Bereich zwischen den beiden nennt man den Übergang oder die Unbekannte Region. Die Ermittelung des α-Wert und der Vordergrundfarbe innerhalb dieser Region ist Hauptaufgabe der Trimap. Es existieren viele Keying-Verfahren, die auf dem Grundprinzip der Trimap beruhen. Nun folgt es ein Überblick über die Trimap-Verfahren. 1 Das KnockOut 2 ist die Plug-In Software von der Firma Corel für Adobe Photoshop. 24 4 Keying mit unbekanntem Hintergrund r 1-αr C F αr B B‘ αg 1-αg g Abbildung 4.2: KnockOut Algorithmus (Bildquelle: [Chu04], editiert) KnockOut Knockout Der Knockout-Algorithmus wurde von der Firma Ultimatte entwickelt. Beschrieben wurde er von BERMAN et al.[AB00]. Abbildung 4.2 stellt die Grundidee zur Schau. Nach der Segmentation vom Benutzer mann man die Vordergrund- und Hintergrundfarben in die unbekannte Region rechnen. Für einen gegebenen Pixel in unbekannter Region lässt man C seine RGB-Farben kennzeichnen. Seine Vordergrundfarbe F wird als ein gewichteter Mittelwert aller Pixel, die sich auf dem Rand der bekannten Vordergrundregion befinden, berechnet. Das Gewicht für die nächsten liegende bekannten Pixel ist auf 1 festgelegt. Das Gewicht läuft linear mit der Entfernung aus und erreicht 0 für die Pixel, die doppelt so weit von dem nächsten liegenden Pixel entfernt sind. Die gleiche Prozedur wird anfangs für die Abschätzung des Hintergrundes B0 angewendet, der auf dem nächsten liegenden bekannten Hintergrundpixel basiert. Die abgeschätzte Hintergrundfarbe B0 kann dann optimiert werden, indem C auf einer senkrecht zum Liniensegment FB0 stehenden Ebene projiziert wird. Diese Ebene läuft durch den Punkt B0 . Der projizierte Punkt B ist der optimierte Punkt B0 . α= ϕ(C ) − ϕ( B) ϕ( F ) − ϕ( B)0 (4.2) ϕ(•) projiziert eine Farbe zu einer der möglichen Achsen im RGB Raum. Das 25 4 Keying mit unbekanntem Hintergrund ∑F F P(F) 1-α ∑C C C P(C) α P(B) B ∑B Ruzon-Tomasi Abbildung 4.3: Ruzon und Tomasi Algorithmus (Bildquelle: [Chu04], editiert) entgültige α ist der Mittelwert aller Projektionen. Die Gewichte sind proportional zu Nenner in Gleichung 4.2 für jede Farbachse im RGB Raum. Ruzon und Tomasi Im Jahr 2000 schlug RUZON und TOMASI [RMA00] die statistische Methode zur Berechnung des α-Wertes vor. Ihres Verfahren sieht wie folgt aus: 1. Segmentation des Bildes: Wie gewohnt, mit Hilfe des Benutzers wurden die drei Regionen segmentiert. 2. Partitionierung der unbekannten Region in Unterregionen: Für jede Unterregion wurde ein Rechteck konstruiert, das auch nahe zu dieser unbekannten Region liegende bekannte Vordergrund- und Hintergrundregionen umfasst. Die Pixel, die sich innerhalb des Rechtecks sich befinden, wurden als Verteilungsprobe P( F ) und B( F ) behandelt. Abbildung 4.3 links demonstriert diesen Vorgang. 3. Clusterisierung der Vordergrund- und Hintergrundpixel innerhalb des Rechtecks: Diese Vordergrund- und Hintergrundpixel wurden jeweils in kohärenten Cluster aufgeteilt und jeweils die unorientierte Gauß-Verteilung im RGB Raum verwendet. Jedes Cluster bekam einen gewichteten Mittelwert F, sowie B und ihre diagonale Kovarianz ∑ F und auch ∑ B . 26 4 Keying mit unbekanntem Hintergrund 4. Paarung des Vordergrundclusters mit dem Hintergrundcluster: Hier wurde solche Paare mit Hilfe des Schwellenwertes ausgeschlossen, die „Intersektion Konflikt“ und „Winkel Konflikt“ verursachen konnten. Für jedes Paar ist sein Verteilungszentrum F bzw. B der gewichtete Mittelwert von den Vordergrund- und Hintergrundfarben. 5. Abschätzen der Zwischenverteilung: Die Farbe C wird als eine Zwischenverteilung P(C ) behandelt, die irgendwo zwischen Vordergrundund Hintergrundverteilung liegt. Die Zwischenverteilung ist als eine Summe aller Gauß-Verteilungen definiert, wobei jede Gauß-Verteilung auf einem eindeutigen Mittelwert C entlang einer Linie zwischen F und B mit geringfügiger interpolierten Kovariante ∑ C ist. 6. Optimierung des α-Wertes: Der optimale α-Wert ist eine Zwischenverteilung für die beobachtete Farbe, die maximale Wahrscheinlichkeit besitzt, d.h. er ist unabhängig von F und B gewählt. F- und B-Farben werden dann zu Endpunkten eines Liniensegments durch die beobachtete Farbe C. Falls C maximale Wahrscheinlichkeit hat, dann ist der Wert aus BC BF der gesuchte α-Wert jedes Paares. Somit ist die Compositing Gleichung erfüllt. Hillman Das Trimap-Verfahren von HILLMAN [PJD01] et al. basiert auf „principal component analysis“(PCA). Nach ihrer Beobachtung stellten sie fest, dass jedes Farbcluster regelrecht stangenförmig wie eine Zigarette im RGB Raum verteilt ist (Siehe Abbildung 4.4). Grund dafür ist, dass die Pixel entweder von dem gleichen Grundfarbton mit unterschiedlichen Beleuchtungsgeraden oder Teil eines Übergangs zwischen zwei Farben sind. Durch Scannen des Bildes mit einem Raster wird jeder noch nicht verarbeiteten Pixel, das mit einem festen Radius sowohl den Hintergrund und als auch den Vordergrund umfasst, in der unbekannten Region gefunden und weiter verarbeitet. Die Pixel, die innerhalb des festen Radius liegen, werden jeweils als Farbproben zum Vorder- und Hintergrundcluster zugeordnet. 27 4 Keying mit unbekanntem Hintergrund Hillman and Hannah / Natural Image Matting foreground cluster background cluster background colourline foreground colourline 180 160 140 120 100 80 60 40 20 0 250 200 150 200 180 160 140 120 100 100 80 60 50 40 20 0 0 Abbildung 4.4: Clustering der Farben im RGB Raum(Bildquelle: [PH05]) Figure 3: Foreground and background clusters approximated by colour lines. The axes are the ordinates of RGB colourspace F 1 F Lum(x)−min(Lum) i. Bucket= max(Lum)−min(Lum) ii. Total(Bucket) += S(x) iii. Counts(Bucket) +=1 F‘ 1-α e. for x (0..B) Means(x)=Total(x)/Counts(x) 2. Connect Lines: F2 C‘ C α B2 B B‘ a. for x (1..B) B1 i. if kMeans(x) − Means(x − 1)k < threshold A. Hillman Connect Means(x) and Means(x − 1) Abbildung 4.5: Hillman Trimap-Algorithmus (Bildquelle: [Chu04], editiert) Fig. 3 shows an example of foreground and background clusters and the colour lines used to approximate. In this case the lines are unbroken; this is not always the case. PCA wurde für das Finden der Hauptorientierung im RGB Raum eingesetzt. Die angesammelten Farbproben auf die gefundene Hauptachse proji5.1. Processing using colourwurden lines 2 auf der unbedeutenden Achse wurde verworfen. ziert. Die Varianz Once colour lines have been formed, processing proceeds exactly as before. The initial clean foreground and background colour estimates f and b are the nearest points Abbildung 4.5 illustriert die Theorie Hillmans. F1 , F2onund B1 , B2 sind jeweils the foreground and background lines. These are found by zwei Spitzenpunkte von point Vorderund Hintergrundcluster. C ist ein beliebiger taking the nearest on each section of the line to s, the point under classification, and finding the closest of these. Pixel in unbekannter Region, dessen α-Wert hier zu berechnen ist. F 0 ist der Punkt auf F1 F2 , der am nächsten an Punkt C liegt. B0 ist der Punkt auf der Linie 5.2. Results Figure shows the processing thed.h. Gema ist in der 4Statistik dasresults Maß ofdes Streuens, sieimage bezeichnet, wie stark die with Werte Figure 4: Results of applying the Colour L with the Colour Lines algorithm. This image is 1612 × 1673 der Zufallsgröße X um den Erwartungswert E( X ) streuen. Sie wird berechnet, indemimage man(top), shown over white rithm to the Gema pixels, of motion resolution data. There is lit- und durch die Anzahl der die Abstände dertypical Messwert vompicture Mittelwert quadriert, addiert backgrounds the top of the head, which causes diffiMesswerte tle teiltcontrast [OB91,around Seite 51]. culty extracting individual hairs. Some of the highlights on the left hand side are too close to the background colour and appear as holes. Details of alpha channels produced by the 2 Varianz 28 c The Eurographics A 4 Keying mit unbekanntem Hintergrund F F 1-α σC ∑F C C α B P(F) P(C) P(B) B ∑B Abbildung 4.6: Bayesian Trimap-Algorithmus (Bildquelle: [Chu04], editiert) Bayesian B1 B2 , der die kleinste Entfernung von C hat. C 0 ist als der Projektionspunkt von C auf F 0 B0 . α ist somit die Ratio von den Längen zwischen C 0 B0 und F 0 B0 . Die restliche Berechnung von F und B verläuft in gleicher Weise wie der RuzonTomasi Algorithmus. Bayesian Die Trimap von CHUANG [CCSS01] ist ein statistischer Matting-Algorithmus. Das Problem wurde zum Teil durch den Aufbau der Wahrscheinlichkeitsverteilung des Vorder- und Hintergrundes von einer gegebenen Nachbarschaft gelöst. Ein kontinuierliches Schiebefenster wurde zur Definition der Nachbarschaft verwendet. Die Berechnung verläuft von Vorder- und Hintergrund nach innen wie eine Zwiebelschicht. Abbildung 4.6 links demonstriert diese Situation. Der Bayessche-Algorithmus basiert auf dem folgenden Bayesschen Theorem. Angenommen, P( A) die A-Priori-Wahrscheinlichkeit ist für ein Ereignis A; P( B) ist die A-Priori-Wahrscheinlichkeit für ein Ereignis B (Siehe Abbildung 4.7 ( a)). Bei endlich vielen Ereignissen ergibt sich das Bayessche Theorem folgendermaßen: Wenn Ak (k = 1, ..., N ) eine Zerlegung des Ereignisraumes in disjunkte Ereignisse ist, gilt für die A-Posteriori-Wahrscheinlichkeit P( Ai | B) [OB91, Seite 31] (Siehe Gleichung 4.3): 29 4 Keying mit unbekanntem Hintergrund A F α B B C (a) (b) Abbildung 4.7: Skizze des Wahrscheinlichkeitstheorems ( a) Ereignis A unter Voraussetzung B; (b) Anwendung für Matte-Extraktion. Baysian Satz von Bayes P ( Ai | B ) = P ( B | Ai ) P ( Ai ) P( B| Ak ) P( Ak ) ∑kN=1 (4.3) Daraus kann man dann die Formel für das Matting Problem ableiten (vgl. Gleichung 4.4): P( F, B, α|C ) = P(C | F, B, α) P( F ) P( B) P(α) P(C ) (4.4) Zur Veranschaulichung dieser Ableitung steht Abbildung 4.7 (b) zur Verfügung. Vorteil von diesem Theorem ist die Umkehrung der Schlussfolgerung, d.h. bei den gegebenen Ereignissen kann man empirisch die Wahrscheinlichkeit der Bedingung, Voraussetzung oder Ursache ermitteln. Wie zum Beispiel ein Anti-Spam-Tool für das E-Mail. Das Tool analysiert den Charakter der Wörter(Ereignisse) und legt dann die Eigenschaft des Spams (Ursache) fest. Um die beste Schätzung für F, B und α beim gegebenen C zu finden, wird die Wahrscheinlichkeitsverteilung maximiert (vgl. Abbildung 4.8). Hierbei steht die Abkürzung MAP für Maximum-A-Posteriori. Mit Hilfe des Bayesschen Satzes kann man das Resultat als Maximierung über eine Summe von Log Likelihood artikulieren. Weil der Logarithmus eine streng monoton wachsende Funktion ist, kann man auch den Logarithmus der Likelihood-Funktion maximieren. Abbildung 4.8 deutet dies an. Angenommen, α hat eine einheitliche 30 4 Keying mit unbekanntem Hintergrund A priors Wahrscheinlichkeit A posterior Wahrscheinlichkeit arg max P ( F , B, α | C ) = arg max L (•) = LogP (•) P (C | F , B, α ) P ( F ) P ( B ) P (α ) P (C ) Likelihood Schätzung = arg max L(C | F , B, α ) + L( F ) + L( B ) + L(α ) Log Likelihood Log Likelihood Angenommen ist L(α) eine einheitliche Verteilung. Æ L(α) konstant = arg max L (C | F , B, α ) + L ( F ) + L ( B ) 1 2 3 Abbildung 4.8: MAP Schätzung Verteilung, dann ist L(α) konstant. Man braucht nur noch drei Teile zu schätzen. • L(C|F,B,α): Es wird die Differenz zwischen der beobachteten Farbe und der durch Schätzung von F, B, α vorhersagten Farbe gemessen. In Abbildung 4.6 rechts wird gezeigt, dass C eine Standardabweichung σc mit dem Gauß-Wahrscheinlichkeitsverteilungszentrum C hat. • L(F): Hier wird der räumliche Zusammenhang genutzt. Man bildet die Wahrscheinlichkeitsverteilung der Farbe unter Nutzung der bekannten und zuvor abgeschätzten Vordergrundfarbe mit der Nachbarschaft N jedes Pixels zu jedem Cluster wird der gewichtete Mittelwert F und seine gewichtete Kovarianz3 ∑ F berechnet. • L(B): Analog zu L( F ). Der α-Wert wird schließlich durch Projektion auf das Liniensegment FB im RGB Raum ausgewertet. Der Projektionsschritt nähert sich Ruzon-Tomasi und Hillman. 3 Kovarianz ist in der Statistik das Maß des Zusammenhangs bzw. der Unabhängigkeit zweier Zufallsgrößen X und Y. Die Kovarianz ist positiv, wenn X und Y tendenziell einen gleichsinnigen linearen Zusammenhang aufweisen; Die Kovarianz ist negativ, wenn X und Y einen gegensinnigen linearen Zusammenhang besitzen; Die Kovarianz ist 0, so besteht kein Zusammenhang oder ein nicht linearer Zusammenhang [OB91, Seite 85]. 31 4 Keying mit unbekanntem Hintergrund Abbildung 4.9: Grenzbedingungen des Poisson-Mattings. ( a) Global-PoissonMatting: Trimap {Ω F , Ω B , Ω} wurde vom Nutzer spezifiziert. δΩ ist der Außenrand von der unbekannten Region Ω. (b) Local-Poisson-Matting: Nutzer wählen eine lokale Region Ω L aus. δΩ ist Außenrand von der lokalen unbekannten Region Ω ∩ Ω L (Bildquelle: [SJTS04]). Poisson Anders als Bayesian-Matting rekonstruiert das Poisson-Mtting-Verfahren die Matte von einem kontinuierlichen Matte-Gradient-Feld durch Lösen der PoissonGleichung in einem Benutzer definierten Trimap. SUN et al. [SJTS04] spricht von einem „semi-automatic“ Verfahren. Das Verfahren besteht aus zwei Schritten, globales Possion-Matting und lokales Poisson-Matting. Abbildung 4.9 führt die beiden Situationen vor Augen. Zuerst wird eine partielle Ableitung auf beider Seite der Formel 2.1 durchgeführt. ∇C = ( F − B)∇α + α∇ F + (1 − α)∇ B (4.5) • Global-Poisson: Angenommen, es sind ∇ F und ∇ B ≈ 0, d.h. die Änderung der Intensität in Vorder- und Hintergrund ist so gering, dass man sie ignorieren kann. Dann kann die Gleichung 4.5 so vereinfacht werden. 32 4 Keying mit unbekanntem Hintergrund ∇α = div ∇C F−B (4.6) Die Grenzbedingung eines beliebigen Pixels nach Dirichlet lautet: ( b α p |αΩ = 1 p ∈ ΩF 0 p ∈ ΩB (4.7) Dann kann man durch Gauß-Seidel oder Overrelaxation die Gleichung 4.7 lösen. Für ein Farbbild, berechnet man jeweils 3 Kanäle im Graustufen Kanal. Die Pixel, deren Wert größer als 0.95 ist, lassen sich in den Vordergrund einordnen. Die Pixel, deren Wert kleiner als 0.05 ist, werden dem Hintergrund zugeordnet. Diesen Schritt wiederholt man, bis alle zu berechnenden Pixel kategorisiert sind. • Lokal-Poisson: Angenommen, die Änderung mancher Vorder- und Hintergrundregionen ist groß, d.h. ∇ F (∇ B) 6= 0. Die Gleichung 4.5 kann dann so formuliert werden: ∇α = A(∇C − D ) (wobei A = 1 , D = [α∇ F + (1 − α)∇ B]) F−B (4.8) A beeinflusst die Matte-Gradient-Skala. D ist das Matte-Gradient-Feld4 . Die lokale Dirichlet Grenzbedingung eines beliebigen Pixels ist definiert als: b α p |αΩ 1 = 0 αg p ∈ ΩF Ω F ist Vordergrund p ∈ ΩB Ω B ist Hintergrund p∈Ω Ω ist Unbekannte Region) 4 Angenommen, (4.9) D strebt beim global Poisson Matting gegen Null, so wird A automatisch von dem Bild berechnet. 33 4 Keying mit unbekanntem Hintergrund α g ist aktuelle Matte in der unbekannten Region innerhalb der lokalen Grenzregion. Schließlich kann man die Pixel der unbekannten Region in den Vorder- und Hintergrund entsprechend dem α-Wert einordnen. Das lokale Poisson Matting verfügt noch über einige Filtertools5 , um eine hochwertige Matte zu erzeugen. 4.1.2 Segmentierungsbasierte Verfahren „Unter „Segmentierung“ eines Bildes versteht man allgemein die Zusammenfassung von den Pixel aufgrund von gewissen Kriterien zu inhaltlich zusammenhängend Regionen“ [Rod07]. Die Topologie der Segmentierung ist unbeschränkt, und beide Segmente „Objekt“ und „Hintergrund“ können aus mehreren isolierten Teilen bestehen. Somit kann so eine Technik auch für Digital Compositing verwendet werden. Man schneidet ein Objekt aus dem Hintergrund aus und fügt einen beliebigen Hintergrund an. Es existiert viele Segmentierungstools, die unterschiedliche Nutzervorgabe fordern. Es folgen einige Beispiele solcher Tools. GraphCut Boykov und Jolly [YYB01] hatten im Jahre 2000 eine neue Methode der Segmentierung aufgestellt. Dieses Verfahren basiert auf der Graustufenfarbinformation und den Kontrastwerten. Jeder Pixel wird als ein einzelner Knoten angesehen und die Kanten zwischen den Knoten werden nach den Kontrastwerten gewichtet(Px,y ). Die Knoten werden in 2 Kategorien untergeteilt, Objekt S und Hintergrund T. MinCut und MaxFlow Algorithmus liefern einen optimalen Schnitt, der Objekt und Hintergrund in zwei Segmente zerteilt. Abbildung 4.10 zeigt uns ein einfaches 2D Segmentationsbeispiel für ein 3 × 3 Bild. Unpraktisch bei dem Verfahren ist die Notwendigkeit der Nutzervorgabe sowohl in sicheren Vordergrund als auch in sicheren Hintergrund. 5 Der Verstärkpinsel, der Klone-Pinsel, Hochpassfilter und Diffusionsfilter 34 4 Keying mit unbekanntem Hintergrund Objekt terminal S cut Ps,2 Ps,1 Ps,5 Ps,4 P1 P2 n1,2 n1,4 P3 n2,3 N2,3 P4 n3,6 P5 n4,5 n4,7 n5,6 P6 n6,9 n5,8 P7 P8 n7,8 PT,8 n8,9 PT,3 PT,6 PT,9 PT,7 Background terminal P9 T GraphCut Abbildung 4.10: Segmentierung für ein 3 × 3 Bild. GrabCut Drei Jahre später wurde eine bessere Methode für die Segmentation von ROTHER et al. [RKB04] erfunden. Die GrabCut Vorgehensweise nutzt anstatt Graustufenwert die Farbinformation. Dazu wird nicht mehr wie bei GraphCut das Grauwert Histogramm verwendet, sondern ein Gaussian-Mixture-Model. Die Segmentationsanpassung geschieht mittels Erwartung- Maximierung. Ein iterativer Ansatz wird hier eingesetzt, damit eine stetige Verbesserung der Segmentation ermöglicht wird. Die Forderung an die Nutzervorgabe bleibt nur noch beim Hintergrund, indem man interessante Objekte mit einem Rechteck umschließt. Man sieht in Abbildung 4.11, dass durch Ziehen eines Markierungslassos oder Markierungsrechteckes eine Trimap entstanden ist. Wobei der Hintergrund mit NULLEN und der Vordergrund mit EINSEN gefüllt werden. Dazwischen ist die gemischt Fläche, die den halbe Wert des Vordergrundes hat. Man kann auch mit Vordergrundpinsel und Hintergrundpinsel durch Ziehen einer Linie auf das Objekt oder auf den Hintergrund die falschen Segmentationsteile zurückgewinnen, damit ein Bild vollkomment segementiert wird. 35 4 Keying unbekanntem Kapitel 2 Keyingverfahren Trimap: mit GrabCut (a) (b) Hintergrund (c) (d) Abbildung 4.11: GrabCut. ( a) Material. (b) Segmentierung. (c) Markierungslasso. (d) Markierungsrechteck. Wenn die Farbe nicht „reichlich“ ist, dann bekommt man ein ungenaues Ergebnis. Referenz: C. Rother et al. ’04, Grabcut- interactive foreground extraction using iterated graph cuts MorphCut Ob eine gute Segmentation gelungen ist, hängt hauptsächlich von einem komplizierten Hintergrund ab. Für ein Bild mit Schiff auf dem Wasser ist es schwer, die Merkmale zu extrahieren, weil der Hintrgrund kontrastreich und texturiert ist. Um den hohen Kontrast und die geringe Farbinformation auch für den GrabCut nutzbar zu machen, haben RUSCH, RUWWE und ZÖLZER eine zusätzliche morphologische Operation zwischen zwei aufeinander folgenden Iterationsschritten eingefügt. Diese Dilation-Operation verbreitert nach jedem Schritt die berechnete Schnittlinie zwischen Vorder- und Hintergrund, vergrößert also das Objekt selbst, und führt zu einem besseren und stabileren Endergebnis [O.R05]. 4.1.3 Defocus Matting Das ideale Matting Verfahren soll für eine Szene mit einem beliebigen unbekannten und möglicherweise bewegten Hintergrund geeignet sein. Die bisher erläuterten Verfahren haben unterschiedliche Beschränkungen. Um diesen ent- 36 4 Keying mit unbekanntem Hintergrund gegenzuwirken, haben MCGUIRE et al. ein neues Verfahren entwickelt, das mit speziellen Kameras die Bilder hinsichtlich ihrer Schärfe untersucht. Als Kriterium für die Beurteilung der Schärfe dient bei dieser Vorgehensweise die Beziehung zwischen hochfrequenten und niederfrequenten Anteilen im Bild, da die Defokussierung einen Tiefpasscharakter besitzt. Das ist „Depth from Defocus“ [MW98]. Defocus Video Matting MCGUIRE et al. machen von „Depth from Defocus“ voll Gebrauch [MM05]. Bei ihrem Verfahren wurde der Multiparameter Video Kamera eingerichtet. Durch einen Strahlsplitt besitzen drei Kameras ein gemeinsames Optikzentrum. Eine der drei Kameras ist eine Pinhole-Kamera, die andere zwei Kameras fokussieren jeweils auf den Vordergrund und auf den Hintergrund. Der Defokus im Vorder- und Hintergrund tritt auf, weil der Lichtstrahlenkegel von einem Punkt die Bildebene auf eine Kreisscheibe durchschneidet. Das Resultat kann durch eine „Point Spread Function“(PSF) oder „Kreis von Verschmelzung“ beschrieben werden, d.h. PSF beschreibt die Unschärfeeigenschaften eines realen Systems. Abbildung 4.12 zeigt das Szenario. r ist Radius des Pixels IP ist Pinhole Kamerabild IF ist auf Vordergrund fokussiertes Bild IB ist auf Hintergrund fokussiertes Bild Kamera fokussiert auf Tiefe ZF Der Punkt ist auf ZR f ist Fokuslänge φ ist f-nummer 37 4 Keying mit unbekanntem Hintergrund IF IB Linse αF Optische Achse ZFf ZF - f (F in Fokus) B r ZBf ZB - f Z=0 (B in Fokus) ZF ZR ZB Abbildung 4.12: Szenario von „Depth from Defocus“ σ ist Breite des Pixels f r= 2σφ ZR ( Z F − f ) Z F ( ZR − f ) − 1 (4.10) Die PSF variiert für jeden Pixel auf dem Hintergrund: Es ist Null für einen verdeckten Pixel, eine Kreisscheibe für einen unverdeckten Pixel und ein kleiner Ausschnitt aus dem α-Bild für teilweise einen verdeckten Pixel. Allerdings wird es einfach in zwei von drei wichtige Fälle ausgedrückt: 1. Pinhole: IP = αF + (1 − α) B 2. Fokussiert auf Hintergrund: IB = (αF ) ⊗ disk(r F ) + (1 − α ⊗ (disk(r F )) B 3. Fokussiert auf Vordergrund: IF = (αF ) + (1 − α)( B ⊗ disk (r B )) Eine Trimap aus der Defokus-Formel wird automatisch erzeugt, indem man die Pixel mit hoher Frequenz Nachbarschaft auf der Grundlage der Z Werte in drei Region klassifiziert. 38 4 Keying mit unbekanntem Hintergrund Aus der Gleichung 3 bekommt man keine direkte Lösung. Stattdessen kann man eine globale Lösung finden, indem man die Fehler Funktion zwischen betrachtetem Bild und rekonstruiertem Bild minimiert. Weil die Gleichung 3 lineare Operationen hat, kann man deren Ableitung ausrechnen. Somit ist der Gradient der Fehlerfunktion einfach zu berechnen. Die Optimierung wird durch Regularisation mit der Maximum-LikelihoodMethode realisiert. Die Qualität des Mattings ist zufrieden stellend und die Berechnungsgeschwindigkeit beträgt „One minute per frame“. Im Vergleich zu JOSHI et al. [JMA+ 07] Verfahren erscheint dies noch zu langsam. Bei erweitertem Defocus Matting von Joshi et al. wird das um einige Punkte verbessert. Das Kameraarray A-Cam besteht aus drei Kameras, die ein einzelnes Projektionszentrum besitzen und ein baumartigen Strahlsplitt gemeinsam benutzen. Das Lichtverteilungssystem wurde auch so verbessert, dass jeder Sensor die gleiche Lichtmenge empfinden kann. Unterschied mit dem Vorgänger ist die Nutzung eines „nonparametric model“. Eine Trainingsphase ist am Anfang der Berechnung eingesetzt, sodass die Geschwindigkeit um ein Fach beschleunigt wird. Depth-of-Feld-based alpha-matte extraction Bei dem Defocus Matting Gebiet ist noch ein Ansatz zu betrachten. REINHARD und KHAN [RK05] nutzen eine einzelne Kamera mit unterschiedlichem Fokus für ein unbewegtes Bild. Um eine Matte zu extrahieren, braucht man zwei Bilder, die mit unbewegter Kamera hintereinander fotografiert sind. Ein Bild fokussiert auf den Vordergrund, das andere auf den Hintergrund. Dann wird automatisch eine Alpha-Matte, das die Zugehörigkeit der Pixel zeigt, durch pixelweisen Vergleich der beiden Bilder erzeugt. Dieser Algorithmus ist inspiriert durch den menschlichen Sehprozess. Der Algorithmus führt vier Schritte aus: 1. Non linear response compression: Komprimieren den Luminanzbereich 39 4 Keying mit unbekanntem Hintergrund um L herum. Luminanz wird aus den RGB Signalen durch die Gleichung 3.1 berechnet. Zwei Bilder können bei Luminanz-Bilder unterschiedlich sein. Deshalb wird bevor sie pixelweise verglichen werden, deren LuminanzWert durch Durchschnittsbildung korrigiert. Bei sehr dunklen Regionen ist der Luminanz-wert negativ. Um dies zu vermeiden, wird jedes Bild durch seine logarithmische durchschnittliche Luminanz skaliert: L = exp 1 N ∑ log(δ + L(x, y) ! (4.11) x,y L0 ( x, y) = L( x, y) L( x, y) + L (4.12) L ist der Mittelwert von Luminanz L0 ist der korrigierte Luminanz-Wert N ist die Pixelanzahl in dem Bild σ ist kleine Konstant(hier 10−8 ), um Nullwert für Logarithmus zu vermeiden 2. Center-surround analysis: Die Differenz zwischen zwei Gauß-unscharfen Bildidern erzeugt eine lokale Schätzung der Variabilität für jeden Pixel in ihrem Kontrast. Eine Gaußsche Reaktion R wird durch Faltung des Bildes L0 mit einem Gaußschen Kern Fσ erstellt. Fσ ( x, y) = x 2 + y2 1 exp − πσ2 σ2 Rσ ( x, y) = L0 ( x, y) ⊗ Fσ ( x, y) (4.13) (4.14) σ ist der Umfang der Unschärfe So kann man die Differenz zwischen zwei unscharfen Bildern mit unterschiedlichen Kerngrößen berechnen, indem man die größere von der kleineren abzieht. Folge ist die lokale Variabilität: 40 4 Keying mit unbekanntem Hintergrund Vσ1σ2 = Rσ1 ( x, y) − Rσ2 ( x, y) , Rσ2 ( x, y) σ2 = σ1 + 1, normiert (4.15) Das menschliche Sehsystem berechnet eine Summe von solchen Skalierungen, d.h. dieses Verfahren wird wiederholt bei immer größerem σ. Der Absolutwert jeder Skalierung wird genommen: n V= ∑ Vσ σ + (x, y) i i 1 (4.16) i =1 Die Variabilität im Vordergrundbild V f g ist hoher als die Variabilität V bg im Hintergrund. Ein Vergleich erlaubt eine Verfeinerung der Gleichung 4.17: V0 = n ∑ fg bg |Vσi σi+1 ( x, y)| − |Vσi σi+1 ( x, y)| fg bg i =1 |Vσi σi+1 ( x, y )| + |Vσi σi+1 ( x, y )| + e , e = 10−2 vermeiden Division durch 0 (4.17) Klassifizierungsbedingungen: • V 0 > 0(positiv), dann gehört Pixel zum Vordergrundobjekt • V 0 < 0(negativ), dann gehört Pixel zum Hintergrund • V 0 ≈ 0(niedrige Kontrast), die Zugehörigkeit des Pixels ist unentscheidbar 3. Filling-in:Die originale Szene wird mit Hilfe des Kantensignals rekonstruiert: • Schwarz ⇒ negative Wert (V 0 < 0) ⇒ Hintergrund • Weiß ⇒ positive Wert (V 0 > 0) ⇒ Vordergrund • Grau ⇒ nähert sich an 0 (V 0 ≈ 0) ⇒ unbestimmte Region Niedrige räumliche Frequenzen sind im Kantensignal vermindert, aber es ist nicht völlig abwesend, weshalb ein Diffusion Algorithmus einge- 41 4 Keying mit unbekanntem Hintergrund setzt wurde. Jeder Pixel nimmt Bezug auf die Summe von seinen 4 Nachbarpixeln. 4. Clean-up: Mit Schwellenwert wird eine binäre Matte erzeugt. Dieses Verfahren ist durchaus einfacher, aber hat auch einige Beschränkungen: Es muss immer gewährleistet werden, dass die Kamera nur auf das Objekt fokussiert, wenn ein Teil von Hintergrund mitfokussiert, dann wird dieser Teil auch zum Objekt gezählt. Das macht die Ungenauigkeit der Extraktion. Lösung ist, dass Objekt nah vor die Kamera zu stellen. 4.1.4 Flash Matting SUN et al. [SZTS06] haben eine neue Methode zur Matte-Extraktion unter Nutzung des Bildpaares vorgeschlagen. Das Bildpaar wird mit einer Kamera in gleicher Position aufgenommen, wobei bei einem Bild das Vordergrundobjekt geblitzt wird und beim anderen Bild nicht. Der Hintergrund ist vom Vordergrund weiter entfernt, weshalb der Hintergrund kein Licht aus dem Kamerablitz empfangen kann. Angenommen, die Hintergründe sind von dem geblitzten Bild und von dem ungeblitzten Bild ungefähr gleich sind. d.h. B ≈ B f . Aus der Gleichung 2.1 folgt die Gleichung für das ungeblitztes Bild I: I = αF + (1 − α) B (4.18) I f = αF f + (1 − α) B (4.19) und das geblitztes Bild I f : Man bekommt die Vordergrund-Flash-Matting Gleichung, indem man die Gleichung 4.19 von 4.18 subtrahiert. I 0 = I f − I = αF f − F = αF 0 42 (4.20) 4 Keying mit unbekanntem Hintergrund (a) (b) (c) (d) Abbildung 4.13: Vordergrund Flash Matting. ( a) Flash Bild. (b) No-Flash Bild. (c) Flash-only Bild. (d) Matte I 0 ist hier das Flash-only Bild. Abbildung 4.13 zeigt uns das Vordergrund-FlashMatting an. Es wird eine Trimap generiert und das Bayessche Matting verwendet. arg maxα,F,B,F0 L(α, F, B, F 0 | I, I 0 ) = arg maxα,F,B,F0 L( I |α, F, B) + L( I 0 |α, F 0 ) + L( F ) + L( B + L( F 0 ) + L(α) (4.21) Obere Gleichung kann auch so reduziert werden. arg maxα,F0 L(α, F 0 | I 0 ) = arg maxα,F0 L( I 0 |α, F 0 ) + L( F 0 ) + L(α) (4.22) Es ist kalr, dass L(α) konstant ist. L( I |α, F, B) = − k I − αF − (1 − α) Bk σI2 (4.23) − k I 0 − αF 0 k σI20 (4.24) L( I 0 |α, F 0 ) = −1 L( F ) = −( F − F )T ∑( F − F ) F 43 (4.25) 4 Keying mit unbekanntem Hintergrund n o 1 Wobei F, ∑− Mittelwert und Kovarianz Matrix von der geschätzten GaußF o n 1 definiert. Verteilung sind. L( B) ist auf ähnliche Weise mit B, ∑− B −1 L( F 0 ) = −( F 0 − F 0 )T ∑( F − F 0 ) (4.26) F0 Von der Gleichung 4.21 wird die partielle Ableitung gebildet. Daraus folgt der α-Wert: α= σI20 ( F − B)T ( I − B) + σI2 F 0T I 0 σI20 ( F − B)T ( F − B) + σI2 F 0T F 0 (4.27) und die Darstellung der 3 × 3 Matrix: 1 Iα ∑− F + σ2 Iα(1−α) σI2 2 I Iα(1−α) σI2 2 −1 ∑ B + Iα σI2 0 0 −1 Iα F + ∑ 2 F σI F −1 B + I (1− α ) 0 ∑ B = B σI2 0 0 − 1 −1 Iα2 0 F ∑ F0 F + σI 2α ∑ F 0 + σ2 0 I0 (4.28) I0 Analog zum Vordergrund-Flash-Matting kann der Algorithmus auch für HintergrundFlash-Matting eingesetzt werden. 4.2 Real-time Verfahren Mit Hilfe spezieller Hardware können die Keying- und Matting-Verfahren auch in Echtzeit ausführt werden. 4.2.1 Hardwarekeyer für den Studioeinsatz Im digitalen Fernsehstudio benutzt man spezielle Keyinghardware6 , um Keying in Echtzeit zu realisieren. Solche Hardwarekeyer finden in Live-Sendung 6 Ultimatte oder Primatte 44 4 Keying mit unbekanntem Hintergrund Abbildung 4.14: 5-Augen Kamerakopf von CMU Video-Rate Stereo Maschine Einsatz und können mit dem virtuellen Studio kombiniert werden. Beispielsweise wird ein Moderator vor einem blauen Vorhang im Studio aufgenommen und gleichzeitig in eine Videosequenz, die ein exotisches Dorf in Südamerika zeigt, welche als Hintergrund dient, integriert. Der Zuschauer glaubt, dass der Moderator vor Ort ist. Momentan kann diese spezielle, kommerzielle Studiotechnik vor allem bei BlueScreen oder Green-Screen ihre Verwendung finden. Viele Wissenschaftler bemühen sich, ein Echtzeit-Verfahren für natürliche Umgebungen zu entwickeln. Eine dieser Versuche ist Matting an Hand der Tiefeninformationen. 4.2.2 Matting von Tiefeninformationen Z-Keying Voraussetzung für diese Methode ist das Vorhandensein eines Z-Kanals. Bei Bildmischergestütztem Keying ist dies das Key-Signal. Hierbei wird von einem exakten Tiefenwert ausgegangen, um die Stanzmaske zu erstellen. Alle Pixelwerte über einen festgelegten Schwellwert nehmen weiß, alle darunter schwarz und somit den für den Alpha-Kanal regulären, transparenten Farbwert an. KNADE et al. [Kan95] demonstrierten ihre Z-Keying mit einer „CMU7 VideoRate Stereo Maschine“. Abbildung 4.14 illustriert den Kamerakopf mit fünf Kameras. 7 Carnegie Mellon University 45 4 Keying mit unbekanntem Hintergrund Diese Methode benötigt vier Inputbilder: ein reales Bild IR( x, y), eine Tiefenmap IRd( x, y) aus IR( x, y), ein synthetisches Bild IS( x, y), und eine Tiefenmap ISd( x, y) aus IS( x, y). x,y sind hier Pixelkoordinaten in 2D. Für jeden Pixel vergleicht der Z-Keyer die beiden Tiefenmaps -welches sich näher an der Kamera befindet wird zum Vordergrundobjekt gezählt. Das Outputbild IO( x, y) ist wie folgt beschrieben: ( IO( x, y) = IR( x, y) wenn IRd( x, y) ≤ ISd( x, y) IS( x, y) wenn IRd( x, y) > ISd( x, y) (4.29) Depth-Keying GVILI et al. entwickelten und bauten eine neuartige Videokamera: ZCAM, die sowohl RGB als auch D-Signale produzieren kann. D steht hierbei für die relative Distanz der Kamera zu den Pixel. 3DVs innovative ZCAM8 ist in Abbildung 4.15 zu sehen. Neben einem RGBSensor ist zusätzlich ein Tiefensensor eingebaut. Das Konzept solcher Tiefenkameras basiert auf einer Lichtlaufzeitmessung. Ein Laserlichtimpuls im Infrarotbereich wird von einer Lichtquelle ausgesandt. Sobald er auf ein Objekt trifft, wird er reflektiert und von einem Lichtsensor verarbeitet. Kürzere Lichtlaufzeiten bedeuten, dass sich das Objekt näher an der Kamera befindet, längere, das es sich um ein weiter entferntes Objekt handelt. Daraus wird eine Tiefenmap rekonstruiert. Nachdem der Schwellenwert festgelegt wurde, kann man das Vordergrundobjekt vom Hintergrund separieren. Man bekommt eine binäre Matte. Zusätzlich wird der Randbereich des Objekts noch verfeinert, indem man jeden Pixel zu seinen vier Nachbarn in Bezug setzt. Man berechnet für jeden Pixel im Randbereich einen neuen Alphawert, welcher der gewichteten Summe der Alphawert der benachbarten Pixel entspricht. 8 Firma 3DV 46 4 Keying mit unbekanntem Hintergrund Abbildung 4.15: ZCAM: Depth is key 3D-Keying Das Frauenhofer Institut [MR07] hat eine 3D-CAM für ein neuartiges KeyingVerfahren im Bereich der Tiefeninformation entwickelt. Mit diesem 3D-CAM-System kann man ein Tiefenbild einer realen Szene produzieren, indem die Reflektion eines Infrarotlichts(IR) gemessen wird. Jeder Pixel in den Tiefenbildern korrespondiert dabei mit jedem Farbpixel. Die Aufnahme erfolgt in Echtzeit. Das 3D-CAM-System setzt sich aus zwei Hardwarekomponenten zusammen: 1. Eine spezielle Sensorik ist für die Tiefenkamera zuständig. 2. Die Extraktion- und Kompositions-Algorithmen sind von einer selbst entwickelten Hardware unterstützt und in Echtzeit ausgeführt. 47 4 Keying mit unbekanntem Hintergrund 4.2.3 Polarization-Matting Beim üblichen Live-Studio-Keying verwendet man Chroma-Key. Aber dieser Key hat viele Beschränkungen auf die Vorder- und Hintergrundfarbe. Um diese Nachteile zu vermeiden, kam BEN-EZRA [BE00] auf die Idee das unsichtbare Signale Polarisationslicht zu nutzen. Das Studiosetup kann auf zwei Arten realisiert werden. Von hinten beleuchtet: Das Licht leuchtet von Hinten durch zwei Schichten, die jeweils Diffusor und linearer Polarisator sind. Das Vordergrundobjekt wird durch das nicht polarisierte Umgebungslicht beleuchtet. In diesem Fall nimmt die Kamera den unpolarisierten Vordergrund sowie den polarisierten Hintergrund auf. Silberfilter: Die Lichtquelle wird durch zwei Schichten gefiltert, die jeweils Diffusor und linearer Polarisator sind. Der Hintergrund ist mit einem Silberfilter ausgestattet. Wenn das Licht auf den Hintergrund fällt, wird es vom Silberfilter wegreflektiert. Das Vordergrundobjekt wird durch Beleuchtung entpolarisiert. MCGUIRE et al. haben sich in ihrem Realtime Studio mit Polarisationskey beschäftigt. Um eine schnellere Fokussierung zu ermöglichen, haben sie eine neue elektronische Blende gebaut, welche auf einer normalen Kamera befestigt werden kann. Ein horizontalen Polarfilter mit einem Pinhole, ein vertikaler Polarfilter und eine, dazwischen angebrachte Platte aus Ferroelektrischem Flüssigkristall (FELC) wurden auf dem Objektiv montiert. Diese aktive, optische Komponente dreht die Polarisation des einfallenden Lichts um 90◦ , wenn Spannung angelegt ist. Der FELC ist schneller als ein LCD - er kann bis zu 10kHz schalten. Abbildung 4.16 demonstriert die Arbeitsweise des unsichtbaren Keys. Die Matte wird durch nicht lineare Sigmoid-Funktion 1 1+`−α( x− β) berechnet, wo- bei x ist die absolute Differenz, α ein Anstiegparameter und β Zentrumspunkt ist. α und β können vom Benutzer selbst festgelegt werden. Beschränkung: Wenn der Polarisationsfilter 45◦ von der Kamera weggerichtet ist, kann kein Intensitätsunterschied festgestellt werden. MCGUIRE und MATUSIK [MM06] benutzen eine passive, natürliche Beleuch- 48 4 Keying mit unbekanntem Hintergrund Abbildung 4.16: Prinzip des Polarisationskeys: ( a) Polarisiertes Hintergrundlicht und unpolarisiertes Vordergrundlicht betritt die Kamera. (b) Der Beamsplitter spaltet das Licht durch Polarisation, um „In-Phase“ und „Out of Phase“ Bilder zu erzeugen. (c) „InPhase“ Bild mit einem helleren Hintergrund. (d) „Out of Phase“ Bild mit einem dunkleren Hintergrund. (e) Die absolute Differenz zwischen (c) und (d). ( f ) Matte. tung aus normalem Raum- oder Sonnenlicht, die unpolarisiert, inkohärent und unstruktuiert ist. Das alternative Design der Kamera mit zwei Sensoren und einem Polarisationsstrahlsplitter ermöglicht es, ein Bild mit grauem Hintergrund und ein weiteres, mit schwarzem Hintergrund, gleichzeitig aufzunehmen. Die Berechnung der Matte wird mit der Triangulation-Methode von SMITH und BLINN [SB96] durchgeführt. I0 = αF + (1 − α) B0 I1 = αF + (1 − α) B1 (4.30) Dann berechnet man den unbekannten Vordergrund F und das triangulierte α: α T = ( I0 − I1 )/( B0 − B1 ) − 1 α T FT = I0 − (1 − α T ) B0 (4.31) In Vergleich zum Blue-Screen ist diese Methode besser für reflektiertes, blaues 49 4 Keying mit unbekanntem Hintergrund Licht, Spiegelreflektion, blaue Objekte im Vordergrund und feine Details geeignet. Aber auch seine Beschränkung ist unvermeidbar. Diese Methode verliert den Unterschied, wenn die Kamera sich 45◦ über ihre optische Achse dreht. 4.2.4 Defocus-Difference-Matting MCGUIRE und MATUSIK [MM05] lassen sich von der Triangulation und Defokussierung inspirieren. Durch eine spezielle Einrichtung entwickelten sie ein Realtime-Matting-Verfahren, das so genannte „Defocus difference matting“ (DDM). Wie das „Defocus Video Matting“ [MMP+ 05] in Offline teilen sich zwei Kameras, unterschiedlicher Fokussierung, ein gemeinsames Projektionszentrum. Aus zwei Bildern wird mit Hilfe des Triangulation-Algorithmus das α, sowie der Vordergrund berechnet. 4.2.5 Flash-Keying (bbc) Im Live-Studio ist es manchmal notwendig das virtuelle Objekt, mit dem Moderator in die reale Szene zu integrieren. Klassischer Chroma-Key kann unter diesen Umständen nicht verwendet werden, da kein farbiger Hintergrund existiert. Eine Projektgruppe von BBC Research9 entwickelte einen Flash Key mit pulsierendem, blauem Licht auf dem Moderator. Das Kamerabild generiert ein Keysignal auf dem beleuchteten Blau. Ein „Clean“Kamerasignal wird erzeugt, indem sie das pulsierende blaue Licht mit einem Filter ablöst, der sorgfältig die zeitliche und farbige Eigenschaft auswählt. Der Lichttakt beträgt 75Hz, die Belichtungszeit der Kamera liegt bei einer 150stel Sekunde. 9 Man kann unter folgendem link das Projekt http://www.bbc.co.uk/rd/projects/virtual/flash-keying/index.shtml 50 nachlesen: 4 Keying mit unbekanntem Hintergrund Abbildung 4.17: Trimap von Soft Scissor 4.2.6 Soft Scissors Das System „Soft Scissors“ aktualisiert die Matte in Echtzeit, während der Nutzer eine grobe Kontur entlang der Grenze des Vordergrundobjekts zeichnet (vgl. Abbildung 4.17). Es wird angenommen, dass diese Kontur eine Trimap definiert. In der Regel geht man davon aus, dass die Pixel am linken Rand der Kontur (blau) im Hintergrund liegen. Die Pixel am rechten Rand der Kontur (rot) liegen im Vordergrund. Der Bereich in der Mitte der Kontur (graue Pixel) wird als unbekannt angenommen. Sowohl die Randbedingung als auch die Breite der Kontur kann durch Nutzervorgabe oder vom System, durch eine Analyse der Bildstatistik, dynamisch angepasst werden. Der Maskierungsbereich Ωt (hell- und dunkelgrün) wird mit Hilfe der „Soft Graph-labeling“- Methode berechnet. Abbildung 4.18 zeigt die Graphenstruktur. Jeder Knoten stellt einen Pixel dar. F und B sind virtuelle Knoten, die Vorder- und Hintergrund repräsentiert. Die weiße Knoten stellen die unbekannten Pixel im Bild dar. Die hellrote und hellblaue Knoten sind die Grenzknoten, die nicht nur von Nutzer markierten Vordergrund- und Hintergrundpixel, sondern auch unbekannten Pixel auf dem Rand Ωt , deren α-Wert bereits in vorherigen Schritt geschätzt sind, erhalten. Dann benutzt man ein Nicht- 51 4 Keying mit unbekanntem Hintergrund Parametrisches Modell, um Vordergrund- und Hintergrundverteilung auszuwerten. Die Datengewicht ωi,F , ωi,B der Kanten zwischen Pixel i und den virtuellen Knoten werden, basierend auf diesen Verteilungen, festgelegt. Die Pixel, die eine ähnliche Farbe wie die Vordergrund- und Hintergrundfarbe aufweisen, haben ein stärkeres ωi,F bzw. ωi,B . Die α-Werte sind dementsprechend höher oder niedriger. ωi,j ist das Kantengewicht zwischen Pixel i und seinen Nachbarn j. Jeder Pixel ist mit seinen 25 räumlichen Nachbarn verbunden. Hier wird der Algorithmus „Random Walk“[GSAW05] angewendet (vgl. Abbildung 4.18(a)). Random Walk bestimmt den α-Wert, indem ein Random Walker in Pixel i platziert wird und zu seinem Nachbarknoten j mit der Wahrscheinlichkeit ωi,j ∑ j ωi,j wandert. Der Walker bewegt sich von j zu einem anderen Nachbarn k auf die gleiche Weise, bis er einen der Grenzknoten erreicht. Die Wahrscheinlichkeit, dass der Walker im virtuellen knoten des Vordergrundes endet, bestimmt den α-Wert des Pixels i. Die Vordergrundfarbe wird bestimmt, indem man der Kante zwischen i und 0 0 seinem Nachbarn j ein Farbgewicht ωi,j zuweist, wobei ωi,j = |αi − α j | + e, e ist ein kleiner Wert, der sicherstellt, dass das Gewicht größer 0 wird. Dieses Kantengewicht kodiert die expliziten Glättungs-Prioren auf F, die dort stärker sind, wo αi und α j eine größere Entfernung zueinander haben. Für die rot umrandeten Vordergrundpixel (vgl. Abbildung 4.18 (b)) gilt ihre richtige Farbe als Grenzkriterium, während für die blau umrandeten Hintergrundpixel als Grenzkriterium gilt. Die Aktualisierungsregion wird wie folgt behandelt: Alle Pixel, die durch den Benutzer in der aktuellen Iteration neu markiert werden, werden als Grenzpixel mit einem zugeordneten Label von 1 (dunkelgrüne Knoten in Abbildung 4.18 (c)) behandelt. Dieses Label entspricht nicht dem α-Wert der Pixel, sondern stellt die Auswirkungen der neuen Input-Region auf den Pixel dar. Alle anderen Pixel, die weiß gekennzeichnet sind (vgl. Abbildung 4.18 (c)), wurde in den vorangegangenen Iterationen wie unbekannte Pixel behandelt. Mit dem „Random Walk“ soll festgelegt werden, wie weit sich die potenziellen Änderungen der α-Werte durch die neu markierten Pixel in Richtung der Bildgrenze fortpflanzen werden. Wenn das Gewicht zwischen den benachbar- 52 4 Keying mit unbekanntem Hintergrund j ΩB ΩF W‘i,j i Wi,F Wi,B (b) j Wi,j i i Wi,j (a) j (c) Abbildung 4.18: Random Walk ten Pixel hoch (Distanz ist größer) ist, dann wird ein glättere Region in einem größeren Ωt resultieren und umgekehrt. 53 5 Auswertung der Chrominanz-Methode 5.1 Einleitung In Live-Studio ist die Separation des Vordergrundobjektes an Hand der Farbinformation ein allgemeines Problem (vgl. Abschnitt 3.1). Zu den Chrominanzbasierten Keyingverfahren zählen Blue Screen und Green Screen, der meistens von Studio verwendet sind. Aber um ein vernünftiges Keying zu ermöglichen, muss das herkömmliche Studio mit sehr speziellen Produktionsbedingungen eingerichtet werden. Zuerst muss eine blaue (oder grüne) Leinwand als Hintergrund zur Verfügung stehen. Die Leinwand muss möglichst regelmäßig sein. Jede Ungleichmäßigkeit, die hellere oder dunklere Stellen auf dem Hintergrund verursacht, wird von dem Keyer als Farbvariation registriert. Die Bandbreite an Blautönen (Grüntönen), welche der Keyer herausfiltern muss, klettert auffällig hoch. Die Hintergrund- und Vordergrundfarben werden in RGB Farbraum schwer auseinander zerlegt. Dies hat zur Folge, dass Vorder- und Hintergrundfarben im RGB-Farbraum schwer zu trennen sind, was zu einer verminderten KeyingQualität führt. Um eine uniforme Ausleuchtung zu erzielen, muss die Studiobeleuchtung sorgfältig eingestellt werden. Um Hotspot zu vermeiden, werden, wenn möglich, diffuse Lichtquellen eingesetzt. Unter Hotspot versteht man den Heißpunkt, der ein von einer Lichtquelle auf eine Leinwand geworfener Lichtfleck ist. 54 5 Auswertung der Chrominanz-Methode Der Darsteller sollte möglichst gewisse Distanz zum blauen Hintergrund haben, damit kein Schatten darauf geworfen werden kann. Die Forscher der Juniorprofessur Augmented Reality an der Fakultät Medien der Bauhaus-Universität Weimar haben versucht, durch Einsetzen anderer Studiotechnik diese Einschränkungen zu vermeiden. Das in dem AR (Augmented Reality) Labor entwickelte Projektor-Kamera-System ermöglicht es, visuelle Informationen auf nahezu beliebigen Oberfläche darzustellen [GB08]. Anstatt einer Korrektur der Hintergrundbeleuchtung [Ley07] macht das System Gebrauch von einer radiometrischen Kompensation, um Chromakeying in beliebigen Umgebungen zu ermöglichen. Das Schwergewicht dieser Arbeit wurde auf das Testen und auf die Evaluation dieses neuen Einsatzgebietes des Projektor-Kamera-Systems gelegt. Eine methodische Auswertung wird hierfür verwendet. 5.2 Aufbau Diese Auswertung besteht aus 3 Hauptphasen: 1. die Realtime-Phase für die Aufnahme von Eingangsmaterialien in Augmented Studio; 2. die Offline-Phase für die Verarbeitung der Testvideos mit professionellen Software und Keying-Plug-Ins; 3. die Evaluationsphase. 5.2.1 Die Aufnahme der Eingangsmaterialien Hardware Die Aufnahme der Testmaterialien erfolgt in ARLabor der Fakultät Medien. Das Projektor-Kamera-System ist mit folgenden Komponenten ausgestattet: 2 Projektoren: Sony VPL-CX80 55 5 Auswertung der Chrominanz-Methode • Auflösung: XGA • Auflösung mit Kompression : 1024 × 768 • Heilligkeit(ANSI Lumen): 3000 • Kontrast: 350:1 • Technik: LCD Videokamera: Sony HDR-HC7E • System: Digital • Format: MiniDV • Optischer Zoom: 10-fach • Bildauflösung: 720 × 576 • Brennweite: 5.4-54 mm • Videoaufnahmen: in DV Qualität • Firewire Anschluss: Ja Rechner: Standard PC • Prozessor: Core2Duo 6300, 1.8GHz • Arbeitsspeicher: 2.00GB • Graphikkarte: NVidia Quadro FX 1500 • Festplattenkapazität: 120 GB /7200 Umdrehungen Beleuchtung auf Hintergrund: LED-Beleuchtungssystem • Lichtleistung: 4800 Lumen Beleuchtung auf Vordergrund: Übliche Tischlampe Wie Abbildung 5.1 illustriert, sind die zwei Projektoren durch einem Beamsplitter mit dem Rechner verbunden, während die Videokamera per Firewire an den Rechner angeschlossen ist. Der Rechner steuert die gesamte Kamerakalibrierung und die radiometrische Kompensation. Ein LED-Beleuchtungssystem, 56 Kapitel 4 Chroma Key 5 Auswertung der Chrominanz-Methode Studio Konfiguration von Chroma Key Beleuchtung auf Vordergrund (Kein Licht soll auf den HG fallen) Beleuchtung auf Hintergrund (Die Stärke kann variiert werden) Projizieren auf Hintergrundbilder mit Blaufarbton 2 Projektoren Steinmauer Vediokamera Tapete B F Szene Objekt Vordergrund Vorhang Normal Blau Original Mit RK* Unterschiedliche Hintergründe Detail Beam Splitter Transparent Rechner Steuerung des Kamerakalibrierungsprozesses und der radiometrischen Kompensation. Reflektion *Radiometrische Kompensation Abbildung 5.1: Projektor-Kamera-System für Blue Screen welches ebenfalls im ARLAbor eingebaut ist, sorgt für die Variierung der Hintergrundhelligkeit zum Testzweck. Eine kleine Tischlampe wird für die Beleuchtung des Vordergrundobjektes verwendet, damit dieses Licht nur auf das Objekt und nicht auf den Hintergrund fallen kann. Eine blaue Leinwand ist hier überflüssig. Die Projektoren projizieren einen uniformen Blaufarbton auf den beliebigen Hintergrund, zum Testzweck wird es 3 Oberflächematerialien ausgewählt: eine Steinmauer, einen Vorhang und eine Tapete. Software Zur Aufnahme wurden zwei verschiedene Programme verwendet. Ein Programm, das im ARLabor entwickelt ist, kontrolliert die geometrische und radiometrische Projektor-Kamera-Kalibrierung [OBG07]. Das System führt folgende Schritte aus, damit ein möglich gleichmäßiger BlueScreen erzeugt werden kann. Die Videokamera fungiert in diesem System als Referenzperspektive. Daraus kann man die Projektionsoberfläche beobachten, die scheinbar gleichmäßig ist. 57 5 Auswertung der Chrominanz-Methode Kapitel 4 Chroma Key Unterschiedlicher Hintergrund (a) (b) (c) (d) (e) (f) (g) (h) (i) Abbildung 5.2: Hintergründe im Vergleich. ( a) Steinmauer (original) (b) Steinmauer (mit RK) (c) Steinamer (ohne RK) (d) Vorhang (original) (e) Vorhang (mit RK) ( f ) Vorhang (ohne RK) ( g) Tapete (original) (h) Tapete(mit RK) (i ) Tapete (ohne RK) Um diesen simulierten Effekt zu erzeugen, muss eine Abbildung zwischen Projektor- und Kamerapixel generiert werden. Durch die radiometrische Kompensation kann jeder Projektorpixel die Änderung der Farbe, die durch das Materialeigenschaften der Oberfläche generiert werden, kompensieren. Deshalb kann man aus der Kameraperspektive eine gleichmäßige Blauwand sehen, falls der Projektor einen blauen Farbton auf die vorher neutralisierte Oberfläche projiziert. Abbildung 5.2 demonstriert den visuellen Eindruck der kompensierten Hintergründe mit unterschiedlichen Materialien. Es kann gesehen werden, die blaue Hintergründe, die mit der radiometrischen Kompensation die Farbe projiziert wurden, einen vergleichsweise gleichmäßigeren Blaufarbton erzeugen, während die den blauen Farbton direkt darauf anstrahlte Hintergründe sehr unregelmäßig sind. AMCAP ist ein Aufnahme-Tool. Das Programm greift das Signal von TV-Karten, Webcams und anderen Videoquellen ab. Dieses Tool nimmt die Testvideos mit einer Auflösung von 720 ∗ 576 (PAL) und einer Video-Rate von 25 fps auf. 58 5 Auswertung der Chrominanz-Methode Aufnahmekonzeption Mit Hilfe des Projektor-Kamera Systems ist ein blauer Hintergrund fertig gestellt. d.h. Der Blue-Screen wird zur den Aufzeichnung eingesetzt. Bevor die Aufzeichnungsarbeit beginnt, wird ein Aufnahmeplan aufgrund der Evaluationsinhalte erstellt werden. Die Beurteilung der Keying-Qualität an Hand der Chrominanz-Information kann durch eine vielseitige Kombination von unterschiedlichen Materialitäten der Vordergrundobjekte und des Hintergrundes erfolgen. Außerdem noch zwei Parameter werden hauptsächlich in Betracht kommen. 1. die Helligkeit der Umgebung (gering bis hoch) 2. die radiometrische Kompensation (aktiviert oder deaktiviert) Die Helligkeit des Hintergrundes wird stufenweise festgelegt, indem man eine LED-Beleuchtung verwendet und die Lichtleistung variiert. Dadurch kann man diagnostizieren, ob die Intensität der Hintergrundfarbe einen Einfluss auf die Qualität des Compositings haben kann. Für jede Kombination zwischen verschiedenen Vordergrundobjekten und Hintergrundoberflächen werden zwei Videos aufgenommen, einer mit der radiometrischen Kompensation (Abkürzung mit RK)und einer ohne RK. Dann kann man daraufhin vergleichen, mit welchen eine bessere Keying-Qualität erzielt werden kann Tabelle 5.1 gibt einen Überblick über die durchgeführten Aufnahmen. Diese sind insgesamt 4 ∗ 3 ∗ 5 ∗ 2 = 120 Fallunterscheidungen, wobei die Helligkeitsvariation in vier Stufen unterteilt wurde. Die Vordergrundobjekte werden vor drei unterschiedlichen Hintergrundmaterialien aufgenommen. Fünf Gegenstände repräsentieren die verschiedenen Eigenschaften des Vordergrundes. Die Hand mit ihrer massiven Form gehört zum wenigeren kritischen Aspekt des Keyings, während die vier anderen Objekte die Problemfälle des Keyers demonstrieren können. Die Haare haben feine Details auf den Haarspitzen. Ein Glas hat die Eigenschaft von der Transparenz. Eine Metallkatze reflektiert Licht auf ihrem Körper, dadurch ein Highlight entstanden ist. Die Handbewegung simuliert Bewegungsunschärfe. Alle Fälle werden zweimal aufgenommen, ein- 59 5 Auswertung der Chrominanz-Methode Horizontal: Hintergrundoberfläche, Vertikal: Umgebungshelligkeit Stufen 1 Ohne Umgebungslicht; LED-Beleuchtung: Aus Stufe 2 Ohne Umgebungslicht; LED-Beleuchtung: Schwach Stufen 3 Ohne Umgebungslicht; LED-Beleuchtung: Stark Stufen 4 Umgebungslicht, Innenraum; LED-Beleuchtung: Aus Steinmauer Hand Haare Glas Metallkatze Bewegung Hand Haare Glas Metallkatze Bewegung Hand Haare Glas Metallkatze Bewegung Hand Haare Glas Metallkatze Bewegung Tapeten Hand Haare Glas Metallkatze Bewegung Hand Haare Glas Metallkatze Bewegung Hand Haare Glas Metallkatze Bewegung Hand Haare Glas Metallkatze Bewegung Tabelle 5.1: Aufnahmeplan 60 Vorhang Hand Haare Glas Metallkatze Bewegung Hand Haare Glas Metallkatze Bewegung Hand Haare Glas Metallkatze Bewegung Hand Haare Glas Metallkatze Bewegung 5 Auswertung der Chrominanz-Methode mal wird der Projektor die reine blaue Farbe auf dem Hintergrund ohne RK projiziert, einmal mit RK. 5.2.2 Keying der aufgenommenen Videos Hardware und Software Das Keying-Verfahren erfolgt nicht in Echtzeit. Mit Hilfe der professionellen Keying-Software werden die Videomaterialien gekeyt. Der Keying-Vorgang wurde auf einem Rechner mit folgender Hardwarekonfiguration durchgeführt: Rechner: Standard PC • Prozessor: intel(R) Pentium(R) 4, 2.8 GHz • Arbeitsspeicher: 1.00 GB • Graphikkarte: NIVIDIA GeForce 6800 GT • Festplatte: 40 GB /5600 Umdrehungen Die rohen Videos wurden mit „Adobe Premiere Pro 1.5“ geschnitten und in „Adobe After Effects 7.0“ importiert. Es sind mehrere integrierte Keying-Werkzeuge in „After Effects 7.0“ als Effekte verfügbar. Zur Ausarbeitung der aufgenommenen Videos wurde ein kommerzielle Plug-In „dvMatte Pro 1.5“ für „After Effects“ eingesetzt. Dieses Plug-In stammt von der Firma dvGarage1 . Der Grund für die Auswahl dieses Plug-Ins aus mehreren existierenden Plug-Ins ist es, dass dieser Keyer für die Lösung des speziellen Problems bei Keying der MiniDV Videomaterialien entworfen ist. Das digitale Video (DV) kodiert die RGB Signale in YUV Signale, welche die Helligkeitsinformationen (Luminanz) und Farbton- und Farbsättigungsinformation (Chrominanz) kombiniert. Der Y Kanal beschreibt das Luma (Lichtintensitätswert). Die UV Kanäle kommen von der Differenz zwischen 8-Bit RGB Blau oder Rot und dem Helligkeitswert. Ein umkompensierter YUV-Farbraum 1 http://www.dvgarage.com/prod/prod.php?prod=dvmatteae 61 5 Auswertung der Chrominanz-Methode Format Anbeiter Auflösung Abtastung DV Konsortium von 60 Hersteller 720 × 480 4:1:1 (NTSC) 720 × 576 4:2:0 (PAL) DVCAM Sony 720 × 480 4:1:1 (NTSC) 720 × 576 4:2:0 (PAL) DVCPRO Panasonic, Philips, Ikegami, Hitachi 720 × 480 4:1:1 (NTSC) 720 × 576 4:1:1 (PAL) Digital8 Sony 720 × 480 4:1:1 (NTSC) 720 × 576 4:2:0 (PAL) Tabelle 5.2: Überblick des gängigen DV-Formats besitzt eine Abtastfrequenz in Form von 4:4:4. Weil die menschliche Augen für Helligkeit empfindlicher als für die Farben, kann die Chroma Abtastfrequenz horizontal oder horizontal-vertikal im Verhältnis 2:1 (4:1 oder 4:0) reduziert werden. Dadurch kann die Videosignale bis ca. 33% komprimiert werden. Daraus folgt die andere Formate für dieses Farbmodell 4:2:2, 4:1:1 und 4:2:0. D.h. Mit einem geringen visuellen Qualitätsverlust besitzt man digitalen Video in einem Bruchteil des Speicherplatzes gegenüber Analog Videos. Die folgende Tabelle 5.2 zeigt einige gebräuchlichste DV Formate [Wac04, Seite 62-76]. DVMatte verwendet genau die Luminanzinformation, die volle Auflösung hat, um den Alphawert des feinen scharfen Kanten der Vordergrundobjekte zu definieren. Daraus entstandene Matte heißt hier Detail-Matte. Das Rendering ist sehr schnell. Außerdem ist sein Interface einfach, übersichtlich gestaltet. Arbeitsweise der dvMatte Der dvMatte Keyer arbeitet mit dem doppelten „Color Difference Key“ (vgl. Abschnitt 3.1.2), um eine Base-Matte2 zu erzeugen. Mit der Luminanzkanal generiert er noch eine Detail-Matte für die feine Kante der Vordergrundobjekte. Schließlich werden die beiden Matten integriert. 2 Eine Base-Matte ist eine Basis-Matte, das nach der Angleichung der Referenzfarben mit Hintergrundfarben erzeugt wurde. 62 Kapitel 4 Chroma Key TestSoftware DVMatte: 5 Auswertung der Chrominanz-Methode DVMatte: Keyingvorgang Originales Bild Korrigiertes Bild Base Matte Detail Matte 1 Final Matte = + 2 (b) 2 (d) 2 (c) 2 (a) Inv. Base Matte 3 Base Matte 5 Inv. Final Matte Composite + = 2(d) Final Matte Inv. Final Matte 3 Hintergrundbild Haare als Beispiel für Base Matte und Detail Matte Mischung * 4 Abbildung 5.3: Keying-Vorgang von der dvMatte Abbildung 5.3 weist den Vorgang der dvMatte auf, der mit der weißen Schrift auf dem roten Kästchen durchnummeriert ist. 1. Farbkorrektur: Mit dem Eyedropper wählt man zweimal Farben als Keyfarbe aus dem Hintergrund. Einmal soll der Eyedropper auf der hellsten Stelle anklicken, anderes mal auf der dunkelsten Stelle. Keyfarbe 1 berechnet ein neues Bild 1 nach der Formel 3.6, Keyfarbe 2 berechnet ein neues Bild 2 nach der gleichen Formel. Dann werden die beiden neuen Bilder in ein korrigiertes Bild durch Überblendung zusammengefasst. 2. Erzeugung der invertierten Matte aus dem Originalbild: • (a) Nachdem man die beide Keyfarben festgelegt haben, werden gleichzeitig zwei Invertierte Teil-Base-Mattes nach der Formel 3.7 erzeugt. Man bekommt daher eine Base-Matte, indem sich die beiden Teil-Base-Mattes überblenden. • (b)Die perfekte Base-Matte wird durch Einstellung des entsprechenden Werts generiert. Hier muss man hauptsächlich 2 Parameter, nämlich „Black Point“ und „White Point“, anpassen. • (c) Man variiert die Parameter in Detail-Matte Option so, dass die halbtransparente Stelle wie Haarspitze oder Glas stimmt. 63 5 Auswertung der Chrominanz-Methode • (d) Man erhält eine Final-Matte, indem man die Base-Matte und die Detail-Matte übereinander blenden. 3. Die invertierte Final-Matte wird durch Abziehen der Final-Matte von 1 fertig gestellt. 4. Ein Teil der Compositing-Operator wird durch Multiplikation zwischen Invertierter Final-Matte und dem Hintergrundbild vorberechnet. 5. Compositing mit Over-Operator (Siehe Formel 3.9). Die Rohmaterialien werden zu jedem Fall (120 Fälle) drei Videos (Original, Matte und Compositing.) gerendert. Die 360 Videos sind den Evaluationen zur Verfügung gestanden. 5.2.3 Auswertung der Compositing-Qualität Hardware und Software Die Evaluation wird mit gleichem Rechner wie bei der Verarbeitung der rohen Videomaterialien durchgeführt. Die grundlegende Software bleibt selbstverständlich dieselbe wie im vorherigen Schritt. Die Werte der Ergebnisse sind mit dem Microsoft Excel diagrammatisch dargestellt (Siehe Abschnitt ??). Um die Änderung der Farbverteilung in RGB Kanäle zu interpretieren, ist ein kleines Werkzeug „RGB Parade“ von Adobe Premiere Pro 1.5 zur Anwendung gekommen. Die Evaluationsmethode Die Auswertungen sind auf zwei Aspekte von der Keying-Qualität fokussiert: 1. dem visuellen Vergleich von resultierenden Matte- und Compositing-Videos, 2. dem parametrischen Unterschied des Matte-Videos. 64 5 Auswertung der Chrominanz-Methode Die optische Qualitätsverschiedenheit von Compositing Bildern zwischen Hintergrund mit RK3 und Hintergrund ohne RK ist zwar subjektiv, aber es ist bei manchen Testfällen sehr deutlich. Wenn die Blaufarbwerte des Hintergrundes nicht überall auf dem Bild konstant sind, ist das Matte-Bild mit dem Rauschen auf dem Hintergrund registriert. Das Hintergrundrauschen verursacht die diffusen Stellen auf dem Compositing-Bild. Dann muss man durch Einsetzen eines Schwellenwertes das Rauschen möglichst unterdrücken, indem man die grauen Flecken auf dem Hintergrund in Schwarz ändert. Die Verwandlung bedeutet auch Datenverlust des Vordergrundobjektes, wie zum Beispiel eine feine Haarspitze, die eine halb-transparente Farbe hat, wird durch Erhöhen des Schwellenwertes verschwinden. Man bekommt zwar einen gleichmäßigen durchsichtigen Hintergrund im Matte-Bild, aber gleichzeitig einen unvollständigen Vordergrund, was manchmal zu den fehlenden Objektteilen führt. Dies wird später noch durch Bilder verdeutlichen. Durch die RK bekommt man eine regelmäßige Hintergrundfarbe, die sofort nach der Auswahl der Referenzfarben in Schwarz wandeln kann. Eine Nachkorrektur ist durchaus minimal, das bringt Vorteil für die mehr Erhaltung des Vordergrunddetails. In Anbetracht der oben genannten Umstände werden folgende Vorschläge für den visuellen Vergleich unterbreiten. Der Schwellenwert wird so angepasst, dass die Hintergründe ganz schwarz sind. Dann wird der Verlust der Vordergrundobjekte gezeigt werden. Je starker die Uneinheitlichkeit der Hintergrundfarben ist, desto schlimmer wird der Verlust des Vordergrundobjektes. Wer mehr Unvollständigkeit des Vordergrundobjektes verursacht, ist weniger geeignet für das Keying. Die Tests können auch in einer anderen Ausrichtung durchgeführt werden. Ein gemeinsamer Schwellwert wird für beide Videos festgelegt. Dann wird es überprüft, welches Compositing eine bessere Qualität liefert, d.h. weniger Diffuse auf dem Composite-Bild hat. Je unregelmäßiger die Hintergrundfarbe ist, desto mehr wird das Rauschen auf dem neuen Compositinghintergrund zu sehen, was nicht Wünschenswert ist. 3 Die Radiometrische Kompensation. 65 5 Auswertung der Chrominanz-Methode Kapitel 4 Chroma Key Color Difference Methode high bg color low bg color (a) (b) (c) (d) Abbildung 5.4: Justierung von der Base-Matte ( a) Das Original-Videobild vor dem unkompensierten blauen Hintergrund „Steinmauer“ unStufen1, Base matte Ohne RK, Ohne Einstellung von BP ter Beleuchtungsstufe 116,70,255 (Sehe Tabelle 5.1) (Alpha b) Auswahl der zwei / 6,26,100 = 179, Alpha = 74 Referenzfarben (c) Unkorrigierte Base Matte (d) Korrigierte Base Matte Man kann durch die beiden Testrichtungen auch beurteilen, ob die Hintergründe mit RK die Keying-Qualität positiv beeinflusst. Andere Aspekte der Auswertung erfolgten durch den Vergleich der Parameter des Keying-Werkzeuges (hier von das Stufen 1 Base matte mit RK, Ohne Einstellung BP Plug-In dvMatte), um reine AlphaSubjektivität = 82, Alpha =zu65 15,31,113 / 28,30,95 vermeiden. Durch Auswahl der beiden Keyfarben, ein hellstes Blau und andere dunkelstes Blau (vgl. Abbildung 5.4(b)), erhält man ein Graustufenbild, das unkorrigierte Base-Matte heißt (vgl. Abbildung 5.4(c). Aber das Ergebnis bei der unkorrigierten Base-Matte ist noch nicht zufrieden stellend, da auf dem Hintergrund noch graufarbige Stellen existieren. Hier muss man die Matte noch einjustieren, indem man den Kontrast der unkorrigierten Base-Matte erhöht. Das Kontrasterhöhen ist analog zur Veränderung des Kontrasts mit der Tonwertkorrektur in Photoshop. Eine Korrektur für die primitive Base-Matte wird durch 2 Parameter bewerkstelligt. Das „Black Point“ und „White Point“ sollen so eingestellt werden, dass der Vordergrund ganz weiß erscheint und der Hintergrund rein schwarz. • Das Black Point ist der wichtigsten Schwellenwert der Base-Matte. Alle Pixel, die unter dem eingestellten Wert liegen, werden auf schwarz gesetzt. Abbildung 5.4 (d) ist ein Resultat der Anpassung des „Black Point“ Wertes. 66 5 Auswertung der Chrominanz-Methode • Den Wert von „White Point“ kann man hier so einstellen, dass die Vordergrundobjekte möglichst weiß(hell) erscheinen, zu hohe Werte führen leicht dazu, dass die Kanten zu weit ausgedehnt werden. Den Wert von „White Point“ sollte man vorsichtig mit dem Schieber anpassen. Hier lässt sich erfahrungsgemäß an der Base-Matte wenig verbessern. Wichtig ist jedoch, die Werte so gering wie möglich zu halten, damit eine möglichst große Bandbreite an Grautönen erhalten werden kann. Die Grautöne treten meistens dort auf, wo sich halbtransparente Bereiche befinden. z.B. in der Haarspitze und in den Gläsern. Wenn zu viele Grautöne in der Matte weggekeyt wären, würde die Vordergrundinformation verloren gehen. Dieser Verlust bedeutet eine Minderung der Compositing-Qualität. 5.3 Unterschiedliche Testbedingungen Die 120 Videosequenzen wurden unter verschiedenen Testbedingungen aufgenommen, die an Hand der unterschiedlichen Beleuchtungsstufen, Oberflächlichkeiten der Vordergrunde, die Materialeigenschaften der Hintergründe und Aus- und Einschalten der Radiometrischen Kompensation4 kategorisiert werden (Siehe Tabelle 5.1). In diesem Abschnitt werden separat die Einzelheiten betrachtet. 5.3.1 Unterschiedliche Umgebungshelligkeiten Hier sind insgesamt 4 Helligkeitsstufen für die Hintergründe mit Hilfe der LED5 -Beleuchtung eingestellt. Die LED-Beleuchtung hat eine Lichtleistung von 4000 Lumen, die ein weißes Licht mit einer Farbtemperatur von 5600k6 anstrahlt. Um den Unterschied der Helligkeitsstufen zu interpretieren, wird ein kleines Werkzeug verwendet. In Abode Premiere Pro 1.5 verfügt ein Monitor 4 Das Software des Projektor-Kamera Systems ist so programmiert, dass man eine Option für das Ein- und Ausschalten der Radiometrischen Kompensation per Mausklick auswählen kann. 5 Light Emitting Diode 6 tageslichtähnliches Licht 67 5 Auswertung der Chrominanz-Methode (a) (b) (c) (d) Abbildung 5.5: RGB Verteilung für die Steinmauer in 4 Helligkeitsstufen (ohne RK) ( a) − (d) entspricht den Stufen 1 − 4 SM ohne Rk S1-4 „RGB Parade“, in dem werden die Wellenformen für die Werte des Rot-, Grün- und Blaukanals des Videobildes nacheinander in einem Diagramm angezeigt. Dadurch kann man die Verteilung von Farbkomponenten in einem Videobild betrachten. Die Werte der einzelnen Farbkanäle werden proportional zueinander im Maßstab von 0 bis 100 gemessen. Abbildung 5.5 wird die 4 Helligkeitsstufen aufgrund eines Beispiel von Steinmauer Blue-Screen ohne RK angezeigt. Helligkeitsstufe 1 Umgebungslicht wird aus dem Projektionsraum durch geschlossenen Tür und Fenster ausgeschlossen. LED-Beleuchtung bleibt ausschalten. Der Raum ist sehr dunkel. Das ist ideale Helligkeitssituation für das Projektor-Kamera-System. Aus Abbildung 5.5 ( a) kann man die Farbverteilung in RGB-Farbraum anschauen. Die Rot- und Grünfarbtöne liegen im unteren Wertbereich, während der Blauanteil einen hohen Wert besitzt. Helligkeitsstufe 2 Umgebungslicht ist nicht vorhanden. Die LED-Beleuchtung wird eingeschaltet und auf schwach eingestellt. Sie hellt den Hintergrund minimal auf. Das Resultat kann man aus Abbildung 5.5(b) ablesen. Die Rot- und Grünfarbtöne sind leicht nach oben verschoben. Die Bandbereite der Rot- und Grünfarbwerte erhöhen sich auch ein wenig. 68 5 Auswertung der Chrominanz-Methode Helligkeitsstufe 3 Umgebungslicht ist bei diesem Fall ausgeschlossen. Die LED-Beleuchtung wird sehr stark eingestellt. Die Hintergrundfarben sowohl mit RK als auch ohne RK verändern sich sehr stark. Weil die LED mit einem Abstand von einem Meter von Hintergrund entfernt ist, wirkt die Aufhellung ungleichmäßig aus. d.h. in die Mitte der Hintergründe wird es mehr aufgehellt als bei dem Rand. Das bringt besonderes Problem bei Keying. Die Hintergrundrauschen kommen meisten aus den Bereich, wo die Aufhellung sehr stark ist. Aus Abbildung 5.5 (c) kann man deutlich sehen, dass die Rot- und Grünfarbtöne stark nach oben verschoben sind. Die Bandbereite der jeweiligen Farbtöne sind auch schnell erweitert. Das ist die kritische Stelle des Keyings. Helligkeitsstufe 4 Bei diesem Fall wird die LED ausgeschaltet. Das Umgebungslicht ist zugelassen, indem man die Tür und die Fenster aufmacht. Wegen der Räumlichkeit des Labors wird das Umgebungslicht nicht hell genug, so dass es nicht im Sinne von Tagslicht entspricht. Deshalb liegen dessen Farbwerte leicht über den zweiten Fall mit schwacher LED-Beleuchtung. Abbildung 5.5 (d) stellt sich die Situation dar. Der Einfluss auf die Keying-Qualität ist auch nahe an den zweiten Helligkeitsstufen. Darauf wird im späteren Abschnitt detaillierter eingehen. 5.3.2 Unterschiedliche Hintergründe Eine reine weiße Leinwand schafft ideale Projektionsoberfläche für einen Projektor. Weil die Werte von den RGB Farbkanäle alle 255 (in Abbildung 5.6 ( a) 100)sind, kann der Projektor eine reine Blaufarbe darauf projizieren. Für beliebige Oberfläche kommt dann der Projektor ohne RK nicht aus. Die unterschiedlichen Eigenschaften der Oberflächenmaterialien beeinflussen die Qualität der radiometrischen Kompensation. Steinmauer, Tapete und Vorhang werden zu 69 5 Auswertung der Chrominanz-Methode (a) (c) (b) (d) Abbildung 5.6: Material der Hintergründe in RGB Parade ( a) Ideal weiße Leinwand (b) Steinmauer (c) Tapete (d) Vorhang Testzwecken genutzt. Eine allgemeine Interpretation der Oberflächenmerkmale wird durch RGB Parade7 gemacht (vgl. Abbildung 5.6). Steinmauer Diese unebene Struktur der Steinmauer beeinträchtigt die Erhaltung der halbtransparenten Glasoberfläche bei Keying. Abbildung 5.7 (b) drückt solchen Zustand aus. Wenn man den Hintergrundkontrast reguliert, wie Abbildung 5.7 (c) gezeigt ist, dann verschwindet das Glas teilweise. Verglicht man das Original (5.7 ( a)) mit dem Compositing (5.7 (d)), stellt man fest, dass Objektdetails verloren gegangen sind. Mit RK können diese Fehler korrigiert werden. Dies wird in Abschnitt 5.3.4 erläutert. Tapete Diese Tapete, die zur Evaluation verwendet wurde, hat vergleichsweise einheitlichere Materialeigenschaften (vgl. Abbildung 5.6(b)). Die Farbtöne sind 7 Adobe Premiere Pro 1.5 70 5 Auswertung der Chrominanz-Methode (a) (b) (c) (d) Abbildung 5.7: Steinmauer ohne RK der Helligkeitsstufe 1 ( a) originalVideobild (b) Base-Matte (c) Final-Matte (d) Compositing Steinmauer ohne rk stufen1 transparent (a) (b) (c) (d) Abbildung 5.8: Tapete ohne RK der Helligkeitsstufe 3 ( a) original-Videobild (b) Base-Matte (c) Final-Matte (d) Compositing Tapete ohne rk stufen3 transparent nicht sehr vielfältig mit einem etwas dunkleren Blumenmuster, welches jedoch mit einer glänzenden Farbe beschichtet ist. Wenn das Licht darauf trifft, werden die Blumen reflektiert. Wegen der Einfachheit der Farbtöne gelingt die radiometrische Kompensation unter Helligkeitsstufe 1 sehr gut(vgl. Abbildung 5.2 (h)). Das ist für Keying des transparenten Glases und der feinen Haare sehr von Vorteil. Aber unter sehr starker Lichtleistung wird sie heftig reflektiert. Das verursacht ein hohes Hintergrundrauschen, wie Abbildung 5.8 ausdrücklich zeigt. Bei Compositing ist die Hälft des Glases durch Hintergrundrauschen weggekeyt. 71 5 Auswertung der Chrominanz-Methode (a) (b) (c) (d) Abbildung 5.9: Vorhang ohne RK der Helligkeitsstufe 3 ( a) Original-Videobild (b) Base-Matte (c) Final-Matte (d) Compositing Vorhang Dieser Vorhang ist ein Stoff, der nicht reflektiert. Er hat aber variable Farbtöne und an manchen Stelle auch Falten. Die Bandbereite der Farbwerte ist recht groß, wie Abbildung 5.6(d) zeigt. Es gibt visuell einen sehr bunten Eindruck. Um solche Oberfläche zu kompensieren, ist eine harte Arbeit des RK Verfahrens. Das Keying von Reflektion auf Objektoberfläche im Fall der Metallkatze ist normalerweise problemlos, weil die Highlight-Stellen hohe Farbwerte im Gegenteil zum Hintergrund haben. Aber für den Fall der starken Aufhellung des Hintergrundes treten Probleme auf. Die reflektierte Stelle auf dem Objekt wird bei Compositing durchsichtig (vgl. Abbildung 5.8) per Einjustierung des Hintergrundkontrastes, wenn man einen diffus fehlenden neuen Hintergrund haben will. 5.3.3 Unterschiedliche Testobjekte Die unterschiedlichen Vordergrundobjekte, die zur Auswertung gewählt wurden, sind vor allem kritische Objekte. Diese besitzen entweder halb-transparente Stelle, wie zum Beispiel Haarspitze und Glaskörper, oder die unscharfe Region, die eine Mischung von Objekt- und Hintergrundfarben repräsentiert. In Kombination mit den verschiedenen Testbedingungen ist es gelungen, die Objekte von dem alten Hintergrund besser zu trennen und auf neuen Hintergrund zu 72 5 Auswertung der Chrominanz-Methode (a) (b) (c) (d) (e) Abbildung 5.10: Compositingbilder mit verschiedenen Objekten ( a) Vorhang, Stufe 1, mit RK, Normal (b)Tapete, Stufe 2, mit RK, Detail (c) Tapete, Stufe 2, mit RK, Transparent (d) Steinmauer, Stufe 3, mit RK, Reflektion (e) Steinmauer, Stufe 1, mit RK, Motion A vorhang Blur stufen 1 rk normal B tapete stufen2 rk detail C tapete stufen 2 rk transparent setzen. Abbildung zeigt die gelungene Bilder des Keyings mit unterschiedD steinmauer5.10 stufen3 rk reflektion E steinmauer stufen1 rk motion blur lichen Objekte. Bemerkung: Das Licht auf Vordergrundobjekt soll vorsichtig eingesetzt werden, damit es nicht auf den Hintergrund fällt. Normal - Hand Die Hand stellt einen normalen Gegenstand dar, der keine feine Kanten und auch keine halbtransparente Stelle hat. Das Keying der Hand ist deshalb wenig problematisch, sogar unter Helligkeitsstufe 3. Bei schwacher Beleuchtung auf die Vordergrundobjekte kann ein schwarzer Rand darum entstehen, was unschön aussieht. Für das schwierige Hintergrundmaterial zum Beispiel Vorhang kann auch eine gelungene Trennung des Vordergrundobjekts zum Beispiel Hand von dem Hintergrund durchführen (vgl. Abbildung 5.10 ( a)). Details - Haare Detail ist auch ein Schwerfall für Keyer. Für ein grobes Einsetzen der Schwellenwert konnte nicht pixlegenau der α-Wert bestimmt werden. Deshalb ist das Keying von Haaren mehr oder weniger mit dem Detailverlust verbunden, falls man einen reinen schwarzen Hintergrund im Mattebild bekommen möchte. 73 5 Auswertung der Chrominanz-Methode Vor allem bei einem sehr unregelmäßigen Hintergrund, wie zum Beispiel der Vorhang kann der Keyer leicht Haarspitze und Hintergrundrauschen verwechseln. Eine gute RK, wie zum Beispiel die Tapete unter Helligkeitsstufe 2 reduziert den Detailverlust. (vgl. Abbildung 5.10 (b)). Transparenz - Glas Transparente und Halb-transparente Objekte sind ebenfalls schwer mit dem Chroma-Key zu behandeln. Wenn das Hintergrundrauschen sehr stark ist, dann wird eine teilweise Verschwindung des Vordergrundobjekts unvermeidbar. Abbildung 5.10 (c) zeigt ein gelungenes Keying, das das transparente Glas noch vollständig darstellt. Reflektion - Metall Eine glatte Metalloberfläche reflektiert, wenn das Licht darauf strahlt. Dieser Effekt kann man auch Highlighting nennen. Dieser Effekt erzeugt nur ein geringes Problem, weil die Highlighting-Stellen sehr hohe Werte besitzen, manche sogar fast ausschließlich weiße Farbe. Wenn ein Spiegel etwas Blaues spiegelt, dann ist es schwierig, diese Stelle noch bei Compositing mit einem α Wert 1 als Vordergrund darzustellen. Sie erscheint entweder halbtransparent oder gar durchsichtig, so dass an dieser Stelle die Hintergrundfarbe zu sehen sein kann. Abbildung 5.10 (d) zeigt einen gelungenen Fall. Motion Blur - Handbewegung Handbewegung bringt Unschärfe, diese nennt man auch „Motion Blur“. Wo die Stelle ja stark verschwommen ausschaut, ist eine Mischung der Vordergrundfarben mit Hintergrundfarben. Bei der Handbewegung sieht man einen halbtransparenten Rand mit der Farbe Violett um die Finger. Die Bewegungsunschärfe kann man nicht einfach entfernen, sondern nur durch eine Farbkorrektur auf diesem Bereich die bläulichen Farbtöne weglöschen. Sie verursacht eine schlechte Qualität bei Compositing. Abbildung 5.10 (e) sieht schon besser 74 5 Auswertung der Chrominanz-Methode Kapitel 4 Chroma Key Auswertungsergebnis Steinmauer – Normal – Stufen 1 1.Originales Bild (ohne RK) 2.Compositing Bild 3. Compositing Bild (fehlerfreier HG, ohne RK) (fehlerfreier VG, ohne RK) 4. Originales Bild (mit RK) 3. Compositing Bild (fehlerfreier HG, mit RK) 3. Compositing Bild (fehlerfreier VG, mit RK) Abbildung 5.11: Steinmauer - Normal - Stufe 1 aus, aber bei dem Randbereich der Fingern sind auch die bläuliche Farbtöne störend. 5.3.4 Mit der radiometrischen Kompensation oder ohne RK Im Abschnitt 5.2.3 wurde erwähnt, dass zwei verschiedene Tests durchgeführt wurden. Es wurde überprüft, ob der Detailverlust bei Erhaltung der saubersten Hintergründe im Compositing Bild auftaucht, oder wie viele diffuse Reflektionen auf dem Hintergrund bei Bewahrung der besten Qualität der Vordergründe erhalten sind. Vier Bildreihen, in denen verschiedene Testbedingungen kombiniert wurden, stellen die visuellen Ergebnisse zur Schau. Abbildung 5.11 deutet den Unterschied zwischen mit RK und ohne RK an. Der Hintergrund (ohne RK) hat im Compositing Bild bei Erhaltung eines besseren 75 5 Auswertung der Chrominanz-Methode Vorhang – Details – Stufen2 Kapitel 4 Chroma Key Auswertungsergebnis 1.Originales Bild (ohne RK) 2.Compositing Bild (fehlerfreier HG, ohne RK) 3. Compositing Bild (fehlerfreier VG, ohne RK) 4. Originales Bild (mit RK) 3. Compositing Bild (fehlerfreier HG, mit RK) 3. Compositing Bild (fehlerfreier VG, mit RK) Abbildung 5.12: Vorhang - Detail -Stufe 2 Vordergrundes dunkle Flecken, während der Hintergrund (mit RK) sehr sauber ist. Der Detailverlust wird hier wegen der Objektmerkmale kaum wahrgenommen. Bei Helligkeitsstufe 2 macht das Keying ohne RK schwere Arbeit. In zwei Richtungen ist dieses Keying fehlerhaft. Man kann schwer einen Kompromiss zwischen dem sauberen Hintergrund und dem verlustfreien Vordergrund finden. Aber der Hintergrund mit RK sieht ganz überzeugend aus. Abbildung 5.12 weist dies auf. Bei Stufe 3 wird der Hintergrund sowohl „ohne RK“ als auch „mit RK“ sehr stark aufgehellt. Das macht den Keying-Vorgang problematisch. Weil die Steinmauer eine gute RK bekommt, kann die Metallkatze noch vernünftig von dem Hintergrund getrennt werden. Im Vergleich mit einem transparenten Objekt hat die Katze einen groben Rand und die halb-transparente Stelle existiert auch nicht, deshalb tritt der Detailverlust bei erwünschten Hintergrund trotz ohne 76 5 Auswertung der Chrominanz-Methode Steinmauer – Reflektion – Stufen3 Kapitel 4 Chroma Key Auswertungsergebnis 1.Originales Bild (ohne RK) 2.Compositing Bild (fehlerfreier HG, ohne RK) 3. Compositing Bild (fehlerfreier VG, ohne RK) 4. Originales Bild (mit RK) 3. Compositing Bild (fehlerfreier HG, mit RK) 3. Compositing Bild (fehlerfreier VG, mit RK) Abbildung 5.13: Steinmauer - Reflektion - Stufe 3 RK nicht auf. Zu mindestens wird er visuell nicht wahrgenommen (vgl. Abbildung 5.13). Wenn es um die Transparenz geht, muss man auf die Regulierung der Keyingparameter sehr vorsichtig angehen. Weil der Glaskörper halbdurchsichtig ist, stellt er an den Keyer hohe Anforderung. Wie Abbildung 5.14 zeigt, mit unregelmäßigem Hintergrund gehen sehr viele Details verloren. Ein sauberer Hintergrund ohne RK verursacht eine teilweise Unsichtbarkeit des Glases. Der „Motion Blur“ zählt zur schwierigsten Arbeit des Keyers. In diesen Fall bleiben beide sowohl mit RK als auch ohne RK schlechte Ergebnisse. 77 5 Auswertung der Chrominanz-Methode Tapeten – Transparent – Stufen4 Kapitel 4 Chroma Key Auswertungsergebnis 1.Originales Bild (ohne RK) 2.Compositing Bild (fehlerfreier HG, ohne RK) 3. Compositing Bild (fehlerfreier VG, ohne RK) 4. Originales Bild (mit RK) 3. Compositing Bild (fehlerfreier HG, mit RK) 3. Compositing Bild (fehlerfreier VG, mit RK) Abbildung 5.14: Tapete - Transparenz - Stufe 4 5.4 Testergebnisse Visuelle Informationen besagen, dass mit RK gute Ergebnisse erzielen kann als ohne RK. Parametrische Informationen können diese Aussage weiter beweisen. Diagramm 5.15 zeigt, dass die Hintergründe mit RK überlegen. Die Überlegenheit ist bei erhöhte Helligkeitsstufen minimiert sind, d.h. der Qualitätsunterschied zwischen mit RK und ohne RK wird bei starker Aufhellung des Hintergrundes gering sein. Wie bereits erwähnt ähnelt sich die Situation unter Helligkeitsstufe 4 mit Stufe 2 und deshalb ist hier nur noch von Stufe 1 bis Stufe 3 dargeboten. Der „Motion Blur“ steht mit hohen Black Point Wert ganz oben. Die Tendenz bei der Tapete (vgl. Diagramm 5.16) ist ähnlich wie bei der Steinmauer. Hier ist ein steiler Anstieg von Stufen 2 zur Stufen 3 zu sehen. d.h. Bei erhöhten Helligkeitsstufen verschlechtert sich die Keying-Qualität. Bei den Stufen 1 und 2 hat die Tapete wegen seiner guten RK den geringsten Black- 78 Normal (ohne RK) Normal (mit RK) Detail (ohne RK) Detail (mit RK) 98.1 37.5 106.5 63.1 106.3 86 112.3 69.9 207.3 189.3 138.6 129.5 Stufe 1 Stufe 2 Stufe 3 5 Auswertung der Chrominanz-Methode Fehlerfreier Hintergrund: Steinmauer 250 Normal (ohne RK) Black Point Wert 200 Normal (mit RK) Detail (ohne RK) Detail (mit RK) 150 Transparent (ohne RK) Transparent (mit RK) 100 Reflektion (ohne RK) Reflektion (mit RK) Motion Blur (ohne RK) 50 Motion Blur (mit RK) 0 Stufe 1 Stufe 2 Stufe 3 Vordergrundobjekte Normal (ohne RK) Normal (mit RK) Detail (ohne RK) Detail (mit RK) Stufe 1 Stufe 2 Stufe 3 107.2 33.8 126.2 42.5 114.6 56.4 132.5 250.3 232.4 201.4 Abbildung 5.15: Steinmauer Diagramm 49.6 199.4 Fehlerfreier Hintergrund: Tapete 300 250 Normal (ohne RK) Black Point Wert Normal (mit RK) Detail (ohne RK) 200 Detail (mit RK) Transparent (ohne RK) 150 Transparent (mit RK) Reflektion (ohne RK) 100 Reflektion (mit RK) Motion Blur (ohne RK) Motion Blut (mit RK) 50 0 Stufe 1 Stufe 2 Stufe 3 Vordergrundobjekte Abbildung 5.16: Tapete Diagramm 79 Normal (ohne RK) Normal (mit RK) Detail (ohne RK) Detail (mit RK) Stufe 1 Stufe 2 Stufe 3 110.9 66.5 143.2 der Chrominanz-Methode 63.1 141.2 5 Auswertung 135.6 66.5 68.8 154.6 253.8 229.1 183.6 Fehlerfreier Hintergrund: Vorhang 300 Normal (ohne RK) 250 Black Point Wert Normal (mit RK) Detail (ohne RK) 200 Detail (mit RK) Transparent (ohne RK) 150 Transparent (mit RK) Reflektion (ohne RK) 100 Reflektion (mit RK) Motion Blur (ohne RK) 50 Motion Blur (mit RK) 0 Stufe 1 Stufe 2 Stufe 3 Vordergrundobjekte Abbildung 5.17: Vorhang Diagramm Point-Wert. Der „Motion Blur“ ist hier genau so schlecht wie bei der Steinmauer. Der Vorhang hat schon bei Stufen 1 einen höheren Balck-Point-Wert, wenn die Hintergründe nicht radiometrisch kompensiert wurden. Das Keying für Transparenz und Detail ist eher schwer, hier muss man höheren Black Point Wert einstellen, was aber entsprechend einen höheren Detailverlust des Vordergrundobjekts bedeutet (vgl. Diagramm 5.17). Aus den visuellen und parametrischen Daten kann man eine Schlussfolgerung ziehen. Die Hintergründe sollen möglichst dunkel sein, starke Aufhellungen bringen das Keying an seine Grenzen. Mit RK verbessert man die Gleichmäßigkeit der Projektionsfläche, was zu einer besseren Qualität des Keyings führt. 80 5 Auswertung der Chrominanz-Methode 5.5 Diskussion und Fazit Zusammenfassend sollte der Blue Screen egal ob Stoff, Wandfarbe oder Hintergrundkarton eine möglichst gleichmäßige und intensive Farbe haben und darf nicht glänzen. Der genaue Farbton ist nicht wichtig, solange er gleichmäßig ist. Die Farbe kann auch weiß sein, solange Vordergrundobjekt selbst nichts weißes an sich hat. Farbkontraste werden bei DV stark komprimiert, was zu störender Artefaktsbildung führt. Kamera sollte möglichst mit einer hohen Auflösung sein und mit geringer Tiefenschärfe arbeiten, dadurch werden Unebenheiten und Fehler des Hintergrundes im doppelten Sinne „entschärft“. Mit RK kann man das Vorprozess der komplizierte Einstellung von Studiolicht erspart (Einrichten des Studiolicht dauert mindesten ein paar Stunden). Man braucht auch nicht unbedingt eine große blaue Leinwand zum Drehort transportieren (Transportarbeit gespart). Und der Projektor strahlt auf beliebige Oberflächen, wie zum Beispiel auf tapezierte Wand (braucht man die Wand nicht blau lackieren, die Handarbeit gespart), oder auf einen Fenstervorhang. Bunte Vorhang und auch Falten ist, kein Problem. Aber das Chroma-Key selber hat sein Limit. Die Vordergrundfarbe soll in keinem Fall eine Ähnlichkeit wie die Hintergrundfarbe haben. Selbst wenn der Darsteller eine violette Krawatte eingetragen hätte, kann es schon zu Problemen kommen. Für Live-Studio existieren momentan noch nicht sehr viele Möglichkeiten, während Offline Verfahren reichlich Algorithmen für sehr gute Matte-Extraktion verfügen, wie es in Kapitel 4.1 schon erwöhnt. Deshalb wird man noch versucht, das Verfahren in Verbindung mit zeitlichen Merkmalen der Videos auszuprobieren. Das folgende Kapitel wird eine weitere Vorgehensweise des Keyings mit unserem Projektor-Kamera-System erörtert. 81 6 Auswertung der temporalen Methode 6.1 Einleitung Das letzte Kapitel 5 hat gezeigt, dass die Qualität von Chroma-Keying mit Hilfe von RK erhöht werden kann. Die Umgebungshelligkeit am Aufnahmeort sollte möglichst gering sein, da das Video welches mit der Helligkeitsstufe eins und unter Verwendung von radiometrischer Kompensation aufgenommen wurde, die besten Chroma-Keying-Ergebnisse lieferte. Eine wichtige Einschränkung dieses Verfahrens ist, dass sich im Vordergrund keine Farben befinden dürfen, welche ähnlich dem Hintergrund sind, da diese Bereiche sonst fälschlicherweise dem Hintergrund zugeordnet werden. Die Vordergrundbeleuchtung mit einer Tischlampe war zu schwach, was zur einen Beeinträchtigung der Bildqualität geführt hat. Im ARLabor wurde ein weiteres Verfahren prototypisch entwickelt, welches unter Verwendung von temporal kodierten Informationen eine Matte-Extraktion ermöglicht. Dieses Verfahren nennt man Flash-Keying. Ein relativ aktuelles Verfahren, das „Flash Matting“, wurde im Abschnitt 4.1.4 erläutert. Photographiert wird jeweils ein Bildpaar mit gleich bekanntem Hintergrund. Auf einem der Bilder wurde der Vordergrund durch einen Blitz beleuchtet, auf dem anderen nicht. Damit der Hintergrund nicht vom Blitz beeinflusst wird, distanziert man den Vordergrund ausreichend weit vom Hintergrund. Anhand der Differenz der beiden Bilder lässt sich der α Wert und somit die Matte berechnen. Dieses Verfahren ist ursprünglich für eine statische Szene entwickelt worden, 82 6 Auswertung der temporalen Methode der Flash-Keying-Prototyp in Augmented Studio realisiert jedoch eine Echtzeitanwendung, welche für dynamische Szenen verwendet werden kann. Eine Videokamera nimmt immer Bildpaare auf. Ein Bildpaar sind dabei zwei aufeinander folgende Bilder, wobei im einen Bild der Vordergrund durch ein mit der Kamera synchronisiertes Beleuchtungssystem beleuchtet wird, im anderen nicht. Anhand dieses Bildpaares lässt sich der Vordergrund extrahieren, indem man pixelweise die Differenz der Intensitäten der beiden Bilder berechnet. Mit Hilfe eines vorgegebenen Schwellenwertes bekommt man schließlich eine binäre Matte. Das Flash-Keying hat, wie auch Chroma-Keying, eine farbliche Einschränkung. Zum Beispiel führen schwarze Farbtöne im Vordergrund wieder zu einer fälschlichen Zuordnung zum Hintergrund, da die Differenz zwischen beleuchtetem und nicht beleuchtetem schwarz zu gering ist. Um die Einschränkungen der beiden Verfahren überwunden zu werden, wurde ein Kombi-Prototyp entwickelt, welcher Flash-Keying und Chroma-Keying kombiniert, genannt Flash-Chroma-Keying. Während der Vordergrund unbeleuchtet ist, projiziert ein Projektor mit Hilfe von RK eine uniforme blaue Fläche auf die Test-Projektionsoberfläche. Bei der anschließenden Matte-Extraktion mittels Chroma-Keying werden nur jene Einzelbilder verwendet, in denen der Vordergrund nicht beleuchtet ist. Dadurch gibt es keine Einschränkung der Farben des Vordergrundes mehr, da dieser stets schwarz ist. Im Folgenden werden die Einzelheiten detailliert beschrieben. 6.2 Aufbau Abbildung 6.1 zeigt den Aufbau des Studios zum Flash-Keying [AGB07a]. 6.2.1 Hardware und Software Der Flash-Keying-Prototyp besteht aus folgenden technischen Komponenten: Projektor: Optoma DX733 DLP Projection Display • Auflösung: XGA 83 6 Auswertung der temporalen Methode Abbildung 6.1: Flash-Keying Studioaufbau ( a) Koaxiale Kamera (b) Synchronisationseinheit (c) LEDBeleuchtungseinheit ( Bildquelle : http : //www.uni − weimar.de/medien/ar/g f x/research70. jpg) • Auflösung mit Kompression : 1024 × 768 • Heilligkeit(ANSI Lumen): 2500 • Kontrast: 2500:1 • Technik: DLP Videokamera: Gragonfly Express von Point Grey • System: Digital • Verwendete Fotoauflösung: 640 × 480 • Bildrate: 640 × 480 bei 200 fps • Schnittstelle: 9-pin IEEE-1394 800MB/s Rechner: Standard PC • Prozessor: Core2Duo 6300, 1.8GHz 84 6 Auswertung der temporalen Methode • Arbeitsspeicher: 2.00GB • Grafikkarte: NVidia Quadro FX 1500 • Festplattenkapazität: 120 GB /7200 Umdrehungen Beleuchtung des Vordergrundes: LED Beleuchtungssystem • Lichtleistung: 4800 Lumen In diesem Prototyp verwendet man anstatt eines LCD-Projektors ein DLP-Projektor1 , da dieser über eine höhere Geschwindigkeit verfügt. Dadurch wird ein Nachziehen des Bildes verhindert. Für diesen Prototyp wurde eine Geschwindigkeit von 120 Hz eingestellt. Die Videokamera besteht aus zwei Kameras, deren Frustrah mit Hilfe eines halbtransparenten Spiegels, vereint wurde. Das LED-Beleuchtungssystem ist synchronisiert mit dem Projektor-Kamera-System und schaltet sich pro Sekunde 120mal ein und aus. Die Aufnahme der Videobilder folgt durch das Tool FlyCap für die PTGREY Dragonfly Kamera. Für die aufgenommenen Bilder wurde zum Testzweck ein kleines Tool implementiert. Die Offline-Bearbeitung der Filmmaterialien erfolgte in Adobe After Effects. Der verwendete Keyer war dvMatte Version 1.5 der Firma dvGarage. 6.2.2 Flash-Keying-Prototyp Für den Prototyp des Flash-Keyings [AGB07b] wurde ein TV-Studio simuliert. Ein Sprecher sitzt an einem Tisch und berichtet über das Wetter. Hinter ihm befindet sich eine Projektionsleinwand, auf die der Projektor ein Video mit den nicht wahrnehmbaren Markern von hinten projiziert. Bei den versteckten Markern handelt es sich um ARTag Marker, welche zur Bestimmung von Position und Orientierung der Kamera dienen. Diese Marker wurden mit Hilfe einer dynamischen ∆-kodierten Temporal-Modulation-Methode in das Videobild integriert. Ein statisches Binärcode-Bild, der Marker, ist im Originalbild 1 Digital Light Processing 85 6 Auswertung der temporalen Methode eingebettet. Dazu subtrahiert man vom Originalbild einen ∆ Wert und projiziert das Resultat. Im folgenden Frame addiert man denselben ∆ Wert auf das Originalbild. Man spricht bei diesem Bild von einem Kompensationsbild. Wenn die beiden Bilder abwechselnd mit einer Geschwindigkeit oberhalb der CFF2 (hier 120 Hz) projiziert werden, nimmt das menschliche Auge nur noch das Originalbild dar. Die synchronisierte Kamera jedoch kann jedes Einzelbild aufnehmenden und somit durch Analyse zweier aufeinander folgender Bilder die ∆-Werte, welche in diesem Fall Marker sind, rekonstruieren. Diese Marker können nun zwar zur Kameraverfolgung dienen, verursachen allerdings Probleme beim Flash-Keying. Dieses Problem wird später noch im Abschnitt 6.3.2 diskutiert werden. Die LED-Beleuchtung strahlt weißes Licht mit einer Farbtemperatur von 5600 Kelvin auf den Vordergrund. Dieses LED-Beleuchtungssystem erhellt den Vordergrund mit einem Hochfrequenz-Blitz, der den Vordergrund pro Sekunde Sechzig mal mit einer kurzen Dauer von 8,3ms beleuchtet. Dadurch werden 120 Bilder pro Sekunde aufgenommen. Die Hälfte davon ist unbeleuchtet. 6.2.3 Flash-Chroma-Keying-Prototyp Der Aufbau des Flash-Chroma-Keying Prototyps basiert auf dem Flash-KeyingPrototyp. Anstatt des im Hintergrundvideo eingebetteten nicht wahrnehmbaren Binärcodes wird mit Hilfe von RK eine uniform blaue Fläche auf eine beliebige Projektionsfläche als Hintergrund projiziert. Das Projektor-KameraSystem ist mit der LED-Beleuchtung synchronisiert. Während der Vordergrund gerade unbeleuchtet ist, strahlt der Projektor ein uniformes blaues Licht. Um eine gleichmäßige blaue Fläche zu schaffen, wurde ein Vorprozess durchgeführt. Mit der Hilfe von radiometrischer Kompensation erscheint die Projektion, als würde man auf eine ebene weiße Oberfläche projizieren. Die LED-Beleuchtung beleuchtet die Szene mit einem Takt von 30 Hz, dadurch werden 60 Bilder aufgenommen. Die Hälfte davon hat einen unbeleuchteten Vordergrund. 2 Critical Flicker Frequency 86 6 Auswertung der temporalen Methode 6.3 Flash-Keying-Prototyp 6.3.1 Anwendung Ein Tool wurde zum Zweck des Testes implementiert. Die Bilder, die als Eingangsmaterialien durch das Tool getestet wurden, waren durch diesen Prototyp aufgenommen. Die aufgenommene Szene ist einfach eine sich bewegende Hand. Die Videobilder sind in zwei Kategorien untergeteilt. Eine Gruppe der Bilder haben den unbeleuchteten Vordergrund, die anderen haben den Vordergrund beleuchtet. Die Hintergründe der beiden entsprechenden Bilder sind aufgrund der eingebetteten Marker unterschiedlich. Das kleine Tool sollte die Eingangsmaterialien einlesen, eine Matte extrahieren und ein Composite-Video in Echtzeit ausgeben. Das Programm wurde in C++, OpenGL und OpenCV implementiert, um das Flash-Keying der aufgenommenen Videos zu testen. Abbildung 6.2 demonstriert die wichtigsten Keying-Schritte, welche von 1 bis 6 nummeriert sind. Schritt 1: Das Differenzbild zwischen zwei korrespondierenden Bildern wird erzeugt, indem man die Intensitätswerte der beiden Bilder pixelweise subtrahiert. Das Differenzbild hat einen fast schwarzen Hintergrund mit Rauschen, welches durch die Ungleichheit der Marker verursacht wird. Schritt 2: Das Differenzbild wird in die einzelnen Farbkanäle (Rot, Grün, Blau) separiert, in denen derselbe Pixel unterschiedliche Intensitäten besitzen kann. Schritt 3: Aus den drei einkanaligen Bildern ist die maximale Intensität der einzelnen Pixel zu berechnen. Das Resultat ist ein neues Graustufenbild, welches als Basisbild für die Matte-Extraktion dient. Schritt 4: Zwei Schwellenwerte werden vorgegeben, die eine hohe Intensität und eine niedrige Intensität haben. Die Pixel, deren Intensität kleiner als der niedrige Schwellenwert ist, werden als Hintergrund klassifiziert. Ihre Werte werden auf 0 gesetzt, was einen reinen schwarzen Farbton darstellt. Die Pixel, deren Intensität größer als der hohe Schwellenwert ist, werden dem Vorder- 87 6 Auswertung der temporalen Methode R I2 unbeleuchtetes Originalbild I1 beleuchtetes Originalbild I‘ Differenzbild Max (R,G,B) 2 _ 1 3 Separation = G Max B Matte 4 Invertierte Matte 5 2 Schwellenwert: Matte < = lowTH Æ 0.0 lowTH < Matte < highTH Æ max (R, G, B) Matte >= highTH Æ 255.0 Invertieren Glättung des Objektrandes 6 Matte Vordergrundbild separierter Vordergrund = * separierter Hintergrund invertierte Matte Hintergrundbild * Composite-Bild + = = Abbildung 6.2: Implementation des Flash-Keyings grund zugeordnet. Deren Intensitätswerte werden auf 255 gesetzt, was einen reinen weißen Farbton repräsentiert. Pixel deren Intensität dazwischen liegt, werden nicht verändert. Sie bilden den der Randbereich der Objekte, welche graue Farbtöne haben. Dadurch wird eine Trimap erstellt, wie es im Abschnitt 4.1.1 erklärt wurde. Schritt 5: Aus dieser Trimap kann man eine invertierte Matte generieren. Um einen harten Übergang zwischen Vordergrund und Hintergrund zu verbessern, wird der Randbereich durch einen 3 × 3 Gaußfilter geglättet. Schritt 6: Durch Anwendung der Compositing-Formel [Wri02] wird der Vordergrund abschließend vor einen neuen Hintergrund gesetzt. Vordergrundbild ∗ Matte = separierterVordergrund (6.1) Hintergrundbild ∗ invertierteMatte = separierterHintergrund (6.2) 88 6 Auswertung der temporalen Methode Abbildung 6.3: Ergebnis des Flash-Keyings separierterVordergrund + separierterHintergrund = CompositeBild (6.3) Auf diese Weise wird ein Composite-Bild erzeugt. Das kleines Flash-Keying-Tool lädt zunächst die beiden Arten von Bildern als Bildfolge ein. Die Berechnung wird anschließend in Echtzeit durchgeführt. 6.3.2 Auswertung Die Schwellenwerte lassen sich durch einen Schieber auf dem Interface des Tools justieren. Bei einer Einstellung für den niedrigen Schwellenwert von 105 und dem hohen von 125 lassen sich gute Ergebnisse erzielen (vgl. Abbildung 6.3). Wo sich die Hand schnell bewegt, entsteht eine verschwommene Bewegungsunschärfe um den Finger, die durch das rot gestrichelte Quadrat gekennzeichnet ist. Durch Justierung der Schwellenwerte lässt sich der unscharfe Rand unterdrücken, was im rechten Bild zu sehen ist. Aber auch Flash-Keying funktioniert nicht ohne Probleme. Die diffuse Stelle, die im Originalbild durch Schatten erzeugt und mit einer kreisförmigen gestrichelten roten Linien kennzeichnet ist, ist im Composite-Bild fast verschwunden (Siehe Abbildung 6.3). Aufgrund des Flash-Keying-Prinzips werden dunkele Farbtöne auf dem Vordergrund bei der Matte-Extraktion problematisch. Beispielsweise werden die schwarzen Haare bei Flash-Keying fälschlicherweise als Hintergrund interpretiert und somit weggekeyt. 89 6 Auswertung der temporalen Methode Helligkeitstufe: Mit oder Ohne RK: 1 mit Tabelle 6.1: Beste Testbedingungen Abbildung 6.4: Aufnahme der Eingangsmaterialien Wieder gibt es eine Einschränkung auf bestimmte Farbtöne für den Vordergrund. Gibt es überhaupt ein Keying-Verfahren, das ohne solche Einschränkungen auskommt? Ja, der Flash-Chroma-Keying Prototyp erlaubt es, einen Vordergrund von beliebiger Farbe zu verwenden. 6.4 Flash-Chroma-Keying-Prototyp Time warping 1 6.4.1 Anwendung Die Videos, die für die Auswertungen zur Verfügung gestellt wurden, wurden durch das vorgestellte Projektor-Kamera System aufgenommen. Zunächst wurde ein Video mit 60 fps aufgenommen, wobei sich die Einzelbilder in zwei Gruppen unterscheiden lassen. Wie Abbildung 6.4 illustriert, zeigt jedes zweite Einzelbild einen unbeleuchteten Vordergrund und einen blauen Hintergrund, der durch RK gleichmäßig erscheint. Während das die dazwischen befindlichen Bilder einen vollständig beleuchteten Vordergrund zeigen. Die Blue-Screen-Aufnahme wurde unter den besten Bedingungen (Siehe Tabelle 6.1), welche im letzten Kapitel erläutert wurden, aufgenommen. Zunächst wird das aufgenommene Video in zwei Videos gespalten, indem man die gleichartigen Bilder der Reihe nach gruppiert. Dadurch bekommt man zwei Videos mit jeweils 30 fps. Die beiden Videos werden in der professionellen 90 6 Auswertung der temporalen Methode ? Ein Frame ? ? ? ? Abbildung 6.5: Separation der zweiartigen Videobilder Software3 als zwei sich überlappende Ebene bearbeitet. Jetzt taucht das Problem auf, dass in den beiden getrennten Videos abwechselnd das entsprechenTime warping 2 de Bild zum anderen Video fehlt, wie in Abbildung 6.5 dargestellt. Die roten und grünen gestrichelten Quadrate kennzeichnen die fehlenden Bilder, die nur im jeweils anderen Video enthalten sind. Die Kontinuität der Bewegung wird quasi zeitlich diskret gemacht. Eine Möglichkeit, die fehlenden Zwischenbilder zu approximieren bildet die Interpolation. Man kann zwischen zwei Originalbildern pixelweise interpolieren und dadurch ein neues virtuelles Zwischenbild erzeugen. Das virtuelle Bild ist nur eine Approximation des fehlenden Bildes, das mit dem Bild der unterliegenden Ebene synchronisiert werden muss. Abbildung 6.6 stellt diese Interpolation dar. Jeder Ebene soll der Effekt des „Time-Warping“ hinzugefügt werden. Adobe After Effects Pro 7.0 verfügt über einen solchen zeitlichen Effekt, der auf Deutsch „Zeitverkrümmung“ heißt4 . Mit diesem Effekt kann man die Wiedergabegeschwindigkeit ändern und die Interpolationsmethode für Erzeugung eines Zwischenbildes festlegen. Danach werden die folgenden wichtigen Parameter für die Bestimmung der Interpolation der Pixelbewegung und die Matte-Ebene angegeben. • Pixelbewegung wird als Interpolationsmethode ausgewählt, weil dadurch 3 Adobe After Effects Pro 1.5 und Plug-In dvMatte 4 http://help.adobe.com/de_DE/AfterEffects/8.0/help.html?content=WS641C5190-1DAD- 4150-B17F-F339C6DF1FB2.html 91 6 Auswertung der temporalen Methode Interpolation Interpolation Interpolation Time warping 3 6.6: Abbildung Interpolation Interpolation Erzeugen des Zwischenbildes durch Interpolation das Zwischenbild aufgrund der Analyse der Pixelbewegung in benachbarten Bildern und durch Erstellen von Bewegungsvektoren erzeugt wird. • Wiedergabegeschwindigkeit stellt man auf 50% ein, damit nur ein Zwischenbild erstellt wird. • Vektordetail bezeichnet die Anzahl der Bewegungsvektoren, die bei der Interpolation berücksichtigt werden. Wenn man einen Vektor pro Pixel einstellen möchte, so gibt man bei dieser Option den Wert 100 an. In diesem Beispiel reicht der Wert 20. • Aus einem Bild erstellen gibt an, ob man das Zwischenbild aus den zwei nächstgelegenen Einzelbildern erstellt. • Filterung beeinflusst die Schärfe des Zwischenbildes. • Fehlerschwellenwert gibt die Genauigkeit der Pixelübereinstimmung von einem Bild zu nächsten an. Ein höherer Wert führt zu weniger Bewegungsvektoren und mehr Überblendungen. • Gewichtung gibt die Gewichtung der drei Kanäle an und somit, wessen Analyse am stärksten berücksichtigt werden soll. 92 6 Auswertung der temporalen Methode • Bewegungsunschärfe verfügt über zwei Parameter, die die Intensität und den Grad der Glättung der Bewegungsunschärfe bestimmen. • Matte-Ebene und Matte Kanal definieren die Ebene, die als Matte verwendet werden soll. • Quellbeschneidungen verbessert Artefakte an den Objektkanten. Nach der sorgfältigen Einstellung sind die Bewegungen der beiden Videos synchronisiert, die auf zwei Videospuren gelegt wurden. Wobei man darauf beachten muss, dass das Blue-Screen-Video einen Frame nach hinten verschoben wurde. Zuerst wird nun auf das Blue-Screen-Video der Matte-Filter dvMatte angewendet. Man wählt zwei Referenz-Farben: einen hellsten blauen Farbton und einen niedrigsten blauen Farbton. Als Ergebnis bekommt man ein Graustufenbild, dessen Hintergrund noch nicht hundertprozentig schwarz ist. Nach der Einstellung des Black-Point-Wertes bekommt man eine Base-Matte. Black-Point stellt hier einen Schwellenwert dar, der zwischen 0 und 255 liegen. Alle Pixel, deren Grauwert unter dem Schwellenwert liegen, werden in der Matte schwarz dargestellt. Pixel mit einem Grauwert größer oder gleich dem Schwellenwert werden in der Matte auf weiß gesetzt. Nach Justierung des Black-Point-Wertes wird man eine Base-Matte erhalten. Für transparente Objekte und Details lassen sich weitere Parameter für eine Detail Matte (Siehe 5.2.2) anpassen um abschließend eine Final-Matte (Siehe 5.2.2) zu generieren. Man kann nun diese Matte-Ebene mit der darunterliegenden Ebene (das Video mit beleuchtetem Vordergrund) multiplizieren, in dem man den Effekt „Luminanzschablone“ auf die Blue Screen Ebene anwendet. Unter Luminanzschablone versteht man, dass die helleren Pixel der Ebene weniger transparent als die dunklen Pixel sind. Daher bekommt man ein Bild mit dem Vordergrund und schwarzem Hintergrund, was „separierter Vordergrund“ (Siehe Formel 6.1) genannt wird. Dann kopiert man die Blue-Screen-Ebene und legt sie über die zu ersetzende Hintergrundebene. Durch die Option „Luminanzsilhouette“ wird aus den beiden Ebenen ein neuer „separierter Hintergrund“ (Siehe Formel 6.2). Der neue Hintergrund kann ein stilles Bild oder auch ein Echtzeitvideo sein. Unter Luminanzsilhouette versteht man, dass die helleren Pixel der Ebene transparenter sind als die dunklen. Die beiden Luminanz-Effekten 93 6 Auswertung der temporalen Methode Eigenschaft des Vordergrundes Normal Detail Transparenz Reflektion Motion-Blur Projektionsflächen Steinmauer Vorhang ***** ***** **** *** **** nicht getestet ***** ***** * * Tabelle 6.2: 9 Testfälle für den Flash-Chroma-Keying-Prototyp fungieren nach den gleichen Prinzipien wie die Formel 6.1 und 6.2. Schließlich fasst man den separierter Vordergrund und den separierter Hintergrund zusammen, indem man die Blue-Screen Ebene als bewegte Maske über die Füllebene zieht und dem Video mit beleuchtetem Vordergrund als Füllebene die Option “Luma Matte“ gibt. Dieses Vorgehen ähnelt der Formel 6.3. 6.4.2 Auswertung Insgesamt sind drei Testvideos aufgenommen worden. Diese ermöglichen es, die folgenden neun Fälle zu testen. In der Tabelle 6.2 wird eine Bewertung jedes einzelnen Falles auf Basis seiner visuellen Erscheinung angegeben. Das Sternchen kennzeichnet den Grad der Keying-Qualität. Fünf Sternchen bedeutet sehr gute Qualität, während ein Sternchen die kritischsten Fälle kennzeichnet. Generell ist das Keying mit einer Steinmauer besser als mit einem Vorhang. Weil der Vorhang über eine sehr breite Bandbreite an Farbtönen verfügt, ist das Trennen von Hintergrund und Vordergrund mittels Chroma-Keying schwierig zu realisieren. Dieses Keying-Verfahren erziehlt eine sehr gute Qualität, wenn das Vordergrundobjekt ein normaler Gegenstand ist oder ein Gegenstand mit glänzender Oberfläche, welche zu Reflektionen führt. Bei Transparenz und Semi-Transparenz ist der visuelle Eindruck des Keyings für beide Projektionsflächen durchaus in Ordnung (vgl. Abbildung 6.7 ( a) und (b)). Motion-Blur bringt dagegen immer Problem. Wenn das Vordergrundobjekt sehr stark bewegt wird, taucht eine pixelweise Verschiebung auf. Der Grund dafür ist die gewisse Ungenauigkeit der 94 6 Auswertung der temporalen Methode (a) (b) (c) Abbildung 6.7: Testergebnis des Flash-Chroma-Keying: ( a) Vorhang: Detail und Reflektion, (b) Steinmauer: Transparenz, (c) Steinmauer: Motion Blur und Detail Interpolation. Man kann zwar die Parameter im „Tuning“5 anpassen, damit solche unerwünschten Vektorverzerrungen zu minimieren. Eine vollständige Beseitigung der Vektorverzerrung ist jedoch durch die Interpolation schwierig. In Abbildung 6.7 (c) ist dieser Fehler auf dem Ärmel und auf dem Rand der Hand zu sehen. Je niedriger der Black-Point-Wert eingestellt wird, desto mehr Details gehen verloren. Je gleichmäßiger der Hintergrund ist, desto kleiner kann den BlackPoint-Wert wählen. Zum Beispiel hat die Steinmauer einen einheitlicheren Hintergrund als der Vorhang. Die Haare vor der Steinmauer als Hintergrund werden weniger weggekeyt als vor dem Vorhang. Dies ist der Fall, da der Detailverlust der Haarspitzen mit der Steinmauer als Hintergrund viel geringer ist als vor dem Vorhang. Visuell gesehen bleiben von den Haaren im Bild 6.7 (c) viel mehr Details erhalten als im Bild 6.7 ( a). Die Haare sind zwar in beiden Bildern nicht identisch, aber es ist sehr deutlich zu sehen, dass die Haare vor dem Vorhang schlechter gekeyt werden als vor der Steinmauer. Der BlackPoint-Wert von der Steinmauer ist mehr als ein Drittel niedriger als jener von dem Vorhang (siehe Tabelle 6.3). Somit ist der Detailverlust für beide Fälle unterschiedlich groß. Das weitere Argument kann dieser Aussage zugunsten. Abbildung 6.8 demonstriert den Unterschied der Gleichmäßigkeit von der Steinmauer und von dem Vorhang. Die beiden unkorrigierten Base-Mattes wurden verglichen un5 Unter Effekt „TimeWarping“ zu finden. 95 6 Auswertung der temporalen Methode Hintergrund Steinmauer Vorhang Black-Point-Wert 53 83 Tabelle 6.3: Black-Point-Werte von Steinmauer und Vorhang (a) (b) Abbildung 6.8: Vergleich der Gleichmäßigkeit der Projektionsflächen bei unkorrigiertem Base-Matte ( a) Steinmauer (b) Vorhang ter Verwendung des Black-Point-Wertes 0. Das heißt, sie befinden sich im ursprünglichen Zustand nach dem Vergleich mit den Referenzfarben. Durch die zwei unskalierten Base-Matten lässt sich eine visuelle Beurteilung der Gleichmäßigkeit der beiden Hintergründe treffen. Die Steinmauer hat wegen seiner kleineren Farbbandbreite einen wesentlich geringeren Kontrast, während der Vorhang trotz RK6 vergleichsweise unregelmäßige Farbtöne aufweist. Die Einschränkungen der Farbtöne auf dem Vordergrund sind bei dem Verfahren überwunden. Aber ein anderes Problem taucht auf. Das ist das Highlight des Glases wegen der Beleuchtung des Vordergrundes (vgl. Abbildung 6.4.2 ( a)). Da das korrespondierende Bild, dessen Vordergrund unbeleuchtet ist, ein ganz anderes Lichtverhältnis hat. Die Glasoberfläche empfängt nur minimal Licht aus dem Projektor (vgl. Abbildung 6.4.2 (b)). Bei der Matte-Extraktion gibt es an der Stelle, wo im beleuchteten Bild ein Highlight zu sehen ist, ganz geringe Pixelintensitäten (sogar null, vgl. Abbildung 6.4.2 (c) und (d)). Durch spätere Multiplikation des beleuchteten Bildes mit der null wird das Highlight so dunkel, dass man es nicht mehr wahrnehmen kann. In Abbildung 6.4.2 (e) verschwindet das Highlight des Composite-Bildes. Nur in dem Teil, bei dem 6 Radiometrische Kompensation 96 6 Auswertung der temporalen Methode (a) (b) (c) (d) (e) Abbildung 6.9: Highlight Problem: ( a) Highlight im beleuchteten Bild (b) Highlight von Projektor (c) unkorrigierte Base-Matte (d) korrigierte Base-Matte (e) Composite-Bild highlighting der Hintergrund durch Haare verdeckt ist, bleibt das Highlight noch sichtbar. Das Glas ohne Highlight wirkt unrealistisch. 6.5 Testergebnisse Das Testergebnis von Flash-Chroma-Keying ist durchaus zufrieden stellend. Die Qualität ist das Beste, was man bisher getestet hat. Zusammenfassend lassen sich folgende Schlussfolgerungen ziehen: 1. Die Steinmauer kann sehr gut radiometrisch kompensiert werden, weswegen das Keying mit der Steinmauer als Projektionsfläche besonders gut gelingt. Dieses Resultat ähnelt dem Resultat des Chroma-Keyings im Abschnitt ??. 2. Der normale Gegenstand mit einer soliden Form und auch der Gegenstand mit glänzender Oberfläche können problemlos gekeyt werden. Dies trifft ebenfalls auf das Chroma-Keying zu. 3. Die Gleichmäßigkeit der Projektionsoberfläche spielt eine entscheidende 97 6 Auswertung der temporalen Methode Rolle für transparente oder halbtransparente Objekte. Wenn der Hintergrund kontrastreich ist, wird die Qualität des Keying solcher Objekte vermindert – vergleiche die Aussage über Chroma-Keying im Abschnitt ??. 4. Die Bewegungsunschärfe ist ein großes Problem jedes Keyingverfahrens. Bei der Verwendung von Chrominanz-Informationen ist es schwer, den gemischten Blauanteil im Vordergrund wegzubekommen. Genau so ist das Keying mit temporalen Informationen kompliziert, da hier Bilder von verschiedenen Zeitpunkten unter der Annahme verwendet werden, sie seien zum gleichen Zeitpunkt aufgenommen. Deseiteren approximiert die Interpolation die fehlenden Zwischenbilder, bzw. fehlenden Bewegungen nur. Für eine sehr schnelle Bewegung mit Bewegungsunschärfe führt diese Approximation zu weiteren Abweichungen. 6.6 Diskussion und Fazit Der Flash-Chroma-Keying Prototyp leistet gute Arbeit. Er hat gegenüber des Chroma-Keyings oder des Flash-Keyings folgende Vorteile: 1. Es gibt hier keine Beschränkung der Vordergrundfarben mehr. Da das reine Flash-Keying auf dem Unterschied der Intensität basiert, werden schwarze Bereiche im Vordergrund nicht als solcher erkannt. Die Farbe blau ist bei Chroma-Keying nicht im Vordergrund zu verwenden, weil sie als Hintergrund weggekeyt wird. Da die Matte-Extraktion bei Flash-Chroma-Keying nur die unbeleuchtete Filmsequenzen berücksichtigt, die einen fast7 schwarzen Vordergrund haben. Als Beispiel dient Abbildung 6.10, wo in beiden Bildern ein bläuliches Haarband zu sehen ist. Beim Chroma-Keying wird das Haarband im Composite-Bild als Loch (bzw. Hintergrund) dargestellt, während es im vorgestellten Kombi-Keying Verfahren noch perfekt vor dem neuen Hintergrund dargestellt wird. Die schwarzen Haare sind ebenfalls problemlos von dem Hintergrund zu trennen. 2. Die ungewollte Beleuchtung des Hintergrunds mit dem Vordergrundlicht 7 Die Intensitäten aller Pixel liegen nahe bei null. 98 6 Auswertung der temporalen Methode FlashChroma Keying Composite-Bild Originalbild Chroma Keying Composite-Bild Originalbild Abbildung 6.10: Farbeinschränkung bei dem Chroma Keying führt zu keinen Fehlern mehr, da während der Aufnahme des blauen Hintergrundes die LED-Beleuchtung ganz ausgeschaltet ist. Bei Chroma-Keying ist auf dem Hintergrund manchmal ein violett zu sehen, da das Vordergrundlicht den Hintergrund beleuchtet. Aufgrund dieser Gegenüberstellung kann man sagen, dass der Flash-ChromaKeying-Prototyp definitiv eine Verbesserung des Chroma-Keyings darstellt. Jedoch ist auch dieses Verfahren nicht frei von Problemen. Das Hauptproblem liegt hier in der Genauigkeit der Interpolation des Zwischenbildes bei schnellen Bewegungen. Natürlich kann man durch eine sorgfältige Justierung der Parameter von entsprechender Software8 die Genauigkeit der Interpolation verbessern. Eine Verdopplung des Blitztaktes des LED-Beleuchtungssystems kann auch zur Verringerung der Interpolationsfehler beitragen. Wenn die LED-Beleuchtung 120mal pro Sekunde ein- und ausschaltet wird, werden 120 Bilder auf zwei Arten aufgenommen. Die Anzahl jeder Art von Bildern beträgt 60. Der Unterschied zwischen zwei nächstgelegenen Bildern wird so gering, dass quasi identische Zwischenbilder in zwei Ebenen durch die Interpolation erzeugt werden können. 8 Hier ist Adobe After Effects. 99 6 Auswertung der temporalen Methode Aber dies bringt auch Nachteil. Wenn die Blitzdauer verkürzt wird, werden die Bilder dunkel. 100 7 Zusammenfassung und Ausblick Dieses Kapitel schließt diese Arbeit ab. Es werden zunächst die drei betrachteten Keying-Verfahren zusammengefasst. Gefolgt wird dies von den Ergebnissen der Auswertung dieser Verfahren. Der letzte Abschnitt gibt einen Ausblick auf die Zukunft des Keyings und des Augmented Studios. 7.1 Zusammenfassung 7.1.1 Chroma-Keying Beim Chroma-Keying extrahiert man eine Matte anhand der Chrominanzinformationen des Bildes, also anhand der Farbwerte. Theoretisch kann man jede beliebige Farbe als Hintergrund definieren, aber meist wird grün oder blau verwendet. In Augmented Studio verwendet man Blue-Screen-Verfahren. Die meisten Keyer erlauben mittels eines Farbtoleranz-Reglers zu bestimmen, welche ähnlichen Farben auch noch zum Hintergrund gezählt werden sollen. Projiziert der Projektor zum Beispiel eine uniforme blaue Farbe auf einen Vorhang, der sehr bunt ist, dann wird der Blue-Screen kontrastreichen Farbabstufungen der Blaufarbtöne erhalten, die der Keyer nicht mehr klar zuordnen kann. Je mehr Farbabstufungen existieren, desto höher muss der Farbtoleranz-Regler gestellt werden, welcher in einer direkten Proportion zum Detailverlust steht. Es kann sogar scheitern, eine vollständige Matte zu extrahieren. Die Radiometrische Kompensation hilft bei der Erzeugung eines scheinbar gleichmäßigen blauen Hintergrundes. Der Kontrast des Hintergrundes wird somit verringert, was zu weniger Detailverlust führt. Ziel der Evaluation war es, die Auswirkungen von RK für Chroma-Keying zu bestimmen. Das Ergebnis der Evaluati- 101 7 Zusammenfassung und Ausblick on ist die Schlussfolgerung, dass dieser Prototyp die besten Ergebnisse in einer dunklen Umgebung liefert. Die Steinmauer als Hintergrund ist besser geeignet für ein gelungenes Chroma-Keying als der bunte Vorhang. Aber das Chroma-Keying hat einen grundlegenden Nachteil, welcher die Einschränkung des Vordergrundes auf nicht-blaue Farbtöne ist. Wenn der Moderator in einem TV Studio eine blaue Krawatte trägt, wird sie bei dem CompositeBild verschwinden. Bei der Beleuchtung des Vordergrundes taucht in manchen Fällen ein Problem auf. Um man das Licht, das nur auf den Vordergrund fallen darf, nicht auf den Hintergrund fallen zu lassen, muss eine gewisse Entfernung zwischen Vorder- und Hintergrund eingehalten werden. Bei der Aufnahme der Testfilme konnte der Vordergrund aufgrund der Räumlichkeit nicht ausreichend weit vom Hintergrund entfernt platziert werden. Deshalb wurde eine normale Tischlampe eingesetzt, um für eine möglichst schwache Beleuchtung des Vordergrundes zu sorgen. Das Bild wird bei schlechten Lichtverhältnissen verrauscht aussehen. 7.1.2 Flash-Keying Das Flash-Keying löst dieses Problem auf eine ganz andere Art. Ein auf einem Blitz-Mechanismus basiertes Beleuchtungssystem wurde hier eingesetzt. Man schaltet eine LED-Beleuchtung mit einer kurzen Dauer ein und wieder aus. Dadurch bekommt man ein Bild mit völlig beleuchtetem Vordergrund und das nächste Bild mit völlig unbeleuchtetem Vordergrund. Da der Vordergrund hinreichend beleuchtet ist, hat das Composite-Bild eine bessere visuelle Qualität. Allerdings ist der Vordergrund hier auf helle Farbtöne beschränkt. Sobald schwarze Bereiche im Vordergrund auftauchen, kommt es zu Fehlern. 7.1.3 Flash-Chroma-Keying Das Flash-Chroma-Keying ist – wie der Name vermuten lässt – ein KombiVerfahren, das zuerst die temporale Information benutzt, um zwei völlig unterschiedliche Arten von Videobildern zu erzeugen. Die eine Hälfte der Einzelbilder zeigt den unbeleuchteten Vordergrund und den projizierten Blue-Screen 102 7 Zusammenfassung und Ausblick im Hintergrund. Da der Vordergrund wie eine Silhouette auf dem blauen Hintergrund zu sehen ist, lässt sich eine Matte erstellen, indem man die blaue Farbe wegkeyt. Die andere Hälfte der Einzelbilder – welche Vorder- und Hintergrund unter voller Beleuchtung zeigen – wurde nun bei Durchführung der Composite-Operation verwendet, indem jeder Pixel des Bildes mit dem korrespondierenden Pixel der Matte multipliziert wird. Das Highlight auf dem Glas im beleuchteten Bild wird hierbei zu einem Problem. Da im Unbeleuchten Bild an der entsprechenden Stelle das Highlight überhaupt nicht vorhanden ist, kann diese Multiplikation eine null ergeben, wodurch das Highlight im Composite-Bild gänzlich verschwindet. Ohne Highlight sieht das Glas anschließend unrealistisch aus. Der Fakt, dass das Bild mit beleuchteter Szene an der Matte-Erzeugung nicht beteiligt ist, erlaubt eine freie Farbwahl auf dem Vordergrund. Besonders feine Objektkanten wie zum Beispiel Haare sind mit der Kombi-Methode deutlich besser erhalten als in den zwei anderen Verfahren. Die Evaluation hat ergeben, dass das Keying unter Verwendung des FlashChroma-Keying-Prototyps die vergleichsweise beste Qualität liefert. 7.1.4 Gemeinsames Problem Bei allen drei Keying-Verfahren ist die Bewegungsunschärfe ein großes Problem, da die Verfahren hier keine guten Ergebnisse liefern. Der blaue Anteil, der mit blauem Hintergrund gemischt wurde, ist bei dem Chroma-Keying schwer wegzukriegen. Deshalb bieten manche Keyingprogramme eine Bereichkorrektur für die Kantenfarben an, was sehr viel Zeitaufwand beansprucht. Eine nicht identische Pixelverschiebung zweier überlappenden Bilder bei schnelleren Bewegungen verursacht eine Bewegungsunschärfe für das Flash-ChromaKeying. Die beiden Zwischenbilder, die jeweils durch Interpolation zweier Nachbarbilder erzeugt sind, liegen auf zwei Ebenen. Um ein Composite-Bild fertig zu stellen müssen die beiden Videos über zeitlich exakt synchronisierte Pixelbewegungen verfügen. Durch Interpolation lässt sich jedoch immer nur ein approximiertes Zwischenbild gewinnen, nicht zwangsläufig das exakte. Falls nur ein winziger Fehler auftritt, wird man sofort darauf aufmerksam, da die Szene dann fehlerhaft wirkt. 103 7 Zusammenfassung und Ausblick Um diese Problem zu lösen, kann man versuchen, den Blitztakt der LED Beleuchtung zu verdoppeln. Somit kann der Unterschied zwischen einem Videobild und dessen nächsten Videobild möglichst verringert werden. Oder man kann anstatt der Chrominanz-Information und der temporalen Information die Tiefeninformation des Bildes anwenden. 7.2 Ausblick Das Augmented Studio ermöglicht es, das herkömmliche TV-Studio zu ersetzen. Dabei werden die von üblichen TV-Studios verursachten hohe Produktionskosten sowie der Aufwand gesenkt werden können. Darüber hinaus öffnet die Verwendung von Augmented Reality (AR) neue Perspektiven für Studiotechnik und TV-Produktionen. Für diese Arbeit wurden 3 Keyingverfahren aufgebaut und getestet. Es gibt jedoch noch weitere Möglichkeit, den Keying-Prototypen zu verbessern. Am Anfang dieser Arbeit wurde ein Überblick über die verschiedenen KeyingVerfahren gegeben. Diese können als Anregungen für weitere Versuche dienen. MCGUIRE und MATUSIK [MMP+ 05] schlugen ein Defocus-Matting unter Verwendung zweier Videokameras, die sich ein gemeinsames Projektionszentrum teilen, vor. Dazu wurde ein Kamerasystem mit zwei Kameras und einem Beamsplitter konstruiert. Man lässt eine Kamera auf den Vordergrund fokussieren, die andere ist eine Pinhole-Kamera. Diese Einrichtung des KameraSystems kann für unser Projektor-Kamera-System eingesetzt werden. Angenommen kann dieses Keying-Verfahren als ein Kombi-Verfahren – ChromaDefocus-Keying genannt werden. Angenommen, ein Projektor projiziert ein Hochfrequenzmuster auf einen beliebigen Hintergrund, der bekannt ist. Durch die Pinhole-Kamera wird man ein Bild mit gleichem scharfen Vordergrund und Hintergrund aufnehmen. Die Kamera, die nur auf den Vordergrund fokussiert ist, erhält ein Bild mit scharfem Vordergrund und defokussiertem Hintergrund. Das hat zur Folge, dass man durch unterschiedliche Hintergründe mit gleichem Vordergründe eine Matte 104 7 Zusammenfassung und Ausblick extrahiert. I p ist das Pinhole-Kamera-Bild, B p ist sein Hintergrund. Iv ist das Vordergrund-Fokus-Bild, Bv ist sein Hintergrund. Dann leiten sich aus der Formel 2.1 die folgende Gleichungen: I p = α ∗ F + (1 − α ) ∗ B p ⇒ I p = α ∗ ( F − B p ) + B p (7.1) Iv = α ∗ F + (1 − α) ∗ Bv ⇒ Iv = α ∗ ( F − Bv ) + Bv (7.2) Aus den Formeln 7.1 und 7.2 ergibt sich: α = 1− I p − Iv B p − Bv (7.3) Da B p und Bv bekannt sind, lässt sich nun der α-Wert ausrechnen. Für die Beleuchtung des Vordergrundes kann man die LED-Beleuchtungseinheit benutzen. Es gibt noch viele Möglichkeiten, um ein gelungenes Keying zu erzielen. Die Ideen sind unerschöpflich. 105 Literaturverzeichnis [AB00] A RIE B ERMAN, Paul V. Method for removing from an image the background surrounding a selected objekt. 2000 4.1.1 [AGB07a] A NSELM G RUNDHÖFER, Ferry H. ; B IMBER, Oliver. Coded Projection and Illumination for Television Studios. Eurographics 2007. 2007 6.2 [AGB07b] A NSELM G RUNDHÖFER, Ferry H. ; B IMBER, Oliver. Dynamic Adaption of projected Imperceptible Codes. Bauhaus-Universität Weimar. 2007 6.2.2 [BE00] B EN -E ZRA, M.: Segmentation with Invisible Signal, 2000, S. 32–37 4.2.3 [Bri99] B RINKMANN, Ron: The art and science of digital compositing. San Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 1999. – 364 S. – ISBN 0–12–133960–2 2.1, 3, 3.1, 3.1.2, 3.2.1 [CCSS01] C HUANG, Y. ; C URLESS, B. ; S ALESIN, D. ; S ZELISKI, R. A bayesian approach to digital matting. 2001 4.1.1 [Chu04] C HUANG, Yung-Yu: New models and methods for matting and compositing, Diss., 2004. – Chair-Brian Curless and Chair-David H. Salesin (document), 4.2, 4.3, 4.5, 4.6 [Chu07] C HUANG, Yung-Yu. Matting and compositing (lecture presentation). 2007 (document), 2.2, 3.5 [GB08] G RUNDHÖFER, Anselm ; B IMBER, Oliver: Real-Time Adaptive Radiometric Compensation. In: IEEE Transactions on Visualization and Computer Graphics 14 (2008), Nr. 1, S. 97–108. – ISSN 1077–2626 5.1 106 Literaturverzeichnis [GSAW05] G RADY, Leo ; S CHIWIETZ, Thomas ; A HARON, Shmuel ; W ESTER MANN , Rüdiger: Random Walks for Interactive Alpha-Matting. In: V ILLANUEVA, J. J. (Hrsg.): Proceedings of the Fifth IASTED International Conference on Visualization, Imaging and Image Processing. Benidorm, Spain : ACTA Press, Sept. 2005, S. 423–429 4.2.6 [JMA+ 07] J OSHI, Neel ; M ATUSIK, Wojciech ; AVIDAN, Shai ; P FISTER, Hanspeter ; F REEMAN, William T.: Exploring Defocus Matting: Nonparametric Acceleration, Super-Resolution, and Off-Center Matting. In: IEEE Comput. Graph. Appl. 27 (2007), Nr. 2, S. 43–52. – ISSN 0272–1716 4.1.3 [Kan95] K ANADE, T. Video-rate Z keying: a new method for merging images. 1995 4.2.2 [Ley07] L EY, Christian; Mehnert M.: GPU-Based Background Illumination Correction for Blue Screen Matting. In: Conference Proceedings of the 11th IEEE International Symposium on Consumer Electronics 2007. Dallas/Texas USA, 2007, S. 1912–1915 5.1 [Lot03] L OTTENBURGER, Helmut. Analyse professioneller Keyingtechnologien und -methoden. 2003 3.1.2 [MM05] M C G UIRE, Morgan ; M ATUSIK, Wojciech: Defocus difference matting. In: SIGGRAPH ’05: ACM SIGGRAPH 2005 Sketches. New York, NY, USA : ACM Press, 2005, S. 104 4.1.3, 4.2.4 [MM06] M C G UIRE, Morgan ; M ATUSIK, Wojciech: Real-time triangulation matting using passive polarization. In: SIGGRAPH ’06: ACM SIGGRAPH 2006 Sketches. New York, NY, USA : ACM Press, 2006. – ISBN 1–59593–364–6, S. 88 4.2.3 [MMP+ 05] M C G UIRE, Morgan ; M ATUSIK, Wojciech ; P FISTER, Hanspeter ; H UGHES, John F. ; D URAND, Frédo: Defocus video matting. In: SIGGRAPH ’05: ACM SIGGRAPH 2005 Papers. New York, NY, USA : ACM Press, 2005, S. 567–576 4.2.4, 7.2 [MR07] M ARTIN R EISER, Günter Z.: 3D-CAM Tiefenkamera und Tiefen- 107 Literaturverzeichnis keying / Frauenhof-Institut LMK IMS. 2007. – Forschungsbericht 4.2.2 [MW98] M ASAHIRO WATANABE, Shree K. N.: Rational Filters for Passive Depth from Defocus, In Proceedings International Journal of Computer Version 27(3), 1998, S. 203–225 4.1.3 [OB91] O. B EYER, V. Pieper J. T.: Wahrscheinlichkeits-rechnung und mathematische Statistik. Leipzig Deutschland : B.G.Teubner Verlagsgesellschaft K.-G, 1991. – 216 S. – ISBN 3–322–00802–9 2, 4.1.1, 3 [OBG07] O LIVER B IMBER, Gordon W. ; G RUNDHÖFER, Anselm: The Visual Computing of Projektor-Camera Systems. In: State of the Art Reports(STARs). Prague,Czech Republic : Eurographics 2007, 2007. – ISBN 1017–4656, S. 23–46 5.2.1 [O.R05] O.R USCH, U.Zölzer. Image Segmentation in Naval Ship Images. 2005 4.1.2 [PH05] P ETER H ILLMAN, John H.: Natural Image Matting. In: Second International Conference on Video, Vision and Graphics, 2005, S. 211–218 (document), 4.4 [PJD01] P., Hillman ; J., Hannah ; D., Renshaw: Alpha Channel Estimation in High Resolution Images and Image Sequences. In: CVPR01, 2001, S. I:1063–1068 4.1.1 [PPS03] P ETER P EER, Jure K. ; S OLINA, Franc. Human Skin Colour Clustering for Face Detection. 2003 3.1.2 [Rei98] R EITAN, Paula J.: 3D visualization of color image histograms. In: Comput. Netw. ISDN Syst. 30 (1998), Nr. 20-21, S. 2025–2035. – ISSN 0169–7552 3.1.2 [RK05] R EINHARD, Erik ; K HAN, Erum A.: Depth-of-field-based alphamatte extraction. In: APGV ’05: Proceedings of the 2nd symposium on Applied perception in graphics and visualization. New York, NY, USA : ACM Press, 2005. – ISBN 1–59593–139–2, S. 95–102 4.1.3 108 Literaturverzeichnis [RKB04] R OTHER, Carsten ; K OLMOGOROV, Vladimir ; B LAKE, Andrew: GrabCut:̈ interactive foreground extraction using iterated graph cuts. In: SIGGRAPH ’04: ACM SIGGRAPH 2004 Papers. New York, NY, USA : ACM Press, 2004, S. 309–314 4.1.2 [RMA00] RUZON M. A., TOMASI.: Alpha estimation in natural images. In: In Proceedings of CVPR 2000 1 (2000), June, S. 18–25 4.1.1 [Rod07] R ODNER, Erik. Segmentierung mit Graph-Cut-Methoden. 2007 4.1.2 [SB96] S MITH, Alvy R. ; B LINN, James F.: Blue screen matting. In: SIGGRAPH ’96: Proceedings of the 23rd annual conference on Computer graphics and interactive techniques. New York, NY, USA : ACM Press, 1996. – ISBN 0–89791–746–4, S. 259–268 4.2.3 [SH06] S CHULTZ, C. ; H ERMES, Th: Digital Keying Methods / Technologie-Zentrum Informatik (TZI), Universität Bremen. 2006. – Forschungsbericht. TZI-Bericht Nr. 40 (document), 3.2, 3.5, 3.1.2, 3.6 [SJTS04] S UN, Jian ; J IA, Jiaya ; TANG, Chi-Keung ; S HUM, Heung-Yeung: Poisson matting. In: SIGGRAPH ’04: ACM SIGGRAPH 2004 Papers. New York, NY, USA : ACM Press, 2004, S. 315–321 (document), 4.9, 4.1.1 [Smi95] S MITH, A. Alpha and the History of Digital Compositing. 1995 2, 2.3 [SZTS06] S UN, Jian ; Z HANG, Weiwei ; TANG, Xiaoou ; S HUM, Heung Y.: Background Cut. In: ECCV (2), 2006, S. 628–641 4.1.4 [Wac04] WACKER, Holger: Adobe Premiere Pro Kompendium - Video digital: Schnitt, Effekte. München, Deutschland : Markt und Technik; Auflage: 1, 2004. – 662 S. – ISBN 3827266629 5.2.2 [Wri02] W RIGHT, Steve: Digital Composition for Film and Video. Focal Press Visual Effects and Animation, 2002. – 451 S 3.1.2, 3.2.1, 6.3.1 [YYB01] Y URI Y. B OYKOV, Marie-Pierre J.: Interactive Graph Cuts for Optimal Boundary und Region Segmentation of Objects in N-D Images. 109 Literaturverzeichnis In: Internation Conference on Computer Vision. Vancouver, Canada, July 2001 4.1.2 110