Projektseminar Bildverarbeitung – Image Processing Projektseminar
Transcription
Projektseminar Bildverarbeitung – Image Processing Projektseminar
Forum http://forum.uni-duisburg.de/ Projektseminar Bildverarbeitung – Image Processing Guido H. Bruck [email protected] Kommunikations Technik Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 1 25.09.2013 Projektseminar (Praktikum) Bildverarbeitung – Image Processing Guido H. Bruck Bildverarbeitung - Folie 3 25.09.2013 Anwendung von Bilddatenkompressionsverfahren Wahlpflichtfach Projektseminar „Anwendung von Bilddatenkompressionsverfahren“ • Kennenlernen von verschiedenen Verfahren zur Bilddatenkompression MPEG-1, -2, -4, Realmedia, Windows Media etc. • Software finden Jede Gruppe ein Verfahren • Software installieren Besprechung und Vorträge der Gruppen bei Treffen • Bildsequenzen für verschiedene Parameter codieren Anmeldung online bis zum 19.10.2013 unter www.kommunikationstechnik.org • Bildqualitäten vergleichen Donnerstags von 13:00 Uhr -16:00 Uhr, Beginn 21.10.2013, Raum BB130 • Ziel: Welches Verfahren ist derzeit das geeignetste für welche Parameter und ... • Quelle: c‘t 10/2001, S. 122ff ; c‘t 10/2003 S. 146ff ; c‘t 10/2005 S. 146ff Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 2 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 4 25.09.2013 1 Testsequenzen zur Bildcodierung Vorgehensweise • • • • • • Gesamtprojekt in Teilprojekte aufspalten Gruppen von Studenten bilden Teilprojekte den Studentengruppen zuordnen. Jede Studentengruppe bearbeitet ein Teilprojekt selbständig Jede Woche berichtet jede Gruppe mit einem kurzen Vortrag über den Fortgang der Arbeiten, stellt Fragen zur Diskussion und sammelt Vorschläge ein. Die Präsentation fasst jede Gruppe auf „Papier“ zusammen und stellt sie allen anderen Gruppen zur Verfügung Am Ende des Semesters haben wir das Gesamtprojekt bearbeitet und die Fragen gelöst. Kommunikations Technik Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 5 25.09.2013 Guido H. Bruck Bildverarbeitung - Folie 7 25.09.2013 Interessierende Bildgrößen und Datenraten Verfahren zur Untersuchung • • • Bildgrößen Video-Quellmaterial 720 x 576 Bildelemente Reduziertes Video-Quellmaterial 544 x 432 Bildelemente Source Input Format 352 x 288 Bildelemente Quarter SIF 176 x 144 Datenraten von 2MBit/s (LAN) bis 50kBit/s (ISDN, Modem, Mobil?) • • • • • • • MPEG-1, MPEG-2: Tsunami MPEG-Encoder: DivX-3.11 DivX-6: RealVideo: Windows Media Video 9: MediaRig: On2: Xvid http://www.tmpgenc.net/ http://www.divx-digest.com http://www.divxnetworks.com http://www.realnetworks.com http://www.microsoft.com/windows/windowsmedia http://www.ligos.com/ http://www.on2.com/ http://www.xvid.org/ http://www.netzwelt.de/software/3384-xvid-codec.html/ http://www.netzwelt.de/software/3585-xvid-codec-koepi.html/ http://www.netzwelt.de/software/3407-xvid-codec-nics.html Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 6 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 8 25.09.2013 2 Vorgehensweise Gruppeneinteilung I • • • • • • • • • • Informationen zu Codierungsprogramm im Internet finden, lesen, nötige Software herunterladen Software auf PC installieren nach Absprache Software in Betrieb nehmen Verschiedene Bildsequenzen mit unterschiedlichen Parametereinstellungen codieren und beurteilen Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 9 25.09.2013 Weitere interessante Internet-Seiten mit interessanter Software • • • • • • • • Pro Gruppe bis zu 5 Teilnehmer Gruppe 1 MPEG-1, MPEG-2 Gruppe 2 RealVideo Gruppe 3 Windows Media Series 9 Gruppe 4 DivX-6, DivX-3.11 Gruppe 5 H.264/AVC Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 11 25.09.2013 H.264/AVC http://forum.doom9.org/showthread.php?s=95e4af6393a64adbc027f77ac360fef7&threadid=73022 Digital Digest http://www.digital-digest.com/ Vcd-Helper http://www.vcdhelp.com/ Tha video capturing source http://home.swipnet.se/~w-129483/ Virtual Dub http://www.virtualdub.org/ http://forum.dvdboard.de/ http://www.videotools.net/ http://www.math.berkeley.edu/~benrg/index.html http://www.doom9.org/ x264 http://de.wikipedia.org/wiki/X264 mpegable mpegable provides a free VFW AVC/H.264 Enc/Decoder (not based on the reference), which uses P-Frames only http://mpegable-x4-live.softonic.de/ MainConcept MainConcept's AVC/H.264 implementation (based on the reference software?) is currently available as a free preview version (adds a watermark) http://www.mainconcept.com JM (Reference Software) The Reference Software of the AVC/H.264 standard already offers a very rich featureset http://iphome.hhi.de/suehring/tml/ Hdot264 Hdot264 is an opensource (GPL) VFW version of the reference software, written by doom9 member charact3r http://sourceforge.net/projects/hdot264/ Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 10 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 12 25.09.2013 3 H.264/AVC Beurteilung der Qualität von Videosignalen http://forum.doom9.org/showthread.php?t=96059 - x264: the first publically available High Profile encoder, opensource (GPL) (Source), available for VFW: x264vfw, ffdshow (output .avi), as commandline: x264cli (outputs .mp4, .mkv, raw), mencoder (outputs raw, .avi) (Doom9's MeGUI) or ffmpeg x264 supports 2pass, CABAC, Loop, multiple B-Frames, B-References, multiple Reference Frames, 4x4 P-Frame, 8x8 B-Frame Blocksizes, anamorphic signalling and High Profile: 8x8 dct and intra prediction, lossless and custom quant matrices - NeroDigital AVC: useable in Nero Recode2, outputs .mp4 ND AVC supports 2pass, CABAC, (adaptive) Loop, multiple B-Frames, mulitple Reference Frames, weighted prediction, 8x8 P-Frame Blocksizes, 16x16 B-Frame Blocksizes, Adaptive Quant. (Psy High) - Sorenson: useable in Sorenson Squeeze 4, outputs .mp4, Sorenson supports 2pass, max 2 B-Frames, B-References, Loop and multiple Slices - Apple: useable in Quicktime 7, outputs .mp4, .3gp and .mov, totally slow uses 2pass, max 1 B-frame, Loop (0,0), P8x8,B8x8,I4x4, Adapt. Quant, 5 Slices, no CABAC, no Weighted Pred., no multi Ref. - JM: The AVC Reference Software offers in v9.3 Main and High Profile: B/SP-Frames, CABAC, Loop Filter, 4x4 Blocksizes, multiple Reference Frames, Adaptive Quant, Error Resilience, RDO, Lossless Coding, Custom Quants, Rate Control aso... - Hdot264: opensource (GPL) VFW version of the reference software by doom9 member charact3r, still based on a very old version of the reference (JM 4.0c) - VSS: free preview VFW Encoder (limited to 5 days), based on the reference encoder - Elecard: useable in Elecard Mobile Converter, outputs .mp4 and MainConcept's v2 encoder, outputs .264 and .mpg PS/TS not publically available anymore: - Moonlight: useable in Moonlight's OneClick Compressor v1.1 and CyberLink's PowerEncoder, outputs .mpg Moonlight supports 1pass (VBR/CBR/Fixed Quants), CABAC, Loop, 2 B-Frames, 8x8 P-Frame Sizes, Adapt. Quant, PAR, Interlacing - MainConcept: was useable in the v1 encoder (adds a watermark), outputs .264 and .mpg PS/TS 1pass (CBR/VBR/fixed Quants), P-Frame Reorder, CABAC, Loop, Multiple B-Vops, Multiple Ref, 4x4 P-Frame Sizes, PAR, RDO - mpegable: offered for some time a free VFW Encoder (not based on the reference), doesnt handle YV12 mpegable supports 1pass (fixed quants) uses P-Frames only, 8x8 P-Frame Blocksizes, CAVLC only, Loop - Envivio: useable in 4Coder, outputs .mp4 Kommunikations Technik • • • • • • • Beurteilung auf der 5-stufigen „Impairment scale“ nach ITU-R BT 500 5.0 = transparent (this should be the original signal) 4.0 = perceptible, but not annoying (first differences noticable) 3.0 = slightly annoying 2.0 = annoying 1.0 = very annoying to annoy = stören, ärgern, lästig sein Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 13 25.09.2013 Guido H. Bruck Bildverarbeitung - Folie 15 25.09.2013 Grundlagen Beurteilung der Qualität von Videosignalen • • • • • Bildqualitätsbeurteilung, Untersuchungsparameter Irrelevanzreduktion Zeilensprung (Interlace) Beispiel für Bilddatenkompression – Pixelanzahlen – Abtastformate – MPEG-Codierung Testsequenzen bei unterschiedlichen Datenraten beurteilen 5 Reihe2 4,5 Reihe4 Reihe6 4 3,5 3 2,5 2 1,5 1 0,5 0 0 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 14 25.09.2013 Kommunikations Technik 100 200 300 400 500 600 700 800 900 Guido H. Bruck Bildverarbeitung - Folie 16 25.09.2013 4 1.4.2 Nutzung der Unvollkommenheiten des menschlichen Gesichtssinns zur Irrelevanzreduktion Beurteilung der Qualität von Videosignalen • • Testsequenzen bei unterschiedlichen Datenraten beurteilen – 2MBit/s 720x576 Pixel, 25fps – 1MBit/s 720x576 Pixel, 352x288 Pixel, 25fps – 500 kBit/s 720x576 Pixel, 352x288 Pixel, 25fps – 300 kBit/s 720x576 Pixel, 352x288 Pixel, 25fps – 150 kBit/s 352x288 Pixel, 25fps – 64 kBit/s 352x288 Pixel, 25fps Datenrate R: R S 1 n 25 s S 25 n s Prinzip der Standard-Bildzerlegung in zwei Teilbilder: S=Dateigröße n=Anzahl der Bilder in der Sequenz Bei den eingeführten Fernsehsystemen verwendet man das Teilbildverfahren. Bei ihm wird ein Vollbild in zwei Teilbilder (Halbbilder) zerlegt, die zeilenweise ineinander verschachtelt sind (Zeilensprungverfahren, Interlace-Verfahren). Blendenöffnung bei der Aufnahme bzw. Leuchtfleck bei der Wiedergabe 1 2 5 6 7 8 9 10 11 Vertikalrücklauf 1. Teilbild 2. Teilbild Kommunikations Technik Zerlegung in 11 “Zeilen” nach dem Zeilensprungverfahren Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 17 25.09.2013 Guido H. Bruck Bildverarbeitung - Folie 19 25.09.2013 3.1.1a Digitale Fernsehstandards 1.4.1 Nutzung der Unvollkommenheiten des menschlichen Gesichtssinns zur Irrelevanzreduktion In der elektronischen Bildübertragungstechnik nutzt man das begrenzte örtliche Auflösungsvermögen des menschlichen Auges dadurch aus, dass man das einzelne Bild in streifenförmige Elemente (“Zeilen” gelegentlich auch „Spalten“) mit Breiten zerlegt, die vom menschlichen Auge aus dem Normalbetrachtungsabstand unter einem Winkel gesehen werden, der kleiner als 1' ist und die über die Streifenbreite variierende Leuchtdichte z. B. durch deren “Mittelwert” ersetzt. Bei der elektronischen Bewegtbildübertragungstechnik wird zusätzlich das begrenzte zeitliche Auflösungsvermögen des menschlichen Gesichtssinns dadurch ausgenutzt, dass man eine begrenzte Anzahl von Bildern pro Zeiteinheit überträgt. Bei digitalen Bildübertragungsverfahren wird die Anzahl der Bits zur Amplitudendarstellung so gewählt, dass zu einem kontinuierlichen Signal kein Unterschied sichtbar wird. Kommunikations Technik Horizontalrücklauf 3 4 Guido H. Bruck Bildverarbeitung - Folie 18 25.09.2013 • • • • • DVB (-S, -C, -T…) ATSC ISDB (-T) ISDTV DTMB Europa, teilw. Andere Kontinente USA, Korea Japan, Brasilien Brasilien China ATSC DVB-T ISDB-T ISDTV DTMB MPEG-2 MPEG-2 MPEG-2 H.264 MPEG-2 MPEG-2 AAC MPEG-2 AAC H.264 MPEG-2 Video Digitization Dolby AC-3 Audio Digitization Multiplexing Signal Transmission Kommunikations Technik MPEG MPEG MPEG MPEG MPEG 8-VSB modulation Multiplex COFDM Multiplex COFDM Multiplex COFDM SCM and MCM Guido H. Bruck Bildverarbeitung - Folie 20 25.09.2013 5 3.1.1b Digitale Fernsehstandards • • • • • • • • • • • • 3.1.3 Bild-Abtastformate (Vollbild-Schemata) DVB = Digital Video Broadcast ATSC = Advanced Telecision Systems Comitee (USA, Korea) ISDB = Integrated Services Digital Broadcasting (Japan, Brasilien) ISDTV = International System for Digital Television (Brasilien) DTMB = Digital Terrestrial Television Multimedia Broadcasting (China) MPEG = Moving Pictures Experts Group Dolby AC-3 = Dolby Digital („Audio Coding 3“) AAC = Advanced Audio Coding VSB = Vestigial Side Band – Restseitenband COFDM = Coded Orthogonal Frequency Division Multiplex SCM = Single Carrier Modulation MCM = Multi Carrier Modulation 4:4:4-Format: X: Luminanz-Signal (Y) ; Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 21 25.09.2013 3.1.1c Digitales Fernsehen - SDTV Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 23 25.09.2013 3.1.4 Bild-Abtastformate (Vollbild-Schemata) Für die digitale Übertragung von Videosignalen werden für die Übertragung im Studio und für die Übertragung zum Endteilnehmer unterschiedliche Standards verwendet. Standard für die Studioanwendung (ITU-R, BT.601) Bei diesem Standard werden das Luminanzsignal (Y) und zwei Chrominanzsignale (CR,CB) getrennt, aber in fester zeitlicher bzw. räumlicher Zuordnung zueinander abgetastet. Die Abtastfrequenzen werden im Verhältnis 4:2:2 gewählt. Für die Standards, denen die Parameter Z = 625 und fv = 50 Hz zugrunde liegen, gilt: Anzahl der Abtastwerte pro Zeile Abtastfrequenz Y: 864 (brutto) 720 (netto) 13,5MHz CR,CB: 432 (brutto) 360 (netto) 6,75MHz Die Signale werden einer gleichförmigen Quantisierung mit einer Auflösung entsprechend 8 Bit unterzogen. Im Interesse einer einfachen standardübergreifenden Konvertierbarkeit der Signale gelten die Werte für die Abtastfrequenz und die Anzahl der Abtastwerte pro Zeile weltweit. Aus den o.a. Werten ergibt sich eine Gesamtdatenrate von 216 Mbit/s (brutto). Kommunikations Technik : Chrominanz-Signal (CR,CB) Guido H. Bruck Bildverarbeitung - Folie 22 25.09.2013 4:2:2-Format: 4:2:0-Format: X: Luminanz-Signal (Y) ; Kommunikations Technik : Chrominanz-Signal (CR,CB) Guido H. Bruck Bildverarbeitung - Folie 24 25.09.2013 6 3.1.5 Standard für die Übertragung zum Endteilnehmer 3.1.6a Diskrete-Cosinus-Transformation (DCT) Die in 3.1.1 genannte Datenrate ist für die Übertragung zum Endteilnehmer viel zu hoch. Zur Senkung der Rate verwendet man eine redundanz- und irrelevanzreduzierende Datenreduktion („Datenkompression“). Sie erfolgt weltweit nach den sogenannten MPEG-Standards (Speziell: MPEG-2-Standard „ISO/IEC IS 13818“). Der MPEG-2-Standard: (MPEG: „Motion Picture Experts Group“) Bei Bildsignalen bestehen große Abhängigkeiten zwischen zeitlich aufeinanderfolgenden Bildern und ebenfalls Abhängigkeiten zwischen benachbarten Bildelementen in eine Bild. Diese Abhängigkeiten sind in den Quellsignalen enthalten. Durch eine Entfernung dieser Abhängigkeiten lässt sich die zur Übertragung nötige Datenmenge reduzieren. Die Abhängigkeiten können auf der Empfangsseite in das Signal wieder eingefügt und so das Quellsignal rekonstruiert werden. Die 2-dimensionale DCT kann wegen ihrer Separierbarkeit auch als Hintereinanderschaltung zweier eindimensionaler DCT aufgefasst werden: Kommunikations Technik F ( x, ) N 1 2 y 1 2 C ( ) f ( x, y ) cos N 2N y 0 F ( , ) N 1 2 x 1 2 C ( ) F ( x, ) cos N 2N x 0 f x ( , y ) 2 y 1 2 N 1 C ( ) F ( , )cos N 0 2N f ( x, y ) 2 x 1 2 N 1 C ( ) f x ( , y)cos 2 N N 0 1 für , 0 2 mit C ( ), C ( ) und (üblich): N 8 1 sonst Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 25 25.09.2013 Guido H. Bruck Bildverarbeitung - Folie 27 25.09.2013 3.1.6 Diskrete-Cosinus-Transformation (DCT) 3.1.7 Diskrete-Cosinus-Transformation (DCT) Bei Bildcodierungsverfahren wird häufig eine Transformationscodierung unter Verwendung einer 2-dimensionalen DCT verwendet. Damit lassen sich Abhängigkeiten der Bildelemente innerhalb eines Bildes verringern. Dies geschieht auch beim MPEG-2-Standard. Die 2-dimensionale DCT ist beschrieben durch: Basisfunktionen der 1-dimensionalen DCT für eine Blocklänge von N=8: F ( , ) f ( x, y ) 2 x 1 cos 2 y 1 2 C ( )C ( ) f ( x, y ) cos N 2N 2N x 0 y 0 N 1 N 1 2 N N 1 N 1 C ( )C ( ) F ( , ) 0 0 cos 2 x 1 2N cos 2 y 1 2N 1 für , 0 2 mit C ( ), C ( ) und (üblich): N 8 1 sonst Kommunikations Technik 0,25 0,15 0,05 -0,05 -0,15 -0,25 0,25 0,15 0,05 -0,05 -0,15 -0,25 0,25 0,15 0,05 -0,05 -0,15 -0,25 0,25 0,15 0,05 -0,05 -0,15 -0,25 Guido H. Bruck Bildverarbeitung - Folie 26 25.09.2013 0 0 0 0 1 1 1 1 2 2 2 2 Kommunikations Technik 3 3 3 3 4 4 4 4 5 5 5 5 6 6 6 6 7 7 7 7 n=0 n=1 n=2 n=3 0,25 0,15 0,05 -0,05 -0,15 -0,25 0,25 0,15 0,05 -0,05 -0,15 -0,25 0,25 0,15 0,05 -0,05 -0,15 -0,25 0,25 0,15 0,05 -0,05 -0,15 -0,25 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 n=4 n=5 n=6 n=7 Guido H. Bruck Bildverarbeitung - Folie 28 25.09.2013 7 3.1.10 Die Quantisierung 3.1.8 Diskrete-Cosinus-Transformation (DCT) Zur Transformation werden jeweils 8*8 Bildelemente (Pixel) zu einem Transformationsblock zusammengefaßt. Aus 8*8 Originalwerten entstehen durch die Transformation 8*8 Spektralwerte. Zur im Regelfall irrelevanzreduzierenden Codierung werden in einem nachfolgenden Verarbeitungsschritt die Spektralkoeffizienten einer Quantisierung unterzogen. Sie geschieht dadurch, dass man die Spektralkoeffizienten zunächst durch ihnen zugeordnete Q-Werte dividiert und die Ergebniswerte auf ganze Zahlen rundet. Die Q-Werte sind den Blöcken entsprechend in zweidimensional angeordneten Tabellen zusammengefasst. Dabei sind für unterschiedliche Bildtypen und Verfahren auch unterschiedliche Tabellen üblich: Basisfunktionen der 2dimensionalen DCT für eine Blocklänge von N=8: Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 29 25.09.2013 3.1.9 Diskrete-Cosinus-Transformation (DCT) Kommunikations Technik 3.1.11 Die Quantisierung DCT-Explorer von Lutz Lißeck Download von den Internet-Seiten des Fachgebiets KT („Freie Software“) Quantisierungstabellen für MPEG-2: 8 16 19 22 22 26 26 27 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 31 25.09.2013 Guido H. Bruck Bildverarbeitung - Folie 30 25.09.2013 16 16 22 22 26 27 27 29 Kommunikations Technik 19 22 26 22 24 27 26 27 29 26 27 29 27 29 32 29 32 35 29 34 38 35 38 46 QI ( , ) 27 29 34 34 35 40 46 56 29 34 34 37 40 48 56 69 34 37 38 40 48 58 69 83 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 QP,B ( , ) 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 Guido H. Bruck Bildverarbeitung - Folie 32 25.09.2013 8 3.1.12 Codierung eines Blocks mittels der DCT 3.1.14 Codierung eines Blocks mittels der DCT Das folgende Beispiel einer JPEG-Codierung (Joint Photographic Experts Group), einem der MPEG-2-Codierung ähnlichen Codierungsverfahren für Standbilder, zeigt die Anwendung der 2-dimensionalen DCT mit N=8 und Quantisierung der Spektralkoeffizienten für einen Bildblock. Auf der Empfangsseite werden die normalisierten Spektralkoeffizienten mit den zugehörigen Q-Werten multipliziert (oftmals irreführend als „inverse Quantisierung“ bezeichnet). Mittels der DCT-Rücktransformation wird dann aus den denormalisierten Spektralkoeffizienten ein Bildsignalblock rekonstruiert. Signalwerte des Originalbildes DCT-Spektralkoeffizienten 139 144 149 153 155 155 155 155 1259, 6 1, 0 12,1 5, 2 2,1 1, 7 2, 7 144 151 153 156 159 156 156 156 22, 6 17,5 6, 2 3, 2 2,9 0,1 150 155 160 163 158 156 156 156 10,9 1, 6 159 161 162 160 160 159 159 159 159 160 161 162 162 155 155 155 9,3 7,1 0, 6 1,9 0,8 0, 2 1,5 1,5 Denormalisierte Spektralkoeffizienten 1,3 1, 2 0, 4 0, 2 0,9 0, 6 0,1 1,5 0,9 0,1 1, 6 0,1 0, 7 0, 0 0, 6 0,3 1,3 10 0 0 0 0 0 Rekonstruierte Bildsignalwerte 1264 0 144 146 149 152 154 156 156 156 24 12 0 0 0 0 0 0 14 13 0 0 0 0 0 0 155 156 157 158 158 157 156 155 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 160 161 161 162 161 159 157 155 163 163 164 163 162 160 158 156 148 150 152 154 156 156 156 156 161 161 161 161 160 157 157 157 1,8 0, 2 1,5 1, 0 1, 0 0 0 0 0 0 0 0 0 163 164 164 164 162 160 158 157 162 162 161 163 162 157 157 157 1,3 0, 4 0,3 1,5 0,5 1, 7 1,1 0,8 0 0 0 0 0 0 0 0 160 161 162 162 162 161 159 158 162 162 161 161 163 158 158 158 2, 6 1, 6 3,8 1,8 1, 2 0, 6 0, 4 0 0 0 0 0 0 0 0 158 159 161 161 162 161 159 158 1, 6 0,3 0,8 Kommunikations Technik 1,9 Guido H. Bruck Bildverarbeitung - Folie 33 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 35 25.09.2013 3.1.15 8x8 DCT Beispiel 3.1.13 Codierung eines Blocks mittels der DCT Die DCT Spektralkoeffizienten werden durch die ihnen zugeordneten Q-Werte dividiert und die Ergebniswerte auf ganze Zahlen gerundet. Die so entstandenen Zahlen seine als „normalisierte Spektralkoeffizienten“ bezeichnet. Quantisierungstabelle (Q-Werte) Normalisierte Spektralkoeffizienten 0 1 0 0 0 0 0 16 11 10 16 24 40 51 61 79 12 12 14 19 26 58 60 55 2 1 0 0 0 0 0 0 14 13 16 24 40 57 69 56 1 1 0 0 0 0 0 0 14 17 22 29 18 22 37 56 51 68 87 80 109 103 62 77 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 35 55 64 81 104 113 0 0 92 0 0 0 0 0 0 0 0 49 64 78 87 103 121 120 101 0 0 0 0 0 0 0 0 72 92 95 98 112 100 103 0 0 0 0 0 0 0 0 Kommunikations Technik 99 Guido H. Bruck Bildverarbeitung - Folie 34 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 36 25.09.2013 9 3.1.16 8x8 DCT-Beispiel 3.2.1 Der MPEG-2-Standard Im allgemeinen wird man davon ausgehen können, dass das zu codierende Programmaterial dem Studio-Standard entsprechend im 4:2:2-Format vorliegt. Die Werteauflösung entspricht dabei 8 Bit (in Sonderfällen 10 Bit). Der Codierung nach dem MPEG-2-Standard liegt in der Regel das 4:2:0– Abtastformat zugrunde. Ausgehend vom 4:2:2–Format wird bei den Chrominanzsignalen, im Standard mit CR und CB bezeichnet, eine AbtastratenKonversion vorgenommen. Sie bewirkt neben der Konversion der Abtastfrequenzen in vertikaler Richtung auch die Veränderung der „Abtastposition“ um einen halben Zeilenabstand. Zur Transformation werden jeweils 8*8 Bildelemente (Pixel) zu einem Transformationsblock zusammengefaßt. Bei Vorliegen eines 4:2:0-Abtastformats deckt dementsprechend ein Chrominanzsignalblock die vierfache Bildfläche eines Luminanzsignalblocks ab. Vier im Quadrat angeordnete Luminanzsignalblöcke und zwei zugeordnete Chrominanzblöcke bilden einen Makroblock. Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 37 25.09.2013 3.1.17 8x8 DCT-Beispiel Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 39 25.09.2013 3.2.2 Der MPEG-2-Standard Makroblock-Struktur beim Main-Profile Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 38 25.09.2013 Y (EY) Y (EY) Block 0 Block 1 Y (EY) Y (EY) Block 2 Block 3 Kommunikations Technik CB (EU) CR (EV) Block 4 Block 5 Guido H. Bruck Bildverarbeitung - Folie 40 25.09.2013 10 3.2.4 Der MPEG-2-Standard 3.2.3 Der MPEG-2-Standard Im MPEG-2-Standard unterscheidet man verschiedene Bildtypen: I-Bilder: Intraframe codierte Bilder P-Bilder: Unidirektional prädizierte Bilder B-Bilder: Bidirektional prädizierte Bilder Die Abfolge der verschiedenen Bildtypen in einer Bildfolge ist weitgehend durch den Codierer festlegbar. Eine für die fernsehtechnische Anwendung günstige Abfolge zeigt Abb. 1. 1 2 3 4 5 6 7 8 9 10 11 12 13 I B B P B B P B B P Kommunikations Technik Abb. 1 B B Ein zur Bewegungsvektorschätzung häufig eingesetztes Verfahren ist das BlockMatching-Verfahren. Beispiel: I Guido H. Bruck Bildverarbeitung - Folie 41 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 43 25.09.2013 3.2.3 Der MPEG-2-Standard 3.2.5 Der MPEG-2-Standard Die I-Bilder werden eigenständig, ohne den Einsatz einer Prädiktion codiert. Sie stellen „Stützbilder“ dar und erlauben dem Empfänger einen Einstieg in die Decodierung der Bilder. Die P-Bilder werden unter Verwendung eines jeweils vorausgegangenen I- oder PBildes prädiziert. Das prädizierte Bild ist aber nicht einfach ein entsprechendes vorausgegangenes Bild, sondern ein durch Bewegungsschätzung aus dem vorausgegangenen hervorgehendes Bild. Die Bewegungsschätzung erfolgt makroblockweise. Dazu wird untersucht, welcher Block mit den Abmessungen eines Makroblocks einen Makroblock in einem aktuellen Block am besten annähert. Die Blockbewegungen werden in Form von Bewegungsvektoren zum Empfänger übertragen. Die B-Bilder werden jeweils aus einem vorausgegangenen I- oder P-Bild und einem nachfolgenden I- oder P-Bild geschätzt. Dazu werden auch bidirektional geschätzte Bewegungsvektoren ermittelt. Durch die Verwendung von B-Bildern kann die datenreduzierende Wirkung der Codierung merklich gesteigert werden. Zur Bildprädiktion werden Bildspeicher benötigt. Auch die Bewegungsvektorschätzung ist mit einem Speicherbedarf verbunden. Um den Speicherbedarf auf der Empfängerseite so klein wie möglich zu halten, sieht der MPEG-2-Standard eine Bildumsortierung vor. Z.B. die in 3.2.3 dargestellte Bildfolge erfährt zur Übertragung folgende Umsortierung: IBBPBBPBBPBBI IPBBPBBPBBIBB Durch das beschriebene Bild-Prädiktionsverfahren wird eine Wertedekorrelation in den Differenz-Bildern erreicht. Dementsprechend ist die dekorrelierende Wirkung der DCT in diesen Bildern im Vergleich mit der in den I-Bildern gering. Dies findet Berücksichtigung in der Auslegung der Quantisierungtabellen in 3.1.10. Für die IBilder werden die QI(-Werte und für die P- und B-Bilder die QP,B(-Werte verwendet. Die Tabelle der QI(-Werte berücksichtigt, dass die wesentliche Energie eines I-Bild-Blocks in den „niederfrequenten“ Spektralanteilen steckt. Die I-, P- und B-Bilder werden in Blöcke eingeteilt und die DCT-Spektralkoeffizienten berechnet und quantisiert. Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 42 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 44 25.09.2013 11 3.2.6 Der MPEG-2-Standard 3.2.8 Der MPEG-2-Standard Die quantisierten Spektralkoeffizienten werden vor ihrer Übertragung noch einer redundanzmindernden Codierung unterzogen, und zwar einer Lauflängencodierung und einer anschließenden „Optimalkodierung“ (z.B. Huffmann-Codierung). Die entsprechend den Originalwerten ebenfalls im Quadrat angeordneten Spektralwerte werden zunächst in eine eindimensionale Wertefolge umgewandelt. Die Wertefolge enthält im allgemeinen mehr oder weniger lange Null-Folgen, die als Runs bezeichnet werden. Ein Run wird jeweils in Kombination mit einem nachfolgenden Nicht-Null-Wert, einem sogenannten Level, codiert. Dabei sind auch Runs der Länge Null möglich. Die Run-Level-Kombinationen werden einer „Optimalcodierung“ (entsprechend einer abgebrochenen Huffmann-Codierung) unterzogen. Die Gesamtstruktur des MPEG-2-Coders geht aus Abb. 1 hervor (z.B. mit PBildschätzung). QD DCT Guido H. Bruck Bildverarbeitung - Folie 45 25.09.2013 MUX DCT: DCT-1: Q: Q-1: „Q-1“ RLC: VLC: ME: MC: P: PS: MV: MUX: B: QF: QD: DCT-1 MC ME Kommunikations Technik Q QF RLC VLC P PS MV Abb. 1 Kommunikations Technik B Diskrete Kosinus-Transformation Inverse Diskrete Kosinus-Transformation Quantisierungseinheit Rückgewinnung der (quantisierten) Spektralkoeff. Lauflängen-Codierung „Optimalcodierung“ Bewegungsschätzung Bewegungskompensation Prädiktor Bildspeicher Bewegungsvektoren Multiplexer Puffer Quantisierungsfaktor Quantisierungsdaten Guido H. Bruck Bildverarbeitung - Folie 47 25.09.2013 3.2.7 Der MPEG-2-Standard 3.2.9 Der MPEG-2-Standard Die Überführung der quadratisch angeordneten Spektralwerte-Koeffizienten in eindimensionaler Folge wird mithilfe eines sogenannten Zick-Zack-Scans vorgenommen. Ein solcher Scan ist in Abb. 1 gezeigt. Er schließt den Koeffizienten des Gleichanteils aus. Dieser wird in Form eines Differenzwertes gegenüber dem des vorausgegangenen Blocks getrennt codiert. Abb. 1 zeigt die MPEG-2-Decodierungsschaltung. QD B MUX-1 VLC-1 RLC-1 Q-1 DCT-1 P Abb. 1 MV MUX-1: Demultiplexer RLC-1: Zu RLC und VLC inverse Operationen VLC-1: Zu RLC und VLC inverse Operationen Durch die Verwendung der Operationen DCT-1 und Q-1 auch auf der Codierungsseite wird sichergestellt, dass im Coder und Decoder gleiche Werte prädiziert werden. Abb. 1 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 46 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 48 25.09.2013 12 3.2.10 Der MPEG-2-Standard 3.3.1 MPEG-4 1920*1152 Pixel (960*576) 100(80,25) Mbit/s 1920*1152 Pixel High Level 80 Mbit/s 1440*1152 Pixel High-1440 Level 1440*1152 Pixel 1440*1152 Pixel (720*576) (720*576) 60(40,15) Mbit/s 80(60,20) Mbit/s 60 Mbit/s Main Level 720*576 Pixel 720*576 Pixel 720*576 Pixel 15 Mbit/s 15 Mbit/s 15(10) Mbit/s 352*288 Pixel 352*288 Pixel Low Level 4 Mbit/s Levels Simple Profile Profiles (wie Main Profile, ohne B-Bilder) Main Profile (4:2:0, keine Scal.) Kommunikations Technik 720*576 Pixel (352*288) 20(15,4) Mbit/s 4(3) Mbit/s SNR Scalable Spatial Scalable Profile Profile (wie Main Profile + SNR Scal.) (wie SNR Prof., + Spat. Scal.) High Profile (wie Spat. Prof., + 4:2:2-Cod.) Guido H. Bruck Bildverarbeitung - Folie 49 25.09.2013 MPEG-4 hat eine gegenüber MPEG-2 erweiterte Funktionalität: • Kompression • Flexibilität • keine Festlegung auf bestimmtes Verfahren, oft nur Interfaces standardisiert • stattdessen: Sammlung verschiedener „Tools“ • „Profiles“ limitieren Tools, die der Decoder implementieren kann optimale Qualität für spezielle Anwendungen • Wie bei MPEG-1 und –2 sind der Decoder und der Datenstrom standardisiert. Verschiedene Hersteller können so verschiedene Encoder herstellen, die zusammen mit einem standardgemäßen Decoder unterschiedliche Bildqualitäten liefern. Wegen der besseren Darstellung wird hier teilweise der Codierungsvorgang dargestellt. Kommunikations Technik 3.2.11 Der MPEG-2-Standard 3.3.2 MPEG-4 Der MPEG-2-Standard beschreibt einen sogenannten generischen Code (Gatterungscode) für die „Gatterung“ Bewegtbildcodierung. Er unterteilt deren Gesamtbereich in Merkmalsbereiche, die hinsichtlich „qualitativer“ und „quantitativer“ Merkmale unterschieden werden. In der Sprache der MPEG werden die Merkmalsbereiche nach Profils und Levels unterschieden. MPEG-4 Entwicklungen des Standards im Bereich Visual: Eine Übersicht über die Profile-Level-Struktur des Standards gibt 3.2.10. Die in der Übersicht angegebenen Parameterkombinationen sind als Maximumwerte zu verstehen. Die in Klammern stehenden Werte beziehen sich auf niedere, sogenannte Layer der Profile-Level-Kombinationen der Formen der skalierbaren Codierung. Die MPEG-2-Codierung ist abwärtskompatibel aufgebaut. Das bedeutet: Ein Decoder, der einem Feld in der Tabelle zugeordnet ist, muss auch die Datenströme entsprechend den links und unterhalb dieses Feldes liegenden Felder decodieren können. Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 50 25.09.2013 Guido H. Bruck Bildverarbeitung - Folie 51 25.09.2013 MPEG-4-Standard ISO 14496, Part 2, Visual • Version 1: Basic MPEG-4, International Standard (IS) Mai 1999 • Version 2: Neue Tools und Profiles, IS Feb. 2000 • Amendment 1, Studio Profile: Tools und Profiles für Studio und Produktion IS März 2001 • Amendment 2, Streaming Video Profile: Weitere Tools und Profiles, IS März 2001 • Amendment 3, Neue Levels und Tools: IS Dec. 2002 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 52 25.09.2013 13 3.3.3 MPEG-4 3.3.5 MPEG-4 Codierung Die zu übertragenen Daten werden auf unterschiedliche Art und Weise codiert: • Szene wird in „Einheiten“ unterteilt, sog. „Audio-Visual Objects“ • Zusammensetzung der Audio-Visual Objects wird gespeichert im „Szenengraph“ • Audio-Visual Objects: • Video Objects • Natural (Kamera) • Synthetic (computergeneriert) • Audio Objects • Natural (Mikrofon) • Synthetic (computergeneriert) • Szenengraph sorgt für korrekte Positionierung der Media Objects • räumlich • zeitlich • Realisiert durch gerichteten, azyklischen Graphen Bespiel für die Codierung einzelner Audio-Visual Objects Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 53 25.09.2013 Kommunikations Technik Quelle: Kohtaro Asai and Fuminobu Ogawa: MPEG Coding Technologies, Mitsubishi Electric ADVANCE December 1998 Guido H. Bruck Bildverarbeitung - Folie 55 25.09.2013 3.3.4 MPEG-4 Szenegraph 3.4.1 Datenstrom MPEG-4 Visual Jedes Audio-Visual Object besitzt ein eigenes Koordinatensystem Szenengraph verfügt selbst auch über ein Koordinatensystem • durch Berechnung: „virtuelle Kamera“ möglich • Blickwinkel • Ausschnitt • Audio-Visual Objects einer Szene sind hierarchisch sortiert • Blätter: Primitive Audio-Visual Objects • Still Images - unbewegte Bilder (z. B. Hintergrund) • Video Objects (z. B. Person) scene • Audio Objects (z. B. Stimme) Codierung von visuellen Objekten in natürlichen und synthetischen, bewegten Bildern. Hierarchische Beschreibung einer „visual scene“: • Visual Object Sequence (VS): Die komplette MPEG-4-Szene kann beliebig viele 2D oder 3D natürliche oder synthetische Objekte und deren Erweiterungen enthalten • Video Object (VO): Entspricht einem bestimmten (2D-)Objekt in der Szene. Im einfachsten Fall ein rechteckiges Bild oder ein beliebig geformtes Objekt • Video Object Layer (VOL): Jedes Video-Objekt kann skalierbar (multi layer) codiert werden. Es gibt räumliche (spatial) und zeitliche (temporal) Skalierbarkeit, von grober bis zu feiner Auflösung. Der Decoder kann die passende Skalierung einstellen. • Group of Video Object Planes (GOV): Sie fasst mehrere Video Object Planes zusammen. Auf den Anfang einer GOV kann wahlfrei zugegriffen werden. • Video Object Plane (VOP) Person voice Kommunikations Technik Quelle: MPEG-4 – Ein Überblick, Paderborn Center for mobile Computing 2D Background Video picture Guido H. Bruck Bildverarbeitung - Folie 54 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 56 25.09.2013 14 3.4.2 Datenstrom MPEG-4 Visual 3.4.4 Datenstrom MPEG-4 Visual • • Video Object Plane (VOP): Sie stellt einen zeitlichen Abtastwert eines VideoObjektes dar und kann unabhängig oder durch Bewegungskompensation in Abhängigkeit von anderen VOPs codiert werden. Ein herkömmliches Videobild kann durch eine VOP mit rechteckiger Form repräsentiert werden. Beispiel einer VOP-Decodierung in MPEG-4 ohne Sprites Ein natürliches Video-Objekt enthält die folgenden Informationen: • Form (shape) • Bewegungsinformation (motion) • Texturen (texture) • Zusätzliche Kompression durch sprite Coding Sprites: zeitunveränderliche Video-Objekte, größer als das übliche Bild, zur Repräsentation größerer, statischer Bildinhalte (Hintergrund). Kommunikations Technik Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 57 25.09.2013 3.4.3 Datenstrom MPEG-4 Visual Guido H. Bruck Bildverarbeitung - Folie 59 25.09.2013 3.4.5 Datenstrom MPEG-4 Visual • • Quelle: Touradj Ebrahimi and Caspar Horne: MPEG-4 Natural Video Coding - An overview, aus dem Internet Beispiel einer Überlagerung mehrerer Video Object Planes (VOPs): Entsprechend enthalten die VOPs in Makroblöcken: • Zeitliche Abtastwerte des Video-Objekts: • Form-Informationen (Shape) • Bewegungsvektoren und –parameter • Texturdaten: Luminanzsignal und unterabgetastetes Chrominanzsignal wie bei MPEG-2 im Abtastformat 4:2:0 für DCT-Codierung in 8x8-Blöcken Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 58 25.09.2013 Kommunikations Technik Quelle: Andrew Perkis: MPEG-4 visual, SIE2070 Multimedia signal processing, 4/3/2002 Guido H. Bruck Bildverarbeitung - Folie 60 25.09.2013 15 3.5.1 Tools zur Codierung von VOPs natürlicher Video-Objekte 3.6.2 Binary-Shape-Coding • • Shape Coding Tools • Binary Shape Coding • Gray Scale Shape Coding Bewegungskompensation (Motion Compensation Tools) mit optionalen Erweiterungen: • Overlapped Motion Compensation, • Advanced Motion Compensation Texturcodierung Sprites Skalierbarkeit • Räumliche Skalierbarkeit • Zeitliche Skalierbarkeit Error Resilence ... ... • • • • • • • Kommunikations Technik • • • • • • Guido H. Bruck Bildverarbeitung - Folie 63 25.09.2013 3.6.3 Gray-Scale-Shape-Coding • Binary-Shape-Coding • Matrix (Binary Alpha Map) • definiert, ob Pixel zu Objekt gehört • 0 - liegt nicht drin • 255 - liegt drin Kommunikations Technik Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 61 25.09.2013 3.6.1 Binary-Shape-Coding Jede VOP wird von einer „Bounding Box“ umschlossen Zu der VOP gehört eine binäre Maske, die für jedes Pixel, das zur VOP gehört, den Wert 255 enthält. Alle anderen Pixel haben der Wert 0. Die binäre Maske wird in „Binary Alpha Blocks“ (BAB) der Größe 16x16 Pixel unterteilt, die einzeln codiert werden. Quelle: Touradj Ebrahimi, MPEG-4 Natural Haben alle Pixel den Wert 0, ist der Block Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne transparent und es erfolgt keine weitere Codierung. Haben alle Pixel den Wert 255, ist der Block undurchsichtig, er gehört zur VOP und es erfolgt eine Codierung. BAB werden durch eine „Context based Arithmetic Encoding“ (CAE) mit Bewegungskompensation codiert. Dabei gibt es InterCAE und IntraCAE mit und ohne Bewegungskompensation. • 0 0 0 255 0 0 0 0 0 255 255 255 0 0 0 255 255 255 255 255 0 255 255 255 255 255 255 255 Entspricht der Binary-Shape-Coding mit dem Unterschied, dass jeder Wert der Maske Werte zwischen 0 (transparent) und 255 (undurchsichtig) annehmen kann und mit den dazwischen liegenden Werten die Transparenz des zugehörigen Pixels beschrieben wird. Gray-Scale-Shape-Information wird mit einer bewegungskompensierten DCT ähnlich der Texturcodierung codiert Quelle: MPEG-4 – Ein Überblick, Paderborn Center for mobile Computing Guido H. Bruck Bildverarbeitung - Folie 62 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 64 25.09.2013 16 3.7.1 Bewegungskompensation (Motion Compensation) 3.7.3 Bewegungskompensation (Motion Compensation) • • Die bekannten Verfahren anderer Video-Codierungsstandards wurden an die VOP-Struktur von MPEG-4 angepasst. Daher gibt es drei Typen von Video Object Planes (VOP): • Eine VOP wird unabhängig von anderen VOPs codiert. Diese VOP wird Intra-VOP (I-VOP) genannt. • Eine VOP wird durch Bewegungskompensation auf Basis einer anderen vorher codierten VOP codiert. Solche VOPs werden Predicted VOP (P-VOP) genannt. • Eine VOP wird durch Bewegungskompensation auf Basis von früheren und zukünftigen VOPs codiert. Diese VOP werden Bidirectional Interpolated VOPs (B-VOP) genannt. Sie dürfen nur auf Basis von I-VOPs und P-VOPs interpoliert werden. Kommunikations Technik • Die Skizze zeigt verschiedene Typen von VOPs. Wenn ein 16x16 Pixel großer Macroblock ganz in der VOP liegt, geschieht die Bewegungskompensation auf Basis eines Block-Matching mit den Macroblöcken bzw. mit 8x8 Pixeln großen Blöcken im „Advanced Prediction Mode“. • • • • Die Texturinformation eines Video-Objektes wird mit Hilfe des Luminanzsignals Y und den beiden Chrominanzsignalkomponenten CR und CB beschrieben. Im Fall von I-VOPs enthalten das Luminanzsignal und das Chrominanzsignal direkt die zugehörigen Werte. Im Fall von bewegungskompensierten VOPs enthalten sie nur die nach der Bewegungskompensation verbleibenden Fehlersignale. Zur Codierung der Texturinformation wird eine übliche 8x8 blockbasierte DCT verwendet. Zeilensprung-Bilder: Field-DCT Coding Progressive Bilder: Frame DCT-Coding Eine Übersicht über den Codierungsvorgang zeigt das folgende Bild: VOP Textur Kommunikations Technik Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne Guido H. Bruck Bildverarbeitung - Folie 67 25.09.2013 3.8.1 Texturcodierung • • Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 65 25.09.2013 3.7.2 Bewegungskompensation (Motion Compensation) Wenn ein Macroblock nicht ganz innerhalb der VOP liegt, werden verschiedene Füllverfahren für die außerhalb liegenden Teile sowie modifizierte-Block (Polygon)Matching-Verfahren verwendet. Guido H. Bruck Bildverarbeitung - Folie 66 25.09.2013 DCT Kommunikations Technik Quantisierung Prädiktion der Koeffizienten Scan der Koeffizienten Codierung mit variabler Wortlänge Datenstrom Guido H. Bruck Bildverarbeitung - Folie 68 25.09.2013 17 3.8.2 Texturcodierung 3.8.4 Texturcodierung Diskrete Cosinus-Transformation (DCT) • Blöcke der Größe 8x8 Pixel werden der VOP überlagert. Blöcke innerhalb der VOP werden ohne Veränderung codiert. Blöcke, die teilweise auf der Grenze der VOP liegen, werden anders behandelt. Low Pass Extrapolation: 1. Die Werte außerhalb der VOP werden auf den Mittelwert der Werte innerhalb der VOP gesetzt: N : Anzahl der Pixel pro Block 1 f r ,c r ,c VOP f x , y mit N x , y VOP f x , y : Signalwert an der Stelle x, y Kommunikations Technik Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne 2. Die Werte in der Nähe des Randes der VOP werden angepasst: f f f r ,c 1 f r 1,c f r ,c r ,c VOP r ,c 1 r 1,c 4 Als Signalwerte für die rechte Seite der obigen Gleichung kommen nur Werte in Betracht, die innerhalb der VOP liegen. Wenn Werte außerhalb liegen, werden sie nicht berücksichtigt und der Nenner des Bruches entsprechend angepasst. Nach der Erweiterung werden die Randblöcke genauso behandelt wie die inneren Blöcke. Guido H. Bruck Bildverarbeitung - Folie 69 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 71 25.09.2013 3.8.3 Texturcodierung 3.8.5 Texturcodierung • Quantisierung • Die nach der Transformation vorliegenden Spektralkoeffizienten werden quantisiert, indem die Spektralkoeffizienten durch einen Wert dividiert und die Ergebnisse auf ganze Zahlen gerundet werden. Dabei gibt es verschiedene Methoden: • Division durch Werte einer Quantisierungsmatrix ähnlich wie bei MPEG-2. • Division durch einen festen Wert. • Eine ungleichförmige Quantisierung („non-linear“) des DC-Koeffizienten ist möglich. • • • Blöcke der Größe 8x8 Pixel an den Grenzen der VOP enthalten nur teilweise Werte aus der VOP. Die übrigen Werte, die außerhalb der VOP lokalisiert sind, werden aus den Werten der VOP extrapoliert: Bei Luminanzsignal-Blöcken wird auf Basis 16x16 extrapoliert, bei Chrominanzsignal-Blöcken auf Basis 8x8. Bei P- und B-Blöcken werden außerhalb der VOP liegende Pixel mit dem Wert Null gefüllt. Bei I-Blöcken werden die außerhalb der VOP liegenden Werte durch einen zweistufigen Prozess mit Werten gefüllt. Dieser Prozess wird Low Pass Extrapolation (LPE) genannt. Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 70 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 72 25.09.2013 18 3.8.6 Texturcodierung 3.8.8 Texturcodierung Prädiktion der Spektralkoeffizienten in Abhängigkeit der Unterschiede der Koeffizienten in den Blöcken A, B und C DC-Prädktion AC-Prädiktion Statische Texturen Nachbarblock B Kandidatenblock C Nachbarblock B Kandidatenblock C Kandidatenblock A Aktueller Block Kandidatenblock A Aktueller Block Prädiktion des DC-Koeffizienten durch den Koeffizienten von Block A oder von Block C Kommunikations Technik Entweder die Koeffizienten der ersten Zeile oder der ersten Spalte werden aus den entsprechenden Koeffizienten eines ausgewählten Kandidatenblocks prädiziert. Guido H. Bruck Bildverarbeitung - Folie 73 25.09.2013 Mit MPEG-4 können statische Texturen, die sich also nicht bewegen, auf animierte 2Doder 3D-Oberflächen abgebildet werden. Zu diesem Zweck verfügt MPEG-4 über Methoden zur Codierung von statischen Texturen, die eine größere Skalierbarkeit ermöglichen als die Codierung mittels der DCT. Die Codierung beruht auf einer Wavelet-Transformation, wobei die DC- und ACKomponenten unterschiedlich codiert werden. Die sich ergebenden Koeffizienten werden quantisiert und mit einem sog. Zero-Tree-Algorithmus und arithmetischer Codierung codiert. Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 75 25.09.2013 3.8.7 Texturcodierung 3.9.1 Sprites Scan der Koeffizienten Sprites sind Hintergrund-Objekte, die sich nicht bewegen und nur einmal übertragen werden. Sie werden wie I-VOPs am Anfang eines Datenstroms übertragen und stehen dann in einem Speicher dem Empfänger zur Verfügung. Bei einem Wechsel der Kameraposition rechnet der Empfänger den jeweils sichtbaren Teil aus den im Speicher vorliegenden Daten aus. Es lassen sich große Kompressionraten erzielen. Die Koeffizienten werden in vorgegebener Weise in einen eindimensionalen Datenvektor überführt. Dazu dient der Zig-Zag-Scan nach 3.2.7 oder zwei alternative Muster (Alternate-horizontal scan und Alternate-vertical scan), die in Abhängigkeit von der Prädiktion der DC-Koeffizienten benutzt werden. Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 74 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 76 25.09.2013 19 3.10.1 Skalierbarkeit 3.10.3 Räumliche Skalierbarkeit (Spatial Scalability) Durch verschiedene Video-Object-Layer wird eine räumliche oder zeitliche Skalierung implementiert. Beispiel: Base-Layer und Enhancement-Layer Im Fall der räumlichen Skalierung enthält der Base-Layer Informationen über das Videoobjekt mit geringer Auflösung und der Enhancement-Layer die nötige Zusatzinformation zur Auflösungserhöhung. Beispiel für eine räumliche Skalierbarkeit, hier mit zwei Enhancement-Layern Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 77 25.09.2013 Kommunikations Technik Quelle: Andrew Perkis: MPEG-4 visual, SIE2070 Multimedia signal processing, 4/3/2002 Guido H. Bruck Bildverarbeitung - Folie 79 25.09.2013 3.10.4 Zeitliche Skalierbarkeit (Temporal Scalability) Der VOPs des Base-Layers werden codiert wie vorher beschrieben. Die VOPs des Enhancement-Layers werden als P-VOPs oder als B-VOPs codiert. Bei der zeitlichen Skalierbarkeit wird die Wiederholrate der VOPs verbessert, der Enhancement-Layer enthält die Informationen, die zwischen den Bildern des BaseLayers wiedergegeben werden sollen. Base Layer Enhancement Layer Zwei Typen: Enhancement • Typ I: Der Enhancement-Layer Typ I verbessert nur die Auflösung VOL 0: Ges. Bild VOL 1: Auto eines Teils des Base-Layers. • Typ II: Der Enhancement-Layer verbessert die Auflösung des Enhancement gesamten Base-Layers. Typ II VO 0 3.10.2 Räumliche Skalierbarkeit (Spatial Scalability) VOL 1: Ges. Bild VO 1 VOL 0: Ges. Bild VOL 0: Auto Kommunikations Technik Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne Guido H. Bruck Bildverarbeitung - Folie 78 25.09.2013 Kommunikations Technik Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne VOL 1: Auto Verbesserter Bereich Guido H. Bruck Bildverarbeitung - Folie 80 25.09.2013 20 3.10.5 Zeitliche Skalierbarkeit (Temporal Scalability) 3.10.7 Zeitliche Skalierbarkeit (Temporal Scalability) Typ I: Der Enhancement-Layer Verbessert nur die zeitliche Auflösung eines Teils des Base-Layers. Kommunikations Technik Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne Guido H. Bruck Bildverarbeitung - Folie 81 25.09.2013 3.10.6 Zeitliche Skalierbarkeit (Temporal Scalability) Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne Kommunikations Technik Quelle: Andrew Perkis: MPEG-4 visual, SIE2070 Multimedia signal processing, 4/3/2002 Guido H. Bruck Bildverarbeitung - Folie 83 25.09.2013 3.11.1 Error-Resilence-Tools Typ II: Der Enhancement-Layer verbessert die zeitliche Auflösung des gesamten Base-Layers. Kommunikations Technik Beispiel für eine zeitliche Skalierbarkeit mit zwei Enhancement-Layern Speziell für die Übertragung über gestörte Kanäle, wie z.B. über Mobilfunkkanäle, sind sog. Error-Risilence-Tools vorhanden, die die sichtbaren Auswirkungen von Übertragungsfehlern verringern sollen: • Resynchronization Markers Das Bild zeigt die Auswirkungen dieser • Extended Header Code Tools auf die Datenstrom-Syntax • Data Partitioning • Reversible VLCs Vorwärts-Decodierung Guido H. Bruck Bildverarbeitung - Folie 82 25.09.2013 Kommunikations Technik Rückwärts-Decodierung Quelle: Touradj Ebrahimi, MPEG-4 Natural Video Tools, Signal Processing Laboratory Swiss Federal Institute of Technology, Lausanne Guido H. Bruck Bildverarbeitung - Folie 84 25.09.2013 21 3.12.1 Synthetische Video-Objekte 3.12.3 Body Animation MPEG-4 enthält verschiedene Tools, um synthetische Video-Objekte zu übertragen (Auswahl): Vergleichbar mit der Face Animation. Form, Textur und Haltung des Körpers werden nur durch Parameter übergeben • • • • • Facial Animation - Animation von Gesichtern Body Animation – Animation von Körpern 2D-Meshes (2D-Gittermodelle) 3D-Meshes (3D-Gittermodelle) View-dependent Scalability Quelle: MPEG-4 – Ein Überblick, Paderborn Center for mobile Computing Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 85 25.09.2013 3.12.2 Facial Animation Kommunikations Technik „Body Control Points“ in unteren Körperteilen Quelle: Streaming Multimedia – The MPEG-4 Approach, Circuit Cellular, Issue 137, Dec. 2001 Guido H. Bruck Bildverarbeitung - Folie 87 25.09.2013 3.12.4 2D-Meshes Form, Textur und Gesichtsausdruck werden nur durch Parameter übergeben • Facial Definition Parameters (FDP) Gesicht wird durch 84 FDPs beschrieben • FDPs werden vom Decoder in Gesicht umgesetzt Animation: • Facial Animation Parameters Gesichtsausdrücke Aufteilung des 2-dimensionalen Raumes in Polygone • in MPEG-4 nur Dreiecke Textur wird über das Gittermodell gelegt • Texture Mapping Animation • Verschieben der Knotenpunkte Quelle: MPEG-4 – Ein Überblick, Paderborn Center for mobile Computing Kommunikations Technik Quelle: MPEG-4 – Ein Überblick, Paderborn Center for mobile Computing Guido H. Bruck Bildverarbeitung - Folie 86 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 88 25.09.2013 22 3.12.5 View-dependent Scalebility 3.13.2 Profile (Profiles) Beispiel für die Bearbeitung von Profilen in einem MPEG-4 Encoder/Decoder. Profile werden in Form von Video-Objekt-Typen definiert • wird in 3D-Welten benutzt • ermöglicht Übertragung von Texturen • nur sichtbare Informationen werden übertragen spart Bandbreite • Berechnung auf Encoder- und Decoder-Seite Rückkanal erforderlich Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 89 25.09.2013 3.13.1 Profile (Profiles) Kommunikations Technik Quelle: Olivier Avaro: Overview of MPEG-4 Developments, Davic European Information Day, Geneva, 12 January 1999 Guido H. Bruck Bildverarbeitung - Folie 91 25.09.2013 3.13.3 Profile (Profiles) für natürliche Videobilder („natural Video“) Auswahl von Video-Tools zu einigen Video-Objekttypen Die meisten Anwendungen benötigen nur einen Teil der vielfältigen Werkzeuge („Tools“), die im MPEG-4-Standard definiert sind. Die Codierungswerkzeuge werden zu sog. Profilen („Profiles“) zusammengefasst. Diese Profile werden auf bestimmte Anwendungen angepasst, dadurch verringert sich der Implementierungsaufwand in Encoder und Decoder. Für jedes Profil kann es verschiedene „Levels“ geben, die die Komplexität z.B. in Form von Bildgröße, Anzahl der Video-Objekte, Speicherbedarf, einschränken. Typen von Profilen: • Szenenbeschreibung • Objektbeschreibungen • Audio (natürliche und synthetische): Typen von Objekten • Visual (natürliche und synthetische): Typen von Objekten • Grafiken Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 90 25.09.2013 MPEG-4 video tools Basic(I and P-VOP, coefficient prediction, 4-MV, unrestricted MV) Error resilience Short Header B-VOP P-VOP with OBMC (Texture) Method 1/Method 2 Quantization P-VOP based temporal scalability Binary Shape Grey Shape Interlace Sprite Temporal Scalability (Rectangular) Spatial Scalability (Rectangular) N-Bit Scalable Still Texture MPEG-4 video object types Main Simple N-bit Scalable Simple Core x x x x x x x x x x x x x x x x x x x x x x x x x x x Still Scalable Texture x x x x x x x „Simple“: Nur rechteckförmige Video-Objekte (keine Shape-Verarbeitung) Kommunikations Technik Quelle: Touradj Ebrahimi and Caspar Horne: MPEG-4 Natural Video Coding - An overview, aus dem Internet Guido H. Bruck Bildverarbeitung - Folie 92 25.09.2013 23 3.13.4 Profile (Profiles) für natürliche Videobilder („natural Video“) Auswahl von Typen von Video-Objekten, die innerhalb einer Auswahl von Profiles bearbeitet werden können: MPEG-4 video profiles Simple MPEG-4 video object types Simple x Core Main Simple Scaleable N-Bit Scalable Still Texture Kommunikations Technik Core Main Simple Scalable N-Bit x x x x x x x x Scalable Texture x x x Quelle: Touradj Ebrahimi and Caspar Horne: MPEG-4 Natural Video Coding - An overview, aus dem Internet x Guido H. Bruck Bildverarbeitung - Folie 93 25.09.2013 3.13.6 Profile (Profiles) für natürliche Videobilder („natural Video“) Weitere Ergänzungen durch neue Tools und Profiles: • Advanced Simple: Verbesserte Codierverfahren gegenüber dem simple Profile. • Simple Studio: Hohe Bildqualität, Verwendung für die Bildbearbeitung im Studio, nur I-VOPs, Datenrate bis 2GBit/s. • Core Studio: Wie Simple-Studio, aber zusätzlich mit P-VOPs, die eine verbesserte Datenreduktion erlauben aber gleichzeitig einen erhöhnten Implementierungsaufwand verlangen. • Core Scalable: Wie Core, aber zusätzlich Skalierbarkeit. Anwendung im Internet, bei Mobilfunkübertragung und für Rundfunkzwecke. • Advanced Real-Time Simple: Für Echtzeitanwendungen wie Videotelefon, Telekonferenz. • Advanced Coding Efficiency: Mit allen neuen Verfahren zur verbesserten Codierung, für mobile Rundfunkübertragung, Camcorder etc. • Fine Granularity Scalable: Mehrere Verfahren zur Skalierbarkeit, um den Datenstrom schnell veränderlichen Datenübertragungsraten besser anpassen zu können (Streaming Video). Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 95 25.09.2013 3.13.5 Profile (Profiles) für natürliche Videobilder („natural Video“) 3.13.7 Levels Wichtige vorgesehene Anwendungen der Profiles: • Simple: Einfache fehlergeschützte Übertragung von rechteckigen Bildern, z.B. für Übertragung in Mobilfunksystemen • Simple Scalable: Anwendung, wo Skalierbarkeit z.B. wegen unterschiedlicher zur Verfügung stehender Bandbreite eingeschränkt wird, oder bei Begrenzungen von Rechenleistungen: Internet oder Software-Decodierung • Core: Übertragung für beliebig geformte Bildobjekte. Für einfache Interaktivität, z.B. Internet-Multimedia-Anwendungen • Main Visual: Für interaktive, Fernseh- und DVD-Anwendungen Mit sog. Levels werden Parametervorgaben für den Datenstrom gemacht. Die folgende Tabelle gibt einige Levels für die wichtigsten Profiles wider. In der Spalte „Total mblk memory“ ist die für den Decodiervorgang nötige Speichermenge in „Macroblock-Units“ angegeben. Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 94 25.09.2013 Typical scene size Profile and Level L1 Simple L2 Profile L3 L1 Core Profile L2 L2 Main Profile L3 L4 Kommunikations Technik QCIF CIF CIF QCIF CIF CIF ITU-R 601 1920x1088 Size in Pixels 176x144 352x288 352x288 176x144 352x288 352x288 720x576 1920x1088 Bitrate (bit/s) 64 k 128 k 384 k 384 k 2M 2M 15 M 38.4 M Quelle: Touradj Ebrahimi and Caspar Horne: MPEG-4 Natural Video Coding - An overview, aus dem Internet Maximum Total mblk number of memory objects (mblk units) 4 4 4 4 16 16 32 32 198 792 792 594 2376 2376 9720 48960 Guido H. Bruck Bildverarbeitung - Folie 96 25.09.2013 24 3.13.8 Datenrate 3.14.2 H.264/AVC - Scope and Context Die Datenrate kann sowohl für Anwendungen mit variabler Datenrate (VBR – Variable Bitrate) als auch für Anwendungen mit fester Datenrate (CBR – Constant Bitrate) eingestellt werden. Dazu ist ein Algorithmus erforderlich, der die Quantisierung der zu übertragenden Größen einstellt. Bei VBR-Anwendungen wird versucht, die optimale Bildqualität mit einer vorgegebenen Bitrate zu erreichen. Bei CBR-Anwendungen muss die vorgegebene Verzögerungszeit und die vorgegebene Größe des Pufferspeichers berücksichtigt werden, der die ungleichmäßig anfallenden Datenbits zwischenspeichert, bevor sie mit konstanter Datenrate über den Übertragungskanal geschickt werden. Ein vergleichbarer Pufferspeicher ist auf der Decoderseite vorhanden. Wenn der Pufferspeicher droht überzulaufen, wird die Quantisierung vergröbert, so dass weniger Daten anfallen. Wenn der Pufferspeicher droht leer zu laufen, wird die Quantisierung feiner eingestellt, so dass mehr Daten anfallen. • Aimed at providing high-quality compression for various services: – IP streaming media (50-1500 kbps) – SDTV and HDTV Broadcast and video-on-demand (1 - 8+ Mbps) – DVD – Conversational services (<1 Mbps, low latency) • Standard defines: – Decoder functionality (but not encoder) – File and stream structure • Final results: 2-fold improvement in compression • Same fidelity, half the size compared to H.263 and MPEG-2 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 97 25.09.2013 3.14.1 H.264/AVC – MPEG-4 Part 10 (Official MPEG Term) • ISO/IEC 14496-10 AVC – H.264 (Official ITU Term) Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 99 25.09.2013 3.14.3 H.264/AVC - New features • In the early 1990’s, the first video compression standards were introduced: – H.261 (1990) and H.263 (1995) from ITU – MPEG-1 (1993) and MPEG-2 (1996) from ISO • Since then, the technology has advanced rapidly – H.263 was followed by H.263+, H.263++, H.26L – MPEG-1/2 followed by MPEG-4 visual – But industry and research coders are still way ahead • H.264/AVC is a joint project of ITU and ISO, to create an up-to-date standard. • New features in H.264 – Motion compensation and intra-prediction – Image transform – Deblocking filters – Entropy coding – Frames and slices Quellen: Gidon Shavit The H.264/AVC Video Coding Standard, Based on Material from IEEE Transactions on Circuits and Systems for Video Technology, July 2003, www.cs.washington.edu/ homes/gidon/presentations/h264.ppt Tom McMahon: The Emerging H.264/AVC Video Coding Standard, www.itl.nist.gov/div895/isis/jvtslides.ppt Dr. Pankaj Topiwala H.264: The Next Revolution? www.hpaonline.com/files/public/topiwala.ppt Mohsen Saneei: H-264 ece.ut.ac.ir/classpages/Multimedia/h264.ppt Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 98 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 100 25.09.2013 25 3.14.4 H.264/AVC - Changes in Motion Compensation 3.14.6 H.264/AVC - Variable Block Sizes • Quarter-pixel accuracy – A gain of 1.5-2dB across the board over ½-pixel • Variable block-size: – Every 16x16 macroblock can be subdivided – Each sub-block gets predicted separately • Multiple and arbitrary reference frames – Vs. only previous (H.263) or previous and next (MPEG). • Anti-aliasing sub-pixel interpolation – Removes some common artifacts in residual Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 101 25.09.2013 3.14.5 H.264/AVC - Variable Block-Size MC Guido H. Bruck Bildverarbeitung - Folie 103 25.09.2013 3.14.7 H.264/AVC - Motion Scale Example • Motivation: size of moving/stationary objects is variable – Many small blocks may take too many bits to encode – Few large blocks give lousy prediction • In H.264/AVC, each 16x16 macroblock may be: – Kept whole, – Divided horizontally (vertically) into two sub-blocks of size 16x8 (8x16) – Divided into 4 sub-blocks 16x16 16x8 8x16 – In the last case, the 4 sub-blocks may MB 0 0 0 1 Types be divided once more into 2 or 4 1 smaller blocks. 4x8 8x4 8x8 0 – Bit rate savings of more than 15% as 8x8 0 1 0 Types 1 compared to using only a Motion vector accuracy 1/4 16x16 block size. Kommunikations Technik Kommunikations Technik 8x8 0 1 2 3 4x4 0 1 2 3 T=1 Guido H. Bruck Bildverarbeitung - Folie 102 25.09.2013 Kommunikations Technik T=2 Guido H. Bruck Bildverarbeitung - Folie 104 25.09.2013 26 3.14.8 H.264/AVC - Motion Scale Example T=1 Kommunikations Technik 3.14.10 H.264/AVC – Variable Block Size Example T=2 T=1 Guido H. Bruck Bildverarbeitung - Folie 105 25.09.2013 T=2 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 107 25.09.2013 3.14.11 H.264/AVC – Arbitrary Reference Frames 3.14.9 H.264/AVC - Motion Scale Example • In H.263, the reference frame for prediction is always the previous frame • In MPEG and H.26L, some frames are predicted from both the previous and the next frames (bi-prediction) • In H.264/AVC, any one frame may be used as reference: – Encoder and decoder maintain synchronized buffers of available frames (previously decoded) – Reference frame is specified as index into this buffer • In bi-predictive mode, each macroblock may be: – Predicted from one of the two references – Predicted from both, using weighted mean of predictors Multiple Reference Frames for Motion Compensation T=1 Kommunikations Technik T=2 Guido H. Bruck Bildverarbeitung - Folie 106 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 108 25.09.2013 27 3.14.12 H.264/AVC – Intra Prediction 3.14.14 H.264/AVC – 4x4 Intra Prediction Modes • Motivation: intra-frames are natural images, so they exhibit strong spatial correlation – Implemented to some extent in H.263++ and MPEG-4, but in transform domain • Macroblocks in intra-coded frames are predicted based on previously-coded ones – Above and/or to the left of the current block – The macroblock may be divided into 16 4x4 sub-blocks which are predicted in cascading fashion • An encoded parameter specifies which neighbors should be used to predict, and how • 9 types for luminance signal Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 109 25.09.2013 3.14.13 H.264/AVC – Intra Prediction Guido H. Bruck Bildverarbeitung - Folie 111 25.09.2013 3.14.15 H.264/AVC – 4x4 Intra Prediction Modes • For example in Mode 3 (Diagonal-Down-Left prediction) the values of a to p are given as follows: – a is equal to (A+2B+C+2)/4 – b, e are equal to (B+2C+D+2)/4 – c, f, i are equal to (C+2D+E+2)/4 – d, g, j, m are equal to (D+2E+F+2)/4 – h, k, n are equal to (E+2F+G+2)/4 – l, o are equal to (F+2G+H+2)/4 – p is equal to (G+3H+2)/4 • Mode 2 (DC) – Predict all pixels from – (A+B+C+D+I+J+K+L+4)/8 or (A+B+C+D+2)/4 or (I+J+K+L+2)/4 • For I macroblocks • For luminance samples – 4x4 prediction process – 16x16 prediction process • For chrominance samples – 8x8 prediction process Kommunikations Technik Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 110 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 112 25.09.2013 28 3.14.16 H.264/AVC – 4x4 Intra Prediction Modes Kommunikations Technik 3.14.18 H.264/AVC - Intra Prediction Guido H. Bruck Bildverarbeitung - Folie 113 25.09.2013 3.14.17 H.264/AVC - Intra Prediction Guido H. Bruck Bildverarbeitung - Folie 115 25.09.2013 3.14.19 H.264/AVC - Image Transform Intra 16x16 luminance (smooth macroblocks containing little detail) and 8x8 chrominance prediction modes – Mode 0 (Vertical) – Mode 1 (Horizontal) – Mode 2 (DC) – Mode 4 (Plane): a linear “plane” function is fitted to the upper and left-hand samples H and V. • Motivation: – DCT requires real-number operations, which may cause inaccuracies in inversion – Better motion compensation means less spatial correlation – no need for 8x8 transform • H.264 uses a very simple integer 4x4 transform – A (pretty crude) approximation to 4x4 DCT – Transform matrix contains only +/-1 and +/-2 • Can be computed with only additions, subtractions, and shifts • Results show negligible loss in quality (~0.02dB) If any of the 8x8 blocks in the luminance component are coded in Intra mode, both chrominance blocks (Cr,Cb) are also intra coded Kommunikations Technik Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 114 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 116 25.09.2013 29 3.14.20 H.264/AVC - Image Transform 3.14.22 H.264/AVC - Image Transform • EXACT MATCH Simplified Transform • Based primarily on 4x4 transform (all prior standards: 8x8) T 1 1 1 1 1 2 1 1 1 1 1 2 2 1 1 2 • In “adaptive block size transform” mode – further transforms are chosen depending on the motion compensation block size(4x8, 8x4, 8x8, 16x8, etc) – transform operates on 4x4 blocks of residual data after motioncompensated prediction or Intra prediction 1 1 T 1 1 • Requires only 16 bit arithmetic (including intermediate values) • Easily extensible to 10-12 bits per component Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 117 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 119 25.09.2013 3.14.21 H.264/AVC - Image Transform 3.14.23 H.264/AVC - Deblocking Filters Transform in “baseline” profile of H.264/AVC • 4x4 block transform for residual data • 4x4 transform of luminance DC coefficients in intra macroblocks (intra predicted in 16x16 mode) • 2x2 transform of chrominance DC coefficients (in any macroblock) • Motivation: block-based MC and transforms generate blocking artifacts – Very visible to human eye at low bit-rates • Previous standards applied simple filters to “smudge” edges between blocks • H.264/AVC adaptively chooses for each edge which one of 5 deblocking filters to apply. – For instance, if both blocks have the same motion vector, less filtering is needed. • Improves objective quality as well: about 7-9% reduction in bit-rate for same PSNR. Kommunikations Technik Luminance signal Guido H. Bruck Bildverarbeitung - Folie 118 25.09.2013 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 120 25.09.2013 30 3.14.24 H.264/AVC - Deblocking Filters 3.14.26 H.264/AVC - Entropy Coding: CABAC • Arithmetic coding framework designed specifically for H.264 • Binarization: all syntax symbols are translated to bit-strings • 399 predefined context models, used in groups – E.g. models 14-20 used to code macroblock type for inter-frames – The model to use next is selected based on previously coded information (the context) – Each context model adapts to empirical distribution 1) Without Filter 2) with H264/AVC Deblocking Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 121 25.09.2013 3.14.25 H.264/AVC - Entropy Coding Guido H. Bruck Bildverarbeitung - Folie 123 25.09.2013 3.14.27 H.264/AVC - Frames and Slices • Motivation: traditional coders use fixed, variable-length codes – Essentially Huffman-style codes – Non-adaptive – Can’t encode symbols with probability > 0.5 efficiently, since at least one bit required • H.263 Annex E defines an arithmetic coder – Still non-adaptive – Uses multiple non-binary alphabets, which results in high computational complexity • H.264/AVC uses two entropy codings: – CAVLC (context-adaptive variable length coding) and UVLC (Uniform Variable Length Coding) – CABAC (context-adaptive binary arithmetic coding) Kommunikations Technik Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 122 25.09.2013 • In H.263 and MPEG, each frame is either inter (P-frame) or intra (I-frame). – Exception: some macroblocks in P-frames may be intra-coded, and are called I-blocks. • H.264/AVC generalizes this: each frame consists of one or more slices – Contiguous groups of macroblocks – Processed in internal raster order – Each is independently encoded and decoded • I-slices, P-slices, B-slices (two reference frames) Slice 0 Slice 1 Slice 2 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 124 25.09.2013 31 3.14.30 Profiles 3.14.28 H.264/AVC vs MPEG-2, Low Rate I and P Slices B Slices SI and SP Slices Multiple Reference Frames In-Loop Deblocking Filter CAVLC Entropy Coding CABAC Entropy Coding Flexible Macroblock Ordering (FMO) Arbitrary Slice Ordering (ASO) Redundant Slices (RS) Data Partitioning Interlaced Coding (PicAFF, MBAFF) 4:2:0 Chroma Format 4:2:2 Chroma Format 4:4:4 Chroma Format 8 Bit Sample Depth Foreman, QCIF, 30 fps MPEG-2 203 kbps Kommunikations Technik H.264 39 kbps! Guido H. Bruck Bildverarbeitung - Folie 125 25.09.2013 3.14.29 Quick Look at WM9 Extended Ja Ja Ja Ja Ja Ja Nein Ja Ja Ja Ja Ja Ja Nein Nein Ja Main Ja Ja Nein Ja Ja Ja Ja Nein Nein Nein Nein Ja Ja Nein Nein Ja High Ja Ja Nein Ja Ja Ja Ja Nein Nein Nein Nein Ja Ja Nein Nein Ja High 10 Ja Ja Nein Ja Ja Ja Ja Nein Nein Nein Nein Ja Ja Nein Nein Ja High 4:2:2 Ja Ja Nein Ja Ja Ja Ja Nein Nein Nein Nein Ja Ja Ja Nein Ja Kommunikations Technik High 4:4:4 Ja Ja Nein Ja Ja Ja Ja Nein Nein Nein Nein Ja Ja Ja Ja Ja Guido H. Bruck Bildverarbeitung - Folie 127 25.09.2013 3.14.31 Profiles • WM4 onward were variants of MPEG-4 • WM9 is a variant of H.264/AVC – Fast, 16-bit integer transform – Sophisticated motion estimation – Scalar quantization – Adaptive VLC (no CABAC) • This would give it performance similar to H.264/AVC – Might expect ~10% less since no CABAC – In our tests, they appear comparable • WM9 performed well in tests at DVD Forum. But – WM9 may have used optimized, tuned, 2-pass encoding, prefiltering. – H.264/AVT used 1-pass ref. sw. (No 2-pass, tuning, filtering, opt.) Kommunikations Technik Baseline Ja Nein Nein Ja Ja Ja Nein Ja Ja Ja Nein Nein Ja Nein Nein Ja Guido H. Bruck Bildverarbeitung - Folie 126 25.09.2013 9 and 10 Bit Sample Depth 11 and 12 Bit Sample Depth 8x8 vs. 4x4 Transform Adaptivity Quantization Scaling Matrices Separate Cb and Cr QP control Monochrome Video Format Residual Color Transform Predictive Lossless Coding Kommunikations Technik Baseline Nein Nein Nein Nein Nein Nein Nein Nein Extended Nein Nein Nein Nein Nein Nein Nein Nein Main Nein Nein Nein Nein Nein Nein Nein Nein High Nein Nein Ja Ja Ja Ja Nein Nein High 10 Ja Nein Ja Ja Ja Ja Nein Nein High 4:2:2 Ja Nein Ja Ja Ja Ja Nein Nein High 4:4:4 Ja Ja Ja Ja Ja Ja Ja Ja Guido H. Bruck Bildverarbeitung - Folie 128 25.09.2013 32 3.14.32 Levels und Profiles 3.14.34 AVCHD Macroblocks pro Beispiele für Videobitrate (VCL) für Profiles Baseline Auflösung/Bildrate High 4:2:2 Extended Level Frame Sekunde High High 10 dieses Levels High 4:4:4 Main 64 kbit/s 80 kbit/s 192 kbit/s 256 kbit/s 1 176 × 144 / 15 1 485 99 128 × 96 / 30 1b 128 kbit/s 160 kbit/s 384 kbit/s 512 kbit/s 352 × 288 / 7.5 3 000 320 × 240 / 10 1.1 192 kbit/s 240 kbit/s 576 kbit/s 768 kbit/s 176 × 144 / 30 352 × 288 / 15 396 6 000 320 × 240 / 20 1.2 384 kbit/s 480 kbit/s 1152 kbit/s 1536 kbit/s 176 × 144 / 60 1.3 768 kbit/s 960 kbit/s 2304 kbit/s 3072 kbit/s 352 × 288 / 30 11 880 320 × 240 / 40 2 2 Mbit/s 2,5 Mbit/s 6 Mbit/s 8 Mbit/s 352 × 576 / 25 19 800 4 Mbit/s 5 Mbit/s 12 Mbit/s 16 Mbit/s 2.1 792 352 × 288 / 50 720 × 480 / 15 1 620 20 250 4 Mbit/s 5 Mbit/s 12 Mbit/s 16 Mbit/s 2.2 352 × 288 / 50 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 129 25.09.2013 3.14.33 Levels und Profiles Subtype Frame size in pixels Frame rate High Definition(AVCHD-HD) Standard Definition(AVCHD-SD) 1920×1080 1280×720 720×480 720×576 1440×1080 29.97, interlaced 59.94, progressive 25, interlaced 50, progressive 29.97, interlaced 25, interlaced 23.976, progressive 23.976, progressive 16:9 4:3, 16:9 MPEG-4 AVC/H.264 74.25 MHz 74.25 MHz 13.5 MHz 13.5 MHz 55.7 MHz Frame aspect ratio Video Compression Luminance sampling frequency Chroma sampling 4:2:0 format Quantization 8 bits (both luminance and chrominance) System Stream type MPEG transport stream up to 18 Mbit/s (DVD media) System data rate up to 24 Mbit/s (all other media) Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 131 25.09.2013 3.14.35 AVCHD 2.0 Macroblocks pro Beispiele für Videobitrate (VCL) für Profiles Baseline Auflösung/Bildrate High 4:2:2 Extended Level Frame Sekunde High High 10 dieses Levels High 4:4:4 Main 720 × 576 / 25 40 500 10 Mbit/s 12,5 Mbit/s 30 Mbit/s 40 Mbit/s 3 1 620 720 × 480 / 30 1280 × 720 / 30 3 600 108 000 14 Mbit/s 17,5 Mbit/s 42 Mbit/s 56 Mbit/s 3.1 720 × 576 / 60 1280 × 1024 / 40 5 120 216 000 20 Mbit/s 25 Mbit/s 60 Mbit/s 80 Mbit/s 3.2 1280 × 720 / 60 4 20 Mbit/s 25 Mbit/s 60 Mbit/s 80 Mbit/s 1920 × 1080 / 30 8 192 245 760 1280 × 720 / 60 4.1 50 Mbit/s 62,5 Mbit/s 150 Mbit/s 200 Mbit/s 8 704 522 240 2048 × 1080 / 60 4.2 50 Mbit/s 62,5 Mbit/s 150 Mbit/s 200 Mbit/s 3072 × 1620 / 30 168,75 22 080 589 824 405 Mbit/s 540 Mbit/s 5 135 Mbit/s Mbit/s 2048 × 1080 / 60 4096 × 2304 / 25 5.1 36 864 983 040 240 Mbit/s 300 Mbit/s 720 Mbit/s 960 Mbit/s 2048 × 1080 / 100 Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 130 25.09.2013 Subtype Frame size in pixels Frame rate AVCHD Progressive 1440×1080 1920×1080 AVCHD 3D (stereoscopic) 1280×720 1920×1080 23.976, progressive 59.94, progressive 59.94, progressive 25, interlaced 50, progressive 50, progressive 29.97, interlaced 16:9 MPEG-4 AVC/H.264 Frame aspect ratio Video Compression Luminance sampling 111.4 MHz 148.5 MHz 74.25 MHz frequency Chroma sampling 4:2:0 format Quantization 8 bits (both luminance and chrominance) System Stream type MPEG transport stream System data rate up to 28 Mbit/s Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 132 25.09.2013 33 3.15.1 High Efficiency Video Coding (HEVC) • • • • 3.15.3 High Efficiency Video Coding (HEVC) MPEG-H part 2 (ISO/IEC 23008-2) ITU-T Recommendation H.265 Increased video resolution Increased parallel processing architectures • The video coding layer of HEVC employs the same hybrid approach (inter/intrapicture prediction and 2-D transform coding) used in all video compression standards since H.261. Kommunikations Technik Guido H. Bruck Bildverarbeitung - Folie 133 25.09.2013 3.15.2 High Efficiency Video Coding (HEVC) Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 135 25.09.2013 3.15.4 High Efficiency Video Coding (HEVC) • The encoder duplicates the decoder processing loop (see gray-shaded boxes in 3.15.2 such that both will generate identical predictions for subsequent data. • Video material to be encoded by HEVC is generally expected to be input as progressive scan imagery. • No explicit coding features are present in the HEVC design to support the use of interlaced scanning, as interlaced scanning is no longer used for displays and is becoming substantially less common for distribution. • A metadata syntax has been provided in HEVC to allow an encoder to indicate that interlace-scanned video has been sent by coding each field (i.e., the even or odd numbered lines of each video frame) of interlaced video as a separate picture or that it has been sent by coding each interlaced frame as an HEVC coded picture. This provides an efficient method of coding interlaced video without burdening decoders with a need to support a special decoding process for it. Typical HEVC video encoder Kommunikations Technik • Each picture is split into block-shaped regions, with the exact block partitioning being conveyed to the decoder. • The first picture of a video sequence is coded using only intrapicture prediction, with no dependence on other pictures • For all remaining pictures of a sequence or between random access points, interpicture temporally predictive coding modes are typically used for most blocks. The encoding process for interpicture prediction consists of choosing motion data comprising the selected reference picture and motion vector (MV) to be applied for predicting the samples of each block. The encoder and decoder generate identical interpicture prediction signals by applying motion compensation (MC) using the MV and mode decision data, which are transmitted as side information. • The residual signal of the intra- or interpicture prediction, which is the difference between the original block and its prediction, is transformed by a linear spatial transform. The transform coefficients are then scaled, quantized, entropy coded, and transmitted together with the prediction information. Guido H. Bruck Bildverarbeitung - Folie 134 25.09.2013 Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 136 25.09.2013 34 3.15.5 High Efficiency Video Coding (HEVC) 3.15.7 High Efficiency Video Coding (HEVC) Coding units (CUs) and coding blocks (CBs): • The quadtree syntax of the CTU specifies the size and positions of its luma and chroma CBs. The root of the quadtree is associated with the CTU. • Hence, the size of the luma CTB is the largest supported size for a luma CB. The splitting of a CTU into luma and chroma CBs is signaled jointly. One luma CB and ordinarily two chroma CBs, together with associated syntax, form a coding unit (CU). • A CTB may contain only one CU or may be split to form multiple CUs, and each CU has an associated partitioning into prediction units (PUs) and a tree of transform units (TUs). Prediction units and prediction blocks (PBs): • The decision whether to code a picture area using interpicture or intrapicture prediction is made at the CU level. A PU partitioning structure has its root at the CU level. Kommunikations Technik Quelle: Jérôme VIERON HEVC: High-Efficiency Video Coding - Next generation video compression - WBU-ISOG FORUM 27 28 November 2012 Guido H. Bruck Bildverarbeitung - Folie 137 25.09.2013 3.15.6 High Efficiency Video Coding (HEVC) Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 139 25.09.2013 3.15.8 High Efficiency Video Coding (HEVC) Coding tree units and coding tree block (CTB) structure: • size selected by the encoder, can be larger than a traditional macroblock. • The CTU consists of a luma CTB and the corresponding chroma CTBs and syntax elements. The size L×L of a luma CTB can be chosen as L = 16, 32, or 64 samples, with the larger sizes typically enabling better compression. • HEVC then supports a partitioning of the CTBs into smaller blocks using a tree structure and quadtree-like signaling. Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 138 25.09.2013 Kommunikations Technik Quelle: Jérôme VIERON HEVC: High-Efficiency Video Coding - Next generation video compression - WBU-ISOG FORUM 27 28 November 2012 Guido H. Bruck Bildverarbeitung - Folie 140 25.09.2013 35 3.15.9 High Efficiency Video Coding (HEVC) 3.15.11 High Efficiency Video Coding (HEVC) Transform Units (TUs) and transform blocks (TBs): • The prediction residual is coded using block transforms. A TU tree structure has its root at the CU level. The luma CB residual may be identical to the luma transform block (TB) or may be further split into smaller luma TBs. The same applies to the chroma TBs. Integer basis functions similar to those of a discrete cosine transform (DCT) are defined for the square TB sizes 4×4, 8×8, 16×16, and 32×32. For the 4×4 transform of luma intrapicture prediction residuals, an integer transform derived from a form of discrete sine transform (DST) is alternatively specified. Motion vector signaling: • Advanced motion vector prediction (AMVP) is used, including derivation of several most probable candidates based on data from adjacent PBs and the reference picture. A merge mode for MV coding can also be used, allowing the inheritance of MVs from temporally or spatially neighboring PBs. Moreover, compared to H.264/MPEG-4 AVC, improved skipped and direct motion inference are also specified. Intrapicture prediction modes Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 141 25.09.2013 Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 143 25.09.2013 3.15.10 High Efficiency Video Coding (HEVC) 3.15.12 High Efficiency Video Coding (HEVC) Motion compensation: • Quarter-sample precision is used for the MVs, and 7-tap or 8-tap filters are used for interpolation of fractional-sample positions (compared to six-tap filtering of halfsample positions followed by linear interpolation for quarter-sample positions in H.264/MPEG-4 AVC). Similar to H.264/MPEG-4 AVC, multiple reference pictures are used. For each PB, either one or two motion vectors can be transmitted, resulting either in unipredictive or bipredictive coding, respectively. Intrapicture prediction: • The decoded boundary samples of adjacent blocks are used as reference data for spatial prediction in regions where interpicture prediction is not performed. Intrapicture prediction supports 33 directional modes (compared to eight such modes in H.264/MPEG-4 AVC), plus planar (surface fitting) and DC (flat) prediction modes. The selected intrapicture prediction modes are encoded by deriving most probable modes (e.g., prediction directions) based on those of previously decoded neighboring PBs. Quantization control: • As in H.264/MPEG-4 AVC, uniform reconstruction quantization (URQ) is used in HEVC, with quantization scaling matrices supported for the various transform block sizes. Entropy coding: • Context adaptive binary arithmetic coding (CABAC) is used for entropy coding. This is similar to the CABAC scheme in H.264/MPEG-4 AVC, but has undergone several improvements to improve its throughput speed (especially for parallel-processing architectures) and its compression performance, and to reduce its context memory requirements. In-loop deblocking filtering: • A deblocking filter similar to the one used in H.264/MPEG-4 AVC is operated within the interpicture prediction loop. However, the design is simplified in regard to its decision-making and filtering processes, and is made more friendly to parallel processing. Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 142 25.09.2013 Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 144 25.09.2013 36 3.15.13 High Efficiency Video Coding (HEVC) 3.15.15 High Efficiency Video Coding (HEVC) Sample adaptive offset (SAO): • A nonlinear amplitude mapping is introduced within the interpicture prediction loop after the deblocking filter. Its goal is to better reconstruct the original signal amplitudes by using a look-up table that is described by a few additional parameters that can be determined by histogram analysis at the encoder side. Wavefront parallel processing: • When wavefront parallel processing (WPP) is enabled, a slice is divided into rows of CTUs. The first row is processed in an ordinary way, the second row can begin to be processed after only two CTUs have been processed in the first row, the third row can begin to be processed after only two CTUs have been processed in the second row, and so on. The context models of the entropy coder in each row are inferred from those in the preceding row with a two-CTU processing lag. WPP provides a form of processing parallelism at a rather fine level of granularity, i.e., within a slice. WPP may often provide better compression performance than tiles (and avoid some visual artifacts that may be induced by using tiles). Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 145 25.09.2013 Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 147 25.09.2013 3.15.14 High Efficiency Video Coding (HEVC) 3.15.16 High Efficiency Video Coding (HEVC) • New features are introduced in the HEVC standard to enhance the parallel processing capability or modify the structuring of slice data for packetization purposes. Tiles: • The option to partition a picture into rectangular regions called tiles has been specified. The main purpose of tiles is to increase the capability for parallel processing rather than provide error resilience. Tiles are independently decodable regions of a picture that are encoded with some shared header information. Tiles can additionally be used for the purpose of spatial random access to local regions of video pictures. A typical tile configuration of a picture consists of segmenting the picture into rectangular regions with approximately equal numbers of CTUs in each tile. Tiles provide parallelism at a more coarse level of granularity (picture/ subpicture), and no sophisticated synchronization of threads is necessary for their use. Dependent slice segments: • A structure called a dependent slice segment allows data associated with a particular wavefront entry point or tile to be carried in a separate NAL unit, and thus potentially makes that data available to a system for fragmented packetization with lower latency than if it were all coded together in one slice. A dependent slice segment for a wavefront entry point can only be decoded after at least part of the decoding process of another slice segment has been performed. Dependent slice segments are mainly useful in low-delay encoding, where other parallel tools might penalize compression performance. Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 146 25.09.2013 Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 148 25.09.2013 37 3.15.17 High Efficiency Video Coding (HEVC) 3.15.19 High Efficiency Video Coding (HEVC) Transform Coding • HEVC uses transform coding of the prediction error residual in a similar manner as in prior standards. The residual block is partitioned into multiple square TBs. The supported transform block sizes are 4×4, 8×8, 16×16, and 32×32. Core Transform: • Two-dimensional transforms are computed by applying 1-D transforms in the horizontal and vertical directions. The elements of the core transform matrices were derived by approximating scaled DCT basis functions, under considerations such as limiting the necessary dynamic range for transform computation and maximizing the precision and closeness to orthogonality when the matrix entries are specified as integer values. For simplicity, only one integer matrix for the length of 32 points is specified, and subsampled versions are used for other sizes. Profiles and Levels • In January 2013 the definition of 13 levels is planned to be included in the first version of the standard as shown in Table 3.5.20, ranging from levels that support only relatively small picture sizes such as a luma picture size of 176×144 (sometimes called a quarter common intermediate format) to picture sizes as large as 7680×4320 (often called 8k×4k). The picture width and height are each required to be less than or equal to 8 · MaxLumaPS, where MaxLumaPS is the maximum luma picture size as shown in Table 3.5.20. Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 149 25.09.2013 3.15.18 High Efficiency Video Coding (HEVC) Kommunikations Technik 1 2 2.1 3 3.1 4 4.1 5 5.1 5.2 6 6.1 6.2 Quelle: Jérôme VIERON HEVC: High-Efficiency Video Coding - Next generation video compression - WBU-ISOG FORUM 27 28 November 2012 Guido H. Bruck Bildverarbeitung - Folie 151 25.09.2013 3.15.20 High Efficiency Video Coding (HEVC) Level Kommunikations Technik Quelle: Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand: Overview of the High Efficiency Video Coding (HEVC) Standard IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 22, NO. 12, DECEMBER 2012 Guido H. Bruck Bildverarbeitung - Folie 150 25.09.2013 Max Luma picture size Max luma sample rate Main Tier (samples) (samples/sec) Max bit rate (1000 bits/s) 128 36,864 552,960 1 500 122 880 3,686 400 3 000 245 760 7,372 800 6 000 552 960 16 588,800 10 000 983 040 33 177 600 12 000 2,228 224 66 846,720 20 000 2,228,224 133 693,440 25 000 8,912,896 267 386,880 40 000 8,912 896 534 773,760 60 000 8,912 896 1,069,547,520 1,069,547,520 60 000 33,423,360 2 005 401,600 120 000 33,423 360 4,010,803,200 240 000 33,423,360 Kommunikations Technik High Tier max bit rate (1000 bits/s) 30000 50,000 100 000 160 000 240 000 240,000 480 000 800,000 Quelle: Jérôme VIERON HEVC: High-Efficiency Video Coding - Next generation video compression - WBU-ISOG FORUM 27 28 November 2012 Min comp. ratio 2 2 2 2 2 4 4 6 8 8 8 8 6 Guido H. Bruck Bildverarbeitung - Folie 152 25.09.2013 38