Grundlagen der gehörangepassten Audiocodierung

Transcription

Grundlagen der
gehörangepassten
Audiocodierung
Johannes Hilpert
Fraunhofer IIS, Erlangen
http://www.iis.fraunhofer.de/amm
Johannes Hilpert ([email protected]), 2003
1
Themen
– Wie fing es an?
– Redundanz + Irrelevanz
– Maskierungseffekte
– Struktur eines Codecs
– Erhöhung der Codiereffizienz
2
Wie fing es
an?
– Codierung von Sprachsignalen
–Anwendung bereits seit den 1960er Jahren
–Grundlegende Idee: Eigenschaften der Signalquelle
ausnutzen (z.B. Modellierung des Sprachtraktes)
–Daher eher schlecht geeignet für allgemeine Signale
(Musik)
– Codierung von Audiosignalen
–Etwa seit der Einführung der Compact Disc Anfang
der 1980er
–Grundlegende Idee: Eigenschaften des
Signalempfängers ausnutzen (Psychoakustik)
–Soll sich für alle Arten von Audiosignalen eignen
(Sprache + Musik)
3
Motivation
– Ausgangsdatenrate der CD:
44100 ATW/sec * 16 bit/ATW * 2 Kanäle
= 1400 kbit/s
– Wunschtraum damals (1985):
–Transparente Übertragung der CD über zwei
ISDN B-Kanäle (128 kbit/s). Dies erfordert
Datenreduktion um den Faktor 11!
4
Lösungsansatz
– Verringerung der Redundanz im Audiosignal
–Verlustfreie Kompression, benutzt
Eigenschaften des Signals
–Mögliche Reduktion < Faktor 3
–Kompressionsfaktor abhängig vom Signal
– Verringerung der Irrelevanz im Audiosignal
–Was wird vom Signalempfänger
wahrgenommen?
–Kenntnis über die menschliche Wahrnehmung
von Ohr + Gehirn notwendig
–Eine Beschreibung liefert die Psychoakustik
5
Verbreitete
Halbwahrheit
– Ein Audiocoder lässt unhörbare Teile des Signals
weg
–Stimmt und stimmt nicht
–Daten wegzulassen heißt immer eine
Vergröberung (Quantisierung) der vorher fein
aufgelösten Zahlenwerte auf eine geringere
Auflösung (weniger Quantisierungsstufen)
–Dies führt zunächst immer zu einer Erhöhung
des Störgeräuschs
–Hörbeispiel: Lineare Quantisierung eines CD
Signals
–Problem: Rauschen wird bereits deutlich
hörbar bei Kompressionsraten ab Faktor 2
6
Das 13 dB
Wunder
– Wenn sich das Störgeräusch schon nicht vermeiden
läßt, kann man es dann besser verstecken?
–Bei gleichem Verhältnis von Signalenergie zu
Störenergie (SNR) kann die Störung unterschiedlich
hörbar sein.
–Hörbeispiel:
–Originalsignal
–Original + weißes Rauschen mit –13 dB SNR (ca.1/16)
–Original + geformtes Rauschen mit –13 dB SNR
–Differenzsignal: weißes Rauschen mit –13 dB SNR
–Differenzsignal: geformtes Rauschen mit –13 dB SNR
–Informationen über die geeignete Formung liefert
die Psychoakustik
7
Das 13 dB
Wunder
(2)
8
Maskierungseffekte des
menschlichen
Gehörs
– Zeitliche Maskierung
–Verdeckung von zeitlich aufeinanderfolgenden
Schallen
– Ruhehörschwelle
–Dinge, die man sowieso nicht hört ;-)
– Frequenz Maskierung
–Verdeckung von gleichzeitigen frequenzmäßig
benachbarten Schallen
9
Zeitliche
Maskierung
10
Ruhehörschwelle
11
Frequenz
Maskierung
Ruhehörschwelle
+ Maskierung =
Mithörschwelle
12
Frequenz
Maskierung (2)
– Stärke der Maskierung hängt auch von der Art
des Maskierers ab:
–Rauschartige Maskierer verdecken stärker als
tonale Maskierer (bis zu 14 dB)
– Breite der Verdeckungsfunktion hängt
zusätzlich ab von:
–Frequenz des Maskierers
–Pegel des Maskierers
13
Hörbeispiel
Frequenzmaskierung Lautstärke [dB]
Serie von Sinustönen
gleicher Frequenz
mit ansteigender
Lautstärke
160 Hz
0
-10
-20
-30
-40
-50
-60
-70
-80
7
6
5
4
3
2
1
Schmalbandrauschen
(Maskierer)
1000
1200
Mithörschwelle
Frequenz [Hz]
14
Codierung im
Frequenzbereich
– Frequenzbereichsdarstellung ermöglicht:
–Gute Beobachtbarkeit/Berechenbarkeit der
Verdeckungseffekte im psychoakustischen
Modell
–Einfache frequenzabhängige Formung des
Quantisierungsgeräuschs (siehe 13 dB Wunder)
–Transformationsgewinn für die Codierung
durch die Konzentration von tonalen
Signalanteilen auf wenige Werte im Spektrum
15
Struktur eines
Transformationscoders
Audio
Zeit/Frequenz
Transformation
psychoakustisches
Modell
Bitstrom
Bitstromentpacker
Encoder
Quantisierer und
Redundanzencoder
Bitstromformatierer
Bitstrom
Frequenz/Zeit
Transformation
Audio
Decoder
Redundanzdecoder
und Requantisierer
16
Struktur eines
Transformationscoders (2)
– Die asymmetrische Struktur von En- und
Decoder ermöglicht:
–Das MPEG-Prinzip
–Geringere Komplexität des Decoders
–Kompatibilität bereits, wenn nur das
Bitstromformat und der Decoder, nicht aber
der Encoder festgeschrieben sind.
–Verbesserungen am Encoder unter
Beibehaltung der Kompatibilität möglich
17
Weitere
Erhöhung der
Codiereffizienz
– Ausnutzung von Redundanz und Irrelevanz zwischen
den Audiokanälen (seit mp2)
–Mitte-Seite (MS) Codierung: für korrelierte Signale ist
das Differenzsignal (Links-Rechts) klein
–Intensitäts-Stereo-Codierung: Übertragung eines
Summenkanals plus Positions/Hüllkurveninformationen zur Generierung der anderen Kanäle
– Entropiekodierung (seit mp3)
–Redundanzreduktion durch Huffmancodierung
– Bit-‘Sparkasse‘ (seit mp3)
–Kurzzeitpuffer ermöglicht Anpassung der
Momentandatenrate an unterschiedlich
anspruchsvolle Signalabschnitte.
–Dennoch bleibt die Gesamtdatenrate konstant!
18
Weitere
Erhöhung der
Codiereffizienz
(2)
– Dynamische Umschaltung der Transformationslänge
(seit mp3)
–Das Quantisierungsgeräusch ist über die Länge eines
Transformationsblockes zeitlich konstant.
–Optimale Anpassung der Transformationslänge an
die Signaleigenschaften erwünscht.
–Für transiente Signale (Kastagnetten) kann die
Transformationslänge verkürzt werden um
‚Vorechos‘ zu vermeiden (siehe zeitliche Maskierung)
– Temporal Noise Shaping (TNS) (seit AAC)
–Ermöglicht die zeitliche Formung des
Quantisierungsgeräuschs innerhalb eines
Transformationsblocks durch Filterung der
Spektralwerte.
–Hörbeispiel Vorechos/TNS
19
Weitere
Erhöhung der
Codiereffizienz
(3)
– Prädiktion (seit AAC)
–Redundanzverringerung durch Ausnutzung der
Korrelation zeitlich und in der Frequenz
aufeinanderfolgender Spektralwerte. (Hörbeispiel)
– Perceptual Noise Substitution (PNS) (seit AAC)
–Rauschartige Frequenzanteile werden im Decoder
synthetisiert, lediglich die Energieinformation wird
übertragen. (Hörbeispiel)
– Spectral Band Replication (SBR) (mp3Pro, AAC+SBR)
–Gewinnung des oberen Frequenzspektrums aus dem
niederfrequenten Teilen im Decoder. Übertragung
von Hüllkurveninformation genügt für die hohen
Frequenzen.
20

Grundlagen der gehörangepassten Audiocodierung

Transcription

Similar documents

Media:MP3 - Das Musikformat des Internet

Signalverarbeitung mit einem DSP am Beispiel DRM Dekodierung

MP3 Grundlagen

Einfluss des Störgeräuschs und der Testmethode auf die

Signalverarbeitung mit einem DSP am Beispiel DRM Dekodierung

Inhaltsbasierte¨Ahnlichkeitsmetriken zur Navigation in

update graphics test M2 UG.qxd

Diskussion von Codierverfahren

mp3 - Electrosuisse

Audiokompression am Beispiel AAC