Kommunikationstechnik II

Transcription

Kommunikationstechnik II
Prof. Dr. Stefan Weinzierl
Autoren: Stefan Weinzierl & Alexander Lerch
Wintersemester 2008/2009
Inhaltsverzeichnis
1
Einleitung
2
Grundlagen
2.1 Abtastung . . . . . . . . . . . . . . . . . . .
2.2 Beschreibung von Zufallssignalen . . . . . .
2.2.1 Zufallsprozesse . . . . . . . . . . . .
2.2.2 Verteilung und Dichte . . . . . . . .
2.2.3 Erwartungswerte und Momente . . .
2.2.4 Verteilungsmodelle und Häufigkeiten
2.2.4.1 Rechteckverteilung . . . .
2.2.4.2 Gaußverteilung . . . . . .
2.2.4.3 Exponentialverteilung . . .
2.2.4.4 Laplaceverteilung . . . . .
2.2.5 Korrelation und Leistungsdichte . . .
2.3 Quantisierung . . . . . . . . . . . . . . . . .
2.4 Dither . . . . . . . . . . . . . . . . . . . . .
2.5 Überabtastung . . . . . . . . . . . . . . . . .
2.6 Noise-Shaping . . . . . . . . . . . . . . . . .
2.7 Delta-Sigma-Modulation . . . . . . . . . . .
2.8 Zahlendarstellung und Zahlenformat . . . . .
2.8.1 Festkomma-Format . . . . . . . . . .
2.8.2 Gleitkomma-Darstellung . . . . . . .
2.8.3 Anwendungsbereiche . . . . . . . . .
3
5
A/D- und D/A- Wandlung
3.1 Einleitung . . . . . . . . . . . . .
3.2 A/D-Wandler . . . . . . . . . . .
3.2.1 Parallel-Wandler . . . . .
3.2.2 SAR-Wandler . . . . . . .
3.2.3 Delta-Sigma-Wandler . .
3.3 D/A-Wandler . . . . . . . . . . .
3.3.1 R-2R-Wandler . . . . . .
3.3.2 Delta-Sigma-DA-Wandler
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
10
11
12
13
14
14
15
15
15
15
18
22
29
30
32
33
34
35
36
.
.
.
.
.
.
.
.
37
37
38
38
39
40
41
41
41
4
3.4
4
Kenn- und Messgrößen für Wandler . . . . . . . . . . . . . . . . . . . .
Kodierung
4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Quellenkodierung . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Redundanzkodierung . . . . . . . . . . . . . . . . . .
4.2.1.1 Lineare Prädiktion . . . . . . . . . . . . . .
4.2.1.2 Entropiekodierung . . . . . . . . . . . . . .
4.2.1.3 Beispiele . . . . . . . . . . . . . . . . . . .
4.2.2 Irrelevanzkodierung . . . . . . . . . . . . . . . . . .
4.2.2.1 Verdeckung und Frequenzgruppen . . . . .
4.2.2.2 Beispiel MPEG-4 AAC . . . . . . . . . . .
4.2.2.3 Qualität . . . . . . . . . . . . . . . . . . .
4.2.2.4 Auswahlkriterien von Kodierungsverfahren .
4.3 Kanalkodierung . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Grundbegriffe und Kenngrößen . . . . . . . . . . . .
4.3.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . .
4.3.2.1 Einfache Parität . . . . . . . . . . . . . . .
4.3.2.2 Mehrdimensionale Parität (Kreuzsicherung)
4.3.2.3 Zyklische Kodes . . . . . . . . . . . . . . .
4.3.2.4 Faltungskodes . . . . . . . . . . . . . . . .
4.4 Leitungskodierung . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Einfache Kodes . . . . . . . . . . . . . . . . . . . . .
4.4.2 Gruppenkodes . . . . . . . . . . . . . . . . . . . . .
4.5 Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 AES 3 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.2 AES 10 . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
47
48
52
52
52
53
55
57
58
60
65
67
69
70
73
73
74
75
75
76
77
77
79
79
81
Abbildungsverzeichnis
81
Tabellenverzeichnis
84
Literaturverzeichnis
85
Kapitel 1
Einleitung
Seit Ende der 70er Jahre findet im Audiobereich ein grundlegender Systemwandel mit
der Ablösung analoger Systeme durch digitale Technologien statt. Wesentliche Gründe
für diesen Wandel sind
• die überwiegend überlegenen technischen Übertragungseigenschaften digitaler Audiotechnologie (Frequenzgang, Verzerrungen, Signal-Rauschabstand, Gleichlauf)
• die Möglichkeit verlustlosen Kopierens und Archivierens digitaler Inhalte
• umfangreichere Möglichkeiten der Signalbearbeitung und Editierung
• der Preisverfall digitaler Hard- und Software im Vergleich zu hochwertiger analoger
Schaltungstechnik
• die Konvergenz digitaler Medien auf Seiten der Audioindustrie (technologische
Konvergenz) wie auf Seiten der Rezipienten (Konvergenz der Mediennutzung)
Der Einzug digitaler Übertragungssysteme fand etwa gleichzeitig im Bereich der Klangerzeuger (Synthesizer, Sampler, Drumcomputer, MIDI), der Effektgeräte (Delay, Nachhall)
und der Speichermedien statt (Tabelle 1.1). 1983 wurde mit MIDI (Musical Instrument
Digital Interface) ein Format für den Austausch von Steuerdaten zwischen Computern,
Synthesizern und Samplern etabliert, das den Produktionsvorgang v.a. in der Popmusik,
aber auch in der Elektronischen Musik und der Computermusik nachhaltig veränderte, da
es nicht eine Übertragung von Audiosignalen, sondern eine digital gesteuerte Gestaltung
des musikalischen Verlaufs selbst ermöglichte.
In den 1990er Jahren wurde eine Vielzahl neuer Speichermedien, Protokolle, Formate und
Bearbeitungsalgorithmen für digitale Audiosignale eingeführt. Durch die Entwicklung
immer höher integrierter Schaltungen erhöhte sich die Leistungsfähigkeit, durch das Zusammenwachsen verschiedener Medien (Bild, Ton, Schrift) erhöhte sich die produzierte
Stückzahl digitaler Hardware. Beides bewirkte einen Preisverfall digitaler Hard- und Software und damit eine technische Annäherung von professionellem und Consumer-Bereich.
5
6
KAPITEL 1. EINLEITUNG
Hardware
Klangerzeuger
NED Synclavier Synthesizer/Sampler
Fairlight CMI Synthesizer/Sampler
Linn LM-1 Drumcomputer/Sampler
E-MU Emulator I Sampling Keyboard
Yamaha DX-7 Syntheziser
Audiobearbeitung/Effekte
Lexicon Delta-T 101 Digital Delay
EMT 250 Digitaler Nachhall
Lexicon L224 Digitaler Nachhall
Tonträger/Editoren
PCM-1600 (U-matic)
Digitale Mehrspurrekorder (3M, Sony PCM 3324)
Sony DAE-1100 Umkopierschnittplatz
Compact Disc (CD)
Sony DAE-3000 Umkopierschnittplatz
Digital Audio Tape (DAT)
Sonic Solutions Harddisc Editing
MIDI Standard
Markteinführung
1979
1979
1980
1981
1983
1971
1976
1978
1978
1978
1980
1982
1987
1987
1988
1983
Tabelle 1.1: Einzug digitaler Signalverarbeitung im Tonstudiobereich
Im Bereich der Speichermedien wird immer mehr auf einheitliche Datenträger für multimediale Inhalte wie Harddisk oder optische Medien zurückgegriffen, für die Übertragung
werden zunehmend Computernetzwerke genutzt und der normale PC“ wird immer mehr
”
zum zentralen Werkzeug auch für die professionelle Audiotechnik. Aktuelle Entwicklungen im Bereich der digitalen Audiotechnik sind
• die Verlängerung der digitalen Übertragungskette durch die Entwicklung von Mikrofonen mit digitalen Ausgangssignalen und Lautsprechern, die digitale Eingangssignale verarbeiten
• die Weiterentwicklung von Wandler-, Kodierungs- und Speichertechnologie hin zu
höheren Wortbreiten und Abtastraten
• die Klangsynthese durch physikalische Modelle von realen oder imaginären Klangerzeugern
• die Steuerung von Audio-Wiedergabesystemen durch digitale Signalverarbeitung: durch digitale Frequenzweichen als IIR- oder FIR-Filter in MehrwegLautsprechern, zur Konfiguration von Line-Arrays bis hin zur Steuerung ganzer
Wiedergabesysteme (Wellenfeldsynthese, Ambisonics)
• die Erschließung neuer Übertragungs- und Vertriebskanäle durch digitalen Rundfunk, digitales Fernsehen, lokale Netzwerke und das Internet.
Kapitel 2
Grundlagen
2.1
Abtastung
Der Verlauf zeit- und wertekontinuierlicher Signale, wie der von einer Schallquelle erzeugte Schalldruck im Raum oder die von einem Mikrofon abgegebene Spannung, wird
als analog bezeichnet. Um solche Signale in einem Digitalrechner mit begrenztem Speicher ablegen und verarbeiten zu können, muss der Zeitverlauf diskretisiert, d.h. zu bestimmten Zeitpunkten abgetastet werden, so daß nur die einzelnen Amplitudenwerte zum
Abtastzeitpunkt gespeichert werden müssen. Die Frequenz dieser Abtastung wird Abtastrate (sampling rate) genannt. Abbildung 2.1 zeigt einen Ausschnitt eines kontinuierlichen (analogen) Signals und die resultierende Abtastfolge.
Abbildung 2.1: Kontinuierliches Signal (oben) und zugehörige Abtastfolge bei einer Abtastfrequenz von 50 Hz (unten)
7
8
KAPITEL 2. GRUNDLAGEN
Die Frequenzzuordnung eines abgetasteten Signals ist nicht eindeutig; so führen in dem
in Abbildung 2.2 dargestellten Beispiel alle Sinusschwingungen zu der gleichen Folge
von Abtastwerten.
Abbildung 2.2: Mehrere Sinusschwingungen unterschiedlicher Frequenz und Phase führen zu der
gleichen Folge von Abtastwerten
Abb. 2.3 stellt Sinusschwingungen der Frequenzen 1 kHz, 5 kHz, 7 kHz und 11 kHz und
die dazugehörigen Abtastwerte bei einer Abtastfrequenz von 6 kHz dar: die Frequenz der
resultierenden Abtastfolge ist in allen Fällen gleich.
Abbildung 2.3: Darstellung von analogem und abgetastetem Zeitverlauf von Sinusschwingungen
der Frequenzen 1 kHz, 5 kHz , 7 kHz und 11 kHz, die Abtastfrequenz ist 6 kHz; oben: kontinuierlicher Zeitverlauf, unten: abgetasteter Zeitverlauf
Diese Mehrdeutigkeit äußert sich im Spektrum des abgetasteten Signals durch eine mit
der Abtastfrequenz periodische Wiederholung des Originalsignals.
2.1. ABTASTUNG
9
Abbildung 2.4: Spektrum des kontinuierlichen Signals (schematisch, links) und der zugehörigen
Abtastfolge (rechts) mit Seitenbändern bei Vielfachen der Abtastfrequenz fS . Wird die Bandbreite
des Ausgangssignals nicht auf die Hälfte der Abtastfrequenz begrenzt, überlappen sich die Seitenbänder (unten)
Abb. 2.4 veranschaulicht diese Periodizität, aus der sich unmittelbar das sogenannte Abtasttheorem ergibt:
Ein abgetastetes Signal lässt sich ohne Informationsverlust rekonstruieren, wenn die
Abtastfrequenz fS mindestens doppelt so hoch ist wie die höchste im Signal vorkommende Frequenz fmax .
fS > 2fmax
Wird das Abtasttheorem verletzt, überlappen sich die periodisch fortgesetzten Spektren
und man spricht von Unterabtastung, d.h. es entstehen innerhalb der Bandbreite des Originalsignals Spiegelfrequenzen. Dieser Effekt wird als Aliasing bezeichnet. Zur Vermeidung solcher Aliasing-Artefakte muss das Eingangssignal so bandbegrenzt werden, dass
das Abtasttheorem erfüllt ist. Daher befindet sich vor jedem A/D-Wandler ein analoges
Tiefpassfilter, das alle Frequenzanteile oberhalb der halben Abtastfrequenz abschneidet
bzw. möglichst stark dämpft. Die Eigenschaften dieses Antialiasing-Filters beeinflussen
die Qualität des A/D-Wandlers.
Ein anschauliches Beispiel einer Unterabtastung im Visuellen findet man in
vielen Westernfilmen. Die Speichenräder einer Kutsche drehen sich mit der erwarteten Geschwindigkeit und Richtung, solange die Kutsche langsam fährt.
Übersteigt die Speichengeschwindigkeit allerdings die halbe Abtastfrequenz
10
der Kamera (24 Hz), so nimmt die wahrgenommene Geschwindigkeit des Rades wieder ab. Die unterabgetastete Drehung produziert eine Aliasingkomponente, die mit zunehmender Drehfrequzenz abnimmt. Wenn die Drehfrequenz
die Abtastfequenz erreicht, scheint das Rad stillzustehen.
Zur Rekonstruktion des analogen Signals aus dem digitalen Signal ist aufgrund der Periodizität des Spektrums ebenfalls ein Tiefpassfilter (Rekonstruktionsfilter) erforderlich,
das nur Signalfrequenzen unterhalb der halben Abtastfrequenz passieren läßt.
Abbildung 2.5: Notwendige Verarbeitungsschritte vor und nach der Abtastung eines Signals
Theoretisch ist ein unter Berücksichtigung des Abtasttheorems abgetastetes Signal in dem
in Abb. 2.5 dargestellten Ablauf fehlerfrei rekonstruierbar, wenn Filter und Abtastung
ideal sind.
2.2
Beschreibung von Zufallssignalen
Signale, die sich durch analytische Ausdrücke wie Sinus- oder Rechteckfunktionen beschreiben lassen, nennt man deterministische Signale, da sie einen vorhersagbaren Verlauf besitzen. In der Audiotechnik (ebenso wie in der Bildverarbeitung) hat man es in
der Regel mit nicht-deterministischen Signalen (stochastische Signale, Zufallssignale) zu
tun, deren Verlauf sich nicht durch einen mathematischen Ausdruck beschreiben lässt.
Dazu gehören Signale wie Musik und Sprache, die zwar durch die Physik ihrer Erzeuger
(Sprachtrakt, Musikinstrumente) determiniert sind, dies jedoch auf so komplexe Weise,
dass der Signalverlauf bereits für den Sender im Detail kaum vorhersagbar sind. Aus der
Sicht des Empfängers sind diese Signale in der Regel völlig unbekannt, sonst müssten Sie
ja nicht übertragen werden. Und tatsächlich ist der Informationsgehalt einer Nachricht ja
umso größer, je weniger sie für den Empfänger vorhersehbar ist. Eine zweite Klasse von
Zufallssignalen sind Störsignale, die durch stochastische Prozesse erzeugt werden, wie
Verstärkerrauschen oder thermisches Widerstandsrauschen.
Zur Beschreibung von Zufallssignalen im Hinblick auf Eigenschaften wie Mittelwerte,
Effektivwerte, Signalleistung oder Spektrum gibt es zwei Möglichkeiten. Man kann entweder von einem gemessenen Ausschnitt ausgehen und diesen wie ein deterministisches
2.2. BESCHREIBUNG VON ZUFALLSSIGNALEN
11
Abbildung 2.6: Zwei Klassen von Zufallssignalen. Rosa Rauschen (Zeitverlauf, links) und ein
Ausschnitt aus einem Sprachsignal (rechts)
Signal behandeln, d.h. die bekannten Ausdrücke etwa für den Effektivwert oder die Fouriertransformation auf die Messwerte anwenden. Allerdings wird man bei einer erneuten
Messung eines anderen Prozesses (ein anderes Sprachsignal, ein anderes Rauschsignal)
ein anderes Ergebnis erhalten, ebenso bei einer Messung desselben Prozesses zu einem
späteren späteren Zeit (einer anderen Silbe im Sprachsignal). Es ist also unklar, inwieweit
sich die Ergebnisse der Messung verallgemeinern lassen.
Eine andere Möglichkeit ist die Zuordnung von statistischen Mittelwerten zu einem Zufallssignal. Dies können Mittelwerte über die verschiedenen Ausprägungen (auch Realisationen oder Musterfunktionen) eines Zufallsprozesses sein, sog. Scharmittelwerte oder
Erwartungswerte, oder Mittelwerte über den Verlauf eines Zufallsignals entlang der
Zeitachse (Zeitmittelwerte). Inwieweit die beiden Vorgehensweisen zum gleichen Ergebnis führen, wird durch die im folgenden Abschnitt eingeführten Eigenschaften beschrieben.
2.2.1
Zufallsprozesse
Zufallsprozesse, deren statistische Eigenschaften sich mit der Zeit nicht verändern, nennt
man stationär. Während Störsignale wie thermisches Rauschen oder Widerstandsrauschen tatsächlich weitgehend stationär sind, gilt dies für Nutzsignale wie Musik und
Sprache - wenn überhaupt - nur für kurze Signalausschnitte wie stimmlose Frikative
12
oder Plosive. Wenn nicht alle statistischen Eigenschaften, sondern nur die Momente erster und zweiter Ordnung (s. Abschnitt XX) zeitinvariant sind, spricht man von schwach
stationären Prozessen.
Einen stationärer Zufallsprozess, bei dem die Zeitmittelwerte jeder Realisation mit den
Scharmittelwerten übereinstimmen, nennt man ergodisch. Auch diese Definition kann
man einschränken: Wenn die Übereinstimmung von Scharmitteln und Zeitmitteln nur für
die Momente erster und zweiter Ordnung gilt, spricht man von schwach ergodischen Prozessen.
In der Regel ist der Nachweis von Stationarität und Ergodizität nicht exakt zu führen,
und man begnügt sich mit einer intuitiven Anschauung. So ist es offensichtlich, dass das
Sprachsignal in Abb. ?? rechts weder stationär noch ergodisch ist, während man für ein
Rauschsignal wie in Abb. ?? links beide Eigenschaften annehmen kann. Letzteres hat den
praktischen Vorteil, dass man bei der Bestimmung von Erwartungswerten die Messung
vieler Realisationen durch die Mittelung einer Messung über die Zeit ersetzen kann.
2.2.2
Verteilung und Dichte
Die Zuordnung von Mittelwerten zu einem Zufallsprozess setzt die Kenntnis der Wahrscheinlichkeit voraus, mit der die stochastische Variable X einen Wert bzw. eine Signalamplitude x annimmt. Für diskrete Variablen ist dies die Einzelwahrscheinlichkeit
pi = P (X = xi )
(2.1)
0 ≤ pi ≤ 1
(2.2)
X
(2.3)
mit der Bedingung
und der Normierung
pi = 1
i
Für kontinuierliche Variablen X beschreibt die Wahrscheinlichkeitsdichtefunktion (WDF)
pX (x) die Wahrscheinlichkeit, dass die Variable X einen Wert zwischen x und x + dx
annimmt:
pX (x)dx = P (x < X ≤ x + dx)
(2.4)
pX (x) ≥ 0
(2.5)
mit der Bedingung
und der Normierung
Z
+∞
pX (x)dx = 1
−∞
(2.6)
13
Die Wahrscheinlichkeitsdichtefunktion pX (x) lässt sich aus der Messung von einzelnen
Realisationen schätzen oder aus theoretischen Annahmen über den zugrundeligenden Prozess ableiten.
2.2.3
Erwartungswerte und Momente
Der Erwartungswert einer Zufallsvariable X ist gegeben durch
Z +∞
f (x)pX (x)dx
E{f (X)} =
(2.7)
−∞
für kontinuierliche Variablen bzw.
E{f (X)} =
X
f (xi )pi
(2.8)
i
für diskrete Variable. Hierbei ist f (X) eine beliebige Funktion der Zufallsvariable X.
Insbesondere ergibt sich für f (X) = X der lineare Mittelwert
Z +∞
µX = E{X} =
xpX (x)dx = µX
(2.9)
−∞
für kontinuierliche Variablen bzw.
µX = E{X} =
X
xi p i
(2.10)
i
für diskrete Variablen.
Auf die doppelte Formulierung für diskrete und kontinuierliche Variablen X soll in Zukunft verzichtet werden, da sich die eine durch Austausch von Summe und Integral leicht
aus der anderen ableiten lässt.
Für f (X) = X 2 ergibt sich der quadratische Mittelwert
Z +∞
2
E{X } =
x2 pX (x)dx
(2.11)
−∞
Bei Signalen wie Strom, Spannung, Schalldruck oder Schallschnelle ist er ein Maß für
die mittlere Leistung des Signals. Allgemein bezeichnt man Ausdrücke der Form
Z +∞
k
µk = E{X } =
xk pX (x)dx
(2.12)
−∞
als Momente k-ter Ordnung. Oft interessiert jedoch nicht der Mittelwert selbst, sondern
die mittlere Abweichung vom linearen Mittelwert µX des Signals. Dieser ist durch die
Zentralmomente k-ter Ordnung gegeben mit
Z +∞
k
µk = E{X } =
(x − µX )k pX (x)dx
(2.13)
−∞
14
Das Zentralmoment 2. Ordnung (k = 2) mit
2
σX
2
Z
+∞
= E{(x − µX ) } =
(x − µX )2 pX (x)dx
(2.14)
−∞
2
heißt Varianz σX
der Zufallsvariablen X.
2.2.4
Verteilungsmodelle und Häufigkeiten
Im folgenden sollen einige Verteilungen vorgestellt werden, die häufig als Modelle für
reale Häufigkeitsverteilungen verwendet werden.
2.2.4.1
Rechteckverteilung
Eine Rechteckverteilung ist gegeben durch
1
x ∈ [X1 , X2 ]
X2 −X1
pX (x) =
0
sonst
(2.15)
Abbildung 2.7: Rechteckverteilung
Zahlreiche Prozesse wie der Quantisierungsfehler von A/D-Wandlern (s. Abschnitt 2.3)
können innerhalb gewisser Grenzen als gleichverteilt angenommen werden. Für das lineare Mittel, das quadratische Mittel und die Varianz einer rechteckverteilten Zufallsvariable
gilt dann
1
[X1 + X2 ]
2
1 2
E{x2 } =
[X1 + X1 X2 + X22 ]
3
1
2
σx =
(X2 − X1 )2
12
µX =
(2.16)
(2.17)
(2.18)
wie durch Einsetzen von 2.15 in 2.9, 2.11 und 2.14 leicht nachgerechnet werden kann.
2.2.4.2
15
Gaußverteilung
Eine Gaußverteilung ist gegeben durch
2
(x−µX )
−
1
2
pX (x) = √
e 2σX
2πσX
(2.19)
2
Sie wird parametrisiert durch ihren Mittelwert µX und ihre Varianz σX
. Das quadratische
Mittel ergibt aus sich aus 2.11 und 2.19 zu
2
E{x2 } = σX
+ µ2X
2.2.4.3
(2.20)
Exponentialverteilung
Eine einseitige Exponentialverteilung ist gegeben durch
(
x
1 − σX
e
x>0
σX
pX (x) =
0
sonst
(2.21)
2
Sie wird parametrisiert durch ihre Varianz σX
. Lineares und quadratisches Mittel ergeben
sich zu
µX = σX
2
E{x2 } = 2σX
2.2.4.4
(2.22)
(2.23)
Laplaceverteilung
Die zweiseitige Exponentialverteilung oder Laplaceverteilung ist gegeben durch
pX (x) = √
√ |x−µ |
1
− 2 σ X
X
e
2σX
(2.24)
2
Sie wird parametrisiert durch ihren Mittelwert µX und ihre Varianz σX
. Das quadratische
Mittel ergibt sich analog zu 2.20 als Summe von Varianz und linearem Mittelwert im
Quadrat.
2.2.5
Korrelation und Leistungsdichte
Die Autokorrelationsfunktion (AKF) eines Signals x(t) ist definiert durch
ϕxx (t1 , t2 ) = E{x(t1 )x(t2 )}
(2.25)
Sie ist ein Erwartungswert 2. Ordnung, da sie von der Signalamplitude zu zwei verschiedenen Zeitpunkten t1 und t2 abhängt. Für stationäre Zufallsprozesse hängen die Erwartungswerte 2. Ordnung nicht von den konkreten Zeitpunkten t1 und t2 ab, sondern nur
16
Abbildung 2.8: Gaußverteilungen (oben), Exponentialverteilung (mitte) und Laplaceverteilung
(unten)
von der Differenz τ = t1 − t2 . Falls diese Bedingung nicht für alle Erwartungswerte 2.
17
Ordnung, sondern nur für die AKF erfüllt ist, spricht man von einem schwach stationären
Prozess. In diesem Fall gilt
ϕxx (τ ) = E{x(t − τ )}
(2.26)
Die Autokorrelationsfunktionen hatte einige charakteristische Eigenschaften. Zum einen
hat sie eine gerade Symmetrie, d.h.
ϕxx (τ ) = ϕxx (−τ )
(2.27)
Dies ergibt sich unmittelbar aus der Definition schwach stationärer Prozesse, wie sich
0
durch Substitution mit t = t + τ zeigen lässt:
E{x(t)x(t + τ )} = E{x(t0 − τ )x(t0 )} = E{x(t0 )x(t0 − τ )}
(2.28)
Zum anderen hat die AKF ihr Maximum immer bei τ = 0. Das bei der Bildung der AKF
zu berechnende Produkt x(t)x(t − τ ) kann bei Wechselgrößen positive oder negative
Werte annehmen, ebenso wie der daraus gebildete Erwartungswert ϕxx (τ ). Indem man
die sicher positive Größe
E{(x(t)x(t − τ ))2 } = ϕxx (0) − 2ϕxx (τ ) + ϕxx (0) ≥ 0
(2.29)
betrachtet, ergibt sich unmittelbar
ϕxx (τ ) ≤ ϕxx (0)
(2.30)
Ihr Maximum nimmt die AKF somit für τ = 0 an, wo x(t)x(t − τ ) = x(t)2 . ϕxx (0)
entspricht also dem quadratischen Mittelwert der Variablen X und ist ein Maß für die
Leistung des Zufallsprozesses X.
Zur Beschreibung von Zufallssignalen im Spektralbereich transformiert man nicht das
Signal selbst in den Frequenzbereich, da das Fourierintegral
Z +∞
X(ω) =
x(t)e−jωt dt
(2.31)
−∞
in der Regel nur exisistiert, wenn x(t) absolut integrierbar ist, d.h.
Z +∞
| x(t) | dt < ∞
(2.32)
−∞
Da dies für stationäre Zufallsprozesse, die für t → ∞ nicht abklingen, nicht der Fall ist,
bildet man zunächst den Erwartungswert im Zeitbereich und transformiert diese - dann
deterministische - Größe in den Frequenzbereich.
So definiert man das Leistungsdichtespektrum (LDS) als Fouriertransformierte der Autokorrelationsfunktion, d.h.
Sxx (ω) = F {ϕxx (τ )}
(2.33)
18
Damit ist
ϕxx (τ ) = F
−1
1
{Sxx (ω)} =
2π
+∞
Z
Sxx (ω)ejωτ dω
(2.34)
−∞
und für den quadratischen Mittelwert von x(t) gilt dann
Z +∞
1
2
E{x(t) } = ϕxx (0) =
Sxx (ω)dω
2π −∞
(2.35)
Das LDS ist eine rein reelle Funktion. Dies lässt sich aus den Symmetrieeigenschaften der
AKF ableiten. Bis auf den Faktor 1/2π entspricht die Signalleistung dem Integral des LDS
über den gesamten Frequenzbereich. Sxx (ω) beschreibt somit die Verteilung der Leistung
des Signals in unendlich vielen infinitesimal kleinen Frequenzbändern der Breite dω.
Für diskrete Zufallssignale x(n) gilt entsprechend
ϕxx (l) = E{x(n)x(n − l)}
(2.36)
und
ϕxx (l) = F
−1
1
{Sxx (Ω)} =
2π
Z
+π
Sxx (Ω)ejΩl dΩ
(2.37)
−π
mit
1
ϕxx (0) =
2π
2.3
Z
+π
Sxx (Ω)dΩ
(2.38)
−π
Quantisierung
Ebenso wie ein digitales Signal keinen kontinuierlichen Zeitverlauf haben kann, kann
es auch keinen kontinuierlichen Amplitudenverlauf besitzen, da nur diskrete Werte abgespeichert werden können. Die für die Digitalisierung notwendige Amplitudendiskretisierung (Quantisierung) wird durch die Quantisierungskennlinie beschrieben. Sie entspricht einer Treppenfunktion mit der Schrittweite bzw. dem Quantisierungsintervall ∆.
Bei der Darstellung des Amplitudenwerts durch einen binären Zahlenwert bestimmt die
Wortbreite, d.h. die Zahl der Bits pro Zahlenwert, die Zahl der Quantisierungsstufen
und damit die Auflösung des Quantisierers. Bei einer Wortbreite von 16 Bit sind somit 216 = 65536 Quantisierungsstufen möglich. Bei einem Aussteuerungsbereich von
-2V bis 2V entspricht in diesem Fall ein Quantisierungsintervall ∆ einer Spannung von
4V /65536 = 61µV .
Abb. 2.9 zeigt eine Quantisierungskennlinie und den Quantisierungsfehler in
Abhängigkeit des Eingangswertes. Der Quantisierungsfehler hat bei nicht übersteuerten
Signalen maximal den Betrag ∆/2.
2.3. QUANTISIERUNG
19
Abbildung 2.9: links: Kennlinie des Quantisierers, rechts: Quantisierungsfehler in Abhängigkeit
der Eingangsamplitude
Im Audiobereich wird üblicherweise eine sogenannte mid-tread“-Kennlinie verwendet,
”
die auch dem Amplitudenwert 0 eine Quantisierungsstufe zuordnet und aus diesem Grund
nicht symmetrisch ist, sondern im negativen Amplitudenbereich eine Quantisierungsstufe
mehr besitzt (bei 16 Bit Wortbreite könnten dann Werte von -32768 bis 32767 dargestellt
werden). Bei den im Audiobereich typischen, hohen Wortbreiten kann diese Asymmetrie
vernachlässigt werden.
Während sich die bei der Abtastung eines Signals verlorenen Signalanteile unter den genannten Voraussetzungen zumindest theoretisch wieder vollständig rekonstruieren lassen,
ist dies im Falle der Quantisierung nicht möglich. Bei jeder Quantisierung wird unvermeidlich ein Fehler gemacht, der Quantisierungsfehler q(n). Er ist die Differenz zwischen
quantisiertem Signal xQ (n) und Originalsignal x(n) zu einem beliebigen Abtastzeitpunkt
n. Die Quantisierung lässt sich somit als Addition eines Fehlersignals q(n) zum Eingangssignal x(n) beschreiben (s. Abb. 2.10).
Abbildung 2.10: Quantisierungsvorgang
Abb. 2.11 zeigt den Quantisierungsfehler eines mit 4 Bit quantisierten, optimal ausgesteuerten Sinussignals.
Aus der Kennlinie (Abb. 2.9) ergibt sich die Amplitude des Quantisierungsfehlers in
Abhängigkeit von der Amplitude des Eingangssignals.
Das Ausmaß des durch die Quantisierung induzierten Fehlers wird üblicherweise
durch den Signalrauschabstand (Signal-to-Noise-Ratio SNR) beschrieben, der als Pegelverhältnis von Signalleistung WS zu Fehlerleistung WF berechnet wird.
20
Abbildung 2.11: links oben: das kontinuierliche Originalsignal; rechts oben: das mit einer
Auflösung von 4 Bit quantisierte Signal; unten: der dabei gemachte Quantisierungsfehler
WS
(2.39)
WF
Der Quantisierungsfehler ist, ebenso wie das Anregungssignal (Musik, Sprache), durch
das er induziert wird, ein stochastisches Signal. Seine Leistung ergibt sich somit aus der
Wahrscheinlichkeitsdichtefunktion der Amplitude des Fehlersignals. Sie wird auch als
Amplitudendichteverteilung (ADV) bezeichnet und gibt für jeden möglichen Amplitudenwert die zugehörige Auftretenshäufigkeit an. Für einen gut ausgesteuerten Quantisierer
kann ein Quantisierungsfehler mit gleichverteilter Amplitudendichteverteilung angenommen werden, d.h. dass alle möglichen Amplitudenwerte mit gleicher Wahrscheinlichkeit
auftreten.
SN R = 10 · log10
Abbildung 2.12: Amplitudendichteverteilung des Quantisierungsfehlers
2.3. QUANTISIERUNG
21
Da der mögliche Wertebereich des Fehlers −∆/2 bis ∆/2 ist und die Summe aller Wahrscheinlichkeiten den Wert 1 ergeben muss (s. Gl. 2.3), ist somit die Auftretenswahrscheinlichkeit jedes einzelnen Amplitudenwertes 1/∆. Abb. 2.12 zeigt die gleichverteilte ADV
des Quantisierungsfehlers. Die ADV eines typischen Audiosignals ist in Abb. 2.13 dargestellt.
Abbildung 2.13: typische Amplitudendichteverteilung eines Musiksignals (linker und rechter Kanal)
Andererseits kann der Quantisierungsfehler als weißes Rauschen angenommen werden,
so dass alle Frequenzen gleichstark vertreten sind. Die Leistung des Fehlers q lässt sich
aus seiner ADV über das in Gl. 2.40 angegebene Integral berechnen:
−
Z∆/2
Z+∞
∆2
1
q 2 pQ (q)dq =
WF =
q 2 dq =
∆
12
−∞
(2.40)
∆/2
Legt man als Nutzsignal ein vollausgesteuertes Sinussignal zugrunde mit der resultierenden Leistung
(∆ · 2w−1 )2
2
so ergibt sich für den Signalrauschabstand (SNR) ein Wert von
WS =
WS
)
WF
∆2 · 22w−2 12
= 10 · log10 (
· 2)
2
∆
3 2w
= 10 · log10 ( · 2 )
2
= 6.02 · w + 1.76 [dB]
(2.41)
SN R = 10 · log10 (
(2.42)
Somit ergibt sich ein theoretischer SNR aufgrund des Quantisierungsfehlers von etwa 98
dB (16 bit), 122 dB (20 bit) bzw. 146 dB (24 bit). Ein vollausgesteuertes Sinussignal wird
22
z.B. als Testsignal zur Messung des SNR von realen Wandlern benutzt. Abweichungen
des Messwerts (der auch bei 24-bit-Wandlern real selten höher als 100 dB liegt) von den
nach Gl. (2.42) berechneten Werten weisen dann auf Fehler des Wandlers hin.
Bezieht man den Quantisierungsfehler nicht auf ein sinusförmiges Testsignal, sondern auf
die Amplitudenverteilung eines Musiksignals, die typischerweise eine annähernd gaußoder laplaceverteilte ADV aufweist (Abb. 2.13), liegt auch der theoretische SNR um etwa
10 dB unter dem nach Gl. (2.42) berechneten Wert.
Abbildung 2.14: theoretisch erreichbarer Signalrauschabstand eines Quantisierers mit der Wortbreite 16 Bit in Abhängigkeit von der Aussteuerung eines sinusförmigen Eingangssignals
Der oben hergeleitete SNR ist der maximale SNR bei Vollaussteuerung. Abb. 2.14 zeigt
den bei einer Wortbreite von 16 Bit theoretisch erreichbaren SNR in Abhängigkeit der
Amplitude eines sinusförmigen Eingangssignals. Unter den genannten Bedingungen kann
der Quantisierungsfehler als weißes Rauschen angenommen werden, d.h. jede Frequenz
ist in dem Fehlersignal gleichstark vertreten. Übersteigt der Maximalwert des zu quantisierenden Signals allerdings die Maximalaussteuerung des Quantisierers, so tritt eine
Übersteuerung (Clipping) auf, das zu einer drastischen Verschlechterung des SNR und
zu nichtlinearen Verzerrungen führt, die in Abb. 2.15 für ein sinusförmiges Signal dargestellt sind. Durch Entwicklungsfehler kann bei einer Übersteuerung auch ein sogenannter
Wrap-Around vorkommen. In diesem Fall werden Amplitudenwerte außerhalb des Wertebereichs nicht wie beim Clipping abgeschnitten, sondern durch die Verwendung eines
vorzeichenbehafteten Zahlenformats (2er-Komplement, s. Abschn. 2.8) am entgegengesetzten Ende des Wertebereichs eingefügt. Der Wrap-Around führt zu starken Verzerrungen (s. Abb. 2.15), tritt allerdings nur selten auf.
2.4
Dither
Eine niedrige Aussteuerung des Eingangssignals führt nicht nur zu einem geringeren
Signal-Rauschabstand, sondern kann einen weiteren unerwünschten Effekt haben: Das
Quantisierungsrauschen ist nicht mehr weiß wie bei guter Aussteuerung, sondern ist korreliert mit dem Eingangssignal. Insbesondere bei niedriger Aussteuerung und tiefen Eingangssignalfrequenzen sind die Voraussetzungen für eine gleichförmig verteilte Amplitu-
2.4. DITHER
23
Abbildung 2.15: nichtlineare Verzerrungen bei Übersteuerung eines Quantisierers, links oben:
optimal ausgesteuertes Sinussignal, rechts oben: dazugehöriges Spektrum (dB), links mitte:
übersteuertes Sinussignal (ursprüngliche Amplitude 1.4), rechts mitte: dazugehöriges Spektrum
(dB), links unten: übersteuertes Sinussignal mit Wrap-Around, rechts unten: dazugehöriges Spektrum (dB)
dendichte des Quantisierungsfehlers nicht mehr gegeben. Abbildung 2.16 illustriert dies
für ein mit drei Stufen quantisiertes Signal. Der Quantisierungsfehler ist in diesem Fall
kein Rauschen, sondern ein periodisches Signal, das wie eine Verzerrung des Eingangssignals klingt. Auch bei mittleren Wortbreiten kann dieser Effekt, z.B. beim leisen Ausklang
eines Musiksignals, hörbar werden.
Die Korrelation zwischen Signal und Quantisierungsfehler kann aufgehoben werden, indem vor dem Quantisierungsprozess ein Zufallssignal, z.B. weißes Rauschen addiert wird.
Dieses Rauschen wird Dither genannt. Zunächst naheliegend scheint die Annahme, dieses
Rauschen müsste so stark sein, dass es die o.g. Verzerrungen akustisch verdeckt; das muss
aber nicht der Fall sein. Vielmehr genügt ein schwaches Rauschen, das die deterministische Abfolge der angesprochenen Quantisierungsstufen in eine zufällige überführt. So
24
Abbildung 2.16: Von oben nach unten: Eingangssignal, 3-stufig quantisiertes Eingangssignal,
Quantisierungsfehler, Spektrum des quantisierten Signals. Links: Ohne Dither. Rechts: Mit Dither
würde für eine Gleichspannung von 1,3 mV am Eingang des Quantisierers, die in 1 mVSchritten quantisiert wird, das Ausgangssignal bei ungedithertem Eingang konstant bei 1
mV liegen. Wird das Eingangssignal hingegen ausreichend gedithert, so wird es manchmal bei 2 mV, häufiger bei 1 mV und sehr selten bei anderen Quantisierungswerten liegen.
Tatsächlich wird aber der Mittelwert des Ausgangssignals 1,3 mV betragen; im zeitlichen
Mittel ist also die geditherte Quantisierung genauer, da beliebige Quantisierungswerte
möglich gemacht werden. Dithering wird auch im Bildbereich eingesetzt. Hier lässt sich
die Wirkung anhand eines visuellen Beispiels veranschaulichen. Hält man sich eine Hand
mit leicht geöffneten Fingern vor die Augen, so wird ein Großteil des Gesichtsfeldes von
den Fingern abgedeckt, und nur durch die Zwischenräume lässt sich etwas erkennen. Bewegt man diese Hand allerdings sehr schnell, so lassen sich - wenn auch etwas undeutlich
2.4. DITHER
25
- auch die Bereiche erkennen, die zuvor von den Fingern verdeckt waren. Die durch die
Nichtlinearität der Quantisierungskennlinie hervorgerufenen Verzerrungen treten sowohl
bei der Analog-Digital-Wandlung auf als auch bei der Requantisierung digitaler Signale, wie sie bei Formatwandlung, Speicherung oder bei Signalverarbeitungsprozessen vorkommt. Auf digitaler Ebene wird das Dithering durch Addition einer Zufallsfolge d(n)
zum Eingangssignal x(n) vor der Requantisierung vorgenommen (Abbildung 2.17). Die
Amplitude des Dithers wird dabei meist in Einheiten des Quantisierungsintervalls nach
der Requantisierung angegeben (vgl. Abb. 2.18 und 2.21). Dies entspricht dem vom letzten Bit (Least Significant Bit) geschalteten Amplitudenintervall und wird daher auch in
Einheiten von LSB angegeben.
Abbildung 2.17: Requantisierung mit Dithering durch eine Zufallsfolge d(n)
Die ADV des verwendeten Ditherrauschens (s. Abb. 2.18) ist von grundlegender Bedeutung. So lassen sich mit einem Rauschen mit rechteckförmiger ADV zwar bei der Quantisierung auftretende Nichtlinearitäten beseitigen, allerdings tritt hierbei der unerwünschte
Effekt einer sog. Rauschmodulation auf.
Abbildung 2.18: Dither mit rechteckförmiger (RECT), dreieckförmiger (TRI) und gaußförmiger
Amplitudendichteverteilung. Die beiden ersteren Verteilungsdichten lassen sich leicht durch digitale Zufallsfolgen erzeugen, analoge Rauschquellen erzeugen typischerweise eine gaußförmige
Verteilung.
Die Linearisierung der Quantisierungskennlinie und die dabei auftretende Abhängigkeit
der Rauschleistung von der Amplitude des Eingangssignals (Rauschmodulation) lassen sich am einfachsten anhand einer digitalen Requantisierung veranschaulichen. Abb.
2.19 zeigt die mittlere Ausgangsamplitude gm (V ) und die mittlere Rauschamplitude
dR (V ) für ein von 20-Bit- auf 16-Bit-Wortbreite konvertiertes (requantisiertes) Signal
in Abhängigkeit von der Eingangsamplitude V. Der Dither bewirkt eine Linearisierung
der Kennlinie: Die treppenförmige Kennlinie mit der Stufenhöhe ∆ wird durch eine feinere Abstufung für den mittleren Ausgangswert gm (V ) ersetzt. Links der Verlauf für
26
ein mit 20-Bit-Wortbreite erzeugtes, rechteckförmig verteiltes Dithersignal, dessen Maximalamplitude der Hälfte des nach der Requantisierung erreichten Quantisierungsintervalls Q entspricht (vgl. Abb. 2.19). Als bipolares Rauschsignal mit positiven und negativen Amplituden hat es eine Spitze-Spitze-Amplitude von 1 LSB. Rechts der entsprechende Verlauf für ein dreieckförmig verteiltes Dithersignal mit 2 LSB Spitze-SpitzeAmplitude. Der Dither sorgt in beiden Fällen dafür, dass die mittlere Ausgangsamplitude gm (V ) die ursprüngliche Auflösung von 20 Bit (angezeigt durch eine Treppenkurve mit 16 Stufen innerhalb des neuen Quantisierungsintervalls Q) erhält. Obwohl das
requantisierte Signal, bezogen auf ein Quantisierungsintervall Q nur noch die Werte 0
und 1 enthalten kann, entsprechen im zeitlichen bzw. statistischen Mittel die geditherten
und quantisierten Werte den ursprünglichen, höher aufgelösten Werten. Der Unterschied
der beiden Dither-Typen zeigt sich bei einer Betrachtung des nach der Requantisierung
durch den Dither induzierten Rauschens. Es kann, wie bereits zu Beginn eingeführt, als
Differenz von quantisiertem und unquantisiertem Signal behandelt werden. Für ein genau auf die Ecken der Quantisierungskennlinie fallendes Eingangssignal (in Abb. 2.19
bei V = 0 und V = 1) bewirkt ein rechteckförmig verteiltes Dithersignal im Bereich [0,5 LSB;+0,5 LSB] keine zusätzlichen Quantisierungsübergänge, das geditherte Signal
wird immer auf den ursprünglichen Wert zurückgerundet“. Für Eingangsamplituden an
”
den Rändern des Quantisierungsintervalls wird die durch den Dither eingeführte Rauschleistung durch die Requantisierung eliminiert, und es tritt keinerlei Rauschen auf. Die
Rauschleistung steigt bis zur Mitte des Quantisierungsintervalls an, wo bereits geringe
Ditheramplituden zusätzliche Quantisierungsübergänge und damit zusätzliches Rauschen
bewirken. Diese Abhängigkeit der Rauschleistung am Ausgang des Quantisierers von der
Amplitude des Eingangssignals wird als Rauschmodulation bezeichnet. Insbesondere bei
geringen Signalamplituden, wo das Quantisierungsrauschen nicht generell durch das Nutzsignal maskiert wird, kann sie sich als Pumpen“ bemerkbar machen, wie eine vom Ein”
gangssignal abwechselnd ein- und ausgeschaltete Rauschquelle. Geschieht dies schnell,
wird dem Signal eine störende Körnigkeit“ oder Granularität“ hinzugefügt. Der Effekt
”
”
der Rauschmodulation lässt sich durch ein dreieckförmig verteiltes Dithersignal mit Amplituden im Bereich [-1 LSB; +1 LSB] vermeiden. Hier werden, unabhängig von der
Amplitude des Eingangssignals, stets zusätzliche Quantisierungsübergänge erzeugt, die
dreieckförmige Verteilung des Dithers garantiert einen über die Amplitude konstanten Erwartungswert der durch den Dither induzierten Rauschleistung. Für eine mathematische
Analyse s. [Zöl05].
Das Dithersignal lässt sich auf digitaler Ebene durch einen Zufallszahlengenerator erzeugen. Durch Zufallszahlen mit gleichverteilter Amplitudenhäufigkeit d(n) ergibt sich
ein Signal mit rechteckförmiger Amplitudendichteverteilung dRECT (Rectangular Dither).
Durch Addition zweier unabhängiger, gleichverteilter Zahlenfolgen ergibt sich ein Signal mit dreieckförmiger ADV dT RI (Triangular Dither). Bei einer Subtraktion aufeinanderfolgender Abtastwerte des erzeugten Rauschens erhält man ein hochpassgefiltertes Rauschsignal gleicher ADV, was in den meisten Fällen zu einer subjektiven Qualitätsverbesserung führt, da die Rauschleistung etwas aus dem Hörbereich herausgeschoben wird.
2.4. DITHER
27
Abbildung 2.19: Digitale Requantisierung mit bipolarem RECT Dither (links) und TRI Dither
(rechts). Dargestellt ist der Verlauf des Erwartungswerts des requantisierten Signals (mittlerer Ausgangswert) gm (V ) und die mittlere quadratische Abweichung (Varianz) von diesem Wert dR (V ),
jeweils über der Eingangsamplitude V innerhalb eines Quantisierungsintervals Q.
dRECT (n) = d(n)
dT RI (n) = d1 (n) + d2 (n)
dHP (n) = d(n) − d(n − 1)
(2.43)
(2.44)
(2.45)
Abbildung 2.20 zeigt Zeitverläufe, Amplitudendichteverteilungen und Spektren von
gleich- und dreieckförmig verteiltem Rauschen sowie dreieckförmig verteiltem hochpassgefiltertem Rauschen. Analoge Rauschsignale weisen näherungsweise eine gaußförmige
ADV auf.
Die Verwendung unterschiedlicher Ditherformen führt zu unterschiedlichem Pegel des in
das Signal eingefügten Rauschens. Der Rauschpegel von gleichförmig verteiltem RECTDither hat eine ADV, die dem Quantisierungsfehler selbst entspricht und dementsprechend eine Leistung von ∆2 /12. Bei dreieckförmigem TRI-Dither addiert sich die Leistung zweier gleichverteilter Rauschsignale zu einer Gesamtleistung von ∆2 /6. Entsprechend verringern sich die Signal-Rauschabstände für ein sinusförmiges Eingangssignal
bei der (Re)Quantisierung gegenüber (2.46) auf
SN RRECT = 6.02 · w − 1.24 [dB] RECT Dither
SN RT RI = 6.02 · w − 3 [dB] TRI Dither
(2.46)
(2.47)
28
Abbildung 2.20: Zeitverläufe (oben), Amplitudendichteverteilungen (Mitte) und Spektren (unten)
von gleichverteiltem Rauschen (links), dreieckförmig verteiltem Rauschen (Mitte) sowie hochpassgefiltertem dreickförmig verteiltem Rauschen (rechts)
Im Hinblick auf die Linearität der Quantisierungskennlinie bei gleichzeitig minimaler
und vom Eingangspegel unabhängiger Rauschleistung (keine Rauschmodulation) erweist
sich dreieckverteilter Dither mit einer Spitze-Spitze-Amplitude von 2 LSB (bezogen
auf das bei der Quantisierung gegebene Quantisierungsintervall) als optimal [VL89],
[LWV92]. Der Preis ist in diesem Fall ein um 4.76 dB reduzierter Signal-Rauschabstand
gegenüber der Quantisierung ohne Dither. Digitale Audioworkstations, die intern mit
hoher Amplitudenauflösung wie 32-Bit-Fließkommadarstellung arbeiten, bieten meist
die Möglichkeit, die Requantisierung auf ein Ausgabeformat von 16-Bit- oder 24-BitFestkomma-Darstellung mit verschiedenen Dither-Intensitäten und -Formen oder wahlweise mit einem Noise-Shaping-Algorithmus durchzuführen (Abb. 2.21, zum NoiseShaping s. Abschn. 2.6).
2.5. ÜBERABTASTUNG
29
Abbildung 2.21: Typische Dithering-Einstellung in einer digitalen Audioworkstation für die Requantisierung von interner 32-Bit-Fließkommadarstellung auf Festkommadarstellung mit reduzierter Auflösung von 8, 16 oder 24 Bit
2.5
Überabtastung
Um die Qualität einer Digitalisierung zu verbessern, wird oftmals mit sog. Überabtastung
(Oversampling) gearbeitet. Überabtastung bedeutet, dass das Audiosignal zunächst mit
einer höheren Frequenz abgetastet wird, als nach dem Abtasttheorem erforderlich und anschließend auf die am Ausgang des Wandlers geforderte Abtastfrequenz konvertiert wird.
Es existieren zwei Gründe für diese Verfahrensweise. Der erste Grund ist die effiziente technische Realisierung: Um maximale Audiobandbreite bis nah an die halbe Abtastfrequenz ohne aufwändiges (weil steilflankiges) Antialiasingfilter realisieren zu können,
wird die Abtastrate so hochgesetzt, dass ein einfaches Antialiasingfilter mit moderater
Flankensteilheit ausreicht, um das Abtasttheorem zu erfüllen. Anschließend wird das Signal im digitalen Bereich tiefpassgefiltert, so dass es die Anforderungen des Abtasttheorems für die ursprünglich gewünschte Abtastfrequenz erfüllt. Dieses Vorgehen hat einen
erwünschten Nebeneffekt, welcher der zweite Grund für die temporäre Erhöhung der
Abtastfrequenz ist: der Signal-Rauschabstand kann verbessert werden. Das ist zunächst
überraschend, da die Abtastrate im Grunde lediglich die Bandbreite des digitalisierten
Signals beeinflusst, nicht den SNR. Zwei wichtige Eigenschaften des Quantisierungsrauschens helfen jedoch bei einer Erklärung:
• Die Gesamtleistung des Quantisierungsrauschens ist unabhängig von der Abtastfrequenz.
30
• Das Quantisierungsrauschen ist näherungsweise weißes Rauschen, dessen Leistung
über die gesamte Bandbreite des Signals gleichmäßig verteilt ist.
Wenn also die Gesamtleistung des Quantisierungsfehlers gleich bleibt, obwohl die Abtastfrequenz erhöht wird, dann wird bei Erhöhung der Abtastfrequenz die durchschnittliche Leistung des Fehlers in einem festen Frequenzbereich sinken, da die Gesamtleistung
des Quantisierungsrauschens sich über einen größeren Frequenzbereich erstrecken kann.
Wendet man anschließend das oben genannte digitale Antialiasingfilter an, so wird der
Anteil des Quantisierungsrauschens über der endgültigen halben Abtastfrequenz heraus”
gefiltert“, und der SNR steigt. Man gewinnt mit solchen Oversamplingverfahren pro Frequenzverdopplung ca. 3 dB Signal-Rauschabstand. Abbildung 2.22 zeigt die Leistung des
Quantisierungsfehlers im Normalfall und bei einem Oversamplingfaktor L, der sich aus
dem Verhältnis von erhöhter zu gewünschter Abtastfrequenz bestimmt.
Abbildung 2.22: Quantisierungsfehlerleistung ohne Oversampling (hellgrau) und nach L-fachem
Oversampling (weiß) und Tiefpassfilterung (dunkelgrau)
2.6
Noise-Shaping
Noise-Shaping ist wie das Dithering eine Methode, die Qualität eines Wandlers oder einer
Wortbreitenkonvertierung zu erhöhen. Der Quantisierungsfehler, der bei normaler Quantisierung näherungsweise ein weißes Spektrum hat, wird dabei spektral geformt. Idealerweise wird die Rauschleistung von Frequenzbereichen hoher Gehörempfindlichkeit (wie z.B.
2-4 kHz) in Bereiche geringerer Empfindlichkeit verschoben (zumeist hohe Frequenzbereiche). Diese Frequenzverschiebung wird durch eine Rückkopplung (und Filterung) des
Quantisierungsfehlers erreicht. Je nachdem, wieviele Koeffizienten das Filter für diese
Rückkopplung hat, spricht man von Noise-Shaping verschiedener Ordnungen.
Im Fall von Noise-Shaping erster Ordnung (s. Abb. 2.23) wird der Quantisierungsfehler
festgestellt und vom darauffolgenden Sample subtrahiert, es handelt sich also um eine
einfache Rückkopplung ohne dedizierte Filterung des Quantisierungsfehlers. Durch die
Rückkopplung entsteht eine Verschiebung des Quantisierungsfehlers hin zu höheren Frequenzen.
2.6. NOISE-SHAPING
31
Quantisierer
e(n)
x(n)
- +m
6
?
r - +m r
y(n)
-
-- +m
z −1 Abbildung 2.23: Noise-Shaping 1. Ordnung
Jeder Ausgangswert y(n) ist daher die quantisierte Differenz von aktuellem Eingangswert
x(n) und vorhergehendem Quantisierungsfehler q(n). Dadurch ergibt sich ein Filter mit
der Differenzengleichung
y(n) = [x(n) − q(n − 1)]Q
= x(n) − q(n − 1) + q(n)
(2.48)
Die Übertragungsfunktion läßt sich aus der Differenzengleichung mit der zTransformation (s. z.B. Skript: Einführung in die digitale Signalverarbeitung) bestimmten.
Mit dieser ergibt sich im z-Bereich die Gleichung
Y (z) = X(z) − z −1 · Q(z) + Q(z)
= X(z) + (1 − z −1 ) · Q(z)
(2.49)
und somit eine Rauschübertragungsfunktion HQ (z) = 1 − z −1 . Der Betragsfrequenzgang
dieser Übertragungsfunktion besitzt einen sinusförmigen Verlauf und bewirkt eine spektrale Formung des Quantisierungsrauschens, die Anteile unterhalb von fS /6 dämpft
und Anteile oberhalb von fS /6 verstärkt (Abb. 2.24). Die Übertragungsfunktion des
Nutzsignals x(n) ist sowohl in Betrag als auch Phase konstant. Wird das einzelne
Verzögerungsglied im Rückkopplungszweig in Abb. 2.23 durch eine kompliziertere Funktion ersetzt, so erhält man Noise-Shaping höherer Ordnungen. Im einfachsten Fall handelt
es sich bei höherer Ordnung ebenfalls um ein Hochpaßfilter, dessen Steilheit mit der Ordnung zunimmt. Abb. 2.24 zeigt die Betragsfrequenzgänge für Noise-Shaping erster bis
vierter Ordnung.
Bei höheren Ordnungen lassen sich auch spezielle Rauschübertragungsfunktionen bilden,
die komplexere spektrale Verschiebungen des Quantisierungsfehlers ermöglichen; auf diese Weise ist die unterschiedliche Gewichtung verschiedener Frequenzbereiche denkbar.
Manche Systeme formen beispielsweise die Rauschübertragungsfunktion so, daß sie die
frequenzabhängige Empfindlichkeit des menschlichen Gehörs nachbildet.
32
Abbildung 2.24: Betragsfrequenzgang Noise-Shaping verschiedener Ordnungen
Noise-Shaping wird meistens in Zusammenhang mit Dither verwendet, um unerwünschte
Effekte bei der Rückkopplung des Quantisierungsfehlers zu vermeiden. Hierbei wird das
Ditherrauschen direkt vor der Quantisierung eingefügt.
2.7
Delta-Sigma-Modulation
Bei der Delta-Sigma-Modulation wird der entstehende Quantisierungsfehler wie beim
Noise-Shaping spektral geformt. Dies geschieht durch Integrierung der Differenz zwischen Eingangssignal und quantisiertem Signal. Das Modell eines Delta-Sigma-Modulators 1. Ordnung ist in Abb. 2.25 dargestellt.
Quantisierer
q(n)
x(n)
- +m
6
R
?
- +m r
y(n)
-
z −1 Abbildung 2.25: Delta-Sigma Modulator 1. Ordnung
2.8. ZAHLENDARSTELLUNG UND ZAHLENFORMAT
33
Die Übertragungsfunktion läßt sich in Abhängigkeit von der Übertragungsfunktion des
Integrierers H(z) wie folgt bestimmen:
X(z) − z −1 · Y (z) · H(z) + Q(z)
1
H(z)
·X(z) +
=
−1
−1
1 + z · H(z)
1 + z · H(z)
|
{z
}
|
{z
}
Y (z) =
Signal-Übertragungsfunktion
·Q(z)
(2.50)
Rausch-Übertragungsfunktion
Für einen Integrierer mit der Übertragungsfunktion:
1
,
(2.51)
1 − z −1
ergibt sich für die Signalübertragungsfunktion Hx (z) = 1 und für die auf das
Quantisierungsrauschen wirkende Rauschübertragungsfunktion HQ (z) = 1 − z −1 . Diese Rauschübertragungsfunktion entspricht einem Noise-Shaping 1. Ordnung (vgl. Abb.
2.24).
Die Güte eines Delta-Sigma-Modulators lässt sich direkt durch den Oversamplingfaktor
und die Art bzw. Ordnung des Noise-Shaping beeinflussen. Je größer der Oversamplingfaktor ist, desto mehr Signal-Rausch-Abstand kann erzielt werden, da mehr Anteile des
Quantisierungsfehlers in nicht verwendete Frequenzbereiche verschoben werden. Da der
Quantisierungsfehler spektral geformt ist, beträgt der SNR-Gewinn schon im Falle des
Delta-Sigma-Modulators 1. Ordnung nicht nur wie beim einfachen“ Oversampling 3 dB
”
(vgl. Abschn. 2.5), sondern 9 dB pro Verdopplung des Oversamplingfaktors.
Delta-Sigma-Modulatoren höherer Ordnung zeichnen sich durch stärkere Filterung des
Quantisierungsrauschens aus. Die Rauschübertragungsfunktion eines einfachen DeltaSigma-Modulators der Ordnung n ist HQ (z) = (1 − z −1 )n (vgl. Abb. 2.24).
Durch die veränderte Übertragungsfunktion in Abhängigkeit der Ordnung n ändert sich
auch der Einfluss des Oversampling auf den Signal-Rauschabstand:
H(z) =
SN R = 6.02 · w + (2n + 1) · 10 · log10 (L) + const(n) [dB]
(2.52)
Abbildung 2.26 veranschaulicht der SNR-Gewinn abhängig vom Oversamplingfaktor L.
Wie es schon beim Noise-Shaping der Fall war, verwenden Delta-Sigma-Modulatoren
höherer Ordnung oftmals nicht die obige hochpassartige Rauschübertragungsfunktion,
sondern formen die Quantisierungsfehlerleistung zum Beispiel mit einer hörschwellenähnlich verlaufenden Übertragungsfunktion.
2.8
Zahlendarstellung und Zahlenformat
Zur Speicherung und Verarbeitung von digitalen Werten gibt es zwei grundsätzliche Formate, das Festkomma- und das Gleitkomma-Format. Beim Festkomma-Format ist der Abstand einer Zahl zur nächsthöheren gleichbleibend, während er beim Gleitkomma-Format
34
Abbildung 2.26: SNR-Gewinn durch verschiedene Oversamplingfaktoren für Delta-SigmaModulatoren der Ordnungen 1-3
mit dem Zahlenwert zunimmt. Bei der Speicherung und Übertragung von Audiosignalen
wird überwiegend das Festkomma-Format eingesetzt, bei der Bearbeitung setzt sich das
Gleitkomma-Format immer stärker durch.
2.8.1
Festkomma-Format
Im Audiobereich hat sich die Darstellung einer Festkomma-Zahl im sogenannten 2erKomplement durchgesetzt. Normiert man die darzustellende Zahlenmenge auf den Bereich [-1,1], so stellt die erste Hälfte der Binärwerte bei einer Wortbreite w den Zahlenbereich 0 bis 1 − 2−(w−1) dar, die folgenden Binärwerte den Zahlenbereich −1 bis −2−(w−1) .
Abb. 2.27 zeigt die Zuordnung der quantisierten Amplitudenwerte zu Binärwerten der
2er-Komplement-Darstellung im Fall einer Wortbreite w von 4 Bit. Das links notierte
Bit bw−1 ist das Vorzeichenbit und somit das wichtigste, Most Significant Bit (MSB).
Veränderungen im rechts notierten Bit b0 beeinflussen den Wert am geringsten, daher
handelt es sich hier um das Least Significant Bit (LSB).
Als Alternative zur 2er-Komplementdarstellung wird in seltenen Fällen auch eine vorzeichenlose Darstellung gewählt. Tabelle 2.1 zeigt diese beiden Darstellungen im Vergleich.
Statt der Normierung des Zahlenbereichs auf −1 bis 1 ist manchmal auch die Darstellung
0 bis 2w−1 − 1 und von −2w−1 bis −1 (vorzeichenbehaftet) respektive von 0 bis 2w − 1
(ohne Vorzeichen) üblich.
2.8. ZAHLENDARSTELLUNG UND ZAHLENFORMAT
35
Abbildung 2.27: Zuweisung von Amplitudenwerten zur 2er-Komplement-Darstellung im Falle
einer 4-Bit-Quantisierung
Format
2er-Komplement
Dualzahl ohne Vorzeichen
Bitzuweisung
Pw−2
xQ = −bw−1 + i=0 bi 2−(w−i−1)
Pw−1 −(w−1)
xQ = i=0 bi 2
Wertebereich
−1 ≤ xQ ≤ 1 − 2−(w−1)
0 ≤ xQ ≤ 1 − 2−w
Tabelle 2.1: Festkomma-Darstellung mit Bitzuweisung und Wertebereich
2.8.2
Gleitkomma-Darstellung
Werte im Gleitkomma-Format haben die Form
xQ = MG · 2EG
(2.53)
Dabei ist
MG : Normalisierte Mantisse mit 0.5 ≤ MG < 1
EG : Exponent
Durch die Normalisierung der Mantisse wird eine Mehrdeutigkeit vermieden, die sich
daraus ergibt, dass etwa 24 und 42 auf den selben Zahlenwert führen. Das genormte Standardformat 32 Bit Single precision nach IEEE 754 benutzt folgende Aufteilung:
Der Exponent EG wird mit 8 Bit dargestellt und ist eine ganze Zahl zwischen -126 und
+127. Die Mantisse MG wird mit einer Wortbreite von 23 bit dargestellt und bildet eine fraktionale Darstellung im Festkomma-Format. Das Gleitkommaformat hat die Eigen-
36
Vorzeichen (Bit 31)
s
Exponent (Bits 30-23)
e7 ... e0
Mantisse (Bits 22-0)
m22 ... m0
Tabelle 2.2: Bitzuweisung in der Gleitkomma-Darstellung
schaft, dass ein großer Exponent auch zu größeren Quantisierungsschritten führt, beziehungsweise dass die Quantisierungsstufen mit abnehmenden Exponenten kleiner werden.
Im IEEE-Format gelten folgende Sonderfälle:
Typ
normal
NAN (not a number)
Infinity
Zero
Exponent
1 ≤ EG ≤ 254
255
255
0
Mantisse
beliebig
6= 0
=0
0
Zahlenwert
(−1)s (0.m)2EG −127
undefiniert
∞
0
Tabelle 2.3: Sonderfälle bei der Gleitkomma-Darstellung
2.8.3
Anwendungsbereiche
Im Audiobereich lässt sich weder eine grundsätzliche Bevorzugung des Fest- noch des
Gleitkommazahlenformats feststellen. Qualitative Unterschiede lassen sich in fast allen
Fällen eher auf die verwendeten Bearbeitungsalgorithmen zurückführen als auf das verwendete Zahlenformat. Das Festkommaformat erfordert tendenziell einen höheren Entwicklungsaufwand, bietet allerdings im DSP-Bereich (Digitale Signalprozessoren) den
Vorteil günstigerer Preise und oftmals einer geringeren Leistungsaufnahme. Dies führt dazu, dass Hardwaregeräte wie Audioeffekte oder portable Devices wie MP3-Player häufig
auf Festkommaprozessoren basieren. Bei der Musikbearbeitung im Festkommaformat
werden zumeist Wortbreiten von 32 Bit oder 48 Bit verwendet. Zur nativen Audiobearbeitung auf dem Computer oder der Workstation wird nahezu ausschließlich das Gleitkommaformat verwendet, lediglich für die Speicherung in Dateien wird meistens noch
das Festkommaformat verwendet. Der Grund hierfür sind die leistungsfähigen Gleitkommaeinheiten moderner Prozessoren, aber auch der in vielen Fällen schnellere Entwicklungszyklus. In den letzten Jahren sind vermehrt Applikationen auf dem Markt, die intern
mit Gleitkommazahlen der Auflösung 64 Bit oder 80 Bit arbeiten. Insbesondere im Bereich des Mischbusses kann eine solche Erhöhung der Auflösung in bestimmten Fällen
eine Verbesserung des erzielten SNR zur Folge haben, z.B. bei der Addition von Gleitkommazahlen sehr unterschiedlicher Aussteuerung.
Kapitel 3
A/D- und D/A- Wandlung
3.1
Einleitung
Die Audioübertragung über elektronische Medien findet heute überwiegend in der digitalen Ebene statt. Da natürliche Klangquellen am Anfang und der Hörer am Ende der
Übertragungskette aber nach wie vor analoge Systeme sind, muss an geeigneter Stelle eine Umwandlung zwischen analogen und digitalen Signalformen stattfinden. Diese
Aufgabe erfüllen Analog/Digital-Wandler (A/D-Wandler) und Digital/Analog-Wandler
(D/A-Wandler). Für diese Wandlung kommen zunächst viele verschiedene Verfahren in
Betracht [TS99], [Zöl05], [Skr88]. Allerdings beschränkt sich die Auswahl in der Audiotechnik auf einige wenige, da nicht von allen Verfahren die nötige Wandlungsgeschwindigkeit und Genauigkeit erreicht wird. So wird heute für die A/D-Wandlung ausschließlich das Delta/Sigma-Verfahren angewendet, bei der D/A-Wandlung daneben gelegentlich auch noch das R-2R-Verfahren. Grundlage des R-2R-Verfahrens und Bestandteil des
Delta/Sigma-Verfahrens ist das sog. Parallelverfahren.
Die A/D-Wandlung wandelt ein zeitkontinuierliches Signal in eine diskrete Folge von Abtastwerten (samples). Aliasing-Fehler können nach der Wandlung nicht mehr erkannt und
entfernt werden und müssen daher durch eine Tiefpassfilterung vor der Wandlung unterdrückt werden. Den Einsatz eines steilflankigen, in der Praxis kaum realisierbaren Filters
kann man durch Überabtastung und Dezimation vermeiden (s. Kap. 2.5). Mit zunehmendem Grad dieser Überabtastung kann dann das analoge Tiefpassfilter einfacher ausgeführt
werden. So müsste bei einer Überabtastung um den Faktor 64 das analoge Tiefpassfilter
erst ab einer Frequenz von 64 fs - fN eine gute Unterdrückung aufweisen. Dies wäre bei
fs = 48 kHz also der Bereich ab 3.048 MHz, so dass sich das Tiefpassfilter als einfaches
RC-Glied aus Widerstand und Kondensator aufbauen lässt. Die anschließend notwendige
digitale Dezimation erfolgt mittels einer Abwärtstastung. Damit durch dieses Weglassen
von Samples keine Aliasing-Effekte auftreten, muss der Abwärtstastung ein digitales AntiAliasing-Tiefpassfilter vorgeschaltet werden.
Jeder D/A-Wandler erzeugt eine analoge Spannungsfolge entsprechend der am Wandler
anliegenden digitalen Wertefolge. Diese Spannungsänderungen verlaufen zunächst stufig,
37
38
KAPITEL 3. A/D- UND D/A- WANDLUNG
als Folge tritt eine Wiederholung des Nutzsignal-Spektrums zwischen 0 Hz und der Nyquistfrequenz fN zu beiden Seiten der Abtastfrequenz fs und bei allen Vielfachen von
fs auf. Deshalb muss jedem D/A-Wandler ein analoges Tiefpassfilter folgen, welches
das Ausgangssignal von den hohen Frequenzanteilen weitgehend befreit. Wie bei A/DWandlern müsste auch dieses Tiefpassfilter sehr steil ausgeführt werden, falls die Abtastrate fs nur unwesentlich über dem doppelten der höchsten Übertragungsfrequenz liegt. Um
dies zu vermeiden, findet auch hier ein Teil der Glättung des Signals bereits in der digitalen Ebene statt. Dies geschieht durch Überabtastung, wodurch sich die nach der Wandlung
verbleibenden Stufen im Signalverlauf verkleinern und dann durch ein einfaches analoges Tiefpassfilter geglättet werden können. Die Erhöhung der Abtastrate erfolgt zunächst
durch eine Aufwärtstastung, wobei zwischen die vorhandenen Werten zusätzliche Zwischenwerte (zunächst mit dem Betrag Null) eingefügt werden. Anschließend entfernen
digitale Tiefpassfilter sog. Images, d.h. Frequenzanteile im Bereich zwischen der alten
und neuen (höheren) Abtastfrequenz , wodurch die eingefügten Samples im Zeitbereich
zwischen die vorhandenen Stützpunkte interpoliert werden. Diese Filter heißen deshalb
Anti-Imagingfilter oder Interpolationsfilter (Abb. 3.1 links). Bei einer Überabtastung um
den Faktor zwei unterdrückt das digitale Anti-Imagingfilter den Frequenzbereich von fN
bis fs + fN , bei fs = 48 kHz also den Bereich von 24 kHz bis 72 kHz. Das nachfolgende
Analogfilter müsste nun erst ab 72 kHz eine gute Dämpfung aufweisen (Abb. 3.1 rechts).
Abbildung 3.1: Links: Frequenzspektrum unmittelbar nach der D/A-Wandlung bei einer
Überabtastung von 2 und digitalem Anti-Imagingfilter. Rechts: Gleiches Signal nach der abschließenden analogen Tiefpassfilterung
In der Praxis liegen die Überabtastungsraten aber deutlich höher. Je nach Wandlertechnologie wird mit 8-facher bis 128-facher Überabtastung gearbeitet.
3.2
3.2.1
A/D-Wandler
Parallel-Wandler
Bei Parallel-Wandlern (Flash Converter) der Wortbreite w wird eine Referenzspannung
durch 2w Widerstände in eine entsprechende Anzahl von Intervallen geteilt und mit der
von der Abtast-Halte-Schaltung gelieferten Eingangsspannung UE über 2w −1 Spannungskomparatoren verglichen. Die Ausgänge der Komparatoren werden über eine Kodierlogik
3.2. A/D-WANDLER
39
in ein w-bit Datenwort umgesetzt. Da für jede Umsetzung intern nur ein Rechenzyklus
notwendig ist, sind Abtastraten bis zu 500 MHz erreichbar. Aufgrund der hohen Anzahl
an Komparatoren sind Auflösungen bis zu einer Wortbreite von 10 bit ereichbar.
Abbildung 3.2: Parallel-Wandler
Eine Variante des Parallel-Wandlers ist der Subranging-Wandler. Er führt die Wandlung in
zwei Schritten durch: In einem ersten Schritt wird die gehaltene Eingangsspannung einem
m-bit A/D-Wandler zu. In einem zweiten Schritt wird die um den Faktor 2m verstärkte Differenzspannung zwischen der Eingangsspannung und der durch einen m-bit D/A-Wandler
rückgeführten Spannung dem m-bit A/D-Wandler erneut zugeführt. Die durch das zweistufige Verfahren erhöhte Auflösung geht auf Kosten der Umsetzungsgeschwindigkeit, so
dass Abtastraten bis 40 MHz und Auflösungen bis 16 bit möglich sind.
Abbildung 3.3: Subranging-Wandler
3.2.2
SAR-Wandler
A/D-Wandler mit sukzessiver Approximation (Successive approximation register, SAR)
wandeln die Eingangsspannung innerhalb von w Umsetz-Zyklen in ein w-bit Wort um (s.
40
Abbildung 3.4: SAR-Wandler
Abbildung 3.5: Spannungsverlauf
Abb. 3.4 und 3.5). Im ersten Schritt wird überprüft, ob UE positiv oder negativ ist, im
ersteren Fall wird das MSB auf 0 gesetzt. Im nächsten Schritt wird das zweite bit auf
1 gesetzt, die zugehörige Spannung von +0.5UR über einen D/A-Wandler rückgeführt
und durch einen Komparator überprüft, ob die Eingangsspannung größer oder kleiner als
dieser Wert ist. Falls UE größer ist, wird die 1“ beibehalten und das nächste bit gesetzt.
”
Dadurch nähert sich Ausgangsspannung in w Zyklen schrittweise der Eingangsspannung
an und führt auf ein w-bit Ausgangswort.
3.2.3
Delta-Sigma-Wandler
Der Delta-Sigma-Wandler besteht aus einem als Delta-Sigma-Modulator ausgelegten 1bit-Wandler mit L-facher Überabtastung und einem Dezimationsfilter. Letzteres besteht
aus einem digitalen Tiefpassfilter, welches das 1-bit-Eingangssignal durch ein linearphasiges, nichtrekursives FIR-Filter mit Filterkoeffizienten der Wortbreite w in ein w-bit Ausgangssignal überführt, aus dem ein Abwärtstaster nur jedes L-te Wort entnimmt.
Abbildung 3.6: Delta-Sigma-Wandler
3.3. D/A-WANDLER
3.3
D/A-Wandler
3.3.1
R-2R-Wandler
41
Der R-2R-Wandler ist ein Widerstandsnetzwerk, dessen Zweige wie geschaltete Stromquellen wirken, deren Ausgänge aufsummiert auf einen Strom-Spannungs-Wandler gehen. Jeder Knoten sieht“nach rechts einen Widerstand von R + 2R k 2R = 2R. Somit
”
teilt sich der Strom an jedem Knoten in zwei gleiche Anteile.
Abbildung 3.7: R-2R-Wandler
Wenn jeder Schalter durch eines der w bits gesteuert wird, ergibt sich eine binäre Gewichtung der Ströme mit
b2
b3
bw
b1
+
+
+ . . . + w−1 )
2R 4R 8R
2 R
−1
−2
−3
= −UR (b1 2 + b2 2 + b3 2 + . . . + bw 2−w )
UA = −RI = −R(
3.3.2
(3.1)
(3.2)
Delta-Sigma-DA-Wandler
Der Delta-Sigma-DA-Wandler unterzieht die eingelesenen w-bit Datenworte zunächst einer Abtastratenerhöhung durch einen Aufwärtstaster und einen digitalen Tiefpassfilter.
Der Delta-Sigma-Modulator (s. Kap. 2.7) führt eine Requantisierung von w bit auf einen
1 bit-Datenstrom durch, der anschließend durch einen 1-bit-D/A-Wandler mit nachfolgendem Rekonstruktionsfilter in ein analoges Signal umgesetzt wird. Der analoge Tiefpass
benötigt aufgrund der hohen Abtastrate - bei fA = 44.1 kHz und 64-fachem Oversampling etwa 2.8 MHz - nur eine geringe Flankensteilheit.
3.4
Kenn- und Messgrößen für Wandler
Abweichungen vom Verhalten des idealen Wandlers entstehen durch bei A/D- und D/AWandlung auftretende
42
Abbildung 3.8: Delta-Sigma-DA-Wandler
• Amplitudenfehler
• Zeitfehler (Jitter)
Amplitudenfehler ergeben sich aus Abweichungen von der idealen Treppenform der
Wandlerkennlinie (s. Abb. 3.9). Differentielle Nichtlinearitäten äußern sich in Abweichungen von der idealen Stufenbreite (Stufenbreitenfehler), also des EingangsspannungsIntervalls zwischen zwei aufeinanderfolgenden Ausgangskodes. Integrale Nichtlinearitätensind das Ergebnis der kumlierten Stufenbreitenfehler, d.h. die Abweichung des
quantisierten Werts vom idealen kontinuierlichen Wert. Fehler entstehen außerdem aus
Nulldurchgangsverschiebungen (Offset-Fehler) der Kennlinie und Abweichungen von
der idealen Steigung der Kurve (Verstärkungsfehler). Die in Abb. 3.9 für die A/DWandlung dargestellten Fehler können in gleicher Weise bei der D/A-Wandlung auftreten,
nur dass die Kodewerte (y-Achse) in diesem Fall das Eingangssignal bilden, die Spannungen (x-Achse) das Ausgangssignal.
Zeitfehler, wie sie durch Variationen des Abtastzeitpunktes um den idealen Wert entstehen, werden als Jitter bezeichnet. Jeder Zeitfehler bei der A/D- oder D/A-Wandlung hat
seinerseits einen Amplitudenfehler zur Folge, der umso größer ausfällt, je höher die Signalfrequenz ist (Abb. 3.10).
Wenn der Zeitversatz bei der Abtastung auf digitaler Ebene korrigiert wird, verbleibt der
durch den Jitter induzierte Amplitudenfehler als Störsignal im System. Für ein 16-bit System mit 216 Quantisierungsintervallen Q beträgt die maximale Steigung des Signals bei
einer Frequenz von 20 kHz 20000 × π × 216 Q pro Sekunde. Der durch Jitter bedingte Amplitudenfehler sei vernachlässigbar, wenn er weniger als Q2 beträgt. Der zulässige
Zeitfehler beträgt für diesen Fall
1
= 121ps
(3.3)
2 · 20000 · π · 216
Abb. 3.11 zeigt die Auswirkungen eines Jitters auf den Signal-Rauschabstand in
Abhängigkeit von Zeitfehler und Signalfrequenz.
tJ =
3.4. KENN- UND MESSGRÖSSEN FÜR WANDLER
43
Abbildung 3.9: Abweichungen von der idealen Wandlerkennlinie. A: Differentielle Nichtlinearitäten, B: Integrale Nichtlinearitäten, C: Verstärkungsfehler, D: Offset-Fehler
Abbildung 3.10: Amplitudenfehler durch Sampling-Jitter
Da Amplitudenfehler, die durch Jitter entstehen ebenso wie Amplitudenfehler in Folge
von Nichtlinearitäten der Kennlinie zu einer Verringerung des Signal-Rauschabstands
44
Abbildung 3.11: Auswirkung von Sampling Jitter auf den Signal-Rauschabstand in Abhängigkeit
von Zeitfehler und Signalfrequenz in Bezug zum theoretischen Signal-Rauschabstand von 16- und
18-bit Systemen
führen, ist es üblich, den Jitter nicht direkt zu messen, sondern über eine Messung der
SNR mitzuerheben. In Datenblättern von Wandlern sind üblicherweise folgende Messwerte mit jeweils unterschiedlichen Messverfahren aufgeführt:
Klirrfaktor (Total Harmonic Distortion, THD)
Durch ein Testsignal, das den A/D-Wandler voll aussteuert (X1 = 0 dBFS), werden am
Ausgang des Wandlers die Klirrkomponenten (Klirrfaktoren n-ter Ordnung) gemessen.
Dabei gilt
Xn
kn = 10 20
kn : Klirrfaktor n-ter Ordnung (dimensionslos)
Xn : Amplitude der n-ten harmonischen Oberwelle in dBFS
Für den Gesamtklirrfaktor gilt somit
v
u∞
uX
kn2
k=t
(3.4)
(3.5)
n=2
und für das Klirrdämpfungsmaß ak :
1
(3.6)
k
Als Testsignal wird üblicherweise ein Sinussignal von 1000 Hz oder 997 Hz verwendet.
Der THD wird entweder als Klirrfaktor in % oder als Klirrdämpfungsmaß in [dB] angegeben.
ak = 20 log
3.4. KENN- UND MESSGRÖSSEN FÜR WANDLER
45
Klirrfaktor plus Rauschen (Total Harmonic Distortion plus Noise, THD+N)
Bei der Messung des Klirrfaktors plus Rauschen wird ausgangsseitig lediglich das Testsignal durch ein Notch-Filter unterdrückt. Die Messung berücksichtigt somit nicht nur
harmonische Oberwellen, sondern das gesamte Störspektrum einschließlich unharmonischer Anteile, Einstreuungen, Brummen, Rauschanteile u.ä..
Dynamik (Dynamic Ratio, DR)
Messverfahren wie THD+N, allerdings mit einem niedrig ausgesteuerten Testsignal, typischerweise ein Sinussignal bei -60 dBFS. Da die Amplituden der nichtlinearen Verzerrungen proportional zur Amplitude des Eingangssignals sind, wird bei Messung der Dynamik
nur der Rauschpegel erfasst, da die Amplituden einzelner nichtlinearer Verzerrungensprodukte bei Anregung mit -60 dB bereits im Rauschteppich verschwinden.
46
Kapitel 4
Kodierung
Bei der Übertragung von Nachrichten wie analogen oder digitalen Audiosignalen wird
die von einer Quelle generierte Information durch die Kodierung für die Übertragung in
einem bestimmten Übertragungskanal optimiert. Quellen können akustische oder elektrische Klangquellen sein, Mikrofone oder die von einem A/D-Wandler erzeugte Bitfolge.
Übertragungskanäle können kabelgebundene elektrische Verbindungen, drahtlose Funkverbindungen oder Speichermedien (CD, DVD, SACD) sein. Jeder Kanal hat charakteristische Eigenschaften, z.B. eine bestimmte Bandbreite, und charakteristische Störungen,
die etwa bei einer kabelgebundenen Übertragung anderer Natur sind als auf einem Speichermedium. Somit erfordert jeder Kanal eine spefizisch optimierte Kodierung, welche
die gesendete Information einerseits effizient überträgt und gleichzeitig robust gegenüber
Störungen und Übertragungsfehlern macht. Im Hinblick auf diese unterschiedlichen Funktionen unterscheidet man im Allgemeinen drei Kodierungsstufen.
Abbildung 4.1: Technisches Kommunikationsmodell
Die Quellenkodierung hat die Aufgabe, die vom Sender ausgehende Information im Hinblick auf eine effiziente Übertragung möglichst kompakt und redundanzfrei darzustellen.
Beispiele sind alle Verfahren der Bitratenreduktion durch Redundanzkodierung oder Irrelevanzkodierung.
47
48
KAPITEL 4. KODIERUNG
Die Kanalkodierung hat die Aufgabe, das Signal durch Hinzufügen von Redundanz vor einem Informationsverlust durch Übertragungsfehler zu schützen, sodass
Übertragungsfehler zumindest erkannt, nach Möglichkeit auch korrigiert werden können.
Die Leitungskodierung hat die Aufgabe, eine elektrische Repräsentation des Signals vorzunehmen, die z.B. auf die spektrale Bandbreite des Kanals angepasst ist und die, besonders bei digitalen Audiosignalen, eine Taktrückgewinnung (Wordclock, Bitclock) beim
Empfänger ermöglicht.
4.1
Grundlagen
In einer Menge X = {x1 , x2 , . . . , xN } von Ereignissen xi ∈ X, die mit der Wahrscheinlichkeit pi = p{xi } auftreten, ist
Hi = log2
1
= − log2 p(xi )
p(xi )
(4.1)
ein Maß für die Unbestimmtheit des Ereignisses xi . Durch diese Definition enthält das
sichere Ereignis, das keine Unbestimmtheit aufweist, mit p(xi ) = 1 eine Information von
Hi = 0. Wenn Information als beseitigte Unbestimmtheit verstanden wird, gilt Hi als
Maß sowohl für die (vor dem Auftreten von xi vorhandene) Unbestimmtheit als auch für
die (nach dem Auftreten von xi vorhandene) Information.
Dieses zunächst nur postulierte Informationsmaß hat sich in der Informationstheorie,
wie sie auf die Formulierung durch Hartlay (1888-1970) und Shannon (1916-2001)
zurückgeht, als mathematisch elegant und (insbesondere durch die Verwendung des 2erLogarithmus) für den Bereich der Informations- und Kodierungstheorie in binären Systemen als äußerst geeignet erwiesen. Es berücksichtigt allerdings nur den statistischen
Aspekt, nicht den semantischen (was bedeutet die Nachricht) und den pragmatischen
Aspekt (welche Handlungen löst die Nachricht beim Empfänger aus) von Information
und Kommunikation.
Im Sinne der Informationstheorie sind digitale Audiosignale Ereignisse einer diskreten
Quelle mit dem Alphabet X = {x1 , x2 , . . . , xN } und den zugehörigen Auftrittswahrscheinlichkeiten pi . Für die mittlere Unbestimmtheit der Quelle und damit auch für ihren
mittleren Informationsgehalt gilt
Hm =
N
X
pi Hi
(4.2)
i=1
Hm wird als Entropie oder Quellenentropie bezeichnet mit der Maßeinheit bit/Zeichen
oder einfacher bit, wenn klar ist auf welche Ereignisse sich Hm bezieht. Die Quellenentropie ist maximal, wenn alle Ereignisse gleichwahrscheinlich sind (Beweis z.B. [KPS03]).
In diesem Fall ist
Hmax = log2 N
(4.3)
4.1. GRUNDLAGEN
49
Was als Menge der möglichen Ereignisse aufgefasst wird, hängt konkret vom Vorgang
der Kodierung ab. Dies kann ein einzelnes Bit, eine Signalamplitude mit 16 oder 24 bit
Wortbreite oder eine noch größere Einheit sein.
Beispiel
Ein idealer Würfel mit gleichwahrscheinlichen Augenzahlen ist eine Quelle mit dem Ereignisrepertoire X = {1, 2, 3, 4, 5, 6} und den Auftrittswahrscheinlichkeiten pi = 61 . Somit ist die
Information Hi jedes Ereignisses
1
= − log2 6 = 2, 58 bit
(4.4)
p(xi )
Da alle Ereignisse gleich wahrscheinlich sind, beträgt auch die Entropie der Quelle Hm =
2, 58 bit.
1
Für einen nichtidealen Würfel mit p1 = 12 und p2 . . . p6 = 10
ist dagegen
Hi = log2
H1 = − log2 2 = 1 bit
(4.5)
H2 . . . H6 = − log2 10 = 3, 32 bit
(4.6)
und
mit
Hm =
N
X
pi Hi = 2, 16 bit
(4.7)
i=1
Der ideale Würfel mit gleichverteilten Auftrittswahrscheinlichkeiten hat somit, wie erwartet, eine
höhere Entropie als der nichtideale Würfel.
Unter Kodierung wird allgemein ein Vorgang verstanden, bei dem Elemente eines Quellenalphabets xi auf Elemente eines Kanalalphabets U bzw. auf aus diesen Elementen
gebildeten Kodewörtern abgebildet werden. Aus welchen Elementen ein Kanalalphabet
besteht, bestimmt die jeweils vorhandene Technik der Übetragung. In der Digitaltechnik
beschränken wir uns auf binäre Kodierungen mit
U = {0, 1}
(4.8)
Ein Wort a ∈ {0, 1}l wird als Kodewort der Länge l bezeichnet. Das Alphabet A =
{0, 1}l , d.h. die Menge aller Kodewörter, die einem Quellenalphabet eindeutig zugeordnet sind, bildet einen Kode. Wenn alle Kodewörter gleich lang sind, spricht man
von einem gleichmäßigen Kode, ein Kode mit ungleicher Kodewortlänge wird als ungleichmäßiger Kode bezeichnet. Die Differenz zwischen der der mittleren Kodewortlänge
lm (bei gleichmäßigen Kodes gleich der Kodewortlänge l) und dem mittleren Informationsgehalt der Quelle wird als Koderedundanz RK bezeichnet.
RK = lm − Hm
(4.9)
Damit ein Empfänger in der Lage ist, die gesendeten Kodewörter wieder den ursprünglichen Quellenzeichen zuzuordnen, muss der Zusammenhang zwischen Quellenzeichen und Kodewörtern eineindeutig sein. Dazu muss der Empfänger zunächst in der
50
Lage sein, die empfangene Binärfolge in einzelne Kodewörter zu zerlegen. Während
dies bei gleichmäßigen Kodes unproblematisch ist (solange man einmal den richtigen
Anfang eines Kodeworts erkannt hat und in der Folge kein Bit verlorengeht), ist bei
ungleichmäßigen Kodes eine zusätzliche Bedingung für die Erkennung der Wortenden
erforderlich. Diese Bedingung wird von Kodes mit der sog. Präfix-Eigenschaft erfüllt.
Dies sind Kodes, bei denen kein Kodewort mit dem Anfang eines anderen Kodeworts
übereinstimmt.
Beispiel
Das Alphabet einer diskreten Quelle X enthalte vier Zeichen, die durch die Kodes K1 und K2
kodiert sind.
X K1 K2
x1 0
0
x2 10
100
x3 110 101
x4 101 110
Während K1 keine Präfix-Eigenschaft hat (x2 ist der Anfang von x4 ), ist K2 eindeutig und unverzögert dekodierbar.
Ein Kode kann in Form eines Kodebaums dargestellt werden, wobei jedes Kodewort durch
einen von der Wurzel zum Endknoten reichenden Pfad bestimmt ist.
Abbildung 4.2: Kodebaum mit Endknoten für den Kode K2 (s.o.)
Die Präfix-Eigenschaft ist erfüllt, wenn es auf jedem Pfad nur einen Endknoten gibt. Auf
jeder Ebene eines Kodebaums gibt es 2l Knoten. In einem gleichmäßigen Kode können
somit 2lmax Kodewörter gebildet werden. Bei einem umgleichmäßigen Kode wird die Anzahl der Kodewörter durch jeden Endknoten reduziert, der auf einer Ebene l < lmax liegt.
Für jeden Endknoten auf einer Ebene mit l < lmax liegen unterhalb dieses Endknotens
2lmax −l Knoten, die nicht benutzt werden. Summiert man diese Endknoten für jedes der N
Kodewörter mit der Länge li , d.h. bildet man die Summe der benutzten und unbenutzten
Kodewörter, so muss sich die Gesamtzahl aller möglichen Kodewörter ergeben, d.h.
N
X
i=1
2lmax −li = 2lmax
(4.10)
4.1. GRUNDLAGEN
51
Nach Division durch 2lmax ergibt sich die Kraftsche Ungleichung:
N
X
2−li ≤ 1
(4.11)
i=1
Mit Hilfe der Kraftschen Ungleichung kann überprüft werden, ob für einen Kode mit
den Kodewortlängen li ein dekodierbarer Kode für N Zeichen existiert. Dies bedeutet
allerdings nicht, dass jeder Kode mit dieser Struktur auch dekodierbar ist. So wäre ein
Kode mit der Struktur wie K1 im obigen Beispiel dekodierbar, wenn man das Wort x4 =
(101) durch (111) ersetzen würde.
Für einen effizienten Quellenkode im Hinblick auf geringen Speicherbedarf und schnelle Übertragung werden im Allgemeinen möglichst kleine Kodewortlängen angestrebt.
Während die Kodewortlänge für einen gleichmäßigen Kode konstant ist, ist bei ungleichmäßigen Kodes vor allem die mittlere Kodewortlänge lm mit
lm =
N
X
pi li
(4.12)
i=1
von Bedeutung. Da die Kodewortlänge jedoch dem mittleren Informationsgehalt je Quellenzeichen Rechnung tragen muss, kann sie nicht beliebig kurz werden. Eine untere
Schranke bildet die Entropie der Quelle. Es muss also gelten:
lm ≤ Hm
(4.13)
Beweis:
Mit 4.12, 4.2 und 4.13 ergibt sich die Ungleichung
X
pi log2
X
i
pi log2
X
1 X
2−li
+
pi log2 2−li =
pi log2
≤ 0(4.15)
pi
pi
i
i
Mit log2 x = ln x · log2 e und ln x ≤ x − 1 ergibt sich für x =
log2 e
X
i
(4.14)
i
i
und damit
1 X
−
pi li log2 2 ≤ 0
pi
X
2−li
≤ log2 e
pi
pi ln
pi
i
2−li
−1
pi
2−li
pi :
!
= log2 e
X
2−li − 1
(4.16)
i
Mit der Kraftschen Ungleichung 4.11:
N
X
2−li ≤ 1
i=1
folgt, dass die Ausgangsbedingung Hm − lm ≤ 0 immer erfüllt sein muss.
(4.17)
52
Für die Koderedundanz Rk gilt somit
Rk = lm − Hm ≤ 0
(4.18)
Ein effizienter Kode zeichnet sich somit durch eine möglichst geringe Koderedundanz
aus, d.h. eine mittlere Kodewortlänge, die möglichst nahe an die Entropie der Quelle als
untere Schranke herankommt.
4.2
4.2.1
Quellenkodierung
Redundanzkodierung
Redundanzkodierungsverfahren arbeiten heutzutage zumeist nach dem Prinzip der linearen Prädiktion mit anschließender Entropiekodierung; aufgrund der vorhergehenden
Abtastwerte wird versucht, die kommenden Abtastwerte vorherzusagen. Der dabei gemachte Fehler wird anschließend für Übertragung oder Speicherung verlustfrei kodiert,
so daß der Bitstream im wesentlichen nur den kodierten Prädiktionsfehler und die
Prädiktorkoeffizienten enthält. Abb. 4.3 zeigt den typischen Ablauf eines prädiktionsbasierten Redundanzkodierungsverfahrens.
Eingangssignal
-
-
Entropiekodierung
-
6
-
Prädiktor
Indices
Bitstream- Formatierung
?
Koeffizientenberechnung
-
kodierter
Ausgangsbitstream
6
Prädiktionskoeffizienten
-
Abbildung 4.3: typischer Ablauf eines verlustlosen Kodierungsverfahrens, die dicken Pfeile markieren das unveränderte Audiosignal, die dünnen den Fluß der Daten
4.2.1.1
Lineare Prädiktion
Die Grundidee der linearen Prädiktion ist die Vorhersage der kommenden Abtastwerte
aus den vorhergehenden. Hierbei wird die Tatsache ausgenutzt, daß aufeinanderfolgende
Abtastwerte sich ähnlicher sind bzw. voneinander stärker statistisch abhängig sind als
weiter auseinander liegende. Die Prädiktion der Abtastwerte geschieht zumeist mittels
4.2. QUELLENKODIERUNG
53
eines FIR-Filters, dessen Koeffizienten kontinuierlich an das Signal angepaßt werden. Je
höher die Ordnung des Filters ist, desto mehr in der Vergangenheit liegende Werte werden
bei der Prädiktion berücksichtigt.
Die Differenz zwischen Eingangssignal und Ausgangssignal des Filters bzw. Prädiktors
ist der Prädiktionsfehler. Der Prädiktionsfehler soll durch geschickte Wahl der Filterkoeffizienten und der Filterordnung möglichst minimiert werden. Um dabei die Zeitveränderlichkeit des Signals zu berücksichtigen, werden die optimalen Filterkoeffizienten
für jeden Signalblock neu berechnet.
Die Effizienz eines Prädiktors hängt von den statistischen Abhängigkeiten der Abtastwerte des Eingangssignals ab. Stationäre, tonale Signale können sehr gut vorhergesagt werden
und führen zu einem kleinen Prädiktionsfehlersignal, während rauschhafte Signale nicht
oder nur schlecht prädiziert werden können, da Rauschen keine statistische Bindung zwischen einzelnen Abtastwerten aufweist.
4.2.1.2
Entropiekodierung
Bei der Entropiekodierung werden wie bei der linearen Prädiktion statistische Eigenschaften des Signals ausgenutzt. Während allerdings die lineare Prädiktion statistische
Abhängigkeiten in der zeitlichen Abfolge betrachtet, wird bei der Entropiekodierung die
Auftretenswahrscheinlichkeit von Symbolen betrachtet. Im Falle eines Audiosignals kann
eine Symbol z.B. ein bestimmter Amplitudenwert oder auch eine Folge von Amplitudenwerten sein.
Unter dem Betriff Optimalkodierung wurden eine Reihe von Verfahren entwickelt, mit denen bei bekannter Quellenstatistik die mittlere Kodewortlänge an die Entropie der Quelle
angenähert werden kann, bei denen also nach 4.18 ein optimaler, weitgehend redundanzfreier Kode konstruiert werden kann. Da die Entropie das theoretisch erreichbare Minimum der für die Enkodierung benötigten Bits angibt, hängt die Effizienz einer Entropiekoderiung stark von den Eignschaften des Signals selbst ab. Ist das Auftreten aller Symbole
gleichwahrscheinlich, so nimmt die Entropie ihren Maximalwert, nämlich die Zahl der
Bits pro Symbol an. Wenn also die Amplitudenwerte eines Audiosignals als Quellenzeichen behandelt werden, hat ein konstantes Signal (Gleichanteil) keinerlei Informationsgehalt, während gleichverteiltes Rauschen maximalen Informationsgehalt besitzt und somit
bei der Kodierung keinerlei Bits gewonnen werden können. Bei ungleich verteilten Auftrittswahrscheinlichkeiten beruht das Prinzip aller Entropiekodierungen darauf, Zeichen
mit hoher Auftrittswahrscheinlichkeit kürzere Kodeworte zuzuordnen, während Zeichen
mit geringerer Auftrittswahrscheinlichkeit längere Kodeworte erhalten.
Ein verbreites Verfahren zur Konstruktion eines optimalen Kodes ist die HuffmanKodierung. Sie verwendet folgenden Konstruktions-Algorithmus:
• Ordnen der gegebenen Auftrittswahrscheinlichkeiten nach fallenden Werten.
• Zusammenfassen der letzten beiden Wahrscheinlichkeiten zu einem neuen Wert
54
• Erneutes Ordnen der reduzierten Wahrscheinlichkeitsverteilung nach fallenden Werten
• Wiederholen der Schritte 2 und 3 solange, bis die Zusammenfassung der Werte den
Wert 1 ergibt
• Aufstellen eines Kodebaums entsprechend dem Reduktionsschema und Zuordnung
der Symbole 0 und 1 zur jeweiligen Verzweigungsrichtung des Kodebaums
Abb. 4.4 zeigt die Konstruktion eines Huffman-Kodes für eine Quelle mit der Wahrscheinlichkeitsverteilung (pi ) = (0.40 0.18 0.14 0.10 0.08 0.05 0.05).
Abbildung 4.4: Konstruktion eines Huffman-Kodes für eine gegebene Quellenstatistik
Nach 4.2 ergibt sich für die Entropie der Quelle ein Wert von
X
Hm = −
pi log2 pi = 2.43 bit
(4.19)
i
Die mittlere Kodewortlänge beträgt
lm =
X
pi li = 2.48 bit
(4.20)
i
woraus eine Redundanz von nur noch 0.05 bit resultiert, gegenüber 0.57 bit für einen
gleichmäßigen Kode. Es lässt sich nachweisen, dass - bei bekannter Quellenstatistik - das
55
Huffman-Verfahren immer Kodes mit minimaler Redundanz liefert. Eine völlig redundanzfreie Darstellung entsteht, wenn alle Auftretenswahrscheinlichkeiten inverse Zweierpotenzen sind.
Bei der Kodierung realer Signale ist die Erstellung einer korrekten Statistik von großer Bedeutung. Oftmals verfügen Huffmankodierer aus diesem Grund über verschiedene Codebooks basierend auf unterschiedlichen Wahrscheinlichkeitsverteilungen und wählen dann
das geeignete Codebook aus. In diesem Fall muß allerdings dem Dekoder mitgeteilt werden, welches Codebook verwendet wurde.
4.2.1.3
Beispiele
MPEG-4 ALS ist das erste von der MPEG standardisierte verlustlose Kodierungsverfahren. Es unterstützt als Eingabeformate Bitauflösungen 8-32 Bit Festkomma sowie 32
Bit Fließkomma und beliebige Abtastraten. Im Gegensatz zu verlustbehafteten Verfahren
müssen für ein verlustloses Verfahren weite Teile des Enkoders standardisiert werden, da
der Dekoder das Signal bitgenau rekonstruieren muß.
Prädiktion
Aus dem aktuellen Block von Audiodaten werden die optimale Prädiktorordnung sowie
die Prädiktionskoeffizienten geschätzt. Die Koeffizienten werden quantisiert, um effizient
übertragen werden zu können.
Kodierung
Da man im allgemeinen davon ausgehen kann, daß im Prädiktionsfehler kleine Amplitudenwerte sehr viel wahrscheinlicher sind als große Amplitudenwerte, kann das Fehlersignal mittels Entropiekodierung effizient kodiert werden. Bei MPEG-4 ALS wird hierfür
ein Golomb-Rice-Codec verwendet, ein Spezialfall der Huffmankodierung mit vereinfachten Annahmen über die Wahrscheinlichkeitsverteilung des Auftretens bestimmter Symbole.
Weiterhin bietet ALS optional die Möglichkeit, für einen bestimmten Amplitudenbereich
des Prädiktionsfehlers arithmetische Codierung (in diesem Fall Block Gilbert Moore Code, BGMC) einzusetzen. Im Gegensatz zur Huffman-Codierung können arithmetische
Codierer auch beliebige Auftretenswahrscheinlichkeiten (d.h. nicht nur inverse Zweierpotenzen) gut kodieren, so daß sich die Zahl der tatsächlichen verwendeten Bits pro Symbol
dem durch die Entropie vorgegebenen theoretischen Minimum annähert.
Erweiterungen
• Blocklängen-Switching: Die Blocklänge ist nicht fix, sondern kann z.B. in
Abhängigkeit der Abtastrate gewählt werden. Jeder Block der Länge N kann wiederum in Subblöcke der Längen N/2, N/4, N/8, und N/16 aufgeteilt werden. Die Kombinationen und die Reihenfolge der verschiedenen Subblock-Längen sind beliebig,
solange die Summe der Blocklänge N entspricht. Die Aufteilung eines Blocks in
56
kürzere Subblöcke erlaubt die effizientere Codierung von Transienten. Die Wahl
der Subblock-Längen ist nicht durch den Standard vorgegeben, sondern hängt von
der Enkoderimplementierung ab.
• Random Access: Da jeder Block abhängig vom den Ergebnissen des vorhergehenden Blockes ist, ließe sich jeder Bitstream jeweils nur vom Anfang an dekodieren. Um diese Einschränkung zu umgehen, erlaubt ALS das Einfügen sogenannter
Random-Access-Frames zu deren Dekodierung kein Vorwissen aus den vorhergehenden Blöcken erforderlich ist. Auf diese Weise wird es möglich, im Bitstream zu
springen, ohne Dekodieren zu müssen.
• Inter-Channel Joint Coding: Zur Ausnutzung von Redundanzen zwischen Kanalpaaren bietet ALS einerseits die Möglichkeit, die Differenz zwischen einem
beliebigen Kanalpaar zu enkodieren. Andererseits besteht die Möglichkeit, den
Prädiktionsfehler des einen Kanals zur Schätzung des Fehlers des anderen Kanals
zu verwenden.
Weitere Beispiele für verlustlose Verfahren sind:
• Meridian Lossless Packing (MLP): Dieses bei der DVD-A eingesetzte verlustlose
Verfahren erlaubt die Kodierung von mehrkanaligen Audiodaten mit Abtastraten
bis 192kHz [SCG+ 99].
• FLAC: Ein inzwischen vergleichsweise verbreitetes verlustloses Verfahren, dessen
Quelltexte als Open-Source zur Verfügung stehen. Das Verfahren unterstützt bis
zu acht Audiokanäle beliebiger Abtastraten bei einer Bitauflösung von 4-32 Bit im
Festkomma-Format [Coa05].
Verlustlose Verfahren haben neben dem offensichtlichen Vorteil der Verlustlosigkeit zwei
wichtige Nachteile:
• die Kompressionsrate ist mit Faktor 1.5 − 3 gering im Vergleich zu verlustlosen
Verfahren
• die Ausgangsbitrate ist abhängig von den Eigenschaften des Eingangssignals und
kann prinzipbedingt nicht konstant gehalten werden
Die durch Redundanzkodierung erreichbare Kompression der Audiobitrate reicht häufig
nicht für die Nutzung von Übertragungskanälen mit begrenzter Bandbreite oder von Speichermedien mit begrenzter Kapazität aus. Aus diesem Grund nehmen sog. verlustbehaftete Audiokodierungsverfahren (der Begriff Audiokompressionsverfahren ist unglücklich,
da er mit Verfahren zur Dynamikkompression verwechselt werden kann), wie sie nicht
nur im Internet durch den MP3 (MPEG-1 layer 3) Standard verbreitet sind, eine weitere
Reduktion der Bitrate durch das Entfernen irrelevanter Anteile vor. Als irrelevant werden
Anteile bezeichnet, die für den Empfänger keine Bedeutung haben und aus diesem Grund
bei der Kodierung ausgeschlossen werden können. Irrelevanzkodierung sind verlustbehaftet, da das Eingangssignal und das dekodierte Signal sich messtechnisch unterscheiden,
auch wenn im Idealfall vom Hörer keine Unterschiede wahrgenommen werden können.
4.2.2
57
Irrelevanzkodierung
Die Verfahren der Irrelevanzkodierung versuchen, für das menschliche Gehör wichtige Signalanteile von unwichtigen Signalanteilen zu trennen, und die unwichtigen Anteile gar
nicht oder sehr verrauscht zu übertragen. Dabei sind je nach Verfahren und gewünschter
Qualität Kompressionsraten von 4/1 − 3 0/1 oder mehr erzielbar. Im Gegensatz zu verlustlosen Verfahren ist es mit verlustbehafteten Verfahren meistens auch möglich, eine feststehende Bitrate zu erzielen, was für die Echtzeitübertragung (Streaming) große Bedeutung
haben kann. Dementsprechend spricht man entweder von konstanter Bitrate (CBR) oder
variabler Bitrate (VBR). Im allgemeinen hat der Dekoder keinen Einfluß auf die Qualität
des enkodierten und wieder dekodierten Signals, diese wird ausschließlich von Enkoder
bestimmt.
Geläufige Beispiele für verlustbehaftete Musik-Kodierungsverfahren sind:
• MPEG-1 Layer 2 (MP2), MPEG-1 Layer 3 (MP3), MPEG-2/4 AAC (MP4), hier
mit steigender Komplexität bzw. steigender Kompressionsrate genannt. MPEG-4
AAC ist das aktuellste und leistungsfähigste dieser Kodierungsverfahren [ISO01].
• Dolby AC-3 (Dolby Digital) ist ein Kodierungsverfahren für bis zu 6 Audiokanäle
bei Abtastraten zwischen 32 und 48 kHz. Der Haupteinsatzbereich ist Kino und
DVD. Das Verfahren ist standardisiert [ATS95].
• DTS
• Sony ATRAC, SDDS
Abb. 4.5 zeigt den prinzipiellen Aufbau eines typischen wahrnehmungsangepaßten Kodierungsverfahren.
Da das Kodierungsverfahren versucht, wichtige (relevante) Signalanteile von unwichtigen
zu unterscheiden, ist eine umfassende Analyse des Eingangssignals nötig. Diese geschieht
im sogenannten psychoakustischen Modell. Die Analyse sowie die spätere Kodierung werden im Frequenzbereich durchgeführt, wobei die Transformation mittels einer Filterbank
oder Frequenztransformation durchgeführt wird. Dabei werden wichtige Eigenschaften
des Gehörs wie die aus der Psychoakustik bekannten Verdeckungseffekte und die Frequenzauflösung des Gehörs modelliert. Das psychoakustische Modell teilt dann den anderen
Komponenten des Enkoders mit, welche Frequenzbänder bzw. -komponenten besonders
wichtig sind, und welche vernachlässigbar sind. Vor der eigentlichen Quantisierung des
Signals kommen -abhängig vom jeweils betrachteten Kodierungsverfahren- noch einige
Tools, welche die Kodierungseffizienz weiter steigern. Beispiele sind die Ausnutzung von
Redundanzen zwischen zwei Stereokanälen, die Prädiktion von Spektralwerten sowie die
Veränderung der zeitlichen Struktur des Quantisierungsrauschens.
Einer der wichtigsten Bearbeitungsschritte ist die Quantisierung. Basierend auf der Analyse des psychoakustischen Modells versucht der Quantisierer, wichtige Spektralanteile
58
Eingangssignal
?
?
Psychoakustisches
Modell
Filterbank
-
?
-
Spectral
Processing
?
Quantisierung
und
Noiseless Coding
-
BitstreamFormatierung
-
kodierter
Ausgangsbitstream
-
Abbildung 4.5: typischer Ablauf eines wahrnehmungsangepaßten Kodierungsverfahrens, die
dicken Pfeile markieren den Fluß der Audioinformationen, die dünnen den Fluß der Kontrolldaten
hochauflösend zu quantisieren und unwichtigere sehr grob zu quantisieren. Die Quantisierung im Zusammenhang mit der nachgeschalteten Redundanzkodierung der quantisierten
Werte resultiert dann in dem Kodierungsgewinn.
Bei fast allen Irrelvanzkodierungsverfahren sind -wie z.B. bei den meisten MPEGEnkodern- wesentliche Bestandteile des Enkoders nicht normiert, während der Dekoder
vollständig standardisiert ist. Dies hat den Vorteil, daß die Qualität eines solchen Verfahrens nicht mit der Standardisierung unumgänglich feststeht, sondern ständig weiter optimiert werden kann, gleichzeitig jedoch die Kompatibilität mit existierenden Dekodern beibehalten kann. Andererseits hat dieses Vorgehen aber zur Folge, daß für die meisten Verfahren unterschiedlichste konkurrierende Implementierungen mit teilweise deutlich voneinander abweichender Qualität existieren; somit kann man nicht mehr von der Qualität
des Verfahrens selbst sprechen, sondern entweder von der Qualität einer Implementierung
oder von Qualitätspotential eines Verfahrens.
4.2.2.1
Verdeckung und Frequenzgruppen
Ein einzelner Sinuston oder ein schmalbandiges Rauschen kann auf der Frequenzachse dicht liegende Signalanteile maskieren, so dass sie nicht hörbar sind (Simultanver-
59
deckung). Abb. 4.6 zeigt eine Verdeckungsschwelle im Falle eine sinusförmigen Maskierers für unterschiedliche Maskiererpegel. Die unter der Verdeckungsschwelle und somit
nicht hörbaren Signale werden von einem verlustbehafteten Verfahren als unwichtig bzw.
irrelevant eingeordnet.
Abbildung 4.6: Pegel eines Sinustons, der von einem 1kHz-Sinuston unterschiedlichen Pegels
maskiert wird, als Funktion der Frequenz des Testtones (aus [ZF99])
Die Höhe der Verdeckungsschwelle hängt auch von der Tonalität des Maskierers ab. So
kann die Verdeckungsschwelle von rauschhaften Maskierern um bis zu 15dB höher liegen
als bei tonalen Maskierern.
Das Gehör faßt zur spektralen Analyse Schallereignisse in Frequenzgruppen zusammen
[Fle40], [ZF67]. Dieser Effekt läßt sich beispielsweise veranschaulichen, indem man einer
Versuchperson ein Bandpaßrauschen konstanter Intensität aber variabler Bandbreite vorspielt. Die Bandbreite wird im Laufe des Versuchs langsam erhöht. Die wahrgenommene
Lautstärke bleibt bis zu einem gewissen Punkt konstant, dann steigt sie an. An dem Punkt,
wo die Bandbreite des Rauschens bei gleichbleibender Lautstärke maximal ist, können alle Frequenzen innerhalb seiner Bandbreite einer Frequenzgruppe zugeordnet werden. Ein
alternatives Experiment mißt die Verdeckungsschwelle von zwei Schmalbandrauschen
im Abstand ∆f , die einen dazwischenliegenden Sinuston maskieren. Für kleine ∆f , das
heißt innerhalb einer Frequenzgruppe, bleibt die Verdeckungsschwelle konstant, außerhalb der Frequenzgruppe fällt sie mit zunehmendem ∆f ab.
Für unterschiedliche Mittenfrequenzen ergeben sich unterschiedliche Bandbreiten der Frequenzgruppen, deren Breite nichtlinear mit der Mittenfrequenz zusammenhängt. Zwicker
gab folgende Näherung für die Frequenzgruppenbreite ∆f in Abhängigkeit der Mittenfrequenz [ZF99]:
"
2 #0.69
fm
[Hz]
(4.21)
∆f = 25 + 75 1 + 1.4
1000
60
Die Frequenzgruppen überlappen einander; reiht man sie allerdings nicht-überlappend auf
der Frequenzskala auf, so erhält man etwa 24 Bänder, die sogenannten kritischen Bänder.
Die so entstehende Tonheitsskala kann linear von 0 bis 24 in die Pseudoeinheit [Bark]
unterteilt werden [ZF67]. Ein Modell zur Abbildung der Frequenz f auf den Barkwert z
ist nach Zwicker [ZF99] gegeben durch (vgl. Abb. 4.7):
2 !
f
0.76f
+ 3.5 · arctan
[Bark]
(4.22)
z = 13 · arctan
1000
7500
Abbildung 4.7: Bark-Werte nach Zwicker in Abhängigkeit der Frequenz
Die Bark-Skala läßt sich auch als Modell für die nichtlineare Zuordnung von Frequenz zu
Ort auf der Basilarmembran verstehen.
Neben den Verdeckungseffekten im Frequenzbereich (Simultanverdeckung) gibt es auch
zeitliche Verdeckungseffekte, die Nachverdeckung (auch Forward Masking oder Postmasking) und die Vorverdeckung auch Backward Masking oder Premasking). In Abb. 4.8 sind
die Auswirkungen dieser Effekte dargestellt. Kurz nach einem lauten Maskierer liegende
Signalanteile können oft nicht wahrgenommen werden. In geringerem Maße kann eine
solche Verdeckung auch für vorangehende Signalanteile stattfinden.
Die Bedeutung der Simultanverdeckung ist für verlustbehaftete Kodierungsverfahren allerdings von größerer Bedeutung als die Modellierung zeitlicher Verdeckungseffekte.
4.2.2.2
Beispiel MPEG-4 AAC
AAC steht für Advanced Audio Coding und wurde zunächst in MPEG-2 standardisiert,
dann mit leichten Erweiterungen in MPEG-4. AAC ist seinem Vorgänger MP3 vom
61
Abbildung 4.8: Bereiche, in denen Pre- und Postmasking auftritt (aus [ZF99])
Grundprinzip her sehr ähnlich, erlaubt aber neben einigen systematischen Verbesserungen und Erweiterungen zur Erhöhung der Qualität bis zu 48 Kanäle und Abtastraten bis
96kHz.
Im MPEG-4-Standard sind verschiedene Profiles für AAC definiert, die für verschiedene
Anwendungsfälle optimiert sind. Das gängigste Profile ist das AAC-LC (Low Complexity). Weiterhin gibt es die Profiles AAC-Main, das sich i.a. durch höhere Qualität, aber
auch höhere Rechenlast auszeichnet, und weitere bisher kaum verbreitete Profiles wie z.B.
AAC-LTP und AAC-LD, letzteres zur Minimierung der Encoding/Decoding-Latenz.
Neuere Versionen des Standards enthalten darüberhinaus das sogenannte HE-Profile und
zusätzliche Erweiterungen zur parametrischen Audiokodierung, die wesentlich niedrigere
Bitraten bei akzeptabler Qualität ermöglichen.
Durch die offene Standardisierung des Enkoders variiert die Qualität verschiedener Enkoderimplementierungen.
Psychoakustisches Modell
Es ist Aufgabe des psychoakustischen Modells, eine Gewichtung von Signalanteilen
hinsichtlich ihrer Relevanz durchzuführen. Durch die offene Standardisierung bleibt die
praktische Umsetzung des Modells dem Entwickler überlassen. Es ist aber ein Vorschlag
im Standard enthalten, der den grundsätzlichen Ablauf eines psychoakustischen Modells
verdeutlicht und der hier kurz beschrieben werden soll.
Der eingehende Block von Audiodaten wird mittels einer FFT in den Frequenzbereich transformiert. Anschließend wird die Tonalität bzw. Rauschhaftigkeit der einzelnen Spektralwerte für die nachfolgende Bestimmung der Maskierungsschwelle bestimmt, da die Höhe der Maskierung sich für tonale und rauschhafte Maskierer unterscheidet. Zur Bestimmung der Maskierungsschwelle wird das Spektrum anschließend
in die kritische Bänder transformiert. Da die Bänder nicht überlappend sind, ist die
tatsächliche Auflösung ungefähr 3 mal so groß wie durch die kritischen Bänder im nichtüberlappenden Fall vorgegeben. Die Maskierungsschwelle berechnet sich dann mit der sogenannten spreading function, die den Verlauf der Maskierungsschwelle eines einzelnen
Maskierers nachbildet. Die Berechnung der Maskierungsschwelle läßt sich vereinfacht
als Faltung der spreading function mit dem Bark-Spektrum vorstellen. Tatsächlich wird
allerdings die absolute Höhe der Spreading function noch mittels der zuvor berechneten
62
Tonalität bewertet. Zu Bestimmung der endgültigen Maskierungsschwelle wird abschließend noch die Ruhehörschwelle betrachtet.
Aus dem Verhältnis der berechneten Maskierungsschwelle und des Energiespektrums
schätzt das psychoakustische Modell die Zahl der zur Kodierung erforderlichen Bits, falls
keine Artefakte bzw. Unterschiede zum Original wahrgenommen werden sollen.
Abbildung 4.9: Energie über der Frequenz und über Bark mit berechneter Maskierungsschwelle
für einen einzelnen Block der Länge 2048 Abtastwerte
Filterbank
Während das psychoakustische Modell ausschließlich analysierende Funktion hat und
damit im einfachsten Fall eingespart werden kann, fordert AAC die Verwendung eine
Frequenztransformation mittels MDCT (Modified Discrete Cosine Transformation). Ein
zu transformierender Eingangsblock besteht hierbei im Normalfall aus 2048 mit einem
sinusförmigen Fenster gewichteten Abtastwerten, die Überlappung zwischen zwei aufeinanderfolgenden Blöcken beträgt 1024 Abtastwerte. Um die Enkodierqualität bestimmter
Signalausschnitte wie z.B. beim Auftreten starker Transienten zu verbessern, hat der Enkoder die Möglichkeit, statt eines Blocks der Länge 2048 acht Blöcke der Länge 256 zu
verwenden (vgl. Abb. 4.10).
Unabhängig von der verwendeten Fensterlänge besteht zusätzlich die Möglichkeit, statt
des dargestellten sinusförmigen Fensters ein Kaiser-Bessel-Fenster zu verwenden.
Quantisierung und Noiseless Coding
Die Aufgabe des Quantisieres ist es, die Analysedaten des psychoakustischen Modells auszuwerten und entsprechend dieser Information gewisse Spektralbereiche in
63
Abbildung 4.10: Fensterfunktionen von aufeinanderfolgenden Blöcken bei der Enkodierung des
mittleren Blocks mit acht kurzen Blöcken
Abhängigkeit ihrer Hörbarkeit“ mit unterschiedlicher Bitauflösung zu quantisieren. Das
”
Ziel dabei ist, die Leistung des eingefügten Quantisierungsrauschens kleiner als die Maskierungsschwelle zu halten. Zudem hat der Quantisierer unter Umständen ebenfalls die
Vorgabe, eine gewisse Zielbitrate erreichen zu müssen.
Die zu quantisierenden Spektralwerte werden in Bändern zusammengefaßt, denen jeweils
ein Skalierungsfaktor zugeordnet wird. Dieser Faktor wird auf alle Spektralwerte innerhalb des jeweiligen Bandes angewendet, so daß damit der Aussteuerungsbereich des Quantisierers justiert werden kann. Die einzelnen Spektralwerte werden nichtlinear quantisiert,
d.h. hohe Amplitudenwerte werden mit geringerer Auflösung quantisiert als kleine.
Zur zusätzlichen Verminderung der Ausgangsbitrate werden die Scale Factors und
die quantisierten Spektralwerte abschließend mittels verschiedener Huffman-Codebooks
komprimiert. Diese Redundanzkodierung wird im MPEG-Kontext als Noiseless Coding
bezeichnet, da kein zusätzliches Quantisierungsrauschen eingefügt wird. Die Verwendung
dieses verlustfreien Verfahrens erschwert den Quantisierungsprozeß, da die tatsächliche
Ausgangsbitrate vor der Codebook-Zuweisung schwer abzuschätzen ist.
Tools
AAC erlaubt optional den Einsatz verschiedener Tools zur Verbesserung der Qualität.
Nicht jedes Tool ist in jedem Profile erlaubt. Die folgende Liste gibt eine kurze Übersicht
über die möglichen Tools.
• MS (Mid/Side Stereo) und IS (Intensity Stereo): Sowohl das MS-Tool (auch: Joint
Channel Coding) als auch das IS-Tool betrachten jeweils Kanalpaare. Das MS-Tool
64
versucht hierbei, Redundanzen zwischen den Kanälen auszunutzen, während das
IS-Tool versucht, Irrelevanzen im hohen Frequenzbereich zu detektieren und zu
vermeiden.
• PNS (Perceptual Noise Substitution): Rauschhafte Frequenzbänder können mit Hilfe dieses Tools durch vom Dekoder künstlich generiertes Rauschen ersetzt werden
statt quantisiert und Huffman-kodiert zu werden. Das PNS-Tool ist nur in MPEG-4
spezifiziert, soll der Bitstream kompatibel zu MPEG-2 AAC sein, so darf es nicht
aktiviert sein.
• Frequency Domain Prediction: Frequency-Domain Prediction erlaubt höhere
Kodierungs-Effizienz für tonale Signale durch eine adaptive Prädiktion im Frequenzbereich. Dieses Tools kann ausschließlich im Main Profile genutzt werden.
• TNS (Temporal Noise Shaping): Zur Kontrolle der zeitlichen Hüllkurve des Quantisierungsrauschen innerhalb jedes Fensters wird ein adaptiver Filterungsprozeß auf
die Spektralwerte angewendet. Dadurch wird die Energie im Zeitbereich hin zu Abschnitten mit hoher Signalenergie verschoben.
• LTP (Long Term Prediction): Wie die Frequency Domain Prediction ist dieses Tools
speziell für tonales Audiomaterial gedacht. Das LTP-Tool wird im allgemeinen
nicht verwendet; im Gegensatz zur Frequency Domain Prediction scheint der Gewinn des LTP-tools im Verhältnis zur erforderlichen Rechenleistung nur gering zu
sein. LTP kann nur im LD- oder LTP-Profile eingesetzt werden.
Bitstreamformatierung
Die vorliegenden Daten müssen zur Übertragung in einer standardkonformen Reihenfolge angeordnet werden und mit entsprechenden Zusatzinformationen versehen werden.
Je nach Anwendungsfall bietet MPEG-4 verschiedene Möglichkeiten, die Daten bzw. deren Zusatzinformation zu speichern:
• RAW-Format: hier werden nur die reinen Daten übertragen; Informationen über
Samplerate und Profile fehlen. Der Bitstream kann ohne Aufwand nur vom Anfang
dekodiert werden (häufig verwendete Dateinamenerweiterung: *.aac, *.raw)
• ADIF-Format: An den Anfang des RAW-Datenstroms wird ein einzelner Header mit Zusatzinformationen eingefügt (häufig verwendete Dateinamenerweiterung:
*.aac)
• ADTS-Format: An den Anfang jedes enkodierten Blocks des RAW-Datenstroms
wird ein Header mit Zusatzinformationen eingefügt, vergleichbar mit dem MP3Format, somit wird es möglich, im Bitstream zu springen (häufig verwendete Dateinamenerweiterung: *.aac)
65
• MP4-Format: Der RAW-Datenstrom wird als Track in eine Datei oder einen
Stream nach MPEG-4-Dateiformatspezifikation eingebettet. Dies ermöglicht die
synchrone Übertragung z.B. anderer Informationen wie Video, etc. (häufig verwendete Dateinamenerweiterung: *.mp4, *.m4a)
4.2.2.3
Qualität
Die Qualität von wahrnehmungsangepaßten Signalen ist ein viel diskutiertes Thema, dessen Kontrahenten sich zwischen den zwei Polen die Unterschiede sind unhörbar“ und
”
die Unterschiede sind unerträglich“ bewegen.
”
Tatsächlich ist die Qualität eines Kodierungsverfahrens nicht leicht meßbar, denn sie ist
abhängig von
• der verwendeten Enkoderimplementierung, da verschiedene Enkoder unterschiedlich exakte Modelle für die menschliche Wahrnehmung und unterschiedlich effiziente Modelle für Quantisierung und andere Tools verwenden.
• dem verwendeten Eingangssignal, da es für jedes Verfahren und jede Implementierung kritische und unkritische Testsignale gibt. Bei unkritischen Testsignalen
kann die Qualität selbst bei niedrigen Ausgangsbitraten sehr gut sein. Zur Qualitätsbeurteilung eines Verfahrens sollten jedoch möglichst kritische Testsequenzen
ausgesucht werden, damit die Stärken und Schwächen deutlich hervortreten. In vielen Fällen zeichnen sich kritische Testsequenzen durch scharfe Transienten und hohe Frequenzanteile aus.
• den verwendeten Enkodieroptionen. Mit einer Feinanpassung der Enkodieroptionen
läßt sich die Enkodierungsqualität oftmals signifikant im Hinblick auf das verwendete Eingangssignal und die angestrebte Ausgangsbitrate optimieren.
Die naheliegensten und am häufigsten benutzten Enkodieroptionen sind Bitrate
und/oder Qualitätsstufe. Je höher die Bitrate, desto besser klingt i.a. das enkodierte
Signal. Daher beeinflussen sich diese beiden Parameter oft gegenseitig. Viele Enkoder haben einen sog. VBR-Modus, für den lediglich noch die gewünschte Qualität
selektiert wird und kein direkter Einfluß mehr auf die Ausgangsbitrate genommen
werden kann.
Über die einstellbare Grenzfrequenz des Tiefpaßfilters läßt sich eine Tiefpaßfilterung vor dem eigentlichen Enkodiervorgang durchführen. Dies erlaubt dem Enkoder, die verfügbaren Bits auf die tieferen Frequenzanteile zu konzentrieren und vermeidet unter Umständen Zwitscherartefakte.
Überschreitet ein Enkoder seinen optimalen Kompressionsratenbereich, wird sich
die Qualität mit sinkender Bitrate rapide verschlechtern. Durch eine Abtastratenkonvertierung des Eingangssignals hin zu niedrigen Abtastraten läßt sich die Kompressionsrate wieder etwas verringern, so daß die empfundene Qualität in vielen Fällen
steigt.
66
Bei sehr niedrigen Bitraten sinkt die Qualität oft so rasch, daß der Verzicht auf die
Stereo- oder Multichannelinformation sinnvoller ist als die deutlich hörbaren Kodierungsartefakte in Kauf zu nehmen. Bei einem Downmix von Stereo nach Mono
halbiert sich die Kompressionsrate, so daß der Enkoder wieder Spielraum zur Qualitätsoptimierung hat.
Typische Artefakte
Die typischen bei Irrelevanzkodierungsverfahren entstehenden Artefakte sind:
• Pre-Echo und Verschmierungen: Diese Artefakte sind auf die Blockbasiertheit der
Verfahren zurückzuführen und insbesondere bei transienten Signalanteilen wahrzunehmen. Sie treten insbesondere bei längeren Blocklängen auf. Ein Transient wird
mit dem gesamten Audioblocks quantisiert.
Dadurch kann einerseits das Problem auftreten, dass die kurzzeitig an der zeitlichen Position des transienten Signals auftretenden hohen Frequenzanteile als zu unwichtig angesehen werden und daher der wahrnehmbare Schlag zeitlich verschmiert
wird.
Bei der Kodierung von transienten Signalen vor allem nach einer stillen Passage
kann es auch zum sogenannten Pre-Echo kommen: da sich das vom Quantisierer
eingefügte Quantisierungsrauschen zeitlich gleichmäßig über den gesamten Audioblock verteilt und somit auch in der Stille vor dem transienten Signal vorhanden ist,
kann dieses Rauschen unter Umständen vom Hörer als Vorecho“ wahrgenommen
”
werden. AAC versucht diese Artefakte v.a. durch das Umschalten der Fensterlänge
und das TNS-Tool in den Griff zu bekommen.
• Bandbegrenzung und Zwitschern: um die geforderte Bitrate zu erreichen, wird
oft vor der eigentlichen Kodierung ein Tiefpaßfilter auf das Audiosignal angewendet, was auch als Teil des psychoakustischen Modells interpretiert werden
kann. Somit stehen die meisten Bits für die wichtigeren“ tieferen Frequenzen zur
”
Verfügung. Abhängig vom Signaltyp und der gewählten Frequenz kann eine solche
Tiefpaßfilterung als störend wahrgenommen werden. Bei einer zu hoch gewählten
Grenzfrequenz kann es jedoch zu störenderen Artefakten kommen: dem sogenannten Zwitschern oder Blubbern. Dieses Artefakt resultiert aus einer häufigen An/Ausschaltung der hohen Frequenzbänder (wenn noch ausreichend Bits vorhanden
sind, können die als unwichtigere Anteile gesehenen hohen Frequenzen mitkodiert
werden, andernfalls nicht).
• Schwankungen/Verzerrungen des Stereobildes / der Räumlichkeit: die gesonderte
Kodierung von Stereoinformationen (oder Surroundinformationen) kann zu zeitlichen Variationen des Sterobildes und der wahrnehmbaren Räumlichkeit eines Audiosignals führen. Dies trifft insbesondere auf die in Zukunft aufkommenden parametrischen Kodierungsverfahren zu.
67
• Rauheit/Quantisierungsrauschen: der subjektive Höreindruck der Rauheit kann
durch ein von Block zu Block stark veränderliches Quantisierungsrauschen hervorgerufen werden.
Qualitätsmessung
Ein objektiver Vergleich verschiedener Enkoder ist schwer, da die etablierten Verfahren
zur Qualitätsmessung im Zusammenhang mit Kodierungsverfahren versagen. Dies hat v.a.
drei Gründe:
• die hohe Zeitinvarianz der Kodierungsverfahren, die ca. alle 10 − 20ms ihr
Übertragungsverhalten ändern können
• die Ausgangsqualität hängt stark vom Eingangssignal ab,
• durch die intensive Ausnutzung von psychoakustischen Erkenntnissen wird bewußt
Rauschen insbesondere in verdeckten Frequenzbereichen eingeführt; wird der Pegel
dieses Rauschens mit einfachen Mitteln wie einer SNR-Messung ermittelt, so wird
die Unhörbarkeit“ dieses Rauschens nicht berücksichtigt.
”
Es existieren zwar Systeme, die versuchen, die Qualität von Kodierungsverfahren objektiv
zu messen [ITU01], diese besitzen allerdings bisher nur beschränkte Aussagekraft. Somit
bleibt als einzige und letzte Alternative zur Qualitätsbeurteilung von Kodierungsverfahren
nur die subjektive Beurteilung. Will man die Ergebnisse dieser subjektiven Beurteilung
zumindest ansatzweise objektivieren, so bleibt nur der aufwendige Hörtest.
Die Qualität des Dekoders spielt entgegen einer verbreiteten Meinung bei praktisch keinem wahrnehmungsangepaßten Verfahren eine Rolle. Die Dekoder können nach objektiven Kriterien auf ihre Standardkonformität überprüft werden. Im Falle der Standardkonformität sind die Unterschiede zwischen den Ausgangssignalen verschiedener Dekoder
vernachlässigbar.
4.2.2.4
Auswahlkriterien von Kodierungsverfahren
Es existiert kein Audiokodierungsverfahren, das in jedem Einsatzbereich uneingeschränkt
eingesetzt werden kann. Abhängig von Einsatzbereich lassen sich unterschiedliche Kriterien benennen, die im folgenden stichpunktartig dargestellt und erläutert werden sollen.
• Audioqualität: Die Qualität des kodierten und wieder dekodierten Signals ist sicherlich das wichtigste Kriterium bei der Auswahl des Kodierungsverfahren und
hängt mehr oder weniger direkt mit vielen der nachfolgenden Punkte zusammen.
Die Qualität ist bei wahrnehmungsangepaßten Verfahren abhängig vom Eingangssignal, so daß die Wahl des Kodierungsverfahren vom zu kodierenden Signal
abhängen kann. Ist die Audioqualität das einzige Kriterium, so ist einem verlustlosen Verfahren der Vorzug zu geben.
68
Ein weiterer Aspekt ist unter Umständen auch die Verschlechterung der Qualität
nach mehrmaligem En- und Dekodieren des gleichen Signals (Tandemkodierung),
z.B. wegen dazwischenliegender Bearbeitungsschritte. Die Qualität nach mehrmaliger Tandemkodierung schwankt von Verfahren zu Verfahren. Tandemkodierung
sollte möglichst vermieden werden.
• Bitrate: Bitrate und Qualität haben direkt aufeinander Einfluß. Im allgemeinen
steigt die Qualität mit zunehmender Bitrate. Verschiedene Verfahren sind immer
auf bestimmte Kompressionsraten optimiert und erzielen bei diesen die besten Ergebnisse; bei abweichenden Kompressionsraten können sie schlechter klingen als
andere Verfahren.
Es spielt ebenfalls eine Rolle, ob ein Verfahren die Enkodierung in einer konstanten oder variablen Bitrate erlaubt. Beispielsweise sind Verfahren mit variabler Bitrate (VBR) für Streaminglösungen aufgrund der schwankenden benötigten
Übertragungsrate eher ungeeignet, für Archivierungslösungen hingegen geeignet.
• Komplexität: Die Komplexität eines Verfahrens zeigt sich in der erforderlichen Rechenleistung für eine Kodierung/Dekodierung. Je komplexer ein Verfahren ist, desto
mehr steigt die Auslastung des Rechners/Chips. Im Gegenzug steigt allerdings mit
der Komplexität meistens auch die Qualität.
Im allgemeinen sind die Dekoder wesentlich weniger aufwendig als die Enkoder.
Aus diesem Grund sind Dekoder billiger und einfacher zu realisieren (z.B. portabel), während Enkoder sowohl in Entwicklung als auch in der Umsetzung höheren
Aufwand fordern.
• Delay: In Einzelfällen, insbesondere im Falle zweiseitiger Kommunikation wie
z.B. mit dem Telefon ist auch das Enkodierungs-/Dekodierungsdelay ein wichtiges
Auswahlkriterium. Wenn dieses Delay groß ist wie z.B. bei den meisten MPEGVerfahren, leidet der Gesprächsfluß unter dieser Einschränkung. Mit steigendem
Delay steigt meistens auch die Qualität eines Verfahrens durch die umfangreichere
Möglichkeiten der Signalanalyse leicht an.
• Verbreitung: Je verbreiteter ein Verfahren ist, desto mehr Menschen können kodierte Dateien ohne große Probleme abspielen. Will man also z.B. Demodateien für
möglichst viele Hörer zugänglich machen, so ist die Wahl eines (je nach Zielmarkt
in Hardware oder Software) verbreiteten Verfahrens sinnvoll.
• Kosten: Die Kosten für die Benutzung eines Verfahrens schwanken. Teilweise
dürfen Verfahren kostenlos benutzt werden, teilweise muß man vor der Benutzung
eine Lizenz erwerben (meistens im Kaufpreis enthalten). Es kann sogar vorkommen, daß pro enkodiertem Material Lizenzgebühren an den Rechteinhaber fällig
werden.
Beim Hardwaredesign sind auch die Kosten von Enkoder-/Dekoderbausteinen zu
beachten.
4.3. KANALKODIERUNG
69
• Zukunftssicherheit und Rechtssicherheit: Gerade bei der Anwendung von Kodierungsverfahren für Archivierungen spielt die Frage der Zukunftssicherheit eines
Verfahrens eine wichtige Rolle, denn funkionsfähige Dekoder müssen auch noch
in mehreren/vielen Jahren zur Verfügung stehen. Anhaltspunkte dafür sind zum
Beispiel, ob das Verfahren international standardisiert ist, ob es sich um einen de
facto-Standard handelt und ob Quelltexte zu dem Verfahren frei verfügbar sind.
Die meisten Verfahren berühren ein oder mehrere Patente. Es existieren nichtkommerzielle Kodierungsverfahren, die diese Patente unter Umständen verletzen,
den Anwender aber nicht darauf aufmerksam machen. Auch wenn diese Patentverletzungen im Moment nicht verfolgt werden, muß das nicht bedeuten, daß diese
Verfahren auch in Zukunft bedenkenlos benutzt werden können bzw. dürfen.
• technische Kompatibilität: selbstverständlich muß das Verfahren auf die Anforderungen hinsichtlich der zu kodierenden Eingangssignale wie Abtastrate, Zahl der
Kanäle, Art des Materials, etc. ausgelegt sein
4.3
Kanalkodierung
Während durch die Quellenkodierung eine möglichst redundanzarme Darstellung des zu
übertragenden Signals erfolgen soll, werden bei der Kanalkodierung Zeichen hinzugefügt,
um die durch Störungen im Kanal verfälschten Kodewörter als falsch erkennen und,
nach Möglichkeit, korrigieren zu können. Fehleranfällige Übertragungskanäle sind elektrische, optische oder elektromagnetische Signalstrecken, aber auch Speichermedien, die
von Beschädigungen der Oberfläche (CD), Selbstentmagnetisierung (Magnetbänder) oder
Head Crashes (Festplatten) beeinträchtigt sein können. Im Gegensatz zur analogen Audioübertragung, bei der solche Übertragungsfehler meist als geringfügig erhöhter Rauschpegel in Erscheinung treten, kann bei der digitalen Übertragung bereits ein geringfügiger
Übertragungsfehler eine große Signalverzerrung bewirken. Bereits ein einzelnes falsch
übertragenes bit kann eine im 2er-Komplement dargestellte Amplitude um den Betrag der
Spitzenspannung Us verändern, wenn das MSB davon betroffen ist. Fehlerquellen einer
gestörten Übertragung können sein
Hinsichtlich der Verteilung von Fehlern auf dem Kanal/auf dem Medium unterscheidet
man
• Einzelfehler (random errors) und
• Bündelfehler (burst errors)
wobei das Design einer Fehlererkennung meist auf die Fehlerstatistik des Kanals zugeschnitten ist.
Kenngrößen für das Fehlerverhalten von Kanälen sind die
• bit error rate (BER) als Anzahl fehlerhafter bits bezogen auf die Gesamtzahl der
übertragenen bits
70
• block error rate (BLER) als Anzahl der pro s übertragenenen fehlerhaften Datenblöcke (Kodewörter)
Die Fehlerkorrektur optischer Speichermedien (CD, DVD) reduziert eine typische (unkorrigierte) BER von 10−5 bis 10−4 auf einen Wert von 10−12 , der Standard für Computeranwendungen ist. Gleichzeitig gilt eine BLER von 220 für die CD-Herstellung als
akzeptabel. Bei 7350 übertragenen Blöcken pro s entspricht dies einer Blockfehlerrate
von 3%.
Abbildung 4.11: Strategien der Fehlerschutz-Kodierung
Jede Fehlerschutz-Kodierung folgt der Strategie in Abb. 4.11. Zunächst wird den zu
übertragenden Quellkode zur Bildung eines Kanalkodeworts ein overhead an Redundanz
hinzugefügt. Beim Empfänger wird das empfangene Datenwort zunächst geprüft. Wird es
als fehlerhaft erkannt, kann eine neue Übertragung angefordert werden (automatic repeat
request). Dies ist insbesondere bei paketvermittelter, asynchroner Übertragung möglich.
Bei synchroner Übertragung dagegen muss das System versuchen, den Fehler mit Hilfe
der redundanten Daten selbst zu korrigieren. Wenn eine Fehlerkorrektur nicht möglich ist,
kann der Fehler durch Stummschaltung (mute), durch Wiederholen des letzten Werts oder
durch Interpolation verschleiert werden.
4.3.1
Grundbegriffe und Kenngrößen
Ausgehend von einem allgemeinen Modell der Signalübertragung sei
A∗ = {a∗1 , a∗2 , . . . , a∗L }
(4.23)
das Alphabet der l-stelligen Quellenkodewörter a∗i mit
a∗ = (ui1 , ui2 , . . . , uil )
(4.24)
und i = 1, 2, . . . , L. Bei binären Übertragungen ist
uij ∈ U = {0, 1}
(4.25)
4.3. KANALKODIERUNG
71
und das Alphabet A∗ mit
A∗ = {0, 1}l
(4.26)
besteht aus L = 2l verschiedenen, l-stelligen Binärfolgen. Der Kanalkodierer fügt den
l-stelligen Quellenkodewörtern bei der Transformation in n-stellige Kanalkodewörter jeweils k = n − l redundante Stellen hinzu. Das Kanalalphabet A mit
A = {a1 , a2 , . . . , aL }
(4.27)
besteht somit ebenfalls aus L n-stelligen Binärfolgen, d.h.
A ⊂ {0, 1}n
(4.28)
Die Kanalkodewörter des Alphabets A können bei der Übertragung durch Störungen in
Wörter des Alphabets B verändert werden, mit
B = {b1 , b2 , . . . , aN }
(4.29)
wobei das Alphabet B aus N = 2l 2k = 2n Kodewörtern besteht, da auch die k redundanten Stellen in der empfangenen Binärfolge gestört sein können. Der Kanaldekodierer
überprüft, ob die empfangene Binärfolge ein Kanalkodewort aus dem Alphabet A ist. Falls
dies der Fall ist, übersetzt er sie zurück in ein Wort des Alphabets B ∗ , wobei A∗ = B ∗ .
Bei der Kanaldekodierung können empfangene Kodeworte aus dem Alphabet B nur dann
als fehlerhaft erkannt werden, wenn sie nicht zugleich Elemente des Alphabets A sind,
d.h. wenn nicht geringfügige Verfälschungen der Kodewörter ai wiederum auf gültige
Kodewörter aj führen. Die Robustheit eines Kodes gegenüber solchen, nicht erkennbaren
Fehlern wird durch die sog. Hamming-Distanz dij beschrieben. Sie ist definiert als die
Anzahl der Stellen, in denen sich zwei Kodewörter ai und aj unterscheiden. In einem
Binärkode ergibt sich die Hamming-Distanz durch die bitweise Modulo-2-Addition von
ai und aj , d.h.
d(ai , aj ) =
n
X
(uig ⊕ ujg )
(4.30)
g=1
Die Hamming-Distanzen zwischen den Kodewörtern eines Alphabets sind in der Regel
unterschiedlich. Für die Erkennbarkeit von Fehlern von Bedeutung ist daher vor allem
die minimale Hamming-Distanz dmin (auch: Minimalabstand) eines Kanalkodes. Um ein
Kanalkodewort ai in ein anderes gültiges Kanalkodewort aj zu verfälschen, müssen mindestens dmin verschiedene Stellen uij verfälscht werden. Somit muss im Rückschluss ein
Kanalkode, der alle Verfälschungen von fe (oder weniger) verschiedenen Stellen sicher
erkennen kann, eine minimale Hamming-Distanz dmin von
dmin = fe + 1
besitzen.
(4.31)
72
Eine Binärfolge bj , die aus der fehlerhaften Übertragung eines Kodeworts ai hervorgeht, wird immer in das Kanalkodewort übersetzt ( korrigiert“), zu dem sie die geringste
”
Hamming-Distanz hat. Somit kann eine korrekte Rekonstruktion des verfälschten Kanalkodeworts immer dann erfolgen, wenn die Anzahl der verfälschten Stellen fk kleiner als
dmin
ist, d.h. wenn
2
dmin = 2fk + 1
(4.32)
Die minimale Hamming-Distanz dmin eines Kanalkodes hängt von der Anzahl k der redundanten Stellen ab. Falls der Kanalkode keinerlei Redundanz enthält, d.h. für k = 0 und
A = A∗ , ist dmin = 1, d.h. Übertragungsfehler können weder erkannt noch korrigiert
werden. Für einen gegebenen Wert von dmin lässt sich jedoch die Anzahl k der redundanten Stellen errechnen, die mindestens notwendig ist, um einen Kode zu konstruieren,
dessen Kodewörter einen Mindestabstand von dmin haben. Für Kodewörter
der Länge n,
n
n
n
d.h. in einem Alphabet B
= {0, 1} von 2 Binärfolgen, kann es 1 Binärfolgen mit der
n
Hamming-Distanz 1, 2 Binärfolgen mit der Hamming-Distanz 2, u.s.w. geben, wobei
n
n!
(4.33)
=
i!(n − i)!
i
gilt. Davon sind nur 2l Binärfolgen Kanalkodewörter, und diese weisen untereinander
einen Minimalabstand von ≥ dmin auf. Somit muss gelten
n
n
n
n
l k
l
2 =22 ≥2 1+
+
+ ... +
(4.34)
1
2
fk
Daraus folgt
k
l
2 ≥2
fk X
n
i=0
i
(4.35)
oder
−1
]
[ dmin
2
X
l+k
k
l
2 ≥2
i
i=0
(4.36)
4.36 wird auch als Hamming-Schranke bezeichnet. Sie ist eine untere Schranke für die
Anzahl redundanter Stellen k, die zur Korrektur von ≤ fk Fehlern erforderlich ist, bzw.
eine obere Schranke für die Anzahl L der möglichen Kanalkodewörter, die bei geg. Redundanz k und bei geg. dmin möglich sind. Das Gleichheitszeichen gilt nur für bestimmte
Kombinationen von dmin , k und l. Entsprechende Kodes nennt man dichtgepackt oder
perfekt.
Beispiel
4.3. KANALKODIERUNG
73
Ein Kanalkode soll 16-stellige Quellenkodewörter in Kanalkodewörter verwandeln, so dass fk =
2 Fehlerstellen sicher korrigiert werden können. Wie groß muss die Anzahl k der redundanten
Stellen sein ?
Mit 4.32 muss der Minimalabstand des Kanalkodes dmin = 5 betragen. Mit 4.36 folgt
2k ≥
2 X
16 + k
i=0
i
=
16 + k
16 + k
16 + k
+
+
0
1
2
1
2k ≥ 1 + (16 + k) + (16 + k)(15 + k) = 0.5k 2 + 16.5k + 137
2
Dies ist erfüllt für
k≥9
(4.37)
Für einen Kode mit 16-stelligen Quellenkodewörter und fk = 2 sind also mindestens 9 redundante
Stellen erforderlich, die Kanalkodewörter haben somit 25 Stellen.Für k = 9 ist 2k = 512 und
0.5k 2 + 16.5k + 137 = 326. Der Kode ist somit nicht perfekt, seine Redundanz wird nicht voll
ausgenutzt.
Neben der Korrekturleistung eines Kanalkodes, die durch dmin charakterisiert wird, spielt
auch die Effektivität eine Rolle, die durch den Aufwand an zusätzlichen, redundanten
Stellen gegeben ist. Ein Maßzahl hierfür ist die Koderate R mit
l
(4.38)
n
Die Effektivität eines Kanalkodes ist umso höher, je größer seine Koderate ist. Kanalkodes
mit n Stellen und l Informationsstellen bezeichnet man auch als (n, l)-Kodes.
R=
4.3.2
Beispiele
Wenn die Kodewörter eines Kanalkodes eine feste Länge haben, bezeichnet man den Kode
als Blockkode. Wenn die Kodewörter (und die darauf angewandten Verknüpfungen) die
algebraischen Eigenschaften einer Gruppe aufweisen, spricht man von einem linearen
Blockkode oder Linearkode. Lineare Blockkodes, die zusätzlich die Eingenschaften eines
Körpers erfüllen, bezeichnet man als zyklische Kodes. Eine gute Übersicht über verschiedene Kodierungsverfahren und ihre algebraischen Grundlagen findet man bei [KPS03].
Bei Faltungskodes (convolutional codes, blockfreie Kodes) wird die Redundanz kontinuierlich in einen Datenstrom, den der Quellkodierer abgibt, eingefügt.
4.3.2.1
Einfache Parität
l-stellige Quellenkodewörter a∗ = (ui1 , ui2 , . . . , uil ) werden durch ein Paritätselement
74
ui,l+1 =
l
X
uij mod2
(4.39)
j=1
=
zum Kanalkodewort a (ui1 , ui2 , . . . , uil , ui,l+1 ) ergänzt. Zur Fehlererkennung wird ein
Prüfvektor s0 gebildet mit
s0 =
l+1
X
uij mod2
(4.40)
j=1
Für s0 = 0 liegt kein oder ein nicht detektierbarer Fehler vor.
Beispiel
a∗ij
00
01
10
11
P
0
1
1
0
Tabelle 4.1: Wahrheitstafel für Addition modulo 2
Durch Hinzufügen des Paritätselements P entsteht ein linearer (3,2)-Blockkode mit dmin = 2.
Somit ist fe = 1 und fk = 0, d.h. Einzelfehler werden sicher erkannt, können aber nicht korrigiert
werden.
Einfache Paritätskodes sind Blockkodes mit einer Hamming-Distanz von dmin = 2. Ein
einfacher Paritätscheck kann somit eine ungerade Anzahl von Fehlern erkennen, aber
nicht korrigieren. Er wird z.B. bei der internen Datenübertragung in Rechnern eingesetzt
oder bei der Audioübertragung nach AES3 (AES/EBU) als Paritätsbit innerhalb eines
32-bit Subframes.
4.3.2.2
Mehrdimensionale Parität (Kreuzsicherung)
Wesentlich leistungsfähiger als einfache Paritätskodes sind iterierte Kodes, z.B. zweidimensionale Kodes, bei denen das Quellkodewort in Zeilen und Spalten angeordnet wird.
Jede Zeile und jede Spalte erhält ein Paritätsbit (Abb. 4.12).
Die minimale Hamming-Distanz eines Kodes nach Abb. 4.12 ist dmin = 4. Einfachfehler
werden mit Sicherheit erkannt und können durch Invertierung korrigiert werden, da sich
die Prüfvektoren mit s0 = 1 von Zeile und Spalte im fehlerhaften Element kreuzen. Zweifachfehler und alle ungeradzahligen Fehlerhäufigkeiten werden mit Sicherheit erkannt,
auch wenn sie nicht immer korrigiert werden können. Die Koderate beträgt
R=
ml
(m + 1)(l + 1)
(4.41)
4.3. KANALKODIERUNG
75
Abbildung 4.12: Zweidimensionaler Paritätskode
Iterierte Kodes können auf drei- oder mehrdimensionale Verfahren erweitert werden.
4.3.2.3
Zyklische Kodes
Zu den zyklischen Kodes gehören die auf der CD und DVD eingesetzten ReedSolomon-Kodes. Sie kommen bei der CD in einem zweistufigen Prozess zur Anwendung
mit zusätzlicher Kodespreizung (Interleaving) zwischen den Kodierungsstufen (CrossInterleave Reed-Solomon Code, CIRC). In einem ersten Schritt werden jeweils 24 8-bitSymbolen 4 Paritätswörter (Q) hinzugefügt und 28-bit-Kanalkodewörter ausgegeben (C2
Encoder). Die C2 Kodewörter werden anschließend auf 28 verschiedene Blöcke verteilt,
die mit einer Distanz von bis zu 109 Blöcken über die CD verteilt werden. In einem zweiten Schritt werden jeweils 28 8-bit-Symbolen weitere 4 Paritätswörter (P) hinzugefügt
und als 32-bit-Kanalkodewörter auf der CD aufgezeichnet (C1 Encoder). Die Redundanz
beträgt somit insgesamt 25%. Jede Dekodierungsstufe kann bis zu 4 fehlerhafte Symbole
korrigieren, wenn der der Fehlerort bekannt ist, und zwei Symbole, wenn der Fehlerort
nicht bekannt ist. Durch die Kodespreizung werden Bündelfehler über einen größeren
Bereich der CD verteilt, wodurch sie innerhalb jedes Blocks leichter korrigiert werden
können. Dadurch kann das Gesamtsystem bis zu 3874 aufeinanderfolgende, fehlerhafte
bits korrigieren, entsprechend einer Spurlänge von 2,5 mm auf der CD.
4.3.2.4
Faltungskodes
Bei Faltungskodes wird die Redundanz kontinuierlich in den Datenstrom der Quelle eingefügt. Für die Realisierung genügt eine einfache Kombination von Schieberegistern
und XOR-Gattern. Bei der Variante in Abb. 4.13 erzeugt ein fehlerhaft übertragenes Datensymbol eine Kodeverletzung in zwei jeweils um drei Zeitpunkte verschobenen Kodewörtern. Auf diese Weise kann der Fehler erkannt und korrigiert werden. Faltungskodes benötigen für die Erkennung und Korrektur von Einzelfehlern weniger Redundanz als
Blockkodes, verhalten sich bei Bündelfehlern allerdings weniger robust. Sie sind geeignet
für die Kodierung kontinuierlicher Datenströme (Digitaler Rundfunk) mit rauschhaften
76
Störungen. Sie eignen sich aufgrund ihrer blockfreien Struktur nicht für paketorientierte
Übermittlung (Netzwerke, asynchrone Übertragung) oder für Speichermedien, auf denen
vorwiegend Bündelfehler auftreten.
Abbildung 4.13: Faltungskode
4.4
Leitungskodierung
Bei der Quellkodierung geht es um eine Kodierung von Audiosignalen, die zum einen
die vom A/D-Wandler gelieferte Auflösung darstellen kann, dabei möglichst redundanzarm ist und zum anderen ein geeignetes Format für die Weiterverarbeitung durch Hardund Software zur Signalverarbeitung bildet. Am weitesten verbreitet ist die Darstellung in
linearer Pulskode-Modulation (Linear PCM) mit Zahlendarstellung als 2er-Komplement.
Für den in jüngster Zeit im Zusammenhang mit der Super Audio CD (SACD) favorisierten
Direct Stream Digital (DSD) Kode gibt es dagegen (noch) keine Signalverarbeitungsbausteine.
Bei der Kanalkodierung geht es darum, den zu übertragenden Zeichen für die Übertragung
und Speicherung in realen Kanälen geeignete Signale zuzuordnen. Bei digitalen Audiosignalen sind vor allem eine möglichst effiziente Ausnutzung der vorhandenen spektralen
Bandbreite, Gleichspannungsfreiheit, ein selbsttaktender Signalverlauf und Unempfind-
4.4. LEITUNGSKODIERUNG
77
lichkeit gegenüber Interface Jitter von Bedeutung. Für die Leistungsfähigkeit von Kanalkodes werden folgende Kenngrößen verwendet:
• Tmin , Tmax : Minimale/maximale Dauer zwischen elektrischen Potentialwechseln in
Einheiten der Bitperiode des Quellkodes. Tmin ist gleichzeitig ein Maß für die Mindestanzahl der pro Potentialwechsel übertragbaren Datenrate (Density Ratio, DR)
und damit für die Kodeeffizienz.
• Window Margin Tw : Minimale Differenz der Zeitdauer zwischen zwei Potentialwechseln bei zu unterschiedlichen Datenfolgen gehörenden Signalverläufen. Tw ist
somit ein Maß für die Robustheit des Kodes gegenüber Interface-Jitter, d.h. einer
Verschiebung der Signalflanken und daraus resultierender, falscher Dekodierung.
• Figure of Merit, F oM = DR · Tw : Produkt aus Kodeeffizienz und Robustheit gegenüber Jitter als Maß für die Leistungsfähigkeit des Kodes.
4.4.1
Einfache Kodes
Einfache Kodes bilden eine logische 0“ und 1“ auf einen zugehörigen Signalverlauf ab.
”
”
Im Fall eines return to zero Kodes (RZ) wird nur für jede logische 1“ ein Puls erzeugt,
”
für eine 0“ bleibt das Signal auf dem low“-Potential. Ein nonreturn to zero (NRZ) Kode
”
”
bildet eine 1“ und eine 0“ direkt als hohes oder niedriges Potential ab, ohne dazwischen
”
”
auf ein niedriges Potential zurückzukehren. Der nonreturn to zero inverted (NRZI) Kode
bildet jede 1“ auf einen Potentialwechsel ab (egal in welche Richtung), während eine
”
0“ keinen Potentialwechsel auslöst. Der Biphase Mark Kode (auch: Frequenzy Modula”
tion, FM) bildet jede 0“ auf einen Potentialwechsel ab und erzeugt für jede 1“ einen
”
”
zusätzlichen Potentialwechsel in der Mitte der Bitperiode. Der Manchester Kode (auch
Phase Encoding, PE) bildet jede 1“ auf einen Potentialwechsel in positive Richtung, jede
”
0“ auf einen Potentialwechsel in negative Richtung ab, sodass aufeinanderfolgende 1en
”
oder 0en einen zusätzlichen Potentialwechsel erforderlich machen.
4.4.2
Gruppenkodes
Durch Gruppenkodes lässt sich Effizienz und Robustheit der Kanalkodierung gegenüber
einfachen Kodes erhöhen. Dabei werden Gruppen von m Quellbits durch eine Zuweisungstabelle auf jeweils n Kanalbits abgebildet, wobei n > m. Dadurch erhöht sich die
Kanalbitrate gegenüber dem Quellkode um den Faktor n/m. Die höhere Effizienz wird
dadurch erzielt, dass von den 2n Kanalkodewörtern nur diejenigen 2m Wörter ausgewählt
werden, die mindestens d und höchstens k 0en zwischen zwei 1en aufweisen, wodurch
die für die Übertragung notwendige Bandbreite reduziert bzw. vorhandene Bandbreiten
durch eine höhere Anzahl verschiedener Kodewörter gefüllt“ werden können. Solche
”
Kodes werden auch als (d,k) Run-Length-limited (RLL) Kodes bezeichnet.
Beispiel ist der 4/5 Modified NRZI (MNRZI) Kode (auch Group Coded Recording Kode,
GCR), der Blöcke von 4 Quellbits auf jeweils 5 Kanalbits abbildet. Benachbarte 1en sind
78
Abbildung 4.14: Einfache Kanalkodes
erlaubt, aber maximal 2 0en zwischen zwei 1en, sodass sich eine (0,2) RLL Kodierung
ergibt. Tab. 4.2 zeigt das zugehörige Abbildungsschema. Der GCR Kode wird z.B. bei der
MADI-Schnittstelle für digitale, mehrkanalige Audiosignale eingesetzt.
Quellbits
0000
0001
0010
0011
0100
0101
0110
0111
Kanalbits
11001
11011
10010
10011
11101
10101
10110
10111
Quellbits
1000
1001
1010
1011
1100
1101
1110
1111
Kanalbits
11010
01001
01010
01011
11110
01101
01110
01111
Tabelle 4.2: Abbildungstabelle für den GCR (4/5 MNRZI) Kode
Weitere Kodevarianten im Audiobereich zeigt Tab. 4.3
Kode
GCR (Group Coded Recording)
8/10 Kode
EFM (Eight-to-fourteen modulation)
EFMPlus
m
4
8
8
8
n
5
10
14 (+3)
16
d
0
0
2
2
k
2
3
10
10
Anwendung
MADI Interface
DAT
CD
DVD
Tabelle 4.3: Verschiedene Gruppenkodes im Audiobereich
Der bei der CD eingesetzte EFM-Kode (Eight-to-fourteen modulation) bildet 8 Quellbits auf 14 Kanalbits und fügt am Ende jedes Kanlkodeworts 3 zusätzliche Merging Bits
hinzu, um einen gleichspannungsfreien Signalverlauf herzustellen. Bei der DVD kommt
ein modifizierter Kode (EFMPlus) zum Einsatz, der auf Merging Bits verzichtet, bei der
4.5. INTERFACES
79
Abbildung von 8 auf 16 Kanalbits jedoch eine von 4 Zuweisungstabellen so auswählt,
dass sich ein gleichspannungsfreies Signal ergibt. Im Anschluss an die Kanalkodierung
wird das Signal in eine NRZI-kodierte Abfolge von pits und lands, d.h. Vertiefungen und
Erhöhungen auf der Oberfläche der CD umgesetzt.
Bezogen auf die Quellbitrate ergibt sich für Gruppenkodes ein Window Margin von Tw =
m
, eine Density Ratio von DR = Tmin = (d + 1) m
und eine Figure of Merit von F oM =
n
n
m2
(d + 1) n . Tab. 4.4 zeigt die Kennzahlen gängiger einfacher Kodes und Gruppenkodes
im Vergleich.
gleichspannungsfrei
selbsttaktend
Tmin
Tmax
DR
Tw
F oM
RZ
nein
nein
0.5
∞
0.5
1
0.5
NRZ
nein
nein
1
∞
1
1
1
NRZI
nein
nein
1
∞
1
1
1
FM
ja
ja
0.5
1
0.5
0.5
0.25
PE
ja
ja
0.5
1
0.5
0.5
0.25
GCR
nein
ja
0.8
2.4
0.8
0.8
0.64
EFM
ja
ja
1.41
5.18
1.41
0.471
0.66
EFMPlus
ja
ja
1.5
5.5
1.5
0.5
0.75
Tabelle 4.4: Kennzahlen verschiedener einfacher Kodes und Gruppenkodes im Audiobereich
4.5
Interfaces
Schnittstellen (interfaces) definieren sowohl physikalische Eigenschaften (Spannung,
Impedanz, Datenrate) als auch logische Eigenschaften (Übertragungsprotokoll) der
übertragenen Daten. Genormte (standardisierte) Schnittstellen bieten durch ihre Kompatibilität den Vorteil der leichteren Systemintegration. Digitale Schnittstellen können
als klassische Punkt-zu-Punkt-Verbindungen oder als Netzwerk-Protkolle ausgelegt sein.
Während traditionelle Schnittstellen wie AES/EBU oder MADI zu ersten Gruppe gehören,
werden zunehmend auch Netzwerk-Protkolle oder Bussysteme aus dem Computerbereich
(IEEE 1394, USB, TCP/IP) für die Übertragung von Audiodaten genutzt.
4.5.1
AES 3
AES3 ist der 1985 eingeführte und 1992 und 1997 überarbeitete, wichtigste nichtproprietäre Standard für die zweikanalige, digitale Audioübertragung. Er definiert für
jeden Abtastwert im Audiosignal ein Frame, das aus zwei Subframes für Kanal 1 mit
der Präambel X und Kanal 2 mit der Präambel Y besteht. Insgesamt 192 Frames bilden
einen Block, dessen Beginn durch die Präambel Z markiert wird. Jedes Subframe besteht
aus 32 Bits, von denen 4 für die Präambel, 24 für die Audiodaten (2er-Komplement, LSB
first) und jeweils eines für Validity (Gültigkeit des Datenworts), User (vom Anwender definierbare Information), Channel Status (Informationen über den Audiodatenstrom) und
Parity (Paritätsbit zur Fehlererkennung) stehen (Abb.4.15).
80
Abbildung 4.15: Subframe nach AES 3 (AES/EBU)
Der Datenstrom wird mit einer Biphase-Mark-Kanalkodierung übertragen. Die
Präambeln X, Y und Z, die den Anfang eines Frames, eines Subframes und eines
Blocks markieren, sind als kodeverletzende (im Kanalkode nicht auftretende) Signalmuster in den Datenstrom eingesetzt. Für die Bits U (User) und V (Validity) hat sich keine
einheitliche Verwendung etabliert, verschiedene Varianten der Nutzung findet man bei
[RW04]. Die 24 Byte (= 192 Bits) eines Channel Status Blocks entahlten Information
über Abtastrate und Wortbreite der Audiodaten sowie optional Information über Emphasis, Adressierung und Timecode (s. Tab. 4.5). Obligatorisch ist nur die Bereitstellung von
Daten in Byte 0, während die Nutzung der Bytes 1 bis 23 freigestellt ist.
Byte
0
1
2
3
4
5
6-9
10-13
14-17
18-21
22
23
Bedeutung
Kontrolldaten (Professional/Consumer, Abtastrate, Emphasis)
Mode, User Bit Management
Verwendung Aux Bits, Wortbreite, Alignment
Mehrkanalmodus, Kanalnummer
Abtastrate
Reserved
Quellenidentifizierung (4 Byte ASCII)
Zielidentifizierung (4 Byte ASCII)
Lokale Adressierung
Timecode
Channel status reliability flags
CRCC
Tabelle 4.5: AES 3 Channel Status Block
Die Consumer-Variante der AES3-Schnittstelle (IEC 60958 oder landläufig S/PDIF für
Sony/Philips Digital Interface) wurde bereits 1984 eingeführt und ist vermutlich die am
weitesten verbreitete digitale Audioverbindung. Sie war als Schnittstelle zur Verbindung
von CD-Playern und den ersten DAT-Recordern vorgesehen und wurde aus Gründen des
Urheberrechtsschutzes mit einem Kopierschutz ausgestattet. Bei DAT-Geräten kam das
SCMS (Serial Copy Management System) zum Einsatz, das lediglich eine bestimmte
Anzahl von Kopien zuließ und diese Informationen über das S/PDIF Interface von der
Quelle zum Aufnahmegerät weitergab.
Das Datenformat der Subframes stimmt mit AES3 überein. Unterschiede gibt es bei den
elektrischen Spezifikationen (Tab. 4.6)und bei der Verwendung der VUCP-Informationen.
Das Interface verwendet eine unsymmetrische Schnittstelle mit einer Impedanz von 75
Ohm in Leistungsanpassung. Die Quellimpedanz muss in einem Frequenzbereich von 0,1
4.5. INTERFACES
81
bis 6 MHz auf ±20 Prozent genau eingehalten werden, die Impedanz des Empfängers
muss 75 Ohm mit maximalen Abweichungen von ±5 Prozent betragen. Relativ tolerant
ist man beim Wellenwiderstand des Kabels: Hier dürfen die Abweichungen in einem Bereich von ±35 Prozent liegen, was den typischen User-Gepflogenheiten, ”´irgendein“ Kabel zu verwenden, vermutlich entgegen kommt. Die Signalspannung liegt bei 0,5 Volt
(±20 Prozent), als Steckverbindung kommt eine Cinch-Buchse (RCA/Phono) zum Einsatz (Rumsey u. Watkinson 2004).
4.5.2
AES 10
Zur Verbindung mehrkanaliger Signale, etwa zwischen Wandlergruppen, Mischpulten,
Aufzeichnungssystemen, kommt die MADI-Schnittstelle (für Multichannel Audio Digital
Interface) zum Einsatz. Die Kodierung eines Subframes (Abtastwert für einen Kanal)ist
aus dem AES 3 Protokoll abgeleitet. Allerdings können bis zu 64 Kanäle für ein Abtastintervall gesendet werden, mit entsprechend höherer Datenrate und Signalfrequenz. Als
Kanalkode wird eine 4/5 GCR Kodierung verwendet (s. 4.4.2). Da die Übertragung durch
eine separate Wordclockleitung synchronisiert wird, ist eine Präambel zur Synchronisation wie bei AES 3 nicht erforderlich und die 4 bits zu Beginn eines Subframes können zur
Anzeige des Kanalmodus verwendet werden (Abb. 4.16).
Abbildung 4.16: Subframe nach AES 10 (MADI)
Die elektrischen Spezifikationen der drei nichtproprietären Interfaces können Tab. 4.6
entnommen werden.
Interface
AES 3 (AES/EBU)
IEC 60958 (S/PDIF)
AES 10 (MADI)
Impedanz (in/out)
110 Ω
75 Ω
75 Ω
Signalamplitude
2-7 V (min. 200 mV)
0,5 V ± 20% (min. 200 mV)
0,3-0,7 V (min. 150 mV)
Jitter
max. 20 ns
max. 20 ns
max. 2 ns
Steckverbindung
XLR symm.
RCA phono
BNC
Tabelle 4.6: Nichtproprietäre Audio-Interfaces - Elektrische Spezifikationen
82
Abbildungsverzeichnis
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
2.18
2.19
7
8
8
9
10
11
14
16
19
19
20
20
21
22
23
24
25
25
2.21
2.22
2.23
2.24
2.25
2.26
2.27
Abtastung eines analogen Signals . . . . . . . . . . . . . . . . . . . . .
Abtastung mehrerer Sinusschwingungen . . . . . . . . . . . . . . . . . .
Analoger und abgetasteter Zeitverlauf mehrerer Sinusschwingungen . . .
Spektrum eines analogen und abgetasteten Signals . . . . . . . . . . . . .
Ablaufdiagramm Sampling . . . . . . . . . . . . . . . . . . . . . . . . .
zufallssignale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantisierungskennlinie . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantisierungsvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantisierungsfehler eines optimal ausgesteuerten Sinussignals . . . . . .
Amplitudendichteverteilung des Quantisierungsfehlers . . . . . . . . . .
Amplitudendichteverteilung eines Musiksignals . . . . . . . . . . . . . .
Signalrauschabstand eines Quantisierers . . . . . . . . . . . . . . . . . .
Übersteuerung eines Quantisierers . . . . . . . . . . . . . . . . . . . . .
Quantisierung mit und ohne Dither . . . . . . . . . . . . . . . . . . . . .
Requantisierung mit Dithering durch eine Zufallsfolge d(n) . . . . . . . .
Verschiedene Dither-Amplitudendichteverteilungen . . . . . . . . . . . .
Requantisierung mit Dither: Kennlinienlinearisierung und Rauschmodulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zeitverläufe, Amplitudendichteverteilungen und Spektren verschiedener
Dither-Typen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dither-Einstellung einer Audioworkstation . . . . . . . . . . . . . . . . .
Quantisierungsfehlerleistung mit und ohne Oversampling . . . . . . . . .
Noise-Shaping 1. Ordnung . . . . . . . . . . . . . . . . . . . . . . . . .
Frequenzgang Noise-Shaping verschiedener Ordnungen . . . . . . . . . .
Delta-Sigma Modulator 1. Ordnung . . . . . . . . . . . . . . . . . . . .
SNR-Gewinn durch Oversampling . . . . . . . . . . . . . . . . . . . . .
2er-Komplement-Darstellung einer Sinusschwingung . . . . . . . . . . .
3.1
3.2
3.3
Anti-Imaging Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Parallel-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Subranging-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
39
39
2.20
83
27
28
29
30
31
32
32
34
35
84
ABBILDUNGSVERZEICHNIS
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
SAR-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Spannungsverlauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Delta-Sigma-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . .
R-2R-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Delta-Sigma-DA-Wandler . . . . . . . . . . . . . . . . . . . . . . . . .
Abweichungen von der idealen Wandlerkennlinie . . . . . . . . . . . . .
Jitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Auswirkung von Sampling Jitter auf den Signal-Rauschabstand in
Abhängigkeit von Zeitfehler und Signalfrequenz in Bezug zum theoretischen Signal-Rauschabstand von 16- und 18-bit Systemen . . . . . . .
40
40
40
41
42
43
43
Technisches Kommunikationsmodell . . .
Kodebaum . . . . . . . . . . . . . . . . .
Redundanzkodierung . . . . . . . . . . .
Huffmancode . . . . . . . . . . . . . . .
Irrelevanzkodierung . . . . . . . . . . . .
Mithörschwelle eines Sinustones . . . . .
Bark-Skala . . . . . . . . . . . . . . . .
Pre- und Postmasking . . . . . . . . . . .
Maskierungsschwelle eines Audiosignals
Window Length Switching in AAC . . . .
Strategien der Fehlerschutz-Kodierung . .
Zweidimensionaler Paritätskode . . . . .
Faltungskode . . . . . . . . . . . . . . .
Einfache Kanalkodes . . . . . . . . . . .
Subframe nach AES 3 (AES/EBU) . . . .
Subframe nach AES 10 (MADI) . . . . .
47
50
52
54
58
59
60
61
62
63
70
75
76
78
80
81
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
44
Tabellenverzeichnis
1.1
Einzug digitaler Signalverarbeitung im Tonstudiobereich . . . . . . . . .
6
2.1
2.2
2.3
Festkomma-Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bitzuweisung in der Gleitkomma-Darstellung . . . . . . . . . . . . . . .
Gleitkomma-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
36
36
4.1
4.2
4.3
4.4
4.5
4.6
Wahrheitstafel XOR . . . . . . . . . . . . . . . . . . . . . . . .
GCR Gruppenkode . . . . . . . . . . . . . . . . . . . . . . . .
Gruppenkodes . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kennzahlen von Kanalkodes . . . . . . . . . . . . . . . . . . .
AES 3 Channel Status Block . . . . . . . . . . . . . . . . . . .
Nichtproprietäre Audio-Interfaces - Elektrische Spezifikationen .
74
78
78
79
80
81
85
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
86
TABELLENVERZEICHNIS
Literaturverzeichnis
[ATS95]
ATSC. Atsc a/52, digital audio compression (ac-3). International Standard,
1995.
[Bal02]
Glen M. Ballou. Handbook for Sound Engineers. Focal Press, 3 edition, 2002.
[Coa05]
Josh Coalson. Flac - free lossless audio codec, 2005.
[Dic97]
Michael Dickreiter. Handbuch der Tonstudiotechnik. Saur, München, 6 edition, 1997.
[Fle40]
Harvey Fletcher. Auditory Patterns. In Reviews of Modern Physics, volume 12,
pages 47–65. The American Physical Society, 1940.
[ISO01]
ISO/IEC. Iso/iec 14496-3:2001, information technology - coding of audiovisual objects - part 3: Audio. International Standard, 2001.
[ITU01]
ITU. Itu-r bs.1387-1 , method for objective measurements of perceived audio
quality. International Standard, 2001.
[KPS03]
Herbert Klimant, Rudi Piotraschke, and Dagmar Schönfeld. Informationsund Kodierungstheorie. Teubner Verlag, München, 2 edition, 2003.
[LWV92] S.P. Lipshitz, R.A. Wannamaker, and J. Vanderkooy. Quantization and Dither:
A Theoretical Survey. Journal of the Audio Engineering Society, 40(5):355 –
375, 1992.
[Poh00]
Ken C. Pohlmann. Principles of Digital Audio. McGraw-Hill, 4 edition, 2000.
[RW04]
Francis Rumsey and John Watkinson. Digital Interface Handbook. Focal
Press, 3 edition, 2004.
[SCG+ 99] J.R. Stuart, P.G. Craven, M.A. Gerzon, M.J. Law, and R.J. Wilson. Mlp lossless compression. In Proc. of the AES 9th Regional Convention, Tokyo, June
1999.
[Skr88]
P. Skritek. Handbuch der Audio-Schaltungstechnik. Francis, München, 1988.
87
88
LITERATURVERZEICHNIS
[TS99]
U. Tietze and C. Schenk. Halbleiter-Schaltungstechnik. Springer, Heidelberg,
1999.
[VL89]
J. Vanderkooy and S.P. Lipshitz. Digital dither: Signal processing with resolution far below the least significant bit. In AES Int. Conference on Audio in
Digital Times, pages 87 – 96, 1989.
[Wat98]
John Watkinson. The Art of Sound Reproduction. Focal Press, 1 edition, 1998.
[Wat01]
John Watkinson. The Art of Digital Audio. Focal Press, 2001.
[ZF67]
Eberhard Zwicker and Richard Feldtkeller.
empfänger. Hirzel, Stuttgart, 2 edition, 1967.
[ZF99]
Eberhard Zwicker and Hugo Fastl. Psychoacoustics. Facts and Models. Springer, Heidelberg, 2 edition, 1999.
[Zöl02]
Udo Zölzer, editor. DAFX. Digital Audio Effects. Wiley, 1 edition, 2002.
[Zöl05]
Udo Zölzer. Digitale Audiosignalverarbeitung. Teubner, Stuttgart, 3 edition,
2005.
Das Ohr als Nachrichten-

Kommunikationstechnik II

Transcription

Similar documents

Ein Speichermedium dient zur Speicherung von Daten bzw

4. Audiotechnik und Tonbearbeitung

Formate zur Speicherung Digitaler Audiodaten”

Schichten 5 - 7 Protokoll

Kostenentwicklung Transatlatikkabel

Audioformate - Telle

Spektralanalyse

1.1-330 - Wandfluh

Lehrstuhl für Nachrichtentechnik Universität Erlangen

Entwicklung von Multi-Medialen Lernmaterialien für die perzeptive

Spitzenwertreduktion bei Unique

AUDIO- KOMPRESSION Weitere Top