Kommunikationstechnik II
Transcription
Kommunikationstechnik II
Kommunikationstechnik II Prof. Dr. Stefan Weinzierl Autoren: Stefan Weinzierl & Alexander Lerch Wintersemester 2008/2009 Inhaltsverzeichnis 1 Einleitung 2 Grundlagen 2.1 Abtastung . . . . . . . . . . . . . . . . . . . 2.2 Beschreibung von Zufallssignalen . . . . . . 2.2.1 Zufallsprozesse . . . . . . . . . . . . 2.2.2 Verteilung und Dichte . . . . . . . . 2.2.3 Erwartungswerte und Momente . . . 2.2.4 Verteilungsmodelle und Häufigkeiten 2.2.4.1 Rechteckverteilung . . . . 2.2.4.2 Gaußverteilung . . . . . . 2.2.4.3 Exponentialverteilung . . . 2.2.4.4 Laplaceverteilung . . . . . 2.2.5 Korrelation und Leistungsdichte . . . 2.3 Quantisierung . . . . . . . . . . . . . . . . . 2.4 Dither . . . . . . . . . . . . . . . . . . . . . 2.5 Überabtastung . . . . . . . . . . . . . . . . . 2.6 Noise-Shaping . . . . . . . . . . . . . . . . . 2.7 Delta-Sigma-Modulation . . . . . . . . . . . 2.8 Zahlendarstellung und Zahlenformat . . . . . 2.8.1 Festkomma-Format . . . . . . . . . . 2.8.2 Gleitkomma-Darstellung . . . . . . . 2.8.3 Anwendungsbereiche . . . . . . . . . 3 5 A/D- und D/A- Wandlung 3.1 Einleitung . . . . . . . . . . . . . 3.2 A/D-Wandler . . . . . . . . . . . 3.2.1 Parallel-Wandler . . . . . 3.2.2 SAR-Wandler . . . . . . . 3.2.3 Delta-Sigma-Wandler . . 3.3 D/A-Wandler . . . . . . . . . . . 3.3.1 R-2R-Wandler . . . . . . 3.3.2 Delta-Sigma-DA-Wandler 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 10 11 12 13 14 14 15 15 15 15 18 22 29 30 32 33 34 35 36 . . . . . . . . 37 37 38 38 39 40 41 41 41 4 3.4 4 Kenn- und Messgrößen für Wandler . . . . . . . . . . . . . . . . . . . . Kodierung 4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Quellenkodierung . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Redundanzkodierung . . . . . . . . . . . . . . . . . . 4.2.1.1 Lineare Prädiktion . . . . . . . . . . . . . . 4.2.1.2 Entropiekodierung . . . . . . . . . . . . . . 4.2.1.3 Beispiele . . . . . . . . . . . . . . . . . . . 4.2.2 Irrelevanzkodierung . . . . . . . . . . . . . . . . . . 4.2.2.1 Verdeckung und Frequenzgruppen . . . . . 4.2.2.2 Beispiel MPEG-4 AAC . . . . . . . . . . . 4.2.2.3 Qualität . . . . . . . . . . . . . . . . . . . 4.2.2.4 Auswahlkriterien von Kodierungsverfahren . 4.3 Kanalkodierung . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Grundbegriffe und Kenngrößen . . . . . . . . . . . . 4.3.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2.1 Einfache Parität . . . . . . . . . . . . . . . 4.3.2.2 Mehrdimensionale Parität (Kreuzsicherung) 4.3.2.3 Zyklische Kodes . . . . . . . . . . . . . . . 4.3.2.4 Faltungskodes . . . . . . . . . . . . . . . . 4.4 Leitungskodierung . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Einfache Kodes . . . . . . . . . . . . . . . . . . . . . 4.4.2 Gruppenkodes . . . . . . . . . . . . . . . . . . . . . 4.5 Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 AES 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 AES 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 47 48 52 52 52 53 55 57 58 60 65 67 69 70 73 73 74 75 75 76 77 77 79 79 81 Abbildungsverzeichnis 81 Tabellenverzeichnis 84 Literaturverzeichnis 85 Kapitel 1 Einleitung Seit Ende der 70er Jahre findet im Audiobereich ein grundlegender Systemwandel mit der Ablösung analoger Systeme durch digitale Technologien statt. Wesentliche Gründe für diesen Wandel sind • die überwiegend überlegenen technischen Übertragungseigenschaften digitaler Audiotechnologie (Frequenzgang, Verzerrungen, Signal-Rauschabstand, Gleichlauf) • die Möglichkeit verlustlosen Kopierens und Archivierens digitaler Inhalte • umfangreichere Möglichkeiten der Signalbearbeitung und Editierung • der Preisverfall digitaler Hard- und Software im Vergleich zu hochwertiger analoger Schaltungstechnik • die Konvergenz digitaler Medien auf Seiten der Audioindustrie (technologische Konvergenz) wie auf Seiten der Rezipienten (Konvergenz der Mediennutzung) Der Einzug digitaler Übertragungssysteme fand etwa gleichzeitig im Bereich der Klangerzeuger (Synthesizer, Sampler, Drumcomputer, MIDI), der Effektgeräte (Delay, Nachhall) und der Speichermedien statt (Tabelle 1.1). 1983 wurde mit MIDI (Musical Instrument Digital Interface) ein Format für den Austausch von Steuerdaten zwischen Computern, Synthesizern und Samplern etabliert, das den Produktionsvorgang v.a. in der Popmusik, aber auch in der Elektronischen Musik und der Computermusik nachhaltig veränderte, da es nicht eine Übertragung von Audiosignalen, sondern eine digital gesteuerte Gestaltung des musikalischen Verlaufs selbst ermöglichte. In den 1990er Jahren wurde eine Vielzahl neuer Speichermedien, Protokolle, Formate und Bearbeitungsalgorithmen für digitale Audiosignale eingeführt. Durch die Entwicklung immer höher integrierter Schaltungen erhöhte sich die Leistungsfähigkeit, durch das Zusammenwachsen verschiedener Medien (Bild, Ton, Schrift) erhöhte sich die produzierte Stückzahl digitaler Hardware. Beides bewirkte einen Preisverfall digitaler Hard- und Software und damit eine technische Annäherung von professionellem und Consumer-Bereich. 5 6 KAPITEL 1. EINLEITUNG Hardware Klangerzeuger NED Synclavier Synthesizer/Sampler Fairlight CMI Synthesizer/Sampler Linn LM-1 Drumcomputer/Sampler E-MU Emulator I Sampling Keyboard Yamaha DX-7 Syntheziser Audiobearbeitung/Effekte Lexicon Delta-T 101 Digital Delay EMT 250 Digitaler Nachhall Lexicon L224 Digitaler Nachhall Tonträger/Editoren PCM-1600 (U-matic) Digitale Mehrspurrekorder (3M, Sony PCM 3324) Sony DAE-1100 Umkopierschnittplatz Compact Disc (CD) Sony DAE-3000 Umkopierschnittplatz Digital Audio Tape (DAT) Sonic Solutions Harddisc Editing MIDI Standard Markteinführung 1979 1979 1980 1981 1983 1971 1976 1978 1978 1978 1980 1982 1987 1987 1988 1983 Tabelle 1.1: Einzug digitaler Signalverarbeitung im Tonstudiobereich Im Bereich der Speichermedien wird immer mehr auf einheitliche Datenträger für multimediale Inhalte wie Harddisk oder optische Medien zurückgegriffen, für die Übertragung werden zunehmend Computernetzwerke genutzt und der normale PC“ wird immer mehr ” zum zentralen Werkzeug auch für die professionelle Audiotechnik. Aktuelle Entwicklungen im Bereich der digitalen Audiotechnik sind • die Verlängerung der digitalen Übertragungskette durch die Entwicklung von Mikrofonen mit digitalen Ausgangssignalen und Lautsprechern, die digitale Eingangssignale verarbeiten • die Weiterentwicklung von Wandler-, Kodierungs- und Speichertechnologie hin zu höheren Wortbreiten und Abtastraten • die Klangsynthese durch physikalische Modelle von realen oder imaginären Klangerzeugern • die Steuerung von Audio-Wiedergabesystemen durch digitale Signalverarbeitung: durch digitale Frequenzweichen als IIR- oder FIR-Filter in MehrwegLautsprechern, zur Konfiguration von Line-Arrays bis hin zur Steuerung ganzer Wiedergabesysteme (Wellenfeldsynthese, Ambisonics) • die Erschließung neuer Übertragungs- und Vertriebskanäle durch digitalen Rundfunk, digitales Fernsehen, lokale Netzwerke und das Internet. Kapitel 2 Grundlagen 2.1 Abtastung Der Verlauf zeit- und wertekontinuierlicher Signale, wie der von einer Schallquelle erzeugte Schalldruck im Raum oder die von einem Mikrofon abgegebene Spannung, wird als analog bezeichnet. Um solche Signale in einem Digitalrechner mit begrenztem Speicher ablegen und verarbeiten zu können, muss der Zeitverlauf diskretisiert, d.h. zu bestimmten Zeitpunkten abgetastet werden, so daß nur die einzelnen Amplitudenwerte zum Abtastzeitpunkt gespeichert werden müssen. Die Frequenz dieser Abtastung wird Abtastrate (sampling rate) genannt. Abbildung 2.1 zeigt einen Ausschnitt eines kontinuierlichen (analogen) Signals und die resultierende Abtastfolge. Abbildung 2.1: Kontinuierliches Signal (oben) und zugehörige Abtastfolge bei einer Abtastfrequenz von 50 Hz (unten) 7 8 KAPITEL 2. GRUNDLAGEN Die Frequenzzuordnung eines abgetasteten Signals ist nicht eindeutig; so führen in dem in Abbildung 2.2 dargestellten Beispiel alle Sinusschwingungen zu der gleichen Folge von Abtastwerten. Abbildung 2.2: Mehrere Sinusschwingungen unterschiedlicher Frequenz und Phase führen zu der gleichen Folge von Abtastwerten Abb. 2.3 stellt Sinusschwingungen der Frequenzen 1 kHz, 5 kHz, 7 kHz und 11 kHz und die dazugehörigen Abtastwerte bei einer Abtastfrequenz von 6 kHz dar: die Frequenz der resultierenden Abtastfolge ist in allen Fällen gleich. Abbildung 2.3: Darstellung von analogem und abgetastetem Zeitverlauf von Sinusschwingungen der Frequenzen 1 kHz, 5 kHz , 7 kHz und 11 kHz, die Abtastfrequenz ist 6 kHz; oben: kontinuierlicher Zeitverlauf, unten: abgetasteter Zeitverlauf Diese Mehrdeutigkeit äußert sich im Spektrum des abgetasteten Signals durch eine mit der Abtastfrequenz periodische Wiederholung des Originalsignals. 2.1. ABTASTUNG 9 Abbildung 2.4: Spektrum des kontinuierlichen Signals (schematisch, links) und der zugehörigen Abtastfolge (rechts) mit Seitenbändern bei Vielfachen der Abtastfrequenz fS . Wird die Bandbreite des Ausgangssignals nicht auf die Hälfte der Abtastfrequenz begrenzt, überlappen sich die Seitenbänder (unten) Abb. 2.4 veranschaulicht diese Periodizität, aus der sich unmittelbar das sogenannte Abtasttheorem ergibt: Ein abgetastetes Signal lässt sich ohne Informationsverlust rekonstruieren, wenn die Abtastfrequenz fS mindestens doppelt so hoch ist wie die höchste im Signal vorkommende Frequenz fmax . fS > 2fmax Wird das Abtasttheorem verletzt, überlappen sich die periodisch fortgesetzten Spektren und man spricht von Unterabtastung, d.h. es entstehen innerhalb der Bandbreite des Originalsignals Spiegelfrequenzen. Dieser Effekt wird als Aliasing bezeichnet. Zur Vermeidung solcher Aliasing-Artefakte muss das Eingangssignal so bandbegrenzt werden, dass das Abtasttheorem erfüllt ist. Daher befindet sich vor jedem A/D-Wandler ein analoges Tiefpassfilter, das alle Frequenzanteile oberhalb der halben Abtastfrequenz abschneidet bzw. möglichst stark dämpft. Die Eigenschaften dieses Antialiasing-Filters beeinflussen die Qualität des A/D-Wandlers. Ein anschauliches Beispiel einer Unterabtastung im Visuellen findet man in vielen Westernfilmen. Die Speichenräder einer Kutsche drehen sich mit der erwarteten Geschwindigkeit und Richtung, solange die Kutsche langsam fährt. Übersteigt die Speichengeschwindigkeit allerdings die halbe Abtastfrequenz 10 KAPITEL 2. GRUNDLAGEN der Kamera (24 Hz), so nimmt die wahrgenommene Geschwindigkeit des Rades wieder ab. Die unterabgetastete Drehung produziert eine Aliasingkomponente, die mit zunehmender Drehfrequzenz abnimmt. Wenn die Drehfrequenz die Abtastfequenz erreicht, scheint das Rad stillzustehen. Zur Rekonstruktion des analogen Signals aus dem digitalen Signal ist aufgrund der Periodizität des Spektrums ebenfalls ein Tiefpassfilter (Rekonstruktionsfilter) erforderlich, das nur Signalfrequenzen unterhalb der halben Abtastfrequenz passieren läßt. Abbildung 2.5: Notwendige Verarbeitungsschritte vor und nach der Abtastung eines Signals Theoretisch ist ein unter Berücksichtigung des Abtasttheorems abgetastetes Signal in dem in Abb. 2.5 dargestellten Ablauf fehlerfrei rekonstruierbar, wenn Filter und Abtastung ideal sind. 2.2 Beschreibung von Zufallssignalen Signale, die sich durch analytische Ausdrücke wie Sinus- oder Rechteckfunktionen beschreiben lassen, nennt man deterministische Signale, da sie einen vorhersagbaren Verlauf besitzen. In der Audiotechnik (ebenso wie in der Bildverarbeitung) hat man es in der Regel mit nicht-deterministischen Signalen (stochastische Signale, Zufallssignale) zu tun, deren Verlauf sich nicht durch einen mathematischen Ausdruck beschreiben lässt. Dazu gehören Signale wie Musik und Sprache, die zwar durch die Physik ihrer Erzeuger (Sprachtrakt, Musikinstrumente) determiniert sind, dies jedoch auf so komplexe Weise, dass der Signalverlauf bereits für den Sender im Detail kaum vorhersagbar sind. Aus der Sicht des Empfängers sind diese Signale in der Regel völlig unbekannt, sonst müssten Sie ja nicht übertragen werden. Und tatsächlich ist der Informationsgehalt einer Nachricht ja umso größer, je weniger sie für den Empfänger vorhersehbar ist. Eine zweite Klasse von Zufallssignalen sind Störsignale, die durch stochastische Prozesse erzeugt werden, wie Verstärkerrauschen oder thermisches Widerstandsrauschen. Zur Beschreibung von Zufallssignalen im Hinblick auf Eigenschaften wie Mittelwerte, Effektivwerte, Signalleistung oder Spektrum gibt es zwei Möglichkeiten. Man kann entweder von einem gemessenen Ausschnitt ausgehen und diesen wie ein deterministisches 2.2. BESCHREIBUNG VON ZUFALLSSIGNALEN 11 Abbildung 2.6: Zwei Klassen von Zufallssignalen. Rosa Rauschen (Zeitverlauf, links) und ein Ausschnitt aus einem Sprachsignal (rechts) Signal behandeln, d.h. die bekannten Ausdrücke etwa für den Effektivwert oder die Fouriertransformation auf die Messwerte anwenden. Allerdings wird man bei einer erneuten Messung eines anderen Prozesses (ein anderes Sprachsignal, ein anderes Rauschsignal) ein anderes Ergebnis erhalten, ebenso bei einer Messung desselben Prozesses zu einem späteren späteren Zeit (einer anderen Silbe im Sprachsignal). Es ist also unklar, inwieweit sich die Ergebnisse der Messung verallgemeinern lassen. Eine andere Möglichkeit ist die Zuordnung von statistischen Mittelwerten zu einem Zufallssignal. Dies können Mittelwerte über die verschiedenen Ausprägungen (auch Realisationen oder Musterfunktionen) eines Zufallsprozesses sein, sog. Scharmittelwerte oder Erwartungswerte, oder Mittelwerte über den Verlauf eines Zufallsignals entlang der Zeitachse (Zeitmittelwerte). Inwieweit die beiden Vorgehensweisen zum gleichen Ergebnis führen, wird durch die im folgenden Abschnitt eingeführten Eigenschaften beschrieben. 2.2.1 Zufallsprozesse Zufallsprozesse, deren statistische Eigenschaften sich mit der Zeit nicht verändern, nennt man stationär. Während Störsignale wie thermisches Rauschen oder Widerstandsrauschen tatsächlich weitgehend stationär sind, gilt dies für Nutzsignale wie Musik und Sprache - wenn überhaupt - nur für kurze Signalausschnitte wie stimmlose Frikative 12 KAPITEL 2. GRUNDLAGEN oder Plosive. Wenn nicht alle statistischen Eigenschaften, sondern nur die Momente erster und zweiter Ordnung (s. Abschnitt XX) zeitinvariant sind, spricht man von schwach stationären Prozessen. Einen stationärer Zufallsprozess, bei dem die Zeitmittelwerte jeder Realisation mit den Scharmittelwerten übereinstimmen, nennt man ergodisch. Auch diese Definition kann man einschränken: Wenn die Übereinstimmung von Scharmitteln und Zeitmitteln nur für die Momente erster und zweiter Ordnung gilt, spricht man von schwach ergodischen Prozessen. In der Regel ist der Nachweis von Stationarität und Ergodizität nicht exakt zu führen, und man begnügt sich mit einer intuitiven Anschauung. So ist es offensichtlich, dass das Sprachsignal in Abb. ?? rechts weder stationär noch ergodisch ist, während man für ein Rauschsignal wie in Abb. ?? links beide Eigenschaften annehmen kann. Letzteres hat den praktischen Vorteil, dass man bei der Bestimmung von Erwartungswerten die Messung vieler Realisationen durch die Mittelung einer Messung über die Zeit ersetzen kann. 2.2.2 Verteilung und Dichte Die Zuordnung von Mittelwerten zu einem Zufallsprozess setzt die Kenntnis der Wahrscheinlichkeit voraus, mit der die stochastische Variable X einen Wert bzw. eine Signalamplitude x annimmt. Für diskrete Variablen ist dies die Einzelwahrscheinlichkeit pi = P (X = xi ) (2.1) 0 ≤ pi ≤ 1 (2.2) X (2.3) mit der Bedingung und der Normierung pi = 1 i Für kontinuierliche Variablen X beschreibt die Wahrscheinlichkeitsdichtefunktion (WDF) pX (x) die Wahrscheinlichkeit, dass die Variable X einen Wert zwischen x und x + dx annimmt: pX (x)dx = P (x < X ≤ x + dx) (2.4) pX (x) ≥ 0 (2.5) mit der Bedingung und der Normierung Z +∞ pX (x)dx = 1 −∞ (2.6) 2.2. BESCHREIBUNG VON ZUFALLSSIGNALEN 13 Die Wahrscheinlichkeitsdichtefunktion pX (x) lässt sich aus der Messung von einzelnen Realisationen schätzen oder aus theoretischen Annahmen über den zugrundeligenden Prozess ableiten. 2.2.3 Erwartungswerte und Momente Der Erwartungswert einer Zufallsvariable X ist gegeben durch Z +∞ f (x)pX (x)dx E{f (X)} = (2.7) −∞ für kontinuierliche Variablen bzw. E{f (X)} = X f (xi )pi (2.8) i für diskrete Variable. Hierbei ist f (X) eine beliebige Funktion der Zufallsvariable X. Insbesondere ergibt sich für f (X) = X der lineare Mittelwert Z +∞ µX = E{X} = xpX (x)dx = µX (2.9) −∞ für kontinuierliche Variablen bzw. µX = E{X} = X xi p i (2.10) i für diskrete Variablen. Auf die doppelte Formulierung für diskrete und kontinuierliche Variablen X soll in Zukunft verzichtet werden, da sich die eine durch Austausch von Summe und Integral leicht aus der anderen ableiten lässt. Für f (X) = X 2 ergibt sich der quadratische Mittelwert Z +∞ 2 E{X } = x2 pX (x)dx (2.11) −∞ Bei Signalen wie Strom, Spannung, Schalldruck oder Schallschnelle ist er ein Maß für die mittlere Leistung des Signals. Allgemein bezeichnt man Ausdrücke der Form Z +∞ k µk = E{X } = xk pX (x)dx (2.12) −∞ als Momente k-ter Ordnung. Oft interessiert jedoch nicht der Mittelwert selbst, sondern die mittlere Abweichung vom linearen Mittelwert µX des Signals. Dieser ist durch die Zentralmomente k-ter Ordnung gegeben mit Z +∞ k µk = E{X } = (x − µX )k pX (x)dx (2.13) −∞ 14 KAPITEL 2. GRUNDLAGEN Das Zentralmoment 2. Ordnung (k = 2) mit 2 σX 2 Z +∞ = E{(x − µX ) } = (x − µX )2 pX (x)dx (2.14) −∞ 2 heißt Varianz σX der Zufallsvariablen X. 2.2.4 Verteilungsmodelle und Häufigkeiten Im folgenden sollen einige Verteilungen vorgestellt werden, die häufig als Modelle für reale Häufigkeitsverteilungen verwendet werden. 2.2.4.1 Rechteckverteilung Eine Rechteckverteilung ist gegeben durch 1 x ∈ [X1 , X2 ] X2 −X1 pX (x) = 0 sonst (2.15) Abbildung 2.7: Rechteckverteilung Zahlreiche Prozesse wie der Quantisierungsfehler von A/D-Wandlern (s. Abschnitt 2.3) können innerhalb gewisser Grenzen als gleichverteilt angenommen werden. Für das lineare Mittel, das quadratische Mittel und die Varianz einer rechteckverteilten Zufallsvariable gilt dann 1 [X1 + X2 ] 2 1 2 E{x2 } = [X1 + X1 X2 + X22 ] 3 1 2 σx = (X2 − X1 )2 12 µX = (2.16) (2.17) (2.18) wie durch Einsetzen von 2.15 in 2.9, 2.11 und 2.14 leicht nachgerechnet werden kann. 2.2. BESCHREIBUNG VON ZUFALLSSIGNALEN 2.2.4.2 15 Gaußverteilung Eine Gaußverteilung ist gegeben durch 2 (x−µX ) − 1 2 pX (x) = √ e 2σX 2πσX (2.19) 2 Sie wird parametrisiert durch ihren Mittelwert µX und ihre Varianz σX . Das quadratische Mittel ergibt aus sich aus 2.11 und 2.19 zu 2 E{x2 } = σX + µ2X 2.2.4.3 (2.20) Exponentialverteilung Eine einseitige Exponentialverteilung ist gegeben durch ( x 1 − σX e x>0 σX pX (x) = 0 sonst (2.21) 2 Sie wird parametrisiert durch ihre Varianz σX . Lineares und quadratisches Mittel ergeben sich zu µX = σX 2 E{x2 } = 2σX 2.2.4.4 (2.22) (2.23) Laplaceverteilung Die zweiseitige Exponentialverteilung oder Laplaceverteilung ist gegeben durch pX (x) = √ √ |x−µ | 1 − 2 σ X X e 2σX (2.24) 2 Sie wird parametrisiert durch ihren Mittelwert µX und ihre Varianz σX . Das quadratische Mittel ergibt sich analog zu 2.20 als Summe von Varianz und linearem Mittelwert im Quadrat. 2.2.5 Korrelation und Leistungsdichte Die Autokorrelationsfunktion (AKF) eines Signals x(t) ist definiert durch ϕxx (t1 , t2 ) = E{x(t1 )x(t2 )} (2.25) Sie ist ein Erwartungswert 2. Ordnung, da sie von der Signalamplitude zu zwei verschiedenen Zeitpunkten t1 und t2 abhängt. Für stationäre Zufallsprozesse hängen die Erwartungswerte 2. Ordnung nicht von den konkreten Zeitpunkten t1 und t2 ab, sondern nur 16 KAPITEL 2. GRUNDLAGEN Abbildung 2.8: Gaußverteilungen (oben), Exponentialverteilung (mitte) und Laplaceverteilung (unten) von der Differenz τ = t1 − t2 . Falls diese Bedingung nicht für alle Erwartungswerte 2. 2.2. BESCHREIBUNG VON ZUFALLSSIGNALEN 17 Ordnung, sondern nur für die AKF erfüllt ist, spricht man von einem schwach stationären Prozess. In diesem Fall gilt ϕxx (τ ) = E{x(t − τ )} (2.26) Die Autokorrelationsfunktionen hatte einige charakteristische Eigenschaften. Zum einen hat sie eine gerade Symmetrie, d.h. ϕxx (τ ) = ϕxx (−τ ) (2.27) Dies ergibt sich unmittelbar aus der Definition schwach stationärer Prozesse, wie sich 0 durch Substitution mit t = t + τ zeigen lässt: E{x(t)x(t + τ )} = E{x(t0 − τ )x(t0 )} = E{x(t0 )x(t0 − τ )} (2.28) Zum anderen hat die AKF ihr Maximum immer bei τ = 0. Das bei der Bildung der AKF zu berechnende Produkt x(t)x(t − τ ) kann bei Wechselgrößen positive oder negative Werte annehmen, ebenso wie der daraus gebildete Erwartungswert ϕxx (τ ). Indem man die sicher positive Größe E{(x(t)x(t − τ ))2 } = ϕxx (0) − 2ϕxx (τ ) + ϕxx (0) ≥ 0 (2.29) betrachtet, ergibt sich unmittelbar ϕxx (τ ) ≤ ϕxx (0) (2.30) Ihr Maximum nimmt die AKF somit für τ = 0 an, wo x(t)x(t − τ ) = x(t)2 . ϕxx (0) entspricht also dem quadratischen Mittelwert der Variablen X und ist ein Maß für die Leistung des Zufallsprozesses X. Zur Beschreibung von Zufallssignalen im Spektralbereich transformiert man nicht das Signal selbst in den Frequenzbereich, da das Fourierintegral Z +∞ X(ω) = x(t)e−jωt dt (2.31) −∞ in der Regel nur exisistiert, wenn x(t) absolut integrierbar ist, d.h. Z +∞ | x(t) | dt < ∞ (2.32) −∞ Da dies für stationäre Zufallsprozesse, die für t → ∞ nicht abklingen, nicht der Fall ist, bildet man zunächst den Erwartungswert im Zeitbereich und transformiert diese - dann deterministische - Größe in den Frequenzbereich. So definiert man das Leistungsdichtespektrum (LDS) als Fouriertransformierte der Autokorrelationsfunktion, d.h. Sxx (ω) = F {ϕxx (τ )} (2.33) 18 KAPITEL 2. GRUNDLAGEN Damit ist ϕxx (τ ) = F −1 1 {Sxx (ω)} = 2π +∞ Z Sxx (ω)ejωτ dω (2.34) −∞ und für den quadratischen Mittelwert von x(t) gilt dann Z +∞ 1 2 E{x(t) } = ϕxx (0) = Sxx (ω)dω 2π −∞ (2.35) Das LDS ist eine rein reelle Funktion. Dies lässt sich aus den Symmetrieeigenschaften der AKF ableiten. Bis auf den Faktor 1/2π entspricht die Signalleistung dem Integral des LDS über den gesamten Frequenzbereich. Sxx (ω) beschreibt somit die Verteilung der Leistung des Signals in unendlich vielen infinitesimal kleinen Frequenzbändern der Breite dω. Für diskrete Zufallssignale x(n) gilt entsprechend ϕxx (l) = E{x(n)x(n − l)} (2.36) und ϕxx (l) = F −1 1 {Sxx (Ω)} = 2π Z +π Sxx (Ω)ejΩl dΩ (2.37) −π mit 1 ϕxx (0) = 2π 2.3 Z +π Sxx (Ω)dΩ (2.38) −π Quantisierung Ebenso wie ein digitales Signal keinen kontinuierlichen Zeitverlauf haben kann, kann es auch keinen kontinuierlichen Amplitudenverlauf besitzen, da nur diskrete Werte abgespeichert werden können. Die für die Digitalisierung notwendige Amplitudendiskretisierung (Quantisierung) wird durch die Quantisierungskennlinie beschrieben. Sie entspricht einer Treppenfunktion mit der Schrittweite bzw. dem Quantisierungsintervall ∆. Bei der Darstellung des Amplitudenwerts durch einen binären Zahlenwert bestimmt die Wortbreite, d.h. die Zahl der Bits pro Zahlenwert, die Zahl der Quantisierungsstufen und damit die Auflösung des Quantisierers. Bei einer Wortbreite von 16 Bit sind somit 216 = 65536 Quantisierungsstufen möglich. Bei einem Aussteuerungsbereich von -2V bis 2V entspricht in diesem Fall ein Quantisierungsintervall ∆ einer Spannung von 4V /65536 = 61µV . Abb. 2.9 zeigt eine Quantisierungskennlinie und den Quantisierungsfehler in Abhängigkeit des Eingangswertes. Der Quantisierungsfehler hat bei nicht übersteuerten Signalen maximal den Betrag ∆/2. 2.3. QUANTISIERUNG 19 Abbildung 2.9: links: Kennlinie des Quantisierers, rechts: Quantisierungsfehler in Abhängigkeit der Eingangsamplitude Im Audiobereich wird üblicherweise eine sogenannte mid-tread“-Kennlinie verwendet, ” die auch dem Amplitudenwert 0 eine Quantisierungsstufe zuordnet und aus diesem Grund nicht symmetrisch ist, sondern im negativen Amplitudenbereich eine Quantisierungsstufe mehr besitzt (bei 16 Bit Wortbreite könnten dann Werte von -32768 bis 32767 dargestellt werden). Bei den im Audiobereich typischen, hohen Wortbreiten kann diese Asymmetrie vernachlässigt werden. Während sich die bei der Abtastung eines Signals verlorenen Signalanteile unter den genannten Voraussetzungen zumindest theoretisch wieder vollständig rekonstruieren lassen, ist dies im Falle der Quantisierung nicht möglich. Bei jeder Quantisierung wird unvermeidlich ein Fehler gemacht, der Quantisierungsfehler q(n). Er ist die Differenz zwischen quantisiertem Signal xQ (n) und Originalsignal x(n) zu einem beliebigen Abtastzeitpunkt n. Die Quantisierung lässt sich somit als Addition eines Fehlersignals q(n) zum Eingangssignal x(n) beschreiben (s. Abb. 2.10). Abbildung 2.10: Quantisierungsvorgang Abb. 2.11 zeigt den Quantisierungsfehler eines mit 4 Bit quantisierten, optimal ausgesteuerten Sinussignals. Aus der Kennlinie (Abb. 2.9) ergibt sich die Amplitude des Quantisierungsfehlers in Abhängigkeit von der Amplitude des Eingangssignals. Das Ausmaß des durch die Quantisierung induzierten Fehlers wird üblicherweise durch den Signalrauschabstand (Signal-to-Noise-Ratio SNR) beschrieben, der als Pegelverhältnis von Signalleistung WS zu Fehlerleistung WF berechnet wird. 20 KAPITEL 2. GRUNDLAGEN Abbildung 2.11: links oben: das kontinuierliche Originalsignal; rechts oben: das mit einer Auflösung von 4 Bit quantisierte Signal; unten: der dabei gemachte Quantisierungsfehler WS (2.39) WF Der Quantisierungsfehler ist, ebenso wie das Anregungssignal (Musik, Sprache), durch das er induziert wird, ein stochastisches Signal. Seine Leistung ergibt sich somit aus der Wahrscheinlichkeitsdichtefunktion der Amplitude des Fehlersignals. Sie wird auch als Amplitudendichteverteilung (ADV) bezeichnet und gibt für jeden möglichen Amplitudenwert die zugehörige Auftretenshäufigkeit an. Für einen gut ausgesteuerten Quantisierer kann ein Quantisierungsfehler mit gleichverteilter Amplitudendichteverteilung angenommen werden, d.h. dass alle möglichen Amplitudenwerte mit gleicher Wahrscheinlichkeit auftreten. SN R = 10 · log10 Abbildung 2.12: Amplitudendichteverteilung des Quantisierungsfehlers 2.3. QUANTISIERUNG 21 Da der mögliche Wertebereich des Fehlers −∆/2 bis ∆/2 ist und die Summe aller Wahrscheinlichkeiten den Wert 1 ergeben muss (s. Gl. 2.3), ist somit die Auftretenswahrscheinlichkeit jedes einzelnen Amplitudenwertes 1/∆. Abb. 2.12 zeigt die gleichverteilte ADV des Quantisierungsfehlers. Die ADV eines typischen Audiosignals ist in Abb. 2.13 dargestellt. Abbildung 2.13: typische Amplitudendichteverteilung eines Musiksignals (linker und rechter Kanal) Andererseits kann der Quantisierungsfehler als weißes Rauschen angenommen werden, so dass alle Frequenzen gleichstark vertreten sind. Die Leistung des Fehlers q lässt sich aus seiner ADV über das in Gl. 2.40 angegebene Integral berechnen: − Z∆/2 Z+∞ ∆2 1 q 2 pQ (q)dq = WF = q 2 dq = ∆ 12 −∞ (2.40) ∆/2 Legt man als Nutzsignal ein vollausgesteuertes Sinussignal zugrunde mit der resultierenden Leistung (∆ · 2w−1 )2 2 so ergibt sich für den Signalrauschabstand (SNR) ein Wert von WS = WS ) WF ∆2 · 22w−2 12 = 10 · log10 ( · 2) 2 ∆ 3 2w = 10 · log10 ( · 2 ) 2 = 6.02 · w + 1.76 [dB] (2.41) SN R = 10 · log10 ( (2.42) Somit ergibt sich ein theoretischer SNR aufgrund des Quantisierungsfehlers von etwa 98 dB (16 bit), 122 dB (20 bit) bzw. 146 dB (24 bit). Ein vollausgesteuertes Sinussignal wird 22 KAPITEL 2. GRUNDLAGEN z.B. als Testsignal zur Messung des SNR von realen Wandlern benutzt. Abweichungen des Messwerts (der auch bei 24-bit-Wandlern real selten höher als 100 dB liegt) von den nach Gl. (2.42) berechneten Werten weisen dann auf Fehler des Wandlers hin. Bezieht man den Quantisierungsfehler nicht auf ein sinusförmiges Testsignal, sondern auf die Amplitudenverteilung eines Musiksignals, die typischerweise eine annähernd gaußoder laplaceverteilte ADV aufweist (Abb. 2.13), liegt auch der theoretische SNR um etwa 10 dB unter dem nach Gl. (2.42) berechneten Wert. Abbildung 2.14: theoretisch erreichbarer Signalrauschabstand eines Quantisierers mit der Wortbreite 16 Bit in Abhängigkeit von der Aussteuerung eines sinusförmigen Eingangssignals Der oben hergeleitete SNR ist der maximale SNR bei Vollaussteuerung. Abb. 2.14 zeigt den bei einer Wortbreite von 16 Bit theoretisch erreichbaren SNR in Abhängigkeit der Amplitude eines sinusförmigen Eingangssignals. Unter den genannten Bedingungen kann der Quantisierungsfehler als weißes Rauschen angenommen werden, d.h. jede Frequenz ist in dem Fehlersignal gleichstark vertreten. Übersteigt der Maximalwert des zu quantisierenden Signals allerdings die Maximalaussteuerung des Quantisierers, so tritt eine Übersteuerung (Clipping) auf, das zu einer drastischen Verschlechterung des SNR und zu nichtlinearen Verzerrungen führt, die in Abb. 2.15 für ein sinusförmiges Signal dargestellt sind. Durch Entwicklungsfehler kann bei einer Übersteuerung auch ein sogenannter Wrap-Around vorkommen. In diesem Fall werden Amplitudenwerte außerhalb des Wertebereichs nicht wie beim Clipping abgeschnitten, sondern durch die Verwendung eines vorzeichenbehafteten Zahlenformats (2er-Komplement, s. Abschn. 2.8) am entgegengesetzten Ende des Wertebereichs eingefügt. Der Wrap-Around führt zu starken Verzerrungen (s. Abb. 2.15), tritt allerdings nur selten auf. 2.4 Dither Eine niedrige Aussteuerung des Eingangssignals führt nicht nur zu einem geringeren Signal-Rauschabstand, sondern kann einen weiteren unerwünschten Effekt haben: Das Quantisierungsrauschen ist nicht mehr weiß wie bei guter Aussteuerung, sondern ist korreliert mit dem Eingangssignal. Insbesondere bei niedriger Aussteuerung und tiefen Eingangssignalfrequenzen sind die Voraussetzungen für eine gleichförmig verteilte Amplitu- 2.4. DITHER 23 Abbildung 2.15: nichtlineare Verzerrungen bei Übersteuerung eines Quantisierers, links oben: optimal ausgesteuertes Sinussignal, rechts oben: dazugehöriges Spektrum (dB), links mitte: übersteuertes Sinussignal (ursprüngliche Amplitude 1.4), rechts mitte: dazugehöriges Spektrum (dB), links unten: übersteuertes Sinussignal mit Wrap-Around, rechts unten: dazugehöriges Spektrum (dB) dendichte des Quantisierungsfehlers nicht mehr gegeben. Abbildung 2.16 illustriert dies für ein mit drei Stufen quantisiertes Signal. Der Quantisierungsfehler ist in diesem Fall kein Rauschen, sondern ein periodisches Signal, das wie eine Verzerrung des Eingangssignals klingt. Auch bei mittleren Wortbreiten kann dieser Effekt, z.B. beim leisen Ausklang eines Musiksignals, hörbar werden. Die Korrelation zwischen Signal und Quantisierungsfehler kann aufgehoben werden, indem vor dem Quantisierungsprozess ein Zufallssignal, z.B. weißes Rauschen addiert wird. Dieses Rauschen wird Dither genannt. Zunächst naheliegend scheint die Annahme, dieses Rauschen müsste so stark sein, dass es die o.g. Verzerrungen akustisch verdeckt; das muss aber nicht der Fall sein. Vielmehr genügt ein schwaches Rauschen, das die deterministische Abfolge der angesprochenen Quantisierungsstufen in eine zufällige überführt. So 24 KAPITEL 2. GRUNDLAGEN Abbildung 2.16: Von oben nach unten: Eingangssignal, 3-stufig quantisiertes Eingangssignal, Quantisierungsfehler, Spektrum des quantisierten Signals. Links: Ohne Dither. Rechts: Mit Dither würde für eine Gleichspannung von 1,3 mV am Eingang des Quantisierers, die in 1 mVSchritten quantisiert wird, das Ausgangssignal bei ungedithertem Eingang konstant bei 1 mV liegen. Wird das Eingangssignal hingegen ausreichend gedithert, so wird es manchmal bei 2 mV, häufiger bei 1 mV und sehr selten bei anderen Quantisierungswerten liegen. Tatsächlich wird aber der Mittelwert des Ausgangssignals 1,3 mV betragen; im zeitlichen Mittel ist also die geditherte Quantisierung genauer, da beliebige Quantisierungswerte möglich gemacht werden. Dithering wird auch im Bildbereich eingesetzt. Hier lässt sich die Wirkung anhand eines visuellen Beispiels veranschaulichen. Hält man sich eine Hand mit leicht geöffneten Fingern vor die Augen, so wird ein Großteil des Gesichtsfeldes von den Fingern abgedeckt, und nur durch die Zwischenräume lässt sich etwas erkennen. Bewegt man diese Hand allerdings sehr schnell, so lassen sich - wenn auch etwas undeutlich 2.4. DITHER 25 - auch die Bereiche erkennen, die zuvor von den Fingern verdeckt waren. Die durch die Nichtlinearität der Quantisierungskennlinie hervorgerufenen Verzerrungen treten sowohl bei der Analog-Digital-Wandlung auf als auch bei der Requantisierung digitaler Signale, wie sie bei Formatwandlung, Speicherung oder bei Signalverarbeitungsprozessen vorkommt. Auf digitaler Ebene wird das Dithering durch Addition einer Zufallsfolge d(n) zum Eingangssignal x(n) vor der Requantisierung vorgenommen (Abbildung 2.17). Die Amplitude des Dithers wird dabei meist in Einheiten des Quantisierungsintervalls nach der Requantisierung angegeben (vgl. Abb. 2.18 und 2.21). Dies entspricht dem vom letzten Bit (Least Significant Bit) geschalteten Amplitudenintervall und wird daher auch in Einheiten von LSB angegeben. Abbildung 2.17: Requantisierung mit Dithering durch eine Zufallsfolge d(n) Die ADV des verwendeten Ditherrauschens (s. Abb. 2.18) ist von grundlegender Bedeutung. So lassen sich mit einem Rauschen mit rechteckförmiger ADV zwar bei der Quantisierung auftretende Nichtlinearitäten beseitigen, allerdings tritt hierbei der unerwünschte Effekt einer sog. Rauschmodulation auf. Abbildung 2.18: Dither mit rechteckförmiger (RECT), dreieckförmiger (TRI) und gaußförmiger Amplitudendichteverteilung. Die beiden ersteren Verteilungsdichten lassen sich leicht durch digitale Zufallsfolgen erzeugen, analoge Rauschquellen erzeugen typischerweise eine gaußförmige Verteilung. Die Linearisierung der Quantisierungskennlinie und die dabei auftretende Abhängigkeit der Rauschleistung von der Amplitude des Eingangssignals (Rauschmodulation) lassen sich am einfachsten anhand einer digitalen Requantisierung veranschaulichen. Abb. 2.19 zeigt die mittlere Ausgangsamplitude gm (V ) und die mittlere Rauschamplitude dR (V ) für ein von 20-Bit- auf 16-Bit-Wortbreite konvertiertes (requantisiertes) Signal in Abhängigkeit von der Eingangsamplitude V. Der Dither bewirkt eine Linearisierung der Kennlinie: Die treppenförmige Kennlinie mit der Stufenhöhe ∆ wird durch eine feinere Abstufung für den mittleren Ausgangswert gm (V ) ersetzt. Links der Verlauf für 26 KAPITEL 2. GRUNDLAGEN ein mit 20-Bit-Wortbreite erzeugtes, rechteckförmig verteiltes Dithersignal, dessen Maximalamplitude der Hälfte des nach der Requantisierung erreichten Quantisierungsintervalls Q entspricht (vgl. Abb. 2.19). Als bipolares Rauschsignal mit positiven und negativen Amplituden hat es eine Spitze-Spitze-Amplitude von 1 LSB. Rechts der entsprechende Verlauf für ein dreieckförmig verteiltes Dithersignal mit 2 LSB Spitze-SpitzeAmplitude. Der Dither sorgt in beiden Fällen dafür, dass die mittlere Ausgangsamplitude gm (V ) die ursprüngliche Auflösung von 20 Bit (angezeigt durch eine Treppenkurve mit 16 Stufen innerhalb des neuen Quantisierungsintervalls Q) erhält. Obwohl das requantisierte Signal, bezogen auf ein Quantisierungsintervall Q nur noch die Werte 0 und 1 enthalten kann, entsprechen im zeitlichen bzw. statistischen Mittel die geditherten und quantisierten Werte den ursprünglichen, höher aufgelösten Werten. Der Unterschied der beiden Dither-Typen zeigt sich bei einer Betrachtung des nach der Requantisierung durch den Dither induzierten Rauschens. Es kann, wie bereits zu Beginn eingeführt, als Differenz von quantisiertem und unquantisiertem Signal behandelt werden. Für ein genau auf die Ecken der Quantisierungskennlinie fallendes Eingangssignal (in Abb. 2.19 bei V = 0 und V = 1) bewirkt ein rechteckförmig verteiltes Dithersignal im Bereich [0,5 LSB;+0,5 LSB] keine zusätzlichen Quantisierungsübergänge, das geditherte Signal wird immer auf den ursprünglichen Wert zurückgerundet“. Für Eingangsamplituden an ” den Rändern des Quantisierungsintervalls wird die durch den Dither eingeführte Rauschleistung durch die Requantisierung eliminiert, und es tritt keinerlei Rauschen auf. Die Rauschleistung steigt bis zur Mitte des Quantisierungsintervalls an, wo bereits geringe Ditheramplituden zusätzliche Quantisierungsübergänge und damit zusätzliches Rauschen bewirken. Diese Abhängigkeit der Rauschleistung am Ausgang des Quantisierers von der Amplitude des Eingangssignals wird als Rauschmodulation bezeichnet. Insbesondere bei geringen Signalamplituden, wo das Quantisierungsrauschen nicht generell durch das Nutzsignal maskiert wird, kann sie sich als Pumpen“ bemerkbar machen, wie eine vom Ein” gangssignal abwechselnd ein- und ausgeschaltete Rauschquelle. Geschieht dies schnell, wird dem Signal eine störende Körnigkeit“ oder Granularität“ hinzugefügt. Der Effekt ” ” der Rauschmodulation lässt sich durch ein dreieckförmig verteiltes Dithersignal mit Amplituden im Bereich [-1 LSB; +1 LSB] vermeiden. Hier werden, unabhängig von der Amplitude des Eingangssignals, stets zusätzliche Quantisierungsübergänge erzeugt, die dreieckförmige Verteilung des Dithers garantiert einen über die Amplitude konstanten Erwartungswert der durch den Dither induzierten Rauschleistung. Für eine mathematische Analyse s. [Zöl05]. Das Dithersignal lässt sich auf digitaler Ebene durch einen Zufallszahlengenerator erzeugen. Durch Zufallszahlen mit gleichverteilter Amplitudenhäufigkeit d(n) ergibt sich ein Signal mit rechteckförmiger Amplitudendichteverteilung dRECT (Rectangular Dither). Durch Addition zweier unabhängiger, gleichverteilter Zahlenfolgen ergibt sich ein Signal mit dreieckförmiger ADV dT RI (Triangular Dither). Bei einer Subtraktion aufeinanderfolgender Abtastwerte des erzeugten Rauschens erhält man ein hochpassgefiltertes Rauschsignal gleicher ADV, was in den meisten Fällen zu einer subjektiven Qualitätsverbesserung führt, da die Rauschleistung etwas aus dem Hörbereich herausgeschoben wird. 2.4. DITHER 27 Abbildung 2.19: Digitale Requantisierung mit bipolarem RECT Dither (links) und TRI Dither (rechts). Dargestellt ist der Verlauf des Erwartungswerts des requantisierten Signals (mittlerer Ausgangswert) gm (V ) und die mittlere quadratische Abweichung (Varianz) von diesem Wert dR (V ), jeweils über der Eingangsamplitude V innerhalb eines Quantisierungsintervals Q. dRECT (n) = d(n) dT RI (n) = d1 (n) + d2 (n) dHP (n) = d(n) − d(n − 1) (2.43) (2.44) (2.45) Abbildung 2.20 zeigt Zeitverläufe, Amplitudendichteverteilungen und Spektren von gleich- und dreieckförmig verteiltem Rauschen sowie dreieckförmig verteiltem hochpassgefiltertem Rauschen. Analoge Rauschsignale weisen näherungsweise eine gaußförmige ADV auf. Die Verwendung unterschiedlicher Ditherformen führt zu unterschiedlichem Pegel des in das Signal eingefügten Rauschens. Der Rauschpegel von gleichförmig verteiltem RECTDither hat eine ADV, die dem Quantisierungsfehler selbst entspricht und dementsprechend eine Leistung von ∆2 /12. Bei dreieckförmigem TRI-Dither addiert sich die Leistung zweier gleichverteilter Rauschsignale zu einer Gesamtleistung von ∆2 /6. Entsprechend verringern sich die Signal-Rauschabstände für ein sinusförmiges Eingangssignal bei der (Re)Quantisierung gegenüber (2.46) auf SN RRECT = 6.02 · w − 1.24 [dB] RECT Dither SN RT RI = 6.02 · w − 3 [dB] TRI Dither (2.46) (2.47) 28 KAPITEL 2. GRUNDLAGEN Abbildung 2.20: Zeitverläufe (oben), Amplitudendichteverteilungen (Mitte) und Spektren (unten) von gleichverteiltem Rauschen (links), dreieckförmig verteiltem Rauschen (Mitte) sowie hochpassgefiltertem dreickförmig verteiltem Rauschen (rechts) Im Hinblick auf die Linearität der Quantisierungskennlinie bei gleichzeitig minimaler und vom Eingangspegel unabhängiger Rauschleistung (keine Rauschmodulation) erweist sich dreieckverteilter Dither mit einer Spitze-Spitze-Amplitude von 2 LSB (bezogen auf das bei der Quantisierung gegebene Quantisierungsintervall) als optimal [VL89], [LWV92]. Der Preis ist in diesem Fall ein um 4.76 dB reduzierter Signal-Rauschabstand gegenüber der Quantisierung ohne Dither. Digitale Audioworkstations, die intern mit hoher Amplitudenauflösung wie 32-Bit-Fließkommadarstellung arbeiten, bieten meist die Möglichkeit, die Requantisierung auf ein Ausgabeformat von 16-Bit- oder 24-BitFestkomma-Darstellung mit verschiedenen Dither-Intensitäten und -Formen oder wahlweise mit einem Noise-Shaping-Algorithmus durchzuführen (Abb. 2.21, zum NoiseShaping s. Abschn. 2.6). 2.5. ÜBERABTASTUNG 29 Abbildung 2.21: Typische Dithering-Einstellung in einer digitalen Audioworkstation für die Requantisierung von interner 32-Bit-Fließkommadarstellung auf Festkommadarstellung mit reduzierter Auflösung von 8, 16 oder 24 Bit 2.5 Überabtastung Um die Qualität einer Digitalisierung zu verbessern, wird oftmals mit sog. Überabtastung (Oversampling) gearbeitet. Überabtastung bedeutet, dass das Audiosignal zunächst mit einer höheren Frequenz abgetastet wird, als nach dem Abtasttheorem erforderlich und anschließend auf die am Ausgang des Wandlers geforderte Abtastfrequenz konvertiert wird. Es existieren zwei Gründe für diese Verfahrensweise. Der erste Grund ist die effiziente technische Realisierung: Um maximale Audiobandbreite bis nah an die halbe Abtastfrequenz ohne aufwändiges (weil steilflankiges) Antialiasingfilter realisieren zu können, wird die Abtastrate so hochgesetzt, dass ein einfaches Antialiasingfilter mit moderater Flankensteilheit ausreicht, um das Abtasttheorem zu erfüllen. Anschließend wird das Signal im digitalen Bereich tiefpassgefiltert, so dass es die Anforderungen des Abtasttheorems für die ursprünglich gewünschte Abtastfrequenz erfüllt. Dieses Vorgehen hat einen erwünschten Nebeneffekt, welcher der zweite Grund für die temporäre Erhöhung der Abtastfrequenz ist: der Signal-Rauschabstand kann verbessert werden. Das ist zunächst überraschend, da die Abtastrate im Grunde lediglich die Bandbreite des digitalisierten Signals beeinflusst, nicht den SNR. Zwei wichtige Eigenschaften des Quantisierungsrauschens helfen jedoch bei einer Erklärung: • Die Gesamtleistung des Quantisierungsrauschens ist unabhängig von der Abtastfrequenz. 30 KAPITEL 2. GRUNDLAGEN • Das Quantisierungsrauschen ist näherungsweise weißes Rauschen, dessen Leistung über die gesamte Bandbreite des Signals gleichmäßig verteilt ist. Wenn also die Gesamtleistung des Quantisierungsfehlers gleich bleibt, obwohl die Abtastfrequenz erhöht wird, dann wird bei Erhöhung der Abtastfrequenz die durchschnittliche Leistung des Fehlers in einem festen Frequenzbereich sinken, da die Gesamtleistung des Quantisierungsrauschens sich über einen größeren Frequenzbereich erstrecken kann. Wendet man anschließend das oben genannte digitale Antialiasingfilter an, so wird der Anteil des Quantisierungsrauschens über der endgültigen halben Abtastfrequenz heraus” gefiltert“, und der SNR steigt. Man gewinnt mit solchen Oversamplingverfahren pro Frequenzverdopplung ca. 3 dB Signal-Rauschabstand. Abbildung 2.22 zeigt die Leistung des Quantisierungsfehlers im Normalfall und bei einem Oversamplingfaktor L, der sich aus dem Verhältnis von erhöhter zu gewünschter Abtastfrequenz bestimmt. Abbildung 2.22: Quantisierungsfehlerleistung ohne Oversampling (hellgrau) und nach L-fachem Oversampling (weiß) und Tiefpassfilterung (dunkelgrau) 2.6 Noise-Shaping Noise-Shaping ist wie das Dithering eine Methode, die Qualität eines Wandlers oder einer Wortbreitenkonvertierung zu erhöhen. Der Quantisierungsfehler, der bei normaler Quantisierung näherungsweise ein weißes Spektrum hat, wird dabei spektral geformt. Idealerweise wird die Rauschleistung von Frequenzbereichen hoher Gehörempfindlichkeit (wie z.B. 2-4 kHz) in Bereiche geringerer Empfindlichkeit verschoben (zumeist hohe Frequenzbereiche). Diese Frequenzverschiebung wird durch eine Rückkopplung (und Filterung) des Quantisierungsfehlers erreicht. Je nachdem, wieviele Koeffizienten das Filter für diese Rückkopplung hat, spricht man von Noise-Shaping verschiedener Ordnungen. Im Fall von Noise-Shaping erster Ordnung (s. Abb. 2.23) wird der Quantisierungsfehler festgestellt und vom darauffolgenden Sample subtrahiert, es handelt sich also um eine einfache Rückkopplung ohne dedizierte Filterung des Quantisierungsfehlers. Durch die Rückkopplung entsteht eine Verschiebung des Quantisierungsfehlers hin zu höheren Frequenzen. 2.6. NOISE-SHAPING 31 Quantisierer e(n) x(n) - +m 6 ? r - +m r y(n) - -- +m z −1 Abbildung 2.23: Noise-Shaping 1. Ordnung Jeder Ausgangswert y(n) ist daher die quantisierte Differenz von aktuellem Eingangswert x(n) und vorhergehendem Quantisierungsfehler q(n). Dadurch ergibt sich ein Filter mit der Differenzengleichung y(n) = [x(n) − q(n − 1)]Q = x(n) − q(n − 1) + q(n) (2.48) Die Übertragungsfunktion läßt sich aus der Differenzengleichung mit der zTransformation (s. z.B. Skript: Einführung in die digitale Signalverarbeitung) bestimmten. Mit dieser ergibt sich im z-Bereich die Gleichung Y (z) = X(z) − z −1 · Q(z) + Q(z) = X(z) + (1 − z −1 ) · Q(z) (2.49) und somit eine Rauschübertragungsfunktion HQ (z) = 1 − z −1 . Der Betragsfrequenzgang dieser Übertragungsfunktion besitzt einen sinusförmigen Verlauf und bewirkt eine spektrale Formung des Quantisierungsrauschens, die Anteile unterhalb von fS /6 dämpft und Anteile oberhalb von fS /6 verstärkt (Abb. 2.24). Die Übertragungsfunktion des Nutzsignals x(n) ist sowohl in Betrag als auch Phase konstant. Wird das einzelne Verzögerungsglied im Rückkopplungszweig in Abb. 2.23 durch eine kompliziertere Funktion ersetzt, so erhält man Noise-Shaping höherer Ordnungen. Im einfachsten Fall handelt es sich bei höherer Ordnung ebenfalls um ein Hochpaßfilter, dessen Steilheit mit der Ordnung zunimmt. Abb. 2.24 zeigt die Betragsfrequenzgänge für Noise-Shaping erster bis vierter Ordnung. Bei höheren Ordnungen lassen sich auch spezielle Rauschübertragungsfunktionen bilden, die komplexere spektrale Verschiebungen des Quantisierungsfehlers ermöglichen; auf diese Weise ist die unterschiedliche Gewichtung verschiedener Frequenzbereiche denkbar. Manche Systeme formen beispielsweise die Rauschübertragungsfunktion so, daß sie die frequenzabhängige Empfindlichkeit des menschlichen Gehörs nachbildet. 32 KAPITEL 2. GRUNDLAGEN Abbildung 2.24: Betragsfrequenzgang Noise-Shaping verschiedener Ordnungen Noise-Shaping wird meistens in Zusammenhang mit Dither verwendet, um unerwünschte Effekte bei der Rückkopplung des Quantisierungsfehlers zu vermeiden. Hierbei wird das Ditherrauschen direkt vor der Quantisierung eingefügt. 2.7 Delta-Sigma-Modulation Bei der Delta-Sigma-Modulation wird der entstehende Quantisierungsfehler wie beim Noise-Shaping spektral geformt. Dies geschieht durch Integrierung der Differenz zwischen Eingangssignal und quantisiertem Signal. Das Modell eines Delta-Sigma-Modulators 1. Ordnung ist in Abb. 2.25 dargestellt. Quantisierer q(n) x(n) - +m 6 R ? - +m r y(n) - z −1 Abbildung 2.25: Delta-Sigma Modulator 1. Ordnung 2.8. ZAHLENDARSTELLUNG UND ZAHLENFORMAT 33 Die Übertragungsfunktion läßt sich in Abhängigkeit von der Übertragungsfunktion des Integrierers H(z) wie folgt bestimmen: X(z) − z −1 · Y (z) · H(z) + Q(z) 1 H(z) ·X(z) + = −1 −1 1 + z · H(z) 1 + z · H(z) | {z } | {z } Y (z) = Signal-Übertragungsfunktion ·Q(z) (2.50) Rausch-Übertragungsfunktion Für einen Integrierer mit der Übertragungsfunktion: 1 , (2.51) 1 − z −1 ergibt sich für die Signalübertragungsfunktion Hx (z) = 1 und für die auf das Quantisierungsrauschen wirkende Rauschübertragungsfunktion HQ (z) = 1 − z −1 . Diese Rauschübertragungsfunktion entspricht einem Noise-Shaping 1. Ordnung (vgl. Abb. 2.24). Die Güte eines Delta-Sigma-Modulators lässt sich direkt durch den Oversamplingfaktor und die Art bzw. Ordnung des Noise-Shaping beeinflussen. Je größer der Oversamplingfaktor ist, desto mehr Signal-Rausch-Abstand kann erzielt werden, da mehr Anteile des Quantisierungsfehlers in nicht verwendete Frequenzbereiche verschoben werden. Da der Quantisierungsfehler spektral geformt ist, beträgt der SNR-Gewinn schon im Falle des Delta-Sigma-Modulators 1. Ordnung nicht nur wie beim einfachen“ Oversampling 3 dB ” (vgl. Abschn. 2.5), sondern 9 dB pro Verdopplung des Oversamplingfaktors. Delta-Sigma-Modulatoren höherer Ordnung zeichnen sich durch stärkere Filterung des Quantisierungsrauschens aus. Die Rauschübertragungsfunktion eines einfachen DeltaSigma-Modulators der Ordnung n ist HQ (z) = (1 − z −1 )n (vgl. Abb. 2.24). Durch die veränderte Übertragungsfunktion in Abhängigkeit der Ordnung n ändert sich auch der Einfluss des Oversampling auf den Signal-Rauschabstand: H(z) = SN R = 6.02 · w + (2n + 1) · 10 · log10 (L) + const(n) [dB] (2.52) Abbildung 2.26 veranschaulicht der SNR-Gewinn abhängig vom Oversamplingfaktor L. Wie es schon beim Noise-Shaping der Fall war, verwenden Delta-Sigma-Modulatoren höherer Ordnung oftmals nicht die obige hochpassartige Rauschübertragungsfunktion, sondern formen die Quantisierungsfehlerleistung zum Beispiel mit einer hörschwellenähnlich verlaufenden Übertragungsfunktion. 2.8 Zahlendarstellung und Zahlenformat Zur Speicherung und Verarbeitung von digitalen Werten gibt es zwei grundsätzliche Formate, das Festkomma- und das Gleitkomma-Format. Beim Festkomma-Format ist der Abstand einer Zahl zur nächsthöheren gleichbleibend, während er beim Gleitkomma-Format 34 KAPITEL 2. GRUNDLAGEN Abbildung 2.26: SNR-Gewinn durch verschiedene Oversamplingfaktoren für Delta-SigmaModulatoren der Ordnungen 1-3 mit dem Zahlenwert zunimmt. Bei der Speicherung und Übertragung von Audiosignalen wird überwiegend das Festkomma-Format eingesetzt, bei der Bearbeitung setzt sich das Gleitkomma-Format immer stärker durch. 2.8.1 Festkomma-Format Im Audiobereich hat sich die Darstellung einer Festkomma-Zahl im sogenannten 2erKomplement durchgesetzt. Normiert man die darzustellende Zahlenmenge auf den Bereich [-1,1], so stellt die erste Hälfte der Binärwerte bei einer Wortbreite w den Zahlenbereich 0 bis 1 − 2−(w−1) dar, die folgenden Binärwerte den Zahlenbereich −1 bis −2−(w−1) . Abb. 2.27 zeigt die Zuordnung der quantisierten Amplitudenwerte zu Binärwerten der 2er-Komplement-Darstellung im Fall einer Wortbreite w von 4 Bit. Das links notierte Bit bw−1 ist das Vorzeichenbit und somit das wichtigste, Most Significant Bit (MSB). Veränderungen im rechts notierten Bit b0 beeinflussen den Wert am geringsten, daher handelt es sich hier um das Least Significant Bit (LSB). Als Alternative zur 2er-Komplementdarstellung wird in seltenen Fällen auch eine vorzeichenlose Darstellung gewählt. Tabelle 2.1 zeigt diese beiden Darstellungen im Vergleich. Statt der Normierung des Zahlenbereichs auf −1 bis 1 ist manchmal auch die Darstellung 0 bis 2w−1 − 1 und von −2w−1 bis −1 (vorzeichenbehaftet) respektive von 0 bis 2w − 1 (ohne Vorzeichen) üblich. 2.8. ZAHLENDARSTELLUNG UND ZAHLENFORMAT 35 Abbildung 2.27: Zuweisung von Amplitudenwerten zur 2er-Komplement-Darstellung im Falle einer 4-Bit-Quantisierung Format 2er-Komplement Dualzahl ohne Vorzeichen Bitzuweisung Pw−2 xQ = −bw−1 + i=0 bi 2−(w−i−1) Pw−1 −(w−1) xQ = i=0 bi 2 Wertebereich −1 ≤ xQ ≤ 1 − 2−(w−1) 0 ≤ xQ ≤ 1 − 2−w Tabelle 2.1: Festkomma-Darstellung mit Bitzuweisung und Wertebereich 2.8.2 Gleitkomma-Darstellung Werte im Gleitkomma-Format haben die Form xQ = MG · 2EG (2.53) Dabei ist MG : Normalisierte Mantisse mit 0.5 ≤ MG < 1 EG : Exponent Durch die Normalisierung der Mantisse wird eine Mehrdeutigkeit vermieden, die sich daraus ergibt, dass etwa 24 und 42 auf den selben Zahlenwert führen. Das genormte Standardformat 32 Bit Single precision nach IEEE 754 benutzt folgende Aufteilung: Der Exponent EG wird mit 8 Bit dargestellt und ist eine ganze Zahl zwischen -126 und +127. Die Mantisse MG wird mit einer Wortbreite von 23 bit dargestellt und bildet eine fraktionale Darstellung im Festkomma-Format. Das Gleitkommaformat hat die Eigen- 36 KAPITEL 2. GRUNDLAGEN Vorzeichen (Bit 31) s Exponent (Bits 30-23) e7 ... e0 Mantisse (Bits 22-0) m22 ... m0 Tabelle 2.2: Bitzuweisung in der Gleitkomma-Darstellung schaft, dass ein großer Exponent auch zu größeren Quantisierungsschritten führt, beziehungsweise dass die Quantisierungsstufen mit abnehmenden Exponenten kleiner werden. Im IEEE-Format gelten folgende Sonderfälle: Typ normal NAN (not a number) Infinity Zero Exponent 1 ≤ EG ≤ 254 255 255 0 Mantisse beliebig 6= 0 =0 0 Zahlenwert (−1)s (0.m)2EG −127 undefiniert ∞ 0 Tabelle 2.3: Sonderfälle bei der Gleitkomma-Darstellung 2.8.3 Anwendungsbereiche Im Audiobereich lässt sich weder eine grundsätzliche Bevorzugung des Fest- noch des Gleitkommazahlenformats feststellen. Qualitative Unterschiede lassen sich in fast allen Fällen eher auf die verwendeten Bearbeitungsalgorithmen zurückführen als auf das verwendete Zahlenformat. Das Festkommaformat erfordert tendenziell einen höheren Entwicklungsaufwand, bietet allerdings im DSP-Bereich (Digitale Signalprozessoren) den Vorteil günstigerer Preise und oftmals einer geringeren Leistungsaufnahme. Dies führt dazu, dass Hardwaregeräte wie Audioeffekte oder portable Devices wie MP3-Player häufig auf Festkommaprozessoren basieren. Bei der Musikbearbeitung im Festkommaformat werden zumeist Wortbreiten von 32 Bit oder 48 Bit verwendet. Zur nativen Audiobearbeitung auf dem Computer oder der Workstation wird nahezu ausschließlich das Gleitkommaformat verwendet, lediglich für die Speicherung in Dateien wird meistens noch das Festkommaformat verwendet. Der Grund hierfür sind die leistungsfähigen Gleitkommaeinheiten moderner Prozessoren, aber auch der in vielen Fällen schnellere Entwicklungszyklus. In den letzten Jahren sind vermehrt Applikationen auf dem Markt, die intern mit Gleitkommazahlen der Auflösung 64 Bit oder 80 Bit arbeiten. Insbesondere im Bereich des Mischbusses kann eine solche Erhöhung der Auflösung in bestimmten Fällen eine Verbesserung des erzielten SNR zur Folge haben, z.B. bei der Addition von Gleitkommazahlen sehr unterschiedlicher Aussteuerung. Kapitel 3 A/D- und D/A- Wandlung 3.1 Einleitung Die Audioübertragung über elektronische Medien findet heute überwiegend in der digitalen Ebene statt. Da natürliche Klangquellen am Anfang und der Hörer am Ende der Übertragungskette aber nach wie vor analoge Systeme sind, muss an geeigneter Stelle eine Umwandlung zwischen analogen und digitalen Signalformen stattfinden. Diese Aufgabe erfüllen Analog/Digital-Wandler (A/D-Wandler) und Digital/Analog-Wandler (D/A-Wandler). Für diese Wandlung kommen zunächst viele verschiedene Verfahren in Betracht [TS99], [Zöl05], [Skr88]. Allerdings beschränkt sich die Auswahl in der Audiotechnik auf einige wenige, da nicht von allen Verfahren die nötige Wandlungsgeschwindigkeit und Genauigkeit erreicht wird. So wird heute für die A/D-Wandlung ausschließlich das Delta/Sigma-Verfahren angewendet, bei der D/A-Wandlung daneben gelegentlich auch noch das R-2R-Verfahren. Grundlage des R-2R-Verfahrens und Bestandteil des Delta/Sigma-Verfahrens ist das sog. Parallelverfahren. Die A/D-Wandlung wandelt ein zeitkontinuierliches Signal in eine diskrete Folge von Abtastwerten (samples). Aliasing-Fehler können nach der Wandlung nicht mehr erkannt und entfernt werden und müssen daher durch eine Tiefpassfilterung vor der Wandlung unterdrückt werden. Den Einsatz eines steilflankigen, in der Praxis kaum realisierbaren Filters kann man durch Überabtastung und Dezimation vermeiden (s. Kap. 2.5). Mit zunehmendem Grad dieser Überabtastung kann dann das analoge Tiefpassfilter einfacher ausgeführt werden. So müsste bei einer Überabtastung um den Faktor 64 das analoge Tiefpassfilter erst ab einer Frequenz von 64 fs - fN eine gute Unterdrückung aufweisen. Dies wäre bei fs = 48 kHz also der Bereich ab 3.048 MHz, so dass sich das Tiefpassfilter als einfaches RC-Glied aus Widerstand und Kondensator aufbauen lässt. Die anschließend notwendige digitale Dezimation erfolgt mittels einer Abwärtstastung. Damit durch dieses Weglassen von Samples keine Aliasing-Effekte auftreten, muss der Abwärtstastung ein digitales AntiAliasing-Tiefpassfilter vorgeschaltet werden. Jeder D/A-Wandler erzeugt eine analoge Spannungsfolge entsprechend der am Wandler anliegenden digitalen Wertefolge. Diese Spannungsänderungen verlaufen zunächst stufig, 37 38 KAPITEL 3. A/D- UND D/A- WANDLUNG als Folge tritt eine Wiederholung des Nutzsignal-Spektrums zwischen 0 Hz und der Nyquistfrequenz fN zu beiden Seiten der Abtastfrequenz fs und bei allen Vielfachen von fs auf. Deshalb muss jedem D/A-Wandler ein analoges Tiefpassfilter folgen, welches das Ausgangssignal von den hohen Frequenzanteilen weitgehend befreit. Wie bei A/DWandlern müsste auch dieses Tiefpassfilter sehr steil ausgeführt werden, falls die Abtastrate fs nur unwesentlich über dem doppelten der höchsten Übertragungsfrequenz liegt. Um dies zu vermeiden, findet auch hier ein Teil der Glättung des Signals bereits in der digitalen Ebene statt. Dies geschieht durch Überabtastung, wodurch sich die nach der Wandlung verbleibenden Stufen im Signalverlauf verkleinern und dann durch ein einfaches analoges Tiefpassfilter geglättet werden können. Die Erhöhung der Abtastrate erfolgt zunächst durch eine Aufwärtstastung, wobei zwischen die vorhandenen Werten zusätzliche Zwischenwerte (zunächst mit dem Betrag Null) eingefügt werden. Anschließend entfernen digitale Tiefpassfilter sog. Images, d.h. Frequenzanteile im Bereich zwischen der alten und neuen (höheren) Abtastfrequenz , wodurch die eingefügten Samples im Zeitbereich zwischen die vorhandenen Stützpunkte interpoliert werden. Diese Filter heißen deshalb Anti-Imagingfilter oder Interpolationsfilter (Abb. 3.1 links). Bei einer Überabtastung um den Faktor zwei unterdrückt das digitale Anti-Imagingfilter den Frequenzbereich von fN bis fs + fN , bei fs = 48 kHz also den Bereich von 24 kHz bis 72 kHz. Das nachfolgende Analogfilter müsste nun erst ab 72 kHz eine gute Dämpfung aufweisen (Abb. 3.1 rechts). Abbildung 3.1: Links: Frequenzspektrum unmittelbar nach der D/A-Wandlung bei einer Überabtastung von 2 und digitalem Anti-Imagingfilter. Rechts: Gleiches Signal nach der abschließenden analogen Tiefpassfilterung In der Praxis liegen die Überabtastungsraten aber deutlich höher. Je nach Wandlertechnologie wird mit 8-facher bis 128-facher Überabtastung gearbeitet. 3.2 3.2.1 A/D-Wandler Parallel-Wandler Bei Parallel-Wandlern (Flash Converter) der Wortbreite w wird eine Referenzspannung durch 2w Widerstände in eine entsprechende Anzahl von Intervallen geteilt und mit der von der Abtast-Halte-Schaltung gelieferten Eingangsspannung UE über 2w −1 Spannungskomparatoren verglichen. Die Ausgänge der Komparatoren werden über eine Kodierlogik 3.2. A/D-WANDLER 39 in ein w-bit Datenwort umgesetzt. Da für jede Umsetzung intern nur ein Rechenzyklus notwendig ist, sind Abtastraten bis zu 500 MHz erreichbar. Aufgrund der hohen Anzahl an Komparatoren sind Auflösungen bis zu einer Wortbreite von 10 bit ereichbar. Abbildung 3.2: Parallel-Wandler Eine Variante des Parallel-Wandlers ist der Subranging-Wandler. Er führt die Wandlung in zwei Schritten durch: In einem ersten Schritt wird die gehaltene Eingangsspannung einem m-bit A/D-Wandler zu. In einem zweiten Schritt wird die um den Faktor 2m verstärkte Differenzspannung zwischen der Eingangsspannung und der durch einen m-bit D/A-Wandler rückgeführten Spannung dem m-bit A/D-Wandler erneut zugeführt. Die durch das zweistufige Verfahren erhöhte Auflösung geht auf Kosten der Umsetzungsgeschwindigkeit, so dass Abtastraten bis 40 MHz und Auflösungen bis 16 bit möglich sind. Abbildung 3.3: Subranging-Wandler 3.2.2 SAR-Wandler A/D-Wandler mit sukzessiver Approximation (Successive approximation register, SAR) wandeln die Eingangsspannung innerhalb von w Umsetz-Zyklen in ein w-bit Wort um (s. 40 KAPITEL 3. A/D- UND D/A- WANDLUNG Abbildung 3.4: SAR-Wandler Abbildung 3.5: Spannungsverlauf Abb. 3.4 und 3.5). Im ersten Schritt wird überprüft, ob UE positiv oder negativ ist, im ersteren Fall wird das MSB auf 0 gesetzt. Im nächsten Schritt wird das zweite bit auf 1 gesetzt, die zugehörige Spannung von +0.5UR über einen D/A-Wandler rückgeführt und durch einen Komparator überprüft, ob die Eingangsspannung größer oder kleiner als dieser Wert ist. Falls UE größer ist, wird die 1“ beibehalten und das nächste bit gesetzt. ” Dadurch nähert sich Ausgangsspannung in w Zyklen schrittweise der Eingangsspannung an und führt auf ein w-bit Ausgangswort. 3.2.3 Delta-Sigma-Wandler Der Delta-Sigma-Wandler besteht aus einem als Delta-Sigma-Modulator ausgelegten 1bit-Wandler mit L-facher Überabtastung und einem Dezimationsfilter. Letzteres besteht aus einem digitalen Tiefpassfilter, welches das 1-bit-Eingangssignal durch ein linearphasiges, nichtrekursives FIR-Filter mit Filterkoeffizienten der Wortbreite w in ein w-bit Ausgangssignal überführt, aus dem ein Abwärtstaster nur jedes L-te Wort entnimmt. Abbildung 3.6: Delta-Sigma-Wandler 3.3. D/A-WANDLER 3.3 D/A-Wandler 3.3.1 R-2R-Wandler 41 Der R-2R-Wandler ist ein Widerstandsnetzwerk, dessen Zweige wie geschaltete Stromquellen wirken, deren Ausgänge aufsummiert auf einen Strom-Spannungs-Wandler gehen. Jeder Knoten sieht“nach rechts einen Widerstand von R + 2R k 2R = 2R. Somit ” teilt sich der Strom an jedem Knoten in zwei gleiche Anteile. Abbildung 3.7: R-2R-Wandler Wenn jeder Schalter durch eines der w bits gesteuert wird, ergibt sich eine binäre Gewichtung der Ströme mit b2 b3 bw b1 + + + . . . + w−1 ) 2R 4R 8R 2 R −1 −2 −3 = −UR (b1 2 + b2 2 + b3 2 + . . . + bw 2−w ) UA = −RI = −R( 3.3.2 (3.1) (3.2) Delta-Sigma-DA-Wandler Der Delta-Sigma-DA-Wandler unterzieht die eingelesenen w-bit Datenworte zunächst einer Abtastratenerhöhung durch einen Aufwärtstaster und einen digitalen Tiefpassfilter. Der Delta-Sigma-Modulator (s. Kap. 2.7) führt eine Requantisierung von w bit auf einen 1 bit-Datenstrom durch, der anschließend durch einen 1-bit-D/A-Wandler mit nachfolgendem Rekonstruktionsfilter in ein analoges Signal umgesetzt wird. Der analoge Tiefpass benötigt aufgrund der hohen Abtastrate - bei fA = 44.1 kHz und 64-fachem Oversampling etwa 2.8 MHz - nur eine geringe Flankensteilheit. 3.4 Kenn- und Messgrößen für Wandler Abweichungen vom Verhalten des idealen Wandlers entstehen durch bei A/D- und D/AWandlung auftretende 42 KAPITEL 3. A/D- UND D/A- WANDLUNG Abbildung 3.8: Delta-Sigma-DA-Wandler • Amplitudenfehler • Zeitfehler (Jitter) Amplitudenfehler ergeben sich aus Abweichungen von der idealen Treppenform der Wandlerkennlinie (s. Abb. 3.9). Differentielle Nichtlinearitäten äußern sich in Abweichungen von der idealen Stufenbreite (Stufenbreitenfehler), also des EingangsspannungsIntervalls zwischen zwei aufeinanderfolgenden Ausgangskodes. Integrale Nichtlinearitätensind das Ergebnis der kumlierten Stufenbreitenfehler, d.h. die Abweichung des quantisierten Werts vom idealen kontinuierlichen Wert. Fehler entstehen außerdem aus Nulldurchgangsverschiebungen (Offset-Fehler) der Kennlinie und Abweichungen von der idealen Steigung der Kurve (Verstärkungsfehler). Die in Abb. 3.9 für die A/DWandlung dargestellten Fehler können in gleicher Weise bei der D/A-Wandlung auftreten, nur dass die Kodewerte (y-Achse) in diesem Fall das Eingangssignal bilden, die Spannungen (x-Achse) das Ausgangssignal. Zeitfehler, wie sie durch Variationen des Abtastzeitpunktes um den idealen Wert entstehen, werden als Jitter bezeichnet. Jeder Zeitfehler bei der A/D- oder D/A-Wandlung hat seinerseits einen Amplitudenfehler zur Folge, der umso größer ausfällt, je höher die Signalfrequenz ist (Abb. 3.10). Wenn der Zeitversatz bei der Abtastung auf digitaler Ebene korrigiert wird, verbleibt der durch den Jitter induzierte Amplitudenfehler als Störsignal im System. Für ein 16-bit System mit 216 Quantisierungsintervallen Q beträgt die maximale Steigung des Signals bei einer Frequenz von 20 kHz 20000 × π × 216 Q pro Sekunde. Der durch Jitter bedingte Amplitudenfehler sei vernachlässigbar, wenn er weniger als Q2 beträgt. Der zulässige Zeitfehler beträgt für diesen Fall 1 = 121ps (3.3) 2 · 20000 · π · 216 Abb. 3.11 zeigt die Auswirkungen eines Jitters auf den Signal-Rauschabstand in Abhängigkeit von Zeitfehler und Signalfrequenz. tJ = 3.4. KENN- UND MESSGRÖSSEN FÜR WANDLER 43 Abbildung 3.9: Abweichungen von der idealen Wandlerkennlinie. A: Differentielle Nichtlinearitäten, B: Integrale Nichtlinearitäten, C: Verstärkungsfehler, D: Offset-Fehler Abbildung 3.10: Amplitudenfehler durch Sampling-Jitter Da Amplitudenfehler, die durch Jitter entstehen ebenso wie Amplitudenfehler in Folge von Nichtlinearitäten der Kennlinie zu einer Verringerung des Signal-Rauschabstands 44 KAPITEL 3. A/D- UND D/A- WANDLUNG Abbildung 3.11: Auswirkung von Sampling Jitter auf den Signal-Rauschabstand in Abhängigkeit von Zeitfehler und Signalfrequenz in Bezug zum theoretischen Signal-Rauschabstand von 16- und 18-bit Systemen führen, ist es üblich, den Jitter nicht direkt zu messen, sondern über eine Messung der SNR mitzuerheben. In Datenblättern von Wandlern sind üblicherweise folgende Messwerte mit jeweils unterschiedlichen Messverfahren aufgeführt: Klirrfaktor (Total Harmonic Distortion, THD) Durch ein Testsignal, das den A/D-Wandler voll aussteuert (X1 = 0 dBFS), werden am Ausgang des Wandlers die Klirrkomponenten (Klirrfaktoren n-ter Ordnung) gemessen. Dabei gilt Xn kn = 10 20 kn : Klirrfaktor n-ter Ordnung (dimensionslos) Xn : Amplitude der n-ten harmonischen Oberwelle in dBFS Für den Gesamtklirrfaktor gilt somit v u∞ uX kn2 k=t (3.4) (3.5) n=2 und für das Klirrdämpfungsmaß ak : 1 (3.6) k Als Testsignal wird üblicherweise ein Sinussignal von 1000 Hz oder 997 Hz verwendet. Der THD wird entweder als Klirrfaktor in % oder als Klirrdämpfungsmaß in [dB] angegeben. ak = 20 log 3.4. KENN- UND MESSGRÖSSEN FÜR WANDLER 45 Klirrfaktor plus Rauschen (Total Harmonic Distortion plus Noise, THD+N) Bei der Messung des Klirrfaktors plus Rauschen wird ausgangsseitig lediglich das Testsignal durch ein Notch-Filter unterdrückt. Die Messung berücksichtigt somit nicht nur harmonische Oberwellen, sondern das gesamte Störspektrum einschließlich unharmonischer Anteile, Einstreuungen, Brummen, Rauschanteile u.ä.. Dynamik (Dynamic Ratio, DR) Messverfahren wie THD+N, allerdings mit einem niedrig ausgesteuerten Testsignal, typischerweise ein Sinussignal bei -60 dBFS. Da die Amplituden der nichtlinearen Verzerrungen proportional zur Amplitude des Eingangssignals sind, wird bei Messung der Dynamik nur der Rauschpegel erfasst, da die Amplituden einzelner nichtlinearer Verzerrungensprodukte bei Anregung mit -60 dB bereits im Rauschteppich verschwinden. 46 KAPITEL 3. A/D- UND D/A- WANDLUNG Kapitel 4 Kodierung Bei der Übertragung von Nachrichten wie analogen oder digitalen Audiosignalen wird die von einer Quelle generierte Information durch die Kodierung für die Übertragung in einem bestimmten Übertragungskanal optimiert. Quellen können akustische oder elektrische Klangquellen sein, Mikrofone oder die von einem A/D-Wandler erzeugte Bitfolge. Übertragungskanäle können kabelgebundene elektrische Verbindungen, drahtlose Funkverbindungen oder Speichermedien (CD, DVD, SACD) sein. Jeder Kanal hat charakteristische Eigenschaften, z.B. eine bestimmte Bandbreite, und charakteristische Störungen, die etwa bei einer kabelgebundenen Übertragung anderer Natur sind als auf einem Speichermedium. Somit erfordert jeder Kanal eine spefizisch optimierte Kodierung, welche die gesendete Information einerseits effizient überträgt und gleichzeitig robust gegenüber Störungen und Übertragungsfehlern macht. Im Hinblick auf diese unterschiedlichen Funktionen unterscheidet man im Allgemeinen drei Kodierungsstufen. Abbildung 4.1: Technisches Kommunikationsmodell Die Quellenkodierung hat die Aufgabe, die vom Sender ausgehende Information im Hinblick auf eine effiziente Übertragung möglichst kompakt und redundanzfrei darzustellen. Beispiele sind alle Verfahren der Bitratenreduktion durch Redundanzkodierung oder Irrelevanzkodierung. 47 48 KAPITEL 4. KODIERUNG Die Kanalkodierung hat die Aufgabe, das Signal durch Hinzufügen von Redundanz vor einem Informationsverlust durch Übertragungsfehler zu schützen, sodass Übertragungsfehler zumindest erkannt, nach Möglichkeit auch korrigiert werden können. Die Leitungskodierung hat die Aufgabe, eine elektrische Repräsentation des Signals vorzunehmen, die z.B. auf die spektrale Bandbreite des Kanals angepasst ist und die, besonders bei digitalen Audiosignalen, eine Taktrückgewinnung (Wordclock, Bitclock) beim Empfänger ermöglicht. 4.1 Grundlagen In einer Menge X = {x1 , x2 , . . . , xN } von Ereignissen xi ∈ X, die mit der Wahrscheinlichkeit pi = p{xi } auftreten, ist Hi = log2 1 = − log2 p(xi ) p(xi ) (4.1) ein Maß für die Unbestimmtheit des Ereignisses xi . Durch diese Definition enthält das sichere Ereignis, das keine Unbestimmtheit aufweist, mit p(xi ) = 1 eine Information von Hi = 0. Wenn Information als beseitigte Unbestimmtheit verstanden wird, gilt Hi als Maß sowohl für die (vor dem Auftreten von xi vorhandene) Unbestimmtheit als auch für die (nach dem Auftreten von xi vorhandene) Information. Dieses zunächst nur postulierte Informationsmaß hat sich in der Informationstheorie, wie sie auf die Formulierung durch Hartlay (1888-1970) und Shannon (1916-2001) zurückgeht, als mathematisch elegant und (insbesondere durch die Verwendung des 2erLogarithmus) für den Bereich der Informations- und Kodierungstheorie in binären Systemen als äußerst geeignet erwiesen. Es berücksichtigt allerdings nur den statistischen Aspekt, nicht den semantischen (was bedeutet die Nachricht) und den pragmatischen Aspekt (welche Handlungen löst die Nachricht beim Empfänger aus) von Information und Kommunikation. Im Sinne der Informationstheorie sind digitale Audiosignale Ereignisse einer diskreten Quelle mit dem Alphabet X = {x1 , x2 , . . . , xN } und den zugehörigen Auftrittswahrscheinlichkeiten pi . Für die mittlere Unbestimmtheit der Quelle und damit auch für ihren mittleren Informationsgehalt gilt Hm = N X pi Hi (4.2) i=1 Hm wird als Entropie oder Quellenentropie bezeichnet mit der Maßeinheit bit/Zeichen oder einfacher bit, wenn klar ist auf welche Ereignisse sich Hm bezieht. Die Quellenentropie ist maximal, wenn alle Ereignisse gleichwahrscheinlich sind (Beweis z.B. [KPS03]). In diesem Fall ist Hmax = log2 N (4.3) 4.1. GRUNDLAGEN 49 Was als Menge der möglichen Ereignisse aufgefasst wird, hängt konkret vom Vorgang der Kodierung ab. Dies kann ein einzelnes Bit, eine Signalamplitude mit 16 oder 24 bit Wortbreite oder eine noch größere Einheit sein. Beispiel Ein idealer Würfel mit gleichwahrscheinlichen Augenzahlen ist eine Quelle mit dem Ereignisrepertoire X = {1, 2, 3, 4, 5, 6} und den Auftrittswahrscheinlichkeiten pi = 61 . Somit ist die Information Hi jedes Ereignisses 1 = − log2 6 = 2, 58 bit (4.4) p(xi ) Da alle Ereignisse gleich wahrscheinlich sind, beträgt auch die Entropie der Quelle Hm = 2, 58 bit. 1 Für einen nichtidealen Würfel mit p1 = 12 und p2 . . . p6 = 10 ist dagegen Hi = log2 H1 = − log2 2 = 1 bit (4.5) H2 . . . H6 = − log2 10 = 3, 32 bit (4.6) und mit Hm = N X pi Hi = 2, 16 bit (4.7) i=1 Der ideale Würfel mit gleichverteilten Auftrittswahrscheinlichkeiten hat somit, wie erwartet, eine höhere Entropie als der nichtideale Würfel. Unter Kodierung wird allgemein ein Vorgang verstanden, bei dem Elemente eines Quellenalphabets xi auf Elemente eines Kanalalphabets U bzw. auf aus diesen Elementen gebildeten Kodewörtern abgebildet werden. Aus welchen Elementen ein Kanalalphabet besteht, bestimmt die jeweils vorhandene Technik der Übetragung. In der Digitaltechnik beschränken wir uns auf binäre Kodierungen mit U = {0, 1} (4.8) Ein Wort a ∈ {0, 1}l wird als Kodewort der Länge l bezeichnet. Das Alphabet A = {0, 1}l , d.h. die Menge aller Kodewörter, die einem Quellenalphabet eindeutig zugeordnet sind, bildet einen Kode. Wenn alle Kodewörter gleich lang sind, spricht man von einem gleichmäßigen Kode, ein Kode mit ungleicher Kodewortlänge wird als ungleichmäßiger Kode bezeichnet. Die Differenz zwischen der der mittleren Kodewortlänge lm (bei gleichmäßigen Kodes gleich der Kodewortlänge l) und dem mittleren Informationsgehalt der Quelle wird als Koderedundanz RK bezeichnet. RK = lm − Hm (4.9) Damit ein Empfänger in der Lage ist, die gesendeten Kodewörter wieder den ursprünglichen Quellenzeichen zuzuordnen, muss der Zusammenhang zwischen Quellenzeichen und Kodewörtern eineindeutig sein. Dazu muss der Empfänger zunächst in der 50 KAPITEL 4. KODIERUNG Lage sein, die empfangene Binärfolge in einzelne Kodewörter zu zerlegen. Während dies bei gleichmäßigen Kodes unproblematisch ist (solange man einmal den richtigen Anfang eines Kodeworts erkannt hat und in der Folge kein Bit verlorengeht), ist bei ungleichmäßigen Kodes eine zusätzliche Bedingung für die Erkennung der Wortenden erforderlich. Diese Bedingung wird von Kodes mit der sog. Präfix-Eigenschaft erfüllt. Dies sind Kodes, bei denen kein Kodewort mit dem Anfang eines anderen Kodeworts übereinstimmt. Beispiel Das Alphabet einer diskreten Quelle X enthalte vier Zeichen, die durch die Kodes K1 und K2 kodiert sind. X K1 K2 x1 0 0 x2 10 100 x3 110 101 x4 101 110 Während K1 keine Präfix-Eigenschaft hat (x2 ist der Anfang von x4 ), ist K2 eindeutig und unverzögert dekodierbar. Ein Kode kann in Form eines Kodebaums dargestellt werden, wobei jedes Kodewort durch einen von der Wurzel zum Endknoten reichenden Pfad bestimmt ist. Abbildung 4.2: Kodebaum mit Endknoten für den Kode K2 (s.o.) Die Präfix-Eigenschaft ist erfüllt, wenn es auf jedem Pfad nur einen Endknoten gibt. Auf jeder Ebene eines Kodebaums gibt es 2l Knoten. In einem gleichmäßigen Kode können somit 2lmax Kodewörter gebildet werden. Bei einem umgleichmäßigen Kode wird die Anzahl der Kodewörter durch jeden Endknoten reduziert, der auf einer Ebene l < lmax liegt. Für jeden Endknoten auf einer Ebene mit l < lmax liegen unterhalb dieses Endknotens 2lmax −l Knoten, die nicht benutzt werden. Summiert man diese Endknoten für jedes der N Kodewörter mit der Länge li , d.h. bildet man die Summe der benutzten und unbenutzten Kodewörter, so muss sich die Gesamtzahl aller möglichen Kodewörter ergeben, d.h. N X i=1 2lmax −li = 2lmax (4.10) 4.1. GRUNDLAGEN 51 Nach Division durch 2lmax ergibt sich die Kraftsche Ungleichung: N X 2−li ≤ 1 (4.11) i=1 Mit Hilfe der Kraftschen Ungleichung kann überprüft werden, ob für einen Kode mit den Kodewortlängen li ein dekodierbarer Kode für N Zeichen existiert. Dies bedeutet allerdings nicht, dass jeder Kode mit dieser Struktur auch dekodierbar ist. So wäre ein Kode mit der Struktur wie K1 im obigen Beispiel dekodierbar, wenn man das Wort x4 = (101) durch (111) ersetzen würde. Für einen effizienten Quellenkode im Hinblick auf geringen Speicherbedarf und schnelle Übertragung werden im Allgemeinen möglichst kleine Kodewortlängen angestrebt. Während die Kodewortlänge für einen gleichmäßigen Kode konstant ist, ist bei ungleichmäßigen Kodes vor allem die mittlere Kodewortlänge lm mit lm = N X pi li (4.12) i=1 von Bedeutung. Da die Kodewortlänge jedoch dem mittleren Informationsgehalt je Quellenzeichen Rechnung tragen muss, kann sie nicht beliebig kurz werden. Eine untere Schranke bildet die Entropie der Quelle. Es muss also gelten: lm ≤ Hm (4.13) Beweis: Mit 4.12, 4.2 und 4.13 ergibt sich die Ungleichung X pi log2 X i pi log2 X 1 X 2−li + pi log2 2−li = pi log2 ≤ 0(4.15) pi pi i i Mit log2 x = ln x · log2 e und ln x ≤ x − 1 ergibt sich für x = log2 e X i (4.14) i i und damit 1 X − pi li log2 2 ≤ 0 pi X 2−li ≤ log2 e pi pi ln pi i 2−li −1 pi 2−li pi : ! = log2 e X 2−li − 1 (4.16) i Mit der Kraftschen Ungleichung 4.11: N X 2−li ≤ 1 i=1 folgt, dass die Ausgangsbedingung Hm − lm ≤ 0 immer erfüllt sein muss. (4.17) 52 KAPITEL 4. KODIERUNG Für die Koderedundanz Rk gilt somit Rk = lm − Hm ≤ 0 (4.18) Ein effizienter Kode zeichnet sich somit durch eine möglichst geringe Koderedundanz aus, d.h. eine mittlere Kodewortlänge, die möglichst nahe an die Entropie der Quelle als untere Schranke herankommt. 4.2 4.2.1 Quellenkodierung Redundanzkodierung Redundanzkodierungsverfahren arbeiten heutzutage zumeist nach dem Prinzip der linearen Prädiktion mit anschließender Entropiekodierung; aufgrund der vorhergehenden Abtastwerte wird versucht, die kommenden Abtastwerte vorherzusagen. Der dabei gemachte Fehler wird anschließend für Übertragung oder Speicherung verlustfrei kodiert, so daß der Bitstream im wesentlichen nur den kodierten Prädiktionsfehler und die Prädiktorkoeffizienten enthält. Abb. 4.3 zeigt den typischen Ablauf eines prädiktionsbasierten Redundanzkodierungsverfahrens. Eingangssignal - - Entropiekodierung - 6 - Prädiktor Indices Bitstream- Formatierung ? Koeffizientenberechnung - kodierter Ausgangsbitstream 6 Prädiktionskoeffizienten - Abbildung 4.3: typischer Ablauf eines verlustlosen Kodierungsverfahrens, die dicken Pfeile markieren das unveränderte Audiosignal, die dünnen den Fluß der Daten 4.2.1.1 Lineare Prädiktion Die Grundidee der linearen Prädiktion ist die Vorhersage der kommenden Abtastwerte aus den vorhergehenden. Hierbei wird die Tatsache ausgenutzt, daß aufeinanderfolgende Abtastwerte sich ähnlicher sind bzw. voneinander stärker statistisch abhängig sind als weiter auseinander liegende. Die Prädiktion der Abtastwerte geschieht zumeist mittels 4.2. QUELLENKODIERUNG 53 eines FIR-Filters, dessen Koeffizienten kontinuierlich an das Signal angepaßt werden. Je höher die Ordnung des Filters ist, desto mehr in der Vergangenheit liegende Werte werden bei der Prädiktion berücksichtigt. Die Differenz zwischen Eingangssignal und Ausgangssignal des Filters bzw. Prädiktors ist der Prädiktionsfehler. Der Prädiktionsfehler soll durch geschickte Wahl der Filterkoeffizienten und der Filterordnung möglichst minimiert werden. Um dabei die Zeitveränderlichkeit des Signals zu berücksichtigen, werden die optimalen Filterkoeffizienten für jeden Signalblock neu berechnet. Die Effizienz eines Prädiktors hängt von den statistischen Abhängigkeiten der Abtastwerte des Eingangssignals ab. Stationäre, tonale Signale können sehr gut vorhergesagt werden und führen zu einem kleinen Prädiktionsfehlersignal, während rauschhafte Signale nicht oder nur schlecht prädiziert werden können, da Rauschen keine statistische Bindung zwischen einzelnen Abtastwerten aufweist. 4.2.1.2 Entropiekodierung Bei der Entropiekodierung werden wie bei der linearen Prädiktion statistische Eigenschaften des Signals ausgenutzt. Während allerdings die lineare Prädiktion statistische Abhängigkeiten in der zeitlichen Abfolge betrachtet, wird bei der Entropiekodierung die Auftretenswahrscheinlichkeit von Symbolen betrachtet. Im Falle eines Audiosignals kann eine Symbol z.B. ein bestimmter Amplitudenwert oder auch eine Folge von Amplitudenwerten sein. Unter dem Betriff Optimalkodierung wurden eine Reihe von Verfahren entwickelt, mit denen bei bekannter Quellenstatistik die mittlere Kodewortlänge an die Entropie der Quelle angenähert werden kann, bei denen also nach 4.18 ein optimaler, weitgehend redundanzfreier Kode konstruiert werden kann. Da die Entropie das theoretisch erreichbare Minimum der für die Enkodierung benötigten Bits angibt, hängt die Effizienz einer Entropiekoderiung stark von den Eignschaften des Signals selbst ab. Ist das Auftreten aller Symbole gleichwahrscheinlich, so nimmt die Entropie ihren Maximalwert, nämlich die Zahl der Bits pro Symbol an. Wenn also die Amplitudenwerte eines Audiosignals als Quellenzeichen behandelt werden, hat ein konstantes Signal (Gleichanteil) keinerlei Informationsgehalt, während gleichverteiltes Rauschen maximalen Informationsgehalt besitzt und somit bei der Kodierung keinerlei Bits gewonnen werden können. Bei ungleich verteilten Auftrittswahrscheinlichkeiten beruht das Prinzip aller Entropiekodierungen darauf, Zeichen mit hoher Auftrittswahrscheinlichkeit kürzere Kodeworte zuzuordnen, während Zeichen mit geringerer Auftrittswahrscheinlichkeit längere Kodeworte erhalten. Ein verbreites Verfahren zur Konstruktion eines optimalen Kodes ist die HuffmanKodierung. Sie verwendet folgenden Konstruktions-Algorithmus: • Ordnen der gegebenen Auftrittswahrscheinlichkeiten nach fallenden Werten. • Zusammenfassen der letzten beiden Wahrscheinlichkeiten zu einem neuen Wert 54 KAPITEL 4. KODIERUNG • Erneutes Ordnen der reduzierten Wahrscheinlichkeitsverteilung nach fallenden Werten • Wiederholen der Schritte 2 und 3 solange, bis die Zusammenfassung der Werte den Wert 1 ergibt • Aufstellen eines Kodebaums entsprechend dem Reduktionsschema und Zuordnung der Symbole 0 und 1 zur jeweiligen Verzweigungsrichtung des Kodebaums Abb. 4.4 zeigt die Konstruktion eines Huffman-Kodes für eine Quelle mit der Wahrscheinlichkeitsverteilung (pi ) = (0.40 0.18 0.14 0.10 0.08 0.05 0.05). Abbildung 4.4: Konstruktion eines Huffman-Kodes für eine gegebene Quellenstatistik Nach 4.2 ergibt sich für die Entropie der Quelle ein Wert von X Hm = − pi log2 pi = 2.43 bit (4.19) i Die mittlere Kodewortlänge beträgt lm = X pi li = 2.48 bit (4.20) i woraus eine Redundanz von nur noch 0.05 bit resultiert, gegenüber 0.57 bit für einen gleichmäßigen Kode. Es lässt sich nachweisen, dass - bei bekannter Quellenstatistik - das 4.2. QUELLENKODIERUNG 55 Huffman-Verfahren immer Kodes mit minimaler Redundanz liefert. Eine völlig redundanzfreie Darstellung entsteht, wenn alle Auftretenswahrscheinlichkeiten inverse Zweierpotenzen sind. Bei der Kodierung realer Signale ist die Erstellung einer korrekten Statistik von großer Bedeutung. Oftmals verfügen Huffmankodierer aus diesem Grund über verschiedene Codebooks basierend auf unterschiedlichen Wahrscheinlichkeitsverteilungen und wählen dann das geeignete Codebook aus. In diesem Fall muß allerdings dem Dekoder mitgeteilt werden, welches Codebook verwendet wurde. 4.2.1.3 Beispiele MPEG-4 ALS ist das erste von der MPEG standardisierte verlustlose Kodierungsverfahren. Es unterstützt als Eingabeformate Bitauflösungen 8-32 Bit Festkomma sowie 32 Bit Fließkomma und beliebige Abtastraten. Im Gegensatz zu verlustbehafteten Verfahren müssen für ein verlustloses Verfahren weite Teile des Enkoders standardisiert werden, da der Dekoder das Signal bitgenau rekonstruieren muß. Prädiktion Aus dem aktuellen Block von Audiodaten werden die optimale Prädiktorordnung sowie die Prädiktionskoeffizienten geschätzt. Die Koeffizienten werden quantisiert, um effizient übertragen werden zu können. Kodierung Da man im allgemeinen davon ausgehen kann, daß im Prädiktionsfehler kleine Amplitudenwerte sehr viel wahrscheinlicher sind als große Amplitudenwerte, kann das Fehlersignal mittels Entropiekodierung effizient kodiert werden. Bei MPEG-4 ALS wird hierfür ein Golomb-Rice-Codec verwendet, ein Spezialfall der Huffmankodierung mit vereinfachten Annahmen über die Wahrscheinlichkeitsverteilung des Auftretens bestimmter Symbole. Weiterhin bietet ALS optional die Möglichkeit, für einen bestimmten Amplitudenbereich des Prädiktionsfehlers arithmetische Codierung (in diesem Fall Block Gilbert Moore Code, BGMC) einzusetzen. Im Gegensatz zur Huffman-Codierung können arithmetische Codierer auch beliebige Auftretenswahrscheinlichkeiten (d.h. nicht nur inverse Zweierpotenzen) gut kodieren, so daß sich die Zahl der tatsächlichen verwendeten Bits pro Symbol dem durch die Entropie vorgegebenen theoretischen Minimum annähert. Erweiterungen • Blocklängen-Switching: Die Blocklänge ist nicht fix, sondern kann z.B. in Abhängigkeit der Abtastrate gewählt werden. Jeder Block der Länge N kann wiederum in Subblöcke der Längen N/2, N/4, N/8, und N/16 aufgeteilt werden. Die Kombinationen und die Reihenfolge der verschiedenen Subblock-Längen sind beliebig, solange die Summe der Blocklänge N entspricht. Die Aufteilung eines Blocks in 56 KAPITEL 4. KODIERUNG kürzere Subblöcke erlaubt die effizientere Codierung von Transienten. Die Wahl der Subblock-Längen ist nicht durch den Standard vorgegeben, sondern hängt von der Enkoderimplementierung ab. • Random Access: Da jeder Block abhängig vom den Ergebnissen des vorhergehenden Blockes ist, ließe sich jeder Bitstream jeweils nur vom Anfang an dekodieren. Um diese Einschränkung zu umgehen, erlaubt ALS das Einfügen sogenannter Random-Access-Frames zu deren Dekodierung kein Vorwissen aus den vorhergehenden Blöcken erforderlich ist. Auf diese Weise wird es möglich, im Bitstream zu springen, ohne Dekodieren zu müssen. • Inter-Channel Joint Coding: Zur Ausnutzung von Redundanzen zwischen Kanalpaaren bietet ALS einerseits die Möglichkeit, die Differenz zwischen einem beliebigen Kanalpaar zu enkodieren. Andererseits besteht die Möglichkeit, den Prädiktionsfehler des einen Kanals zur Schätzung des Fehlers des anderen Kanals zu verwenden. Weitere Beispiele für verlustlose Verfahren sind: • Meridian Lossless Packing (MLP): Dieses bei der DVD-A eingesetzte verlustlose Verfahren erlaubt die Kodierung von mehrkanaligen Audiodaten mit Abtastraten bis 192kHz [SCG+ 99]. • FLAC: Ein inzwischen vergleichsweise verbreitetes verlustloses Verfahren, dessen Quelltexte als Open-Source zur Verfügung stehen. Das Verfahren unterstützt bis zu acht Audiokanäle beliebiger Abtastraten bei einer Bitauflösung von 4-32 Bit im Festkomma-Format [Coa05]. Verlustlose Verfahren haben neben dem offensichtlichen Vorteil der Verlustlosigkeit zwei wichtige Nachteile: • die Kompressionsrate ist mit Faktor 1.5 − 3 gering im Vergleich zu verlustlosen Verfahren • die Ausgangsbitrate ist abhängig von den Eigenschaften des Eingangssignals und kann prinzipbedingt nicht konstant gehalten werden Die durch Redundanzkodierung erreichbare Kompression der Audiobitrate reicht häufig nicht für die Nutzung von Übertragungskanälen mit begrenzter Bandbreite oder von Speichermedien mit begrenzter Kapazität aus. Aus diesem Grund nehmen sog. verlustbehaftete Audiokodierungsverfahren (der Begriff Audiokompressionsverfahren ist unglücklich, da er mit Verfahren zur Dynamikkompression verwechselt werden kann), wie sie nicht nur im Internet durch den MP3 (MPEG-1 layer 3) Standard verbreitet sind, eine weitere Reduktion der Bitrate durch das Entfernen irrelevanter Anteile vor. Als irrelevant werden Anteile bezeichnet, die für den Empfänger keine Bedeutung haben und aus diesem Grund bei der Kodierung ausgeschlossen werden können. Irrelevanzkodierung sind verlustbehaftet, da das Eingangssignal und das dekodierte Signal sich messtechnisch unterscheiden, auch wenn im Idealfall vom Hörer keine Unterschiede wahrgenommen werden können. 4.2. QUELLENKODIERUNG 4.2.2 57 Irrelevanzkodierung Die Verfahren der Irrelevanzkodierung versuchen, für das menschliche Gehör wichtige Signalanteile von unwichtigen Signalanteilen zu trennen, und die unwichtigen Anteile gar nicht oder sehr verrauscht zu übertragen. Dabei sind je nach Verfahren und gewünschter Qualität Kompressionsraten von 4/1 − 3 0/1 oder mehr erzielbar. Im Gegensatz zu verlustlosen Verfahren ist es mit verlustbehafteten Verfahren meistens auch möglich, eine feststehende Bitrate zu erzielen, was für die Echtzeitübertragung (Streaming) große Bedeutung haben kann. Dementsprechend spricht man entweder von konstanter Bitrate (CBR) oder variabler Bitrate (VBR). Im allgemeinen hat der Dekoder keinen Einfluß auf die Qualität des enkodierten und wieder dekodierten Signals, diese wird ausschließlich von Enkoder bestimmt. Geläufige Beispiele für verlustbehaftete Musik-Kodierungsverfahren sind: • MPEG-1 Layer 2 (MP2), MPEG-1 Layer 3 (MP3), MPEG-2/4 AAC (MP4), hier mit steigender Komplexität bzw. steigender Kompressionsrate genannt. MPEG-4 AAC ist das aktuellste und leistungsfähigste dieser Kodierungsverfahren [ISO01]. • Dolby AC-3 (Dolby Digital) ist ein Kodierungsverfahren für bis zu 6 Audiokanäle bei Abtastraten zwischen 32 und 48 kHz. Der Haupteinsatzbereich ist Kino und DVD. Das Verfahren ist standardisiert [ATS95]. • DTS • Sony ATRAC, SDDS Abb. 4.5 zeigt den prinzipiellen Aufbau eines typischen wahrnehmungsangepaßten Kodierungsverfahren. Da das Kodierungsverfahren versucht, wichtige (relevante) Signalanteile von unwichtigen zu unterscheiden, ist eine umfassende Analyse des Eingangssignals nötig. Diese geschieht im sogenannten psychoakustischen Modell. Die Analyse sowie die spätere Kodierung werden im Frequenzbereich durchgeführt, wobei die Transformation mittels einer Filterbank oder Frequenztransformation durchgeführt wird. Dabei werden wichtige Eigenschaften des Gehörs wie die aus der Psychoakustik bekannten Verdeckungseffekte und die Frequenzauflösung des Gehörs modelliert. Das psychoakustische Modell teilt dann den anderen Komponenten des Enkoders mit, welche Frequenzbänder bzw. -komponenten besonders wichtig sind, und welche vernachlässigbar sind. Vor der eigentlichen Quantisierung des Signals kommen -abhängig vom jeweils betrachteten Kodierungsverfahren- noch einige Tools, welche die Kodierungseffizienz weiter steigern. Beispiele sind die Ausnutzung von Redundanzen zwischen zwei Stereokanälen, die Prädiktion von Spektralwerten sowie die Veränderung der zeitlichen Struktur des Quantisierungsrauschens. Einer der wichtigsten Bearbeitungsschritte ist die Quantisierung. Basierend auf der Analyse des psychoakustischen Modells versucht der Quantisierer, wichtige Spektralanteile 58 KAPITEL 4. KODIERUNG Eingangssignal ? ? Psychoakustisches Modell Filterbank - ? - Spectral Processing ? Quantisierung und Noiseless Coding - BitstreamFormatierung - kodierter Ausgangsbitstream - Abbildung 4.5: typischer Ablauf eines wahrnehmungsangepaßten Kodierungsverfahrens, die dicken Pfeile markieren den Fluß der Audioinformationen, die dünnen den Fluß der Kontrolldaten hochauflösend zu quantisieren und unwichtigere sehr grob zu quantisieren. Die Quantisierung im Zusammenhang mit der nachgeschalteten Redundanzkodierung der quantisierten Werte resultiert dann in dem Kodierungsgewinn. Bei fast allen Irrelvanzkodierungsverfahren sind -wie z.B. bei den meisten MPEGEnkodern- wesentliche Bestandteile des Enkoders nicht normiert, während der Dekoder vollständig standardisiert ist. Dies hat den Vorteil, daß die Qualität eines solchen Verfahrens nicht mit der Standardisierung unumgänglich feststeht, sondern ständig weiter optimiert werden kann, gleichzeitig jedoch die Kompatibilität mit existierenden Dekodern beibehalten kann. Andererseits hat dieses Vorgehen aber zur Folge, daß für die meisten Verfahren unterschiedlichste konkurrierende Implementierungen mit teilweise deutlich voneinander abweichender Qualität existieren; somit kann man nicht mehr von der Qualität des Verfahrens selbst sprechen, sondern entweder von der Qualität einer Implementierung oder von Qualitätspotential eines Verfahrens. 4.2.2.1 Verdeckung und Frequenzgruppen Ein einzelner Sinuston oder ein schmalbandiges Rauschen kann auf der Frequenzachse dicht liegende Signalanteile maskieren, so dass sie nicht hörbar sind (Simultanver- 4.2. QUELLENKODIERUNG 59 deckung). Abb. 4.6 zeigt eine Verdeckungsschwelle im Falle eine sinusförmigen Maskierers für unterschiedliche Maskiererpegel. Die unter der Verdeckungsschwelle und somit nicht hörbaren Signale werden von einem verlustbehafteten Verfahren als unwichtig bzw. irrelevant eingeordnet. Abbildung 4.6: Pegel eines Sinustons, der von einem 1kHz-Sinuston unterschiedlichen Pegels maskiert wird, als Funktion der Frequenz des Testtones (aus [ZF99]) Die Höhe der Verdeckungsschwelle hängt auch von der Tonalität des Maskierers ab. So kann die Verdeckungsschwelle von rauschhaften Maskierern um bis zu 15dB höher liegen als bei tonalen Maskierern. Das Gehör faßt zur spektralen Analyse Schallereignisse in Frequenzgruppen zusammen [Fle40], [ZF67]. Dieser Effekt läßt sich beispielsweise veranschaulichen, indem man einer Versuchperson ein Bandpaßrauschen konstanter Intensität aber variabler Bandbreite vorspielt. Die Bandbreite wird im Laufe des Versuchs langsam erhöht. Die wahrgenommene Lautstärke bleibt bis zu einem gewissen Punkt konstant, dann steigt sie an. An dem Punkt, wo die Bandbreite des Rauschens bei gleichbleibender Lautstärke maximal ist, können alle Frequenzen innerhalb seiner Bandbreite einer Frequenzgruppe zugeordnet werden. Ein alternatives Experiment mißt die Verdeckungsschwelle von zwei Schmalbandrauschen im Abstand ∆f , die einen dazwischenliegenden Sinuston maskieren. Für kleine ∆f , das heißt innerhalb einer Frequenzgruppe, bleibt die Verdeckungsschwelle konstant, außerhalb der Frequenzgruppe fällt sie mit zunehmendem ∆f ab. Für unterschiedliche Mittenfrequenzen ergeben sich unterschiedliche Bandbreiten der Frequenzgruppen, deren Breite nichtlinear mit der Mittenfrequenz zusammenhängt. Zwicker gab folgende Näherung für die Frequenzgruppenbreite ∆f in Abhängigkeit der Mittenfrequenz [ZF99]: " 2 #0.69 fm [Hz] (4.21) ∆f = 25 + 75 1 + 1.4 1000 60 KAPITEL 4. KODIERUNG Die Frequenzgruppen überlappen einander; reiht man sie allerdings nicht-überlappend auf der Frequenzskala auf, so erhält man etwa 24 Bänder, die sogenannten kritischen Bänder. Die so entstehende Tonheitsskala kann linear von 0 bis 24 in die Pseudoeinheit [Bark] unterteilt werden [ZF67]. Ein Modell zur Abbildung der Frequenz f auf den Barkwert z ist nach Zwicker [ZF99] gegeben durch (vgl. Abb. 4.7): 2 ! f 0.76f + 3.5 · arctan [Bark] (4.22) z = 13 · arctan 1000 7500 Abbildung 4.7: Bark-Werte nach Zwicker in Abhängigkeit der Frequenz Die Bark-Skala läßt sich auch als Modell für die nichtlineare Zuordnung von Frequenz zu Ort auf der Basilarmembran verstehen. Neben den Verdeckungseffekten im Frequenzbereich (Simultanverdeckung) gibt es auch zeitliche Verdeckungseffekte, die Nachverdeckung (auch Forward Masking oder Postmasking) und die Vorverdeckung auch Backward Masking oder Premasking). In Abb. 4.8 sind die Auswirkungen dieser Effekte dargestellt. Kurz nach einem lauten Maskierer liegende Signalanteile können oft nicht wahrgenommen werden. In geringerem Maße kann eine solche Verdeckung auch für vorangehende Signalanteile stattfinden. Die Bedeutung der Simultanverdeckung ist für verlustbehaftete Kodierungsverfahren allerdings von größerer Bedeutung als die Modellierung zeitlicher Verdeckungseffekte. 4.2.2.2 Beispiel MPEG-4 AAC AAC steht für Advanced Audio Coding und wurde zunächst in MPEG-2 standardisiert, dann mit leichten Erweiterungen in MPEG-4. AAC ist seinem Vorgänger MP3 vom 4.2. QUELLENKODIERUNG 61 Abbildung 4.8: Bereiche, in denen Pre- und Postmasking auftritt (aus [ZF99]) Grundprinzip her sehr ähnlich, erlaubt aber neben einigen systematischen Verbesserungen und Erweiterungen zur Erhöhung der Qualität bis zu 48 Kanäle und Abtastraten bis 96kHz. Im MPEG-4-Standard sind verschiedene Profiles für AAC definiert, die für verschiedene Anwendungsfälle optimiert sind. Das gängigste Profile ist das AAC-LC (Low Complexity). Weiterhin gibt es die Profiles AAC-Main, das sich i.a. durch höhere Qualität, aber auch höhere Rechenlast auszeichnet, und weitere bisher kaum verbreitete Profiles wie z.B. AAC-LTP und AAC-LD, letzteres zur Minimierung der Encoding/Decoding-Latenz. Neuere Versionen des Standards enthalten darüberhinaus das sogenannte HE-Profile und zusätzliche Erweiterungen zur parametrischen Audiokodierung, die wesentlich niedrigere Bitraten bei akzeptabler Qualität ermöglichen. Durch die offene Standardisierung des Enkoders variiert die Qualität verschiedener Enkoderimplementierungen. Psychoakustisches Modell Es ist Aufgabe des psychoakustischen Modells, eine Gewichtung von Signalanteilen hinsichtlich ihrer Relevanz durchzuführen. Durch die offene Standardisierung bleibt die praktische Umsetzung des Modells dem Entwickler überlassen. Es ist aber ein Vorschlag im Standard enthalten, der den grundsätzlichen Ablauf eines psychoakustischen Modells verdeutlicht und der hier kurz beschrieben werden soll. Der eingehende Block von Audiodaten wird mittels einer FFT in den Frequenzbereich transformiert. Anschließend wird die Tonalität bzw. Rauschhaftigkeit der einzelnen Spektralwerte für die nachfolgende Bestimmung der Maskierungsschwelle bestimmt, da die Höhe der Maskierung sich für tonale und rauschhafte Maskierer unterscheidet. Zur Bestimmung der Maskierungsschwelle wird das Spektrum anschließend in die kritische Bänder transformiert. Da die Bänder nicht überlappend sind, ist die tatsächliche Auflösung ungefähr 3 mal so groß wie durch die kritischen Bänder im nichtüberlappenden Fall vorgegeben. Die Maskierungsschwelle berechnet sich dann mit der sogenannten spreading function, die den Verlauf der Maskierungsschwelle eines einzelnen Maskierers nachbildet. Die Berechnung der Maskierungsschwelle läßt sich vereinfacht als Faltung der spreading function mit dem Bark-Spektrum vorstellen. Tatsächlich wird allerdings die absolute Höhe der Spreading function noch mittels der zuvor berechneten 62 KAPITEL 4. KODIERUNG Tonalität bewertet. Zu Bestimmung der endgültigen Maskierungsschwelle wird abschließend noch die Ruhehörschwelle betrachtet. Aus dem Verhältnis der berechneten Maskierungsschwelle und des Energiespektrums schätzt das psychoakustische Modell die Zahl der zur Kodierung erforderlichen Bits, falls keine Artefakte bzw. Unterschiede zum Original wahrgenommen werden sollen. Abbildung 4.9: Energie über der Frequenz und über Bark mit berechneter Maskierungsschwelle für einen einzelnen Block der Länge 2048 Abtastwerte Filterbank Während das psychoakustische Modell ausschließlich analysierende Funktion hat und damit im einfachsten Fall eingespart werden kann, fordert AAC die Verwendung eine Frequenztransformation mittels MDCT (Modified Discrete Cosine Transformation). Ein zu transformierender Eingangsblock besteht hierbei im Normalfall aus 2048 mit einem sinusförmigen Fenster gewichteten Abtastwerten, die Überlappung zwischen zwei aufeinanderfolgenden Blöcken beträgt 1024 Abtastwerte. Um die Enkodierqualität bestimmter Signalausschnitte wie z.B. beim Auftreten starker Transienten zu verbessern, hat der Enkoder die Möglichkeit, statt eines Blocks der Länge 2048 acht Blöcke der Länge 256 zu verwenden (vgl. Abb. 4.10). Unabhängig von der verwendeten Fensterlänge besteht zusätzlich die Möglichkeit, statt des dargestellten sinusförmigen Fensters ein Kaiser-Bessel-Fenster zu verwenden. Quantisierung und Noiseless Coding Die Aufgabe des Quantisieres ist es, die Analysedaten des psychoakustischen Modells auszuwerten und entsprechend dieser Information gewisse Spektralbereiche in 4.2. QUELLENKODIERUNG 63 Abbildung 4.10: Fensterfunktionen von aufeinanderfolgenden Blöcken bei der Enkodierung des mittleren Blocks mit acht kurzen Blöcken Abhängigkeit ihrer Hörbarkeit“ mit unterschiedlicher Bitauflösung zu quantisieren. Das ” Ziel dabei ist, die Leistung des eingefügten Quantisierungsrauschens kleiner als die Maskierungsschwelle zu halten. Zudem hat der Quantisierer unter Umständen ebenfalls die Vorgabe, eine gewisse Zielbitrate erreichen zu müssen. Die zu quantisierenden Spektralwerte werden in Bändern zusammengefaßt, denen jeweils ein Skalierungsfaktor zugeordnet wird. Dieser Faktor wird auf alle Spektralwerte innerhalb des jeweiligen Bandes angewendet, so daß damit der Aussteuerungsbereich des Quantisierers justiert werden kann. Die einzelnen Spektralwerte werden nichtlinear quantisiert, d.h. hohe Amplitudenwerte werden mit geringerer Auflösung quantisiert als kleine. Zur zusätzlichen Verminderung der Ausgangsbitrate werden die Scale Factors und die quantisierten Spektralwerte abschließend mittels verschiedener Huffman-Codebooks komprimiert. Diese Redundanzkodierung wird im MPEG-Kontext als Noiseless Coding bezeichnet, da kein zusätzliches Quantisierungsrauschen eingefügt wird. Die Verwendung dieses verlustfreien Verfahrens erschwert den Quantisierungsprozeß, da die tatsächliche Ausgangsbitrate vor der Codebook-Zuweisung schwer abzuschätzen ist. Tools AAC erlaubt optional den Einsatz verschiedener Tools zur Verbesserung der Qualität. Nicht jedes Tool ist in jedem Profile erlaubt. Die folgende Liste gibt eine kurze Übersicht über die möglichen Tools. • MS (Mid/Side Stereo) und IS (Intensity Stereo): Sowohl das MS-Tool (auch: Joint Channel Coding) als auch das IS-Tool betrachten jeweils Kanalpaare. Das MS-Tool 64 KAPITEL 4. KODIERUNG versucht hierbei, Redundanzen zwischen den Kanälen auszunutzen, während das IS-Tool versucht, Irrelevanzen im hohen Frequenzbereich zu detektieren und zu vermeiden. • PNS (Perceptual Noise Substitution): Rauschhafte Frequenzbänder können mit Hilfe dieses Tools durch vom Dekoder künstlich generiertes Rauschen ersetzt werden statt quantisiert und Huffman-kodiert zu werden. Das PNS-Tool ist nur in MPEG-4 spezifiziert, soll der Bitstream kompatibel zu MPEG-2 AAC sein, so darf es nicht aktiviert sein. • Frequency Domain Prediction: Frequency-Domain Prediction erlaubt höhere Kodierungs-Effizienz für tonale Signale durch eine adaptive Prädiktion im Frequenzbereich. Dieses Tools kann ausschließlich im Main Profile genutzt werden. • TNS (Temporal Noise Shaping): Zur Kontrolle der zeitlichen Hüllkurve des Quantisierungsrauschen innerhalb jedes Fensters wird ein adaptiver Filterungsprozeß auf die Spektralwerte angewendet. Dadurch wird die Energie im Zeitbereich hin zu Abschnitten mit hoher Signalenergie verschoben. • LTP (Long Term Prediction): Wie die Frequency Domain Prediction ist dieses Tools speziell für tonales Audiomaterial gedacht. Das LTP-Tool wird im allgemeinen nicht verwendet; im Gegensatz zur Frequency Domain Prediction scheint der Gewinn des LTP-tools im Verhältnis zur erforderlichen Rechenleistung nur gering zu sein. LTP kann nur im LD- oder LTP-Profile eingesetzt werden. Bitstreamformatierung Die vorliegenden Daten müssen zur Übertragung in einer standardkonformen Reihenfolge angeordnet werden und mit entsprechenden Zusatzinformationen versehen werden. Je nach Anwendungsfall bietet MPEG-4 verschiedene Möglichkeiten, die Daten bzw. deren Zusatzinformation zu speichern: • RAW-Format: hier werden nur die reinen Daten übertragen; Informationen über Samplerate und Profile fehlen. Der Bitstream kann ohne Aufwand nur vom Anfang dekodiert werden (häufig verwendete Dateinamenerweiterung: *.aac, *.raw) • ADIF-Format: An den Anfang des RAW-Datenstroms wird ein einzelner Header mit Zusatzinformationen eingefügt (häufig verwendete Dateinamenerweiterung: *.aac) • ADTS-Format: An den Anfang jedes enkodierten Blocks des RAW-Datenstroms wird ein Header mit Zusatzinformationen eingefügt, vergleichbar mit dem MP3Format, somit wird es möglich, im Bitstream zu springen (häufig verwendete Dateinamenerweiterung: *.aac) 4.2. QUELLENKODIERUNG 65 • MP4-Format: Der RAW-Datenstrom wird als Track in eine Datei oder einen Stream nach MPEG-4-Dateiformatspezifikation eingebettet. Dies ermöglicht die synchrone Übertragung z.B. anderer Informationen wie Video, etc. (häufig verwendete Dateinamenerweiterung: *.mp4, *.m4a) 4.2.2.3 Qualität Die Qualität von wahrnehmungsangepaßten Signalen ist ein viel diskutiertes Thema, dessen Kontrahenten sich zwischen den zwei Polen die Unterschiede sind unhörbar“ und ” die Unterschiede sind unerträglich“ bewegen. ” Tatsächlich ist die Qualität eines Kodierungsverfahrens nicht leicht meßbar, denn sie ist abhängig von • der verwendeten Enkoderimplementierung, da verschiedene Enkoder unterschiedlich exakte Modelle für die menschliche Wahrnehmung und unterschiedlich effiziente Modelle für Quantisierung und andere Tools verwenden. • dem verwendeten Eingangssignal, da es für jedes Verfahren und jede Implementierung kritische und unkritische Testsignale gibt. Bei unkritischen Testsignalen kann die Qualität selbst bei niedrigen Ausgangsbitraten sehr gut sein. Zur Qualitätsbeurteilung eines Verfahrens sollten jedoch möglichst kritische Testsequenzen ausgesucht werden, damit die Stärken und Schwächen deutlich hervortreten. In vielen Fällen zeichnen sich kritische Testsequenzen durch scharfe Transienten und hohe Frequenzanteile aus. • den verwendeten Enkodieroptionen. Mit einer Feinanpassung der Enkodieroptionen läßt sich die Enkodierungsqualität oftmals signifikant im Hinblick auf das verwendete Eingangssignal und die angestrebte Ausgangsbitrate optimieren. Die naheliegensten und am häufigsten benutzten Enkodieroptionen sind Bitrate und/oder Qualitätsstufe. Je höher die Bitrate, desto besser klingt i.a. das enkodierte Signal. Daher beeinflussen sich diese beiden Parameter oft gegenseitig. Viele Enkoder haben einen sog. VBR-Modus, für den lediglich noch die gewünschte Qualität selektiert wird und kein direkter Einfluß mehr auf die Ausgangsbitrate genommen werden kann. Über die einstellbare Grenzfrequenz des Tiefpaßfilters läßt sich eine Tiefpaßfilterung vor dem eigentlichen Enkodiervorgang durchführen. Dies erlaubt dem Enkoder, die verfügbaren Bits auf die tieferen Frequenzanteile zu konzentrieren und vermeidet unter Umständen Zwitscherartefakte. Überschreitet ein Enkoder seinen optimalen Kompressionsratenbereich, wird sich die Qualität mit sinkender Bitrate rapide verschlechtern. Durch eine Abtastratenkonvertierung des Eingangssignals hin zu niedrigen Abtastraten läßt sich die Kompressionsrate wieder etwas verringern, so daß die empfundene Qualität in vielen Fällen steigt. 66 KAPITEL 4. KODIERUNG Bei sehr niedrigen Bitraten sinkt die Qualität oft so rasch, daß der Verzicht auf die Stereo- oder Multichannelinformation sinnvoller ist als die deutlich hörbaren Kodierungsartefakte in Kauf zu nehmen. Bei einem Downmix von Stereo nach Mono halbiert sich die Kompressionsrate, so daß der Enkoder wieder Spielraum zur Qualitätsoptimierung hat. Typische Artefakte Die typischen bei Irrelevanzkodierungsverfahren entstehenden Artefakte sind: • Pre-Echo und Verschmierungen: Diese Artefakte sind auf die Blockbasiertheit der Verfahren zurückzuführen und insbesondere bei transienten Signalanteilen wahrzunehmen. Sie treten insbesondere bei längeren Blocklängen auf. Ein Transient wird mit dem gesamten Audioblocks quantisiert. Dadurch kann einerseits das Problem auftreten, dass die kurzzeitig an der zeitlichen Position des transienten Signals auftretenden hohen Frequenzanteile als zu unwichtig angesehen werden und daher der wahrnehmbare Schlag zeitlich verschmiert wird. Bei der Kodierung von transienten Signalen vor allem nach einer stillen Passage kann es auch zum sogenannten Pre-Echo kommen: da sich das vom Quantisierer eingefügte Quantisierungsrauschen zeitlich gleichmäßig über den gesamten Audioblock verteilt und somit auch in der Stille vor dem transienten Signal vorhanden ist, kann dieses Rauschen unter Umständen vom Hörer als Vorecho“ wahrgenommen ” werden. AAC versucht diese Artefakte v.a. durch das Umschalten der Fensterlänge und das TNS-Tool in den Griff zu bekommen. • Bandbegrenzung und Zwitschern: um die geforderte Bitrate zu erreichen, wird oft vor der eigentlichen Kodierung ein Tiefpaßfilter auf das Audiosignal angewendet, was auch als Teil des psychoakustischen Modells interpretiert werden kann. Somit stehen die meisten Bits für die wichtigeren“ tieferen Frequenzen zur ” Verfügung. Abhängig vom Signaltyp und der gewählten Frequenz kann eine solche Tiefpaßfilterung als störend wahrgenommen werden. Bei einer zu hoch gewählten Grenzfrequenz kann es jedoch zu störenderen Artefakten kommen: dem sogenannten Zwitschern oder Blubbern. Dieses Artefakt resultiert aus einer häufigen An/Ausschaltung der hohen Frequenzbänder (wenn noch ausreichend Bits vorhanden sind, können die als unwichtigere Anteile gesehenen hohen Frequenzen mitkodiert werden, andernfalls nicht). • Schwankungen/Verzerrungen des Stereobildes / der Räumlichkeit: die gesonderte Kodierung von Stereoinformationen (oder Surroundinformationen) kann zu zeitlichen Variationen des Sterobildes und der wahrnehmbaren Räumlichkeit eines Audiosignals führen. Dies trifft insbesondere auf die in Zukunft aufkommenden parametrischen Kodierungsverfahren zu. 4.2. QUELLENKODIERUNG 67 • Rauheit/Quantisierungsrauschen: der subjektive Höreindruck der Rauheit kann durch ein von Block zu Block stark veränderliches Quantisierungsrauschen hervorgerufen werden. Qualitätsmessung Ein objektiver Vergleich verschiedener Enkoder ist schwer, da die etablierten Verfahren zur Qualitätsmessung im Zusammenhang mit Kodierungsverfahren versagen. Dies hat v.a. drei Gründe: • die hohe Zeitinvarianz der Kodierungsverfahren, die ca. alle 10 − 20ms ihr Übertragungsverhalten ändern können • die Ausgangsqualität hängt stark vom Eingangssignal ab, • durch die intensive Ausnutzung von psychoakustischen Erkenntnissen wird bewußt Rauschen insbesondere in verdeckten Frequenzbereichen eingeführt; wird der Pegel dieses Rauschens mit einfachen Mitteln wie einer SNR-Messung ermittelt, so wird die Unhörbarkeit“ dieses Rauschens nicht berücksichtigt. ” Es existieren zwar Systeme, die versuchen, die Qualität von Kodierungsverfahren objektiv zu messen [ITU01], diese besitzen allerdings bisher nur beschränkte Aussagekraft. Somit bleibt als einzige und letzte Alternative zur Qualitätsbeurteilung von Kodierungsverfahren nur die subjektive Beurteilung. Will man die Ergebnisse dieser subjektiven Beurteilung zumindest ansatzweise objektivieren, so bleibt nur der aufwendige Hörtest. Die Qualität des Dekoders spielt entgegen einer verbreiteten Meinung bei praktisch keinem wahrnehmungsangepaßten Verfahren eine Rolle. Die Dekoder können nach objektiven Kriterien auf ihre Standardkonformität überprüft werden. Im Falle der Standardkonformität sind die Unterschiede zwischen den Ausgangssignalen verschiedener Dekoder vernachlässigbar. 4.2.2.4 Auswahlkriterien von Kodierungsverfahren Es existiert kein Audiokodierungsverfahren, das in jedem Einsatzbereich uneingeschränkt eingesetzt werden kann. Abhängig von Einsatzbereich lassen sich unterschiedliche Kriterien benennen, die im folgenden stichpunktartig dargestellt und erläutert werden sollen. • Audioqualität: Die Qualität des kodierten und wieder dekodierten Signals ist sicherlich das wichtigste Kriterium bei der Auswahl des Kodierungsverfahren und hängt mehr oder weniger direkt mit vielen der nachfolgenden Punkte zusammen. Die Qualität ist bei wahrnehmungsangepaßten Verfahren abhängig vom Eingangssignal, so daß die Wahl des Kodierungsverfahren vom zu kodierenden Signal abhängen kann. Ist die Audioqualität das einzige Kriterium, so ist einem verlustlosen Verfahren der Vorzug zu geben. 68 KAPITEL 4. KODIERUNG Ein weiterer Aspekt ist unter Umständen auch die Verschlechterung der Qualität nach mehrmaligem En- und Dekodieren des gleichen Signals (Tandemkodierung), z.B. wegen dazwischenliegender Bearbeitungsschritte. Die Qualität nach mehrmaliger Tandemkodierung schwankt von Verfahren zu Verfahren. Tandemkodierung sollte möglichst vermieden werden. • Bitrate: Bitrate und Qualität haben direkt aufeinander Einfluß. Im allgemeinen steigt die Qualität mit zunehmender Bitrate. Verschiedene Verfahren sind immer auf bestimmte Kompressionsraten optimiert und erzielen bei diesen die besten Ergebnisse; bei abweichenden Kompressionsraten können sie schlechter klingen als andere Verfahren. Es spielt ebenfalls eine Rolle, ob ein Verfahren die Enkodierung in einer konstanten oder variablen Bitrate erlaubt. Beispielsweise sind Verfahren mit variabler Bitrate (VBR) für Streaminglösungen aufgrund der schwankenden benötigten Übertragungsrate eher ungeeignet, für Archivierungslösungen hingegen geeignet. • Komplexität: Die Komplexität eines Verfahrens zeigt sich in der erforderlichen Rechenleistung für eine Kodierung/Dekodierung. Je komplexer ein Verfahren ist, desto mehr steigt die Auslastung des Rechners/Chips. Im Gegenzug steigt allerdings mit der Komplexität meistens auch die Qualität. Im allgemeinen sind die Dekoder wesentlich weniger aufwendig als die Enkoder. Aus diesem Grund sind Dekoder billiger und einfacher zu realisieren (z.B. portabel), während Enkoder sowohl in Entwicklung als auch in der Umsetzung höheren Aufwand fordern. • Delay: In Einzelfällen, insbesondere im Falle zweiseitiger Kommunikation wie z.B. mit dem Telefon ist auch das Enkodierungs-/Dekodierungsdelay ein wichtiges Auswahlkriterium. Wenn dieses Delay groß ist wie z.B. bei den meisten MPEGVerfahren, leidet der Gesprächsfluß unter dieser Einschränkung. Mit steigendem Delay steigt meistens auch die Qualität eines Verfahrens durch die umfangreichere Möglichkeiten der Signalanalyse leicht an. • Verbreitung: Je verbreiteter ein Verfahren ist, desto mehr Menschen können kodierte Dateien ohne große Probleme abspielen. Will man also z.B. Demodateien für möglichst viele Hörer zugänglich machen, so ist die Wahl eines (je nach Zielmarkt in Hardware oder Software) verbreiteten Verfahrens sinnvoll. • Kosten: Die Kosten für die Benutzung eines Verfahrens schwanken. Teilweise dürfen Verfahren kostenlos benutzt werden, teilweise muß man vor der Benutzung eine Lizenz erwerben (meistens im Kaufpreis enthalten). Es kann sogar vorkommen, daß pro enkodiertem Material Lizenzgebühren an den Rechteinhaber fällig werden. Beim Hardwaredesign sind auch die Kosten von Enkoder-/Dekoderbausteinen zu beachten. 4.3. KANALKODIERUNG 69 • Zukunftssicherheit und Rechtssicherheit: Gerade bei der Anwendung von Kodierungsverfahren für Archivierungen spielt die Frage der Zukunftssicherheit eines Verfahrens eine wichtige Rolle, denn funkionsfähige Dekoder müssen auch noch in mehreren/vielen Jahren zur Verfügung stehen. Anhaltspunkte dafür sind zum Beispiel, ob das Verfahren international standardisiert ist, ob es sich um einen de facto-Standard handelt und ob Quelltexte zu dem Verfahren frei verfügbar sind. Die meisten Verfahren berühren ein oder mehrere Patente. Es existieren nichtkommerzielle Kodierungsverfahren, die diese Patente unter Umständen verletzen, den Anwender aber nicht darauf aufmerksam machen. Auch wenn diese Patentverletzungen im Moment nicht verfolgt werden, muß das nicht bedeuten, daß diese Verfahren auch in Zukunft bedenkenlos benutzt werden können bzw. dürfen. • technische Kompatibilität: selbstverständlich muß das Verfahren auf die Anforderungen hinsichtlich der zu kodierenden Eingangssignale wie Abtastrate, Zahl der Kanäle, Art des Materials, etc. ausgelegt sein 4.3 Kanalkodierung Während durch die Quellenkodierung eine möglichst redundanzarme Darstellung des zu übertragenden Signals erfolgen soll, werden bei der Kanalkodierung Zeichen hinzugefügt, um die durch Störungen im Kanal verfälschten Kodewörter als falsch erkennen und, nach Möglichkeit, korrigieren zu können. Fehleranfällige Übertragungskanäle sind elektrische, optische oder elektromagnetische Signalstrecken, aber auch Speichermedien, die von Beschädigungen der Oberfläche (CD), Selbstentmagnetisierung (Magnetbänder) oder Head Crashes (Festplatten) beeinträchtigt sein können. Im Gegensatz zur analogen Audioübertragung, bei der solche Übertragungsfehler meist als geringfügig erhöhter Rauschpegel in Erscheinung treten, kann bei der digitalen Übertragung bereits ein geringfügiger Übertragungsfehler eine große Signalverzerrung bewirken. Bereits ein einzelnes falsch übertragenes bit kann eine im 2er-Komplement dargestellte Amplitude um den Betrag der Spitzenspannung Us verändern, wenn das MSB davon betroffen ist. Fehlerquellen einer gestörten Übertragung können sein Hinsichtlich der Verteilung von Fehlern auf dem Kanal/auf dem Medium unterscheidet man • Einzelfehler (random errors) und • Bündelfehler (burst errors) wobei das Design einer Fehlererkennung meist auf die Fehlerstatistik des Kanals zugeschnitten ist. Kenngrößen für das Fehlerverhalten von Kanälen sind die • bit error rate (BER) als Anzahl fehlerhafter bits bezogen auf die Gesamtzahl der übertragenen bits 70 KAPITEL 4. KODIERUNG • block error rate (BLER) als Anzahl der pro s übertragenenen fehlerhaften Datenblöcke (Kodewörter) Die Fehlerkorrektur optischer Speichermedien (CD, DVD) reduziert eine typische (unkorrigierte) BER von 10−5 bis 10−4 auf einen Wert von 10−12 , der Standard für Computeranwendungen ist. Gleichzeitig gilt eine BLER von 220 für die CD-Herstellung als akzeptabel. Bei 7350 übertragenen Blöcken pro s entspricht dies einer Blockfehlerrate von 3%. Abbildung 4.11: Strategien der Fehlerschutz-Kodierung Jede Fehlerschutz-Kodierung folgt der Strategie in Abb. 4.11. Zunächst wird den zu übertragenden Quellkode zur Bildung eines Kanalkodeworts ein overhead an Redundanz hinzugefügt. Beim Empfänger wird das empfangene Datenwort zunächst geprüft. Wird es als fehlerhaft erkannt, kann eine neue Übertragung angefordert werden (automatic repeat request). Dies ist insbesondere bei paketvermittelter, asynchroner Übertragung möglich. Bei synchroner Übertragung dagegen muss das System versuchen, den Fehler mit Hilfe der redundanten Daten selbst zu korrigieren. Wenn eine Fehlerkorrektur nicht möglich ist, kann der Fehler durch Stummschaltung (mute), durch Wiederholen des letzten Werts oder durch Interpolation verschleiert werden. 4.3.1 Grundbegriffe und Kenngrößen Ausgehend von einem allgemeinen Modell der Signalübertragung sei A∗ = {a∗1 , a∗2 , . . . , a∗L } (4.23) das Alphabet der l-stelligen Quellenkodewörter a∗i mit a∗ = (ui1 , ui2 , . . . , uil ) (4.24) und i = 1, 2, . . . , L. Bei binären Übertragungen ist uij ∈ U = {0, 1} (4.25) 4.3. KANALKODIERUNG 71 und das Alphabet A∗ mit A∗ = {0, 1}l (4.26) besteht aus L = 2l verschiedenen, l-stelligen Binärfolgen. Der Kanalkodierer fügt den l-stelligen Quellenkodewörtern bei der Transformation in n-stellige Kanalkodewörter jeweils k = n − l redundante Stellen hinzu. Das Kanalalphabet A mit A = {a1 , a2 , . . . , aL } (4.27) besteht somit ebenfalls aus L n-stelligen Binärfolgen, d.h. A ⊂ {0, 1}n (4.28) Die Kanalkodewörter des Alphabets A können bei der Übertragung durch Störungen in Wörter des Alphabets B verändert werden, mit B = {b1 , b2 , . . . , aN } (4.29) wobei das Alphabet B aus N = 2l 2k = 2n Kodewörtern besteht, da auch die k redundanten Stellen in der empfangenen Binärfolge gestört sein können. Der Kanaldekodierer überprüft, ob die empfangene Binärfolge ein Kanalkodewort aus dem Alphabet A ist. Falls dies der Fall ist, übersetzt er sie zurück in ein Wort des Alphabets B ∗ , wobei A∗ = B ∗ . Bei der Kanaldekodierung können empfangene Kodeworte aus dem Alphabet B nur dann als fehlerhaft erkannt werden, wenn sie nicht zugleich Elemente des Alphabets A sind, d.h. wenn nicht geringfügige Verfälschungen der Kodewörter ai wiederum auf gültige Kodewörter aj führen. Die Robustheit eines Kodes gegenüber solchen, nicht erkennbaren Fehlern wird durch die sog. Hamming-Distanz dij beschrieben. Sie ist definiert als die Anzahl der Stellen, in denen sich zwei Kodewörter ai und aj unterscheiden. In einem Binärkode ergibt sich die Hamming-Distanz durch die bitweise Modulo-2-Addition von ai und aj , d.h. d(ai , aj ) = n X (uig ⊕ ujg ) (4.30) g=1 Die Hamming-Distanzen zwischen den Kodewörtern eines Alphabets sind in der Regel unterschiedlich. Für die Erkennbarkeit von Fehlern von Bedeutung ist daher vor allem die minimale Hamming-Distanz dmin (auch: Minimalabstand) eines Kanalkodes. Um ein Kanalkodewort ai in ein anderes gültiges Kanalkodewort aj zu verfälschen, müssen mindestens dmin verschiedene Stellen uij verfälscht werden. Somit muss im Rückschluss ein Kanalkode, der alle Verfälschungen von fe (oder weniger) verschiedenen Stellen sicher erkennen kann, eine minimale Hamming-Distanz dmin von dmin = fe + 1 besitzen. (4.31) 72 KAPITEL 4. KODIERUNG Eine Binärfolge bj , die aus der fehlerhaften Übertragung eines Kodeworts ai hervorgeht, wird immer in das Kanalkodewort übersetzt ( korrigiert“), zu dem sie die geringste ” Hamming-Distanz hat. Somit kann eine korrekte Rekonstruktion des verfälschten Kanalkodeworts immer dann erfolgen, wenn die Anzahl der verfälschten Stellen fk kleiner als dmin ist, d.h. wenn 2 dmin = 2fk + 1 (4.32) Die minimale Hamming-Distanz dmin eines Kanalkodes hängt von der Anzahl k der redundanten Stellen ab. Falls der Kanalkode keinerlei Redundanz enthält, d.h. für k = 0 und A = A∗ , ist dmin = 1, d.h. Übertragungsfehler können weder erkannt noch korrigiert werden. Für einen gegebenen Wert von dmin lässt sich jedoch die Anzahl k der redundanten Stellen errechnen, die mindestens notwendig ist, um einen Kode zu konstruieren, dessen Kodewörter einen Mindestabstand von dmin haben. Für Kodewörter der Länge n, n n n d.h. in einem Alphabet B = {0, 1} von 2 Binärfolgen, kann es 1 Binärfolgen mit der n Hamming-Distanz 1, 2 Binärfolgen mit der Hamming-Distanz 2, u.s.w. geben, wobei n n! (4.33) = i!(n − i)! i gilt. Davon sind nur 2l Binärfolgen Kanalkodewörter, und diese weisen untereinander einen Minimalabstand von ≥ dmin auf. Somit muss gelten n n n n l k l 2 =22 ≥2 1+ + + ... + (4.34) 1 2 fk Daraus folgt k l 2 ≥2 fk X n i=0 i (4.35) oder −1 ] [ dmin 2 X l+k k l 2 ≥2 i i=0 (4.36) 4.36 wird auch als Hamming-Schranke bezeichnet. Sie ist eine untere Schranke für die Anzahl redundanter Stellen k, die zur Korrektur von ≤ fk Fehlern erforderlich ist, bzw. eine obere Schranke für die Anzahl L der möglichen Kanalkodewörter, die bei geg. Redundanz k und bei geg. dmin möglich sind. Das Gleichheitszeichen gilt nur für bestimmte Kombinationen von dmin , k und l. Entsprechende Kodes nennt man dichtgepackt oder perfekt. Beispiel 4.3. KANALKODIERUNG 73 Ein Kanalkode soll 16-stellige Quellenkodewörter in Kanalkodewörter verwandeln, so dass fk = 2 Fehlerstellen sicher korrigiert werden können. Wie groß muss die Anzahl k der redundanten Stellen sein ? Mit 4.32 muss der Minimalabstand des Kanalkodes dmin = 5 betragen. Mit 4.36 folgt 2k ≥ 2 X 16 + k i=0 i = 16 + k 16 + k 16 + k + + 0 1 2 1 2k ≥ 1 + (16 + k) + (16 + k)(15 + k) = 0.5k 2 + 16.5k + 137 2 Dies ist erfüllt für k≥9 (4.37) Für einen Kode mit 16-stelligen Quellenkodewörter und fk = 2 sind also mindestens 9 redundante Stellen erforderlich, die Kanalkodewörter haben somit 25 Stellen.Für k = 9 ist 2k = 512 und 0.5k 2 + 16.5k + 137 = 326. Der Kode ist somit nicht perfekt, seine Redundanz wird nicht voll ausgenutzt. Neben der Korrekturleistung eines Kanalkodes, die durch dmin charakterisiert wird, spielt auch die Effektivität eine Rolle, die durch den Aufwand an zusätzlichen, redundanten Stellen gegeben ist. Ein Maßzahl hierfür ist die Koderate R mit l (4.38) n Die Effektivität eines Kanalkodes ist umso höher, je größer seine Koderate ist. Kanalkodes mit n Stellen und l Informationsstellen bezeichnet man auch als (n, l)-Kodes. R= 4.3.2 Beispiele Wenn die Kodewörter eines Kanalkodes eine feste Länge haben, bezeichnet man den Kode als Blockkode. Wenn die Kodewörter (und die darauf angewandten Verknüpfungen) die algebraischen Eigenschaften einer Gruppe aufweisen, spricht man von einem linearen Blockkode oder Linearkode. Lineare Blockkodes, die zusätzlich die Eingenschaften eines Körpers erfüllen, bezeichnet man als zyklische Kodes. Eine gute Übersicht über verschiedene Kodierungsverfahren und ihre algebraischen Grundlagen findet man bei [KPS03]. Bei Faltungskodes (convolutional codes, blockfreie Kodes) wird die Redundanz kontinuierlich in einen Datenstrom, den der Quellkodierer abgibt, eingefügt. 4.3.2.1 Einfache Parität l-stellige Quellenkodewörter a∗ = (ui1 , ui2 , . . . , uil ) werden durch ein Paritätselement 74 KAPITEL 4. KODIERUNG ui,l+1 = l X uij mod2 (4.39) j=1 = zum Kanalkodewort a (ui1 , ui2 , . . . , uil , ui,l+1 ) ergänzt. Zur Fehlererkennung wird ein Prüfvektor s0 gebildet mit s0 = l+1 X uij mod2 (4.40) j=1 Für s0 = 0 liegt kein oder ein nicht detektierbarer Fehler vor. Beispiel a∗ij 00 01 10 11 P 0 1 1 0 Tabelle 4.1: Wahrheitstafel für Addition modulo 2 Durch Hinzufügen des Paritätselements P entsteht ein linearer (3,2)-Blockkode mit dmin = 2. Somit ist fe = 1 und fk = 0, d.h. Einzelfehler werden sicher erkannt, können aber nicht korrigiert werden. Einfache Paritätskodes sind Blockkodes mit einer Hamming-Distanz von dmin = 2. Ein einfacher Paritätscheck kann somit eine ungerade Anzahl von Fehlern erkennen, aber nicht korrigieren. Er wird z.B. bei der internen Datenübertragung in Rechnern eingesetzt oder bei der Audioübertragung nach AES3 (AES/EBU) als Paritätsbit innerhalb eines 32-bit Subframes. 4.3.2.2 Mehrdimensionale Parität (Kreuzsicherung) Wesentlich leistungsfähiger als einfache Paritätskodes sind iterierte Kodes, z.B. zweidimensionale Kodes, bei denen das Quellkodewort in Zeilen und Spalten angeordnet wird. Jede Zeile und jede Spalte erhält ein Paritätsbit (Abb. 4.12). Die minimale Hamming-Distanz eines Kodes nach Abb. 4.12 ist dmin = 4. Einfachfehler werden mit Sicherheit erkannt und können durch Invertierung korrigiert werden, da sich die Prüfvektoren mit s0 = 1 von Zeile und Spalte im fehlerhaften Element kreuzen. Zweifachfehler und alle ungeradzahligen Fehlerhäufigkeiten werden mit Sicherheit erkannt, auch wenn sie nicht immer korrigiert werden können. Die Koderate beträgt R= ml (m + 1)(l + 1) (4.41) 4.3. KANALKODIERUNG 75 Abbildung 4.12: Zweidimensionaler Paritätskode Iterierte Kodes können auf drei- oder mehrdimensionale Verfahren erweitert werden. 4.3.2.3 Zyklische Kodes Zu den zyklischen Kodes gehören die auf der CD und DVD eingesetzten ReedSolomon-Kodes. Sie kommen bei der CD in einem zweistufigen Prozess zur Anwendung mit zusätzlicher Kodespreizung (Interleaving) zwischen den Kodierungsstufen (CrossInterleave Reed-Solomon Code, CIRC). In einem ersten Schritt werden jeweils 24 8-bitSymbolen 4 Paritätswörter (Q) hinzugefügt und 28-bit-Kanalkodewörter ausgegeben (C2 Encoder). Die C2 Kodewörter werden anschließend auf 28 verschiedene Blöcke verteilt, die mit einer Distanz von bis zu 109 Blöcken über die CD verteilt werden. In einem zweiten Schritt werden jeweils 28 8-bit-Symbolen weitere 4 Paritätswörter (P) hinzugefügt und als 32-bit-Kanalkodewörter auf der CD aufgezeichnet (C1 Encoder). Die Redundanz beträgt somit insgesamt 25%. Jede Dekodierungsstufe kann bis zu 4 fehlerhafte Symbole korrigieren, wenn der der Fehlerort bekannt ist, und zwei Symbole, wenn der Fehlerort nicht bekannt ist. Durch die Kodespreizung werden Bündelfehler über einen größeren Bereich der CD verteilt, wodurch sie innerhalb jedes Blocks leichter korrigiert werden können. Dadurch kann das Gesamtsystem bis zu 3874 aufeinanderfolgende, fehlerhafte bits korrigieren, entsprechend einer Spurlänge von 2,5 mm auf der CD. 4.3.2.4 Faltungskodes Bei Faltungskodes wird die Redundanz kontinuierlich in den Datenstrom der Quelle eingefügt. Für die Realisierung genügt eine einfache Kombination von Schieberegistern und XOR-Gattern. Bei der Variante in Abb. 4.13 erzeugt ein fehlerhaft übertragenes Datensymbol eine Kodeverletzung in zwei jeweils um drei Zeitpunkte verschobenen Kodewörtern. Auf diese Weise kann der Fehler erkannt und korrigiert werden. Faltungskodes benötigen für die Erkennung und Korrektur von Einzelfehlern weniger Redundanz als Blockkodes, verhalten sich bei Bündelfehlern allerdings weniger robust. Sie sind geeignet für die Kodierung kontinuierlicher Datenströme (Digitaler Rundfunk) mit rauschhaften 76 KAPITEL 4. KODIERUNG Störungen. Sie eignen sich aufgrund ihrer blockfreien Struktur nicht für paketorientierte Übermittlung (Netzwerke, asynchrone Übertragung) oder für Speichermedien, auf denen vorwiegend Bündelfehler auftreten. Abbildung 4.13: Faltungskode 4.4 Leitungskodierung Bei der Quellkodierung geht es um eine Kodierung von Audiosignalen, die zum einen die vom A/D-Wandler gelieferte Auflösung darstellen kann, dabei möglichst redundanzarm ist und zum anderen ein geeignetes Format für die Weiterverarbeitung durch Hardund Software zur Signalverarbeitung bildet. Am weitesten verbreitet ist die Darstellung in linearer Pulskode-Modulation (Linear PCM) mit Zahlendarstellung als 2er-Komplement. Für den in jüngster Zeit im Zusammenhang mit der Super Audio CD (SACD) favorisierten Direct Stream Digital (DSD) Kode gibt es dagegen (noch) keine Signalverarbeitungsbausteine. Bei der Kanalkodierung geht es darum, den zu übertragenden Zeichen für die Übertragung und Speicherung in realen Kanälen geeignete Signale zuzuordnen. Bei digitalen Audiosignalen sind vor allem eine möglichst effiziente Ausnutzung der vorhandenen spektralen Bandbreite, Gleichspannungsfreiheit, ein selbsttaktender Signalverlauf und Unempfind- 4.4. LEITUNGSKODIERUNG 77 lichkeit gegenüber Interface Jitter von Bedeutung. Für die Leistungsfähigkeit von Kanalkodes werden folgende Kenngrößen verwendet: • Tmin , Tmax : Minimale/maximale Dauer zwischen elektrischen Potentialwechseln in Einheiten der Bitperiode des Quellkodes. Tmin ist gleichzeitig ein Maß für die Mindestanzahl der pro Potentialwechsel übertragbaren Datenrate (Density Ratio, DR) und damit für die Kodeeffizienz. • Window Margin Tw : Minimale Differenz der Zeitdauer zwischen zwei Potentialwechseln bei zu unterschiedlichen Datenfolgen gehörenden Signalverläufen. Tw ist somit ein Maß für die Robustheit des Kodes gegenüber Interface-Jitter, d.h. einer Verschiebung der Signalflanken und daraus resultierender, falscher Dekodierung. • Figure of Merit, F oM = DR · Tw : Produkt aus Kodeeffizienz und Robustheit gegenüber Jitter als Maß für die Leistungsfähigkeit des Kodes. 4.4.1 Einfache Kodes Einfache Kodes bilden eine logische 0“ und 1“ auf einen zugehörigen Signalverlauf ab. ” ” Im Fall eines return to zero Kodes (RZ) wird nur für jede logische 1“ ein Puls erzeugt, ” für eine 0“ bleibt das Signal auf dem low“-Potential. Ein nonreturn to zero (NRZ) Kode ” ” bildet eine 1“ und eine 0“ direkt als hohes oder niedriges Potential ab, ohne dazwischen ” ” auf ein niedriges Potential zurückzukehren. Der nonreturn to zero inverted (NRZI) Kode bildet jede 1“ auf einen Potentialwechsel ab (egal in welche Richtung), während eine ” 0“ keinen Potentialwechsel auslöst. Der Biphase Mark Kode (auch: Frequenzy Modula” tion, FM) bildet jede 0“ auf einen Potentialwechsel ab und erzeugt für jede 1“ einen ” ” zusätzlichen Potentialwechsel in der Mitte der Bitperiode. Der Manchester Kode (auch Phase Encoding, PE) bildet jede 1“ auf einen Potentialwechsel in positive Richtung, jede ” 0“ auf einen Potentialwechsel in negative Richtung ab, sodass aufeinanderfolgende 1en ” oder 0en einen zusätzlichen Potentialwechsel erforderlich machen. 4.4.2 Gruppenkodes Durch Gruppenkodes lässt sich Effizienz und Robustheit der Kanalkodierung gegenüber einfachen Kodes erhöhen. Dabei werden Gruppen von m Quellbits durch eine Zuweisungstabelle auf jeweils n Kanalbits abgebildet, wobei n > m. Dadurch erhöht sich die Kanalbitrate gegenüber dem Quellkode um den Faktor n/m. Die höhere Effizienz wird dadurch erzielt, dass von den 2n Kanalkodewörtern nur diejenigen 2m Wörter ausgewählt werden, die mindestens d und höchstens k 0en zwischen zwei 1en aufweisen, wodurch die für die Übertragung notwendige Bandbreite reduziert bzw. vorhandene Bandbreiten durch eine höhere Anzahl verschiedener Kodewörter gefüllt“ werden können. Solche ” Kodes werden auch als (d,k) Run-Length-limited (RLL) Kodes bezeichnet. Beispiel ist der 4/5 Modified NRZI (MNRZI) Kode (auch Group Coded Recording Kode, GCR), der Blöcke von 4 Quellbits auf jeweils 5 Kanalbits abbildet. Benachbarte 1en sind 78 KAPITEL 4. KODIERUNG Abbildung 4.14: Einfache Kanalkodes erlaubt, aber maximal 2 0en zwischen zwei 1en, sodass sich eine (0,2) RLL Kodierung ergibt. Tab. 4.2 zeigt das zugehörige Abbildungsschema. Der GCR Kode wird z.B. bei der MADI-Schnittstelle für digitale, mehrkanalige Audiosignale eingesetzt. Quellbits 0000 0001 0010 0011 0100 0101 0110 0111 Kanalbits 11001 11011 10010 10011 11101 10101 10110 10111 Quellbits 1000 1001 1010 1011 1100 1101 1110 1111 Kanalbits 11010 01001 01010 01011 11110 01101 01110 01111 Tabelle 4.2: Abbildungstabelle für den GCR (4/5 MNRZI) Kode Weitere Kodevarianten im Audiobereich zeigt Tab. 4.3 Kode GCR (Group Coded Recording) 8/10 Kode EFM (Eight-to-fourteen modulation) EFMPlus m 4 8 8 8 n 5 10 14 (+3) 16 d 0 0 2 2 k 2 3 10 10 Anwendung MADI Interface DAT CD DVD Tabelle 4.3: Verschiedene Gruppenkodes im Audiobereich Der bei der CD eingesetzte EFM-Kode (Eight-to-fourteen modulation) bildet 8 Quellbits auf 14 Kanalbits und fügt am Ende jedes Kanlkodeworts 3 zusätzliche Merging Bits hinzu, um einen gleichspannungsfreien Signalverlauf herzustellen. Bei der DVD kommt ein modifizierter Kode (EFMPlus) zum Einsatz, der auf Merging Bits verzichtet, bei der 4.5. INTERFACES 79 Abbildung von 8 auf 16 Kanalbits jedoch eine von 4 Zuweisungstabellen so auswählt, dass sich ein gleichspannungsfreies Signal ergibt. Im Anschluss an die Kanalkodierung wird das Signal in eine NRZI-kodierte Abfolge von pits und lands, d.h. Vertiefungen und Erhöhungen auf der Oberfläche der CD umgesetzt. Bezogen auf die Quellbitrate ergibt sich für Gruppenkodes ein Window Margin von Tw = m , eine Density Ratio von DR = Tmin = (d + 1) m und eine Figure of Merit von F oM = n n m2 (d + 1) n . Tab. 4.4 zeigt die Kennzahlen gängiger einfacher Kodes und Gruppenkodes im Vergleich. gleichspannungsfrei selbsttaktend Tmin Tmax DR Tw F oM RZ nein nein 0.5 ∞ 0.5 1 0.5 NRZ nein nein 1 ∞ 1 1 1 NRZI nein nein 1 ∞ 1 1 1 FM ja ja 0.5 1 0.5 0.5 0.25 PE ja ja 0.5 1 0.5 0.5 0.25 GCR nein ja 0.8 2.4 0.8 0.8 0.64 EFM ja ja 1.41 5.18 1.41 0.471 0.66 EFMPlus ja ja 1.5 5.5 1.5 0.5 0.75 Tabelle 4.4: Kennzahlen verschiedener einfacher Kodes und Gruppenkodes im Audiobereich 4.5 Interfaces Schnittstellen (interfaces) definieren sowohl physikalische Eigenschaften (Spannung, Impedanz, Datenrate) als auch logische Eigenschaften (Übertragungsprotokoll) der übertragenen Daten. Genormte (standardisierte) Schnittstellen bieten durch ihre Kompatibilität den Vorteil der leichteren Systemintegration. Digitale Schnittstellen können als klassische Punkt-zu-Punkt-Verbindungen oder als Netzwerk-Protkolle ausgelegt sein. Während traditionelle Schnittstellen wie AES/EBU oder MADI zu ersten Gruppe gehören, werden zunehmend auch Netzwerk-Protkolle oder Bussysteme aus dem Computerbereich (IEEE 1394, USB, TCP/IP) für die Übertragung von Audiodaten genutzt. 4.5.1 AES 3 AES3 ist der 1985 eingeführte und 1992 und 1997 überarbeitete, wichtigste nichtproprietäre Standard für die zweikanalige, digitale Audioübertragung. Er definiert für jeden Abtastwert im Audiosignal ein Frame, das aus zwei Subframes für Kanal 1 mit der Präambel X und Kanal 2 mit der Präambel Y besteht. Insgesamt 192 Frames bilden einen Block, dessen Beginn durch die Präambel Z markiert wird. Jedes Subframe besteht aus 32 Bits, von denen 4 für die Präambel, 24 für die Audiodaten (2er-Komplement, LSB first) und jeweils eines für Validity (Gültigkeit des Datenworts), User (vom Anwender definierbare Information), Channel Status (Informationen über den Audiodatenstrom) und Parity (Paritätsbit zur Fehlererkennung) stehen (Abb.4.15). 80 KAPITEL 4. KODIERUNG Abbildung 4.15: Subframe nach AES 3 (AES/EBU) Der Datenstrom wird mit einer Biphase-Mark-Kanalkodierung übertragen. Die Präambeln X, Y und Z, die den Anfang eines Frames, eines Subframes und eines Blocks markieren, sind als kodeverletzende (im Kanalkode nicht auftretende) Signalmuster in den Datenstrom eingesetzt. Für die Bits U (User) und V (Validity) hat sich keine einheitliche Verwendung etabliert, verschiedene Varianten der Nutzung findet man bei [RW04]. Die 24 Byte (= 192 Bits) eines Channel Status Blocks entahlten Information über Abtastrate und Wortbreite der Audiodaten sowie optional Information über Emphasis, Adressierung und Timecode (s. Tab. 4.5). Obligatorisch ist nur die Bereitstellung von Daten in Byte 0, während die Nutzung der Bytes 1 bis 23 freigestellt ist. Byte 0 1 2 3 4 5 6-9 10-13 14-17 18-21 22 23 Bedeutung Kontrolldaten (Professional/Consumer, Abtastrate, Emphasis) Mode, User Bit Management Verwendung Aux Bits, Wortbreite, Alignment Mehrkanalmodus, Kanalnummer Abtastrate Reserved Quellenidentifizierung (4 Byte ASCII) Zielidentifizierung (4 Byte ASCII) Lokale Adressierung Timecode Channel status reliability flags CRCC Tabelle 4.5: AES 3 Channel Status Block Die Consumer-Variante der AES3-Schnittstelle (IEC 60958 oder landläufig S/PDIF für Sony/Philips Digital Interface) wurde bereits 1984 eingeführt und ist vermutlich die am weitesten verbreitete digitale Audioverbindung. Sie war als Schnittstelle zur Verbindung von CD-Playern und den ersten DAT-Recordern vorgesehen und wurde aus Gründen des Urheberrechtsschutzes mit einem Kopierschutz ausgestattet. Bei DAT-Geräten kam das SCMS (Serial Copy Management System) zum Einsatz, das lediglich eine bestimmte Anzahl von Kopien zuließ und diese Informationen über das S/PDIF Interface von der Quelle zum Aufnahmegerät weitergab. Das Datenformat der Subframes stimmt mit AES3 überein. Unterschiede gibt es bei den elektrischen Spezifikationen (Tab. 4.6)und bei der Verwendung der VUCP-Informationen. Das Interface verwendet eine unsymmetrische Schnittstelle mit einer Impedanz von 75 Ohm in Leistungsanpassung. Die Quellimpedanz muss in einem Frequenzbereich von 0,1 4.5. INTERFACES 81 bis 6 MHz auf ±20 Prozent genau eingehalten werden, die Impedanz des Empfängers muss 75 Ohm mit maximalen Abweichungen von ±5 Prozent betragen. Relativ tolerant ist man beim Wellenwiderstand des Kabels: Hier dürfen die Abweichungen in einem Bereich von ±35 Prozent liegen, was den typischen User-Gepflogenheiten, ”´irgendein“ Kabel zu verwenden, vermutlich entgegen kommt. Die Signalspannung liegt bei 0,5 Volt (±20 Prozent), als Steckverbindung kommt eine Cinch-Buchse (RCA/Phono) zum Einsatz (Rumsey u. Watkinson 2004). 4.5.2 AES 10 Zur Verbindung mehrkanaliger Signale, etwa zwischen Wandlergruppen, Mischpulten, Aufzeichnungssystemen, kommt die MADI-Schnittstelle (für Multichannel Audio Digital Interface) zum Einsatz. Die Kodierung eines Subframes (Abtastwert für einen Kanal)ist aus dem AES 3 Protokoll abgeleitet. Allerdings können bis zu 64 Kanäle für ein Abtastintervall gesendet werden, mit entsprechend höherer Datenrate und Signalfrequenz. Als Kanalkode wird eine 4/5 GCR Kodierung verwendet (s. 4.4.2). Da die Übertragung durch eine separate Wordclockleitung synchronisiert wird, ist eine Präambel zur Synchronisation wie bei AES 3 nicht erforderlich und die 4 bits zu Beginn eines Subframes können zur Anzeige des Kanalmodus verwendet werden (Abb. 4.16). Abbildung 4.16: Subframe nach AES 10 (MADI) Die elektrischen Spezifikationen der drei nichtproprietären Interfaces können Tab. 4.6 entnommen werden. Interface AES 3 (AES/EBU) IEC 60958 (S/PDIF) AES 10 (MADI) Impedanz (in/out) 110 Ω 75 Ω 75 Ω Signalamplitude 2-7 V (min. 200 mV) 0,5 V ± 20% (min. 200 mV) 0,3-0,7 V (min. 150 mV) Jitter max. 20 ns max. 20 ns max. 2 ns Steckverbindung XLR symm. RCA phono BNC Tabelle 4.6: Nichtproprietäre Audio-Interfaces - Elektrische Spezifikationen 82 KAPITEL 4. KODIERUNG Abbildungsverzeichnis 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 7 8 8 9 10 11 14 16 19 19 20 20 21 22 23 24 25 25 2.21 2.22 2.23 2.24 2.25 2.26 2.27 Abtastung eines analogen Signals . . . . . . . . . . . . . . . . . . . . . Abtastung mehrerer Sinusschwingungen . . . . . . . . . . . . . . . . . . Analoger und abgetasteter Zeitverlauf mehrerer Sinusschwingungen . . . Spektrum eines analogen und abgetasteten Signals . . . . . . . . . . . . . Ablaufdiagramm Sampling . . . . . . . . . . . . . . . . . . . . . . . . . zufallssignale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantisierungskennlinie . . . . . . . . . . . . . . . . . . . . . . . . . . Quantisierungsvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantisierungsfehler eines optimal ausgesteuerten Sinussignals . . . . . . Amplitudendichteverteilung des Quantisierungsfehlers . . . . . . . . . . Amplitudendichteverteilung eines Musiksignals . . . . . . . . . . . . . . Signalrauschabstand eines Quantisierers . . . . . . . . . . . . . . . . . . Übersteuerung eines Quantisierers . . . . . . . . . . . . . . . . . . . . . Quantisierung mit und ohne Dither . . . . . . . . . . . . . . . . . . . . . Requantisierung mit Dithering durch eine Zufallsfolge d(n) . . . . . . . . Verschiedene Dither-Amplitudendichteverteilungen . . . . . . . . . . . . Requantisierung mit Dither: Kennlinienlinearisierung und Rauschmodulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zeitverläufe, Amplitudendichteverteilungen und Spektren verschiedener Dither-Typen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dither-Einstellung einer Audioworkstation . . . . . . . . . . . . . . . . . Quantisierungsfehlerleistung mit und ohne Oversampling . . . . . . . . . Noise-Shaping 1. Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . Frequenzgang Noise-Shaping verschiedener Ordnungen . . . . . . . . . . Delta-Sigma Modulator 1. Ordnung . . . . . . . . . . . . . . . . . . . . SNR-Gewinn durch Oversampling . . . . . . . . . . . . . . . . . . . . . 2er-Komplement-Darstellung einer Sinusschwingung . . . . . . . . . . . 3.1 3.2 3.3 Anti-Imaging Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parallel-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Subranging-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 39 39 2.20 83 27 28 29 30 31 32 32 34 35 84 ABBILDUNGSVERZEICHNIS 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 SAR-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spannungsverlauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Delta-Sigma-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . R-2R-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Delta-Sigma-DA-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . Abweichungen von der idealen Wandlerkennlinie . . . . . . . . . . . . . Jitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Auswirkung von Sampling Jitter auf den Signal-Rauschabstand in Abhängigkeit von Zeitfehler und Signalfrequenz in Bezug zum theoretischen Signal-Rauschabstand von 16- und 18-bit Systemen . . . . . . . 40 40 40 41 42 43 43 Technisches Kommunikationsmodell . . . Kodebaum . . . . . . . . . . . . . . . . . Redundanzkodierung . . . . . . . . . . . Huffmancode . . . . . . . . . . . . . . . Irrelevanzkodierung . . . . . . . . . . . . Mithörschwelle eines Sinustones . . . . . Bark-Skala . . . . . . . . . . . . . . . . Pre- und Postmasking . . . . . . . . . . . Maskierungsschwelle eines Audiosignals Window Length Switching in AAC . . . . Strategien der Fehlerschutz-Kodierung . . Zweidimensionaler Paritätskode . . . . . Faltungskode . . . . . . . . . . . . . . . Einfache Kanalkodes . . . . . . . . . . . Subframe nach AES 3 (AES/EBU) . . . . Subframe nach AES 10 (MADI) . . . . . 47 50 52 54 58 59 60 61 62 63 70 75 76 78 80 81 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Tabellenverzeichnis 1.1 Einzug digitaler Signalverarbeitung im Tonstudiobereich . . . . . . . . . 6 2.1 2.2 2.3 Festkomma-Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . Bitzuweisung in der Gleitkomma-Darstellung . . . . . . . . . . . . . . . Gleitkomma-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 36 36 4.1 4.2 4.3 4.4 4.5 4.6 Wahrheitstafel XOR . . . . . . . . . . . . . . . . . . . . . . . . GCR Gruppenkode . . . . . . . . . . . . . . . . . . . . . . . . Gruppenkodes . . . . . . . . . . . . . . . . . . . . . . . . . . . Kennzahlen von Kanalkodes . . . . . . . . . . . . . . . . . . . AES 3 Channel Status Block . . . . . . . . . . . . . . . . . . . Nichtproprietäre Audio-Interfaces - Elektrische Spezifikationen . 74 78 78 79 80 81 85 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 TABELLENVERZEICHNIS Literaturverzeichnis [ATS95] ATSC. Atsc a/52, digital audio compression (ac-3). International Standard, 1995. [Bal02] Glen M. Ballou. Handbook for Sound Engineers. Focal Press, 3 edition, 2002. [Coa05] Josh Coalson. Flac - free lossless audio codec, 2005. [Dic97] Michael Dickreiter. Handbuch der Tonstudiotechnik. Saur, München, 6 edition, 1997. [Fle40] Harvey Fletcher. Auditory Patterns. In Reviews of Modern Physics, volume 12, pages 47–65. The American Physical Society, 1940. [ISO01] ISO/IEC. Iso/iec 14496-3:2001, information technology - coding of audiovisual objects - part 3: Audio. International Standard, 2001. [ITU01] ITU. Itu-r bs.1387-1 , method for objective measurements of perceived audio quality. International Standard, 2001. [KPS03] Herbert Klimant, Rudi Piotraschke, and Dagmar Schönfeld. Informationsund Kodierungstheorie. Teubner Verlag, München, 2 edition, 2003. [LWV92] S.P. Lipshitz, R.A. Wannamaker, and J. Vanderkooy. Quantization and Dither: A Theoretical Survey. Journal of the Audio Engineering Society, 40(5):355 – 375, 1992. [Poh00] Ken C. Pohlmann. Principles of Digital Audio. McGraw-Hill, 4 edition, 2000. [RW04] Francis Rumsey and John Watkinson. Digital Interface Handbook. Focal Press, 3 edition, 2004. [SCG+ 99] J.R. Stuart, P.G. Craven, M.A. Gerzon, M.J. Law, and R.J. Wilson. Mlp lossless compression. In Proc. of the AES 9th Regional Convention, Tokyo, June 1999. [Skr88] P. Skritek. Handbuch der Audio-Schaltungstechnik. Francis, München, 1988. 87 88 LITERATURVERZEICHNIS [TS99] U. Tietze and C. Schenk. Halbleiter-Schaltungstechnik. Springer, Heidelberg, 1999. [VL89] J. Vanderkooy and S.P. Lipshitz. Digital dither: Signal processing with resolution far below the least significant bit. In AES Int. Conference on Audio in Digital Times, pages 87 – 96, 1989. [Wat98] John Watkinson. The Art of Sound Reproduction. Focal Press, 1 edition, 1998. [Wat01] John Watkinson. The Art of Digital Audio. Focal Press, 2001. [ZF67] Eberhard Zwicker and Richard Feldtkeller. empfänger. Hirzel, Stuttgart, 2 edition, 1967. [ZF99] Eberhard Zwicker and Hugo Fastl. Psychoacoustics. Facts and Models. Springer, Heidelberg, 2 edition, 1999. [Zöl02] Udo Zölzer, editor. DAFX. Digital Audio Effects. Wiley, 1 edition, 2002. [Zöl05] Udo Zölzer. Digitale Audiosignalverarbeitung. Teubner, Stuttgart, 3 edition, 2005. Das Ohr als Nachrichten-