AUDIO- KOMPRESSION Weitere Top

Transcription

AUDIOKOMPRESSION
1
Weitere Top-Infos unter ITWissen.info
AUDIOKOMPRESSION
Inhalt
µ-Law-Verfahren
AAC, advanced audio coding
AAC-LD, AAC low delay
aacPlus
AC-3, audio code number 3
AC97, audio codec 97
ADDPCM, adaptive differential
delta pulse code modulation
ADPCM, adaptive delta pulse
code modulation
AIFC, audio interchange file
format compressed
A-Law-Verfahren
Apt-X
ASFS, audiosoft file structure
ASPEC, adaptive spectral
entropy coding
ATRAC, adaptive transform
acoustic coding
ATRAC 3
ATRAC3plus
Audio
Audio-Codec
Audiokompression
Audiovision
BCC, binaural cue coding
BSAC, bit sliced arithmetic
coding
CELP, code excited linear
prediction
CODEC, compression/
decompression
Impressum:
Herausgeber: Klaus Lipinski
Audiokompression
Copyrigt 2008
DATACOM-Buchverlag GmbH
84378 Dietersburg
Alle Rechte vorbehalten.
Keine Haftung für die angegebenen
Informationen.
Produziert von Media-Schmid
www.media-schmid.de
Exit
2
DFT, discrete Fourier
transformation
Digital-Audio
Dolby-Digital
DTS, digital theatre sound
EAC, enhanced audio codec
FFT-Transformation
FLAC, free lossless
audio codec
Fourier-Synthese
Fourier-Transformation
G.711
GSM 06.10
HDA, high definition audio
HE-AAC, high efficiency AAC
HVXC, harmonic vector
excitation
Hörcharakteristik
Hörschwelle
Joint-Stereo
Kompression
Kompressionsrate
Kritische Frequenzbänder
LAME, lame ain’t an MP3
encoder
LPAC, lossless predictive audio
compression
LPC, linear predictive coding
LTAC, lossless transform audio
compression
Maskierung
MLP, meridian lossless packing
Monkeys Audio
MP3-Dateiformat
mp3Pro
MPEG, motion picture expert
group
MPEG-1-Audio
MPEG-4
MPEG-Surround
MUSICAM, masking pattern
universal subband integrated
coding and multiplexing
Nero Digital
Ogg Vorbis
OptimFrog
PAC, perceptual audio coder
PASC, precision adaptive
subband coding
Psychoakustik
QDesign
RealAudio
SAC, spatial audio coding
SBR, spectral band replication
Subband-Codierung
TwinVQ, transform-domain
weighted interleave vector
quantization
Verlustbehaftete Kompression
Verlustfreie Kompression
WMA, Windows media audio
XMF, extensible music format
AUDIOKOMPRESSION
µ-Law-Verfahren Das µ-Law-Verfahren ist ein Verfahren mit dem der Dynamikbereich eines Audiosignals
µ law method vor der digitalen Übertragung erhöht wird. Dieses Verfahren ist in der ITU-Empfehlung
G.711 beschrieben und wird in PCM-Systemen eingesetzt. Die Vergrößerung des
Dynamikbereichs erfolgt bei der µ-Law-Kompression, indem das Signal zunächst mit
höherer Bitrate abgetastet wird, um die Daten anschließend mit einem bestimmten
Algorithmus auf eine niedrigere Bitrate zu komprimieren.
Der Empfänger eines solchen Signals arbeitet genau entgegengesetzt und stellt die
ursprüngliche höhere Bitrate wieder her.
Wie das A-Law-Verfahren arbeitet auch das µ-Law-Verfahren mit nichtlinearen
Kennlinien und benutzt andere Quantisierungsstufen als das A-Law-Verfahren. Die
Bestimmung der Bitzahl ist im µ-Law-Verfahren etwas problematisch, da die
Quantisierungsproben logarithmisch mit 8 Bit codiert werden, ihr Dynamikbereich
hingegen linear mit 13 Bit. µ-Law hat im Niedrigpegelbereich eine steilere
Dynamikkennlinie als das A-Law-Verfahren.
Das µ-Law-Verfahren wird in den USA und Japan in ISDN eingesetzt, da die dortige
ISDN-Technik zur Generierung des Taktsignals wechselnde Bitzustände benötigt und
keine kontinuierlichen 0-Folgen verarbeiten kann.
Funktionseinheiten der
µ-Law-Kompression
AAC Advanced Audio Coding (AAC) ist eine Weiterentwicklung von MP3. Das AACadvanced audio coding Verfahren ist ein verlustbehaftete Codierung für qualitativ hochwertiges Audio, das die
Basistechnologie für den sicheren Verkauf von Musik über das Internet werden kann.
AAC eignet sich für mehrkanaliges Audio, es arbeitet mit Übertragungsraten von 64
kbit/s und 320 kbit/s und bietet bei der niedrigeren Datenrate eine befriedigende, bei
Exit
Index
3
AUDIOKOMPRESSION
Verzögerungszeiten der AACKompression und
von AAC-LD
AAC-Profile und ihre
Eigenschaften
Exit
Index
4
der höheren Bitraten ab 80 kbit/s eine
gute und bei 128 kbit/s eine sehr
gute Klangqualität. Der starke
Einbruch bei niedrigen Bitraten zeigt
sich auch am Frequenzverhalten,
das bei einer Bitrate von 48 kbit/s
unter 10 kHz liegt, und bei 48 kbit/s
über 13 kHz. Die Kompressionsrate
liegt bei ca. 95 %.
Für AAC wurden einige Profile
definiert, die sich in der Abtastung
und damit im Klang unterscheiden. Das Profil mit der höchsten Klangqualität heißt
Main, das mit guter Klangqualität arbeitet nach einem Verfahren mit skalierbarer
Abtastrate, das Scalable Sampling Rate (SCR), das Profil mit einfacher Klangqualität
heißt Low Complexity (LC) und für verzögerungsarme Sprachübertragungen wurde
AAC-LD entwickelt, was für Low Delay steht. Letzteres verbindet niedrige Bitraten mit
einer mittleren Verzögerungszeit.
AAC bietet gegenüber MP3 bei vergleichbarer oder sogar besserer Audioqualität eine
höhere Kompression und damit eine wesentlich verringerte Datenmenge. Das
Audiodateiformat AAC wurde von der MPEG übernommen, ist internationaler Standard
der ISO und
Bestandteil von
MPEG-2 und
MPEG-4. Das
Advanced Audio
Coding (AAC)
muss lizenziert
werden; die
Lizenzen liegen bei
AT&T, Sony, Dolby
AUDIOKOMPRESSION
und dem Fraunhofer Institut.
Das AAC-Format wird ständig weiterentwickelt, wobei mit HE-AAC bzw. aacPlus eine
leistungsfähige Audiokompression mit Bitraten von 64 kbit/s und darunter entwickelt
wurde.
AAC-LD AAC-Low Delay wurde als MPEG-4-Codierung, basierend auf der AAC-Kompression
AAC low delay entwickelt und vereint die Vorteile des Perceptual Audio Coding (PAC) mit den
geringen Verzögerungszeiten für eine Zweiwege-Kommunikation. Die Anforderungen
an AAC-LD sehen zulässige Verzögerungszeiten von 20 ms vor.
Darüber hinaus zeichnet sich AAC-LD durch eine gute Audioqualität für Musik und
Sprache aus. Die Verzögerungszeit beträgt immer 20 ms und ist unabhängig davon,
ob die Datenrate 24 kbit/s, 48 kbit/s oder 96 kbit/s beträgt. Im Gegensatz zu AAC-LD
weist die AAC-Kompression bei einer Datenrate von 24 kbit/s eine Verzögerungszeit
von über 300 ms auf, bei 48 kbit/s eine von ca. 170 ms und bei 96 kbit/s eine von etwa
100 ms. Kürzere Verzögerungszeiten weise nur die für die Sprachkommunikation
optimierten G.-Codecs auf: G.711, G.721 und G.722.
aacPlus MPEG-4 HE-AAC ist eine von Coding Technologies entwickelte Audiokompression, die
AAC+, aacPlus vom MPEG Komitee standardisiert wurde. HE-AAC, vermarktet unter aacPlus, ist der
obligatorische Audio-Codec für die “Compresssed Zone” von DVD-Audio mit dem
Musikstücke im hochkomprimierten Audioformat auf Musik- und Multimedia-Playern
übertragen werden können.
aacPlus ist eine Weiterentwicklung der AAC-Kompression, speziell für niedrige
Bitraten von 64 kbit/s und darunter. Das Verfahren arbeitet mit der Technik der
Spectral Band Replication (SBR) und zeichnet sich durch eine sehr gute Klangqualität
aus, die vergleichbar ist mit der der Audio-CD. Mehrere Tests zeigen unabhängig
voneinander, dass die Höhenwiedergabe nicht beeinträchtigt ist, ebenso wenig wie die
Trennung der Stereokanäle. Das Verfahren ist danach bei 64 kbit/s allen anderen
Audiokompressionen überlegen. Was die Höhenwiedergabe betrifft, so werden mit
aacPlus bei eine Bitrate von 64 kbit/s Frequenzen von über 20 kHz wiedergegeben;
Exit
Index
5
AUDIOKOMPRESSION
selbst bei 48 kbit/s liegen diese noch über 16 kHz. Die Kompressionsrate variiert nur
geringfügig mit der Bitrate und liegt bei ca. 95 %.
aacPlus arbeitet mit konstanter Bitrate (CBR), kann aber auch mit variabler Bitrate
(VBR) arbeiten. Es umfasst ein digitales Rechtemanagement (DRM) und unterstützt
Mehrkanaligkeit mit bis zu 48 Kanälen.
AC-3 AC-3 ist eine Audiokompression, die auf einem Modell der Psychoakustik basiert. Das
audio code number 3 Verfahren arbeitet mit Filtern, bei der das transformierte Audiosignal in mehrere
Frequenzbänder aufteilt wird. Die überlappenden Blöcke aus 512 Audio-Abtastungen
werden ähnlich einer MDCT-Transformation behandelt und in 256 spektrale
Koeffizienten transformiert.
AC-3 wird in Dolby-Digital für einen 6-kanaligen Dolby-Rundum-Sound für Filme und
audiovisuelle Präsentationen, für Compact Discs (CD), DVDs und HDTV eingesetzt.
Dieses 6-kanalige System arbeitet mit sechs getrennten Musikkanälen, um eine
optimale realistische Klangwiedergabe zu erreichen. Die fünf Hauptkanäle haben eine
Bandbreite von 3 Hz bis 20 kHz, der sechste Kanal, der der Betonung besonderer
Effekte dient, hat eine Bandbreite von 3 Hz bis 120 Hz.
AC-3 unterstützt den Austausch von Audiodaten und arbeitet Abtastraten von 32 kHz,
44,1 kHz und 48 kHz.
http://www.dolby.com/tech/multipc.html
AC97 Der AC97 ist eine Intel-Spezifikation für einen Audio-Codec aus dem Jahre 1996. Die
audio codec 97 AC97-Spezifikationen definieren einen Audio-Codec (AC), einen Modem-Codec (MC)
oder einen Audio-Modem-Codec (AMC) mit seinen an ihn angeschlossenen
Komponenten.
Der Funktionsumfang des AC97 schließt die Digitalisierung der analogen Audiosignale
ebenso mit ein, wie deren Pegelanpassung. Der Audio-Codec 97 kann auf dem
Motherboard untergebracht sein oder auf einem Riser-Board, das in
Erweiterungssteckplätzen wie dem Communication and Networking Riser (CNR), dem
Advanced Communication Riser (ACR) oder dem Audio Modem Riser (AMR) betrieben
Exit
Index
6
AUDIOKOMPRESSION
werden kann.
Der AC97 hat diverse Audio-Ein- und Ausgänge, so einen Stereo-Line- und einen
Mikrofon-Eingang, zwei Stereo-Ausgänge für
Stereo- und Surround-Klang und eine
optionale S/PDIF-Schnittstelle. Die
Auflösungen liegen bei 16 Bit, 18 Bit und 20
Spezifikationen des
Audio-Codec AC97
Bit, wobei die Dynamik bei 20-Bit-Auflösung
120 dB beträgt.
Die Qualität des Audio-Codecs AC97 wird als
moderat bezeichnet und eignet sich nicht für hohe Klangqualität.
ADDPCM ADDPCM ist eine Delta-Pulscodemodulation für die Audiokompression. Bei diesem
adaptive differential delta Modulationsverfahren werden die Unterschiede zwischen vorhergehenden
pulse code modulation Abtastungen mit der aktuellen Abtastung gespeichert.
Das Verfahren soll die Datenmenge bei der Speicherung von Audio reduzieren.
ADPCM Das ADPCM-Verfahren ist eine Pulscodemodulation mit einem
adaptive delta pulse code Vorhersagemechanismus. Diese Prädiktion versucht die mögliche Signalform zu
modulation ermitteln und bildet daraus die Differenz mit dem tatsächlichen Signal. Da die
Differenz zwischen diesen beiden Signalen geringer ist als das tatsächliche Signal,
kann diese Differenz mit einer kleineren Bitzahl codiert werden. Das vorhergesagte
Signal wird kontinuierlich an das tatsächlich vorhandene Signal angepasst. Die
Anpassung des vorhergesagten Signals an das tatsächliche Signal erfolgt beim
Eingangssignal, wodurch eine bessere Vorhersage als bei DPCM möglich ist.
Das verlustbehaftete Kompression ADPCM reduziert das Datenaufkommen von
Sprache und Musik von 64 kbit/s um mindestens 50% auf 32 kbit/s.
Das ADPCM-Verfahren wurde 1986 als ITU-Standard G.721 spezifiziert und benutzt
eine Extrapolation zwischen zwei benachbarten Abtastwerten mit einer gewissen
Unsicherheit in der Vorhersage des folgenden Abtastwertes. Dem Verfahren nach wird
Exit
Index
7
AUDIOKOMPRESSION
bei der ADPCM-Codierung
zunächst das Eingangssignal
linear quantisiert. Das
resultierende Signal wird
gewichtet und dient als Offset für
die Vorhersage des
Signalverlaufs. Codiert wird die
Differenz zwischen dem
tatsächlichen Abtastwert und
einem extrapolierten Signalpegel,
die auf den momentanen
Prinzip der adaptiven
Unterschied in beiden Pegeln
Deltamodulation, ADPCM
zurückzuführen ist. Der
extrapolierte Pegel wird durch die beiden vorherigen Abtastwerte ermittelt. Der
implementierte Algorithmus ist abhängig von den Eingangspegeln, der Auflösung und
den Frequenzanforderungen. Ein in G.721 eingesetzter Algorithmus ist beispielsweise
der IMA-Algorithmus von der Interactive Multimedia Association.
Details zu ADPCM legte die ITU-T in den Empfehlungen G.726 und G.727 für SprachCodecs fest, in der Datenraten von 16, 24, 32 und 40 kbit/s vorgesehen sind.
Nach dem neuen ITU-Standard G.722 für breitbandige Sprachübertragung, bei dem
ein Frequenzbereich von 50 Hz bis 7 kHz zugrunde gelegt wird - dieser würde bei
normaler PCM-Technik 128 kbit/s zur Folge haben -, wird eine Kompression auf 64
kbit/s erzielt. Dieser Standard wird beispielsweise bei ISDN-Bildtelefonen angewendet.
Es gibt weitere ADPCM-Varianten, die vom Verfahren her gleich sind, allerdings nur
mit 3 oder sogar nur mit 2 Bit zur Digitalisierung arbeiten.
AIFC Das Dateiformat AIFC oder AIFFC erlaubt im Gegensatz zu AIFF die Speicherung von
audio interchange file unkomprimierten und komprimierten Audio-Dateien. Das von Apple entwickelte
format compressed Dateiformat kann Dateien mit Kompressionsraten von bis zu 6:1 speichern. Das AIFCDateiformat hat Tags im Header in dem diverse Informationen enthalten sein können.
Exit
Index
8
AUDIOKOMPRESSION
A-Law-Verfahren Das A-Law-Verfahren ist ein Verfahren für die Dynamikkompression von Audiosignalen,
A-law method das in der ITU-Empfehlung G.711 beschrieben ist. Die Dynamikkompression dient der
Verbesserung des Störspannungsabstands (SNR) bei gleichen
Übertragungsbedingungen. Das Verfahren verwendet eine logarithmische
Dynamikkennlinie, die besonders bei niedrigen Eingangspegeln eine hohe Dynamik
aufweist und bei hohen Eingangspegeln eine sehr geringe. Dadurch wird das
Rauschen bei geringen Pegeln, also bei leisen Tönen reduziert.
Das A-Law-Verfahren ist ein ITU-Standard, der bei der Konvertierung zwischen
analogen und digitalen Signalen in PCM-Systemen eingesetzt wird.
Das A-Law-Verfahren wird hauptsächlich in Europa verwendet, in den USA dagegen
ein geringfügig in den Quantisierungsstufen abweichendes Verfahren, das µ-LawVerfahren. Dieses Verfahren zeichnet sich durch eine Dynamikkennlinie aus, die im
Niedrigpegelbereich noch steiler ist als die des A-Law-Verfahrens.
Apt-X Apt-X ist eine Audiokompression, die 1990 entwickelt wurde und sich durch geringste
Verzögerungszeiten und eine hohe Tonqualität auszeichnet. Die theoretische
Verzögerungszeit liegt bei 3 ms.
Apt-X, in dem ADPCM zum Einsatz kommt, gibt es in auch in einem erweiterten
Format als Enhanced apt-X. Dieses Verfahren bringt eine weitere Verbesserung in der
Verzögerungszeit und den Dynamikumfang, da in diesem Format Wortbreiten von 24
Bit verarbeitet werden.
Zu den Schlüsselfunktionen von atp-X gehören die Datenreduktion von 4:1:4, der
Mono/Stereo-Coder, die hohe Bandbreite von bis zu 22,5 kHz und flexible Abtastraten
bis zu 48 kHz.
ASFS Das ASFS-Audiodateiformat ist ein spezielles Audioformat für die sichere Verteilung
audiosoft file structure über digitale Netzwerke. Die Audiosoft File Structure (ASFS) nimmt MP3-Daten in
einen Container mit Kopierschutz und ist mit einer Seriennummer gekennzeichnet. Die
Audiodatei kann auf Festplatten kopiert und versandt werden. Wenn allerdings eine
Kopie abgespielt werden soll, vergleicht der ASFS-Mechanismus die Seriennummer
Exit
Index
9
AUDIOKOMPRESSION
mit der die für den Computer authorisiert ist und verhindert dann ein Abspielen, wenn
diese nicht übereinstimmt.
ASFS unterstützt ein mehrstufiges Sicherheitsmanagement, wodurch
Musikproduzenten eine bessere Kontrolle über die Copyrights haben. Die vergebenen
Copyrights können generell auch auf einzelne Personen lauten, die die Musikstücke
auf ihrem Computer abspielen. Außerdem gibt es freie Lizenzen für einen begrenzten
Zeitraum und preiswertere Lizenzen um damit man die Musikstücke auf seinen
eigenen Laptop laden kann.
ASPEC ASPEC ist eine Audiokompression für Signale mit Bitraten von bis zu 64 kbit/s.
ad. spectral entropy cod. Beim ASPEC-Verfahren werden breitbandige Signale in Teilbänder unterteilt. Im
Gegensatz zu Musicam werden diese durch eine modifizierte Cosinus-Transformation
(MDCT) gebildet. Die Transformation in den Frequenzbereich wird bei ASPEC mit
maximal 512 Koeffizienten vorgenommen. Man arbeitet daher mit 512 Teilbändern und
hat dadurch eine genaue Frequenzaufteilung.
Bei der ASPEC-Kompression werden aus dem Eingangssignal Blöcke
herausgeschnitten, die dann transformiert werden. Die Länge eines jeden Blocks wird
signalabhängig variiert, wobei die Größe von einer Impulserkennung gesteuert wird.
Nachdem die Blöcke mit der MDCT-Transformation in den Frequenzbereich
transformiert wurden, werden die Mithörschwellen errechnet.
Die Quantisierung von ASPEC wird von psychoakustischen Bewertungen gesteuert.
Für die Codierung benutzt ASPEC die Huffman-Codierung mit variablem Längencode.
Dabei werden häufig benutzten Elementen ein kürzere, wenig häufig benutzten
Elementen längere Codeworte zugeordnet.
ATRAC ATRAC ist ein Audio-Codec, der von Sony für die MiniDisc entwickelt wurde. Dem 1991
adaptive transform vorgestellten Verfahren folgten 2000 ATRAC3 und ATRAC3plus.
acoustic coding Die Audiokompression basiert i. A. auf der Psychoakustik. Auch bei ATRAC werden
irrelevante Daten von nicht wahrnehmbaren Tönen ausgefiltert. Des Weiteren wird die
menschliche Hörcharakteristik in das Verfahren implementiert. Dies vor allem um das
Exit
Index
10
AUDIOKOMPRESSION
Quantisierungsrauschen,
das durch den
Quantisierungsfehler
hervorgerufen wird, zu
reduzieren. ATRAC
nutzt dabei den
psychoakustischen
Effekt, dass der Mensch
bestimmte
Frequenzbereiche
Blockschaltbild der
ATRAC-Kompression
besser, andere schlechter wahrnehmen kann.
Die höchste Hörempfindlichkeit liegt bei Frequenzen um 4 kHz, höhere, aber auch
tiefere Töne werden bei gleichem Schalldruck als leiser empfunden.
Des Weiteren kann ein lauter Ton einen leiseren Ton überdecken, man spricht dann
von Maskierung. Dieser Maskierungs-Effekt ist umso ausgeprägter, je unterschiedlich
der Schalldruck der beiden Töne ist und je näher sie frequenzmäßig bei einander
liegen. ATRAC macht sich diese Effekte zunutze, indem es bei der Kompression die
Tonbereiche bewertet und daraus die Quantisierung ableitet. So werden
Frequenzbereiche, in denen das Ohr sehr empfindlich ist, höher quantisiert als
solche, bei denen das Hörvermögen unempfindlicher ist. Durch diese Maßnahme wird
das Quantisierungsrauschen gering gehalten und vom Tongemisch überlagert.
ATRAC, das ständig weiter entwickelt wurde, passt die Lautstärke und die Frequenz
des Tongemischs ständig an die Hörcharakteristik an.
Das Verfahren eignet sich für qualitativ hochwertiges Audio, es arbeitet mit einer
Abtastrate von 44,1 kHz, hat eine Quantisierung von bis zu 24 Bit und eine
Datenkompresssion von 5:1. Der resultierende Datenstrom liegt bei 292 kbit/s.
ATRAC arbeitet mit drei Frequenzbändern von 0 bis 5,5 kHz, von 5,5 kHz bis 11 kHz
und von 11 kHz bis 22 kHz, die jeweils mit MDCT in 128 Bänder untergliedert sind. Es
gibt einen Blockmodus von 11,6 ms und einen Modus bestehend aus drei kurzen
Blöcken von 2,9 ms, 2,9 ms und 1,45 ms.
Exit
Index
11
AUDIOKOMPRESSION
ATRAC 3 ATRAC3 ist eine von ATRAC abweichende Audiokompression. Sie arbeitet in zwei
Modi, dem LP2- und dem LP4-Modus mit Kompressionsraten von 10:1 und 20:1.
Im Gegensatz zu dem Standardverfahren von ATRAC werden die Signale bei ATRAC3
über drei
Quadrature Mirror Filter (QMF) in vier Frequenzanteile gefiltert: von 0 bis 2,75 kHz, von
2,75 kHz bis 5,5 kHz, von 5,5 kHz bis 11 kHz und von 11 kHz bis 22 kHz. Die Qualität
entspricht im Wesentlichen der von MP3; die Klangqualität von Ogg Vorbis, AAC+ und
der AAC-Kompression wird allerdings nicht erreicht. Die obere Frequenzgrenze von
ATRAC3 im LP2-Modus liegt bei 17,5 kHz. Dieser Modus arbeitet mit einer Datenrate
von 132 kbit/s, die sich aus der Halbierung der Datenrate von 292 kbit/s für Stereo
ergibt, abzüglich 14 kbit/s, die für die Unterdrückung von störenden Signalen bei der
Wiedergabe auf älteren Musik-Playern gebraucht werden.
Um die Aufzeichnungslänge von Musikstücken zu erhöhen, wird im LP4-Modus die
Datenrate auf 66 kbit/s halbiert, was eine entsprechend geringere Klangqualität zur
Folge hat. LP-4 hat eine obere Frequenz von 13,5 kHz und eignet sich bestens für
Sprachaufnahmen.
ATRAC3plus ATRAC3plus ist eine weitere Variante von ATRAC. Das mit Subband-Codierung und
MDCT-Transformation arbeitende Verfahren benutzt gegenüber ATRAC3 viermal
größere Transformationdeinheiten. Die Signale werden vor der MDCT-Transformation
in 16 Subbänder unterteilt.
Audio-Codecs nach ATRAC3plus arbeiten mit Datenraten von 48 kbit/s, 64 kbit/s und
256 kbit/s und werden in Musik-Playern, Memory-Stick-Playern und ATRAC-CDPlayern eingesetzt.
Von der Klangqualität her ist ATRAC3plus Ogg Vorbis, aacPlus und der AACKompression unterlegen. Allerdings soll der Klang bei einer Bitrate von 64 kbit/s
vergleichbar sein mit dem von MP3 bei 128 kbit/s.
Audio Audio, abgeleitet aus dem lateinischen audire (hören), bezeichnet den menschlichen
audio Hörbereich, der als Frequenzbereich spezifiziert zwischen 20 Hz und 20 kHz ist.
Exit
Index
12
AUDIOKOMPRESSION
spatial audio coding
Tonfrequenzbereich
Dieser Frequenzbereich ist abhängig von der menschlichen Hörcharakteristik und im
oberen Frequenzbereich stark dem menschlichen Alterungsprozess unterlegen. Der
hörbare obere Frequenzbereich kann im Alter bis auf 10 kHz und darunter sinken.
Zu den Audiosignalen gehören die Sprache, Musik und Geräusche.
Audio-Codec Audio-Codecs sind software- oder hardwaremäßige Funktionseinheiten in denen das
AC, audio codec entsprechende Audiokompressionsverfahren umgesetzt wird. Sie dienen sendeseitig
der Codierung mit der Kompression, empfangsseitig der Decodierung und
Dekompression. In den Audio-Codecs wird der angewandte Kompressionsalgorithmus
umgesetzt.
Audio-Codecs lassen sich hinsichtlich ihrer Leistung qualifizieren, die sich im
Klangbild, der oberen Frequenzgrenze, der Bitrate, der Kompressionsrate und der
resultierenden Dateigröße ausdrückt. Im Sinne der Frequenzökonomie und um eine
möglichst geringe Speicherkapazität zu belegen, werden Audio-Codecs mit möglichst
niedrigen Bitraten entwickelt. Allerdings verschlechtert sich das Klangbild der meisten
Audio-Codecs bei niedrigen Bitraten. Diesen Nachteil behebt das in aacPlus und
mp3Pro verwendete SBR-Verfahren. Neben dieser Technik wird in vielen Audio-Codecs
auch die Technik der Maskierung benutzt.
Je nach Vermarktungskonzept können Audio-Codes lizenzfrei sein oder nur gegen
Lizenzgebühren genutzt werden. Zu den lizenzfreien Audio-Codecs gehören Ogg
Vorbis, LAME und Windows Media Audio (WMA), zu den lizenzierungspflichtigen
gehören u.a. MP3, MP3Pro, aacPlus und die AAC-Kompression.
Exit
Index
13
AUDIOKOMPRESSION
Eingesetzt werden Audio-Codecs in Musik-Playern und Multimedia-Playern, in der
Sprachkommunikation, Internet-Telefonie, beim Herunterladen von Musiktiteln, beim
Streaming, im Digital-Rundfunk und Digital-TV.
Da die Entwicklung von Audio-Codecs viele Patentente hervorbringt und
firmenspezifisches Know-How umfasst, bleiben viele Details der Codecs
unveröffentlicht.
Audiokompression
audio compression
Die Audiokompression basiert auf der
Psychoakustik und verwendet
Kompressionsverfahren, die sich am
menschlichen Hörverhalten orientieren.
Dazu wird die menschliche
Hörcharakteristik mit der Hörschwelle
berücksichtigt, ebenso wie die Trägheit
Verlustfreie und
des Ohres, die sich in der Technik der
verlustbehaftete
Maskierung ausdrückt. Man spricht bei
Audiokompressionen
dieser Kompression auch von der
Reduzierung von Irrelevanzen, das bedeutet, dass Töne im Audiosignal, die das
Gehör nicht wahrnehmen kann, auch nicht bearbeitet werden. Diese Technik ist in den
meisten Audiokompressions-Verfahren implementiert.
Bei der Audiokompression kann es sich um eine verlustbehaftete Kompression
handeln oder um eine verlustfreie Kompression. Generell werden bei der
verlustbehafteten Audiokompression die Signale mit der Fourier-Transformation, DCTTransformation oder FFT-Transformation in die Frequenzebene transformiert und
mittels Subband-Codierung in einzelne Frequenzbänder aufgeteilt. Bei dieser Technik
kann jedes Frequenzband für sich eine variable Quantisierung und Sampletiefe
haben. So können Frequenzbänder mit hoher Audiodichte und Dynamik mit hoher
Auflösung, andere dagegen mit geringerer Auflösung digitalisiert werden. Bekannte
verlustbehaftete Kompressionsverfahren sind MPEG, MP3, AC-3, ATRAC, TwinVQ,
Ogg Vorbis, aacPlus, mp3pro und die AAC-Kompression.
Exit
Index
14
AUDIOKOMPRESSION
Die verlustfreie Kompression zielt auf die Wiedergabe in Originalqualität und auf die
Reduzierung der digitalen Audiodaten, um damit Speicherplatz einzusparen. Die
Verfahren arbeiten teilweise mit Vorhersage-Techniken, wie die LPC-Codierung und die
LPAC-Kompression, andere sind vergleichbar der ZIP-Technik von Daten. Zu diesen
Verfahren gehören OptimFrog und Monkeys Audio.
Auch die Vorhersage-Technik, das Predictive Coding, wie die LPC-Codierung oder das
Long Term Prediction (LTP), wird zur Datenreduktion von Audiosignalen eingesetzt.
Dabei wird nur die Differenz eines Samples zum vorhergehenden gespeichert. Ein
typisches Verfahren ist die adaptive, differenzielle Pulscodemodulation (ADPCM), bei
der die differenziellen Audiosignale adaptiv quantisiert werden.
Neben dem von der ITU standardisierten ADPCM gibt es weitere von der ITU
standardisierte Verfahren für die Dynamikkompression wie das A-Law-Verfahren und
das µ-Law-Verfahren.
Audiovision Audiovision ist eine Wortschöpfung aus den lateinischen Wörtern “audire”, hören, und
AV, audiovision “videre”, sehen. Es der Sammelbegriff für die kombinierte Darbietung von Ton- und
Bildinformationen. Die Entwicklung audiovisueller Medien beginnt beim Tonfilm, geht
über Fernsehen und Video bis zu den Projektionen auf multimedialen Handys.
Audiovisionstechniken werden in der Unterhaltungsindustrie, im Heimbereich, in der
Präsentation, den Auskunftsystemen, im Unterrichtwesen usw. eingesetzt, also überall
dort, wo Informationen gleichzeitig mittels Audio und Bild- oder Bewegtbilddarstellung
übermittelt werden.
BCC Das Binaural Cue Coding (BCC) ist eine Kompressionstechnik, bei der stereophones
binaural cue coding Audio in mono Audio umgesetzt und mit Zusatzinformationen versehen wird. Generell
wird bei allen Kompressionstechniken versucht die Informationsdichte ohne
wahrnehmbare Qualitätsverluste zu erhöhen. Das BCC-Verfahren setzt darauf, dass
ein stereophoner Effekt auf Laufzeit- und Pegelunterschieden zwischen den beiden
Stereokanälen basiert. Man kann also aus einem Monosignal ein Stereosignal
erzeugen, wenn man bestimmte Frequenzanteile anhebt oder absenkt und diese in
Exit
Index
15
AUDIOKOMPRESSION
ihrer Laufzeit verändert. Alles weitere wird vom menschlichen Gehirn bearbeitet.
Um die Datenrate so gering als möglich zu halten, wird bei der BCC-Codierung aus
einem Stereosignal ein Monosignal über einen Downmix generiert. Zusätzlich werden
spezielle Informationen zu den Kanaldifferenzen erzeugt. Diese
Seitenbandinformationen haben einen geringen Datenumfang, so dass beide
Informationen zusammen, das errechnete Monosignal und die Seitenbandinformation,
einen wesentlich geringeren Datenumfang haben, als zwei Stereokanäle.
Aus dem errechneten Monosignal und der Seitenbandinformation wird das
Stereosignal rekonstruiert. Das BCC-Verfahren kann auch für drei Kanäle angewendet
werden.
BSAC Bit Sliced Arithmetic Coding (BSAC) ist eine von Samsung entwickelte skalierbare
bit sliced arithmetic Audiocodierung, die Bestandteil von MPEG-4 ist. Im Gegensatz zur AACcoding Kompression, mit dem BSAC im wesentlichen identisch ist, benutzt BSAC eine
rauschlose Codierung. Ein mit AAC-Kompression erzeugter Bitstrom, kann mit einen
rauschlosen BSAC-Bitstrom transcodiert werden.
Das Verfahren kann Bitströme mit präzisen Bitraten zwischen 16 kbit/s und 64 kbit/s
pro Kanal erzeugen, hat aber zwischen 40 kbit/s und 64 kbit/s seine besten
Eigenschaften. Die Skalierbarkeit bezieht sich auf die Datenrate, die in 1-kbit/sSchritten verfeinert werden kann. Bei niedrigen Bitraten ist die Effizienz von BSAC
relativ gering.
Eingesetzt wird BSAC im Audio-Streaming, Digital Multimedia Broadcast (DMB), Audio
on Demand und im Internet-Streaming.
CELP CELP ist ein hybrides Verfahren der Sprachkompression, das die Vorteile der
code excited linear Signalformcodierung, wie sie in PCM eingesetzt wird, mit denen der parametrischen
prediction Codierung, wie bei der LPC-Codierung, vereint. CELP zeichnet sich durch ein gute
Sprachqualität aus, vergleichbar mit PCM, hat allerdings eine geringere Datenrate im
Vergleich zu PCM oder ADPCM. Ein hybrider Vocoder basierend auf CELP hat
bedingt durch die doppelte Codierung eine wesentlich höhere Komplexität.
Exit
Index
16
AUDIOKOMPRESSION
Die Datenraten von CELP sind in 200-bit/sStufen skalierbar zwischen 3,85 kbit/s und
23,8 kbit/s, bei Abtastraten zwischen 8 kHz
und 16 kHz. Mit diesen Datenraten kann
Musik nur in verminderter Qualität
übertragen werden.
Neben dem normalen CELP-Verfahren gibt
es von der ITU-T spezifizierte Varianten mit
geringeren Verzögerungszeiten und
Übertragungsraten, das so genannte »Low
Delay CELP (LD-CELP)«, das in der ITU-TITU-Empfehlung G.114 für
Empfehlung G.728 spezifiziert ist und das
Verzögerungszeiten bei
»Conjugate Structure ACELP (CS-ACELP)«
Sprachübertragungen
aus G.729.
G.728 erreicht bei einer Übertragungsrate von 16 kbit/s einen MOS-Wert für die
Sprachqualität von 4,0 und zeichnet sich durch eine Signalverzögerungszeit aus, die
durch das Codieren und Decodieren entsteht, die bei 0,625 ms liegt. Bei dem
Standard G.729 wird vor dem Codieren ein Vergleich des Sprachsignals mit dem
Modell durchgeführt. Dieses aufwändige Verfahren benötigt für die Übertragung nur
die halbe Übertragungsrate gegenüber LD-CELP.
Für das in MPEG-4 eingesetzte CELP gibt es zwei Abtastfrequenzen von 8 kHz und
16 kHz. Der Betrieb mit der niedrigeren Abtastrate wird als NB-CELP (Narrowband)
bezeichnet, das mit 16 kHz als WB-CELP (Wideband).
CODEC Das Kunstwort Codec steht für Compression und Decompression.
compression/ Bei einem Codec handelt es sich um eine software- oder hardwaremäßige
decompression Funktionseinheit, die Audio- oder Videosignale nach vorgegebenen Verfahren in
Echtzeit verändert. Die Verfahren sind von der ITU standardisiert und u.a. in den ITUEmpfehlungen H.261, H.263, H.320, H.321 und H.323 beschrieben. Codecs werden in
der Multimediatechnik, der Audio- und Video-Kommunikation eingesetzt. So bei der
Exit
Index
17
AUDIOKOMPRESSION
Bildtelefonie, bei Videokonferenzen, bei der Audiowiedergabe in oder bei der InternetTelefonie.
Bei den Video-Codecs unterscheidet man zwischen den Intra-Frame-Codecs und den
Inter-Frame-Codecs. Erstere versuchen so viele Informationen wie möglich aus einem
einzelnen Bild zu tilgen; die Codecs, die mit dem Inter-Frame-Verfahren arbeiten,
vergleichen zwei aufeinander folgende Vollbilder und ermitteln die Differenz zwischen
beiden. Dieses Verfahren wird vorwiegend bei Video eingesetzt.
Da Codecs mit unterschiedlichen Kompressionsalgorithmen arbeiten, kann es zu
starken Qualitätsunterschieden kommen und zwar in Bezug auf die Bild- oder
Tonqualität, die sich in der Kontinuität in der Darstellung und Übertragung ausdrückt.
Die wichtigsten Hardware-Codec für Video sind Motion-JPEG, Px64 nach H.261 und
H.320, und MPEG in den verschiedenen Varianten. An Software-Codecs sind zu
nennen Cinepak, Indeo, DivX, Quicktime, Video for Windows und Windows Media
Video (WMV).
Wichtige Audio-Codecs sind aacPlus, mp3pro, Ogg Vorbis, RealAudio, Windows
Media Audio, QDesign u.a. Da Codecs im Allgemeinen durch viele Patente und
firmeninternes Wissen belegt sind, werden häufig nur wenige Details über deren
Algorithmen und Verfahren publiziert.
Die Abkürzung Codec wird häufig auch im Zusammenhang mit einem Codierer/
Decodierer verwendet.
DFT Die diskrete Fourier-Transformation ist die Zerlegung einer zeitbezogenen
discrete Fourier Schwingung in ihre frequenzmäßigen Spektralanteile. Dieses Verfahren wird in der
transformation Audiotechnik zur Bestimmung und Beeinflussung des Frequenzspektrums und zur
Optimierung des Klangbildes verwendet. Über das Frequenzspektrum kann das
Ursprungssignal wieder regeneriert werden.
In der diskreten Fourier-Transformation wurden die spezifischen Belange der
Datenverarbeitung optimiert. Die Umkehrung des DFT-Verfahrens ist die inverse
diskrete Fourier-Transformation (IDFT).
Da das DFT-Verfahren viel Redundanz enthält, wird in der Praxis in der Regel die FFTExit
Index
18
AUDIOKOMPRESSION
Transformation angewandt, deren Ergebnisse identisch sind mit denen der DFTTransformation.
Digital-Audio Digital-Audio ist die Digitalisierung des analogen Audiosignals. Nach dem
digital audio Abtasttheorem von Nyquist muss die Abtastfrequenz mindestens doppelt so groß sein
wie die höchste Frequenz des abzutastenden Signals. Geht man von einer höchsten
Audiofrequenz von 20 kHz aus, dann muss das Abtastsignal für eine gute
Audioqualität mindestens über 40 kHz sein. In den verschiedenen Speichermedien
werden unterschiedliche Abtastraten verwendet, was auch mit der Speicherkapazität
zusammenhängt. So werden Audiosignale auf einer CD-A mit einer Abtastrate von
44,1 kHz abgetastet, bei DVDs sowohl mit 44,1 kHz als auch mit 96 kHz. Bei MPEG-1Audio mit PCM werden Abtastraten von 32 kHz, 44,1 kHz und 48 kHz, bei MPEG-2
Abtastraten von 16 kHz, 24 kHz, 32 kHz, 44,1 kHz, 48 kHz und 96 kHz benutzt.
Neben der Abtastrate spielt die Quantisierung für die Audioqualität eine wesentliche
Rolle. Wird beispielsweise ein Audiosignal mit 4 Bit pro Abtastung quantisiert, dann
ergeben sich daraus 16 Pegel und eine maximale Pegelabweichung von 6,25 %. Bei 8
Bit beträgt die maximale Pegelabweichung noch 0,39 % und bei 16 Bit nur noch
0,0015 %.
Gleichzeitig steigen die Dateigröße und der Speicherbedarf proportional mit der
Abtastrate und der Sampletiefe. So benötigt beispielsweise eine Minute
unkomprimiertes Digitalaudio in Stereo auf einer CD-DA, das mit einer Abtastrate von
44,1 kHz und 16 Bit auf zwei Kanälen digitalisiert wurde, einen Speicherbedarf von
10,584 MB. Auf einer DVD hingegen wäre der Speicherbedarf bei einer Abtastrate von
96 kHz, einer Quantisierung von 24 Bit auf zwei Kanälen 34,56 MB pro Minute.
Bei verringerter Bandbreite und niedrigerer Abtastrate kommt man beispielsweise bei
der CD-ROM/XA in der Klasse C mit einer Abtastrate von 18,8 kHz und 16 Bit für
Sprachqualität in Mono auf ein Volumen von 2,27 MB pro Minute.
Dolby-Digital Unter Dolby versteht man allgemein das Kompressionsverfahren Dolby-Digital. Mit
DD, dolby digital diesem Verfahren, das früher AC-3 hieß, ist eine sechskanalige Tonwiedergabe
Exit
Index
19
AUDIOKOMPRESSION
möglich, genannt DD-5.1, wobei bis zu fünf Vollkanäle und ein LFE-Kanal für TieftonEffekte einen Surround-Klang erzeugen. Die Vollbereichskanäle sind für die vorderen
Lautsprecher - links, mittig und rechts - und für die beiden Surround-Lautsprecher
hinten links und rechts, die für realistische Surroundeffekte sorgen. Der
Frequenzbereich dieser Lautsprecherboxen liegt zwischen 20 Hz bis 20 kHz. Der
Tiefbasskanal des Subwoofers hat eine reduzierte Bandbreite bei tiefen Frequenzen.
Dolby Digital (DD) wird in DVD-Audio eingesetzt und gehört neben MPEG und PCM
zu den wichtigsten Audiodateiformaten. Es arbeitet mit Codierraten von 384 kbit/s bis
448 kbit/s.
Die Dolby Laboratories haben neben Dolby Digital viele Standards in Ton- und
Soundsystemen gesetzt. So beispielsweise für die Rauschunterdrückung.
Dolby-Digital kennt mehrere unterschiedliche Modi, die man an der Versionsangabe
erkennt. Dabei bedeutet die Angabe hinter dem Punkt ob ein eigener Kanal für den
Subwoofer existiert.
Dolby-Digital 1.0: einkanalige Mono-Wiedergabe über den mittig angeordneten
Lautsprecher.
Dolby-Digital 2.0: Zweikanalige Stereo-Wiedergabe über den rechten und linken
Lautsprecher.
Dolby-Digital 4.0: Mehrkanalige kombinierte Stereo/Mono-Wiedergabe für DolbySurround über die voderen rechten und linken Lautsprecher in Stereo, aus dem
mittleren und den hinteren Lautsprechern in Mono.
Dolby-Digital 5.0: Mehrkanalige Stereo-Wiedergabe mit allen fünf Lautsprechern außer
dem Subwoofer.
Dolby-Digital 5.1 (DD-5.1): Mehrkanalige Stereo-Wiedergabe mit Vollbereichskanälen
und einem Basskanal, der als Low Frequency Enhancement (LFE) in MPEG-2
übertragen wird. Der Frequenzbereich für den Basskanal liegt zwischen 3 Hz und 120
Hz. DD-5.1 hat folgende Lautsprecheranordnung: Vorne links, vorne Mitte, vorne
rechts, hinten links, hinten rechts und Subwoofer.
Dolby Digital Plus (DD+), eine verlustbehaftete Audiokompression, die in HD-DVD und
Blu-Ray-Disc obligatorisch ist.
Exit
Index
20
AUDIOKOMPRESSION
Dolby-Digital EX Hierbei handelt es sich um ein 6.1-Kanal-System, bei dem das 5.1Kanal-System um einen rückwärtigen Center-Kanal (SRC) erweitert wird. Dieser
Center-Kanal umfasst den gleichen Frequenzbereich wie die vorderen Kanäle. Sein
Signal ist als Matrix in den Signalen der beiden Surroundkanäle untergebracht. 6.1
hat ein noch realistischeres Klangbild gegenüber 5.1. Dolby Digital EX ist die
Heimversion von Dolby-Digital-Surround EX.
Neben diesen Versionen gibt es als Mehrkanaltechnik noch Dolby-Surround.
Die Extension für Dolby-Digital-Dateien ist *.dts.
DTS Digital Theatre Sound (DTS) ist ein 6-kanaliges Kompressionsverfahren für Surrounddigital theatre sound Klang, vergleichbar Dolby-Digital. Das Verfahren ist verlustbehaftet und bietet bei
einem niedrigen Kompressionsverhältnis eine bessere Klangqualität als Dolby-Digital.
DTS arbeitet wie Dolby mit Surround-Kanälen.
Bei diesen Kanälen handelt es sich um
berechnete, codierte Tonkanäle, die das
Richtungsempfinden unterstützen.
Das Audiodateiformat gibt es in 3 Varianten:
DTS 5.1: Surround-Klang mit sechs
Audiokanälen für vorne rechts, links und
mittig, für hinten rechts und links sowie einen
LFE-Kanal für einen Subwoofer. Dieser
überträgt einen reduzierten Frequenzumfang
im Tieffrequenzbereich.
DTS 6.1: Bei DTS 6.1 handelt es sich um den
erweiterten Tonstandard DTS-ES für
Surround-Klang mit sieben Tonkanälen. Das
Verfahren entspricht im Wesentlichen dem von
Spezifikationen von DTS für
DTS 5.1 mit dem Unterschied, dass das Signal
DVD, DVD-Audio,
für den hinteren Center-Lautsprecher über
HD-DVD und Blu-Ray
eine Matrix aus den beiden hinteren Signalen
Exit
Index
21
AUDIOKOMPRESSION
(links und rechts) gewonnen wird. Neben den sechs Lautsprecher hat DTS 6.1 noch
einen Tieffrequenzkanal für den Subwoofer.
DTS-ES Discrete (6.1): Surround-Klang mit sieben Tonkanälen für vorne rechts, links
und mittig, hinten rechts, links und mittig und einem Tieffrequenzkanal für einen
Subwoofer. Im Unterschied zu DTS 6.1 ist der hintere mittlere Kanal ist ein
Volltonkanal. DTS-ES ist die DHT-Version für THX.
DTS++, dieses Format, das für die Blu-Ray-Disc und die HD-DVD obligatorisch ist,
wurde umbenannt in DTS-HD (High Definition).
EAC Der Enhanced Audio Codec (EAC) ist in unmittelbarem Zusammenhang mit der
enhanced audio codec Entwicklung der EVD-Disk zu sehen. Der von Beijing E-World entwickelte AudioCodec, dessen Kompression Redundanzen und Irrelevanzen der Audiosignale
berücksichtigt, unterstützt Mono, Stereo und Surround 5.1.
FFT-Transformation Die Fast Fourier Transformation (FFT) ist ein mathematisches Verfahren der Fourierfast fourier transformation, Transformation, wie es in Computern implementiert ist. Bei diesem Verfahren werden
FFT zeitbezogene Signale in den Frequenzbereich transformiert. Die Fast Fourier
Transformation ist eine schnellere Variante der diskreten Fourier-Transformation (DFT)
und wird in der Multimediatechnik dazu verwendet, um Audiosignale in einzelne
Sinus-Schwingungen und diese wiederum in die entsprechenden Spektralfrequenzen
zu zerlegen.
In der Frequenzebene ist eine Analyse des Klangbildes möglich.
FLAC FLAC ist eine verlustfreie Kompresion von Audiosignalen, vergleichbar OptimFrog und
free lossless Monkeys Audio, dessen Dateien auf den verschiedensten Musik-Playern abgespielt
audio codec werden können.
Das FLAC-Projekt besteht aus dem Stream-Format, der Library für die Coder und
Decoder, einer Befehlszeile für die Codierung und Decodierung von FLAC-Dateien,
einem Metafile-Editor und den Input-Plugins für verschiedene Musik-Player.
Das frei verfügbare FLAC, dessen Spezifikationen und Formate veröffentlicht werden,
Exit
Index
22
AUDIOKOMPRESSION
wird von den meisten Betriebssystemen unterstützt, so von Windows, Unix, Linux,
Solaris, OS/2 und Amiga.
Fourier-Synthese Eine Fourier-Synthese dient der Klangsynthese, der Erzeugung von Klängen aus
fourier synthesis Grund- und Oberwellen. Basis für die Fourier-Synthese ist die inverse FourierTransformation, die die Signale aus der Frequenzachse in die Zeitachse transformiert.
Dem Verfahren nach werden aus einem Frequenzspektrum mit vielen Harmonischen
einzelne Frequenzen ausgefiltert, in ihrer Amplitude geändert und mit anderen
Harmonischen additiv zum gewünschten Klangbild zusammengefügt. Wenn jede
einzelne Harmonische in ihrer Amplitude und dem zeitlichen Verlauf geändert werden
kann, können auf diese Weise beliebige Klangbilder erzeugt werden.
Fourier-Transformation Eine Fourier-Transformation ist ein mathematisches Verfahren, mit dem Signale aus
Fourier transformation, FT
dem Zeitbereich in den
Frequenzbereich transformiert
werden. Sie dient somit der
Bestimmung des Frequenzspektrums
eines zeitbezogenen Signals.
Die Transformation eines reinen
Sinus-Signals von der Zeitebene in
die Frequenzebene hat eine einzelne
Spektrallinie zur Folge. Alle anderen
nicht sinusförmigen Signale wie
Rechtecksignale, modulierte Signale,
Impulse usw. bestehen aus einer
Grundwelle und mehreren in der
Beispiel einer FourierAmplitude unterschiedlichen
Transformation, der
Oberwellen.
Umsetzung von der Zeit- in
In der Computertechnik wird die
die Frequenzebene
Fourier-Transformation meist als
Exit
Index
23
AUDIOKOMPRESSION
mathematisches Verfahren in Form der Fast Fourier Transformation (FFT)
implementiert.
Die Umkehrung der Fourier-Transformation, also die Transformation eines
frequenzbezogenen Funktion in eine zeitbezogene, nennt man inverse FourierTransformation.
Die Bezeichnung der Transformation geht auf den französischen Mathematiker Baron
Jean Baptiste Joseph Fourier zurück, der 1768 bis 1830 lebte.
G.711 Die ITU-Empfehlung G.711 beschreibt Transformationsverfahren für die
Audiokompression. Diese Technik, die bereits 1969 von dem CCITT international
standardisiert wurde, ist ein Sprach-Codec mit µ-Law- und A-Law-Verfahren.
Das beschriebene Kompressionsverfahren basiert auf einer logarithmischen
Umsetzung des Audiosignals und einer Pulscodemodulation (PCM) mit 13 Bit
Auflösung, die nach der Quantisierung mit einer logarithmischen Tabelle in einen 8Bit-Wert umgesetzt wird. Durch die Logarithmierung wird die menschliche
Hörcharakteristik adaptiert. Die Kompressionsrate von G.711 beträgt somit 13:8, der
MOS-Wert 4,4.
Die Umsetzung der Empfehlung G.711 im A-Law-Verfahren unterscheidet sich von der
im µ-Law-Verfahren verwendeten durch unterschiedliche 13:8-Umsetzungstabellen.
Der Sprach-Codec G.711 eignet sich nicht für die Kompression von qualitativ
hochwertigem Audio; es wird in ISDN und bei der Übertragung von Audio unter H.261
eingesetzt.
GSM 06.10 GSM 06.10 ist ein von der ETSI standardisiertes Verfahren für die Sprachkompression
im D2-Netz und in der Satellitenkommunikation, das aus einer Reihe von Bitworten
komprimierte Bitgruppen bildet. Das Verfahren komprimiert 160 Abtastungen mit 13 Bit
in Gruppen mit 260 Bits bzw. 33 Bytes, das bedeutet eine Datenrate von 1.650 Bytes/s
(13,2 kbit/s) bei 8 kHz Abtastrate.
Als Codierschema wird Regular Pulse Excitation (RPE) mit Long Term Prediction (LTP)
benutzt.
Exit
Index
24
AUDIOKOMPRESSION
HDA High Definition Audio (HDA) ist ein von Intel entwickelter Standard für qualitativ
high definition audio hochwertiges Audio. High Definition Audio soll Personal Computern (PC) die Qualität
von Audiogeräten verleihen. Neben der Wiedergabe, die von der höheren Bandbreite
profitiert, unterstützt HDA auch mehrkanalige Mikrofonanschlüsse, dynamische
Bandbreiten für Streaming und eine flexible Konfiguration der Audiogeräte. Das
Klangerlebnis soll dem von Dolby-Digital entsprechen. Die Bandbreiten können
dynamisch verteilt werden und liegen für Mehrkanal bei 32 Bit bei 192 kHz. Diese
Auflösung und Samplingrate werden bei DVD-Audio benutzt; Audio-CD arbeitet mit
16-Bit-Auflösung und 44,1 kHz Abtastrate.
Das HDA-Verfahren erkennt durch das Sensing der Analog-Buchsen die
angeschlossenen Audio-Geräte.
High Definition Audio soll AC97 ablösen.
HE-AAC Das High Efficiency Advanced Audio Coding (HE-AAC) ist eine von der Coding
high efficiency AAC Technologies GmbH entwickeltes Audiokompression, die unter der Bezeichnung
aacPlus vermarktet wird. HE-AAC bzw. aacPlus nutzt das SBR-Verfahren und ergänzt
die AAC-Dateien mit Informationen, aus denen der Decoder beim Abspielen die hohen
Freuquenzen rekonstruieren kann.
HVXC HVXC ist ein sprachoptimiertes parametrisches Verfahren der Sprachkompression, das
harmonic vector excitation mit 8 kHz arbeitet und Datenraten von 2 kbit/s bis 6 kbit/s erzeugt. Bei dieser äußerst
effizienten Sprachkompression wird das Restsignal aus der LPC-Codierung
transformiert und anschließend parametrisiert. In MPEG-4 V.2 werden die Fähigkeiten
von HVXC durch eine variable Bitrate (VBR) erweitert.
Das HVXC-Verfahren wird u.a. im Digital-Rundfunk eingesetzt.
Hörcharakteristik Das menschliche Ohr hat ein frequenz- und altersabhängiges Hörempfinden: die so
genannte Hörcharakteristik. Der hörbare Frequenzbereich ist lautstärkeabhängig und
liegt bei Kindern im Frequenzbereich zwischen 20 Hz und 20 kHz. Die
Hörcharakteristik ändert sich mit unterschiedlichen Schallpegeln und hat ihre höchste
Exit
Index
25
AUDIOKOMPRESSION
SBR
spectral band replication
Hörcharakteristik mit
Hörschwelle
Sensitivität bei Frequenzen zwischen 2 kHz und 4 kHz. Bei diesen Frequenzen
erreicht das Gehör einen maximalen Dynamikumfang bis zur Schmerzschwelle von
etwa 130 dB. Töne mit höheren Frequenzen als 4 kHz werden ebenso wie tiefere Töne
bei gleichem Schalldruck als leiser empfunden. Des weiteren sind bestimmte
Frequenzen oberhalb von 16 kHz und unterhalb von 30 Hz nicht hörbar.
Die empfundene Lautstärke, die in Phon angegeben wird, ist abhängig von dem
akustischen Signal und dessen Signalfrequenz. Der Bezugswert für den Schalldruck
ist 0 dB bei einer Frequenz von 1 kHz. Je nach Tonhöhe werden die Signale mit
gleichem Schalldruck unterschiedlich laut empfunden. Dies wird durch die Linien, die
den gleichen Schalldruck aufweisen, in der Hörcharakteristik verdeutlicht.
Die geringste wahrnehmbare Lautstärke repräsentiert die Hörschwelle. Die
Hörschwelle ist eine frequenzabhängige Kennlinie, die den niedrigsten
Exit
Index
26
AUDIOKOMPRESSION
wahrnehmbaren Schalldruck in Bezug zur Frequenz darstellt. Die höchste
wahrnehmbare Lautstärke ist die Schmerzschwelle, die bei Schalldrücken von etwa
130 dB liegt. Der Bereich zwischen der Hörschwelle und der Schmerzschwelle wird
Hörfeld genannt.
Hörschwelle Die Hörschwelle charakterisiert die geringste Lautstärke, die ein Hörender
HL, hearing threshold wahrnehmen kann. Es handelt sich dabei um eine empirisch ermittelte Kennlinie der
Hörcharakteristik, die den niedrigsten wahrnehmbaren Schalldruck über den hörbaren
Frequenzbereich darstellt.
Der Referenzwert beträgt bei 1.000 Hz 0 dB. Die Hörschwelle ist frequenzabhängig
und steigt bei tiefen und hohen Tönen stark an. Das bedeutet, dass tiefe Töne, wenn
sie mit gleicher Lautstärke empfunden werden sollen, einen wesentlich höheren
Schalldruck benötigen.
Die Hörschwelle ändert sich mit der Lautstärke. Bei lauten Tönen steigt die gesamte
Kennlinie zu höheren Pegeln hin an, bei leisen Tönen sinkt sie ab und wird
empfindlicher.
Joint-Stereo Joint-Stereo ist eine Stereotechnik, die gegenüber echtem Stereo eine höhere
Kompression aufweist, da bestimmte Kanalinformationen zusammengefasst werden.
Dieses Verfahren, das in MP3 eingesetzt wird, wird auch als M/S-Stereofonie bzw.
Middle/Side-Stereo-Codierung bezeichnet.
Da bei normalen Stereo-Übertragungen der Unterschied zwischen dem linken und
dem rechten Kanal nicht besonders groß ist, überträgt man bei Joint-Stereo ein
Summensignal aus beiden Kanälen und ein Differenzsignal, das sich in einzelnen
Frequenzbändern in der Lautstärke unterscheidet. So sind für die Klangwiedergabe
die tieferen Frequenzbänder nicht richtungssensitiv und müssen daher auch nicht
getrennt übertragen und abgestrahlt werden.
Joint-Stereo funktioniert nur dann, wenn die Audiosignale vom linken und rechten
Kanal geringe Unterschiede aufweisen.
Exit
Index
27
AUDIOKOMPRESSION
Kompression Das Prinzip der Datenkompression von Text-, Grafik- und Bewegtbilddaten beruht auf
compression der Eliminierung redundanter Zeichen bzw. einer dynamischen Zuordnung von
Datenbits in Abhängigkeit oder Häufigkeit eines Zeichens (Character). Im Gegensatz
dazu werden bei der Sprachkompression effiziente Codierverfahren bei den Codes
eingesetzt.
Ausgefeilte Kompressionsalgorithmen ermöglichen die Datenkompression von
beliebigen Datenströmen, auch wenn es sich um Computerprogramme oder
Zufallsfolgen handelt.
Ziel der Datenkompression ist es, die Dateigrößen in ihrem Umfang zu reduzieren, um
dadurch einen schnelleren Datendurchsatz zu erreichen und mit weniger
Speicherbedarf auszukommen.
In der Datenkompression unterscheidet man zwischen echter Kompression,
verlustfreier Kompression und verlustbehafteter Kompression. Die Verfahren setzen
auf unterschiedlichen Algorithmen auf und erfassen häufig nur Zustandsänderungen
gegenüber dem vorherigen Zustand.
Besondere Bedeutung finden die Kompressionsverfahren bei der Bildkompression
(Grafiken, Fotos), bei Audio sowie bei Bewegtbildern (Video). Bei der Kompression von
Bildern und Grafiken setzt man auf die Redundanz von Farben, Flächen und Linien,
bei Audio auf die Irrelevanz von Tonfrequenzen und Pegeln und bei der
Videokompression auf die Unterschiede zwischen aufeinander folgenden Bildern.
Bekannte Kompressionsverfahren für Bilder und Grafiken sind die
Lauflängencodierung, TIFF und JPEG, für die Sprachkompression GSM 06.10, das ALaw-Verfahren nach H.321 und ADPCM, für die Audiokompression MPEG, MP3,
ATRAC und Advanced Audio Coding (AAC) und für die Video- und
Bewegtbildkompression H.261 und MPEG.
Verfahren für die Textkompression sind die Lauflängencodierung (RLE), das WordCoding, die Huffman-Codierung und der LZW-Alorithmus.
In der Modemtechnik wird zur Datenkompression häufig das Kompressionsverfahren
V.42bis eingesetzt, das als Vorgänger MNP4 und MNP5 hat.
Exit
Index
28
AUDIOKOMPRESSION
Kompressionsrate Die Kompressionsrate spiegelt das Verhältnis der Dateigröße wider, das zwischen
compression rate einem komprimierten und einer unkomprimierten Signal besteht. Das Verhältnis kann
als solches angegeben werden, beispielsweise 1:100, und besagt, dass die
Dateigröße nach der Kompression einhundertstel der vorherigen Dateigröße beträgt.
Statt der Verhältnisangabe kann die Kompressionsrate auch als Prozentsatz
angegeben werden, beispielsweise 94 %. Das bedeutet, dass die Dateigröße der
komprimierten Datei um 94 % gegenüber der Originaldatei verkleinert wurde.
Die Kompressionsrate ist wesentlich von der Art der Kompression abhängig. Eine
verlustfreie Kompression wird immer eine geringere Kompressionsrate haben, als eine
verlustbehaftete Kompression. Des Weiteren ist die Kompressionsrate von der Art der
Medien abhängig: Daten haben eine geringere Kompression als beispielsweise Audio
oder Video.
Der Spielraum den Kompressionsraten umfassen können liegt zwischen 1:1,.. und
1:1.000 und höher wie beispielsweise bei der Kompression von Videosequenzen nach
H.261.
Kritische
Frequenzbänder
critical frequency bands
Die Unterteilung des hörbaren
Frequenzspektrums in kritische
Frequenzbänder, die von Heinrich
Barkhausen vorgenommen wurde,
spiegelt das Auflösungsverhalten des
menschlichen Ohres wider.
Es handelt sich um die Frequenzbänder,
die durch Maskierung abgedeckt werden.
Sie haben unterschiedliche Bandbreiten,
die zu tieferen Frequenzen geringer
werden und zu höheren ansteigen. Der
vom Gehör wahrgenommene
Frequenzumfang lässt sich in 27 kritische
Frequenzbänder unterteilen, die bei der
Obere Frequenzen der
kritischen Frequenzbänder
Exit
Index
29
AUDIOKOMPRESSION
Audiokompression in MPEG, MP3, mp3Pro und ATRAC in 32 Bandpass-Filtern
nachgebildet werden. Die unteren Frequenzbänder unterhalb von 500 Hz haben eine
Bandbreite von unter 100 Hz, die Bänder über 500 Hz entsprechen einer sechstel
Oktave.
LAME LAME ist ein MP3-Encoder, der als Open-Source-Projekt ständig weiterentwickelt und
ain’t an MP3 encoder verbessert wurde. Er gehört heute zu den hochentwickelten MP3-Encodern, der in der
Klangqualität und der Transfergeschwindigkeit mit anderen kommerziellen Encodern
konkurrieren kann.
Die technischen Verfeinerungen von LAME sind auf Modelle der Psychoakustik
zurückzuführen. So arbeitet LAME zur Optimierung der Dateigröße und der
Klangqualität mit mehreren Modi: der durchschnittlichen Bitrate (ABR), der variablen
Bitrate (VBR) und der konstanten Bitrate (CBR). Mit der variablen Bitrate wird bei
Bitraten zwischen 270 kbit/s und 220 kbit/s die höchste Klangqualität erzielt. Bei
Bitraten ab 180 kbit/s wird die Qualität als hoch und bei Bitraten zwischen 140 kbit/s
und 160 kbit/s als gut bezeichnet.
Die verschiedenen Modi sind voreingestellt und können direkt aufgerufen werden.
LAME eignet sich auch als Lerntool für MP3 und kann kostenlos aus dem Netz
herunter geladen werden.
LPAC LPAC ist eine verlustfreie Audiokompression. Das bedeutet, dass die komprimierten
lossless predictive audio Signale nach der Dekompression wieder identisch sind mit den Originalsignalen. Bei
compression der verlustfreien Kompression ist die Kompressionsrate im Gegensatz zu der
verlustbehafteten Kompression wesentlich geringer. So wird mit LPAC eine
Kompressionsrate von 1,5: 1 bis 4:1 erzielt, wohingegen beispielsweise mit der
verlustbehafteten Kompression von MP3 eine Verhältnis von 11:1 erzielt wird.
Die LPAC-Kompression arbeitet mit linearer Prädiktion und kann Audiosignale mit 8 Bit,
16 Bit, 20 Bit und 24 Bit in Mono und Stereo digitalisieren. Diese lineare Prädiktion
arbeitet mit einer Voraussage hinsichtlich der kommenden Signale.
LPAC hat zyklische Blockprüfung (CRC) für die Fehlererkennung, ein grafisches
Exit
Index
30
AUDIOKOMPRESSION
Interface und insgesamt sechs verschiedene Kompressions-Modi für unterschiedliche
Kompressionen und Geschwindigkeiten. Die Wiedergabegeschwindigkeit kann ein
Vielfaches der Echtzeitgeschwindigkeit betragen. Die Dateien, die die Extension *.pac
haben, können über einen WinAmp-Player abgespielt werden.
Es gibt LPAC-Versionen, die von Windows, Linux und Solaris unterstützt werden.
LPC, linear predictive Die LPC-Codierung ist ein Transformationsverfahren, das in der Sprachkompression
coding von Mobilfunksystemen eingesetzt wird. Das Verfahren arbeitet mit Filtertechniken und
filtert aus einem Signalgemisch sprachrelevante Komponenten wie die
Sprachgrundfrequenz, die Lautstärke und die Stimmhaftigkeit heraus. Dazu wird das
digitale Sprachsignal in ein Erregersignal und in Koeffizienten eines zeitvarianten
Filters transformiert. Dies geschieht durch regelmäßige Abtastung (160 Abtastwerte
pro Sekunde) des zu übertragenden Sprachsignals, aus dem dann Filterkoeffizienten
gebildet und zum Decoder übertragen werden. Bei der Aufteilung in kurzzeitige
Segmente geht man davon aus, dass die Änderung zwischen zwei Segmenten
marginal ist. Durch die lineare Vorhersage brauchen daher nur die Änderungen
zwischen zwei aufeinander folgende Kurzzeitsegmente übertragen zu werden,
wodurch die Dateigröße wesentlich reduziert werden kann.
Mit der LPC-Codierung können bei Abtastraten von 8 kHz und 16 kHz Datenraten von
6 kbit/s bis 24 kbit/s erreicht werden. Das Verfahren wird u.a. auch zur
Sprachcodierung in GSM eingesetzt.
LTAC, lossless transform Die verlustfreie Kompression von Audiosignalen ist ein Thema der professionellen
audio compression Audiotechnik, von Rundfunkanstalten und Tonstudios. Bei dieser Technik werden
digitale Audiodaten ohne Qualitätsverlust komprimiert.
Die LTAC-Kompression ermöglicht die verlustfreie Kompression von pulscodierten
Audiosignalen und der fehlerfreien Dekodierung in den originalgetreuen Bitstrom. Es
gibt mehrer LTAC-Versionen, die sich in einer verbesserten Kompression, in der Anzahl
der Audiokanäle, der Benutzeroberfläche und einer Leistungserhöhung durch einen
neuen Adaption-Algorithmus unterscheiden.
Exit
Index
31
AUDIOKOMPRESSION
Die LTAC-Kompression hat gegenüber der LPAC-Kompression einige Nachteile
hinsichtlich der Codier- und Decodiergeschwindigkeit und wird daher nicht
weiterentwickelt.
Mit der Lossless Predictive Audio Compression (LPAC) gibt es ein Verfahren, dass auf
der Vorhersage von Ereignissen basiert. LPAC ist in die Aktivitäten von MPEG-4
eingeflossen als MPEG-4 Audio Lossless Coding (ALS).
Da es bei der verlustfreien Kompression keine Qualitätsunterschiede im Klang gibt,
liegt bei diesen Audio-Codecs der Fokus auf der Codec-Geschwindigkeit für die
Kompression und die Dekompression sowie auf der Abtastrate und der daraus
resultierenden Dateigröße.
Maskierung Maskierung ist ein Effekt der Psychoakustik, der in Audiokompressionen wie in MPEG,
masking MP3 und ATRAC zur Reduzierung des Speicherbedarfs eingesetzt wird. Bei der
Maskierung handelt es sich um zwei unterschiedliche Phänomene, eines, das
lautstärke- und frequenzabhängig ist und ein zweites, das zeitabhängig ist und
temporal auftritt.
Der lautstärke- und frequenzabhängige Effekt besagt, dass man Töne dann nicht
mehr subjektiv wahrnehmen kann, wenn lautere Töne oder Störgeräusche leisere
Töne überdecken. Da das menschliche
Gehör zwei Töne mit benachbarten
Frequenzen nicht auflösen kann, wird der
leisere Ton durch den lauteren Ton
überdeckt. Der Überdeckungsbereich, die
Maskierung, ist abhängig von der
Frequenz der Töne. Hohe Töne haben
einen größeren Überdeckungsbereich,
der über 4 kHz betragen kann, bei
tieferen Tönen liegt dieser bei unter 100
Hz.
Die Maskierung deckt den
Die Maskierung bildet in Verbindung mit
leiseren Ton ab
Exit
Index
32
AUDIOKOMPRESSION
der Hörschwelle den nicht hörbaren Bereich.
Bei mehreren Tönen, die in der Frequenz hinreichend voneinander abweichen,
überschneiden sich die Maskierungsbereiche, und der nicht hörbare Bereich
vergrößert sich entsprechend.
Bei hinreichender Lautstärke kann das menschliche Gehör auch Töne, die in der
Frequenz stark voneinander abweichen, nicht mehr wahrnehmen. Der
Maskierungseffekt nimmt allerdings mit größerer Frequenzdifferenz zwischen den
Tönen stark ab. Diesen Effekt, bei dem die Hörschwelle zu höheren Pegeln hin
verschoben wird, nennt man spektrale Maskierung.
In dem zweiten Effekt, der temporalen Maskierung, spiegelt sich die Trägheit des
menschlichen Ohrs wider. Das Gehör stellt sich auf laute und leise Tongeräusche ein
und benötigt nach einem Übergang von lautem Audio hin zu leisem Audio - und
umgekehrt - eine gewisse Erholungszeit. Besonders eklatant tritt dieses Phänomen
SAC
SBR
spectral band replication
Maskierung und Hörschwelle
bilden den nicht hörbaren
Bereich
Exit
Index
33
AUDIOKOMPRESSION
bei einem lauten Knall nach oder während leiser Musik auf. Diese temporale
Maskierung verdeckt für eine gewisse Zeit leise Töne vor und nach einem lauten Ton.
Die Hörcharakteristik verändert dabei ihr Verhalten, die Hörschwelle sinkt in wenigen
Millisekunden und das normale Hörverhalten wird erst nach 200 ms wieder erreicht.
Diese temporale Maskierung wird in der Audiokompression zur Reduzierung der
Datenmenge genutzt.
MLP Meridians Lossless Packing (MLP) ist eine von der Firma Meridian Inc. entwickelte
meridian lossless packing verlustfreie Audiokompression für Mehrkanalton, das als Quasi-Standard für DVDAudio gilt. Das MLP-Verfahren ist ein sehr effizientes Verfahren, mit dem die AudioDatenströme im Schnitt um über 50 % komprimiert werden. Im Gegensatz zu DolbyDigital, Digital Theatre Sound (DTS) und MPEG arbeitet MLP verlustfrei indem es
mehrfach vorhandene Daten gepackt speichert und bei der Dekompression wieder in
ihren ursprünglichen Zustand bringt.
Die MLP-Kompression arbeitet im PCMFormat mit Abtastraten von 44,1 kHz, 48 kHz,
96 kHz und 192 kHz. Die Quatisierung
beträgt 16 Bit, 20 Bit und 24 Bit. Bei der
geringsten Abtastrate von 44,1 kHz und einer
Quantisierung von 16 Bit können auf einer
Kompression mit MLP
DVD-Audio bis zu 25 Stunden Musik in Mono
und 12 Stunden Stereo gespeichert werden. Für die Wiedergabe werden spezielle
MLP-Decoder benötigt, die das Originalsignal ohne Qualitätsbeeinflussung
wiederherstellen.
Monkeys Audio Monkeys Audio ist ein schnelles und einfaches Verfahren für die verlustfreie
monkeys audio Kompression von Audiosignalen. Die mit Monkeys Audio komprimierten Signale sind
nach der Kompression und anschließender Dekompression fehlerfrei und entsprechen
in allen Bits dem Original. Der Vorteil einer solchen verlustfreien Audiokompression
liegt in den reduzierten Audiodateien und dem dadurch geringeren
Exit
Index
34
AUDIOKOMPRESSION
Speicherplatzbedarf. Vom Einsatz her ist diese Kompression vergleichbar Winzip,
allerdings für Audiodaten.
MP3-Dateiformat MP3 ist eine MPEG-Kompression, basierend auf MPEG-1-Audio Layer-3 für die
MP3, MPEG audio layer 3 Kompression von Audiosignalen. Das vom Fraunhofer Institut in Erlangen entwickelte
Verfahren zeichnet sich durch eine hohe Wiedergabequalität bei einem
Kompressionsfaktor von über 10 aus.
Dem Verfahren nach werden bei MP3 nicht hörbare Signalanteile ausgefiltert. Bei
dieser Maskierung werden Bandpässe unterschiedlicher Bandbreite verwendet, die
den menschlichen Hörbereich abdecken. Diese Subband-Codierung erfolgt mit 32
Subbändern, die wiederum in 18 Teilbereiche unterteilt sind, sodass insgesamt 576
Bandpässe zur Filterung benutzt werden. Die Filterung wird begleitet von einer DCTTransformation oder einer Fourier-Transformation, die das zeitbezogene Audiosignal in
die Frequenzebene transferiert. Der Filterung folgt eine Bewertung des
Informationsinhaltes der einzelnen Filteranteile.
Diese Bewertung legt die Quantisierung fest. Dabei hat jedes Subband eine
Maskierungsschwelle, die von dem
Schalldruck der Tonfrequenz abhängt.
Ist beispielsweise im Subband um 1
kHz ein Ton mit einer Lautstärke von
65 dB, dann stellt der Codierer
anhand des psychoakustischen
Modells fest, dass die
Maskierungsschwelle für dieses
Subband bei 30 dB liegt, also der Ton
mit 35 dB quantisiert werden muss,
was mit einer 6-Bit-Digitalisierung
Digitalisierung oberhalb der
erfolgen kann. Hat der Ton bei
Maskierungsschwelle bei
gleicher Maskierung eine Lautstärke
MP3
von 80 dB, muss er mit 8 Bit
Exit
Index
35
AUDIOKOMPRESSION
digitalisiert werden, um die Dynamik von 45 dB zu erreichen.
MP3 unterstützt drei Hauptmodi: Mono, Stereo und Joint-Stereo. Das Abspielen von
MP3-Dateien erfolgt über MP3-Player wie Winamp, Macamp oder mpeg123. Die
Extension für MP3-Dateien ist *.mp3.
mp3Pro mp3Pro ist eine Weiterentwicklung von MP3, die als wesentliche Neuerung das
mp3Pro Spectral Band Replication (SBR) benutzt. mp3Pro hat auch bei niedrigen Bitraten eine
hohe Klangqualität, die sich besonders bei hohen Tönen bemerkbar macht.
Außerdem ist die Dateigröße bei gleicher Klangqualität etwa nur halb so groß wie die
einer MP3-Datei.
mp3Pro wurde von Coding Technologies entwickelt, einem Unternehmen, das aus der
Kooperation einer schwedischen Firma und einem Spin-Off des Fraunhofer Instituts
für Integrierte Schaltungen hervorgegangen ist. Der Audio-Codec ist
abwärtskompatibel zu MP3 und kann auf MP3-Playern abgespielt werden; allerdings
in MP3-Qualität. Um das volle Klangbild von mp3Pro hören zu können, sind MusikPlayer mit mp3Pro-Audio-Codecs erforderlich.
Die Spezifikationen von mp3Pro weisen bei Bitraten von 80 kbit/s CD-nahe Qualität
aus mit Frequenzwiedergaben von oberhalb 16 kHz. Bei niedrigeren Bitraten sprechen
die veröffentlichten Testergebnisse von befriedigender und ausreichender
Klagqualität. Die Audiokompression, die mit konstanter Bitrate (CBR) arbeitet, liegt je
nach Bitrate und Musiktitel zwischen 94 % (hohe Bitrate) und 97 %.
Wie bei MP3 können auch bei mp3Pro Zusatzinformationen über den Musiktitel, den
Interpreten oder das Album gespeichert werden.
MPEG Moving Picture Experts Group (MPEG) steht gleichermaßen für ein Standardisierungsmotion picture expert Gremium und für mehrere asymmetrische Codierverfahren sowie für verschiedene
group Dateiformate für die Bewegtbild- und Audiokompression. Die MPEG-Kompression wird
für Digitalvideo auf Computern, für Streaming-Media und für die Übertragung von
digitalen Fernsehbildern eingesetzt. 1988 begannen die ISO und das IEC einen
Standard für die Video- und Audiokompression zu entwickeln, der 1992 in der ersten
Exit
Index
36
AUDIOKOMPRESSION
Version als MPEG-1 unter ISO 11172 verabschiedet wurde. Die Audiokompression wird
u.a. in Compact Discs (CD), DVDs und im Digital Audio Broadcast (DAB) eingesetzt.
Bei MPEG handelt es sich um eine verlustbehaftete Kompression, das bedeutet, dass
bei der Decodierung das Originalbild nicht mehr exakt generiert werden kann. Darüber
hinaus ist die Codierung technisch sehr viel aufwändiger als die Decodierung.
MPEG-1 wurde 1992 verabschiedet und ist ein integrierter Standard für die Codierung
von Bewegtbildern mit zugehörigem Audio zur Speicherung auf CDs. Der Standard ist
in einen Videoteil und einen Audioteil untergliedert. MPEG-1-Audio sieht die
Codierung von Mono- und Stereosignale vor. MPEG-1 entspricht in der VideoWiedergabequalität der Auflösung von VHS und eignet sich für multimediale
Präsentationen auf CD-ROM oder CD-I.
Für die Übertragung von Bewegtbild in Standard-Fernsehqualität und Studioqualität
mit mehreren Tonkanälen wurde Ende 1994 MPEG-2 standardisiert. MPEG-2 zeichnet
sich durch seine hohe Flexibilität in der Audiokompression aus, unterstützt Audio für
höchste Ansprüche und kann theoretisch einen Raumklang aus bis zu 48 Kanälen
bilden.
MPEG-4 kam 1999 auf den Markt und legt im Gegensatz zu MPEG-1 und MPEG-2
SAC
Audioqualität in
Abhängigkeit vom
MPEG-Verfahren
Exit
Index
37
AUDIOKOMPRESSION
kein einheitliches Kompressionsverfahren fest, sondern definiert eine Sammlung von
Audio- und Video-Kompressionsverfahren. Es bildet ein Rahmenwerk das die
Integration beliebiger Medienobjekte unterstützt, ebenso wie die Interaktion zwischen
menschlichen Benutzern und der audiovisuellen Welt.
MPEG-7 wurde 2001 standardisiert, um multimediale Inhalte zu beschreiben und ein
Ordnungssystem für die vielen MPEG-Varianten zu schaffen. MPEG-7 berücksichtigt
neben den audiovisuellen Inhalten auch Textinformationen und wird von der
Description Definition Language (DDL) unterstützt. Mit XML-Anwendungen soll ein
Multimedia Description Scheme (MDS) entwickelt werden, mit dem sich Audio- und
Video-Inhalte mittels Schlüsselwörtern identifizieren lassen.
MPEG-21 unterstützt den multimedialen Nachrichtenaustausch. Die vorherige
Abgrenzung in Bezug auf fest strukturierte Benutzergruppen wie Videostudios öffnet
sich damit zur Konsumelektronik. Der Endverbraucher hat damit die Möglichkeit,
persönliche Fotos, Audio- und Videosequenzen mit Fremdproduktionen zu
kombinieren. Auch die Weiterverarbeitung kann Online erfolgen, ebenso können die
semiprofessionellen Aufnahmen und Videoclips kommerziellen Anbietern angeboten
werden.
http://www.mpeg.org
MPEG-1-Audio MPEG-1-Audio hat sich aus dem klassischen MPEG-1 herauskristallisiert und dient
der Kompression von Audiodateien. Bei dieser verlustbehafteten Kompression werden
nicht hörbare Töne ausgefiltert und nicht bearbeitet.
MPEG-1-Audio unterscheidet zwischen verschiedenen Layern, die unterschiedliche
Filterverfahren, Transformationstechniken und, daraus resultierend, unterschiedliche
Kompressionsfaktoren und Qualitätsstandards repräsentieren. So sind einige
Kompressionsverfahren besser geeignet für die Audiokompression von qualitativ
hochwertigem Audio in HiFi-Qualität, andere für Radioqualität und wieder andere für
Sprachübertragungen. Das Verfahren arbeitet mit Abtastraten von 32 kHz, 44,1 kHz
und 48 kHz. Die Abtastrate von 44,1 kHz wird bei Audio-CDs benutzt. Bei
Studioqualität mit einer Abtastrate von 48 kHz und einer Quantisierung von 16 Bit
Exit
Index
38
AUDIOKOMPRESSION
ergibt sich eine
resultierende Datenrate von
768 kbit/s für Mono und
1,536 Mbit/s für Stereo,
daraus errechnet sich eine
Datenmenge von 11,52 KB/
min. Bei niedriger
Audioqualität können die
Datenraten zwischen 32
kbit/s und 192 kbit/s für ein
Verhältnis von Kompression
zur Datenrate bei den
verschiedenen
MPEG-1-Varianten
monophones Signal liegen.
Entsprechend reichen die Spannen in den Kompressionsfaktoren von etwa 4:1 für
MPEG-1 (Audio) Layer-I bis 12:1 für MPEG-1 (Audio) Layer-3 und sogar 88:1 für
Sprachübertragungen mit MPEG-2 auf Layer-3.
Bei der Kompression in MPEG-1 Layer-I (MP1) werden die Frequenzanteile des zu
komprimierenden Audiosignals mittels Subband-Codierung in 32 Bandpass-Filtern mit
identischen Bandbreiten von 625 Hz ausgefiltert. Zur Datenreduktion werden die
einzelnen Frequenzbänder nach dem menschlichen Hörverhalten maskiert, bevor sie
einzeln quantisiert werden. Die Codierung erfolgt mit 384 Samples je Kanal, die ein
Frame bilden. Auf MP1 können zur weiteren Datenreduktion die beiden Tonkanäle
getrennt oder teilweise gemeinsam bearbeitet werden.
MPEG-1 (Audio) Layer-II (MP2) hat gegenüber MP1 eine höhere Komplexität und
verwendet für die Codierung drei Subframes mit je 384 Samples pro Frequenzband;
also insgesamt 1.152 Samples pro Band. Dadurch wird eine effizientere Maskierung
der Bänder erreicht. Die resultierende Datenrate liegt bei MP2 mit ca. 200 kbit/s unter
der von MP1 mit 380 kbit/s. MP2 wird im Musicam-Verfahren für StreamingÜbertragungen im Digitalrundfunk wie dem Digital Audio Broadcast (DAB) eingesetzt.
MPEG-1 (Audio) Layer-III (MP3) ist das bekannteste Kompressionsverfahren von
MPEG-Audio. Es arbeitet mit einer wesentlich höheren Anzahl an Frequenzbändern
und kann dadurch die Maskierung besser der menschlichen Hörcharakteristik
Exit
Index
39
AUDIOKOMPRESSION
anpassen. Außerdem nutzt MP3 die FFT-Transformation oder die DCT-Transformation
(MDCT), um die Psychoakustik in die Quantisierung einfließen zu lassen. Mit MP3
reduzieren sich die Datenraten für die Audiodatenströme auf ca. 160 kbit/s für CDQualität.
Auch die anderen MPEG-Varianten unterstützen die Kompression von Audio. So
wurde bei MPEG-2 und bei MPEG-4 mit dem Advanced Audio Coding (AAC) von dem
Verfahren mit den Bandfiltern abgewichen. Darüber hinaus benutzt MPEG-4 noch
weitere Audio-Codierungen wie beispielsweise CELP.
MPEG-4 Bei MPEG-4 handelt es sich um einen von MPEG im Jahre 1998 entwickelten und von
ISO/IEC verabschiedeten Standard. Die rückwärtskompatible Version 2 von MPEG-4
wurde im Jahre 2000 verabschiedet. MPEG-4 befasst sich mit Video, interaktiven
audiovisuellen Anwendungen und interaktivem Multimedia.
MPEG-4 legt im Gegensatz zu MPEG-1 und MPEG-2 kein einheitliches
Kompressionsverfahren fest, sondern definiert eine Sammlung von Audio- und VideoKompressionsverfahren. Es bildet ein Rahmenwerk, das die Integration beliebiger
Medienobjekte unterstützt, ebenso wie die Interaktion zwischen menschlichen
Benutzern und der audiovisuellen Welt. Darüber hinaus definiert MPEG-4 eine
Sprachcodierung mit niedrigen Datenraten, audiovisuelle Objekte, die individuell
komprimiert und zu Audiosequenzen zusammengestellt werden können,
Mehrkanalton, Animation von Objekten der virtuellen Realität, das Einfügen von
Einzelbildern und einiges mehr.
Mit MPEG-4 kann eine Szene in audiovisuelle Objekte aufgeteilt werden. Die Objekte
können separat mit einer speziellen Beschreibungssprache beschrieben und beim
Benutzer durch Interaktion verändert und neu zusammengefügt werden. Die
Komposition von multimedialen Präsentationen kann somit beim Empfänger erfolgen.
Zu diesem Zweck ist in MPEG-4 ein binäres Format für die Beschreibung von Szenen
definiert, das Binary Format for Scene Description (BIFS), das auf einer Erweiterung
der Virtual Reality Modelling Language (VRML) basiert.
MPEG-4 hat viele unterschiedliche Profile wie die Visual Profiles, Audio Profiles,
Exit
Index
40
AUDIOKOMPRESSION
Graphics Profiles, Scene Graph Profiles, MPEG-Profiles und die
objektbeschreibenden Profile. Mit diesen Profiles werden grafische Elemente in Form
von einfachen Linien oder komplexen Polygonen unterstützt, Körper und Flächen, 2Dund 3D-Modelle, reale, synthetische und Video-Objekte und verschiedene
Audiokompressionen wie CELP, HVXC, HILN, TwinVQ und die AAC-Kompression.
Das generische Interface zwischen der Anwendung und den Transportnetzen bildet
bei MPEG-4 das Delivery Multimedia Integration Framework (DMIF) mit die DMIFSchnittstellen zum Netzwerk (DNI) und zur Applikation (DAI).
Die Datenraten von MPEG-4 liegen bei Video zwischen 5 kbit/s und 4 Mbit/s, also wie
bei MPEG-1 und MPEG-2. Darüber hinaus unterstützt MPEG-4 diverse
Videodateiformate mit und ohne Zeilensprungverfahren vom CIF-Darstellformat bis hin
zu HDTV.
Bei der Audiokompression von MPEG-4 werden mehrere effiziente Codierverfahren
eingesetzt, die speziell für Sprache, Musik oder synthetische Klänge optimiert sind.
Dazu gehören die AAC-Kompression, CELP und HVXC für Sprachkompression und
HILN für Musik.
MPEG-Surround
Für den Surround-Klang gibt es
einige Audiodateiformate, die sich
durch eine hohe Audioqualität und
hervorragende Trennung der
einzelnen Kanäle auszeichnen.
Dazu gehören Dolby Digital und
Digital Theatre Sound (DTS), die
allerdings eine hohe Datenrate
benötigen und häufig nicht
rückwärtskompatibel zu
vorhandenen Mono- und StereoEmpfängern sind. Auch können
bestimmte Surround-Verfahren nicht
Codierung von
MPEG-Surround
Exit
Index
41
AUDIOKOMPRESSION
über die bestehende Sende-Infrastruktur übertragen werden. Diese Nachteile soll
MPEG-Surround eliminieren.
MPEG-Surround ist ein Audiodateiformat für die Übertragung von Mono, Stereo und
Surround-Klang, das mit vielen Audio-Codierverfahren kombiniert werden kann; so mit
MPEG Layer-2, HE-AAC oder MP3. Der Surround-Klang kann in allen Varianten von
5.1 über 7.1 bis hin zu 10.2 mit minimalen zusätzlichen Datenraten von wenigen
Kilobits übertragen werden.
Vom Prinzip her wird aus den verschiedenen Audiokanälen ein Multikanalsignal
gemischt, das in Mono- und Stereo-Empfängern wiedergegeben werden kann. Die
zusätzlichen Surround-Informationen enthalten die Informationen für die Seiten- und
die rückwärtigen Lautsprecher und werden aus den Pegelunterschieden, aus
Kohärenz- und Korrelationswerten zwischen den einzelnen Kanäle gewonnen. Diese
Surround-Informationen können nur von entsprechenden Surround-Empfängern
ausgewertet werden. Die Surround-Informationen werden während der Codierung
extrahiert, sie enthalten die charakteristischen Unterschiede zwischen den einzelnen
Audiokanälen und werden als reine Datensignale übertragen.
MPEG-Surround ist skalierbar und zeichnet sich durch eine hohe Audioqualität aus.
MUSICAM
masking pattern universal
subband integrated coding
and multiplexing
Musicam ist ein Verfahren für die Audiokompression für digitale
Rundfunkübertragungen und wird in Digital Audio Broadcast (DAB) eingesetzt. Das
vom Institut für Rundfunktechnik entwickelte Verfahren wurde als MPEG-1-Audio
Layer-II (MP2) definiert. Es reduziert die Datenrate von Audiosignalen von 1,422 Mbit/s
auf 192 kbit/s.
Das Musicam-Verfahren arbeitet mit Teilband-Codierung, dabei wird der gesamte
Frequenzbereich des Audiosignals in 32 Teilbänder unterteilt, wobei jedes Unterband
eine Bandbreite von 750 Hz hat und jedes Unterband einzeln codiert wird.
Nero Digital Nero Digital ist ein Video-Codec für Audio- und Videokompressionen von hoher
Qualität, der standardkonform mit MPEG-4 arbeitet. Bei der Audiokompression von
Nero handelt es sich um die effiziente AAC-Kompression mit Mehrkanalton mit 5.1
Exit
Index
42
AUDIOKOMPRESSION
Kanälen. Nero hat sehr hohe Kompressionsraten und -faktoren und kann außerdem
andere MPEG-4-Implemetierungen wie XviD oder 3ivx decodieren. Die MPEG-4-Videos
von Nero Digital werden in MP4-Containern gespeichert, die mit Kapitelinformationen
und Untertiteln erstellt werden können.
Nero Digital steht im Wettbewerb mit XviD und DivX und wird je nach Tester und
Version mit vergleichbarer oder besserer Qualität bewertet. Wie die anderen VideoCodecs zielt auch Nero Digital auf die Unterhaltungselektronik mit Camcordern, DVDTechnik, Smartphones usw.
http://www.nero.com
Ogg Vorbis Ogg Vorbis ist eine offene, nichtproprietäre lizenzfreie Audiokompression für die
Übertragung von qualitativ hochwertigem Audio. Ogg Vorbis, entwickelt von Xiph.org,
zeichnet bei einer Bitrate von 80 kbit/s durch eine sehr gute Klangqualität aus. Diese
wird auch bei niedrigeren Bitraten von 64 kbit/s und 48 kbit/s als gut resp.
befriedigend bezeichnet. Der Frequenzbereich liegt bei der niedrigen Bitrate noch
über 15 kHz. Die Kompressionsrate ist vergleichbar denen anderer Audio-Codecs und
liegt in Abhängigkeit von der Bitrate bei ca. 95 %.
Ogg Vorbis kann nur mit dem Ogg-Vorbis-Player, OggDrop, abgespielt werden und
wird vom WinAmp-Player ab Version 2.8 unterstützt.
Ogg Vorbis ist für variable Bitraten (VBR) konzipiert, die zwischen 16 kbit/s und 128
kbit/s pro Kanal liegen. Er kann aber auch mit konstanten Bitraten (CBR) von bis zu
500 kbit/s arbeiten. Die Quantisierung liegt bei 16 Bit und höher. Die Kompression
erfolgt über ein modifizierte diskrete Cosinus Transformation (DCT).
Vorbis bietet kein Framing, keine Synchronisation und keinen Fehlerschutz.
Durch die ständige Weiterentwicklung des Audio-Codecs kann Ogg Vorbis auch bei
niedrigen Bitraten von 48 kbit/s überzeugen. Verschiedene Tests haben verdeutlicht,
dass der Audio-Codec bei leisen Passagen eine hervorragende Qualität liefert; aber
erst bei 80 kbit/s sein starkes Klangvolumen zur Geltung kommt.
Ogg Vorbis positioniert sich im Vergleich zu MPEG-4 AAC, aacPlus, TwinVQ, MP3,
mp3pro und WMA.
Exit
Index
43
AUDIOKOMPRESSION
Ogg-Vorbis-Dateien haben die Extension *.ogg.
http://www.vorbis.com
OptimFrog OptimFrog ist eine verlustfreie Audiokompression, mit der Audiodateien rin ihrer Größe
reduziert und fehlerfrei reproduziert werden können. Die OptimFrog-Kompression
arbeitet mit einer relativ hohen Geschwindigkeit, die Codier- und
Decodiergeschwindigkeiten betragen ein Vielfaches der Echtzeitgeschwindigkeit. Die
angegebenen Werte liegen je nach Mikroprozessor zwischen dem 12-fachen und dem
28-fachen von Echtzeit. Die verlustfreie Kompression basiert auf einem neuartigen
Kompressionsverfahren, dem so genannten Stereo-Dekorrelation-Verfahren mit
Vorhersage. Die Kompressionsraten liegen je nach Musik zwischen 25 %, bei leiser,
klassischer Musik und 70 % bei lauter Rock-Musik.
OptimFrog gibt es für die verschiedensten Audio-Player unter Windows und Linux.
PAC Das Prinzip des Perceptual Audio Coder (PAC) wurde von den Bell Labs Ende der
perceptual audio coder 90er Jahre entwickelt. Es ist eine Audiokompression für analoge Musik, Sprache und
andere niederfrequente Signale. PAC-Codecs digitalisieren die analogen Audiosignale
in ein digitales Format und haben ihre höchste Leistungsfähigkeit bereits bei 96 kbit/s,
wodurch sie sich besonders für digitalen Hörfunk (DAB), HD-Radio und Internet-Radio
eignen. Diese Datenrate soll in der weiteren Entwicklung auf 64 kbit/s gesenkt
werden. Die Audioqualität entspricht dabei der von Compact Discs, die
Kompressionsrate liegt bei 15:1.
PAC-Codecs arbeiten nach Modellen der Psychoakustik und filtern irrelevante
Informationen aus dem Audiosignal. Die PAC-Kompression ist der AAC-Kompression
ähnlich, beide benutzen gleiche Konstruktionselemente.
PASC PASC ist ein auf MPEG basierendes Datenreduktionsverfahren, das in der Digital
precision adaptive Compact Cassette (DCC) eingesetzt wird. Ziel dieses Verfahrens ist es, digitalisiertes
subband coding Audio in CD-Klangqualität auf Audiobändern zu speichern. Dies erreicht PASC durch
eine Optimierung zweier Faktoren, die das Hörvermögen bestimmen: Der erste in
Exit
Index
44
AUDIOKOMPRESSION
PASC berücksichtigte Effekt ist die Hörschwelle. Die Hörschwelle ist die Lautstärke, bei
der das menschliche Hörvermögen überhaupt erst einsetzt. Sie ist frequenzabhängig
und dadurch gekennzeichnet, das das Hörvermögen bei mittleren Frequenzen
empfindlicher ist als bei tiefen oder hohen. PASC berücksichtigt dies, indem es nur
Töne oberhalb der Hörcharakteristik bearbeitet.
Der zweite Effekt ist die Lautstärke, die im Empfinden einer gewissen Dynamik
unterliegt und die Hörschwelle verändert. Das bedeutet, dass bei lauteren Tönen die
Hörschwelle automatisch ansteigt. Diese Dynamisierung der Hörschwelle wird in
PASC ebenfalls berücksichtigt.
Das PASC-Verfahren ist höchst effizient, es benötigt bei gleicher Tonqualität nur ein
Viertel der Bitrate gegenüber PCM. PASC setzt auf den MPEG-Standard und hat eine
Bitrate von 384 kbit/s.
Psychoakustik Die Psychoakustik ist die Wissenschaft zur Wahrnehmung von Schall durch den
psycho acoustics Menschen. Sie befasst sich mit der Hörcharakteristik, der Hörschwelle und den sie
beeinflussenden
Phänomenen. Aus den
Erkenntnissen der
Psychoakustik wurden
verschiedene
Bewertungskriterien und
Maßeinheiten abgeleitet.
So die in Sone
angegebene Lautheit,
die Rauhigkeit,
angegeben in Asper, die
Schärfe mit der
Bewertung in Acum und
Frequenz- und Lautstärkedas Vacil für die
Umfang von Musik und
Schwankungsstärke.
Sprache
Exit
Index
45
AUDIOKOMPRESSION
Da viele psychoakustische Phänomene auf dem subjektiven Empfinden basieren,
setzt man die empirisch ermittelten Abhängigkeiten von Frequenzen und Lautstärken
in der Audiokompression zur Datenreduktion um. Einer der wichtigsten Effekte ist
dabei die Verdeckung von Tönen mit unterschiedlicher Lautstärke oder mit temporärer
Abdeckung, die so genannte Maskierung. Dem Hörenden werden bei der Umsetzung
bestimmte Töne vorenthalten, die er nicht wahrnehmen kann. Ebenso wird die
Veränderung der Hörschwelle, die durch laute oder leise Töne erfolgt, für die
Datenreduktion verwendet, da es keinen Sinn macht, Töne zu übertragen, die
unterhalb der Hörschwelle liegen. Auch fasst das menschliche Gehör benachbarte
Tonfrequenzen zu einem einzigen Ton zusammen.
Darüber hinaus kann Sprache und Musik bedingt durch den unterschiedlichen
Frequenz- und Dynamikumfang unterschiedlich stark komprimiert werden.
QDesign QDesign, nach der gleichnamigen Firma benannt, ist eine Audiokompression für
QuickTime. QDesign setzt auf ein Modell der Psychoakustik. Bei dem Verfahren
werden die die Audiosignale parametrisch erfasst, in Komponenten zerlegt und das
Ergebnis als Koeffizienten abgelegt.
Es gibt mehrere QDesign-Kompressionsformate: QDesign Music und QDesign Music
2 Pro (QDX), die in QuickTime eingesetzt werden.
QDX arbeitet mit Datenraten von 64 kbit/s, hat eine höhere Klangqualität als MP3 und
Kopierschutz.
RealAudio RealAudio ist ein komprimiertes Internet-Audiodateiformat von Real Networks, mit dem
real audio, RA sich Echtzeit-Audio über das Internet übertragen lässt. Die Übertragung erfolgt dabei,
ohne dass vorher die komplette Audio-Datei vom Nutzer heruntergeladen wird.
RealAudio ermöglicht also Streaming-Audio, wobei das Abspielen der Audiosequenzen
direkt nach dem Aufruf der Datei startet. Die Datenrate ist relativ gering, was durch
eine Qualitätsminderung erzielt wird. RealAudio wird über das UDP-Protokoll
übertragen, wobei der Verlust von Datenpaketen keinen Einfluss auf die Qualität des
Streaming-Media hat. Die Kompression liegt zwischen 16:1 und 24:1.
Exit
Index
46
AUDIOKOMPRESSION
RealAudio bietet Kopierschutz, es wird mit einem speziellen Programm, das in allen
gängigen WWW-Browsern eingebunden werden kann, übertragen.
Die Datei-Extension für RealAudio-Dateien ist *.ra oder *.ram.
http://www.realaudio.com
SAC Bei der SAC-Kompression handelt es sich um eine Audiokompression, die mit Bitraten
spatial audio coding von 128 kbit/s bis 192 kbit/s arbeitet. Die gegenüber anderen Audiokompressionen
geringere Bitrate ist auf ein ausgeklügeltes Verfahren zurückzuführen, bei dem die
Raumklanginformationen von mehreren Kanälen in einem anderen Kanal
untergebracht werden. Es handelt sich um eine Multikanal-Synthese, das Stereokompatibel ist und mit normalen Stereo-Decodern wiedergegeben werden kann. Die
benutzten Algorithmen vermitteln dem Hörer eine Illusion des Raumklangs, indem sie
psychoakustische Gehirnfunktionen ausnutzen.
Die SAC-Kompression soll als Standard der MPEG unabhängig vom verwendeten
Audiodateiformat sein. Vorhandene Audiogeräte sollen mit SAC Surround-Klang
abspielen können.
Die SAC-Kompression ist eine flexiblere Methode als Joint-Stereo und kann auch als
Erweiterung des Binaural Cue Coding (BCC) angesehen werden.
SBR Audio-Codecs nutzen neben verschiedenen Kompressions-Algorithmen auch diverse
spectral band replication andere Techniken um bei niedrigen Bitraten eine möglichst hohe Klangqualität zu
erzielen und dabei die Dateigrößen möglichst klein zu halten.
Das SBR-Verfahren, das in aacPlus und mp3pro angewendet wird, ist eine
Codierungs-Technologie, die sich durch eine hohe Klang- und Sprachqualität bei
niedrigen Bitraten auszeichnet.
Das SBR-Verfahren setzt bei Tönen von über 5 kHz ein, die aus der normalen
Decodierung gewonnen und mittels SBR rekonstruiert werden. Durch diese
Rekonstruktion brauchen die hohen Töne, die eine größere Datenmenge
repräsentieren, nicht mit übertragen werden. Die Ton-Rekonstruktion basiert auf den
tieferen Frequenzen, die von dem normalen Decoder erzeugt werden. Damit eine
Exit
Index
47
AUDIOKOMPRESSION
einwandfreie Rekonstruktion der Audiosignale stattfinden kann, werden zusätzlich zu
den übertragenen Audiodaten noch Steuerdaten im Bitstrom übertragen. Die
Rekonstruktion arbeitet sehr effizient mit den Harmonischen und ermöglicht die
richtige Rekonstruktion der Signalform in Bezug auf dessen Zeit- und
Frequenzverhalten.
Subband-Codierung Subband-Codierung ist eine Technik, die bei der Audiokompression in MPEG, MP3,
subband coding mp3Pro und ATRAC eingesetzt wird. Die Subband-Codierung arbeitet in Verbindung
mit der Maskierung und teilt das Frequenzspektrum des Audiosignals in
Frequenzbänder mit unterschiedlichen Bandbreiten, meistens 32, die einzeln und
unabhängig voneinander variabel quantisiert werden können. Wichtige
Frequenzbänder haben eine höhere Bandbreite, unwichtige eine geringere
Bandbreite, oder sie werden gar nicht berücksichtigt. So können Frequenzbänder mit
hohem Audio-Inhalt und großer Dynamik mit hoher Sampletiefe, andere hingegen mit
niedriger Sampletiefe quantisiert werden.
TwinVQ, transformdomain weighted
interleave vector
quantization
Exit
Index
48
Die TwinVQ-Kompression, auch als VQF bekannt, ist eine verlustbehaftete
Audiokompression, die am NTT Human Interface Laboratories in Japan entwickelt
wurde und auf dem Prinzip der Vektorquantisierung basiert. Das Verfahren zeichnet
sich gegenüber MP3 durch eine höhere Kompressionsrate und bessere Audioqualität
aus und eignet sich speziell für die Kompression von Musik. Die Qualität von TwinVQ
ist bei 96 kbit/s vergleichbar mit der von MP3 bei 128 kbit/s.
Bei der TwinVQ-Kompression werden die Audiosignale abgetastet, die Abtastungen
als Muster von Vektoren betrachtet und mit Standard-Mustern verglichen. Entspricht
ein Vektor-Muster einem gespeicherten Standard-Muster oder kommt es diesem sehr
nahe, wird der Index des Vektors übertragen.
Bei diesem Mustervergleich werden störende Beeinträchtigungen wie Rauschen oder
Geräusche vernachlässigt.
TwinVQ ist Teil von MPEG-4 V.1.
AUDIOKOMPRESSION
Verlustbehaftete
Kompression
lossy data compression
Die verlustbehaftete Kompression
orientiert sich an der
Wahrnehmungsfähigkeit des Betrachters
oder des Zuhörers. So können aufgrund
der menschlichen Gehirntätigkeit und
der Auflösungsmöglichkeit von Farben,
Formen und Tönen bei Grafiken, Audios
oder Videos Informationen verändert
oder entfernt werden, ohne dass sich die
Wahrnehmung wesentlich ändert und
Verlustfreie und
verlustbehaftete
Audiokompression
der subjektive Eindruck verschlechtert.
Bei der Dekompression einer verlustbehafteten Kompressionsdatei kann nicht mehr
das exakte Originalbild regeneriert werden. Die Abweichungen hängen vom
Kompressionsgrad und vom gewählten Kompressionsverfahren ab. Das bekannteste
verlustbehaftete Kompressionsverfahren für Bilder, Fotos und Grafiken ist JPEG.
Verlustfreie Bei der verlustfreien Kompression werden keine Informationen verändert oder entfernt.
Kompression Bei diesem Verfahren werden lediglich eindeutig redundante Datenbestände
lossless data compression komprimiert, so beispielsweise in der Textkompression, der Audiokompression oder der
Bildkompression.
Bei der verlustfreien Kompression erfolgt die Datenreduktion durch die Ausnutzung
statistischer Häufigkeiten. Dabei werden den am häufigsten vorkommenden Bitstrings
die kürzesten Codes zugewiesen, seltener vorkommende Zeichen erhalten die
längsten Codes. Mit der verlustfreien Kompression sind im Gegensatz zur
verlustbehafteten Kompression nur wesentlich geringere Kompressionsfaktoren
erreichbar.
Eines der bekanntesten Verfahren der verlustfreien Kompression ist das ZIPDateiformat, das mit enorm hoher Kompressionsrate Texte und Grafiken mit
unterschiedlichem Dateiformat komprimiert darstellt. Weitere bekannte Verfahren sind
u.a. die Huffman-Codierung, der LZW-Algorithmus, die Lauflängencodierung (RLE)
Exit
Index
49
AUDIOKOMPRESSION
und ein Modus in JPEG.
Mit der LPAC-Kompression und der LTAC-Kompression gibt es zwei Verfahren für die
Audiokompression, die in MPEG-4 als MPEG-4 Audio Lossless Coding (ALS)
berücksichtigt werden. Weitere sind OptimFrog und Monkeys Audio.
WMA Die Audiokompression WMA von Microsoft gehört zu Windows Media Format (WMF)
Windows media audio und arbeitet mit einer Abtastrate von bis zu 192 kbit/s. Die in vielen Tests bewertete
Klangqualität wird allgemein als gut beurteilt. Was die WMA-Kompression allerdings
auszeichnet ist ihre Schnelligkeit. Wie die anderen Audio-Codecs auch wird die WMAKompression ständig weiterentwickelt und unterliegt firmenspezifischen Patenten.
So bietet WMA9 verschiedene Kompressionsarten, die das Archivieren ohne
Qualitätsverlust ermöglichen. WMA9 arbeitet mit mehreren Bitraten, die in Verbindung
mit den aufgerufenen Profilen variieren. Eine direkte Bitratenwahl ist nicht vorgesehen.
Die WMA-Kompression hat gegenüber anderen Audiokompressionen den Nachteil,
dass der Höhenanteil vernachlässigt wird. So werden selbst bei hohen Bitraten von 80
kbit/s Frequenzen oberhalb 13,5 kHz begrenzt; bei 48 kbit/s liegt diese Grenze bereits
bei 12 kHz. Es unterstützt Mono und Stereo, hat Vorkehrungen für Kopierschutz und
digitales Rechtemanagement (DRM) sowie einen Tag für die Speicherung weitere
Informationen. Die Kompressionsrate liegt wie bei den anderen Audio-Codecs bei ca.
95 %, und ist geringfügig abhängig von der Bitrate.
Media-Player, die das Format unterstützen sind WinAmp, Windows Media Player und
Musicmatch.
WMA wird hauptsächlich zum Herunterladen von Dateien aus dem Internet und zur
Darstellung von Streaming-Media verwendet. Das Format ist allerdings mit einem
Kopierschutz versehen.
XMF XMF, extensible music format
extensible music format XMF ist ein offener Standard für die Audiokompression, deren Dateiformat gegen eine
geringe Schutzgebühr erhältlich ist. Die Kompression kann in Verbindung mit
bestimmten Tools, wie der Audio-Engine von Beatnik, um ein Vielfaches höher sein als
Exit
Index
50
AUDIOKOMPRESSION
eine MP3-Kompression.
XMF ist eine Weiterentwicklung des von der MIDI Manufacturer´s Association (MMA)
entwickelten RMF-Formats. Das in XMF verwendete Container-Format kann eine
beliebige Anzahl an MIDI und DSL-Dateien beinhalten und erzeugt sehr kleine
Audiodateien.
XMF wird zur Kompression im Audiobereich ebenso wie in Handys oder Spielkonsolen
eingesetzt.
XMF gibt es in verschiedenen Versionen. In der Version 1.0, die 2001 von der MMA
veröffentlicht wurde, wird ein Metafile spezifiziert, in der Standard MIDI Files (SMF)
und DLS-Dateien kombiniert sind. XMF V2.0 hat Änderungen im Header, durch die die
Kennzeichnung von MIME-Daten in Bezug auf XML vereinfacht wird.
Exit
Index
51

AUDIO- KOMPRESSION Weitere Top

Transcription

Similar documents

Audiologische und HNO-Funktionsdiagnostik AUFDT

Inhaltsverzeichnis

Kompression - Media

NCH Software WavePad Audio

VSX-1014 VSX-2014i - Pioneer Europe

Codierung Glossar Codierung

TUMcampus

DIE STARKEN EXTRAS Top-Seller mit

Heim-Netzwerk über die hausinterne Stromleitung

"Hyazinth und Rosenblütchen" Die Romantik als Anfang der Moderne

Video

"B" und

Experimentelle Evaluierung eines Ansatzes zur semantisch

Produktblatt downloaden

Dokument_1.

1,3 MByte

starten

Motivation, Grundlagen, Medienverschlüsselung

Entwicklung von Multi-Medialen Lernmaterialien für die perzeptive

Folien 3: Ausgewählte Algorithmen

Kaffeestudie

pcnews—141