Audio im Internet

Transcription

Audio im Internet
Audio im Internet
Seite 1
Audio im Netz
Ausarbeitung des Referats
WebPublishing Seminar
WS 2003/04
bei Prof. Dr. Oliver Vornberger
Felix Bießmann,
[email protected]
Audio im Internet
Seite 2
Einleitung
Mit dem Multimedia Hype der vergangenen Jahre und der Etablierung des DSL-Netzes hat auch das
Interesse an Multimedialen Auftritten im Internet zugenommen. Abgesehen von der Raubkopier- und
Tauschwut der User in Sharebörsen, hat sich das Medium Audio auch auf Webseiten etabliert:
Es gibt Internetradiostationen, die es mit vergleichsweise geringem Aufwand schaffen, in die ganze Welt
übertragen zu werden.
Sprachausgabe ermöglicht es Blinden, sich im Web zurechtzufinden.
Vorträge und Konzerte werden live im Netz übertragen.
Soundeffekte und Hintergrundmusik können den Webauftritt manchmal positiv beeinflussen
Nun gut, viele Soundeffekte auf einer Webseite können unter Umständen nerven. Es gibt aber auch
sinnvolle Einsatzmöglichkeiten. Im pädagogischen Bereich zum Beispiel kann eine multimediale Seite mehr
bewirken als bloßer Text. Was das Streaming angeht, so sind Streamingtechnologien sind nicht mehr nur für
professionelle Sendebetriebe erschwinglich. Einige Freeware Programme erlauben es jedem Internetuser,
sich – abhängig allein von seiner Bandbreite – einen Audiostream in seine Seite zu integrieren. Im Folgenden
ein Abriss über das Medium Audio im Internet, wichtige Formate und die Möglichkeiten bei der Einbindung in
Websites.
Vom analogen zum digitalen Klang
Klang ist die Vibration von Luftmolekülen oder die Veränderung des Luftdrucks, die vom Trommelfell
wahrgenommen werden kann.
Charakteristisch für einen Klang sind
1. Frequenz:
Häufigkeit der Vibrationen, wahrgenommen als Tonhöhe
2. Lautstärke:
Amplitude der wellenförmigen Luftdruckveränderung
3. Klangfarbe:
Klänge, die nur eine einzige Frequenz besitzen, kommen in der Natur nicht vor. Solche
können nur elektrisch synthetisiert werden. Natürliche Klänge setzen sich aus vielen
Schwingungen zusammen. Ein Klavierklang und ein Trompetenton unterscheiden sich nicht
nur durch ihren unterschiedlichen Laustärkeverlauf, sondern auch durch ihr spezifisches
Obertonspektrum; anhand der Zusammensetzung dieser Obertöne, also der Töne, die mit
einer höheren Frequenz als der Grundton mitschwingen, können wir Klänge, die die gleiche
Tonhöhe haben, jedoch von unterschiedlichen Instrumenten stammen, unterscheiden
Wahrnehmbar sind Frequenzen von 20 bis 20.000 Hertz. Die
Amplitude der Klangwellen wird als Lautstärke wahrgenommen.
Digital wird ein Klang von zwei Werten repräsentiert: SamplingRate und Bit-Tiefe. Ein Sample ist ein kleines Stück eines
Wellenmusters, das eindeutig den Wert und die Position des
elektrischen Analogsignals beschreibt. Die Anzahl der Samples
in einer Sekunde wird als Auflösung oder Sampling-Rate
Audio im Internet
Seite 3
bezeichnet. Die Bit-Tiefe stellt die Größe der Samples im Speicher dar. Je mehr Bit zur Verfügung stehen,
desto mehr Klanginformationen können gespeichert werden. Ein Sample ist also eine digitale
Momentaufnahme eines Klangs. Wie beim Video werden diese hintereinandergereiht um den Eindruck eines
„echten“ Signals zu bekommen. Anders als beim Film, wo schon 24 Samples (oder Frames in diesem Fall) in
der Sekunde flüssig wirken, hat sich beim Klang eine Sampling-Rate von 44.100 Hz als am besten geeignet
erwiesen, das Signal naturgetreu wiedergeben zu können. Ein Sample sollte dabei mindestens 16 Bit
Speicherplatz bekommen. Die Abtastrate moderner Wandlerkarten liegt zwar schon häufig bei über 96 KHz,
jedoch langen 44,1 KHz meist, um das wahrnehmbare Frequenzspektrum abzubilden. Die Samplerate sollte
aber schon über dem Doppelten der oberen Wahrnehmungsgrenze liegen, da aufgrund der Aliasing-Effekte
das Ausgangssignal andernfalls verfälscht werden könnte.
Hier ein Beispiel:
Ein Sinuston (1,035 Hz) bei 44,1 KHz aufgenommen; Punkte oberhalb der Linie in dieser sehr vereinfachten
Skizze repräsentieren positive Spannungen des elektrischen Analogsignals, die darunter negative.
Abbildung 1Hier die Spektralanalyse des Sinustons. Die lauteste Amplitude liegt bei 1,035 KHz (C6).
Eine Samplerate von 2,000 Hz jedoch ist unter der kritischen Nyquist-Frequenz für diesen Klang. Der
Physiker Nyquist stellte fest, dass unterhalb der kritischen Samplerate von Grundtonfrequenz x 2 AliasingEffekte auftreten, die das Ausgangssignal verfremden. In diesem Fall ist die Abweichung des Tons:
1,035 KHz – 2 Khz/2 = 35 Hz
Das ist nicht viel, aber hörbar. Dennoch ist die geringe Abweichung angesichts der dürftigen Repräsentation
noch erstaunlich.
Abbildung 2Hier die Spektralanalyse des Tons mit Aliasing-Effekt. Die lauteste Amplitude liegt hier bei 955 Hz (A#5). Entsprechend
der niedrigen Samplerate hat sich der Ton im sichtbaren Spektrum nach rechts verschoben (der Sampleeditor schneidet automatisch
bei der Hälfte der Samplefrequenz, 1 KHz, ab).
Audio im Internet
Seite 4
Man sollte also bei Aufnahmen, oder Resampling von Audiofiles immer auf eine ausreichende Samplingrate
achten. Das gilt auch für das Komprimieren mit platzsparenden AudioCodecs. Hier eine Skizze, die an
obigem Beispiel schemenhaft verdeutlicht, wie sich die Qualität der digitalen Repräsentation des Tons
verschlechtert, wenn die Abtastfrequenz abnimmt.
o
o
o
o
oo
o o
o
oo
oo
oo
o o
o o
o o
o o
-----o-----o-----o-----o-----o-----o-----o-----o
o o
o o
o o
o o
o
o
o
o o
o o
o o
------------------------------------------------
o o
o o
o o
o
------------------------------------------------
o o
o
oo
oo
oo
oo
o
o
o
o
44,1 KHz
o
o
o
o
o
22,05 KHz
2 KHz
Auflösung zwar schlechter, jedoch lässt
sich das Ausgangssignal noch getreu
reproduzieren.
Aufbereitung des Audiomaterials
Falls man das Material nicht schon digital auf CD vorliegen hat, sondern es erst umwandeln musste, sollte
man es zuerst ein wenig bearbeiten. Den Umweg über die analoge Aufnahme legt auch die Gesetzesnovelle
vom 13. September nahe: nimmt man eine CD mit Kopierschutz auf Kassette auf, überspielt diese wieder auf
den Rechner und wandelt diese Datei in beispielsweise das MP3 Format um, so hat
man den Kopierschutz legal umgangen. Natürlich gilt auch für diese Kopien, dass
sie nur für private Zwecke und nur in siebenfacher Ausführung erstellt werden
dürfen. Hochwertige Aufnahmen kann inzwischen jeder daheim am Rechner mit
recht einfachen Mitteln hinbekommen. Aktuelle Soundkarten haben standardmäßig
Sampleraten, die CD-Qualität erreichen. Hat man ein Lied aufgenommen geht es
an die Aufbereitung. Früher hatten nur professionelle Studios diese Möglichkeit, die
Abbildung 3Ein Gitarrenlick,
digitale Form macht die Bearbeitung jedoch erheblich billiger. In jedem aufgenommen bei 44,1 KHz/20
mittelmäßigen Sample-Editor sind die wichtigsten beiden Werkzeuge, natürlich in Bit.
sehr unterschiedlicher Qualität, enthalten.
Erstens sollte man das Material normalisieren, das heißt die Aufnahme sollte den
kompletten zur Verfügung stehenden Dynamikbereich ausschöpfen um eine
einheitliche Lautstärke aller Dateien zu erreichen. Bei diesem Verfahren wird
zunächst der lauteste Pegel in der Datei festgestellt; diesem wird die maximale
Lautstärke zugewiesen, die Amplituden der übrigen Samples werden relativ zum
lautesten Klang entsprechend vergrößert. Normalisierung ist aber nicht nur aus
Abbildung 4Dasselbe Lick,
Gründen der Okonomie (die Lautstärke muss nicht nachträglich angeglichen
normalisiert
werden) und der Konsistenz notwendig. Auch bei der Konvertierung von StereoFiles in platzsparende Mono-Files ist es wichtig, vorher zu normalisieren. Man
sollte den Output auf ungefähr 70 % des Ausgangsmaterials trimmen, um digitale
Übersteuerung beim Zusammenmischen der beiden Spuren zu vermeiden, wenn der 0 dB Wert des
Dynamikbereichs überschritten wird. So etwas macht sich mit Knacksern in der Ausgabedatei bemerkbar.
Audio im Internet
Seite 5
Als nächstes sollte man sich bemühen, die Konsistenz der Lautstärke auch
innerhalb der Datei herzustellen. Denn die ursprünglichen Lautstärkenverhältnisse
bleiben beim Normalisieren erhalten. Wenn bei einer Aufnahme ein Ton knapp
unter der Übersteuerungsgrenze liegt, der nächste jedoch kaum hörbar ist, mag
das dem musikalischen Ausdruck dienen, der Verständlichkeit ist es jedoch eher
abträglich. Um allzu krasse Unterschiede auszugleichen gibt es den Kompressor,
Abbildung 5Nocheinmal das Lick,
der übrigens nichts mit der Komprimierung der Dateigröße zu tun hat. Es handelt nun aber komprimiert. Auch wenn
sich um einen Effekt, der die Amplituden der lautesten Wellen staucht und es so die lautesten Amplituden kleiner
beim normalisierten Beispiel
ermöglicht, die leiseren Signale noch ein wenig lauter darstellen zu können. als
sind, ist alles insgesamt lauter
Normalerweise setzt man den Kompressor ein, um Klang zu verdichten und so im
Zusammenspiel mit anderen Klängen hervorzuheben. Auch wenn ein Lied abgemischt ist, wird der finale Mix
noch einmal mit dem Kompressor bearbeitet. Bei eigenen Aufnahmen, die von fertigen Produktionen
überspielt wurden, ist es nicht immer sinnvoll, diesen Effekt einzusetzen, da mit den falschen Parametern die
Dynamik der Aufnahme stark verändert werden kann. Jedoch bieten die meisten Kompressoren
Defaulteinstellungen, die helfen, ohne viel Vorkenntnisse eine Sound Datei druckvoller zu machen und das
ist es, was man zu erreichen versuchen sollte, bevor man die Datei in andere, platzsparendere Formate
umwandelt.
Komprimierung
Normale Modem- und DSL-Verbindungen haben zu wenig Bandbreite, um Audiodateien mit einer SampleRate von 44,1 KHz und 16 Bit Samplegröße zu übertragen. Obige Beispieldateien des Sinustons waren im .
wav Format, also unkomprimiert. Bei einer Bitrate von 1411 Kbps brauchte eine Datei bei der
Samplingfrequenz 44,1 KHz schon 420 Kb. Deshalb müssen die Dateien komprimiert werden. Hier sind die
hauptsächlichen Prinzipien, nach denen die gängigen Komprimieralgorithmen verfahren. Zunächst werden
soviel überflüssige Informationen wie möglich weggelassen. Generell gilt bei Eigenaufnahmen, dass die
Frequenzen über 10 KHz und die unter 80 Hz unter anderem auch Störgeräusche enthalten, wie das
Brummen des Gehäuselüfters oder des Netzteils, die nichts mit dem eigentlichen Inhalt der Datei zu tun
haben. Diese irrelevanten Frequenzen und alle, die noch weiter außen am hörbaren Spektrum liegen, werden
von vielen Komprimier-Algorithmen weggeschnitten.
Man kann auch noch weiter gehen. Die Frequenzen, die menschliche Stimmen produzieren liegen
hauptsächlich zwischen 1 und 4 KHz. Bei Dateien, die Sprache wiedergeben, könnte man deshalb die
Frequenzbänder außerhalb dieses Bereichs unterdrücken. So verfährt beispielsweise ein WindowsMediaFormat für Stimmenübertragung (Sample-Rate: 6,5 KHz): eine 19 MB große Audiodatei wird auf knapp 100
KB gestaucht, wobei alle unnötigen Frequenzen weggelassen werden und ein Anti-Aliasing Filter
Verfremdungen verhindern hilft. Jedoch wird der Klang allein schon dadurch verfremdet, dass er sich auf das
schmale Band von 1 bis 4 KHz beschränkt, denn die natürlichen Obertonreihen der Stimme erreichen 7 KHz
und mehr. Den Unterschied zwischen einer echten und einer so beschnittenen Stimme erkennt man aber
sofort, es klingt noch schlechter als beispielsweise am Telefon.
Überflüssige Informationen sind außerdem doppelte Töne. Wenn ein Klang von einem leiseren derselben
Lage, oder einem geringfügig höheren (respektive niedrigerem), überlagert wird, kann der leisere
weggelassen werden, ohne dass man es wahrnimmt. MP3 Codecs können darüber hinaus den Speicher so
verwalten, dass Samples, die simpel sind und wenig Information enthalten, ihren Platz teilweise für
Informationen aus komplexeren Samples zur Verfügung stellen. Viel Platz verbraucht das Stereo-Format. Bei
geringer Bandbreite sollte man ganz darauf verzichten, aber viele Komprimieralgorithmen bieten einen
Kompromiss: Das menschliche Ohr kann Töne bei besonders hohen oder tiefen Frequenzen immer
schlechter orten. Deshalb fällte es meist nicht auf, dass alle Stereoinformationen aus den
Frequenzbereichen, die das menschliche Ohr nur schwer räumlich zuordnen kann, auf eine Monospur
gemischt werden.
Wenn all diese psychoakkustischen Aspekte berücksichtigt wurden, läuft schließlich noch ein Algorithmus
über die Datei, der gleiche Muster erkennt und Duplikate weglässt, wobei er sie durch eine Referenz auf das
erste Muster ersetzt. Wie radikal die Komprimieralgorithmen mit dem Material verfahren bestimmt die
Klangqualität der enkodierten Daten.
Audio im Internet
Seite 6
Der Zusammenhang von Bitrate und Qualität einer Audiodatei am Beispiel eines MP3-Codecs:
Kb/s
Größe in MB
Qualität
1411
41,3
CD-Qualität; *.wav Datei von 4 Minuten
192
5,6
Kaum von CD Qualität zu unterscheiden
128
3,8
Nahe an der CD; hat sich als Internetstandard etabliert
64
1,9
Mehr als genug für Stimmen/bei modernen Codecs fast CD-Qualität
Streaming Protokolle
Wenn die Daten nun komprimiert sind, könnte man sie freilich einfach herunterladen aus dem Netz und vom
Rechner aus anhören. Das ermöglicht aber noch keine andauernden Sendungen oder Live-Übertragungen.
Vollständiges Runterladen kostet außerdem Speicher und Zeit. Die beste Alternative ist, die Dateien in
kleinen Paketen zu verschicken, die clientseitig gebuffert werden und zusammenhängend wiedergegeben
werden. Das nennt man streamen. Die Bufferung soll verhindern, dass die Wiedergabe abbricht, wenn der
Datenstrom versiegt. Diese Technologie verhalf dem Internet zu einem multimedialen Aufschwung. Doch
nicht jedes Datenprotokoll im Internet ist gleich gut geeignet, Streams zu übertragen.
Generell bietet das Internet hauptsächlich zwei Möglichkeiten, Daten zu versenden: über das TCP und das
UDP Protokoll. Diese arbeiten über einem IP Netzwerk. Während das IP Protokoll alleine sich nur mit dem
Versenden von Daten beschäftigt, ermöglichen es TCP und UDP, eine Verbindung zwischen zwei Rechnern
herzustellen. TCP/IP hat sich für die FTP, SMTP und HTTP Übertragung etabliert, da es die Integrität der
Daten garantiert. Das UDP Protokoll bietet kontinuierlichen Datenstrom, allerdings ohne die Sicherheit der
Daten zu gewährleisten. Das TCP Protokoll verlangt von der Client-Seite immer eine Rückmeldung, um
Fehler bei der Übertragung zu vermeiden und den Transfer zu organisieren. Die Pakete eines UDP
Protokolls haben lediglich einen Marker, der Fehler feststellt, die Übertragung läuft aber nahtlos weiter, ohne
die verlorenen Daten zu ersetzen. Analog kann man die Übertragung von Audio mit verschiedenen
Protokollen gegenüberstellen. Streamingprotokolle wie das RealTimeStreamingProtocol verfahren eher nach
dem UDP-Schema, Protokolle, die mit TCP/IP übertragen werden, wie HTTP kommen an deren
Performance nicht heran. Erstellt man eine HTML Seite, wird die über das HTTP Protokoll verschickt. Will
man nun Audio in die Seite einbetten, muss man sich entscheiden, ob man einen Stream im echten Sinn
anbieten will, oder nur einen sogenannten Pseudo-Stream über HTTP. Erstere Lösung wählen professionelle
Sendebetriebe, die viele User auf einmal mit demselben Inhalt bedienen. Die Interaktivität steht dabei im
Hintergrund. Einen Server zu installieren, der RTSP benutzt, oder das Streaming Protokoll von
WindowsMedia, ist allerdings meist teuer und auch nicht ganz einfach. Es gibt zwar Gratisversionen der
nötigen Software von Realaudio, Microsoft oder Apple, allerdings fehlen dem normalen User die
Hardwarevoraussetzungen, um einen fähigen Server aufzuziehen, von der Bandbreite ganz zu schweigen.
Es bleibt die Möglichkeit, über HTTP zu streamen. Alle gängigen Streaming-Formate unterstützen dies. Für
Soundeffekte, Hintergrundloops oder allgemein interaktive Seiten ist das keine schlechte Lösung. Bettet man
ein Soundfile in ein SMIL-File in, das es erlaubt, Medien miteinander zu synchronisieren, kann man auch
Audio echt über HTTP streamen. Die Nachteile einer solchen Übertragung sind dadurch aber nicht gelöst.
Audio im Internet
Seite 7
Audioformate
RealAudio
Das älteste und wohl populärste Audiostreaming-Format ist RealAudio. Wie für Text- und Bildmedien bietet
das RealMedia-System eine stabile, leicht zu wartende und systemunabhängige Plattform für Audio im Netz.
Generell ist es mehr für professionellen Sendebetrieb gedacht, allerdings gibt es auch eine Gratisversion des
RealServers. Er bietet jedoch nur einen Datendurchsatz von 1 Mb/s, das heißt, es könnten fünf Personen
gleichzeitig eine Datei mit der Bitrate von 200 Kb/s streamen. Das sind nicht besonders viel. Aber es ist
dasselbe Prinzip wie bei der professionellen Serversoftware: Im HTML-Text befindet ein Link auf ein Metafile
(*.ram), das genauso heißt, wie die eigentliche Audiodatei (*.rm, früher *.ra). Dieses Metafile enthält nur die
URL des Soundfiles. Das liegt auf dem RealServer. Wenn der Browser dieses Metafile interpretiert, öffnet er
das RealPlayer-Plugin (sofern er den MIME-Type kennt). Der Player leitet die URL an den RealServer weiter
um den passenden Clip als Stream geliefert zu bekommen. Aber in diesen Dimensionen kann man den
RealServer auch weglassen und die RealAudio-Daten über HTTP von einem normalen Web-Server
streamen. Dadurch verpasst man allerdings die Vorteile, die ein RealServer bietet:
1. Bandweitenaushandlung
Der Server kann feststellen welche Verbindung der anfragende User benutzt, und den Stream mit
der besten Bitrate bereitstellen; ein 28 Kbps Modem sollte nicht mit einem 128 Kbps Stream
überlastet werden, wenn man allerdings eine DSL-Verbindung hat, wäre es schön, eine
angemessene Klangqualität geliefert zu bekommen
2. Robuste RSTP Übertragung
Das RealTime-Protokoll findet und kompensiert verlorengegangene Pakete; das sorgt für flüssige
Streams; hier liegt die Hauptschwäche des HTTP
3. Splitting
Das Audiosignal kann aufgesplittet und an weitere RealServer weitergeleitet werden, um den Server
zu entlasten
4. Clustering
Mehrere RealServer können zu einer Multiprozessormaschine zusammengeschaltet werden
5. IP-Multicasting
Erlaubt es allen Usern in einem LAN denselben Stream zu hören;
Für Dinge, die ohne solchen Luxus auskommen, bietet sich HTTP-Streaming an. Dabei ist der
Server bei hochfrequentierten Seiten recht schnell überlastet. Dinge wie Livestreams sind über HTTP
nicht möglich. Für die Erstellung der RealMedia-Dateien gibt es einen Gratis-Encoder .
Am besten komprimiert man eine Audio-Datei mehrmals mit verschiedenen Bitraten, um für verschiedene
Verbindungen die günstigste Version anbieten zu können. Egal wie man die Mediendatei streamt, die
Einbettung kann man in jedem Fall gleich vornehmen:
•
man referenziert in der HTML Seite auf eine Datei, die die Extension *.ram für einen Popup Player hat,
und *.rpm, wenn man die Datei mit dem embed Tag in die Seite einbinden will.
•
In der *.ram/*.rpm Datei steht nur der Link auf das *.ra File (RealAudio in unserem Fall), ohne
Anführungszeichen oder sonstige Tags
•
Alternativ kann man RealAudio mit anderen Medien in einem SMIL-File koordinieren; neben Informationen
über das Stück kann man auch Parameter angeben, die den zeitlichen Verlauf oder die zeitliche Position
im Verhältnis zu anderen Mediendateien festlegen.
Audio im Internet
Seite 8
Hier ein Beispiel:
<smil>
<head>
<meta name = "title"
content = "Demo" />
<meta name = "author"
content = "[email protected]" />
<meta name = "copyright"
content = "©2003" />
</head>
<body>
<audio src = "soundfile.ra"
begin = "0.0s"
dur = "123.0s"/>
</body>
</smil>
Überblick RealAudio
Interaktivität
OK; eigentlich ein Streaming-Format, aber auch gut für Slideshows; Synchonisierung
mit anderen Medien über SMIL
Kosten
Von null bis oben offen, je nach Anspruch; professionell ab ca. 2500 €
Dokumentation
Hervorragend
Enkodierung
Einfach
Einbindung
Einfach für HTTP-Streaming; Mittelmäßig schwierig für die Installation eines
RealServers;
Qualität
Exzellent
Performance bei
geringer
Bandbreite
Gut bis sehr gut
Server
Performance
Hervorragend
BrowserKompatibilität
Exzellent
Audio im Internet
Seite 9
MP3
Als populärstes Audioformat, das zwar nicht ausdrücklich für das Internet gedacht ist, sich aber aufgrund
seiner kleinen Dateigrößen besonders hier bewährt hat, kennen wir alle MP3 (eigentlich: MPEG-1, Layer III;
MPEG steht für das Entwicklerkonsortium Motion Pictures Expert Group). Es wurde 1992 fertiggestellt und
komprimiert Audiodaten sehr effizient. Die größten Speichereinsparungen gehen auf die oben erwähnten
psychoakkustischen Prinzipien zurück: nicht Wahrnehmbares wird weggelassen. Nicht hörbare Frequenzen
unter 20 Hz und über 20 KHz werden ersatzlos gestrichen, alles außerhalb des räumlich ortbaren Bereichs
(hauptsächlich 2 - 4 KHz) wird auf eine Monospur gemischt; überlagern sich zwei ähnliche Töne, wird der
leisere aufgegeben. Die Samples, in denen einfache Klangmuster abgebildet werden, geben ihren freien
Speicherplatz ab an Frames, deren Samples komplexer sind. Danach läuft ein Algorithmus über die Daten,
erkennt doppelte Muster und entledigt die Datei redundanter Strukturen. Damit werden die Dateien noch
einmal ca 20 % kleiner.
Der hauptsächliche Verwendungszweck von MP3's sind aber nicht internettypische Audioanwendungen, wie
Streaming oder Einbettung in Websites. Es hat sich vielmehr als das digitale Audioformat schlechthin
bewährt. Während man bei der Bereitstellung von RealStreams oder anderen proprietären Formaten immer
nur die Besitzer der passenden Abspielsoftware ansprechen kann (auch wenn sie umsonst ist, hat sie nicht
jeder), gibt es eine Unzahl von Playern, die MP3-Files abspielen können. Eigentlich alle Audiodaten, die
übers Netz ausgetauscht werden, sind im MP3-Format. Will man Audiofiles einem möglichst großem
Publikum lediglich zum Download anbieten, ist MP3 sicherlich die erste Wahl. Aber auch für die Gestaltung
einer Seite kann es recht nützlich sein. Zunächst gibt es auch für MP3-Dateien Serversoftware, die das
Bereitstellen von Streams erlaubt. Für Windows ist die populärste Software SHOUTcast von Nullsoft, den
Entwicklern des Winamps (ein bekannter MP3-Player). Als Open-Source Alternative hat sich Icecast
etabliert. Allerdings wird das MP3-Format inzwischen nicht mehr von Icecast unterstützt, man benutzt nun
das Open-Source Format OggVorbis, das auch vom Winamp gespielt werden kann. Das Prinzip von
SHOUTcast ist recht einfach: Die Software ist für die gängigsten Betriebsysteme erhältlich. Eine
Sendestation spielt ein File im Winamp ab, das an den Server übertragen wird. Als Hörer muss man nur die
URL des SHOUTcast Servers gefolgt von der Portnummer in das Location Feld in den Abspieloptionen
eingeben und kann so mithören. Dieses System hat sich als simples Mittel zur Verwirklichung der eigenen
kleinen Radiostation Beliebtheit verschafft. Eine weitere Möglichkeit, MP3 Streams in eine Seite einzubauen,
ist die Open-Source Lösung Peercast. Das Programm erlaubt es vielen Internetusern gleichzeitig über das
Gnutella Protokoll Audiostreams von anderen Usern zu hören, die die Software installiert haben. Doch muss
man sich der rechtlichen Konsequenzen des Schwarzsendens bewusst sein. Wer sich die Gebühren nicht
leisten kann und auch nicht die nötige Hardware oder Bandbreite zur Verfügung hat, für den entfällt diese
Möglichkeit der Klanggestaltung. Es gibt allerdings einige unabhängige Radiostationen unter obigen Links,
die ein breites Angebot an Musik spenden- oder selbstfinanziert anbieten. Generell sollte man bei rechtlichen
Fragen im Internet informiert sein, ob es rechtens ist, die Musik oder die Samples, die man verwenden will,
frei zugänglich zu machen. Die Einbindung von MP3 Files ist recht einfach, die Möglichkeiten sind allerdings
etwas beschränkt. Als Hintergrundmusik könnte man ein File beispielsweise so in eine Seite einbinden:
<html>
<head>
<title>Text des Titels</title>
<!-- Microsoft: -->
<bgsound src="soundfile.mp3" loop="infinite">
</head>
<body>
<!-- Netscape: -->
<embed src="soundfile.mp3" autostart="true" loop="true" hidden="true" height="0" width="0">
<h1>Inhalt der Seite</h1>
</body>
</html>
Audio im Internet
Seite 10
MP3 Überblick:
Interaktivität
Keine; MP3 ist nur ein Komprimier Standard
Kosten
Keine; Freeware Encoder gibt's im Netz
Dokumentation
Beschränkt
Enkodierung
Einfach
Einbindung
Einfach
Qualität
Sehr gut; hängt von Bitrate ab
Performance bei geringer
Bandbreite
Sehr gut
Server Performance
Gut bei SHOUTcast; hauptsächlich ein Download-Format
Browserkompatibilität
Exzellent
MIDI
Das wohl wichtigste digitale Musikformat für instrumentale Musik ist MIDI (Musical Instrument Digital
Interface). Es ist ein Standardprotokoll für die Kommunikation zwischen einem Rechner und syntethischen
Klangerzeugern. Seinen Aufschwung erlebte MIDI mit der zunehmenden Popularität der digitalen Synthesizer
in den 80er Jahren. Die analogen Synthesizer der 60er und 70 sind noch ohne Software ausgekommen,
jedoch konzentrierten sich die Synthesizerentwickler schließlich wegen den enormen Möglichkeiten der
Klanggestaltung und wegen der günstigen Herstellung auf digitale Synthesizer. Diese brauchten Software um
mit den Sequenzerprogrammen, die es vereinfachen, komplexe Partituren zu erstellen und analysieren, zu
kommunizieren. Um nicht für jeden Synthesizer eine neue Software erfinden zu müssen, einigten sich die
großen Hersteller der Branche (Roland, Sequential Circuits, Yamaha) 1982 auf ein gemeinsames Protokoll,
das sich schnell als allgemeiner Standard etablieren konnte. Auch heute noch ist die Kompatibilität zu allen
elektronischen Klangerzeugern gewährleistet, es gibt sogar MIDI-Controller, mit denen sich über den
Luftstrom MIDI-Daten erzeugen lassen, um die für Blasinstrumente typische Hüllkurve als MIDI zu speichern.
MIDI Dateien enthalten alle für ein Instrumentalstück wichtigen Informationen. Die Dateien bestehen aus
vielen MIDI-Events, die neben dem MIDI-Timestamp, der die Position des Events im Arrangement festlegt,
Informationen über Tonhöhe, Lautstärke und Klangfarbe eines jeden Tons enthalten; die Klangfarbe ist durch
das Instruments des MIDI-Events gegeben. Es stehen 16383 Instrumentenbänke mit je 128 Instrumenten zur
Verfügung. Somit enthält eine MIDI-Datei alle Informationen des Stücks, die auch in traditionellem Notensatz
festgehalten werden können. Man kann eine MIDI-Datei in jedem der üblichen Audiosequencer (Cubase,
LogicAudio, Cakewalk Sonar, ProTools...) öffnen und den gesamten Notensatz des Liedes betrachten und
ändern. Gratisversionen dieser Sequencer werden auf den Homepages der Firmen Steinberg, emagic und
cakewalk angeboten.
So ganz verlässlich ist der MIDI-Standard allerdings nicht: man kann eine MIDI-Datei vergleichen mit der
Partitur eines Stückes. Der endgültige Klangeindruck und letztlich die Qualität hängen stark vom Orchester
ab, das den Notentext interpretiert. Genauso ist es mit MIDI. Da in MIDI-Files keine Klänge gespeichert sind,
sondern nur die Information, wie diese zu erzeugen sind, ist es schwierig, vorherzusehn, wie die mit viel
Mühe erstellte MIDI-Datei beim Hörer abgespielt wird. Das Orchester muss nicht immer ein teurer
Hardwaresynthesizer sein. Heutzutage gibt es viel einfacher zu handhabende Softwaresynthesizer, die sich
Audio im Internet
Seite 11
problemlos in die Sequencer einbinden lassen über interne Audioschnittstellen wie VST (Cubase,
LogicAudio) oder Dxi (Cakewalk). Dabei werden die Klänge im Rechner selbst erzeugt und können
beispielsweise auch intern aufgenommen werden, ohne jegliche Klangverluste durch analoge Kabel oder
Mischpulte. Der Noteninput kommt von MIDI-Keyboards, die selber keine Klangerzeugung beherrschen
müssen. Diese internen Softwaresynthesizer werden inzwischen von allen wichtigen Windows/MacSequencern unterstützt, die Demoversionen der wohl fähigsten gibt es bei NativeInstruments. Egal welche
Synthesizer nun bei der Erstellung der MIDI-Files benutzt werden, Konsistenz der Stücke ist ein wichtiges
Thema. Wenn sich ein Produzent in seinem Studio an die High-End Synthesizer setzt und nächtelang die
passenden Sounds für ein Stück sucht, wird er sich nicht darauf verlassen wollen, dass der handelsübliche
Soundblaster im Rechner des Hörers dasselbe Klangerlebnis vermittelt wie die Geräte im Studio. Denn der
Klang an sich wird letztlich von der Audio-Engine, die den MIDI-Track abspielt, erzeugt. Das muss sich nicht
zwangsläufig schlecht anhören, aber allein die Tatsache, dass es sich ganz anders anhören könnte als die
eigentliche Komposition, schreckt viele Künstler ab. So gibt es zwar haufenweise gute bis sehr gute
Transkriptionen von bekannten Stücken im MIDI Format, jedoch würde sich niemand dazu herablassen
eigene neue Kompositionen in MIDI direkt den Hörern anzubieten. Der Absatzmarkt für MIDI-Musik
beschränkt sich hauptsächlich auf Alleinunterhalter und Produzenten, denen das Einspielen schwieriger
Passagen zu anstrengend ist. Und natürlich auf die Autoren von Webseiten. Denn die Vorteile für das
Internet liegen auf der Hand: unglaublich kleine Dateien im Vergleich zu anderen Musikformaten und alle
Vorteile, die sich daraus ergeben: kurze Ladezeiten, flüssiges Abspielen und das alles bei hoher
Browserkompatibilität (MIDI ist immerhin über 20 Jahre alt). Zwar ist das MIDI-Protokoll kein StreamingFormat, die Dateien sind aber so klein, dass sie schnell auf einmal heruntergeladen werden können. Ein Lied
von vier Minuten und 8 Spuren belegt weniger als 90 KB, das ist kein Vergleich zu allen
Audiokompressionsformaten. Da jedoch MIDI ursprünglich nicht für das Webpublishing sondern für die
Kommunikation zwischen Sequencern und Klangerzeugern entwickelt wurde, wird es immer einige Nachteile
behalten. Zum einen gibt es keinen einheitlichen Standard, wie MIDI-Klänge dargestellt werden müssen.
Zwar hat sich mit GeneralMIDI I und II ein Standard etablieren können, aber auch der ist keine
Klangqualitätsgarantie. GeneralMIDI ist ein Standard, der eine Auswahl von 128 Instrumenten festsetzt, die
jeder MIDI-Klangerzeuger beherrscht. Auf der vierten dieser 128 Spuren ist beispielweise immer ein
Honkytonk-Piano. Allerdings ist dieser Standard nur eine Richtlinie, wie der Klang einer Spur in etwa von der
Soundengine des Synthesizers dargestellt werden soll. Bei so schwammigen Begriffen wie tubular bells hat
man wenig Sicherheit, dass der Klang konsistent von verschiedenen MIDI-Klangerzeuger dargestellt wird.
Daneben lässt die Klangqualität bei diesen Instrumenten meist sehr zu wünschen übrig. Und: Stimmen oder
besondere und selbst erstellte Klänge lassen sich damit nicht übertragen. Während man auf der einen Seite
die Ungewissheit hat, ob Klänge wie gewünscht dargestellt werden, ist man andererseits beim einzigen
Standard an ein recht starres Konzept an Gestaltungsmöglichkeiten gebunden.
Deshalb haben einige Softwarehersteller hybride Systeme entwickelt, die die Vorteile von MIDI mit denen
üblicher Audioformate kombinieren sollten. Da gibt es zum Beispiel das Beatnik-Format, eine einstmals sehr
vielversprechende Kombination aus dynamischer Klangerzeugung (über MIDI) und herkömmlichem
Sampling. Man kann im Beatnik-Editor RMF (RichMusicFormat) Dateien erstellen, wobei man neben der
üblichen GeneralMIDI Instrumentenbank noch einen eigenen Synthesizer und einen Sampler zur Verfügung
hat. Mit dem Synthesizer kann man neue Klänge beispielsweise durch die Veränderung der Tonhöhe oder
Hüllkurve erreichen, mit dem Sampler hat man die Möglichkeit, kleine Samples von Stimmen oder anderem
Audiomaterial in das File zu integrieren. Allerdings hatte ich bei Recherchen im Netz nicht den Eindruck, dass
sich dieses Format, auch wenn das Konzept überzeugend ist, richtig durchsetzen konnte. Es findet in letzter
Zeit wieder verstärkt in Mobiltelefonen Anwendung, aber für Webpublishing scheint es nicht die Popularität
anderer Formate erreichen zu können. Das liegt wohl daran, dass die Umwandlung des Audiomaterials
relativ aufwendig ist, man muss es eigentlich noch einmal neu komponieren; Stimmenübertragungen sind
auch mit anderen Formaten viel einfacher zu verwirklichen als mit dem RMF. Und dann benötigt der Hörer in
spe noch das Beatnik-Plugin, denn das RMF wird von den wenigsten Playern unterstützt. Ich beschränke
mich also im Folgenden lieber auf das originäre MIDI Format. Denn auch hier ist man bemüht, konsistente
Klänge ohne zu viele Einschränkungen im Klang zu erreichen. Die MIDI Manufacturers Association hat sich
einen neuen Standard ausgedacht, der Klangkonsistenz garantieren soll. Downloadable Sounds (DLS) ist
eine Spezifikation, die inzwischen alle wichtigen Hersteller von Klangerzeugern in ihre Produkte integrieren.
Nicht nur Synthesizer sondern auch Abspielsoftware, beispielweise der WMPlayer und die QuicktimeSoftware unterstützen DLS. Man kann sich MIDI als recht abgespecktes Protokoll zu Übertragung von
Informationen über Tonhöhe, Lautstärke und Dauer vorstellen. DLS ist das Protokoll zur Erzeugung von
Klängen. Ist ein Klang in MIDI gespeichert und der Player unterstützt DLS, so kann man sich sicher sein,
dass es genauso klingt, wie es gedacht war.
Audio im Internet
Seite 12
Hier ein Überblick über ein MIDI-Setup:
Zur Erstellung einer MIDI Datei kann man sich einen Sequenzer zuzulegen, oder mit einem MIDI-Editor
arbeiten. Die Demoversion eines brauchbaren Editors findet man beispielsweise bei Midinotate.
Normalerweise sollte jeder Editor die MIDI-Noten auch abspielen können, zumindest im GeneralMIDIFormat. Zum Abspielen eignen sich aber auch alle anderen üblichen Player. MIDI wird inzwischen vom
RealPlayer verstanden, ebenso vom WinAmp, dem WMPlayer sowie dem Quicktime-Player.
MIDI-Songs gibt es haufenweise im Internet, umsonst und in kommerziellen Archiven. Will man eigene
Lieder verwenden, kann man vorhandene Dateien editieren und Noten oder Instrumentenbesetzung
übernehmen oder nur modifizieren und spart sich viel Sucharbeit im Editor. Oder man fängt eben bei null an.
Dafür hier noch einige Tipps:
•
Initialisierung:
Ein MIDI-Song besteht aus mehreren Instrumentalspuren, die alle einen separaten Kanal belegen. Jeder
dieser Kanäle muss vor dem Abspielen initialisiert werden. Damit dabei keine Hänger entstehen, ist es
manchmal sinnvoll, den ersten Takt leer zu lassen, damit die Instrumente den Kanälen zugewiesen
werden können. Um Zeitverzögerungen zu vermeiden, kann man den ersten Takt dann auf Tempo 500
setzen und der Hörer bekommt davon nichts mit. Für die Initialisierung eignen sich auch Pausen am Ende
eines Stückes. Man kopiert sie einfach an den Anfang, quasi als stillen Auftakt, um dem Klangerzeuger
Zeit zu geben. Ein anderer Trick ist, das Stück mit Drums oder Piano zu beginnen. Die beiden
Instrumente sind Defaultbelegungen, sie werden gespielt, wenn keine andere Instrumentalbesetzung
bekannt ist. Beginnt ein Lied mit dieser Belegung, startet die Wiedergabe schneller.
•
Normalisieren
Das Volumen sollte man über alle Dateien und Spuren zwischen 60 und 100 halten und nicht den ganzen
Bereich bis 127 ausnutzen. Wenn eine Einzelnote mit 127 abgespielt wird, der Kanal dabei auch
aufgedreht ist, kann es zu Verzerrungen kommen.
•
Redundanz
Arbeitet man mit einem MIDI-Controller, der auch noch über Drehregler verfügt, sollte man aufpassen,
nicht zuviel damit herumzuspielen. Bis auf die Einstellung die direkt vor der Note kommt, bringen
Änderungen nichts. Dafür können die Dateien sehr viel größer werden mit diesen unnützen Informationen.
•
Testen
Der wohl wichtigste Teil. Gerade beim MIDI-Format kann man nicht gründlich genug testen, wie sich die
Datei beim Abspielen mit verschiedenen Browsern und Playern verhält.
Die Einbindung eines Hintergrundsongs in eine Website erfolgt wie oben einfach über den tag <BGSOUND
SRC=“mysong.mid“> (IE) und <EMBED SRC=“mysong.mid“> (Netscape). Hier ein Beispiel für eine
Hintergrundbeschallung im Netscape Navigator:
Audio im Internet
Seite 13
<EMBED SRC=“mysong.mid“ HIDDEN=“true“
loop=“yes“
volume =“10“
autostart=“true“>
Wenn allerdings schon die Klänge immer dieselben sind, wird dasselbe Lied nach kurzer Zeit nervig. Man
kann leicht für Abwechslung sorgen, indem man folgendes Script in die Seite integriert:
<SCRIPT> <!-var numMIDI =12
day =newDate()
seed=day.getTime()
ran=parseInt(((seed-(parseInt(seed/1000,10)*1000))/10)/100*numMIDI+1,10)
if (ran == (1))
MIDI=(“loop_1.mid“)
if (ran == (2))
MIDI=(“loop_2.mid“)
...
if (ran == (12))
MIDI=(“loop_12.mid)
document.write('<EMBED SRC=“http://deineseite.de/MIDIFILES/' + MIDI + ' “ WIDTH=0 HEIGHT=0
AUTOSTART=TRUE>')
document.write('<BGSOUND SRC=“http://deineseite.de/MIDIFILES/' + MIDI + ' “ AUTOSTART=TRUE>') //
-->
</SCRIPT>
MIDI Überblick:
Interaktivität
Beschränkt; MIDI ist ein Kommunikationsprotokoll; gut geeignet für ButtonRollovers und Soundeffekte
Kosten
Keine bis etwa 300 € für einen guten MIDI-Sequencer; MIDI-Keyboards ab ca.
100 €
Dokumentation
Wenig
Enkodierung
Schwierig;erfordert Grundkenntnisse in Notation und Harmonielehre und im
Umgang mit MIDI-Editoren
Einbindung
Einfach
Qualität
Meist miserabel; aber unschlagbares Klang/Dateigröße-Verhältnis
Performance bei geringer
Bandbreite
Sehr gut
Server Performance
Gut; problemloses Pseudo-Streaming über HTTP
Browserkompatibilität
Exzellent
Audio im Internet
Seite 14
WindowsMedia
Auch Microsoft bietet ein proprietäres Streaming-Format an, das AdvancedStreamingFormat (ASF). Der
Unterschied zu dem Format von RealSystems liegt hauptsächlich darin, dass alle Mediendateien in eine
Datei gepackt werden. Bei RealStreams können alle Elemente einer Multimedia-Seite separat gespeichert
werde und über ein SMIL-File koordiniert werden. Das erleichtert die Instandhaltung der Seite, wenn einzelne
Dateien aktualisiert werden, muss man nicht jedesmal alles zusammen komprimieren. Bei ASF, das alle
Daten inklusive Script, Text, Audio, Video und ActiveX Kontrollelementen enthält, ist dafür die Wiedergabe
unter Umständen stabiler als bei dem konkurrierenden Format. Wenn ein ASF-File fertig ist, kann es auf
jedem WMPlayer fehlerfrei wiedergegeben werden. Man muss nicht darauf achten, ob vielleicht eine einzelne
Mediendatei ein veraltetes Format besitzt, oder dem Player ein Plugin für ein bestimmtes Format fehlt. Dafür
kommen aber auch nur Windows-User an den Stream. RealSystems bietet auch Player für Mac, Unix/Linux,
FreBSD und Solaris an. Ein Vorteil von ASF ist außerdem, dass die WindowsMedia Serversoftware schon
bei allen Versionen von Windows NT Server ab der vierten Version dabei sind. Für Windows-User ist dieses
Format sicherlich das unkomplizierteste. Microsoft hat den MediaPlayer in den letzten Versionen des
InternetExplorers so gut integriert, dass es für diese Zielgruppe keine einfachere Art des Streamens gibt. Es
müssen keine neuen Player oder Plugins installiert werden und alle Medien-Dateien werden automatisch mit
dem WMPlayer verknüpft, der in das Browserfenster eingebettet ist. Für Audio-Dateien gibt es von Microsoft
das WindowsMedia Audio-Format. Es erlaubt effiziente Kompressionen mit Bitraten bis zu 6,5 Kbps. Es
dürfen auch weniger sein, aber um Stimmen verständlich zu machen, sollte man dabei bleiben. Die
Einbettung erfolgt wie oben bei den MP3-Files erwähnt.
WindowsMedia Überblick:
Interaktivität
OK; ASF gut geeignet für multimediale Präsentationen
Kosten
Keine; Allerdings nur für WindowsServer
Dokumentation
Gut
Enkodierung
Einfach
Einbindung
Mittel; verlangt WindowsServer Erfahrung
Qualität
Gut
Performance bei geringer
Bandbreite
Gut
Server Performance
Exzellent; Geeignet für professionelle Sendebetriebe
Browserkompatibilität
Exzellent
Ausblick
Natürlich gibt es noch zahlreiche andere Audioformate, die es wert wären angesprochen zu werden. Neben
all den Formaten, die eigentlich für ganzheitliche Multimedia-Präsentationen bestimmt sind, dabei aber auch
gute Audiocodecs bieten (z.B. WindowsMedia, Flash, Quicktime) gibt es noch einige gute
„Nur“-Audiocodecs, die in Zukunft wohl noch stärker vertreten sein werden. Der Nachfolger des MP3 Codecs,
MP3pro, konnte sich nicht richtig durchsetzen. Durch die Lizenzgebühren, die er den Nutzern abverlangte,
erreichte er nicht mehr das große Publikum. Anders der OpenSource Codec OGG Vorbis, ein lizenz- und
patentfreies Encoding- und Streamingformat, das sich inzwischen schon in weiten Teilen des Internet,
insbesondere in Linux- und OpenSource-Kreisen, durchsetzen konnte. Es überzeugt vor allem durch seine
Audio im Internet
Seite 15
Klangqualität bei niedrigen Bitraten, etwa erreichen Dateien bei 64 Kbps schon CD Qualität. Ein weiterer
Vorteil ist die schnelle Encodierung bei variablen Bitraten. Intelligente Komprimierprinzipien ermöglichen eine
wirkungsvolle Beseitigung von Redundanzen. So werden beispielsweise zwei Stereosignale, wenn sie
dasselbe wiedergeben, nur einmal gespeichert. Man darf gespannt sein, wie sich dieses Format entwickelt,
besonders vor dem Hintergrund der sonstigen rechtlichen Umwälzungen im Musikgeschäft im Internet.
Sympathien genießt das OpenSource Projekt jedenfalls mehr, als andere kostenpflichtige Codecs.
Der nächste Meilenstein bei den Komprimierverfahren wird Mitte 2004 wohl für Aufsehen sorgen. Der neue
MPEG-Standard ist schon so gut wie fertig. Das Besondere dabei ist, dass dabei nicht mehr lossy encodiert
wird, sondern lossless, es werden also keine Frequenzen mehr weggelassen, sondern alle
Klanginformationen gespeichert. Die Einsparungen können nur aufgrund von Redundanzen gemacht werden,
die bei einer Audiodatei allerdings sehr rar sind. Aufwendige Suchverfahren spüren bei MP4 Analogien in der
Signalstruktur auf und lassen sehr ähnliche Muster als redundant gelten. Dieser Codec hat sich trotzdem als
sehr effektiv herrausgestellt und wird sicher den Weg in Studios und Plattenläden finden. .