Audio im Internet
Transcription
Audio im Internet
Audio im Internet Seite 1 Audio im Netz Ausarbeitung des Referats WebPublishing Seminar WS 2003/04 bei Prof. Dr. Oliver Vornberger Felix Bießmann, [email protected] Audio im Internet Seite 2 Einleitung Mit dem Multimedia Hype der vergangenen Jahre und der Etablierung des DSL-Netzes hat auch das Interesse an Multimedialen Auftritten im Internet zugenommen. Abgesehen von der Raubkopier- und Tauschwut der User in Sharebörsen, hat sich das Medium Audio auch auf Webseiten etabliert: Es gibt Internetradiostationen, die es mit vergleichsweise geringem Aufwand schaffen, in die ganze Welt übertragen zu werden. Sprachausgabe ermöglicht es Blinden, sich im Web zurechtzufinden. Vorträge und Konzerte werden live im Netz übertragen. Soundeffekte und Hintergrundmusik können den Webauftritt manchmal positiv beeinflussen Nun gut, viele Soundeffekte auf einer Webseite können unter Umständen nerven. Es gibt aber auch sinnvolle Einsatzmöglichkeiten. Im pädagogischen Bereich zum Beispiel kann eine multimediale Seite mehr bewirken als bloßer Text. Was das Streaming angeht, so sind Streamingtechnologien sind nicht mehr nur für professionelle Sendebetriebe erschwinglich. Einige Freeware Programme erlauben es jedem Internetuser, sich – abhängig allein von seiner Bandbreite – einen Audiostream in seine Seite zu integrieren. Im Folgenden ein Abriss über das Medium Audio im Internet, wichtige Formate und die Möglichkeiten bei der Einbindung in Websites. Vom analogen zum digitalen Klang Klang ist die Vibration von Luftmolekülen oder die Veränderung des Luftdrucks, die vom Trommelfell wahrgenommen werden kann. Charakteristisch für einen Klang sind 1. Frequenz: Häufigkeit der Vibrationen, wahrgenommen als Tonhöhe 2. Lautstärke: Amplitude der wellenförmigen Luftdruckveränderung 3. Klangfarbe: Klänge, die nur eine einzige Frequenz besitzen, kommen in der Natur nicht vor. Solche können nur elektrisch synthetisiert werden. Natürliche Klänge setzen sich aus vielen Schwingungen zusammen. Ein Klavierklang und ein Trompetenton unterscheiden sich nicht nur durch ihren unterschiedlichen Laustärkeverlauf, sondern auch durch ihr spezifisches Obertonspektrum; anhand der Zusammensetzung dieser Obertöne, also der Töne, die mit einer höheren Frequenz als der Grundton mitschwingen, können wir Klänge, die die gleiche Tonhöhe haben, jedoch von unterschiedlichen Instrumenten stammen, unterscheiden Wahrnehmbar sind Frequenzen von 20 bis 20.000 Hertz. Die Amplitude der Klangwellen wird als Lautstärke wahrgenommen. Digital wird ein Klang von zwei Werten repräsentiert: SamplingRate und Bit-Tiefe. Ein Sample ist ein kleines Stück eines Wellenmusters, das eindeutig den Wert und die Position des elektrischen Analogsignals beschreibt. Die Anzahl der Samples in einer Sekunde wird als Auflösung oder Sampling-Rate Audio im Internet Seite 3 bezeichnet. Die Bit-Tiefe stellt die Größe der Samples im Speicher dar. Je mehr Bit zur Verfügung stehen, desto mehr Klanginformationen können gespeichert werden. Ein Sample ist also eine digitale Momentaufnahme eines Klangs. Wie beim Video werden diese hintereinandergereiht um den Eindruck eines „echten“ Signals zu bekommen. Anders als beim Film, wo schon 24 Samples (oder Frames in diesem Fall) in der Sekunde flüssig wirken, hat sich beim Klang eine Sampling-Rate von 44.100 Hz als am besten geeignet erwiesen, das Signal naturgetreu wiedergeben zu können. Ein Sample sollte dabei mindestens 16 Bit Speicherplatz bekommen. Die Abtastrate moderner Wandlerkarten liegt zwar schon häufig bei über 96 KHz, jedoch langen 44,1 KHz meist, um das wahrnehmbare Frequenzspektrum abzubilden. Die Samplerate sollte aber schon über dem Doppelten der oberen Wahrnehmungsgrenze liegen, da aufgrund der Aliasing-Effekte das Ausgangssignal andernfalls verfälscht werden könnte. Hier ein Beispiel: Ein Sinuston (1,035 Hz) bei 44,1 KHz aufgenommen; Punkte oberhalb der Linie in dieser sehr vereinfachten Skizze repräsentieren positive Spannungen des elektrischen Analogsignals, die darunter negative. Abbildung 1Hier die Spektralanalyse des Sinustons. Die lauteste Amplitude liegt bei 1,035 KHz (C6). Eine Samplerate von 2,000 Hz jedoch ist unter der kritischen Nyquist-Frequenz für diesen Klang. Der Physiker Nyquist stellte fest, dass unterhalb der kritischen Samplerate von Grundtonfrequenz x 2 AliasingEffekte auftreten, die das Ausgangssignal verfremden. In diesem Fall ist die Abweichung des Tons: 1,035 KHz – 2 Khz/2 = 35 Hz Das ist nicht viel, aber hörbar. Dennoch ist die geringe Abweichung angesichts der dürftigen Repräsentation noch erstaunlich. Abbildung 2Hier die Spektralanalyse des Tons mit Aliasing-Effekt. Die lauteste Amplitude liegt hier bei 955 Hz (A#5). Entsprechend der niedrigen Samplerate hat sich der Ton im sichtbaren Spektrum nach rechts verschoben (der Sampleeditor schneidet automatisch bei der Hälfte der Samplefrequenz, 1 KHz, ab). Audio im Internet Seite 4 Man sollte also bei Aufnahmen, oder Resampling von Audiofiles immer auf eine ausreichende Samplingrate achten. Das gilt auch für das Komprimieren mit platzsparenden AudioCodecs. Hier eine Skizze, die an obigem Beispiel schemenhaft verdeutlicht, wie sich die Qualität der digitalen Repräsentation des Tons verschlechtert, wenn die Abtastfrequenz abnimmt. o o o o oo o o o oo oo oo o o o o o o o o -----o-----o-----o-----o-----o-----o-----o-----o o o o o o o o o o o o o o o o o o ------------------------------------------------ o o o o o o o ------------------------------------------------ o o o oo oo oo oo o o o o 44,1 KHz o o o o o 22,05 KHz 2 KHz Auflösung zwar schlechter, jedoch lässt sich das Ausgangssignal noch getreu reproduzieren. Aufbereitung des Audiomaterials Falls man das Material nicht schon digital auf CD vorliegen hat, sondern es erst umwandeln musste, sollte man es zuerst ein wenig bearbeiten. Den Umweg über die analoge Aufnahme legt auch die Gesetzesnovelle vom 13. September nahe: nimmt man eine CD mit Kopierschutz auf Kassette auf, überspielt diese wieder auf den Rechner und wandelt diese Datei in beispielsweise das MP3 Format um, so hat man den Kopierschutz legal umgangen. Natürlich gilt auch für diese Kopien, dass sie nur für private Zwecke und nur in siebenfacher Ausführung erstellt werden dürfen. Hochwertige Aufnahmen kann inzwischen jeder daheim am Rechner mit recht einfachen Mitteln hinbekommen. Aktuelle Soundkarten haben standardmäßig Sampleraten, die CD-Qualität erreichen. Hat man ein Lied aufgenommen geht es an die Aufbereitung. Früher hatten nur professionelle Studios diese Möglichkeit, die Abbildung 3Ein Gitarrenlick, digitale Form macht die Bearbeitung jedoch erheblich billiger. In jedem aufgenommen bei 44,1 KHz/20 mittelmäßigen Sample-Editor sind die wichtigsten beiden Werkzeuge, natürlich in Bit. sehr unterschiedlicher Qualität, enthalten. Erstens sollte man das Material normalisieren, das heißt die Aufnahme sollte den kompletten zur Verfügung stehenden Dynamikbereich ausschöpfen um eine einheitliche Lautstärke aller Dateien zu erreichen. Bei diesem Verfahren wird zunächst der lauteste Pegel in der Datei festgestellt; diesem wird die maximale Lautstärke zugewiesen, die Amplituden der übrigen Samples werden relativ zum lautesten Klang entsprechend vergrößert. Normalisierung ist aber nicht nur aus Abbildung 4Dasselbe Lick, Gründen der Okonomie (die Lautstärke muss nicht nachträglich angeglichen normalisiert werden) und der Konsistenz notwendig. Auch bei der Konvertierung von StereoFiles in platzsparende Mono-Files ist es wichtig, vorher zu normalisieren. Man sollte den Output auf ungefähr 70 % des Ausgangsmaterials trimmen, um digitale Übersteuerung beim Zusammenmischen der beiden Spuren zu vermeiden, wenn der 0 dB Wert des Dynamikbereichs überschritten wird. So etwas macht sich mit Knacksern in der Ausgabedatei bemerkbar. Audio im Internet Seite 5 Als nächstes sollte man sich bemühen, die Konsistenz der Lautstärke auch innerhalb der Datei herzustellen. Denn die ursprünglichen Lautstärkenverhältnisse bleiben beim Normalisieren erhalten. Wenn bei einer Aufnahme ein Ton knapp unter der Übersteuerungsgrenze liegt, der nächste jedoch kaum hörbar ist, mag das dem musikalischen Ausdruck dienen, der Verständlichkeit ist es jedoch eher abträglich. Um allzu krasse Unterschiede auszugleichen gibt es den Kompressor, Abbildung 5Nocheinmal das Lick, der übrigens nichts mit der Komprimierung der Dateigröße zu tun hat. Es handelt nun aber komprimiert. Auch wenn sich um einen Effekt, der die Amplituden der lautesten Wellen staucht und es so die lautesten Amplituden kleiner beim normalisierten Beispiel ermöglicht, die leiseren Signale noch ein wenig lauter darstellen zu können. als sind, ist alles insgesamt lauter Normalerweise setzt man den Kompressor ein, um Klang zu verdichten und so im Zusammenspiel mit anderen Klängen hervorzuheben. Auch wenn ein Lied abgemischt ist, wird der finale Mix noch einmal mit dem Kompressor bearbeitet. Bei eigenen Aufnahmen, die von fertigen Produktionen überspielt wurden, ist es nicht immer sinnvoll, diesen Effekt einzusetzen, da mit den falschen Parametern die Dynamik der Aufnahme stark verändert werden kann. Jedoch bieten die meisten Kompressoren Defaulteinstellungen, die helfen, ohne viel Vorkenntnisse eine Sound Datei druckvoller zu machen und das ist es, was man zu erreichen versuchen sollte, bevor man die Datei in andere, platzsparendere Formate umwandelt. Komprimierung Normale Modem- und DSL-Verbindungen haben zu wenig Bandbreite, um Audiodateien mit einer SampleRate von 44,1 KHz und 16 Bit Samplegröße zu übertragen. Obige Beispieldateien des Sinustons waren im . wav Format, also unkomprimiert. Bei einer Bitrate von 1411 Kbps brauchte eine Datei bei der Samplingfrequenz 44,1 KHz schon 420 Kb. Deshalb müssen die Dateien komprimiert werden. Hier sind die hauptsächlichen Prinzipien, nach denen die gängigen Komprimieralgorithmen verfahren. Zunächst werden soviel überflüssige Informationen wie möglich weggelassen. Generell gilt bei Eigenaufnahmen, dass die Frequenzen über 10 KHz und die unter 80 Hz unter anderem auch Störgeräusche enthalten, wie das Brummen des Gehäuselüfters oder des Netzteils, die nichts mit dem eigentlichen Inhalt der Datei zu tun haben. Diese irrelevanten Frequenzen und alle, die noch weiter außen am hörbaren Spektrum liegen, werden von vielen Komprimier-Algorithmen weggeschnitten. Man kann auch noch weiter gehen. Die Frequenzen, die menschliche Stimmen produzieren liegen hauptsächlich zwischen 1 und 4 KHz. Bei Dateien, die Sprache wiedergeben, könnte man deshalb die Frequenzbänder außerhalb dieses Bereichs unterdrücken. So verfährt beispielsweise ein WindowsMediaFormat für Stimmenübertragung (Sample-Rate: 6,5 KHz): eine 19 MB große Audiodatei wird auf knapp 100 KB gestaucht, wobei alle unnötigen Frequenzen weggelassen werden und ein Anti-Aliasing Filter Verfremdungen verhindern hilft. Jedoch wird der Klang allein schon dadurch verfremdet, dass er sich auf das schmale Band von 1 bis 4 KHz beschränkt, denn die natürlichen Obertonreihen der Stimme erreichen 7 KHz und mehr. Den Unterschied zwischen einer echten und einer so beschnittenen Stimme erkennt man aber sofort, es klingt noch schlechter als beispielsweise am Telefon. Überflüssige Informationen sind außerdem doppelte Töne. Wenn ein Klang von einem leiseren derselben Lage, oder einem geringfügig höheren (respektive niedrigerem), überlagert wird, kann der leisere weggelassen werden, ohne dass man es wahrnimmt. MP3 Codecs können darüber hinaus den Speicher so verwalten, dass Samples, die simpel sind und wenig Information enthalten, ihren Platz teilweise für Informationen aus komplexeren Samples zur Verfügung stellen. Viel Platz verbraucht das Stereo-Format. Bei geringer Bandbreite sollte man ganz darauf verzichten, aber viele Komprimieralgorithmen bieten einen Kompromiss: Das menschliche Ohr kann Töne bei besonders hohen oder tiefen Frequenzen immer schlechter orten. Deshalb fällte es meist nicht auf, dass alle Stereoinformationen aus den Frequenzbereichen, die das menschliche Ohr nur schwer räumlich zuordnen kann, auf eine Monospur gemischt werden. Wenn all diese psychoakkustischen Aspekte berücksichtigt wurden, läuft schließlich noch ein Algorithmus über die Datei, der gleiche Muster erkennt und Duplikate weglässt, wobei er sie durch eine Referenz auf das erste Muster ersetzt. Wie radikal die Komprimieralgorithmen mit dem Material verfahren bestimmt die Klangqualität der enkodierten Daten. Audio im Internet Seite 6 Der Zusammenhang von Bitrate und Qualität einer Audiodatei am Beispiel eines MP3-Codecs: Kb/s Größe in MB Qualität 1411 41,3 CD-Qualität; *.wav Datei von 4 Minuten 192 5,6 Kaum von CD Qualität zu unterscheiden 128 3,8 Nahe an der CD; hat sich als Internetstandard etabliert 64 1,9 Mehr als genug für Stimmen/bei modernen Codecs fast CD-Qualität Streaming Protokolle Wenn die Daten nun komprimiert sind, könnte man sie freilich einfach herunterladen aus dem Netz und vom Rechner aus anhören. Das ermöglicht aber noch keine andauernden Sendungen oder Live-Übertragungen. Vollständiges Runterladen kostet außerdem Speicher und Zeit. Die beste Alternative ist, die Dateien in kleinen Paketen zu verschicken, die clientseitig gebuffert werden und zusammenhängend wiedergegeben werden. Das nennt man streamen. Die Bufferung soll verhindern, dass die Wiedergabe abbricht, wenn der Datenstrom versiegt. Diese Technologie verhalf dem Internet zu einem multimedialen Aufschwung. Doch nicht jedes Datenprotokoll im Internet ist gleich gut geeignet, Streams zu übertragen. Generell bietet das Internet hauptsächlich zwei Möglichkeiten, Daten zu versenden: über das TCP und das UDP Protokoll. Diese arbeiten über einem IP Netzwerk. Während das IP Protokoll alleine sich nur mit dem Versenden von Daten beschäftigt, ermöglichen es TCP und UDP, eine Verbindung zwischen zwei Rechnern herzustellen. TCP/IP hat sich für die FTP, SMTP und HTTP Übertragung etabliert, da es die Integrität der Daten garantiert. Das UDP Protokoll bietet kontinuierlichen Datenstrom, allerdings ohne die Sicherheit der Daten zu gewährleisten. Das TCP Protokoll verlangt von der Client-Seite immer eine Rückmeldung, um Fehler bei der Übertragung zu vermeiden und den Transfer zu organisieren. Die Pakete eines UDP Protokolls haben lediglich einen Marker, der Fehler feststellt, die Übertragung läuft aber nahtlos weiter, ohne die verlorenen Daten zu ersetzen. Analog kann man die Übertragung von Audio mit verschiedenen Protokollen gegenüberstellen. Streamingprotokolle wie das RealTimeStreamingProtocol verfahren eher nach dem UDP-Schema, Protokolle, die mit TCP/IP übertragen werden, wie HTTP kommen an deren Performance nicht heran. Erstellt man eine HTML Seite, wird die über das HTTP Protokoll verschickt. Will man nun Audio in die Seite einbetten, muss man sich entscheiden, ob man einen Stream im echten Sinn anbieten will, oder nur einen sogenannten Pseudo-Stream über HTTP. Erstere Lösung wählen professionelle Sendebetriebe, die viele User auf einmal mit demselben Inhalt bedienen. Die Interaktivität steht dabei im Hintergrund. Einen Server zu installieren, der RTSP benutzt, oder das Streaming Protokoll von WindowsMedia, ist allerdings meist teuer und auch nicht ganz einfach. Es gibt zwar Gratisversionen der nötigen Software von Realaudio, Microsoft oder Apple, allerdings fehlen dem normalen User die Hardwarevoraussetzungen, um einen fähigen Server aufzuziehen, von der Bandbreite ganz zu schweigen. Es bleibt die Möglichkeit, über HTTP zu streamen. Alle gängigen Streaming-Formate unterstützen dies. Für Soundeffekte, Hintergrundloops oder allgemein interaktive Seiten ist das keine schlechte Lösung. Bettet man ein Soundfile in ein SMIL-File in, das es erlaubt, Medien miteinander zu synchronisieren, kann man auch Audio echt über HTTP streamen. Die Nachteile einer solchen Übertragung sind dadurch aber nicht gelöst. Audio im Internet Seite 7 Audioformate RealAudio Das älteste und wohl populärste Audiostreaming-Format ist RealAudio. Wie für Text- und Bildmedien bietet das RealMedia-System eine stabile, leicht zu wartende und systemunabhängige Plattform für Audio im Netz. Generell ist es mehr für professionellen Sendebetrieb gedacht, allerdings gibt es auch eine Gratisversion des RealServers. Er bietet jedoch nur einen Datendurchsatz von 1 Mb/s, das heißt, es könnten fünf Personen gleichzeitig eine Datei mit der Bitrate von 200 Kb/s streamen. Das sind nicht besonders viel. Aber es ist dasselbe Prinzip wie bei der professionellen Serversoftware: Im HTML-Text befindet ein Link auf ein Metafile (*.ram), das genauso heißt, wie die eigentliche Audiodatei (*.rm, früher *.ra). Dieses Metafile enthält nur die URL des Soundfiles. Das liegt auf dem RealServer. Wenn der Browser dieses Metafile interpretiert, öffnet er das RealPlayer-Plugin (sofern er den MIME-Type kennt). Der Player leitet die URL an den RealServer weiter um den passenden Clip als Stream geliefert zu bekommen. Aber in diesen Dimensionen kann man den RealServer auch weglassen und die RealAudio-Daten über HTTP von einem normalen Web-Server streamen. Dadurch verpasst man allerdings die Vorteile, die ein RealServer bietet: 1. Bandweitenaushandlung Der Server kann feststellen welche Verbindung der anfragende User benutzt, und den Stream mit der besten Bitrate bereitstellen; ein 28 Kbps Modem sollte nicht mit einem 128 Kbps Stream überlastet werden, wenn man allerdings eine DSL-Verbindung hat, wäre es schön, eine angemessene Klangqualität geliefert zu bekommen 2. Robuste RSTP Übertragung Das RealTime-Protokoll findet und kompensiert verlorengegangene Pakete; das sorgt für flüssige Streams; hier liegt die Hauptschwäche des HTTP 3. Splitting Das Audiosignal kann aufgesplittet und an weitere RealServer weitergeleitet werden, um den Server zu entlasten 4. Clustering Mehrere RealServer können zu einer Multiprozessormaschine zusammengeschaltet werden 5. IP-Multicasting Erlaubt es allen Usern in einem LAN denselben Stream zu hören; Für Dinge, die ohne solchen Luxus auskommen, bietet sich HTTP-Streaming an. Dabei ist der Server bei hochfrequentierten Seiten recht schnell überlastet. Dinge wie Livestreams sind über HTTP nicht möglich. Für die Erstellung der RealMedia-Dateien gibt es einen Gratis-Encoder . Am besten komprimiert man eine Audio-Datei mehrmals mit verschiedenen Bitraten, um für verschiedene Verbindungen die günstigste Version anbieten zu können. Egal wie man die Mediendatei streamt, die Einbettung kann man in jedem Fall gleich vornehmen: • man referenziert in der HTML Seite auf eine Datei, die die Extension *.ram für einen Popup Player hat, und *.rpm, wenn man die Datei mit dem embed Tag in die Seite einbinden will. • In der *.ram/*.rpm Datei steht nur der Link auf das *.ra File (RealAudio in unserem Fall), ohne Anführungszeichen oder sonstige Tags • Alternativ kann man RealAudio mit anderen Medien in einem SMIL-File koordinieren; neben Informationen über das Stück kann man auch Parameter angeben, die den zeitlichen Verlauf oder die zeitliche Position im Verhältnis zu anderen Mediendateien festlegen. Audio im Internet Seite 8 Hier ein Beispiel: <smil> <head> <meta name = "title" content = "Demo" /> <meta name = "author" content = "[email protected]" /> <meta name = "copyright" content = "©2003" /> </head> <body> <audio src = "soundfile.ra" begin = "0.0s" dur = "123.0s"/> </body> </smil> Überblick RealAudio Interaktivität OK; eigentlich ein Streaming-Format, aber auch gut für Slideshows; Synchonisierung mit anderen Medien über SMIL Kosten Von null bis oben offen, je nach Anspruch; professionell ab ca. 2500 € Dokumentation Hervorragend Enkodierung Einfach Einbindung Einfach für HTTP-Streaming; Mittelmäßig schwierig für die Installation eines RealServers; Qualität Exzellent Performance bei geringer Bandbreite Gut bis sehr gut Server Performance Hervorragend BrowserKompatibilität Exzellent Audio im Internet Seite 9 MP3 Als populärstes Audioformat, das zwar nicht ausdrücklich für das Internet gedacht ist, sich aber aufgrund seiner kleinen Dateigrößen besonders hier bewährt hat, kennen wir alle MP3 (eigentlich: MPEG-1, Layer III; MPEG steht für das Entwicklerkonsortium Motion Pictures Expert Group). Es wurde 1992 fertiggestellt und komprimiert Audiodaten sehr effizient. Die größten Speichereinsparungen gehen auf die oben erwähnten psychoakkustischen Prinzipien zurück: nicht Wahrnehmbares wird weggelassen. Nicht hörbare Frequenzen unter 20 Hz und über 20 KHz werden ersatzlos gestrichen, alles außerhalb des räumlich ortbaren Bereichs (hauptsächlich 2 - 4 KHz) wird auf eine Monospur gemischt; überlagern sich zwei ähnliche Töne, wird der leisere aufgegeben. Die Samples, in denen einfache Klangmuster abgebildet werden, geben ihren freien Speicherplatz ab an Frames, deren Samples komplexer sind. Danach läuft ein Algorithmus über die Daten, erkennt doppelte Muster und entledigt die Datei redundanter Strukturen. Damit werden die Dateien noch einmal ca 20 % kleiner. Der hauptsächliche Verwendungszweck von MP3's sind aber nicht internettypische Audioanwendungen, wie Streaming oder Einbettung in Websites. Es hat sich vielmehr als das digitale Audioformat schlechthin bewährt. Während man bei der Bereitstellung von RealStreams oder anderen proprietären Formaten immer nur die Besitzer der passenden Abspielsoftware ansprechen kann (auch wenn sie umsonst ist, hat sie nicht jeder), gibt es eine Unzahl von Playern, die MP3-Files abspielen können. Eigentlich alle Audiodaten, die übers Netz ausgetauscht werden, sind im MP3-Format. Will man Audiofiles einem möglichst großem Publikum lediglich zum Download anbieten, ist MP3 sicherlich die erste Wahl. Aber auch für die Gestaltung einer Seite kann es recht nützlich sein. Zunächst gibt es auch für MP3-Dateien Serversoftware, die das Bereitstellen von Streams erlaubt. Für Windows ist die populärste Software SHOUTcast von Nullsoft, den Entwicklern des Winamps (ein bekannter MP3-Player). Als Open-Source Alternative hat sich Icecast etabliert. Allerdings wird das MP3-Format inzwischen nicht mehr von Icecast unterstützt, man benutzt nun das Open-Source Format OggVorbis, das auch vom Winamp gespielt werden kann. Das Prinzip von SHOUTcast ist recht einfach: Die Software ist für die gängigsten Betriebsysteme erhältlich. Eine Sendestation spielt ein File im Winamp ab, das an den Server übertragen wird. Als Hörer muss man nur die URL des SHOUTcast Servers gefolgt von der Portnummer in das Location Feld in den Abspieloptionen eingeben und kann so mithören. Dieses System hat sich als simples Mittel zur Verwirklichung der eigenen kleinen Radiostation Beliebtheit verschafft. Eine weitere Möglichkeit, MP3 Streams in eine Seite einzubauen, ist die Open-Source Lösung Peercast. Das Programm erlaubt es vielen Internetusern gleichzeitig über das Gnutella Protokoll Audiostreams von anderen Usern zu hören, die die Software installiert haben. Doch muss man sich der rechtlichen Konsequenzen des Schwarzsendens bewusst sein. Wer sich die Gebühren nicht leisten kann und auch nicht die nötige Hardware oder Bandbreite zur Verfügung hat, für den entfällt diese Möglichkeit der Klanggestaltung. Es gibt allerdings einige unabhängige Radiostationen unter obigen Links, die ein breites Angebot an Musik spenden- oder selbstfinanziert anbieten. Generell sollte man bei rechtlichen Fragen im Internet informiert sein, ob es rechtens ist, die Musik oder die Samples, die man verwenden will, frei zugänglich zu machen. Die Einbindung von MP3 Files ist recht einfach, die Möglichkeiten sind allerdings etwas beschränkt. Als Hintergrundmusik könnte man ein File beispielsweise so in eine Seite einbinden: <html> <head> <title>Text des Titels</title> <!-- Microsoft: --> <bgsound src="soundfile.mp3" loop="infinite"> </head> <body> <!-- Netscape: --> <embed src="soundfile.mp3" autostart="true" loop="true" hidden="true" height="0" width="0"> <h1>Inhalt der Seite</h1> </body> </html> Audio im Internet Seite 10 MP3 Überblick: Interaktivität Keine; MP3 ist nur ein Komprimier Standard Kosten Keine; Freeware Encoder gibt's im Netz Dokumentation Beschränkt Enkodierung Einfach Einbindung Einfach Qualität Sehr gut; hängt von Bitrate ab Performance bei geringer Bandbreite Sehr gut Server Performance Gut bei SHOUTcast; hauptsächlich ein Download-Format Browserkompatibilität Exzellent MIDI Das wohl wichtigste digitale Musikformat für instrumentale Musik ist MIDI (Musical Instrument Digital Interface). Es ist ein Standardprotokoll für die Kommunikation zwischen einem Rechner und syntethischen Klangerzeugern. Seinen Aufschwung erlebte MIDI mit der zunehmenden Popularität der digitalen Synthesizer in den 80er Jahren. Die analogen Synthesizer der 60er und 70 sind noch ohne Software ausgekommen, jedoch konzentrierten sich die Synthesizerentwickler schließlich wegen den enormen Möglichkeiten der Klanggestaltung und wegen der günstigen Herstellung auf digitale Synthesizer. Diese brauchten Software um mit den Sequenzerprogrammen, die es vereinfachen, komplexe Partituren zu erstellen und analysieren, zu kommunizieren. Um nicht für jeden Synthesizer eine neue Software erfinden zu müssen, einigten sich die großen Hersteller der Branche (Roland, Sequential Circuits, Yamaha) 1982 auf ein gemeinsames Protokoll, das sich schnell als allgemeiner Standard etablieren konnte. Auch heute noch ist die Kompatibilität zu allen elektronischen Klangerzeugern gewährleistet, es gibt sogar MIDI-Controller, mit denen sich über den Luftstrom MIDI-Daten erzeugen lassen, um die für Blasinstrumente typische Hüllkurve als MIDI zu speichern. MIDI Dateien enthalten alle für ein Instrumentalstück wichtigen Informationen. Die Dateien bestehen aus vielen MIDI-Events, die neben dem MIDI-Timestamp, der die Position des Events im Arrangement festlegt, Informationen über Tonhöhe, Lautstärke und Klangfarbe eines jeden Tons enthalten; die Klangfarbe ist durch das Instruments des MIDI-Events gegeben. Es stehen 16383 Instrumentenbänke mit je 128 Instrumenten zur Verfügung. Somit enthält eine MIDI-Datei alle Informationen des Stücks, die auch in traditionellem Notensatz festgehalten werden können. Man kann eine MIDI-Datei in jedem der üblichen Audiosequencer (Cubase, LogicAudio, Cakewalk Sonar, ProTools...) öffnen und den gesamten Notensatz des Liedes betrachten und ändern. Gratisversionen dieser Sequencer werden auf den Homepages der Firmen Steinberg, emagic und cakewalk angeboten. So ganz verlässlich ist der MIDI-Standard allerdings nicht: man kann eine MIDI-Datei vergleichen mit der Partitur eines Stückes. Der endgültige Klangeindruck und letztlich die Qualität hängen stark vom Orchester ab, das den Notentext interpretiert. Genauso ist es mit MIDI. Da in MIDI-Files keine Klänge gespeichert sind, sondern nur die Information, wie diese zu erzeugen sind, ist es schwierig, vorherzusehn, wie die mit viel Mühe erstellte MIDI-Datei beim Hörer abgespielt wird. Das Orchester muss nicht immer ein teurer Hardwaresynthesizer sein. Heutzutage gibt es viel einfacher zu handhabende Softwaresynthesizer, die sich Audio im Internet Seite 11 problemlos in die Sequencer einbinden lassen über interne Audioschnittstellen wie VST (Cubase, LogicAudio) oder Dxi (Cakewalk). Dabei werden die Klänge im Rechner selbst erzeugt und können beispielsweise auch intern aufgenommen werden, ohne jegliche Klangverluste durch analoge Kabel oder Mischpulte. Der Noteninput kommt von MIDI-Keyboards, die selber keine Klangerzeugung beherrschen müssen. Diese internen Softwaresynthesizer werden inzwischen von allen wichtigen Windows/MacSequencern unterstützt, die Demoversionen der wohl fähigsten gibt es bei NativeInstruments. Egal welche Synthesizer nun bei der Erstellung der MIDI-Files benutzt werden, Konsistenz der Stücke ist ein wichtiges Thema. Wenn sich ein Produzent in seinem Studio an die High-End Synthesizer setzt und nächtelang die passenden Sounds für ein Stück sucht, wird er sich nicht darauf verlassen wollen, dass der handelsübliche Soundblaster im Rechner des Hörers dasselbe Klangerlebnis vermittelt wie die Geräte im Studio. Denn der Klang an sich wird letztlich von der Audio-Engine, die den MIDI-Track abspielt, erzeugt. Das muss sich nicht zwangsläufig schlecht anhören, aber allein die Tatsache, dass es sich ganz anders anhören könnte als die eigentliche Komposition, schreckt viele Künstler ab. So gibt es zwar haufenweise gute bis sehr gute Transkriptionen von bekannten Stücken im MIDI Format, jedoch würde sich niemand dazu herablassen eigene neue Kompositionen in MIDI direkt den Hörern anzubieten. Der Absatzmarkt für MIDI-Musik beschränkt sich hauptsächlich auf Alleinunterhalter und Produzenten, denen das Einspielen schwieriger Passagen zu anstrengend ist. Und natürlich auf die Autoren von Webseiten. Denn die Vorteile für das Internet liegen auf der Hand: unglaublich kleine Dateien im Vergleich zu anderen Musikformaten und alle Vorteile, die sich daraus ergeben: kurze Ladezeiten, flüssiges Abspielen und das alles bei hoher Browserkompatibilität (MIDI ist immerhin über 20 Jahre alt). Zwar ist das MIDI-Protokoll kein StreamingFormat, die Dateien sind aber so klein, dass sie schnell auf einmal heruntergeladen werden können. Ein Lied von vier Minuten und 8 Spuren belegt weniger als 90 KB, das ist kein Vergleich zu allen Audiokompressionsformaten. Da jedoch MIDI ursprünglich nicht für das Webpublishing sondern für die Kommunikation zwischen Sequencern und Klangerzeugern entwickelt wurde, wird es immer einige Nachteile behalten. Zum einen gibt es keinen einheitlichen Standard, wie MIDI-Klänge dargestellt werden müssen. Zwar hat sich mit GeneralMIDI I und II ein Standard etablieren können, aber auch der ist keine Klangqualitätsgarantie. GeneralMIDI ist ein Standard, der eine Auswahl von 128 Instrumenten festsetzt, die jeder MIDI-Klangerzeuger beherrscht. Auf der vierten dieser 128 Spuren ist beispielweise immer ein Honkytonk-Piano. Allerdings ist dieser Standard nur eine Richtlinie, wie der Klang einer Spur in etwa von der Soundengine des Synthesizers dargestellt werden soll. Bei so schwammigen Begriffen wie tubular bells hat man wenig Sicherheit, dass der Klang konsistent von verschiedenen MIDI-Klangerzeuger dargestellt wird. Daneben lässt die Klangqualität bei diesen Instrumenten meist sehr zu wünschen übrig. Und: Stimmen oder besondere und selbst erstellte Klänge lassen sich damit nicht übertragen. Während man auf der einen Seite die Ungewissheit hat, ob Klänge wie gewünscht dargestellt werden, ist man andererseits beim einzigen Standard an ein recht starres Konzept an Gestaltungsmöglichkeiten gebunden. Deshalb haben einige Softwarehersteller hybride Systeme entwickelt, die die Vorteile von MIDI mit denen üblicher Audioformate kombinieren sollten. Da gibt es zum Beispiel das Beatnik-Format, eine einstmals sehr vielversprechende Kombination aus dynamischer Klangerzeugung (über MIDI) und herkömmlichem Sampling. Man kann im Beatnik-Editor RMF (RichMusicFormat) Dateien erstellen, wobei man neben der üblichen GeneralMIDI Instrumentenbank noch einen eigenen Synthesizer und einen Sampler zur Verfügung hat. Mit dem Synthesizer kann man neue Klänge beispielsweise durch die Veränderung der Tonhöhe oder Hüllkurve erreichen, mit dem Sampler hat man die Möglichkeit, kleine Samples von Stimmen oder anderem Audiomaterial in das File zu integrieren. Allerdings hatte ich bei Recherchen im Netz nicht den Eindruck, dass sich dieses Format, auch wenn das Konzept überzeugend ist, richtig durchsetzen konnte. Es findet in letzter Zeit wieder verstärkt in Mobiltelefonen Anwendung, aber für Webpublishing scheint es nicht die Popularität anderer Formate erreichen zu können. Das liegt wohl daran, dass die Umwandlung des Audiomaterials relativ aufwendig ist, man muss es eigentlich noch einmal neu komponieren; Stimmenübertragungen sind auch mit anderen Formaten viel einfacher zu verwirklichen als mit dem RMF. Und dann benötigt der Hörer in spe noch das Beatnik-Plugin, denn das RMF wird von den wenigsten Playern unterstützt. Ich beschränke mich also im Folgenden lieber auf das originäre MIDI Format. Denn auch hier ist man bemüht, konsistente Klänge ohne zu viele Einschränkungen im Klang zu erreichen. Die MIDI Manufacturers Association hat sich einen neuen Standard ausgedacht, der Klangkonsistenz garantieren soll. Downloadable Sounds (DLS) ist eine Spezifikation, die inzwischen alle wichtigen Hersteller von Klangerzeugern in ihre Produkte integrieren. Nicht nur Synthesizer sondern auch Abspielsoftware, beispielweise der WMPlayer und die QuicktimeSoftware unterstützen DLS. Man kann sich MIDI als recht abgespecktes Protokoll zu Übertragung von Informationen über Tonhöhe, Lautstärke und Dauer vorstellen. DLS ist das Protokoll zur Erzeugung von Klängen. Ist ein Klang in MIDI gespeichert und der Player unterstützt DLS, so kann man sich sicher sein, dass es genauso klingt, wie es gedacht war. Audio im Internet Seite 12 Hier ein Überblick über ein MIDI-Setup: Zur Erstellung einer MIDI Datei kann man sich einen Sequenzer zuzulegen, oder mit einem MIDI-Editor arbeiten. Die Demoversion eines brauchbaren Editors findet man beispielsweise bei Midinotate. Normalerweise sollte jeder Editor die MIDI-Noten auch abspielen können, zumindest im GeneralMIDIFormat. Zum Abspielen eignen sich aber auch alle anderen üblichen Player. MIDI wird inzwischen vom RealPlayer verstanden, ebenso vom WinAmp, dem WMPlayer sowie dem Quicktime-Player. MIDI-Songs gibt es haufenweise im Internet, umsonst und in kommerziellen Archiven. Will man eigene Lieder verwenden, kann man vorhandene Dateien editieren und Noten oder Instrumentenbesetzung übernehmen oder nur modifizieren und spart sich viel Sucharbeit im Editor. Oder man fängt eben bei null an. Dafür hier noch einige Tipps: • Initialisierung: Ein MIDI-Song besteht aus mehreren Instrumentalspuren, die alle einen separaten Kanal belegen. Jeder dieser Kanäle muss vor dem Abspielen initialisiert werden. Damit dabei keine Hänger entstehen, ist es manchmal sinnvoll, den ersten Takt leer zu lassen, damit die Instrumente den Kanälen zugewiesen werden können. Um Zeitverzögerungen zu vermeiden, kann man den ersten Takt dann auf Tempo 500 setzen und der Hörer bekommt davon nichts mit. Für die Initialisierung eignen sich auch Pausen am Ende eines Stückes. Man kopiert sie einfach an den Anfang, quasi als stillen Auftakt, um dem Klangerzeuger Zeit zu geben. Ein anderer Trick ist, das Stück mit Drums oder Piano zu beginnen. Die beiden Instrumente sind Defaultbelegungen, sie werden gespielt, wenn keine andere Instrumentalbesetzung bekannt ist. Beginnt ein Lied mit dieser Belegung, startet die Wiedergabe schneller. • Normalisieren Das Volumen sollte man über alle Dateien und Spuren zwischen 60 und 100 halten und nicht den ganzen Bereich bis 127 ausnutzen. Wenn eine Einzelnote mit 127 abgespielt wird, der Kanal dabei auch aufgedreht ist, kann es zu Verzerrungen kommen. • Redundanz Arbeitet man mit einem MIDI-Controller, der auch noch über Drehregler verfügt, sollte man aufpassen, nicht zuviel damit herumzuspielen. Bis auf die Einstellung die direkt vor der Note kommt, bringen Änderungen nichts. Dafür können die Dateien sehr viel größer werden mit diesen unnützen Informationen. • Testen Der wohl wichtigste Teil. Gerade beim MIDI-Format kann man nicht gründlich genug testen, wie sich die Datei beim Abspielen mit verschiedenen Browsern und Playern verhält. Die Einbindung eines Hintergrundsongs in eine Website erfolgt wie oben einfach über den tag <BGSOUND SRC=“mysong.mid“> (IE) und <EMBED SRC=“mysong.mid“> (Netscape). Hier ein Beispiel für eine Hintergrundbeschallung im Netscape Navigator: Audio im Internet Seite 13 <EMBED SRC=“mysong.mid“ HIDDEN=“true“ loop=“yes“ volume =“10“ autostart=“true“> Wenn allerdings schon die Klänge immer dieselben sind, wird dasselbe Lied nach kurzer Zeit nervig. Man kann leicht für Abwechslung sorgen, indem man folgendes Script in die Seite integriert: <SCRIPT> <!-var numMIDI =12 day =newDate() seed=day.getTime() ran=parseInt(((seed-(parseInt(seed/1000,10)*1000))/10)/100*numMIDI+1,10) if (ran == (1)) MIDI=(“loop_1.mid“) if (ran == (2)) MIDI=(“loop_2.mid“) ... if (ran == (12)) MIDI=(“loop_12.mid) document.write('<EMBED SRC=“http://deineseite.de/MIDIFILES/' + MIDI + ' “ WIDTH=0 HEIGHT=0 AUTOSTART=TRUE>') document.write('<BGSOUND SRC=“http://deineseite.de/MIDIFILES/' + MIDI + ' “ AUTOSTART=TRUE>') // --> </SCRIPT> MIDI Überblick: Interaktivität Beschränkt; MIDI ist ein Kommunikationsprotokoll; gut geeignet für ButtonRollovers und Soundeffekte Kosten Keine bis etwa 300 € für einen guten MIDI-Sequencer; MIDI-Keyboards ab ca. 100 € Dokumentation Wenig Enkodierung Schwierig;erfordert Grundkenntnisse in Notation und Harmonielehre und im Umgang mit MIDI-Editoren Einbindung Einfach Qualität Meist miserabel; aber unschlagbares Klang/Dateigröße-Verhältnis Performance bei geringer Bandbreite Sehr gut Server Performance Gut; problemloses Pseudo-Streaming über HTTP Browserkompatibilität Exzellent Audio im Internet Seite 14 WindowsMedia Auch Microsoft bietet ein proprietäres Streaming-Format an, das AdvancedStreamingFormat (ASF). Der Unterschied zu dem Format von RealSystems liegt hauptsächlich darin, dass alle Mediendateien in eine Datei gepackt werden. Bei RealStreams können alle Elemente einer Multimedia-Seite separat gespeichert werde und über ein SMIL-File koordiniert werden. Das erleichtert die Instandhaltung der Seite, wenn einzelne Dateien aktualisiert werden, muss man nicht jedesmal alles zusammen komprimieren. Bei ASF, das alle Daten inklusive Script, Text, Audio, Video und ActiveX Kontrollelementen enthält, ist dafür die Wiedergabe unter Umständen stabiler als bei dem konkurrierenden Format. Wenn ein ASF-File fertig ist, kann es auf jedem WMPlayer fehlerfrei wiedergegeben werden. Man muss nicht darauf achten, ob vielleicht eine einzelne Mediendatei ein veraltetes Format besitzt, oder dem Player ein Plugin für ein bestimmtes Format fehlt. Dafür kommen aber auch nur Windows-User an den Stream. RealSystems bietet auch Player für Mac, Unix/Linux, FreBSD und Solaris an. Ein Vorteil von ASF ist außerdem, dass die WindowsMedia Serversoftware schon bei allen Versionen von Windows NT Server ab der vierten Version dabei sind. Für Windows-User ist dieses Format sicherlich das unkomplizierteste. Microsoft hat den MediaPlayer in den letzten Versionen des InternetExplorers so gut integriert, dass es für diese Zielgruppe keine einfachere Art des Streamens gibt. Es müssen keine neuen Player oder Plugins installiert werden und alle Medien-Dateien werden automatisch mit dem WMPlayer verknüpft, der in das Browserfenster eingebettet ist. Für Audio-Dateien gibt es von Microsoft das WindowsMedia Audio-Format. Es erlaubt effiziente Kompressionen mit Bitraten bis zu 6,5 Kbps. Es dürfen auch weniger sein, aber um Stimmen verständlich zu machen, sollte man dabei bleiben. Die Einbettung erfolgt wie oben bei den MP3-Files erwähnt. WindowsMedia Überblick: Interaktivität OK; ASF gut geeignet für multimediale Präsentationen Kosten Keine; Allerdings nur für WindowsServer Dokumentation Gut Enkodierung Einfach Einbindung Mittel; verlangt WindowsServer Erfahrung Qualität Gut Performance bei geringer Bandbreite Gut Server Performance Exzellent; Geeignet für professionelle Sendebetriebe Browserkompatibilität Exzellent Ausblick Natürlich gibt es noch zahlreiche andere Audioformate, die es wert wären angesprochen zu werden. Neben all den Formaten, die eigentlich für ganzheitliche Multimedia-Präsentationen bestimmt sind, dabei aber auch gute Audiocodecs bieten (z.B. WindowsMedia, Flash, Quicktime) gibt es noch einige gute „Nur“-Audiocodecs, die in Zukunft wohl noch stärker vertreten sein werden. Der Nachfolger des MP3 Codecs, MP3pro, konnte sich nicht richtig durchsetzen. Durch die Lizenzgebühren, die er den Nutzern abverlangte, erreichte er nicht mehr das große Publikum. Anders der OpenSource Codec OGG Vorbis, ein lizenz- und patentfreies Encoding- und Streamingformat, das sich inzwischen schon in weiten Teilen des Internet, insbesondere in Linux- und OpenSource-Kreisen, durchsetzen konnte. Es überzeugt vor allem durch seine Audio im Internet Seite 15 Klangqualität bei niedrigen Bitraten, etwa erreichen Dateien bei 64 Kbps schon CD Qualität. Ein weiterer Vorteil ist die schnelle Encodierung bei variablen Bitraten. Intelligente Komprimierprinzipien ermöglichen eine wirkungsvolle Beseitigung von Redundanzen. So werden beispielsweise zwei Stereosignale, wenn sie dasselbe wiedergeben, nur einmal gespeichert. Man darf gespannt sein, wie sich dieses Format entwickelt, besonders vor dem Hintergrund der sonstigen rechtlichen Umwälzungen im Musikgeschäft im Internet. Sympathien genießt das OpenSource Projekt jedenfalls mehr, als andere kostenpflichtige Codecs. Der nächste Meilenstein bei den Komprimierverfahren wird Mitte 2004 wohl für Aufsehen sorgen. Der neue MPEG-Standard ist schon so gut wie fertig. Das Besondere dabei ist, dass dabei nicht mehr lossy encodiert wird, sondern lossless, es werden also keine Frequenzen mehr weggelassen, sondern alle Klanginformationen gespeichert. Die Einsparungen können nur aufgrund von Redundanzen gemacht werden, die bei einer Audiodatei allerdings sehr rar sind. Aufwendige Suchverfahren spüren bei MP4 Analogien in der Signalstruktur auf und lassen sehr ähnliche Muster als redundant gelten. Dieser Codec hat sich trotzdem als sehr effektiv herrausgestellt und wird sicher den Weg in Studios und Plattenläden finden. .