Analyse und Evaluation von Sprachverarbeitungssystemen
Transcription
Analyse und Evaluation von Sprachverarbeitungssystemen
Analyse und Evaluation von Sprachverarbeitungssysteme Studienarbeit Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik Vorgelegt von Dounia Mirrouch Gutachter: Prof. Dr. Gerd Szwillus Betreuer: Dr. Brigitte Oesterdiekhoff Abgabedatum: 2. Mai 2006 Inhaltsverzeichnis 1. Einführung........................................................................................................................ 4 1.1. 2. Einführung in die Sprachtechnologie................................................................................. 5 Spracherkennungssysteme .............................................................................................. 7 2.1. 2.1.1. 2.1.2. 2.1.3. 2.1.4. 2.1.5. 2.1.6. Einführung ........................................................................................................................... 7 Linguistische Probleme................................................................................................................. 8 Größe des Wortschatzes ............................................................................................................... 8 Homophone.................................................................................................................................... 8 Groß- und Kleinschreibung.......................................................................................................... 8 Komposita ...................................................................................................................................... 9 Sonderschreibweisen..................................................................................................................... 9 2.2. Spracherkennungs-Engine .................................................................................................. 9 2.3. Klassifikation der Spracherkennungssysteme................................................................. 10 2.3.1. Einführung in Diktiersoftware................................................................................................... 10 2.3.1.1. Unterstützte Anwendungen .............................................................................................. 11 2.3.1.2. Analysefunktion ................................................................................................................. 12 2.3.1.3. Training .............................................................................................................................. 13 2.3.1.4. Headset ............................................................................................................................... 13 2.3.1.5. Fehlerkorrektur und Navigation...................................................................................... 14 2.3.2. Kommandosysteme ..................................................................................................................... 14 2.3.2.1. Sprechererkennung ........................................................................................................... 15 2.4. Software und Geräte mit eingebauter Spracherkennung .............................................. 16 2.4.1. Diktiersoftware............................................................................................................................ 16 2.4.1.1. Beschreibung des Tests der Stiftung Warentest ............................................................... 16 2.4.1.2. Beschreibung des Tests der Zeitschrift com!................................................................... 17 2.4.1.3. Ausführliches Testergebnis der Diktiersoftware ............................................................ 18 2.4.2. Geräte mit Sprachsteuerung ...................................................................................................... 23 2.5. 3. Sprachsynthese ............................................................................................................... 26 3.1. 3.1.1. 3.1.2. 3.1.3. 4. Zusammenfassung.............................................................................................................. 24 Ablauf der Sprachsynthese ............................................................................................... 26 Linguistische Probleme............................................................................................................... 27 Komposita .................................................................................................................................... 27 Sonderschreibweisen................................................................................................................... 27 3.2. Einsatzbereiche von Text to Speech ................................................................................. 27 3.3. Audio-Fileformate für Text to Speech ............................................................................. 28 3.4. Text to Speech-Engines und Reader-Software................................................................ 28 3.5. Zusammenfassung.............................................................................................................. 31 Aufbau und Nutzen der Sprachdialogsysteme ............................................................ 32 4.1. 4.1.1. 4.1.2. 4.2. 4.2.1. 4.2.2. 4.2.3. 4.2.4. 4.2.5. 4.3. 4.3.1. 4.3.2. 4.4. 5. Einsatzbereich von NDS ............................................................................................................. 33 Nachteile und Vorteile von NDS ................................................................................................ 33 Entwicklung von NDS Applikationen mittels VoiceXML.............................................. 34 Design gemischt-initiativer Dialoge .......................................................................................... 34 VoiceXML-Infrastruktur ........................................................................................................... 35 Vorteile von VoiceXML .............................................................................................................. 37 Voice Applikation Plattform und Entwicklungswerkzeuge .................................................... 38 Applikation Service Provider ..................................................................................................... 39 Voice over IP ...................................................................................................................... 39 Grundlagen von VoIP ................................................................................................................. 40 Vorteile und Nachteile von IP-Telefonie ................................................................................... 41 Zusammenfassung.............................................................................................................. 42 Analyse ausgewählter Programme ............................................................................... 43 5.1. 5.1.1. 5.1.2. 5.1.3. 5.2. 5.2.1. 5.2.2. 5.3. 6. Sprachdialogsysteme.......................................................................................................... 32 TTS Engines ....................................................................................................................... 43 Kriterien des Tests ...................................................................................................................... 44 Ausführliches Testergebnis der TTS-Engines .......................................................................... 45 Bewertung der TTS-Engines ...................................................................................................... 50 Dragon NaturallySpeaking Standard 7............................................................................ 50 Kriterien des Tests ...................................................................................................................... 52 Ergebnisse des Tests und Bewertung......................................................................................... 54 Zusammenfassung.............................................................................................................. 56 Zusammenfassung der Arbeit ....................................................................................... 57 1. Einführung Stell dir vor, du kommst nach Hause, und du sagst „Licht an“, „E-Mails vorlesen“ und „Radio anschalten“, und alles geschieht, weil eine Technologie deine Befehle entgegennimmt und ausführt. Diese Technologie ist Teil der sogenannten Sprachtechnologie; unter Sprachtechnologie versteht man die Aufzeichnung, Erkennung und die Ausgabe oder Wiedergabe von Wörtern oder Sätzen. Um diese Sprachtechnologien zu Sprachwissenschaftler und Toningenieure. entwickeln, kooperieren Softwareentwickler, Ein wichtiger Antrieb für die Entwicklung ist die immer weiter fortschreitende Miniaturisierung der Endgeräte. Erstens fehlen diesen portablen Endgeräten ergonomische Eingabegeräte wie eine ausreichend große Tastatur oder eine Maus, und diese möchte man auch nicht gerne zusätzlich mit sich herumschleppen. Zweitens sind die Displays klein, so dass zum Lesen einer Webseite oder einer E-Mail Scrollen von links nach rechts und von oben nach unten nötig ist. Drittens gibt es bestimmte Situationen, in denen man die Hände nicht benutzen kann, um das Gerät zu bedienen, zum Beispiel während des Autofahrens kann man keine Rufnummer wählen. Hier drängt sich die Nutzung der Sprache als Lösung der Probleme auf. Eine weitere Anwendung dieser Technologie sind die natürlichsprachlichen Dialogsysteme. Hierbei führt man in natürlicher Sprache einen Dialog mit einem Computer. Durch den Einsatz dieser Dialogsysteme kann man zum Beispiel in einem angenehmen Gespräch eine Fahrplanauskunft der Deutschen Bahn bekommen, oder nach Geschäftsschluss der Bank noch eine Transaktion durchführen. Die Sprachtechnologie hat ihre Wurzeln schon im 18. Jahrhundert. Die Entwicklung der Spracherkennung startete dann in den 50er Jahren des 20. Jahrhunderts. 1952 wurde zum ersten mal eine sprecheradaptive Erkennung einzelner Ziffern möglich. Das heißt, dieses System wurde von einer Person trainiert, indem sie die Ziffern in ein Mikrofon sprach, diese Sprache aufgenommen, digitalisiert und auf dem Rechner abgespeichert wurde; das System erkennt die von derselben Person gesprochenen Ziffern wieder. 1956 konnten einsilbige Wörter erkannt werden; 1970 waren die Systeme in der Lage, einzelne mehrsilbige Worte zu erkennen, doch sie wurden vom Verbraucher noch nicht angenommen, da sie zu teuer waren und ihr Wortschatz zu klein war. Im Jahre 1984 stellte die Firma IBM ein Sprachsystem vor, das mit Hilfe eines Großrechners ungefähr 5000 englische Einzelworte in mehreren Minuten erkannte. Erst 1986 entwickelte IBM ein in Echtzeit arbeitendes System, das sogar eine Kontextprüfung beinhaltete. Den Durchbruch erzielte IBM im Jahre 1994, indem sie die PC-Lösung „IBM VoiceType“ auf den Markt brachten, die nur zehn Prozent des Preises der Vorgänger kostete; es war aber immer noch nötig in isolierter Sprechweise zu reden. Erst Ende der 90er Jahre wurden Diktiersysteme von den Firmen IBM und Dragon Systems vorgestellt, die die übliche kontinuierliche Sprechweise erkannten. Diese Programme besitzen ein mehrere hunderttausend Wörter großes Wörterbuch und erzielen eine Erkennungsrate von über 90 Prozent.1 1 www.spracherkennung.de 1.1. Einführung in die Sprachtechnologie Wenn wir über Sprachtechnologie reden, dann meinen wir die Spracheingabe, Spracherkennung und Sprachausgabe. Bei der Spracheingabe spricht der Sprecher in ein Mikrofon; das Gesprochene wird digitalisiert, beim PC geschieht dies mittels Soundkarte. Erkennungsalgorithmen bearbeiten diese Eingabe, um sie zu verstehen; diesen Vorgang nennen wir Spracherkennung. Wichtige Teile der Spracherkennung bilden Kommandosysteme, Diktiersysteme und Sprechererkennung. Mit Kommandosystemen kann man zum Beispiel die Bedienoberfläche eines PCs durch die gesprochene Sprache steuern. Mit ihnen kann man sogar eine gespeicherte Rufnummer im Handy per Stimme wählen. Anstatt einen Text mit 2 Fingern in die Textverarbeitung eines PCs zu tippen, kann man diesen Text auch einem Diktiersystem diktieren, und das System sorgt dafür, dass die Sprache erkannt und geschrieben wird. Die Sprechererkennung ist ein biometrisches Verfahren, das die Identität des Sprechers liefert. Wir beschreiben Kommandosysteme, Diktiersysteme und Sprechererkennung näher in Kapitel 2. Manchmal möchte man sich einfach in seinem Schreibtischstuhl zurücklehnen und sich den diktierten Text nochmals vorlesen lassen. Es gibt Programme, die das tun, nämlich die Sprachausgabeprogramme. Das einfachste Verfahren zur Sprachausgabe ist die Wiedergabe von aufgezeichneter natürlicher Sprache. In Kapitel 3 werden wir aber die synthetische Sprachausgabe näher kennenlernen. Dies ist bekannt unter dem Namen Text-To-Speech. Unter diesem Verfahren werden Texte mit synthetisch erzeugter Stimme ausgegeben. TextTo-Speech wird in vielen Unternehmen angewendet, so beispielsweise bei Auskunftssystemen wie für das Wetter oder die Lottozahlen. Wer hat es noch nicht erlebt, bei einem Call Center anzurufen und ständig das Besetztzeichen zu hören, und sich noch nicht die Frage gestellt: Warum gibt es denn kein System, das meinen Anruf wenigstens entgegennimmt und mich dann zu einem geeigneten Gesprächspartner weiterleitet? Oder besser noch: Warum gibt es kein „intelligentes“ System, das meine Anfrage beantwortet? Ein klassisches System, das die Anrufe entgegennimmt und gegebenenfalls weiterleitet, heißt Interactive Voice Response (IVR) System. Die Fähigkeiten der IVR-Systeme wurden in der Zwischenzeit so stark erweitert, dass man auch den Namen in Sprachdialogsystem oder auch Voice Portal änderte. Das erste Voice Portal wurde 1996 von der Firma BellSouth eröffnet und wurde Val genannt.2 Ein Voice Portal oder auch Sprachportal oder Sprachdialogsystem ist ein System, bei dem man mit Computern in normaler Sprache fast wie mit einem Menschen sprechen kann. Der Anrufer stellt eine Verbindung mit einem Sprachportal her, der Voice Browser oder auch VoiceXML Interpreter nimmt die Verbindung an und lässt die Sprache von einer Spracherkennung in Text umwandeln; dieser Text ist die Eingabe für das VoiceXMLProgramm, das der Voice Browser interpretiert. Die Antworten sind in einer Datenbank entweder lokal oder auf einem Server gespeichert. Der Voice Browser gibt dem Text-ToSpeech Programm die Anweisung, die Antworten in Sprache umzuwandeln. Diese Sprache wird dem Anrufer übermittelt. Um ein Sprachdialogsystem zu entwickeln, braucht man also Spracheingabe und Sprachausgabe, genau die Komponenten, die in Kapitel 2 und Kapitel 3 näher behandelt werden. Mehr zu Sprachdialogsystemen und zur Architektur von Voice 2 www.dragon-medical-transcription.com/historyspeechrecognitiontimeline.html Browsern und Voice XML ist in Kapitel 4 zu finden. In dem selben Kapitel behandeln wir noch den wichtigen Punkt der Sprachübertragung mittels Internet Protokoll, das ist das Voice over Internet Protocol (VoIP). In Kapitel 5 wird eine Analyse ausgewählter Programme aus dem Bereich Spracherkennung und Sprachsynthese durchgeführt. 2. Spracherkennungssysteme In diesem Kapitel werden wir zunächst eine Einführung in die Spracherkennungssysteme geben und dabei insbesondere einige der auftauchenden Probleme näher erläutern. Im zweiten Abschnitt stellen wir einige Softwares vor, die für die Umwandlung von Sprache zu Text zuständig sind, die sogenannten Spracherkennungs-Engines. Im dritten Abschnitt führen wir dann eine Klassifikation der Spracherkennungssysteme durch. Dabei unterscheiden wir zwischen Diktiersoftware und Kommandosystemen. In dem vierten Abschnitt behandeln wir auf dem Markt befindliche Software und Endgeräte mit eingebauter Spracherkennung. Als Informationsgrundlage dienten zwei bekannte Zeitschriften, in denen einige Diktierprogramme getestet wurden. Bei diesen Tests wurde beachtet, wie gut die Erkennungsqualität beim Auftreten der Probleme aus dem zweiten Abschnitt ist. Bei den Endgeräten mit eingebauter Spracherkennung haben wir Handys und Geräte aus dem Home-Bereich gefunden. Da wir bei den Endgeräten keine unabhängigen Tests gefunden habe, beschränken wir uns auf die Herstellerinformationen zu diesen Produkten. 2.1. Einführung Die Spracherkennung ist ein Prozess zur Umwandlung der gesprochenen Sprache in geschriebenen Text. Dieser Text wird oft auch String genannt. Der Prozess besteht aus mehreren Stufen; in einer ersten Stufe werden die kleinsten Einheiten der gesprochenen Sprache extrahiert, diese heißen Phoneme oder auch Laute. Phoneme werden zu Wörtern zusammengesetzt, und in einer dritten Stufe werden die Wörter zu Sätzen zusammengefasst. Der Spracherkenner wird deshalb auch Speech-to-Text-Engine oder auch Automatic Speech Recognition (ASR) genannt. ASR ist aber der weitaus geläufigere Begriff. Die Spracherkennung ermöglicht die Eingabe von Daten an eine beliebige Anwendung, dadurch können andere Eingabegeräte wie Tastatur, Maus, Joystick und Zeichentablett durch die natürliche Sprache ersetzt werden. Der Anwender benötigt ein Mikrofon an seinem Computer oder er kann die Applikation per Telefon anrufen. Die erste Möglichkeit ist meistens für den persönlichen Bedarf, die zweite Variante wird oft bei Auskunftssystemen verwendet. Bei der Spracherkennung wird zwischen sprecherabhängiger und sprecherunabhängiger Erkennung unterschieden. Ein sprecherunabhängiges System kann von jeder beliebigen Person ohne Training genutzt werden. Das sprecherabhängige System muss von jedem Sprecher separat trainiert werden. Früher wurde zu diesen Systemen kein sprecherunabhängiger Wortschatz mitgeliefert, so dass der Sprecher mit großem Aufwand einen eigenen Wortschatz erstellen musste, bis die ersten zufriedenstellenden Erkennungsraten erzielt wurden. Heute ist bei den sprecherabhängigen Systemen ein sprecherunabhängiger Wortschatz eingebaut. Jetzt benötigt das System noch einige Minuten Zeit bis es eine Beziehung zwischen seinem Wortschatz und der Sprechweise des Sprechers hergestellt hat. Genau wie der hochdeutsch sprechende Mensch einige Zeit benötigt, bis er sich zum Beispiel an den sächsischen Dialekt gewöhnt hat. Die Qualität der Spracherkennung wird durch die Erkennungsrate gemessen. Dabei bedeutet eine Rate von 90 Prozent, dass jedes 10. Wort falsch erkannt wird, eine Rate von 98 Prozent bedeutet, dass nur noch jedes 50. Wort falsch ist. In der Spracherkennung treten Probleme auf, welche die Erkennung der gesprochenen Worte bzw. Sätze erschweren. In den nächsten Abschnitten, behandeln wir die wichtigsten sechs Probleme.3 2.1.1. Linguistische Probleme Um nicht näher auf die technischen Einzelheiten einzugehen, wollen wir die linguistischen Probleme, die die Erkennung von Worten beeinträchtigen, an Beispielen erläutern. Dadurch dass der Sprecher ein Wort nie exakt gleich aussprechen kann, entstehen die größten Schwierigkeiten bei der Spracherkennung durch den Computer. Außerdem gehören schlechte Mikrofone und Geräusche im Hintergrund zu den linguistischen Problemen. Wenn aber der Sprecher zum Beispiel am Rand einer stark befahrenen Straße zu einem anderen Menschen spricht, kann dieser Mensch trotz dieser Probleme den Sprecher durch dessen Gesten und durch den Kontext verstehen. Dem Computer stehen leider diese Möglichkeiten nicht zur Verfügung. 2.1.2. Größe des Wortschatzes Zu jedem gesprochenen Wort muss das ASR-System den zugehörigen String zuordnen können. Deshalb müssen alle diese Worte einschließlich aller Wortformen in einem Wörterbuch gespeichert sein. Ist ein gesprochenes Wort nicht in dem Wörterbuch vorhanden, dann wird anstelle dieses Wortes ein ähnlich klingendes Wort ausgegeben, wodurch sich die Erkennungsrate verringert. Daher wird zum Beispiel bei Diktiersoftware häufig die Möglichkeit geboten, ein speziell abgestimmtes Wörterbuch zu benutzen, das das Fachvokabular abdeckt wie zum Beispiel für Mediziner oder Juristen. 2.1.3. Homophone Homophone sind gleichklingende Wörter, die unterschiedlich geschrieben werden; das System muss entscheiden, welches der Wörter aus dem Wörterbuch dem gesprochenen Wort zugeordnet werden soll. Beispielsweise klingen die Wörter „mehr“ und „Meer“, „fiel“ und „viel“, „wieder“ und „wider“ vollkommen gleich ausgesprochen. 2.1.4. Groß- und Kleinschreibung Durch unterschiedliche Groß- und Kleinschreibung kann sich der Sinn eines gesprochenen Satzes vollständig ändern. Zum Beispiel hat der Satz „der Gefangene floh“ einen anderen Sinn als „der gefangene Floh“. Bei Diktierprogrammen wird versucht durch eine Kontextprüfung den richtigen Sinn zu ermitteln, um festzustellen, ob ein Wort groß oder klein ausgegeben wird. 3 www.spracherkennung.de/service/sebuch.htm 2.1.5. Komposita Kompositum ist die lateinische Bezeichnung für „zusammengesetztes Wort“, und gerade die deutsche Sprache erlaubt die Bildung zusammengesetzter Worte wie „Steuerlüge“. Obwohl die einzelnen Worte „Steuer“ und „Lüge“ wahrscheinlich in dem Wörterbuch vorhanden sind, wird das zusammengesetzte Wort in den meisten Fällen nicht erkannt. 2.1.6. Sonderschreibweisen Zu einem diktierten Text gehören auch gewisse Sonderschreibweisen wie z. B. Datum, Uhrzeit, Währung, Sonderzeichen, Internet- und E-Mail-Adresse. Eine gute Diktiersoftware soll in der Lage sein, zum Beispiel die Mailadresse „mirrouch at online Punkt de“ als „[email protected]“ umzusetzen. 2.2. Spracherkennungs-Engine Spracherkennungs-Engines - auf Englisch "automatic speech recognition engines" (ASREngines) - bilden die eigentliche Grundlage einer jeden mit Spracherkennung arbeitenden Software. Mit Hilfe dieser Engines ist eine einfache Integration von Spracherkennung in eine beliebige Anwendung wie zum Beispiel Diktiersoftware oder Voice Portale möglich. Es gibt 4 bekannte Hersteller von Engines, welche mehrere Sprachen, darunter Deutsch und Englisch, unterstützen; sie laufen entweder unter den neueren Windows Varianten oder unter Unix. Wir finden auf dem Markt Engines, die nur Teil einer Anwendung sind, wie die Engine Via Voice von IBM und ASR 1600 oder ASR 3200 von Scansoft als Teil der Diktiersoftware, aber auch vielseitige Engines wie VoCon-3200 von Scansoft, welche sogar in embedded Systemen aus dem Automobilbereich lauffähig ist. Wir haben die Engines von den bekannten Herstellern in der folgenden Tabelle zusammengefasst. Engine 4 UK English, US English, German und andere Philsoft ASR engine 3.25 UK English, US English, German und andere Sakrament ASR engine6 Unabhängig Loquendo ASR 4 5 6 Sprache www.loquendo.com/de/technology/asr.htm www.telisma.com/ASRengine.html www.sakrament-speech.com/products/asr/asr2 Sprecherabhängig/ Sprecherunabhängig -/Ja System Windows NT, 2000, Unix, Linux Red Hat 7.x Windows NT, 2000 Ja/Ja Windows 98, ME, NT, 2000, XP Engine Telisma ASR 3.2 VoCon-3200 engine8 Sprache 7 Sprecherabhängig/ Sprecherunabhängig UK English, US English, German und andere UK English, German und andere System Windows NT, 2000, Linux, Solaris, hp UX -/Ja Windows NT, 2000, XP, CE Tabellarische Übersicht der Engines 2.3. Klassifikation der Spracherkennungssysteme Die Spracherkennungssoftware wird in zwei Kategorien unterteilt, Diktiersoftware und Kommandosysteme. Diktiersoftware wandelt das gesprochene Wort in einen Text um, der Inhalt des Textes hat keinen Einfluss auf das Verhalten des Systems, mehr dazu im ersten Abschnitt. Kommandosysteme jedoch analysieren den Inhalt des Textes und reagieren. Die Reaktion kann in der Ausführung eines Befehls oder in der Ausgabe von Sprache bestehen. In diesem Kapitel werden wir nur Kommandosysteme ohne Sprachausgabe vorstellen. Kommandosysteme mit Sprachausgabe, die als natürlichsprachige Dialogsysteme bekannt sind, lernen wir erst in Kapitel 4 kennen. Den in diesem Kapitel vorgestellten Kommandosystemen begegnet man häufig direkt am eigenen PC oder auch am Handy, mehr dazu im zweiten Abschnitt. Die Sprechererkennung, einen Spezialfall der Kommandosysteme, werden wir ebenfalls kennenlernen. 2.3.1. Einführung in Diktiersoftware Diktiersysteme haben die Aufgabe, einen gesprochenen Text in getippten Text umzusetzen. Das Ergebnis ist dann ein Dokument, das in einem für eine bestimmte Anwendung verständlichen Format vorliegt. Häufig ist diese Anwendung ein Textverarbeitungssystem. Im ersten Abschnitt werden wir auf diese unterstützten Anwendungen genauer eingehen. In jedem Diktiersystem ist heutzutage ein Wörterbuch im Umfang von ca. 1 Million Wortformen integriert. Das Wörterbuch dient dazu, eine Beziehung zwischen dem vom Benutzer gesprochenen Wort und dem am ähnlichsten klingenden Wort in seiner Datenbank herzustellen. Dieses ähnlich klingende Wort wird dann auf dem Bildschirm ausgeschrieben. Das in dem Diktiersystem integrierte Vokabular kann vom Benutzer erweitert werden. Mehr dazu im zweiten Abschnitt. Für einige besondere Berufsgruppen wie zum Beispiel Juristen, Mediziner und IT-Berufe gibt es außerdem Fachvokabular, das in den Gesamtwortschatz mit eingebunden werden kann. 9,10 Heutige Programme können eine Erkennungsrate von 99 Prozent erreichen, allerdings kann diese Rate nur durch Sprecherabhängigkeit erreicht werden. Sprecherabhängige Systeme 7 www.telisma.com/overviewASR.html www.scansoft.com/automotive/vocon3200 9 com! 2004 Heft 5, S. 80 10 Freiheit, Lehner, Matousek: VoiceXML, Berlin und Offenbach 2003, S. 28 8 müssen vor ihrem ersten Einsatz vom jeweiligen Anwender trainiert werden. Genaueres hierzu im dritten Abschnitt. Zum Lieferumfang eines Diktiersystems gehört im allgemeinen auch ein Headset. Wenn der Benutzer einen Text diktieren will, setzt er dieses Headset auf und spricht in das Mikrofon. Im vierten Abschnitt werden wir den Einfluss der Qualität eines Headsets auf die Erkennungsrate näher erläutern. Ist ein Wort vom Diktierprogramm falsch erkannt worden, hat der Anwender die Möglichkeit, das Wort zu korrigieren. Es gibt dazu zwei Möglichkeiten, entweder manuell per Tastatur oder per Sprachbefehl. Genaueres dazu im fünften Abschnitt. 2.3.1.1. Unterstützte Anwendungen Die Spracherkennung ist im Prinzip in der Lage, das Schreiben von Texten und das Navigieren in einem Dokument zu übernehmen. Insbesondere ist dies in Textverarbeitungen, in E-Mail Programmen und in Tabellenkalkulationen willkommen. Bei unseren Recherchen haben wir herausgefunden, dass Anwendungen ohne Spezialfunktionen und die folgenden Programme von Diktiersoftware unterstützt werden: 11,12 Microsoft Word: wird oft auch kurz MS Word oder Word genannt und ist ein Textverarbeitungsprogramm der Firma Microsoft für die Windows-Betriebssysteme und MacOS.13 Wordpad: ist eine einfache Textverarbeitung der Firma Microsoft, die im Betriebssystem Microsoft Windows integriert ist. Dragon Pad: ist eine einfache Textverarbeitung, die mit Diktiersoftware der Hersteller Scansoft mitgeliefert wird. Speak Pad: ist eine einfache Textverarbeitung, die mit Diktiersoftware der Hersteller IBM und Linguatec mitgeliefert wird. Microsoft Outlook: ist ein weit verbreitetes Mail-Programm der Firma Microsoft für die Windows-Betriebssysteme.14 Pegasus Mail: bezeichnet einen E-Mail-Client, welcher von David Harris entwickelt wird. Versionen existieren für Microsoft Windows und MS-DOS. Pegasus Mail ist Freeware seit seiner Einführung im Jahr 1990.15 Microsoft Excel: ist ein Tabellenkalkulationsprogramm. Es ist sowohl für Microsoft Windows als auch für MacOS verfügbar. Die aktuell verfügbare Version ist Microsoft Excel 2004 für Macintosh (seit Juni 2004). Für Windows ist die aktuellste Version das Microsoft Excel 2003 (seit 21.10.2003).16 11 com! 2004 Heft 5, S. 83 Test 2004 Heft 1, S. 38 13 http://de.wikipedia.org/wiki/Microsoft_Word 14 http://de.wikipedia.org/wiki/Microsoft_Outlook 15 http://de.wikipedia.org/wiki/Pegasus_Mail 16 http://de.wikipedia.org/wiki/Excel 12 Internet Explorer: (Abkürzung IE oder MSIE) ist ein Webbrowser von Microsoft für Microsoft Windows und MacOS. Für einige Zeit gab es auch Versionen für Unix-Derivate wie Solaris und AIX. Der Internet Explorer ist mit über 88,9% Marktanteil der meistgenutzte Browser im Internet (Stand: November 2004). Der IE ist Bestandteil des Betriebssystems Microsoft Windows seit Windows 95 SR2.17 Der Desktop: ist das englische Wort für das deutsche Word Schreibtisch. Er ist bei graphischen Benutzeroberflächen die Arbeitsfläche und damit die unterste Fensterebene. Zum Desktop gehören Symbole (Icons), die Programme, Systembestandteile, Dateien und Speichermedien, wie Disketten, Festplatten und CDs, repräsentieren. Dazu gehört auch ein Papierkorb, in den Programme und Dateien gezogen werden können, um sie anschließend durch Entleeren des Papierkorbs zu löschen. Von den mir bekannten Diktierprogrammen wird der Microsoft Windows-Desktop unterstützt.18 AOL: ist ein US-amerikanischer Onlinedienst, der sich 1995 auch in Deutschland niedergelassen hat. AOL setzte für die Einwahl in das Internet jahrelang auf eine proprietäre Software mit eigenständiger Konnektivität, ohne die es nicht möglich war, AOL zu nutzen. Inzwischen kann man AOL auch ohne diese Software nutzen. Jedoch wird die AOL Software weiterhin vermarktet, da sie eine gute Plattform für Internetneulinge darstellt.19 2.3.1.2. Analysefunktion Die Wörterbücher aktueller Diktiersoftware sind selbsterweiternd, das heißt, es gibt eine Analysefunktion, welche aus Dokumenten verschiedener Dateiformate einliest und nach neuen Wortformen durchsucht. Diese werden dann einzeln oder im ganzen dem Wörterbuch hinzugefügt. Es werden ASCII, RTF und HTML Dateien analysiert. Außerdem werden Dokumente analysiert, die mit einem der Textverarbeitungsprogramme Word bzw. Word Perfect oder mit einem der E-Mail Programme Outlook bzw. Lotus Notes erstellt wurden. Wir geben eine kurze Beschreibung der oben aufgeführten und bisher noch nicht beschriebenen Dateiformate bzw. Programme. ASCII: ist ein amerikanischer Standard-Code für den Informationsaustausch; ASCII beschreibt einen Sieben-Bit-Code. Dieser Code verwendet binäre Ganzzahlen, die mit sieben binären Ziffern dargestellt werden (entspricht 0 bis 127), um Zeichen darzustellen.20 RTF: Das Rich Text Format ist ein Dateiformat für Texte, das von Microsoft eingeführt wurde und zum Datenaustausch zwischen Textverarbeitungsprogrammen verschiedener Hersteller dient.21 HTML: Die Hypertext Markup Language ist ein Dokumentenformat zur Auszeichnung von Hypertext im World Wide Web.22 WordPerfect: ist ein Textverarbeitungsprogramm der Firma Corel für die WindowsBetriebssysteme ähnlich zu Microsoft Word.23 17 18 19 20 21 22 http://de.wikipedia.org/wiki/Internet_Explorer http://de.wikipedia.org/wiki/Schreibtisch_%28EDV%29 http://de.wikipedia.org/wiki/AOL http://de.wikipedia.org/wiki/ASCII http://de.wikipedia.org/wiki/Rich_Text_Format http://de.wikipedia.org/wiki/Html Lotus Notes: ist ein Programmpaket der Firma IBM, in dem insbesondere ein E-Mail Programm integriert ist.24 2.3.1.3. Training Jeder Mensch spricht anders; um die Sprechweise des Benutzers zu analysieren und Rückschlüsse auf seine Aussprache zu ziehen, erstellt die Diktiersoftware ein Profil jedes Benutzers. Sie gibt dem Benutzer Trainingstexte vor, die er vom Bildschirm ablesen und ins Mikrofon sprechen muss. Dabei soll der Sprecher klar und deutlich sprechen, das optimale Ergebnis wird erzielt, wenn er sich die Nachrichtensprecher in Radio oder Fernsehen zum Vorbild nimmt. Langsam oder laut zu sprechen verschlechtert das Ergebnis. Die Trainingstexte zu lesen dauert zwischen 15 und 25 Minuten. Nach dieser kurzen Trainingszeit ist das Ergebnis aber noch nicht wirklich praxistauglich. Daher muss das Training noch mit anderen Texten wiederholt werden. Zudem muss das Training erneuert werden, wenn das Headset gewechselt wird. Im folgenden Bild wird gezeigt, wie Dragon NaturallySpeaking trainiert wird: 2.3.1.4. Headset Ein wesentlicher Teil der Genauigkeit der Spracherkennung beruht darauf, dass das Mikrofon sich immer im selben Abstand und an der selben Stelle des Mundwinkels befindet. Ein stabiles Headset mit Störgeräuschfilter verbessert die Erkennungsrate, da die Störgeräusche aus der Umgebung gar nicht mehr von der Spracherkennung verarbeitet werden müssen. Im folgenden Bild wird gezeigt, wie der Benutzerassistent hilft, das Mikrofon korrekt zu positionieren: 23 24 http://www.corel.com http://www-306.ibm.com/software/lotus/ 2.3.1.5. Fehlerkorrektur und Navigation Der wichtigste Punkt bei der kontinuierlichen Verbesserung der Spracherkennung ist, das Programm bei jedem Fehler zu korrigieren. Da man es mit einer Diktiersoftware zu tun hat, möchte man die Fähigkeit der Spracherkennung ausnutzen um Korrekturen durchzuführen. Mit höchstens 2 Befehlen möchte man das falsch erkannte Wort per Sprache ersetzen. Bei der aktuellen Diktiersoftware wird diese Funktion mittlerweile unterstützt, um diese zu aktivieren, braucht man zum Beispiel nur den Befehl „Korrigiere <Wort>“ auszusprechen, und es öffnet sich ein Korrekturfenster. In dem Korrekturfenster werden mehrere Korrekturvarianten angezeigt, per Sprachbefehl, etwa mit „nimm 2“, wird das fehlerhafte Wort durch das ausgewählte Wort ersetzt. Eine andere Funktion bieten die aktuellen Diktierprogramme ebenfalls, nämlich die sprachgesteuerte Navigation. Per Sprache lässt sich die Cursorposition ändern oder eine Menüoption auswählen. 2.3.2. Kommandosysteme In diesem Kapitel lernen wir Kommandosysteme kennen, auch bekannt unter dem englischen Begriff Command-and-Control-Systeme. Sie sind Systeme, die auf Sprachbefehle ohne synthetische Sprachausgabe reagieren. Wir lernen einen Spezialfall der Kommandosysteme kennen, die Sprechererkennung. Hier wird der Befehl nur ausgeführt, wenn der Sprecher vom System erkannt wurde. Kommandosysteme reagieren auf einfache gesprochene Befehle mit bestimmten Aktionen, deshalb verfügen sie nur über einen kleineren Wortschatz. Diese Kommandos können z.B. sein: „Öffne Datei“, „ja“, „nein“, ... . Wenn der Benutzer das Kommando „Exit“ ausspricht, dann verhält sich das System so, als ob man mit der Maus die Option „Exit“ geklickt hätte. Heutzutage finden wir sprachgesteuerte Systeme in der Diktiersoftware, dies haben wir schon unter dem Stichwort Navigation kennengelernt. Außerdem gibt es Kommandosysteme in Autos, Home-Entertainment und in den einzelnen Geräten wie Kaffeemaschine, Klimaanlage, Spielzeug, Telefon, ... . Für Autofahrer stellen Kommandosysteme eine sichere Bedienung dar, so sind sie nicht abgelenkt, wenn sie das Radio, die Klimaanlage, das Telefon oder das Navigationssystem per Sprache bedienen. Zum Home-Entertainment zählen Fernseher, Radiogeräte, Videorecorder, CD-Player, DVD-Player, etc. … . Sie lassen sich gemütlich auf dem Sessel sitzend per Stimme steuern, die Lautstärke lässt sich regeln oder das gewünschte Lied wird abgespielt ohne sich die Mühe zu machen, nach der richtigen Fernbedienung zu suchen. Kaffeemaschine lässt sich ebenso per Sprache steuern, indem sie angeht ohne auf dem Knopf zu drücken, leider muss man das Kaffeepulver selbst in den Filter einfüllen. Wenn das Feature Sprachsteuerung bei Handys vorhanden ist, so lässt sich das Wählen der gespeicherten Rufnummer ebenfalls durch das Aussprechen des jeweiligen Namens ersetzen. 2.3.2.1. Sprechererkennung Sprechererkennung ist der Prozess automatisch auf Basis der individuellen Information, die in der Stimme enthalten ist, zu erkennen, wer gerade spricht. Die Sprechererkennung kann man unterteilen in Sprecheridentifikation und Sprecherverifikation. Die Sprecheridentifikation entscheidet, wer aus einer vorgegebenen Menge von Sprechern gerade spricht, die Sprecherverifikation hingegen stellt fest, ob der Sprecher derjenige ist, der er vorgibt zu sein. Bei der Sprechererkennung werden Sprechproben jedes Benutzers aufgenommen analysiert und abgespeichert. Um einen Sprecher zu identifizieren, spricht er in ein Mikrofon, die Anlage stellt anhand der Stimmenprofile fest, wer gerade spricht falls eine Übereinstimmung vorliegt, andererseits wird er als Unbekannter erkannt. Um einen Sprecher zu verifizieren, spricht er seinen Identifikationscode, zum Beispiel seinen Namen, in ein Mikrofon. Die Anlage stellt fest, ob der Sprecher derjenige ist, der er vorgibt zu sein. Die geeignetsten Anwendungsbereiche für die Sprechererkennung liegen im telefonischen Bereich. Sie kann der Kontrolle der Berechtigung bei finanziellen Transaktionen dienen oder der Authentifikation bei telefonischen Dienstleistungen. Außerhalb des telefonischen Bereichs liegt die wesentliche Anwendung dieser Technologie im Sicherheitsbereich. Bei den Recherchen zu diesem Punkt sind wir gerade auf zwei bekannte Firmen gestoßen, die Sprecherverifikationssoftware herstellen, nämlich Nuance und Scansoft. Es handelt sich um die Programme Nuance Verifier, ScanSoft SpeechWorks und Scansoft SpeechSecure. 2.4. Software und Geräte mit eingebauter Spracherkennung Wir haben bisher die Klassen der Spracherkennungssoftware kennengelernt und die Einsatzmöglichkeiten der Diktiersoftware und der Kommandosysteme beschrieben. Wir werden jetzt konkrete auf dem Markt befindliche Software und Geräte mit eingebauter Spracherkennung vorstellen. Im ersten Abschnitt geben wir die Ergebnisse der Recherchen über Diktiersoftware vor allem für die deutsche Sprache wieder; diese Informationen stammen aus bekannten Zeitschriften. Im zweiten Abschnitt haben wir eine Liste von Handys zusammengestellt, die Sprachsteuerung unterstützen, außerdem stellen wir Beispiele verschiedener Geräte mit eingebautem Command-and-Control-System vor; diese Informationen stammen Zeitschriften und aus dem Internet. 2.4.1. Diktiersoftware In diesem Abschnitt stellen wir 6 Diktierprogramme vor, diese Informationen sind aus den beiden bekannten Zeitschriften „test“ herausgebracht von der Stiftung Warentest und „com!“ entnommen. Stiftung Warentest testete in [test, 1/2004, S. 38] alle diese Diktierprogramme, während in der Zeitschrift [com!, 5/2004, S. 80] nur drei davon getestet wurden. Die Hersteller dieser Software sind „Scansoft“, „Linguatec“ und „IBM“ die beiden letzten benutzen die gleichen Spracherkennungs-/Sprachausgabe-Engines, während „Scansoft“ selbst entwickelte Engines benutzt. Sie sind die einzigen auf dem Markt, die sich mit Diktiersoftware beschäftigen; alle übrigen haben sich inzwischen zurückgezogen. Wir werden eine Beschreibung des Tests von beiden Zeitschriften geben. Da aber die Testergebnisse von „test“ relativ dürftig sind, werden nur die Ergebnisse der drei in beiden Zeitschriften getesteten Produkte ausführlich kommentiert; dabei stammen einige Fakten über die Diktierprogramme von den Internetseiten der entsprechenden Hersteller. Die Ergebnisse aller Produkte werden abschließend in einer Tabelle am Ende dieses Abschnitts zusammengefasst. 2.4.1.1. Beschreibung des Tests der Stiftung Warentest Es wurden die folgenden sechs Diktierprogramme auf insgesamt 4 verschiedenen PCs mit jeweils 256 MB RAM unter dem Betriebssystem Microsoft Windows XP Home getestet. „Linguatec Voice Pro 10 USB-Edition“ „Dragon NaturallySpeaking Version 7 Preferred“ „IBM ViaVoice R10 Pro Edition“ „IBM ViaVoice Standard Edition Release 8.02“ „Dragon NaturallySpeaking Version 7 Standard“ „Voice Office Premium 10“ Bewertet wurden Spracherkennung und Handhabung; was wir darunter verstehen wollen, ist in den folgenden zwei Punkten genauer beschrieben: (1) Spracherkennung: Um diese zu bewerten, wurden gezielt fünf Punkte herangezogen, nämlich die Art des diktierten Textes, der Einfluss von Hintergrundgeräuschen, die Lernfähigkeit, die Navigation und technische Prüfungen. Zum Testen der diktierten zehn Personen, darunter zwei mit Dialekt, eine mit Akzent und ein Kind jeweils 3 Aufsatztexte, einen Geschäftsbrief und ein Gedicht. Außerdem wurden mit vier Testpersonen weitere Tests zum Einfluss von Hintergrundgeräuschen durchgeführt. Die Lernfähigkeit der Software wurde von vier Testpersonen durch Korrigieren der aufgetretenen Fehler und wiederholtes Diktieren ermittelt. Die Navigation per Spracheingabe testen drei Prüfpersonen in drei Programmen: der Textverarbeitung Microsoft Word 2000, dem Browser Microsoft Internet-Explorer 6 und dem E-Mail Programm Pegasus Mail 4. Bei den technischen Prüfungen untersucht die Stiftung Warentest die Start- und Beendungsdauer sowie den Ressourcenbedarf auf der Festplatte und im Hauptspeicher. Ferner beurteilen sie die Bearbeitungszeit, den Speicherbedarf und die CPU-Zeit für eine vorgegebene Aufgabenstellung. (2) Handhabung: Unter diesem Stichwort werden drei Punkte geprüft und bewertet, nämlich die Benutzerführung, Handbücher- und Hilfefunktionen, sowie Installation und Deinstallation. Zur Beurteilung der Benutzerführung urteilten ein Fachmann und zwei interessierte Laien über die Handhabbarkeit der Software, die Einheitlichkeit der Begriffe und des Layouts, die Verständlichkeit von Fehlermeldungen, und die Übersichtlichkeit der Bedienoberfläche. Ein Fachmann und ein interessierter Laie beurteilten die Handbücher und die Hilfefunktion der Software. Installation und Deinstallation wurden ebenfalls untersucht. Die Bewertungen der obigen Punkte wurden in Form von Schulnoten vorgenommen und in einer Tabelle zusammengefasst, aber nicht näher begründet. Die Tabelle befindet sich am Ende des Abschnitts „Diktiersoftware“. Leider bleiben die diktierten Texte und die genaue Art der Fehler unbekannt. 2.4.1.2. Beschreibung des Tests der Zeitschrift com! Die ersten drei der sechs von der Stiftung Warentest getesteten Diktierprogramme wurden auch von der Zeitschrift „com!“ getestet, jeweils eines von den drei Herstellern von Diktiersoftware. Es wurden zwei Testdurchläufe mit dem gleichen diktierten Text durchgeführt. Der erste Testdurchlauf wurde mit dem mitgelieferten Headset durchgeführt, beim zweiten Test wurden optimale Testbedingungen dadurch geschaffen, dass das spezielle Spracherkennungs-Headset „DSP-100“ der Firma „Plantronics“ benutzt wurde und der diktierte Text zuvor der Analysefunktion unterzogen wurde. Es wurden sieben Kriterien untersucht, und ein Text so zusammengestellt, dass zu jedem mehrere Beispiele vorkommen. Es sind: 1. Groß-/Kleinschreibung bei persönlicher Anrede 2. phonetisch ähnliche aber semantisch unterschiedliche Wörter 3. Komposita (zusammengesetzte Wörter) 4. Besonders ausgefallene Deklination (Genitiv, ...) 5. Datum, Uhrzeit, Währung, Sonderzeichen, Internet- und E-Mail-Adresse 6. Manuell auf der Tastatur ausgeführte oder gesprochene Befehle 7. Fachvokabular (hier: juristische Terminologie) Dabei wurde folgender Text vorgelesen; die Farbmarkierungen in diesem Text entsprechen den obigen Kriterien: Sehr geehrter Herr Müller, <manuelle (händische) Zeilenschaltung > wie Ihnen sicher bekannt ist, müssen Sie das Umtauschrecht auf jeden Fall in Anspruch nehmen, indem Sie das Rücksendungspaket, in dem die Ware gut verpackt ist, spätestens nach 14 Tagen zur Post bringen und bei der Postschalterfiliale aufgeben. In Ihrem Falle wäre dies der 25. März 2004. Achten Sie bitte bei der Rücksendung darauf, dass Sie sie mit 4,20 € ausreichend frankieren. <manuelle (händische) Zeilenschaltung > Wir erhalten jeden Tag viele Räder zurückgeschickt. Ich kann Ihnen nur den Rat geben, dass Sie das Rad gut verpacken, wobei die Verpackung des Fahrrads von Ihnen übernommen werden muß! <Zeilenschaltung gesprochen> Wir erwarten dann Ihre Sendung spätestens am 1. April 2004 bis 16:00 Uhr. Weitere Informationen bezüglich des Versandes erhalten Sie im Internet unter www.Informationen.de oder über eine Email an [email protected]. <Absatzschaltung gesprochen> Sämtliche juristischen Fragen sind in unseren AGBs beschrieben. Beachten Sie bitte insbesondere §8 Abs. 7 zum Thema Schickschuld (siehe auch BGB §269) sowie die Anmerkungen zum „Gewährleistungsrecht“ und der „Gefahrtragung beim Versand von Artikeln“. Es grüßt aus Münchens kaltem Norden Tinte & Klecks GmbH 2.4.1.3. Ausführliches Testergebnis der Diktiersoftware Im diesem Abschnitt werde ich eine Zusammenfassung aller Ergebnisse der Tests der Diktierprogramme von der Zeitschrift „com!“ geben. Die am Ende eingefügte Tabelle stammt aus der Zeitschrift „test“. 1. Linguatec Voice Pro 10 USB-Edition: Dieses Programm arbeitet mit der IBM Via Voice Spracherkennungs-Engine und benutzt als SprachausgabeEngine Via Voice Text-To-Speech. Es verfügt über ca. 1 Million Wortformen, und kann durch Wörterbücher aus den Bereichen Geschäftskorrespondenz, Computer, IT und Recht um 100.000 Einträge erweitert werden. Außerdem kann es durch die Analyse von Word-, Rich Text (RTF)-, Ascii- und HTMLDokumenten erweitert werden. Die Software ist nur für die deutsche Sprache erhältlich. Es werden mehrere Anwendungen unterstützt, unter anderem Excel, Outlook, Word, Desktop, AOL, Internet-Explorer und Speak Pad, sowie weitere Anwendungen ohne Spezialfunktionen. In dem com!-Test wurden alle Formen der Groß- und Kleinschreibung bei persönlicher Anrede korrekt umgesetzt. Auch alle phonetisch ähnlich klingenden aber semantisch unterschiedlichen Wörter sowie zusammengesetzte Wörter und ausgefallene Deklinationen wurden richtig geschrieben. Schwierigkeiten hatte das Programm bei E-Mail- und Internetadressen. Bei manuell auf der Tastatur ausgeführten oder gesprochenen Befehlen wird bei Absätzen immer groß, und bei neuen Zeilen immer klein weitergeschrieben. Bei dem Diktieren des Wortes „Gewährleistungsrecht“ als juristisches Fachwort wurde statt dessen „Gewährleistungsfristen“ geschrieben. Durch Schaffung der „optimalen Bedingungen“ wurde die Anzahl der Fehler von 9 auf 6 reduziert. Die sprachgesteuerte Navigation im Dokument geschieht mit Hilfe ziemlich langer Befehle und diese werden häufig nicht als Navigationsbefehle erkannt sondern ausgeschrieben. Die Software bietet gute, aber etwas umständliche Korrekturfunktionen. Ein qualitativ gutes Headset mit USB-Anschluß wird mitgeliefert. Es ist sehr solide verarbeitet, drückt nicht beim Aufsetzen und hält den Abstand des Mikrofons. 2. Dragon NaturallySpeaking Version 7 Preferred: Dieses Produkt ist mit der hauseigenen Dragon-Spracherkennungs-Engine und mit der Scansoft Real Speak V2 Sprachausgabe-Engine ausgestattet. Es verfügt über 1 Million Wortformen bei einem Grundwortschatz von 250.000. Der Wortschatz kann durch die Analyse von Dokumenten verschiedenster Formate erweitert werden, nämlich durch Word-, Word Perfect-, Rich Text (RTF)-, Ascii- und HTML-Dateien sowie durch Dateien der beiden E-Mail-Programme Notes und Outlook. Die Software ist für die Sprachen Deutsch und Englisch erhältlich. Es werden mehrere Anwendungen unterstützt, unter anderem Excel, Outlook, Word, Desktop, AOL, Internet-Explorer und Dragon Pad, sowie weitere Anwendungen ohne Spezialfunktionen. In dem com!-Test wurde deutlich, dass das Programm Schwierigkeiten bei der Groß- und Kleinschreibung bei persönlicher Anrede hat; es schrieb „sie“ anstelle von „Sie“; dieses Problem lässt sich leider nicht durch Training beheben, sondern nur dadurch, dass man z. B. explizit „Groß Sie“ diktiert, damit „Sie“ statt „sie“ geschrieben wird. Bei den phonetisch ähnlich klingenden aber semantisch unterschiedlichen Wörtern wurden die Unterscheidungen nicht immer korrekt umgesetzt, wie bei „in dem“ und „indem“. Beide im Text vorkommenden Komposita wurden richtig zusammengesetzt. Bei den ausgefallenen Deklinationen wurde anstelle von „kaltem“ „kalten“ erkannt. Alle Sonderschreibweisen wie Datum, Uhrzeit, Währung, Internetadresse und E-Mail-Adresse wurden korrekt umgesetzt. Bei manuell auf der Tastatur ausgeführten oder gesprochenen Befehlen wird die Groß- und Kleinschreibung anhand des vorangehenden Satzzeichens festgestellt. Bei dem juristischen Fachvokabular wurde statt „BGB“ „DGB“ erkannt. Durch Schaffung der „optimalen Bedingungen“ wurde die Anzahl der Fehler von 11 auf 5 reduziert. Die Navigation innerhalb des Dokumentes kann an Hand von Zeichen, Wörtern, Zeilen und Absätzen sehr exakt durchgeführt werden. Ein analoges Headset von hohem Tragekomfort wird mitgeliefert, aber das Mikrofon ist wackelig, und die Erkennungsrate hängt sehr stark von der Mikrofonposition ab. 3. IBM ViaVoice R10 Pro Edition: Dieses Programm arbeitet wie „Linguatec Voice Pro 10“ mit der IBM Via Voice Spracherkennungs-Engine und der Via Voice Sprachausgabe-Engine. Es besitzt die gleichen Fähigkeiten wie „Linguatec Voice Pro 10“, nur auf zusätzliche Wörterbücher muss man verzichten. Trotz der Ähnlichkeit in den technischen Details war die Erkennung nicht von der gleichen Qualität wie bei „Linguatec Voice Pro 10“. In dem com!-Test hatte das Programm Probleme bei der Groß- und Kleinschreibung bei persönlicher Anrede, es konnte „Sie“ und „sie“ nicht unterscheiden. Alle phonetisch ähnlich klingenden aber semantisch unterschiedlichen Wörter wurden erkannt, aber die zusammengesetzten Wörter wurden nicht zusammengezogen. Bei den ausgefallenen Deklinationen wurde „kalten“ statt „kaltem“ erkannt. E-Mail- und Internetadressen wurden falsch geschrieben. Bei manuell auf der Tastatur ausgeführten oder gesprochenen Befehlen wird bei Absätzen immer groß, und bei neuen Zeilen immer klein weitergeschrieben. Die juristische Fachterminologie wurde nicht erkannt, sogar das Wort „Paragraf“ wurde ausgeschrieben und Absatz wurde nicht abgekürzt. Durch Schaffung der „optimalen Bedingungen“ wurde aber die Anzahl der Fehler drastisch von 15 auf 6 reduziert. Die sprachgesteuerte Navigation im Dokument geschieht mit Hilfe ziemlich langer Befehle und diese werden häufig nicht als Navigationsbefehle erkannt sondern ausgeschrieben. Die Software bietet gute, aber etwas umständliche Korrekturfunktionen. Ein Headset mit soliden Bügeln wird mitgeliefert. Es hat einen festen Sitz ohne zu drücken. Leider ändert sich der Abstand des Mikrofons zu leicht. In der folgenden Tabelle die Diktierprogramme von „Warentest“: Zusammenfassung der Ergebnisse aller sechs Linguatec Voice Pro 10 USB-Edition IBM ViaVoice R10 Pro Edition Dragon NaturallySpeaking Version 7 Standard Webadresse www.linguatec.de www.scansoft.de www.scansoft.de Aufsatz und Geschäftsbrief Gut Gut Befriedigend Gedicht Befriedigend Befriedigend Gut Einfluss von Hintergrundgeräuschen Sehr gut Sehr gut Gut Lernfähigkeit Sehr gut Gut Gut Navigation Befriedigend Befriedigend Benutzerführung Gut Gut Gut Audiodatenimport Ja Ja Nein Ja Ja Nein Ja Ja Nein Recht, Wirtschaft, Computer, IT Recht, Wirtschaft, Computer, IT, Medizin Nein Ja Ja Ja Ja Ja Ja Ja Ja Nein Windows 98 SE, 2000 (SP2), NT 4.0 (SP6), Me, XP Home oder XP Professional Windows 95/98/NT/XP Home Windows 98 SE, 2000, NT 4.0 (SP6), Me, XP Home oder XP Professional Nachträgliches Abhören des Diktats Speichern des Diktats als Audiodatei Fachvokabular mitgeliefert Sprachgesteuerte Mausbedienung Sprachgesteuerte Tastaturbedienung Vorlesen mit synthetischer Stimme Systemvoraussetzungen Testergebnisse der Stiftung Warentest Gut Dragon NaturallySpeaking Version 7 Preferred IBM ViaVoice Standard Edition Release 8.02 Voice Office Premium 10 Webadresse www.scansoft.de www.scansoft.de www.interlinx.de/ vo10xp.html Aufsatz und Geschäftsbrief Befriedigend Gut Befriedigend Gedicht Befriedigend Befriedigend Befriedigend Einfluss von HintergrundGeräuschen Gut Sehr gut Befriedigend Lernfähigkeit Ausreichend Befriedigend Sehr gut Navigation Gut Ausreichend Mangelhaft Benutzerführung Gut Gut Ausreichend Ja Nein Ja Ja Ja Ja Nein Ja Ja Nein Nein Wirtschaft Ja Nein Nein Ja Nein Ja Ja Ja Ja Windows 98, Me, 2000, XP Windows 98 SE, NT 4.0 (Service Pack 6), Windows 2000 (Service Pack 2), XP Home/Pro Audiodatenimport Nachträgliches Abhören des Diktats Speichern des Diktats als Audiodatei Fachvokabular mitgeliefert Sprachgesteuerte Mausbedienung Sprachgesteuerte Tastaturbedienung Vorlesen mit synthetischer Stimme Systemvoraussetzungen Windows 98 SE, 2000, NT 4.0 (SP6), Me, XP Home oder XP Professional Testergebnisse der Stiftung Warentest 2.4.2. Geräte mit Sprachsteuerung Wir haben im ersten Abschnitt Kommandosysteme kennengelernt, die in der Diktiersoftware integriert sind. Jetzt wollen wir andere Kommandosysteme vorstellen, die nicht auf einem Computer laufen; diese Informationen über die aufgeführten Geräte stammen von dem Link www.dynamic-living.com. • Voice Dialer ist ein Gerät, das an jedes Telefon angeschlossen werden kann. Er speichert bis zu 50 Namen und man muss nur den Hörer abnehmen und den gewünschten Namen aussprechen, der Voice Dialer wählt dann die entsprechende Rufnummer, eine solche Funktion gibt es bei Handys und wird Sprachwahl genannt. • Der stimmen-aktivierbare Dimmerschalter (Voice Activated Dimmer Switch) lässt sich per Sprache steuern, um die Elektrizität für die Lampe zu regulieren. • Die stimmen-aktivierbare Home-Entertainment Fernbedienung Accenda, mit dieser Fernbedienung kann man den Fernseher und die Hifi-Anlage per Stimme ein/ausschalten, Programme wechseln und die Lautstärke ändern. Eine große Auswahl an Geräten mit Sprachsteuerung gibt es in dem Bereich der Handys. Bei den Handys unterscheidet man zwischen den beiden Funktionen Sprachwahl und Sprachsteuerung. Das Feature Sprachwahl dient ausschließlich dazu, gespeicherte Rufnummern per Sprache zu wählen. Bei der Sprachsteuerung hingegen gibt es mehr Funktionen zur Auswahl, die man per Sprache ausführen lassen kann. Die in der Tabelle aufgezählten Handys besitzen alle eine Sprachwahl, nur einige davon besitzen auch eine Sprachsteuerung. Handy Sprachsteuerung Alcatel One Touch LG-G5400 LG-G7050 Motorola C450 Motorola E365 Motorola MPx200 Motorola V150 Motorola V600 Nokia 3660 Nokia 6220 Nokia 6600 Nokia 6820 Nokia 7600 Nokia N-Gage Panasonic G51M Panasonic X70 Philips 350 Philips 530 Ja Nein Nein Nein Nein Ja Nein Nein Nein Ja Ja Ja Ja Nein Ja Nein Ja Ja Handy Sprachsteuerung SendoX Siemens MC60 Siemens SL55 Siemens ST60 Siemens SX1 Siemens U15 Sonyericsson T610 Sonyericsson T630 Sonyericsson Z600 Sonyericsson K700I Motorola E 398 Ja Ja Ja Ja Ja Nein Ja Ja Ja Nein Ja Handy mit Sprachwahl 2.5. Zusammenfassung In diesem Kapitel haben wir eine Einführung in die Spracherkennung (ASR) gegeben, dabei unterscheidet man zwischen sprecherunabhängiger und sprecherabhängiger Erkennung. Außerdem haben wir die Probleme näher kennengelernt, die bei der Spracherkennung auftreten und deren Einfluss auf die Erkennungsqualität. Dann haben wir einige marktführende Spracherkennungs-Engines vorgestellt. Die Spracherkennungssoftware wird in zwei Kategorien unterteilt, Diktiersoftware und Kommandosysteme. Bei den Recherchen über Diktiersoftware haben wir festgestellt, dass es sowohl online als auch in den Fachzeitschriften immer um die selben drei Hersteller geht. Zu jedem aktuellen Diktierprogramm wird ein Headset mitgeliefert, dessen Qualität einen großen Einfluss auf die Erkennungsrate hat. Bei einem Wechsel des Headsets muss das Programm von neuem trainiert werden, um ein Profil des Sprechers anzulegen. Von großer Bedeutung für die Erkennung ist die Größe des Wörterbuchs, daher wurde eine Analysefunktion integriert, die das Wörterbuch um neue Wörter ergänzt. Um die Erkennungsrate weiter zu steigern, wird eine Korrekturfunktion angeboten, die bei fehlerhaft erkanntem Wort aufgerufen werden soll, um das falsche Wort entweder per Sprachbefehl oder manuell zu ersetzen. Außerdem haben wir die von der Diktiersoftware unterstützten Programme vorgestellt. Des weiteren haben wir zwei Testberichte über auf dem Markt befindliche Diktiersoftware zusammengefasst. Es sind die einzigen ausführlichen Tests, die wir gefunden haben. Die Beschreibung des Tests und der Ergebnisse in „com!“ ist präzise; der Leser wird auf alle Punkte, die die Erkennungsrate verbessern, aufmerksam gemacht. Der Diktiertext und die aufgetauchten Fehler wurden veröffentlicht, so dass man sich selbst ein Bild über die Brauchbarkeit der Software machen kann, allerdings ist uns nicht klar, ob nur eine oder mehrere Personen den Test durchgeführt hatten. In „test“ wurden die Testbedingungen für die einzelnen Bewertungskriterien wie z.B. Lernfähigkeit, Einfluss von Hintergrundgeräuschen und Navigation genau erklärt und die Ergebnisse in einer Tabelle kurz zusammengefasst, jedoch erhält man keinen Einblick darüber, wie die Endbewertung entstand. Außerdem fehlen viele Detailinformationen über die Bedienung der Software, so dass man sich keine Vorstellung machen kann, wie zum Beispiel die Korrekturfunktion bedient werden kann. Anhand des „com!“ Tests könnte man die Leistungsfähigkeiten der Programme beurteilen, wenn man wie der/die Tester sprechen würde, man kann nämlich nicht herausfinden, ob eines der sechs Programme geeignet ist, wenn man mit Akzent oder undeutlich spricht, obwohl dieser Aspekt bei „test“ berücksichtigt wurde. Wir widmeten in diesem Kapitel einen Abschnitt den Kommandosystemen, dort haben wir ein paar Geräte aus dem Bereich Home-Entertainment, Telefonie und Haushalt vorgestellt, die per Stimme gesteuert werden können. Wir sind in unserem Recherchen auf keinen öffentlichen Test oder auf unabhängige Meinungen gestoßen außer an Werbung der Vertreiber der Geräte. Uns wunderte bei der Recherchen, dass dem Feature Sprachsteuerung bei Handys nicht mehr Aufmerksamkeit gewidmet wird, sondern eher integrierten Mp3-Playern, Kameras, der Anzahl der Farben auf dem Display und Spielen …. Es liegt daran, dass die Kunden diese Features verlockender finden als die Sprachsteuerung. 3. Sprachsynthese In diesem Kapitel wollen wir auf die Sprachsynthese, die man von der Wiedergabe aufgezeichneter natürlicher Sprache unterscheiden muss, näher eingehen. Die synthetische Sprachausgabe wird oft auch Text-To-Speech genannt. Die eigentliche Synthetisierung der Strings wird von der Text-To-Speech-Engine (kurz TTS-Engine) durchgeführt. Im ersten Abschnitt werden wir den Ablauf der Sprachsynthese erläutern und dabei einige Probleme kennenlernen, die bei der Umwandlung von Text zur Sprache auftauchen. Im zweiten Abschnitt stellen wir einige Einsatzmöglichkeiten von TTS vor. Im dritten Abschnitt stellen wir alle populären Dateiformate vor, die von TTS-Engines erzeugt werden, und im vierten Abschnitt haben wir Tabellen erstellt, welche die TTS-Engines für PCs und Endgeräte sowie TTS-Software umfasst, die sich auf dem Markt befinden. 3.1. Ablauf der Sprachsynthese Prinzipiell gibt es zwei Möglichkeiten, Sprache auf einem Gerät auszugeben. Erstens durch Abspielen aufgenommener Audio-Dateien und zweitens durch Umwandlung von Texten, auch Strings genannt, in gesprochene Sprache. Das Erzeugen von gesprochener Sprache aus Strings nennt man auch Sprachsynthese, und die zugehörige Software wird auch Text to Speech-Engine (TTS-Engine) genannt. Man kennt drei wesentliche Methoden zur Sprachsynthese: Die artikulatorische Synthese, die Formantsynthese und die konkatenative Synthese. Die artikulatorische Synthese basiert auf der Idee, die biologischen Teile der zum Sprechen benutzten Organe nachzubilden. Das Verhalten von Stimmbändern, Gaumen, Zunge, Zähnen, Lippen etc. wird in einer Datenbank abgespeichert, und bei der Sprachsynthese wird die Stellung der beteiligten Muskeln berechnet und der daraus resultierende Effekt der lauterzeugenden Komponenten simuliert. Die artikulatorische Synthese steckt noch in den Anfängen und sie benötigt noch einen hohen Rechenaufwand. Die meisten TTS-Systeme arbeiten mit der Formantsynthese. Diese benötigt nur einen geringen Rechenaufwand, und führt zu klar verständlichen Ausgaben, die aber leicht als Computerstimmen erkennbar sind. Jedes Phonem (Laut) hat eine charakteristische Anhäufung von Frequenzen und deren Energie in bestimmten Bereichen; diese Charakteristika heißen Formante. Mit Hilfe einer kleinen Datenbasis werden die bekannten Formante ausgesucht und in den entsprechenden synthetischen Laut umgewandelt. Die konkatenative Synthese umgeht das Problem der Formantsynthese dadurch, dass sie die Bausteine für die Synthese von einem Menschen sprechen lässt und diese Bausteine in einer Datenbank ablegt und beim Vorlesen wieder passend zusammengesetzt. Bei diesen Bausteinen handelt es sich um Phoneme, Silben, Phonemübergänge, Silbenübergänge und Halbsilben. Je genauer und umfangreicher dieser sogenannte Sprachkorpus ist, desto natürlicher klingt die Stimme. Durch die Verwendung der natürlichen Bausteine ist die konkatenative Synthese den beiden anderen Verfahren überlegen. Bevor aber ein Text von einer TTS-Engine vorgelesen werden kann, muss der Text zunächst vorbearbeitet werden. Dieser Schritt heißt auch Präprozessing. Dabei werden Zahlen, Sonderzeichen, etc. in Text konvertiert. Nur wenn dieses Präprozessing erfolgreich durchgeführt wird, kann die TTS-Engine gute Resultate liefern. Es zeigt sich, dass teilweise die gleichen Probleme auftauchen wie bei der Spracherkennung. Beim Testen der TTS- Engines in Kapitel 5 haben wir gezielt Beispiele ausgesucht, um die Qualität der Engines in dieser Richtung hin zu untersuchen. 3.1.1. Linguistische Probleme Das System muss linguistische Kenntnisse besitzen, da es entscheiden muss, ob der „3.4.“ in dem vorzulesenden Text als „dritter April“ oder als „Absatz 3, Punkt 4“ zu verstehen ist. 3.1.2. Komposita Insbesondere in der deutschen Sprache gibt es viele zusammengesetzte Wörter. Daher muss die Engine in der Lage sein diese Worte richtig auszusprechen, obwohl sie oft nicht in ihrem Wörterbuch vorhanden sein werden. So soll es keinem Anwender zugemutet werden, beim Hören des Wortes “Blumen-to-pferde” oder des Wortes “Blu-men-to-pferde” herauszufinden, dass das eigentlich geschriebene Wort “Blumen-topf-erde” ist. 3.1.3. Sonderschreibweisen Gerade beim Vorlesen von E-Mails tauchen viele Sonderzeichen wie www Links oder EMail Adressen auf. Da erwartet man, dass „@“ bzw. „.“ in der E-Mail Adresse als „at“ bzw. “Punkt“ vorgelesen und nicht einfach ignoriert wird. 3.2. Einsatzbereiche von Text to Speech TTS kann in verschiedenen Anwendungen auf dem Computer eingesetzt werden, wie zum Beispiel Reader, Diktiersysteme, Spiele und Lernprogramme, und Intelligente Agenten. Aber auch außerhalb des Computerbereichs, zum Beispiel im Automobilbereich, oder bei telefonischen Auskunftssystemen und Informationskioske ist TTS im Einsatz. • TTS kann benutzt werden, um Reader Software herzustellen, die Texte, E-Mails, Webseiten, News Artikel und jede andere Art von Text vorliest. • TTS wird auch in Diktiersystemen eingebaut; hier kann es als Korrekturhilfe dienen, indem die eingegebenen Texte wieder vorgelesen werden. • Spiele und Lernprogramme werden durch die multimediale Aufbereitung mit TTS interessanter, da die Aussprache exakt auf den Charakter und die augenblickliche Situation der Stimmen zugeschnitten werden kann. • Wenn der Anwender sich auf seinem Computer einloggt, wird er von einem Intelligenten Agenten begrüßt. Der Agent betreut auf Wunsch den Anwender den ganzen Tag, er kann an wichtige Termine per Sprache erinnern, oder auf die Ankunft neuer Nachrichten hinweisen. TTS kann dabei nicht nur die Stimme des Agenten zur Verfügung stellen, sondern auch die notwendigen Daten, damit das Gesicht des Agenten realistisch aussieht, wenn er spricht. • Im Automobilbereich wird TTS ebenfalls benutzt, um dem Fahrer Informationen zu übermitteln, so dass dieser die Straße immer im Auge behalten kann. Dies ist insbesondere bei Navigationssystemen sehr sinnvoll. • Da auf Flughäfen oft eine Auskunft in der Muttersprache des Passagiers wünschenswert ist, wird in dieser Situation TTS als Informationskiosk sinnvoll eingesetzt. • TTS ist in Auskunftssystemen eingebaut, wie zum Beispiel Fernsprechauskunft oder Fahrplanauskunft. So kann sich der Kunde telefonisch informieren, diese Informationen werden aus einer Datenbank geholt und anschließend per TTS vorgelesen. Genaueres zu diesem Punkt im nächsten Kapitel. 3.3. Audio-Fileformate für Text to Speech Text to Speech wandelt Geschriebenes in ein Audiofile um, manche Engines können verschiedene Audioformate ausgeben, die bekanntesten sind: • WAV Das WAV-Format (eigentlich RIFF WAVE) kann man als die unkomprimierte Aufzeichnung von Sound Files betrachten und ist das wohl wichtigste der unkomprimierten der Audio-Formate, insbesondere in der Windows-Welt. 25 • AIFF Das AIFF-Format (Audio Interchange File Format) ist ein von Apple und SGI für den Sound-Manager der Macintosh-Rechner entwickeltes Format.26 • AU Das AU-Format wurde von NeXT und Sun entwickelt; in diesem Format kann man die Audiodaten sowohl komprimiert als auch unkomprimiert abspeichern; dieses Format ist in der Unix-Welt verbreitet.27 • MP3 MPEG-1 Audio Layer 3, bekannt unter dem Namen MP3 ist ein populäres verlustbehaftetes komprimiertes Audioformat, das im Jahr 1991 von einem Team des Frauenhofer Instituts entwickelt wurde28. 3.4. Text to Speech-Engines und Reader-Software In der folgende Tabelle haben wir einige TTS-Engines aufgeführt; alle diese Informationen stammen von den Webseiten der entsprechenden Hersteller. Die Firma Mindmaker stellt nur ein Abspieldemo in englisch und ungarisch zur Verfügung. Alle übrigen Hersteller hingegen stellen ein Web-Interface zur Verfügung, in dem man die Sprache und einige andere Optionen wie zum Beispiel die Stimme oder die Tonhöhe auswählen kann. Anschließend kann man einen deutschen oder englischen Text in ein Formular eingeben, und dieser Text wird entweder vorgelesen oder es wird ein WAV-File produziert und zurückgeschickt. In einigen Fällen sind auch andere Sprachen möglich. Eine genauere Analyse dieser TTS-Engines haben wir in Kapitel 5 durchgeführt. Hersteller Engine Output Format AT&T AT&T Natural Voices29 WAV, Au, Aiff, Basic Elan Speech Sayso30 WAV, DirectX (SAPI4), MCI, Memory buffer, MP3 Fonix DECtalk 5.0 WAV 25 http://de.wikipedia.org/wiki/WAV_(Format) http://de.wikipedia.org/wiki/Audio_Interchange_File_Format 27 http://en.wikipedia.org/wiki/Au_file_format 28 http://en.wikipedia.org/wiki/MP3 29 http://www.naturalvoices.att.com/demos/ 30 http://sayso.elan.fr/interactive_va.asp 26 System Windows NT, 2000, XP; Linux 6.1, 6.2, 7.2 Windows 95, 98, NT4, 2000, ME, XP; Mac OS X Windows, Linux, Solaris Hersteller Engine Output Format System Loquendo Loquendo31 WAV Mindmaker FlexVoice 332 WAV Nuance Realspeak Solo 4.0 WAV Nuance rVoice WAV Nuance Speechify WAV Nuance Vocalizer 4.0 WAV Babel Technologies Babel Technologies Infovox Bright Speech 1.2 33 WAV, SUN, PCM, a-law, µ-law, ADPCM Windows 2000, Linux, Sun Solaris Windows 98 SE, NT, 2000, XP Babil 4.134 WAV, SUN, PCM, a-law, µ-law, ADPCM Windows 98 SE, NT, 2000, XP; Linux Cepstral Cepstral Voices35 WAV Acapela group Acapela multimedia36 WAV, PCM Neo Speech Voice Text37 WAV, PCM, ADPCM, 8bit a-law/µ-law Svox Svox WAV Logox Logox 4 WAV Windows NT, 2000, XP, 98, ME; Linux; Sun Solaris Windows (Microsoft SAPI 4.0/5.0, proprietary interfaces), Linux Windows 98, NT4, 2000, ME, XP Windows NT, 2000, 2003, XP; Linux; Sun Solaris Windows, Linux, Mac OS X, Sparc Solaris Windows 98SE, NT4SP6, 2000SP3, Me, XP, Mac OSX.2 und höher Windows 98, NT 4.0, 2000, XP Windows, Linux, Solaris, Macintosh Windows 95, 98, ME, NT, 2000, XP Liste der TTS-Engines für PC Vier der obigen TTS-Engine Hersteller stellen auch TTS-Engines für Endgeräte zur Verfügung. Auch diese Engines sind für die deutsche, englische und weitere Sprachen erhältlich. Sie werden zusammen mit den Systemvoraussetzungen in der nächsten Tabelle aufgelistet. 31 http://www.loquendo.com/de/demos/demo_tts.htm http://www.flexvoice.com 33 http://www.babeltech.com 34 http://www.babeltech.com 35 http://www.infovox.se 36 http://www.acapela-group.com/products/products.asp 37 http://www.neospeech.com/demo/demo_text.php 32 Hersteller Engine System Babel Technologies Infovox PocketBabil 3.5 Acapela group Acapela Mobility Cepstral Cepstral Voices Windows CE Neo Speech Voice Text Windows CE 2.0 und 3.0, Pocket PC 2002 Nuance Realspeak Solo 4.0 Pocket PC 2003, Windows CE 3.0 Svox Svox Windows CE Logox Logox 4 Windows CE Windows CE: Pocket PC, HPC, Auto PC; Linux Pocket PC 2002, Windows Mobile 2003, Symbian, Palm OS Liste der TTS-Engines für Endgeräte Wir haben exemplarisch 4 Vorleseprogramme aus dem Web ausgewählt, die sich aber in der Funktion unterscheiden: Digit 1.0 ist ein sogenannter Clipboard Reader, das heißt, er liest den Inhalt des Puffers vor. Hingegen liest Lesefix 5.12 insbesondere pdf, doc, html und eml-Dateien vor; die emlDateien sind Dateien, die von dem E-Mail Programm Outlook Express angelegt werden. Logox 4 Professional ist eine Sammlung von Plugins für Outlook, Word, Excel und den Internet Explorer. Während die vorherige Software in der Windows Welt beheimatet ist, wurde Speechissimo 1.1 speziell für MacOS entwickelt, und liest alle Arten von Texten vor. Da in Vorleseprogramme kaum sinnvolle Features eingebaut sind, wird die Qualität eines Programms von der eingebauten Engine bestimmt. Außerdem wurden keine Tests in den Zeitschriften und im Internet veröffentlicht, daher gehen wir nicht näher auf die Vorlesesoftware ein. Produkt Hersteller System Digit 1.038 LesefixPro 5.1239 Elan Speech, KinderleichtsoftDigalo ware Windows 95 bis Windows NT, XP 2000, XP Speechissimo 1.140 Elan Speech, Digalo Logox 4 Professional41 Gdata Mac OS X 10.2 Windows 95 bis XP Benutzerführung English Deutsch English Deutsch Mitgelieferte Stimmen Männlich/weiblich 1/1 1/1 -/1 3/7 Engine SaySo TTS3000 SaySo Microsegment -synthesis Vorleseprogramme 3.5. Zusammenfassung In diesem Kapitel haben wir drei Methoden zur Sprachsynthese beschrieben, die artikulatorische Synthese, die konkatenative Synthese und die Formantsynthese. Dabei ist die letztere Methode diejenige, die aktuell Verwendung findet. Ferner haben wir die Probleme geschildert, die bei der Umwandlung von Text in Sprache auftauchen. Die Sprache wird in speziellen Dateiformaten angelegt, die wir im dritten Abschnitt beschrieben haben. Ebenfalls haben wir Einsatzmöglichkeiten des TTS-Konzepts beschrieben; es ist typischerweise in eine andere komplexere Anwendung integriert, wie zum Beispiel in einen Informationskiosk oder ein Auskunftssystem oder auch eine Anwendung aus dem Automobilbereich. Bei diesen komplizierteren Anwendungen haben wir leider keinen „Zugriff“ auf den TTS-Teil des Systems. Die am einfachsten zu handhabende Anwendung von TTS ist der Reader. Hier braucht der Anwender nur einen „Play-Knopf“ zu klicken, und das Programm liest das Dokument oder den markierten Teil vor. Einige ausgewählte Reader und TTS-Engines haben wir in verschiedenen Tabellen im vierten Abschnitt zusammengefasst. Dank der Hersteller der meisten TTS-Engines konnten wir durch Demos auf ihren Webseiten einen Eindruck von der Qualität der Engines gewinnen. Eine ausführliche Analyse befindet sich in Kapitel 5. 38 http://www.lencom.com/desc/indexN2615.html http://www.kinderleichtsoftware.de/lesefixpro.htm 40 http://www.speechissimo.com/ 41 http://www.gdata.de/trade/productview/123/5/ 39 4. Aufbau und Nutzen der Sprachdialogsysteme Wer hat es noch nicht erlebt, bei einem Call Center anzurufen und ständig das Besetztzeichen zu hören, und sich noch nicht die Frage gestellt: Warum gibt es denn kein System, das meinen Anruf wenigstens entgegennimmt und mich dann zu einem geeigneten Gesprächspartner weiterleitet? Oder besser noch: Warum gibt es kein „intelligentes“ System, das meine Anfrage beantwortet? Ein klassisches System, das die Anrufe entgegennimmt und gegebenenfalls weiterleitet, heißt Interactive Voice Response (IVR) System. Die Fähigkeiten der IVR-Systeme wurden in der Zwischenzeit so stark erweitert, dass man auch den Namen in Sprachdialogsystem oder auch Voice Portal änderte. Das erste Voice Portal wurde 1996 von der Firma BellSouth eröffnet und wurde Val genannt.42 Ein Voice Portal oder auch Sprachportal oder Sprachdialogsystem ist ein System, bei dem man mit Computern in normaler Sprache fast wie mit einem Menschen sprechen kann. Im ersten kennenlernen. Abschnitt werden wir Sprachdialogsysteme und deren Vorgänger Im zweiten Abschnitt beschreiben wir den inneren Aufbau eines Sprachdialogsystems und den Zusammenhang mit der Entwicklungssprache VoiceXML, und wir stellen Unternehmen und deren Produkte vor. Im dritten Abschnitt behandeln wir noch einen wichtigen Punkt der Sprachübertragung mittels Internet Protokoll, das ist Voice over Internet Protocol (VoIP). 4.1. Sprachdialogsysteme Wenn man zum Beispiel bei einer Bank eine telefonische Transaktion durchführen möchte, ruft man die Bank an, und wird mit einem speziellen Computer verbunden; dieser Computer präsentiert dem Anrufer per Ansage verschiedene Optionen, und jeder Option wird eine Telefontaste zugeordnet. Der Anrufer wählt die gewünschte Option, indem er die entsprechende Taste auf seinem Telefon betätigt. Für jede Taste wird ein bestimmter Ton an den Computer gesendet. Dieses Verfahren heißt Dual Tone Multifrequency (DTMF) oder informell Touch Tone. Dieses Verfahren wird bei Banken, Call Centern oder TED-Diensten eingesetzt. Eine fortgeschrittenere Technologie als DTMF ist das Interactive Voice Response System (IVR). Dieses System reagiert auch auf einzelne gesprochene Worte wie „Ja“ und „Nein“, …. IVRs werden oft in Call Centern eingesetzt, nehmen Anrufe entgegen und leiten sie an den richtigen Berater weiter. IVR-Systeme haben Vor- und Nachteile; sie sind kostengünstiger als der Einsatz menschlicher Telefonisten, und Leistungsspitzen, wie sie beispielsweise nach Werbespots auftreten, können effizient bearbeitet werden. Die Nachteile hingegen sind die geringe Benutzerakzeptanz und die hohen Entwicklungskosten für diese Systeme. Erweiterte IVR-Systeme, die mehr Funktionalitäten anbieten, nämlich Spracherkennung und Text-To-Speech, können in einen natürlichsprachlichen Dialog mit dem Anrufer treten. Dieses intelligente IVR-System heißt natürlichsprachliches Dialogsystem (NDS). Geläufig sind auch die Namen Voice Portal, Sprachportal und Sprachdialogsystem. 42 www.dragon-medical-transcription.com/historyspeechrecognitiontimeline.html Ein natürlichsprachlicher Dialog mit einer Bank zum Zwecke des Aktienkaufs könnte zum Beispiel folgendermaßen aussehen:43 NDS: Herzlich willkommen bei der Rendite-Bank. Was kann ich für Sie tun? Anrufer: Ich möchte gerne 100 Aktien von DaimlerChrysler kaufen. NDS: Um Aktien von DaimlerChrysler zu kaufen, sagen Sie mir bitte Ihre Kundennummer oder geben Sie diese auf Ihrer Tastatur ein. Anrufer: Zwanzig, neunzehn, vier, drei, acht. NDS: Nun benötige ich bitte noch Ihre Geheimzahl. Wenn Ihnen jemand zuhören kann, benutzen Sie besser die Tastatur. Anrufer: [Gibt die Ziffernfolge der Geheimzahl auf der Telefontastatur ein.] NDS: Herr Meyer, ist es richtig, dass sie jetzt 100 Aktien von DaimlerChrysler kaufen möchten? Anrufer: Ja, bitte. NDS: Dann benötige ich noch eine gültige TAN von Ihnen. Anrufer: [Gibt eine TAN auf der Telefontastatur ein.] NDS: Vielen Dank. Ihr Auftrag wurde entgegengenommen und wird schnellstmöglich an der Börse ausgeführt. Was kann ich noch für Sie tun? Anrufer: Vielen Dank, das war’s erst mal. Auf Wiederhören. NDS: Auf Wiederhören, Herr Meyer. Bei dem Entwurf und der Entwicklung eines NDS muss viel Wert auf das Dialogdesign gelegt werden. Ein wesentlicher Punkt ist: Die Dialoge sollen kurz und einfach sein, damit sich der Anrufer die Menüpunkte merken kann. Außerdem muss sich das NDS dem Erfahrungsgrad des Anrufers anpassen können. Genaueres zum Dialogdesign findet man in Abschnitt zwei. 4.1.1. Einsatzbereich von NDS NDS werden hauptsächlich in Bereichen eingesetzt wie Auskunfts-, Reservierungs- und Buchungssystemen bei Börsen, Versandhandel, Banken, Hotels, Versicherungen etc. Außerdem finden wir NDS in FAQ-Systemen und bei der Weitervermittlung von Anrufern in Telefonzentralen. Man wird auch mit einem NDS verbunden, um die Zugangskontrolle zu persönlichen Daten zu gewährleisten, wie bei E-Mail-Anfragen, oder auch Konto- und Depotinformationen. 4.1.2. Nachteile und Vorteile von NDS Der einzige Nachteil von NDS ist der hohe Aufwand, der bei der Entwicklung eines neuen Designs und einer neuen Programmierung des Dialogs getrieben werden muss. Im Vergleich dazu haben sie mehrere Vorteile44 43 44 VoiceXML 2.0, S. 43 VoiceXML 2.0 • • • • • • NDS sparen im Vergleich zu Call Centern 90 % der Kosten. Leistungsspitzen zum Beispiel nach Werbespots können kostengünstig bearbeitet werden. Bis zu 70 % der Anrufe in Call Centern können ohne zusätzliches Personal abgearbeitet werden. 24 Stunden Service kann ohne zusätzliche Kosten und ohne behördliche Genehmigung angeboten werden. NDS sind immer freundlich. Die Servicequalität ändert sich nicht und muss somit nicht kontrolliert werden. 4.2. Entwicklung von NDS Applikationen mittels VoiceXML Der hohe Entwicklungsaufwand bei der Erstellung einer NDS Applikation kann durch den Einsatz einer geeigneten Programmierumgebung erträglich werden. Eine geeignete Programmiersprache dafür ist Voice XML. VoiceXML bedeutet ausgeschrieben Voice Extensible Markup Language (VXML), sie ist eine spezialisierte Auszeichnungssprache, die von der Sprache XML abgeleitet wird. Die Metasprache VXML dient der Erstellung von Dokumenten, auf die man über Internet Browser zugreifen kann. Die Gründungsmitglieder des VXML Forums sind die bekannten Firmen AT&T, IBM, Lucent Technologies und Motorola. Sie haben im Jahr 2000 die Version 1.0 von VXML verabschiedet. Die Weiterentwicklung von VXML wurde im Jahre 2000 an das W3C übergeben und im Jahre 2003 wurde eine Empfehlung für die Version 2.0 von VXML abgegeben. 45 In dieser Empfehlung lautet der erste Absatz etwa: VXML wurde entwickelt für die Erstellung von Audio Dialogen unter Verwendung von synthetisierter Sprache, AudioDateien, Erkennung von Sprache und DTMF-Eingaben, Aufnahmen gesprochener Sprache, Telefonie-Steuerung und gemischt-initiativen Dialogen. Das wichtigste Ziel ist es, die Vorteile webbasierter Entwicklung und Content-Lieferung für interaktive Sprachapplikationen verfügbar zu machen. Im Bereich der Telefonie-Steuerung bietet VXML nur zwei Möglichkeiten: das Beenden und das Weiterleiten eines Telefonats. Unter gemischt-initiativen Dialogen versteht man Dialoge, die nicht streng nach den Vorgaben des Computers verlaufen; auch der Anrufer kann die Initiative übernehmen und etwas äußern und das natürlichsprachliche Dialogsystem NDS richtet sich danach. Auf das Design gemischt-initiativer Dialoge werden wir in 4.2.1 näher eingehen. Damit unterstützt VXML die wesentlichen Funktionalitäten, die für eine moderne NDSApplikation notwendig sind. 4.2.1. Design gemischt-initiativer Dialoge Die Programmierer bemühen sich bei der Entwicklung eines gemischt-initiativen Dialogs auf die Wünsche der Anrufer bzw. Kunden einzugehen, um sie so weit wie möglich zufriedenzustellen. Daher versuchen sie die Dialoge zu optimieren, indem sie die folgenden Punkte beachten: 45 www.voicexml.org Kürzere Ansagen mit viel Interaktion in den Dialog einbinden, damit der Anrufer nicht ermüdet wird. Wenige Optionen zur Verfügung stellen, da sich der Anrufer mehr als fünf Optionen nicht mehr merken kann. Dem Anrufer die Freiheit geben, sein Anliegen in ganzen Sätzen vorzutragen, als ob er mit einem Menschen telefoniert. Dem Anrufer konkrete Hilfestellungen bieten oder als letzte Alternative mit einem persönlichen Betreuer zu verbinden. Bei der Entwicklung eines NDS wird außerdem beachtet, dass der Anrufer an möglichst vielen Stellen den vorgesehenen Ablauf unterbrechen kann, diese Möglichkeit wird in der Fachsprache Bark in genannt. Da sich Sprachdialogsysteme immer mehr zum Standard entwickeln, gibt es inzwischen sogar internationale Richtlinien zur Dialoggestaltung nach DIN ISO 924146: • • • • • • • Aufgabenangemessenheit Selbstbeschreibungsfähigkeit Steuerbarkeit Erwartungskonformität Fehlertoleranz Individualisierbarkeit Lernförderlichkeit alle diese Punkte müssen bei der Gestaltung des Dialogs eingehalten werden. 4.2.2. VoiceXML-Infrastruktur In VoiceXML findet ein Client/Server Konzept Anwendung. Auf der Client-Seite kommt ein spezieller Voice-Browser zum Einsatz; er ist der Kern der VoiceXML-Infrastruktur und dabei insbesondere zuständig für das Parsen und die Abarbeitung von VoiceXMLDokumenten. Daher wird er auch manchmal VoiceXML-Interpreter genannt. Auf der Server-Seite gibt es HTTP-Server, Applikations-Server und Datenbank-Server. Der Client kommuniziert mit dem HTTP-Server und dem Applikations-Server, und zwar mittels HTTPProtokoll. Die Server stellen die VXML-Dokumente bereit, die der Voice-Browser abarbeitet. Eine schematische Darstellung des Sachverhalts ist in der folgenden Abbildung 1 zu sehen: 46 funkschau 7/04 Web Content Provider VoiceXML TTS Engine Info Broker Telephony Interface Voice Browser XML-Interpreter HTTP Dialog Interpreter Web Shop Direct Bank ASR Engine Web Auction VoiceXML Abbildung 1 Wir beschreiben den Ablauf eines Anrufs bei einem VoiceXML basierten Telephoniedienst, um das Zusammenwirken von den VoiceXML-Komponeten näher zu erläutern: 1.Ein Anrufer wählt die Telefonnummer eines VoiceXML-Dienstes. 2.Das Telefonie-Gateway teilt dem Voice Browser mit, dass ein Anruf anliegt, der Browser lädt ein initiales VoiceXML-Dokument und weist die TTS-Engine an, den Anrufer zu begrüßen. Außerdem aktiviert der Browser eine Grammatik für die Spracherkennungs-Engine. 3.Der Anrufer stellt mittels Sprache seine Anfrage oder erteilt seine Anweisung. Alternativ besteht auch die Möglichkeit DTMF zu benutzen. 4.Der Voice-Browser leitet die eingehenden Audio-Signale an die ASR-Engine weiter und erhält von ihr ein Ergebnis, das vom Browser gemäß den kodierten Anweisungen in dem VXML-Dokument weiterverarbeitet wird. Die Verarbeitung kann entweder in dem geladenen Dokument fortgesetzt werden oder es wird ein HTTP-Request an des Backend-System geschickt und eine neue VXML-Seite geladen. Der Voice-Browser schickt seine Antworten als Audio-Dateien an das Telefonie-Gateway; diese AudioDateien entstehen entweder durch TTS als synthetisierte Texte oder wurden zu einem früheren Zeitpunkt aufgenommen. Eine VoiceXML Umgebung hat folgende wichtige Bestandteile (siehe Abbildung 1): • Telefonie-Gateway Das Telefonie-Gateway dient zum Empfang eines Telefonats und leitet dieses Telefonat an den Voice-Browser weiter. Außerdem spielt es die Audio-Dateien ab, die es vom Voice-Browser zurückerhält. • Spracherkennungs-Engine (ASR) und Sprachsynthese-Engine (TTS) • Voice-Browser Der Voice Browser enthält einen Interpreter für VXML-Dokumente. Dieser verarbeitet die Dokumente und kommuniziert mit den Servern mittels HTTP-Protokoll, und er steuert die sprecherunabhängige ASR-Engine und die TTS-Engine. Er unterstützt Caching, damit die geladenen Seiten für längere Zeit schneller abrufbar sind, und er bietet Scripting. In die VXML-Dokumente kann ECMAScript-Code integriert werden, damit die Seiteninhalte auf der Client-Seite dynamisch berechnet werden können. Zusätzlich enthält der Voice Browser eine Audio-Schnittstelle für die Ein- und Ausgabe der Sprachsignale bereit. Im folgenden Bild sehen wir die Architektur eines VoiceBrowsers. Voice-Browser Audio-Schnittstelle Audio Audio IN/OUT z.B.Soundkarte Audio TelefonieSchnittstelle Voice-over-IPSchnittstelle VoiceXML Interpreter Zuständig für: •Verarbeitung der VoiceXMLDokumente •HTTP-Kommunikation •Cache Verwaltung •ECMAScript-Engine •Steuerung der ASR- und TTSEngine Steuerdaten Audio TTSEngine Audio& Steuerdaten HTTP Erkennungsergebnis ASREngine • Backend-Infrastruktur Um VoiceXML-Dokumente Server-seitig dynamisch zu generieren wird auf eine Backend-Struktur zurückgegriffen. Die Daten stehen auf dem Backend im XML-Format, über einen Transformer werden diese Daten in ein VXML-Dokument transformiert und über einen HTTP-Server an den Voice-Browser weitergeleitet. 4.2.3. Vorteile von VoiceXML VoiceXML bietet für die Sprachapplikationen viele Vorteile: • VoiceXML ist sowohl für einfache als auch für komplizierte Dialoge gut geeignet. • Die Programmierung in VXML ist plattformunabhängig. • Die Entwickler sind von der „Low-Level“-Programmierung befreit. • Der Benutzer-Interaktionscode in VXML wird von dem Code für die Service-Logik (CGI-Script) getrennt. 4.2.4. Voice Applikation Plattform und Entwicklungswerkzeuge Um Sprachportale effizient zu entwickeln braucht man zumindest grafische Editoren und eine möglichst intuitiv bedienbare Entwicklungsumgebung mit diversen Debug-Werkzeugen, die VXML Programme unterstützen. Wenn man aber ein vollständiges VoiceXML Projekt erstellen möchte, empfehlen sich Plattformen, diese heißen Voice Applikationen Plattform (VAP). Viele der VAPs laufen unter der Windows, aber einige unterstützen auch diverse UnixBetriebssysteme. Sie sollten die direkte Integration verschiedener TTS- und ASR-Engines ebenso wie die direkte Anbindung verschiedener Datenbanken ermöglichen. Die VAPs sollten unterschiedlichen Telefonieprotokolle unterstützen. Externe Anwendungen sollen abrufbar sein und andererseits soll das VoiceXML Projekt auch in andere Anwendungen integriert werden können. Die Plattform soll erweiterbar sein und über eine Vielzahl an Schnittstellen verfügen. Die produzierten Anwendungen sollten auf allen Applikationsserver lauffähig sein. In der Tabelle stellen wir eine Anzahl von bekannten Unternehmen und deren entsprechenden Produkte vor. Die meisten davon sind vollständige Plattformen. Unternehmen Produktname Webseite Ascent AscenTel www.ascentinc.com/html/services/avp/index.htm Audium Audium Studio 5 http://audiumcorp.com/index.php?option =com_content&task=view&id=40&Itemi d=57 BeVocal BeVocal Café www.bevocal.com Envox Envox 6 Studio www.ascom.de www.envox.com/software/envox-6.asp IBM wwwWebSphere Voice Server V. 306.ibm.com/software/pervasive/voice_se 5.1.3 rver Nortel Networks Speech Server http://products.nortel.com/go/product_co ntent.jsp?parId=0&segId=0&catId=S&pr od_id=9140&locale=en-US Nuance SpeechPAK Application Kits www.nuance.com/spee www.envox.com/software/envox-6.asp VoiceGenie NeXusPoint 6.4 www.voicegenie.com/NeXusPoint_Open _Framework.htm?1.5.0.0 Unternehmen Produktname Webseite Voxeo Voxeo Evolution Community www.voxeo.com/developers Voxpilot voxBuilder www.voxpilot.com Entwicklungswerkzeuge 4.2.5. Applikation Service Provider Eine Voice Applikation Plattform (VAP) enthält viele Komponenten. Um diese zu entwickeln, zu installieren und in Betrieb zu halten, werden qualifizierte Fachleute benötigt. Daher wurden sogenannte Applikation Service Provider (ASP) gegründet. Die Unternehmen betreiben alle erforderlichen Komponenten und lassen darauf die VoiceXML Applikationen laufen. Leider befinden sich die meisten Anbieter in der USA. In dieser Tabelle sind die wichtigsten Anbieter von ASP47 Unternehmen Land Webseite BeVocal USA www.bevocal.com INA Germany AG Deutschland www.ina-germany.de NetByTel USA www.netbytel.com Telenet Deutschland www.telenet.de Telera USA www.telera.com VoiceGenie USA www.voicegenie.com Voxeo USA www.voxeo.com Voxpilot Irland www.voxpilot.com ASP-Anbieter 4.3. Voice over IP Bei der Kommunikation mit einem NDS wird die Stimme des Anrufers digitalisiert, in Pakete zerlegt und über eine Datenleitung mittels IP-Protokoll zu einem Computer geschickt; diesen Vorgang nennt man Voice over IP (VoIP). Es entstand die Idee, dass man auf teure Telefonate verzichten kann und statt dessen die Gespräche über IP von Computer zu Computer führen kann. 47 www.speech-user-interface.de Bevor wir im nächsten Abschnitt in die Grundlagen von VoIP einsteigen, erläutern wir fünf wichtige Begriffe aus diesem Umfeld, um das Verständnis zu erleichtern. • SIP Das Session Initiation Protocol (SIP) ist ein Netzwerkprotokoll zum Aufbau einer Kommunikationssitzung zwischen zwei und mehr Teilnehmern. In der IP-Telefonie ist das SIP ein häufig angewandtes Protokoll.48 • IP-Telefon IP-Telefon ist ein neuer Typ von Telefon, der auf Voice over IP-Basis funktioniert. Wenn dieses sogenannte Telefon das Session Initiation Protocol (SIP) nutzt, dann sprechen wir von einem SIP-Telefon. Es lässt sich wie ein gewöhnliches Telefon bedienen und sieht auch so aus. Das IP-Telefon muss für ein Telefonat eine Verbindung zum Internet haben und das Gespräch wird dabei in einzelnen Datenpaketen über das Internet versendet.49 • Gateway Gateways erlauben es Netzwerken, die auf völlig unterschiedlichen Protokollen basieren, miteinander zu kommunizieren. Dem Gateway ist dabei alles erlaubt, was zur Konvertierung der Daten notwendig ist, auch das Weglassen von Informationen, wenn diese im Zielnetz nicht transportiert werden können.50 • Router Ein Router ist ein Vermittlungsrechner, der in einem Netzwerk dafür sorgt, dass verschickte Daten, die zu diesem Zweck in einzelne Datenpakete zerlegt wurden, zum vorgesehenen Zielrechner weitergeleitet werden. Neben den großen Routern, die die Internetbackbones miteinander verbinden, gibt es auch technisch einfachere kleine Router für den Heim- oder Bürobereich, die über eine Telefonleitung an den Einwahlknoten des Internetdienstanbieters und rückseitig über ein Ethernet-Kabel an das lokale Netzwerk angeschlossen sind, und die den eigenen Internetdienstanbieter anrufen, wenn man selbst Daten verschicken oder empfangen will. Diese Geräte sind technisch eigentlich Gateways, im Sprachgebrauch hat sich aber die Verwendung des Wortes Router durchgesetzt.51 • DSL-Modem Das DSL-Modem dient der Übertragung von Daten über eine DSL-Leitung. Das Modem wird entweder direkt an einen PC angeschlossen oder an ein Netzwerk/Router.52 4.3.1. Grundlagen von VoIP Voice over IP ist die Übertragung der Gespräche zwischen zwei Partnern über das Protokoll IP. VoIP gibt es in verschiedenen Varianten. Die bekannteste besteht darin, dass beide Gesprächspartner an Computern sitzen, die mit dem Internet verbunden sind. Diese Computer sind mit Mikrofon und Soundkarte ausgerüstet. In den nächsten Paragrafen erläutern wir noch drei weitere wichtige Varianten. Der Nachteil dieser ursprünglichen Form von VoIP besteht darin, dass die beiden Personen, die miteinander kommunizieren wollen, an Computern sitzen, die online sein müssen. Seit kurzem ist es jedoch möglich, dass die Gesprächspartner beide Telefone 48 49 http://www.computerbase.de/lexikon/SIP http://de.wikipedia.org/wiki/SIP-Telefon http://de.wikipedia.org/wiki/Gateway 51 http://de.wikipedia.org/wiki/Router 52 http://de.wikipedia.org/wiki/DSL-Modem 50 benutzen, und die Stimmen trotzdem in Form von Datenpaketen über das Internet wandern, obwohl die Rechner ausgeschaltet sind. Um Telefonate mittels VoIP zu führen braucht man entweder ein IP-Telefon oder ein normales Festnetztelefon, das VoIP-fähig gemacht wurde. Es gibt dazu kleine Boxen, welche die analogen Signale in IP-Pakete umwandeln. Diese Boxen werden einfach mit dem Telefon verbunden. Mit diesen IP-Telefonen (bzw. VoIP-fähigen analogen Telefonen) kann man nur noch IP-Gespräche und keine altmodischen Telefonate mehr führen. Will man aber die Wahl zwischen IP-Gesprächen und altmodischen Telefonaten haben, dann benötigt man einen speziellen Router. Dieser Router verbindet analoge Telefone wahlweise über das Internet oder das Telefonnetz mit dem Gesprächspartner. Bisher haben wir nur den Fall betrachtet, dass beide Gesprächspartner ein IP-Telefon oder ein VoIP-fähiges analoges Telefon haben. Aber wir wollen natürlich auch unsere Oma, die ein altmodisches Telefon besitzt, von unserem IP-Telefon aus anrufen. Ruft man vom einem Computer mit Internetanschluss einen normalen Telefonanschluß an, dann wird dazu ein Gateway benötigt, das die Gespräche aus dem Internet an einen normalen Telefonanschluß weiterleitet; ruft man von einem normalen Telefonanschluß den Computer mit Internetanschluss an, dann benötigt der Computer eine Telefonnummer. Sowohl das Gateway als auch die Telefonnummer werden vom Internetprovider, der VoIP anbietet, zur Verfügung gestellt. Diese Technologie gewinnt immer mehr Bedeutung, so hat sich zum Beispiel die Anzahl der Voice over IP Anbieter im letzten Jahr 10 auf 40 erhöht. Eine Liste der aktuellen Anbieter findet man in www.onlinekosten.de/voip/anbieter53. Dabei setzen alle Anbieter auf das VoIPProtokoll SIP. Die Sprachqualität ist durchgängig gut. Bei optimaler Qualität fließen in jeder Richtung 80Kbit/sek. über die Leitung, pro Gesprächsminute fallen also 1,2 MByte an so dass ein DSL Anschluss zum Erreichen dieser Qualität benötigt wird.54,55,56 4.3.2. Vorteile und Nachteile von IP-Telefonie Ob sich die Tarife der VoIP-Provider als ein Vor- oder ein Nachteil für die Nutzer von IPTelefonie gegenüber dem altmodischen Telefonbenutzer herausstellen, hängt stark vom persönlichen Telefonverhalten ab. Es ist ein Vorteil, wenn jemand öfters ins Internet geht und im wesentlichen Gespräche ins deutsche Festnetz führt, aber ein Nachteil, für jemanden, der gerade online geht um seine E-Mails zu lesen und mehrere Gespräche ins Ausland führt, da er die günstigen Call-by-Call Tarife nicht benutzen kann. Die ersten beiden Punkte beschreiben die Vorteile der IP-Telefonie, die übrigen die Nachteile: Komfortfunktionen: Bei vielen Anbietern kann man Komfortfunktionen nutzen, die denen bei ISDN-Benutzung entsprechen. Dazu gehören Anklopfen (Anzeichen, dass während eines Gesprächs ein weiterer Anruf ankommt), Makeln (Hin- und Her- Springen zwischen zwei Gesprächen), Konferenz etc. 53 www.onlinekosten.de/voip/anbieter Connect 2004, Heft 6, S.60 55 c't 2004 Heft 9, S. 88 56 com! 2004 Heft 6, S. 30 54 Mobilität: Das VoIP-Konto kann weltweit an jedem Internetzugang genutzt werden ohne zusätzliche Kosten; wenn man zum Beispiel eine VoIP-Flatrate benutzt, kann man auch aus dem Ausland nach Deutschland kostenlos telefonieren. Breitbandzugang und Flatrate erforderlich: Auf Grund der Datenmenge und der Tatsache, dass man immer online sein muss, um ankommende Anrufe zu erhalten, empfiehlt sich ein Breitbandzugang mit Flatrate. Diese verursachen zusätzliche Kosten für Leute, die den online Zugang nicht oft nutzen. Nicht Abhörsicher: Telefonate, die über VoIP geführt werden, sind nicht abhörsicher. Nicht alle Nummern erreichbar: Einige VoIP-Anbieter können noch nicht zu allen Nummern Verbindungen schalten; davon sind 0137er, 0180er und 0900er betroffen. 4.4. Zusammenfassung In diesem Kapitel haben wir Voice Portale kennengelernt, die sich von dem einfachen System DTMF zu einem intelligenten natürlichsprachlichen Dialogsystem entwickelt haben. Ein NDS kann dank einem gut designten und getunten Dialogs eine Erkennungsrate von mehr als 95 Prozent erreichen.57 Dabei kann man natürlich nicht auf eine gute ASR-Engine verzichten. Wir treffen heutzutage Voice Portale in allen Bereichen der Dienstleistung an, zum Beispiel in Call Centern oder Banken wie die Deutsche Bank. Man erzielt dadurch viele Vorteile wie zum Beispiel 24 Stunden Service ohne großen Personalbedarf. Der einzige Nachteil ist die Höhe der Entwicklungskosten eines Sprachportals. Die Linderung dieses Problems besteht in der Nutzung der standardisierten Metasprache VXML. Auf die VXML-Infrastruktur sind wir im zweiten Abschnitt eingegangen. Die zentrale Komponente, die mit den Kunden in Kontakt tritt, ist der Voice Browser, der auch VXMLInterpreter genannt wird. Er steuert den kompletten Ablauf des Dialogs mit dem Kunden. Er verfügt über Schnittstellen zur Kommunikation mit der ASR- und der TTS-Engine, und zum Austausch von Daten mit dem Backend-Server mittels HTTP-Protokoll. Zur Erstellung einer Voice-Applikation in VXML sind professionelle Werkzeuge in Form von grafischen Editoren und Debuggern sehr wichtig; um diese Anwendung laufen zu lassen, benötigt man eine adäquate Umgebung, die sogenannte Voice Applikation Plattform. Wenn man den Aufwand für die Erstellung und Betreibung einer Voice Applikation scheut, kann man stattdessen diesen Service bei Application Service Providern mieten. Im dritten Abschnitt haben wir wichtige Varianten der Benutzung von VoIP vorgestellt, von denen eine darin besteht, dass der Anrufer mit einem NDS in Kontakt tritt. Diese Technologie gewinnt mehr und mehr an Bedeutung; sowohl die Anzahl der Nutzer im Privatbereich als auch bei den Firmen wächst ständig. 57 Funkschau 2004 Heft 7, S. 12 5. Analyse ausgewählter Programme Die zwei wesentlichen Teile der Sprachtechnologie sind Spracherkennung und Sprachsynthese. Da die Qualität bei Sprachausgabeprogrammen nur von der TTS-Engine abhängt, haben wir uns auf den Test dieser Engines beschränkt, den wir im ersten Abschnitt durchführen. Im zweiten Abschnitt werden wir die Diktiersoftware einem Test unterziehen; da stand uns Dragon NaturallySpeaking Standard 7 zur Verfügung. 5.1. TTS Engines Die meisten Anbieter von TTS-Engines stellen in ihren Web-Auftritten Demonstrationsprogramme zum Testen ihrer Engines zur Verfügung. Es wird ein Formular angeboten, in das man den Text eintippt, der synthetisiert werden soll. Als Ausgabe wird entweder ein WAV-File zurückgeschickt, den man abspeichern kann, oder die Ausgabe geschieht in dem Browser als Sprache ohne eine direkte Möglichkeit zur Abspeicherung; in diesem Fall haben wir den Soundrecorder Silent-Bob58 benutzt, der den Output der Soundkarte als WAV-File auf die Festplatte schreiben kann. Es wurden zehn TTS-Engines von verschiedenen Firmen getestet. Diese sind Babil59, Bright Speech60, Cepstral Voices61, Logox62, Loquendo63, Natural Voices64, Proser65, RealSpeak Solo66, Sayso67 und ViaVoice68. Bei einigen Anbietern gab es mehrere Optionen zur Auswahl, man konnte zwischen verschiedenen Sprachen und Stimmen wählen oder auch zum Beispiel die Tonhöhe und die Geschwindigkeit variieren. Als Beispiel sehen Sie den Screenshot der Firma Logox69. 58 www.silent-bob.de www.babeltech.com 60 www.babeltech.com 61 http://www.cepstral.com/demos/ 62 http://www.logox.de/cgi-bin/speechform.cgi 63 http://actor.loquendo.com/actordemo/default.asp?language=de 64 http://www.naturalvoices.att.com/demos/ 65 http://www.atip.de/german/technologie/tts/proseronline.htm 66 http://www.nuance.com/realspeak/demo/default.asp 67 http://sayso.elan.fr/interactive_va.asp 68 http://www-306.ibm.com/software/pervasive/tech/demos/tts.shtml 69 http://www.logox.de/cgi-bin/speechform.cgi 59 Speech Demo Logox 5.1.1. Kriterien des Tests Wir beurteilen die Qualität einer TTS-Engine einerseits durch die Menschlichkeit des Klangs der Stimme und andererseits durch die korrekte Aussprache des eingetippten Textes. Objektiv meßbare Kriterien sind die Aussprache komplexerer Worte, die aus Komposita, Sonderzeichen, Abkürzungen und Zahlen in unterschiedlichen Zusammenhängen bestehen. In dem Text werden die komplexeren Worte in den Farben hervorgehoben, die den Kriterien entsprechen. An Hand dieser Kriterien haben wir folgenden Text zusammengestellt, der von allen TTS-Engines gelesen wurde: Hallo! Ich bin Dounia und wurde am 3.4.1973 geboren. Ich habe einen Neffen, der am 2.10.2001 geboren wurde. Der Transporter, den ich für meinen Umzug geliehen habe, hatte eine Länge von 5,2 m, eine Ladefläche von 2,5 m² und einen Hubraum von 1798 cm³. 5,5 kg Blumentopferde kosten in den USA z. B. nur $ 2,2, in den EG-Ländern hingegen € 3,5. In § 2.2.1. werden Kommandosysteme behandelt, in 2.2.2. die Sprechererkennung. 5.1.2. Ausführliches Testergebnis der TTS-Engines Wir stellen nun den Aufbau der Webseiten und die Ergebnisse unseres Tests dar. Am Ende fassen wir die Ergebnisse nochmals in einer Tabelle zusammen. Dabei haben wir die Symbole „++“, „+“, „±“, „-“ und „--“ benutzt. Dabei bedeutet „++“ „sehr gut“, „+“ „gut“, „±“ „ausreichend“, „-“ „mangelhaft“ und „--“ „ungenügend“. • Bright Speech und Babil: Die Belgisch-Schwedische Firma Babel Technologies Infovox vertreibt zwei TTS-Engines für PCs, nämlich Bright Speech 1.2 und Babil 4.1. Bright Speech stellt 7 Sprachen zur Verfügung, Babil sogar 18. Beide Engines stellen die Möglichkeit zur Verfügung, mit einem Benutzerwörterbuch zu arbeiten. Man kann in diesem Wörterbuch die Aussprache ungewöhnlich klingender Wörter abspeichern, zum Beispiel wird in dem Wörterbuch abgespeichert, dass „Dounia“ wie „Dunja“ ausgesprochen wird. Auf den Webseiten der Firma gab es sogar ein Lautsprechersymbol, und wenn man es aktivierte, dann wurde der Inhalt der Webseite vorgelesen. Für beide Programme gibt es Demo-Versionen auf ihrer Webseite. Man schreibt einen Text in ein Formular, wählt dazu die zugehörige Sprache und eventuell sogar die Stimme eines männlichen oder weiblichen Sprechers. In Deutsch sind 6 verschiedene Stimmen zur Auswahl. Dann wird automatisch der Windows Media Player geöffnet, in dem die ausgegebene WAV-Datei abgespielt wird. Es war verständlich, aber man konnte den Unterschied zur menschlichen Stimme deutlich erkennen, Babil schnitt im Test in Bezug auf den Klang der Stimme am schlechtesten ab. Beide Engines haben im ersten Satz „zweiter Oktober zweitausendundein“ statt „zweiter Oktober zweitausendundeins“ vorgelesen. Babil hat im zweiten Satz „m²“ als „m hoch zwei“ bzw. „cm³“ als „Zentimeter hoch drei“ gesprochen. Bright Speech hingegen hat das „m“ als Meter erkannt, aber das „cm³“ als „cm hoch drei“ gesprochen. Im dritten Satz hat Babil einen schweren Fehler begangen, weil sie „zwei Dollar zwei“ gesagt hat, aber darunter würde man ja „zwei Dollar und zwei Cent“ verstehen und nicht „zwei Dollar und zwanzig Cent“. Im letzten Satz haben beide Engines das Paragrafzeichen nicht erkannt und somit auch die Paragrafnummer nicht korrekt gesprochen. • Cepstral Voices: Auf der Webseite von Cepstral kann man sich eine Online-Demo der Engine Cepstral Voices anhören. Neben der Texteingabe kann man verschiedene Einstellungen vornehmen wie Tonhöhe, Geschwindigkeit und Effekte; unter Effekte sind 6 Optionen zu aktivieren „Dizzy Droid“, „Liquid Love“, „Old Robot“, „PVC Pipe“, „Space Time Echo“ und „Split Personality“. Als Ausgabe wurde eine WAV-Datei erstellt, die man auch herunterladen kann. Die Stimmen Katrin und Matthias waren in der default Einstellung zufriedenstellend, Änderungen verschlechterten allerdings die Verständlichkeit. Im ersten Satz wurde die Deklination nicht beachtet und „am dritte April“ statt „am dritten April“ vorgelesen. Im zweiten Satz wurden die Exponenten gar nicht erkannt und die Abkürzungen wurden nur buchstabenweise gelesen. Im dritten Satz wurde zwar das Dollarzeichen erkannt, das Eurozeichen hingegen nicht. Im letzen Satz wurde das Paragrafzeichen auch nicht erkannt, was zur Folge hatte, dass die Paragrafnummer „In zweite zweite erste“ gesprochen wurde. • Logox: Die Deutsche Firma „G DATA“ stellt die Engine Logox 4 her. Die Demo-Webseite ist im Bild oben zu sehen, dort gibt es mehrere Optionen zum Auswählen, wie Dialekt, Effekt, Format und Sprecher; außerdem man kann das Tempo, Tonhöhe, Stimmumfang und Rauheit variieren. Es sind 10 Stimmen zur Auswahl, von Kinderstimme bis zu Sexystimme. Trotzdem ähneln alle Stimmen einer Roboterstimme. Die Engine hat als einziger im Test das Datum falsch wiedergegeben, es würde nämlich „3.4.1973“ als „drei vier eintausandneunhundertdreiundsiebzig“ gesprochen. • Loquendo: Die Firma Loquendo stammt aus Italien, und mit Ihrem einfachen Demo-Auftritt kann man die Engine testen. Der Klang der Stimme ist sehr angenehm, und von den zusammengesetzten Worten wurde nur die „Blumentopferde“ falsch ausgesprochen. Die Exponenten im zweiten Satz wurden ignoriert, und nur die Zentimeter wurden korrekt ausgesprochen. Die Dollar und Euro Zeichen wurden erkannt, aber anstelle der deutschen Sprechweise mit Komma wurde die englische „Zwei Punkt zwei Dollar“ gelesen. Im vierten Satz wurde die Paragrafennummer als Datum geparsed, und somit wurde „Im Paragraf zweiter Februar zweitausendeins“ vorgelesen. • Natural Voices: Die Firma AT&T stellt die Engine AT&T Natural Voices her. Auf ihrer Webseite70 kann zwischen fünf verschiedenen Sprachen wählen. Bei der deutschen Sprache stehen zwei Stimmen, Klara und Reiner, zur Verfügung. Man kann zwischen vier verschiedenen AudioFormaten und vier verschiedenen Frequenzen auswählen. Die beiden Stimmen sind sehr angenehm anzuhören und kaum von einer menschlichen Stimme zu unterscheiden. Die einzige echte Schwäche leistete sich diese Engine im zweiten Satz, in dem die Potenzen zwar erkannt wurden, aber die Längenangaben nicht. So wurde „m²“ als „m hochgestellte zwei“ bzw. „cm³“ als „cm hochgestellte drei“ gesprochen. Bei den Währungsangaben wurden der Dollar und der Euro erkannt und wörtlich vorgelesen, aber nicht interpretiert. • Proser: Die deutsche Firma Atip, die von zwei Physikern und einem Phonetiker der J. W. Goethe Universität in Frankfurt gegründet wurde, stellt eine Online-Demo zur Verfügung, bei der drei deutsche Stimmen zur Auswahl stehen und bei der man Tonhöhe und Geschwindigkeit variieren kann. Der Klang der Stimme ist angenehm zu hören. Im zweiten Satz ist „m“ nicht als „Meter“ gesprochen und die Exponenten wurden ignoriert, ansonsten wurden alle anderen Worte korrekt interpretiert. 70 http://www.naturalvoices.att.com/demos • RealSpeak Solo: Der bekannteste US-amerikanische Hersteller von Sprachverarbeitungssystemen Nuance, früher bekannt unter dem Namen Scansoft, brachte die Engine RealSpeak Solo heraus, die man in 22 verschiedenen Sprachen in ihrem Demo-Auftritt ausprobieren kann. Außer der Sprache kann man keine weiteren Optionen auswählen. Die einzige deutsche Stimme Steffi klingt sehr angenehm, sie ist die natürlichste aller von uns getesteten Stimmen. Im letzten Satz wurde „§ 2.2.1“ als „Zwei Punkt Zwei Eins“ gesprochen, es wurde zwar das Paragrafzeichen nicht gesprochen, aber meiner Meinung nach als Nummerierung richtig interpretiert. • Sayso: Die von der französischen Firma Elan Speech hergestellte Engine Sayso schnitt in dem Test ebenfalls sehr gut ab. Bei der Eingabe des Textes in das Demo-Formular konnte man die Geschwindigkeit und die Tonhöhe einstellen. Die Stimme von Lea klang angenehm und war sehr gut verständlich. Der zweite Satz wurde vorbildlich ausgesprochen, und nur im dritten Satz zeigte sie Schwächen bei der Aussprache von „USA“, „z.B.“ und „EG“. Ansonsten leistete sie bei fast allen schwierigen Problemen eine gute Arbeit. • Via Voice: Die von IBM entwickelte TTS-Engine begnügt sich mit einem einfachen Demo-Auftritt, in dem nur die Sprache und die Lautstärke veränderbar ist. Die deutsche männliche Stimme war sehr gut verständlich, aber hörte sich ein wenig synthetisch an. Via Voice meisterte die Schwierigkeiten fast tadellos, nur das „m“ wurde nicht als „Meter“ erkannt. Engine Babil Bright Speech Cepstral Voices Logox Loquendo Klang der Stimmen - ± + + ++ Transporter + + + + + Ladefläche + + + + + Blumentopferde - - - + - Kommandosysteme - - + + + Sprechererkennung - - - + + ! - - - - - $ + + + + + € + + - + + § - - - + + m - ++ - + - m² ± ++ - ´+ - cm³ + ± - - ± Kg - - - + + USA + - + + + z. B. - - - - - EG + - - + + 3.4.1973 ++ ++ ± - ++ 2.10.2001 ± ± + - ++ $ 2,2 - ++ + + - € 3,5 - ++ - ++ - § 2.2.1. - - - ´+ -- 2.2.2. - - - ´+ -- Kriterien Tabellarische Zusammenfassung der Ergebnisse der TTS-Engines Engine Natural Voices Proser RealSpeak Solo Sayso Via Voice Klang der Stimmen ++ + ++ ++ + Transporter + + + + + Ladefläche + + + + + Blumentopferde + + + + + Kommandosysteme + + + + + Sprechererkennung + + + - + ! - - - - - $ + + + + + € + ´+ + + + § + + - + + m - - + ++ - m² ± - + ++ ++ cm³ ± - + ++ ++ Kg + + + + + USA + + + - + z. B. + + - - + EG + + + - + 3.4.1973 ++ ´+ ++ + ++ 2.10.2001 ++ ´+ ++ + ++ $ 2,2 + + ++ ++ + € 3,5 + + ++ ++ + § 2.2.1. ++ + ++ + ++ 2.2.2. ++ + ++ + ++ Kriterien Tabellarische Zusammenfassung der Ergebnisse der TTS-Engines 5.1.3. Bewertung der TTS-Engines Obwohl die beiden Engines „Babil“ und „Bright Speech“ von derselben Firma produziert wurden, hört man deutliche Unterschiede; der Klang der „Bright Speech“-Stimme ist der bessere. Außerdem hat „Bright Speech“ die Probleme bei den Währungen vorbildlich gemeistert. Die Engine Cepstral Voices stellt bei ihrer online Demo viele Optionen zur Verfügung, aber die Resultate bleiben schwach. Die Loquendo Engine mit ihrer angenehmen Stimme und ihrer durchschnittlichen Fehlerrate hatte im Test ein schwerwiegendes linguistisches Problem; die Paragrafnummer wurde als Datum geparsed, obwohl das Paragrafzeichen richtig interpretiert wurde. Die beiden von deutschen Firmen hergestellten Engines „Logox 4“ und „Proser“ sind im internationalen Vergleich konkurrenzfähig, ich bin aber von dem fatalen Fehler von „Logox 4“ bei der Wiedergabe des Datums sehr enttäuscht. Die vier besten Engines sind „Natural Voices“, „RealSpeak Solo“, „Sayso“ und „Via Voice“, wobei die letztere zwar die Schwierigkeiten am besten gemeistert hat, aber der Klang der Stimme ist nur zufriedenstellend. Von den vier Engines ist „RealSpeak Solo“ mein persönlicher Favorit, weil sie die natürlichste Stimme hat und auch kaum Schwächen bei den Kriterien zeigte. 5.2. Dragon NaturallySpeaking Standard 7 In diesem Abschnitt werden wir einen Test von Dragon NaturallySpeaking Standard 7 durchführen. Zum Lieferumfang dieser Software gehören eine Installations-CD, ein Headset, ein 186-seitiges Handbuch und einer Kurzreferenz. Die Installation verläuft reibungslos und erfordert ca. 300 MB Speicherplatz. Am Ende der Installation wird der Benutzerassistent gestartet, der in fünf Schritten ein Profil des Benutzers anlegt. Im ersten Schritt wird der Benutzer aufgefordert, das Mikrofon richtig zu positionieren. Im zweiten Schritt wird die Lautstärke des Mikrofoneingangs angepaßt, und im dritten Schritt wird die Tonqualität überprüft. Der vierte Schritt ist der wichtigste, in ihm lernt die Software die Sprechweise des Sprechers kennen, das Training wird gestartet, indem der Benutzer vorgeschriebene Texte vorliest. Diese Texte werden markiert, wenn sie erkannt worden sind. Andernfalls muss der Benutzer sie wiederholen. Der letzte Schritt, die sogenannte Analysefunktion, besteht aus einer Anpassung von Dragon an den Schreibstil des Benutzers, indem Microsoft Word, Corel WordPerfect, Text- und Rich-Text-Dateien gelesen werden; dieser Vorgang benötigt bis zu 30 Minuten Zeit und kann übersprungen werden; dies ist aber nicht empfehlenswert. Nachdem das Profil des Benutzers angelegt wurde, wird das Programm gestartet, und es erscheint am oberen Bildschirmrand die folgende Leiste: Es stehen die folgenden Untermenüs zur Verfügung: Im Menü Naturally Speaking werden die unterschiedlichen Benutzerprofile verwaltet. Im Menü Extras kann man das Befehlscenter, in dem kontextabhängig alle möglichen Befehle aufgelistet werden, und den eigenen einfachen Texteditor DragonPad aufrufen. . Im Menü Wörter kann insbesondere zwischen den fünf Modus gewechselt werden; zwischen diesen Modus kann man auch durch Spracheingabe wechseln. Wenn man diktieren möchte benutzt man am einfachsten den Diktiermodus, wenn man aber Befehle aussprechen will, muss man den Befehlsmodus aktivieren. Der Standardmodus ist ein Diktiermodus, in dem Befehle ebenfalls verstanden werden, allerdings, falls ein Befehl falsch erkannt wird, dann wird er nicht ausgeführt sondern geschrieben. 5.2.1. Kriterien des Tests Beim Test von Dragon wurde ein Text jeweils von zwei verschieden Testpersonen vorgelesen. Dabei wurden die Personen gezielt ausgesucht, so dass wir die folgenden zwei Kriterien untersuchen konnten: • • Bedienbarkeit des Programms für Computerlaien Fehlerhafte Aussprache des Benutzers. Die erste Testperson ist ein Computerexperte und hat einen leichtem Sprachfehler, sie lispelt. Die zweite Testperson ist ein Laie auf dem Gebiet des PCs ohne Sprachfehler. Es wird also beobachtet, ob der Sprachfehler einen negativen Einfluß auf die Erkennungsrate hat und ob der zweite Tester das Programm problemlos bedienen kann. Jeder Tester testet Dragon zwei mal: Das erste mal sofort nach der Trainingsphase, das zweite mal, nachdem die Analysefunktion des Programms ausgeführt wurde. Dieser Schritt dient der Verbesserung der Voraussetzungen für Dragon. Um Zufälligkeiten bei der Art und Weise des Diktierens weitgehend auszuschließen, wurde jeder Test drei mal durchgeführt. Der in DragonPad diktierte Text ist mit vielen Stolpersteinen bezüglich der folgenden sieben Kriterien gespickt: 1. Groß-/Kleinschreibung bei persönlicher Anrede 2. phonetisch ähnliche aber semantisch unterschiedliche Wörter 3. Komposita (zusammengesetzte Wörter) 4. Besonders ausgefallene Deklination (Genitiv, ...) 5. Datum, Uhrzeit, Währung, Sonderzeichen, Internet- und E-Mail-Adresse 6. Manuell auf der Tastatur ausgeführte oder gesprochene Befehle 7. In die deutsche Sprache integrierte ausländische Wörter Es folgt der diktierte Text, in dem entsprechen: die Farbmarkierungen den obigen Kriterien Hallo Freunde! <manuelle (händische) Zeilenschaltung > Es ist tatsächlich wahr geworden und ich habe meine Bachelorarbeit am 1. Februar 2006 angemeldet, abgeben muss ich also am 2. Mai 2006. Meine Arbeit hat den Titel „Analyse und Evaluation von Sprachverarbeitungssystemen“. <Zeilenschaltung gesprochen> Die Arbeit könnt Ihr Euch von dem Link http://wwwcs.unipaderborn.de/cs/Studenten/mirrouch dann auch downloaden. Am 13. Mai lade ich Euch dann zur Party im Keller ein. Wir essen um 20 Uhr marokkanische Spezialitäten. Gegen Mitternacht gibt es dann noch ein kaltes Essen für die Nachtschwärmer unter uns. Ich erwarte Euch ab 18 Uhr 30. Ach ja, jeder soll sich mit 2 Euro 50 für alkoholische Getränke beteiligen. Ach, übrigens, als ich gestern unterwegs war, bin ich in die Stadt gefahren statt wie üblich samstags zu meiner Familie. <Absatzschaltung gesprochen> Für die, die noch nie bei mir zu Hause waren, ist hier meine Adresse: Frankfurter Straße 63 in 45276 Essen. Und ich gebe Euch noch einen Rat: Kommt mit dem Rad und nicht mit dem Auto, denn die Straße ist längerfristig wegen Bauarbeiten gesperrt. <Zeilenschaltung gesprochen> Bitte mailt mir Eure [email protected]. Bestätigung an meine neue E-Mail Adresse dounia- Und Melanie, könntest Du bitte das rote Kleid mitbringen, das Du aus dem Katalog bestellt hast, so dass ich es sehen kann, bevor ich es eventuell auch bestelle. <Absatzschaltung gesprochen> Grüße Euch, Dounia. 5.2.2. Ergebnisse des Tests und Bewertung Beim Test stellte sich heraus, dass das Lispeln des zweiten Testers keinen Einfluß auf die Erkennungsrate hat; auch Worte die ein oder mehrere „s“ enthalten werden im allgemeinen erkannt. Der Computerlaie konnte das Programm problemlos bedienen. Auch für den Computerexperten empfiehlt es sich, sich an Hand des Handbuchs vorher zu informieren, da jeder lernen sollte, welche Befehle man aussprechen muss, wenn gewisse Aktionen durchgeführt werden sollen. Bei beiden Testern funktioniert Command und Control ganz gut, manchmal wurde ein Befehl zwar nicht erkannt, dann mußte man ihn wiederholen, aber Fehler wurden nicht gemacht. Auch der für die Korrektur wichtige Befehl „Korrigiere“ wurde immer verstanden und ausgeführt. In dem Test tauchen viele Fehler auf, die nicht von den Stolpersteinen herrühren, sondern von der integrierten ASR-Engine. Die Software ist jedoch lernfähig, die vom Benutzer korrigierten Worte werden manchmal beim nächsten Gebrauch richtig geschrieben. Dragon erfordert eine hohe Konzentration beim Diktieren, somit empfiehlt es sich, den Text vorher zu schreiben und dann erst vorzulesen. Daher reduziert sich die Anzahl der Benutzer, die Dragon effektiv einsetzen können, auf geduldige Leute, die langsam tippen. Außerdem empfiehlt sich für User, die Dragon häufig benutzen, tief in die Tasche zu greifen, um ein stabiles, leicht zu positionierendes Headset zu kaufen, denn in unserem Test hat sich gezeigt, dass bei beiden Testpersonen die Anzahl der Fehler beim zweiten Versuch mit Analyse trotz besserer Voraussetzungen größer ist als beim ersten Versuch. Dies liegt an dem schlechten mitgelieferten Headset, bei dem man nicht in der Lage ist, es nach dem Absetzen später wieder auf die exakt gleiche Weise aufzusetzen. Testender Computerlaie ohne Sprachfehler 1. Versuch 2. Versuch ohne Analyse mit Analyse Groß/Kleinschreibung bei persönlicher Anrede Fehler bei „Euch“ und „Du“ Testender Computerexperte mit Sprachfehler 1. Versuch 2. Versuch ohne Analyse mit Analyse Fehler bei „Euch“ und „Du“ Fehler bei „Euch“ und „Du“ Fehler bei „Euch“ und „Du“ Keine Probleme Probleme mit der Großschreibung von „Essen“ in der Adresse Keine Probleme Probleme bei „Sprachverarbeitungssystemen“ phonetisch ähnliche aber semantisch unterschiedliche Wörter Keine Probleme Komposita (zusammengesetzte Wörter) Probleme bei „Sprachverarbeitungssystemen“ Keine Probleme Probleme bei „Sprachverarbeitungssystemen“ Besonders ausgefallene Deklination (Genitiv, ...) Keine Probleme Keine Probleme Keine Probleme Keine Probleme Datum, Uhrzeit, Währung, Sonderzeichen, Internet- und EMail-Adresse Große Probleme Große Probleme bei der bei der Internetadresse Internetadresse, und der E-mail- kleine bei der EAdresse mail-Adresse Große Probleme bei der Internetadresse und der E-mailAdresse Große Probleme bei der Internetadresse und der E-mailAdresse Manuell auf der Tastatur ausgeführte oder gesprochene Befehle Keine Probleme Keine Probleme Keine Probleme Keine Probleme Probleme bei „downloaden“ Probleme bei „downloaden“ Probleme bei „downloaden“ Probleme bei „downloaden“ 16 19 14 15 In die deutsche Sprache integrierte ausländische Wörter Anzahl der Fehler Tabellarische Zusammenfassung der Ergebnisse von Dragon 5.3. Zusammenfassung In diesem Kapitel haben wir zehn TTS-Engines und die Diktiersoftware Dragon NaturallySpeaking getestet. Dank der Internetauftritte der Anbieter von TTS-Engines kann jeder die Qualität beurteilen und somit wird ihm die Entscheidung vor Kauf eine Software mit integriertem TTS erleichtert, besonders bei der riesigen Auswahl an Lernprogrammen. Von den zehn getesteten Engines sind „Natural Voices“, „Via Voice“, „Sayso“ und „RealSpeak Solo“ die, die am besten abgeschnitten haben, wobei die letztere mein persönlicher Favorit ist, weil sie die natürlichste Stimme hat und auch kaum Schwächen zeigte. Beim Testen von Diktiersoftware stand uns „Dragon NaturallySpeaking 7“ zur Verfügung. Um gute Ergebnisse mit diesem Programm zu erzielen braucht man Ausdauer und viel Geduld. Die Handhabung verschlechtert sich bei der Benutzung des beiliegenden Headsets, daher empfiehlt sich der Kauf eines stabileren. Um mehr Benutzer zu gewinnen und zufrieden zu stellen, müssen die Entwickler von Dragon über einen längeren Zeitraum daran arbeiten, die Schwächen der Spracherkennungsengine zu beheben. 6. Zusammenfassung der Arbeit In dieser Arbeit haben wir uns mit Sprachverarbeitungssystemen und deren Analyse und Evaluation beschäftigt. Unter Sprachverarbeitungssystemen verstehen wir Systeme zur Spracheingabe, Spracherkennung und Sprachausgabe. Die Spracheingabe geschieht meistens durch Sprechen in ein Mikrofon, das an einem mit einer Soundkarte ausgerüsteten PC angeschlossen ist. Eine andere Möglichkeit besteht durch Sprechen in ein Telefon; der Sprecher ist dann typischerweise mit einem natürlichsprachlichen Dialogsystem verbunden. Die Spracheingabe wird anschließend durch einen automatischen Spracherkennungsprozess, dem sogenannten ASR, in einen Text umgewandelt. Dieser Text wird entweder einfach auf dem Bildschirm ausgegeben oder er wird als Befehl ausgeführt. Im ersten Fall spricht man von Diktiersoftware, im zweiten von Kommandosystemen. Ein Spezialfall der Kommandosysteme ist die Sprechererkennung. Somit unterteilt sich die Spracherkennung in drei verschiedene Bereiche: Diktiersoftware, Kommandosysteme und Sprechererkennung. Bei der Spracherkennung treten eine Reihe von Problemen auf, die die korrekte Erkennung erschweren. Diese sind Linguistische Probleme, die Größe des Wortschatzes, Homophone, Groß- und Kleinschreibung, Komposita und Sonderschreibweisen. Eine Möglichkeit, diese Probleme bei Diktiersoftware einigermaßen in den Griff zu bekommen, ist ein großer eingebauter sprecherunabhängiger Wortschatz; durch das Training des Sprechers lernt die Diktiersoftware, wie der Sprecher die einzelnen Worte ausspricht. Zusätzlich verbessert sich die Erkennungsrate kontinuierlich, da das Programm in der Lage ist, aus korrigierten Fehlern zu lernen. In der letzten Zeit haben sich viele Firmen aus dem Geschäft mit Diktiersoftware zurückgezogen Es sind mittlerweile zwei Firmen, Nuance und IBM, die den Markt beherrschen. Unser Test der Software „Dragon NaturallySpeaking 7“ offenbarte allerdings einige Schwächen der Nuance-eigenen ASR-Engine. Es wird sicher noch einen längeren Zeitraum in Anspruch nehmen diese Probleme zu beheben. Der Konkurrent IBM schnitt in dem Test der Zeitschriften allerdings auch nicht besser ab. In einem anderen Bereich finden wir ebenfalls Spracherkennung, und zwar im Bereich der Kommandosysteme. Mit Ihrer Hilfe lassen sich viele PC-Programme durch Sprache steuern. Dieses Feature funktionierte in unserer getesteten Diktiersoftware reibungslos, da zu diesem Zweck nur einzelne Worte aus einem kleinen Wortschatz verstanden werden müssen. Neben der Steuerung des PCs dienen Kommandosysteme auch der Steuerung anderer Geräte wie zum Beispiel Handys, HiFi-Anlagen, .... Der dritte Bereich der Sprachtechnologie ist die Sprachausgabe. Im dritten Kapitel haben wir uns dann mit der synthetischen Sprachausgabe beschäftigt, die oft auch TTS genannt wird. Diese Technologie findet man in einfachen Readern, aber auch in Diktiersoftware als Korrekturhilfe und in Lernprogrammen für Kinder oder zum Erlernen einer Fremdsprache. Man findet sie ebenso bei mobilen Geräten wie in Navigationssystemen. Außerdem ist TTS neben ASR ein wichtiger Bestandteil eines IVR-Systems bzw. eines NDS. Insbesondere profitieren stark sehbehinderte Menschen von dieser Technologie. So können sie sich z. B. per Plugin mit eingebauter TTS-Engine ihre E-Mails vorlesen lassen. Die Liste der in der TTS-Technologie aktiven Firmen unterliegt eine schnellen Veränderung; Firmen ändern ihre Namen, fusionieren miteinander oder werden aufgekauft. Lernout & Hauspie war früher eine der aktivsten Firmen in der Sprachverarbeitung, wurde aber von Scansoft aufgekauft und Scansoft anschließend in Nuance umbenannt. Eine größere Fusion der drei bekannten Firmen mit einer langen Erfahrung in der Entwicklung von TTSEngines, und zwar Babil, Elan Speech und Infovox, führte zur Acapela Group. AT & T und Loquendo hingegen bleiben als Pioniere in der Entwicklung der Sprachtechnologie eigenständig. Bei der Entwicklung jeder neuen Technologie tauchen natürlich auch Schwierigkeiten auf. Bei der Sprachsynthese finden wir drei wesentliche Probleme: Linguistische Probleme, Komposita und Sonderschreibweisen, also eine Teilmenge der Probleme, die bei ASR zu finden waren. Diese drei Punkte bildeten auch die Kriterien für unseren Test der TTSEngines. Die Leistung der TTS-Engines hinsichtlich dieser Kriterien waren höchst unterschiedlich. Die TTS-Engine Cepstral Voices versagte bei den meisten der von uns gestellten Probleme, auch die beiden Engines Babil, Bright Speech und Loquendo liefern nur eine mäßige Leistung. Alle übrigen Engines erbrachten eine recht gute Leistung. Die Spitzenplätze gehörigen den Engines der drei US-amerikanischen Hersteller Nuance, AT & T und IBM. Ich persönlich bevorzuge die Engine Realsoft Solo von Nuance mit ihrem angenehm natürlichen Klang ihrer Stimme. Nuance ist auch der Herausgeber der Diktiersoftware Dragon Naturally Speaking, und ist somit der führende Hersteller von Sprachpaketen für den privaten PC. Die Gründung der Acapela Group sollte als Fusion mehrerer europäischer Firmen mit langen Erfahrungen in der Sprachsynthese dazu führen, dass in Europa eine Engine so weit verbessert wird, dass sie gegen die amerikanischen Engines bestehen kann. Die zwei getesteten deutschen Engines Logox und Proser sollten sich in der Hauptsache bemühen, an der Stimme zu arbeiten, damit sie natürlicher klingt. Wenn man die drei Bereiche der Sprachtechnologie, nämlich die Spracheingabe, Spracherkennung und Sprachausgabe auf geeignete Weise miteinander kombiniert, entsteht ein natürlichsprachliches Dialogsystem. Das System kann mehrere Aufgaben erledigen wie z. B. Auskünfte erteilen, Bankgeschäfte tätigen und Reservierungen vornehmen. Diese natürlichsprachlichen Dialogsysteme, mit denen man sich fast wie mit einem Menschen unterhalten kann, haben wir in Kapitel vier behandelt. Sprachdialogsysteme haben den Vorteil, rund um die Uhr erreichbar zu sein, ohne dass zusätzliche Personalkosten für diesen Service entstehen; NDS sind immer freundlich und von gleichbleibender Qualität, ohne dass diese kontrolliert werden muss. Der einzige Nachteil ist der hohe Entwicklungsaufwand, der bei der Programmierung eines neuen Dialogs anfällt. Dieser Entwicklungsaufwand wird durch die Wahl von VXML als Programmiersprache und eine gute Entwicklungsumgebung erträglich. Einerseits gibt es Firmen, die auf die Entwicklung eines NDS spezialisiert sind, andererseits gibt es welche, die sogar eine Voice Applikation Plattform betreiben, die sogenannten Applikation Service Provider. Die meisten dieser Provider befinden sich in den USA, mittlerweile gibt es auch deutsche Firmen, die diesen Service bieten. Durch die NDS-Technologie, die gezeigt hat, dass man über Datenleitungen telefonieren kann, wurde ein Trend eingeleitet, den man Voice over IP nennt. Dabei können Menschen üb er Datenleitungen miteinander telefonieren. Vor ein paar Monaten hätten wir in Elektrokaufhäusern keine IP-Telefone gefunden; heute kann man sich sogar aus vielen Modellen eins aussuchen. VoIP boomt, die Anzahl der Anbieter hat sich in ein paar Monaten vervielfacht. Besonders Firmen mit mehreren Standorten profitieren durch geringere Telefonkosten von dieser Technologie. Für Privatleute, die bereits einen DSL-Anschluss mit Flatrate-Tarif besitzen, ist VoIP oft preislich gesehen von Vorteil. Allerdings wird die Sprachqualität manchmal immer noch durch Nebengeräusche beeinträchtigt. Außerdem entstehen für die Firmen nicht unbeträchtliche Kosten bei der Migration nach VoIP, die man nicht unbedingt innerhalb eines Geschäftsjahres aufbringen will; eine Koexistenz von analogen Telefonen und VoIP-Telefonen sowie eine sanfte Migration muß möglich sein. Geheime Gespräche sollten auf die altmodische Art geführt werden, da VoIP-Telefonate nicht abhörsicher sind, solange sie nicht verschlüsselt werden. Ich denke, dass die Sprachtechnologie am heimischen PC jetzt und auch in der Zukunft nur einen geringen Nutzen bzw. einen kleinen Nutzerkreis, wie zum Beispiel sehbehinderte Personen, haben wird. Andererseits bin ich überzeugt, dass NDS eine große Akzeptanz finden wird, wenn die Sprachtechnologie effektiv umgesetzt wird. In diesem Bereich wird die Sprachtechnologie wirtschaftlichen Nutzen bringen, nicht nur der Industrie durch die Reduzierung ihrer finanziellen Kosten, sondern auch dem Verbraucher durch die Erhöhung seiner Bequemlichkeit und die Verbesserung der Erreichbarkeit. Literaturverzeichnis com! 2004, Heft 5 com! 2004, Heft 6 Connect 2004, Heft 6 c't 2004, Heft 9 Ernst Maracke: VoiceXML 2.0, Bonn 2003 Freiheit, Lehner, Matousek: VoiceXML, Berlin und Offenbach 2003 Funkschau 2004, Heft 7 http://de.wikipedia.org/wiki/AOL http://de.wikipedia.org/wiki/ASCII http://de.wikipedia.org/wiki/Audio_Interchange_File_Format http://de.wikipedia.org/wiki/DSL-Modem http://de.wikipedia.org/wiki/Excel http://de.wikipedia.org/wiki/Gateway http://de.wikipedia.org/wiki/Html http://de.wikipedia.org/wiki/Internet_Explorer http://de.wikipedia.org/wiki/Microsoft_Outlook http://de.wikipedia.org/wiki/Microsoft_Word http://de.wikipedia.org/wiki/Pegasus_Mail http://de.wikipedia.org/wiki/Rich_Text_Format http://de.wikipedia.org/wiki/Router http://de.wikipedia.org/wiki/Schreibtisch_%28EDV%29 http://de.wikipedia.org/wiki/SIP-Telefon http://de.wikipedia.org/wiki/WAV_(Format) http://en.wikipedia.org/wiki/Au_file_format http://en.wikipedia.org/wiki/MP3 http://sayso.elan.fr/interactive_va.asp http://www.acapela-group.com/products/products.asp http://www.babeltech.com http://www.computerbase.de/lexikon/SIP http://www.corel.com http://www.flexvoice.com http://www.gdata.de/trade/productview/123/5/ http://www.infovox.se http://www.kinderleichtsoftware.de/lesefixpro.htm http://www.lencom.com/desc/indexN2615.html http://www.loquendo.com/de/demos/demo_tts.htm http://www.naturalvoices.att.com/demos/ http://www.neospeech.com/demo/demo_text.php http://www.speechissimo.com/ http://www-306.ibm.com/software/lotus/ Stiftung Warentest, Test 2004, Heft 1 www.dragon-medical-transcription.com/historyspeechrecognitiontimeline.html www.dynamic-living.com www.loquendo.com/de/technology/asr.htm www.onlinekosten.de/voip/anbieter www.sakrament-speech.com/products/asr/asr2 www.scansoft.com/automotive/vocon3200 www.speech-user-interface.de www.spracherkennung.de www.spracherkennung.de/service/sebuch.htm www.telisma.com/ASRengine.html www.telisma.com/overviewASR.html www.voicexml.org Hiermit versichere ich, dass ich diese Arbeit selbständig angefertigt und keine anderen als die angegebebenen und bei Zitaten kenntlich gemachten Quellen und Hilfsmitteln benutzt habe. ______________ Dounia Mirrouch