Analyse und Evaluation von Sprachverarbeitungssystemen

Transcription

Analyse und Evaluation von Sprachverarbeitungssystemen
Analyse und Evaluation
von
Sprachverarbeitungssysteme
Studienarbeit
Universität Paderborn
Fakultät für Elektrotechnik, Informatik und
Mathematik
Institut für Informatik
Vorgelegt von
Dounia Mirrouch
Gutachter: Prof. Dr. Gerd Szwillus
Betreuer: Dr. Brigitte Oesterdiekhoff
Abgabedatum: 2. Mai 2006
Inhaltsverzeichnis
1.
Einführung........................................................................................................................ 4
1.1.
2.
Einführung in die Sprachtechnologie................................................................................. 5
Spracherkennungssysteme .............................................................................................. 7
2.1.
2.1.1.
2.1.2.
2.1.3.
2.1.4.
2.1.5.
2.1.6.
Einführung ........................................................................................................................... 7
Linguistische Probleme................................................................................................................. 8
Größe des Wortschatzes ............................................................................................................... 8
Homophone.................................................................................................................................... 8
Groß- und Kleinschreibung.......................................................................................................... 8
Komposita ...................................................................................................................................... 9
Sonderschreibweisen..................................................................................................................... 9
2.2.
Spracherkennungs-Engine .................................................................................................. 9
2.3.
Klassifikation der Spracherkennungssysteme................................................................. 10
2.3.1. Einführung in Diktiersoftware................................................................................................... 10
2.3.1.1.
Unterstützte Anwendungen .............................................................................................. 11
2.3.1.2.
Analysefunktion ................................................................................................................. 12
2.3.1.3.
Training .............................................................................................................................. 13
2.3.1.4.
Headset ............................................................................................................................... 13
2.3.1.5.
Fehlerkorrektur und Navigation...................................................................................... 14
2.3.2. Kommandosysteme ..................................................................................................................... 14
2.3.2.1.
Sprechererkennung ........................................................................................................... 15
2.4.
Software und Geräte mit eingebauter Spracherkennung .............................................. 16
2.4.1. Diktiersoftware............................................................................................................................ 16
2.4.1.1.
Beschreibung des Tests der Stiftung Warentest ............................................................... 16
2.4.1.2.
Beschreibung des Tests der Zeitschrift com!................................................................... 17
2.4.1.3.
Ausführliches Testergebnis der Diktiersoftware ............................................................ 18
2.4.2. Geräte mit Sprachsteuerung ...................................................................................................... 23
2.5.
3.
Sprachsynthese ............................................................................................................... 26
3.1.
3.1.1.
3.1.2.
3.1.3.
4.
Zusammenfassung.............................................................................................................. 24
Ablauf der Sprachsynthese ............................................................................................... 26
Linguistische Probleme............................................................................................................... 27
Komposita .................................................................................................................................... 27
Sonderschreibweisen................................................................................................................... 27
3.2.
Einsatzbereiche von Text to Speech ................................................................................. 27
3.3.
Audio-Fileformate für Text to Speech ............................................................................. 28
3.4.
Text to Speech-Engines und Reader-Software................................................................ 28
3.5.
Zusammenfassung.............................................................................................................. 31
Aufbau und Nutzen der Sprachdialogsysteme ............................................................ 32
4.1.
4.1.1.
4.1.2.
4.2.
4.2.1.
4.2.2.
4.2.3.
4.2.4.
4.2.5.
4.3.
4.3.1.
4.3.2.
4.4.
5.
Einsatzbereich von NDS ............................................................................................................. 33
Nachteile und Vorteile von NDS ................................................................................................ 33
Entwicklung von NDS Applikationen mittels VoiceXML.............................................. 34
Design gemischt-initiativer Dialoge .......................................................................................... 34
VoiceXML-Infrastruktur ........................................................................................................... 35
Vorteile von VoiceXML .............................................................................................................. 37
Voice Applikation Plattform und Entwicklungswerkzeuge .................................................... 38
Applikation Service Provider ..................................................................................................... 39
Voice over IP ...................................................................................................................... 39
Grundlagen von VoIP ................................................................................................................. 40
Vorteile und Nachteile von IP-Telefonie ................................................................................... 41
Zusammenfassung.............................................................................................................. 42
Analyse ausgewählter Programme ............................................................................... 43
5.1.
5.1.1.
5.1.2.
5.1.3.
5.2.
5.2.1.
5.2.2.
5.3.
6.
Sprachdialogsysteme.......................................................................................................... 32
TTS Engines ....................................................................................................................... 43
Kriterien des Tests ...................................................................................................................... 44
Ausführliches Testergebnis der TTS-Engines .......................................................................... 45
Bewertung der TTS-Engines ...................................................................................................... 50
Dragon NaturallySpeaking Standard 7............................................................................ 50
Kriterien des Tests ...................................................................................................................... 52
Ergebnisse des Tests und Bewertung......................................................................................... 54
Zusammenfassung.............................................................................................................. 56
Zusammenfassung der Arbeit ....................................................................................... 57
1.
Einführung
Stell dir vor, du kommst nach Hause, und du sagst „Licht an“, „E-Mails vorlesen“ und
„Radio anschalten“, und alles geschieht, weil eine Technologie deine Befehle entgegennimmt
und ausführt. Diese Technologie ist Teil der sogenannten Sprachtechnologie; unter
Sprachtechnologie versteht man die Aufzeichnung, Erkennung und die Ausgabe oder
Wiedergabe von Wörtern oder Sätzen.
Um diese Sprachtechnologien zu
Sprachwissenschaftler und Toningenieure.
entwickeln,
kooperieren
Softwareentwickler,
Ein wichtiger Antrieb für die Entwicklung ist die immer weiter fortschreitende
Miniaturisierung der Endgeräte. Erstens fehlen diesen portablen Endgeräten ergonomische
Eingabegeräte wie eine ausreichend große Tastatur oder eine Maus, und diese möchte man
auch nicht gerne zusätzlich mit sich herumschleppen. Zweitens sind die Displays klein, so
dass zum Lesen einer Webseite oder einer E-Mail Scrollen von links nach rechts und von
oben nach unten nötig ist. Drittens gibt es bestimmte Situationen, in denen man die Hände
nicht benutzen kann, um das Gerät zu bedienen, zum Beispiel während des Autofahrens kann
man keine Rufnummer wählen. Hier drängt sich die Nutzung der Sprache als Lösung der
Probleme auf.
Eine weitere Anwendung dieser Technologie sind die natürlichsprachlichen
Dialogsysteme. Hierbei führt man in natürlicher Sprache einen Dialog mit einem Computer.
Durch den Einsatz dieser Dialogsysteme kann man zum Beispiel in einem angenehmen
Gespräch eine Fahrplanauskunft der Deutschen Bahn bekommen, oder nach Geschäftsschluss
der Bank noch eine Transaktion durchführen.
Die Sprachtechnologie hat ihre Wurzeln schon im 18. Jahrhundert. Die Entwicklung der
Spracherkennung startete dann in den 50er Jahren des 20. Jahrhunderts. 1952 wurde zum
ersten mal eine sprecheradaptive Erkennung einzelner Ziffern möglich. Das heißt, dieses
System wurde von einer Person trainiert, indem sie die Ziffern in ein Mikrofon sprach, diese
Sprache aufgenommen, digitalisiert und auf dem Rechner abgespeichert wurde; das System
erkennt die von derselben Person gesprochenen Ziffern wieder. 1956 konnten einsilbige
Wörter erkannt werden; 1970 waren die Systeme in der Lage, einzelne mehrsilbige Worte zu
erkennen, doch sie wurden vom Verbraucher noch nicht angenommen, da sie zu teuer waren
und ihr Wortschatz zu klein war.
Im Jahre 1984 stellte die Firma IBM ein Sprachsystem vor, das mit Hilfe eines
Großrechners ungefähr 5000 englische Einzelworte in mehreren Minuten erkannte. Erst 1986
entwickelte IBM ein in Echtzeit arbeitendes System, das sogar eine Kontextprüfung
beinhaltete. Den Durchbruch erzielte IBM im Jahre 1994, indem sie die PC-Lösung „IBM
VoiceType“ auf den Markt brachten, die nur zehn Prozent des Preises der Vorgänger kostete;
es war aber immer noch nötig in isolierter Sprechweise zu reden.
Erst Ende der 90er Jahre wurden Diktiersysteme von den Firmen IBM und Dragon
Systems vorgestellt, die die übliche kontinuierliche Sprechweise erkannten. Diese Programme
besitzen ein mehrere hunderttausend Wörter großes Wörterbuch und erzielen eine
Erkennungsrate von über 90 Prozent.1
1
www.spracherkennung.de
1.1.
Einführung in die Sprachtechnologie
Wenn wir über Sprachtechnologie reden, dann meinen wir die Spracheingabe,
Spracherkennung und Sprachausgabe. Bei der Spracheingabe spricht der Sprecher in ein
Mikrofon; das Gesprochene wird digitalisiert, beim PC geschieht dies mittels Soundkarte.
Erkennungsalgorithmen bearbeiten diese Eingabe, um sie zu verstehen; diesen Vorgang
nennen wir Spracherkennung.
Wichtige Teile der Spracherkennung bilden Kommandosysteme, Diktiersysteme und
Sprechererkennung. Mit Kommandosystemen kann man zum Beispiel die
Bedienoberfläche eines PCs durch die gesprochene Sprache steuern. Mit ihnen kann man
sogar eine gespeicherte Rufnummer im Handy per Stimme wählen.
Anstatt einen Text mit 2 Fingern in die Textverarbeitung eines PCs zu tippen, kann man
diesen Text auch einem Diktiersystem diktieren, und das System sorgt dafür, dass die
Sprache erkannt und geschrieben wird. Die Sprechererkennung ist ein biometrisches
Verfahren, das die Identität des Sprechers liefert. Wir beschreiben Kommandosysteme,
Diktiersysteme und Sprechererkennung näher in Kapitel 2.
Manchmal möchte man sich einfach in seinem Schreibtischstuhl zurücklehnen und sich
den diktierten Text nochmals vorlesen lassen. Es gibt Programme, die das tun, nämlich die
Sprachausgabeprogramme. Das einfachste Verfahren zur Sprachausgabe ist die Wiedergabe
von aufgezeichneter natürlicher Sprache. In Kapitel 3 werden wir aber die synthetische
Sprachausgabe näher kennenlernen. Dies ist bekannt unter dem Namen Text-To-Speech.
Unter diesem Verfahren werden Texte mit synthetisch erzeugter Stimme ausgegeben. TextTo-Speech wird in vielen Unternehmen angewendet, so beispielsweise bei
Auskunftssystemen wie für das Wetter oder die Lottozahlen.
Wer hat es noch nicht erlebt, bei einem Call Center anzurufen und ständig das
Besetztzeichen zu hören, und sich noch nicht die Frage gestellt: Warum gibt es denn kein
System, das meinen Anruf wenigstens entgegennimmt und mich dann zu einem geeigneten
Gesprächspartner weiterleitet? Oder besser noch: Warum gibt es kein „intelligentes“ System,
das meine Anfrage beantwortet? Ein klassisches System, das die Anrufe entgegennimmt und
gegebenenfalls weiterleitet, heißt Interactive Voice Response (IVR) System. Die
Fähigkeiten der IVR-Systeme wurden in der Zwischenzeit so stark erweitert, dass man auch
den Namen in Sprachdialogsystem oder auch Voice Portal änderte. Das erste Voice Portal
wurde 1996 von der Firma BellSouth eröffnet und wurde Val genannt.2 Ein Voice Portal oder
auch Sprachportal oder Sprachdialogsystem ist ein System, bei dem man mit Computern in
normaler Sprache fast wie mit einem Menschen sprechen kann.
Der Anrufer stellt eine Verbindung mit einem Sprachportal her, der Voice Browser oder
auch VoiceXML Interpreter nimmt die Verbindung an und lässt die Sprache von einer
Spracherkennung in Text umwandeln; dieser Text ist die Eingabe für das VoiceXMLProgramm, das der Voice Browser interpretiert. Die Antworten sind in einer Datenbank
entweder lokal oder auf einem Server gespeichert. Der Voice Browser gibt dem Text-ToSpeech Programm die Anweisung, die Antworten in Sprache umzuwandeln. Diese Sprache
wird dem Anrufer übermittelt. Um ein Sprachdialogsystem zu entwickeln, braucht man also
Spracheingabe und Sprachausgabe, genau die Komponenten, die in Kapitel 2 und Kapitel 3
näher behandelt werden. Mehr zu Sprachdialogsystemen und zur Architektur von Voice
2
www.dragon-medical-transcription.com/historyspeechrecognitiontimeline.html
Browsern und Voice XML ist in Kapitel 4 zu finden. In dem selben Kapitel behandeln wir
noch den wichtigen Punkt der Sprachübertragung mittels Internet Protokoll, das ist das Voice
over Internet Protocol (VoIP).
In Kapitel 5 wird eine Analyse ausgewählter Programme aus dem Bereich
Spracherkennung und Sprachsynthese durchgeführt.
2. Spracherkennungssysteme
In diesem Kapitel werden wir zunächst eine Einführung in die Spracherkennungssysteme
geben und dabei insbesondere einige der auftauchenden Probleme näher erläutern.
Im zweiten Abschnitt stellen wir einige Softwares vor, die für die Umwandlung von
Sprache zu Text zuständig sind, die sogenannten Spracherkennungs-Engines.
Im dritten Abschnitt führen wir dann eine Klassifikation der Spracherkennungssysteme
durch. Dabei unterscheiden wir zwischen Diktiersoftware und Kommandosystemen.
In dem vierten Abschnitt behandeln wir auf dem Markt befindliche Software und
Endgeräte mit eingebauter Spracherkennung. Als Informationsgrundlage dienten zwei
bekannte Zeitschriften, in denen einige Diktierprogramme getestet wurden. Bei diesen Tests
wurde beachtet, wie gut die Erkennungsqualität beim Auftreten der Probleme aus dem
zweiten Abschnitt ist. Bei den Endgeräten mit eingebauter Spracherkennung haben wir
Handys und Geräte aus dem Home-Bereich gefunden. Da wir bei den Endgeräten keine
unabhängigen Tests gefunden habe, beschränken wir uns auf die Herstellerinformationen zu
diesen Produkten.
2.1. Einführung
Die Spracherkennung ist ein Prozess zur Umwandlung der gesprochenen Sprache in
geschriebenen Text. Dieser Text wird oft auch String genannt. Der Prozess besteht aus
mehreren Stufen; in einer ersten Stufe werden die kleinsten Einheiten der gesprochenen
Sprache extrahiert, diese heißen Phoneme oder auch Laute. Phoneme werden zu Wörtern
zusammengesetzt, und in einer dritten Stufe werden die Wörter zu Sätzen zusammengefasst.
Der Spracherkenner wird deshalb auch Speech-to-Text-Engine oder auch Automatic Speech
Recognition (ASR) genannt. ASR ist aber der weitaus geläufigere Begriff.
Die Spracherkennung ermöglicht die Eingabe von Daten an eine beliebige Anwendung,
dadurch können andere Eingabegeräte wie Tastatur, Maus, Joystick und Zeichentablett durch
die natürliche Sprache ersetzt werden. Der Anwender benötigt ein Mikrofon an seinem
Computer oder er kann die Applikation per Telefon anrufen. Die erste Möglichkeit ist
meistens für den persönlichen Bedarf, die zweite Variante wird oft bei Auskunftssystemen
verwendet.
Bei
der
Spracherkennung
wird
zwischen
sprecherabhängiger
und
sprecherunabhängiger Erkennung unterschieden. Ein sprecherunabhängiges System kann
von jeder beliebigen Person ohne Training genutzt werden. Das sprecherabhängige System
muss von jedem Sprecher separat trainiert werden. Früher wurde zu diesen Systemen kein
sprecherunabhängiger Wortschatz mitgeliefert, so dass der Sprecher mit großem Aufwand
einen eigenen Wortschatz erstellen musste, bis die ersten zufriedenstellenden
Erkennungsraten erzielt wurden. Heute ist bei den sprecherabhängigen Systemen ein
sprecherunabhängiger Wortschatz eingebaut. Jetzt benötigt das System noch einige Minuten
Zeit bis es eine Beziehung zwischen seinem Wortschatz und der Sprechweise des Sprechers
hergestellt hat. Genau wie der hochdeutsch sprechende Mensch einige Zeit benötigt, bis er
sich zum Beispiel an den sächsischen Dialekt gewöhnt hat.
Die Qualität der Spracherkennung wird durch die Erkennungsrate gemessen. Dabei
bedeutet eine Rate von 90 Prozent, dass jedes 10. Wort falsch erkannt wird, eine Rate von 98
Prozent bedeutet, dass nur noch jedes 50. Wort falsch ist.
In der Spracherkennung treten Probleme auf, welche die Erkennung der gesprochenen
Worte bzw. Sätze erschweren. In den nächsten Abschnitten, behandeln wir die wichtigsten
sechs Probleme.3
2.1.1. Linguistische Probleme
Um nicht näher auf die technischen Einzelheiten einzugehen, wollen wir die linguistischen
Probleme, die die Erkennung von Worten beeinträchtigen, an Beispielen erläutern. Dadurch
dass der Sprecher ein Wort nie exakt gleich aussprechen kann, entstehen die größten
Schwierigkeiten bei der Spracherkennung durch den Computer. Außerdem gehören schlechte
Mikrofone und Geräusche im Hintergrund zu den linguistischen Problemen. Wenn aber der
Sprecher zum Beispiel am Rand einer stark befahrenen Straße zu einem anderen Menschen
spricht, kann dieser Mensch trotz dieser Probleme den Sprecher durch dessen Gesten und
durch den Kontext verstehen. Dem Computer stehen leider diese Möglichkeiten nicht zur
Verfügung.
2.1.2. Größe des Wortschatzes
Zu jedem gesprochenen Wort muss das ASR-System den zugehörigen String zuordnen
können. Deshalb müssen alle diese Worte einschließlich aller Wortformen in einem
Wörterbuch gespeichert sein. Ist ein gesprochenes Wort nicht in dem Wörterbuch vorhanden,
dann wird anstelle dieses Wortes ein ähnlich klingendes Wort ausgegeben, wodurch sich die
Erkennungsrate verringert. Daher wird zum Beispiel bei Diktiersoftware häufig die
Möglichkeit geboten, ein speziell abgestimmtes Wörterbuch zu benutzen, das das
Fachvokabular abdeckt wie zum Beispiel für Mediziner oder Juristen.
2.1.3. Homophone
Homophone sind gleichklingende Wörter, die unterschiedlich geschrieben werden; das
System muss entscheiden, welches der Wörter aus dem Wörterbuch dem gesprochenen Wort
zugeordnet werden soll. Beispielsweise klingen die Wörter „mehr“ und „Meer“, „fiel“ und
„viel“, „wieder“ und „wider“ vollkommen gleich ausgesprochen.
2.1.4. Groß- und Kleinschreibung
Durch unterschiedliche Groß- und Kleinschreibung kann sich der Sinn eines gesprochenen
Satzes vollständig ändern. Zum Beispiel hat der Satz „der Gefangene floh“ einen anderen
Sinn als „der gefangene Floh“. Bei Diktierprogrammen wird versucht durch eine
Kontextprüfung den richtigen Sinn zu ermitteln, um festzustellen, ob ein Wort groß oder klein
ausgegeben wird.
3
www.spracherkennung.de/service/sebuch.htm
2.1.5. Komposita
Kompositum ist die lateinische Bezeichnung für „zusammengesetztes Wort“, und gerade
die deutsche Sprache erlaubt die Bildung zusammengesetzter Worte wie „Steuerlüge“.
Obwohl die einzelnen Worte „Steuer“ und „Lüge“ wahrscheinlich in dem Wörterbuch
vorhanden sind, wird das zusammengesetzte Wort in den meisten Fällen nicht erkannt.
2.1.6. Sonderschreibweisen
Zu einem diktierten Text gehören auch gewisse Sonderschreibweisen wie z. B. Datum,
Uhrzeit, Währung, Sonderzeichen, Internet- und E-Mail-Adresse. Eine gute Diktiersoftware
soll in der Lage sein, zum Beispiel die Mailadresse „mirrouch at online Punkt de“ als
„[email protected]“ umzusetzen.
2.2. Spracherkennungs-Engine
Spracherkennungs-Engines - auf Englisch "automatic speech recognition engines" (ASREngines) - bilden die eigentliche Grundlage einer jeden mit Spracherkennung arbeitenden
Software. Mit Hilfe dieser Engines ist eine einfache Integration von Spracherkennung in eine
beliebige Anwendung wie zum Beispiel Diktiersoftware oder Voice Portale möglich.
Es gibt 4 bekannte Hersteller von Engines, welche mehrere Sprachen, darunter Deutsch
und Englisch, unterstützen; sie laufen entweder unter den neueren Windows Varianten oder
unter Unix. Wir finden auf dem Markt Engines, die nur Teil einer Anwendung sind, wie die
Engine Via Voice von IBM und ASR 1600 oder ASR 3200 von Scansoft als Teil der
Diktiersoftware, aber auch vielseitige Engines wie VoCon-3200 von Scansoft, welche sogar
in embedded Systemen aus dem Automobilbereich lauffähig ist.
Wir haben die Engines von den bekannten Herstellern in der folgenden Tabelle
zusammengefasst.
Engine
4
UK English, US
English, German und
andere
Philsoft ASR
engine 3.25
UK English, US
English, German und
andere
Sakrament ASR
engine6
Unabhängig
Loquendo ASR
4
5
6
Sprache
www.loquendo.com/de/technology/asr.htm
www.telisma.com/ASRengine.html
www.sakrament-speech.com/products/asr/asr2
Sprecherabhängig/
Sprecherunabhängig
-/Ja
System
Windows NT, 2000,
Unix, Linux Red Hat
7.x
Windows NT, 2000
Ja/Ja
Windows 98, ME,
NT, 2000, XP
Engine
Telisma ASR 3.2
VoCon-3200
engine8
Sprache
7
Sprecherabhängig/
Sprecherunabhängig
UK English, US
English, German und
andere
UK English, German
und andere
System
Windows NT, 2000,
Linux, Solaris, hp
UX
-/Ja
Windows NT, 2000,
XP, CE
Tabellarische Übersicht der Engines
2.3. Klassifikation der Spracherkennungssysteme
Die Spracherkennungssoftware wird in zwei Kategorien unterteilt, Diktiersoftware und
Kommandosysteme. Diktiersoftware wandelt das gesprochene Wort in einen Text um, der
Inhalt des Textes hat keinen Einfluss auf das Verhalten des Systems, mehr dazu im ersten
Abschnitt. Kommandosysteme jedoch analysieren den Inhalt des Textes und reagieren. Die
Reaktion kann in der Ausführung eines Befehls oder in der Ausgabe von Sprache bestehen. In
diesem Kapitel werden wir nur Kommandosysteme ohne Sprachausgabe vorstellen.
Kommandosysteme mit Sprachausgabe, die als natürlichsprachige Dialogsysteme bekannt
sind, lernen wir erst in Kapitel 4 kennen.
Den in diesem Kapitel vorgestellten Kommandosystemen begegnet man häufig direkt am
eigenen PC oder auch am Handy, mehr dazu im zweiten Abschnitt. Die Sprechererkennung,
einen Spezialfall der Kommandosysteme, werden wir ebenfalls kennenlernen.
2.3.1. Einführung in Diktiersoftware
Diktiersysteme haben die Aufgabe, einen gesprochenen Text in getippten Text
umzusetzen. Das Ergebnis ist dann ein Dokument, das in einem für eine bestimmte
Anwendung verständlichen Format vorliegt. Häufig ist diese Anwendung ein
Textverarbeitungssystem. Im ersten Abschnitt
werden wir auf diese unterstützten
Anwendungen genauer eingehen.
In jedem Diktiersystem ist heutzutage ein Wörterbuch im Umfang von ca. 1 Million
Wortformen integriert. Das Wörterbuch dient dazu, eine Beziehung zwischen dem vom
Benutzer gesprochenen Wort und dem am ähnlichsten klingenden Wort in seiner Datenbank
herzustellen. Dieses ähnlich klingende Wort wird dann auf dem Bildschirm ausgeschrieben.
Das in dem Diktiersystem integrierte Vokabular kann vom Benutzer erweitert werden. Mehr
dazu im zweiten Abschnitt. Für einige besondere Berufsgruppen wie zum Beispiel Juristen,
Mediziner und IT-Berufe gibt es außerdem Fachvokabular, das in den Gesamtwortschatz mit
eingebunden werden kann. 9,10
Heutige Programme können eine Erkennungsrate von 99 Prozent erreichen, allerdings
kann diese Rate nur durch Sprecherabhängigkeit erreicht werden. Sprecherabhängige Systeme
7
www.telisma.com/overviewASR.html
www.scansoft.com/automotive/vocon3200
9
com! 2004 Heft 5, S. 80
10
Freiheit, Lehner, Matousek: VoiceXML, Berlin und Offenbach 2003, S. 28
8
müssen vor ihrem ersten Einsatz vom jeweiligen Anwender trainiert werden. Genaueres
hierzu im dritten Abschnitt.
Zum Lieferumfang eines Diktiersystems gehört im allgemeinen auch ein Headset. Wenn
der Benutzer einen Text diktieren will, setzt er dieses Headset auf und spricht in das
Mikrofon. Im vierten Abschnitt werden wir den Einfluss der Qualität eines Headsets auf die
Erkennungsrate näher erläutern.
Ist ein Wort vom Diktierprogramm falsch erkannt worden, hat der Anwender die
Möglichkeit, das Wort zu korrigieren. Es gibt dazu zwei Möglichkeiten, entweder manuell per
Tastatur oder per Sprachbefehl. Genaueres dazu im fünften Abschnitt.
2.3.1.1. Unterstützte Anwendungen
Die Spracherkennung ist im Prinzip in der Lage, das Schreiben von Texten und das
Navigieren in einem Dokument zu übernehmen. Insbesondere ist dies in Textverarbeitungen,
in E-Mail Programmen und in Tabellenkalkulationen willkommen. Bei unseren Recherchen
haben wir herausgefunden, dass Anwendungen ohne Spezialfunktionen und die folgenden
Programme von Diktiersoftware unterstützt werden: 11,12
Microsoft Word: wird oft auch kurz MS Word oder Word genannt und ist ein
Textverarbeitungsprogramm der Firma Microsoft für die Windows-Betriebssysteme und
MacOS.13
Wordpad: ist eine einfache Textverarbeitung der Firma Microsoft, die im Betriebssystem
Microsoft Windows integriert ist.
Dragon Pad: ist eine einfache Textverarbeitung, die mit Diktiersoftware der Hersteller
Scansoft mitgeliefert wird.
Speak Pad: ist eine einfache Textverarbeitung, die mit Diktiersoftware der Hersteller IBM
und Linguatec mitgeliefert wird.
Microsoft Outlook: ist ein weit verbreitetes Mail-Programm der Firma Microsoft für die
Windows-Betriebssysteme.14
Pegasus Mail: bezeichnet einen E-Mail-Client, welcher von David Harris entwickelt wird.
Versionen existieren für Microsoft Windows und MS-DOS. Pegasus Mail ist Freeware seit
seiner Einführung im Jahr 1990.15
Microsoft Excel: ist ein Tabellenkalkulationsprogramm. Es ist sowohl für Microsoft
Windows als auch für MacOS verfügbar. Die aktuell verfügbare Version ist Microsoft Excel
2004 für Macintosh (seit Juni 2004). Für Windows ist die aktuellste Version das Microsoft
Excel 2003 (seit 21.10.2003).16
11
com! 2004 Heft 5, S. 83
Test 2004 Heft 1, S. 38
13
http://de.wikipedia.org/wiki/Microsoft_Word
14
http://de.wikipedia.org/wiki/Microsoft_Outlook
15
http://de.wikipedia.org/wiki/Pegasus_Mail
16
http://de.wikipedia.org/wiki/Excel
12
Internet Explorer: (Abkürzung IE oder MSIE) ist ein Webbrowser von Microsoft für
Microsoft Windows und MacOS. Für einige Zeit gab es auch Versionen für Unix-Derivate
wie Solaris und AIX. Der Internet Explorer ist mit über 88,9% Marktanteil der meistgenutzte
Browser im Internet (Stand: November 2004). Der IE ist Bestandteil des Betriebssystems
Microsoft Windows seit Windows 95 SR2.17
Der Desktop: ist das englische Wort für das deutsche Word Schreibtisch. Er ist bei
graphischen Benutzeroberflächen die Arbeitsfläche und damit die unterste Fensterebene. Zum
Desktop gehören Symbole (Icons), die Programme, Systembestandteile, Dateien und
Speichermedien, wie Disketten, Festplatten und CDs, repräsentieren. Dazu gehört auch ein
Papierkorb, in den Programme und Dateien gezogen werden können, um sie anschließend
durch Entleeren des Papierkorbs zu löschen. Von den mir bekannten Diktierprogrammen wird
der Microsoft Windows-Desktop unterstützt.18
AOL: ist ein US-amerikanischer Onlinedienst, der sich 1995 auch in Deutschland
niedergelassen hat. AOL setzte für die Einwahl in das Internet jahrelang auf eine proprietäre
Software mit eigenständiger Konnektivität, ohne die es nicht möglich war, AOL zu nutzen.
Inzwischen kann man AOL auch ohne diese Software nutzen. Jedoch wird die AOL Software
weiterhin vermarktet, da sie eine gute Plattform für Internetneulinge darstellt.19
2.3.1.2. Analysefunktion
Die Wörterbücher aktueller Diktiersoftware sind selbsterweiternd, das heißt, es gibt eine
Analysefunktion, welche aus Dokumenten verschiedener Dateiformate einliest und nach
neuen Wortformen durchsucht. Diese werden dann einzeln oder im ganzen dem Wörterbuch
hinzugefügt. Es werden ASCII, RTF und HTML Dateien analysiert. Außerdem werden
Dokumente analysiert, die mit einem der Textverarbeitungsprogramme Word bzw. Word
Perfect oder mit einem der E-Mail Programme Outlook bzw. Lotus Notes erstellt wurden.
Wir geben eine kurze Beschreibung der oben aufgeführten und bisher noch nicht
beschriebenen Dateiformate bzw. Programme.
ASCII: ist ein amerikanischer Standard-Code für den Informationsaustausch; ASCII
beschreibt einen Sieben-Bit-Code. Dieser Code verwendet binäre Ganzzahlen, die mit sieben
binären Ziffern dargestellt werden (entspricht 0 bis 127), um Zeichen darzustellen.20
RTF: Das Rich Text Format ist ein Dateiformat für Texte, das von Microsoft eingeführt
wurde und zum Datenaustausch zwischen Textverarbeitungsprogrammen verschiedener
Hersteller dient.21
HTML: Die Hypertext Markup Language ist ein Dokumentenformat zur Auszeichnung
von Hypertext im World Wide Web.22
WordPerfect: ist ein Textverarbeitungsprogramm der Firma Corel für die WindowsBetriebssysteme ähnlich zu Microsoft Word.23
17
18
19
20
21
22
http://de.wikipedia.org/wiki/Internet_Explorer
http://de.wikipedia.org/wiki/Schreibtisch_%28EDV%29
http://de.wikipedia.org/wiki/AOL
http://de.wikipedia.org/wiki/ASCII
http://de.wikipedia.org/wiki/Rich_Text_Format
http://de.wikipedia.org/wiki/Html
Lotus Notes: ist ein Programmpaket der Firma IBM, in dem insbesondere ein E-Mail
Programm integriert ist.24
2.3.1.3. Training
Jeder Mensch spricht anders; um die Sprechweise des Benutzers zu analysieren und
Rückschlüsse auf seine Aussprache zu ziehen, erstellt die Diktiersoftware ein Profil jedes
Benutzers. Sie gibt dem Benutzer Trainingstexte vor, die er vom Bildschirm ablesen und ins
Mikrofon sprechen muss. Dabei soll der Sprecher klar und deutlich sprechen, das optimale
Ergebnis wird erzielt, wenn er sich die Nachrichtensprecher in Radio oder Fernsehen zum
Vorbild nimmt. Langsam oder laut zu sprechen verschlechtert das Ergebnis. Die
Trainingstexte zu lesen dauert zwischen 15 und 25 Minuten. Nach dieser kurzen Trainingszeit
ist das Ergebnis aber noch nicht wirklich praxistauglich. Daher muss das Training noch mit
anderen Texten wiederholt werden. Zudem muss das Training erneuert werden, wenn das
Headset gewechselt wird. Im folgenden Bild wird gezeigt, wie Dragon NaturallySpeaking
trainiert wird:
2.3.1.4. Headset
Ein wesentlicher Teil der Genauigkeit der Spracherkennung beruht darauf, dass das
Mikrofon sich immer im selben Abstand und an der selben Stelle des Mundwinkels befindet.
Ein stabiles Headset mit Störgeräuschfilter verbessert die Erkennungsrate, da die
Störgeräusche aus der Umgebung gar nicht mehr von der Spracherkennung verarbeitet
werden müssen. Im folgenden Bild wird gezeigt, wie der Benutzerassistent hilft, das
Mikrofon korrekt zu positionieren:
23
24
http://www.corel.com
http://www-306.ibm.com/software/lotus/
2.3.1.5. Fehlerkorrektur und Navigation
Der wichtigste Punkt bei der kontinuierlichen Verbesserung der Spracherkennung ist, das
Programm bei jedem Fehler zu korrigieren. Da man es mit einer Diktiersoftware zu tun hat,
möchte man die Fähigkeit der Spracherkennung ausnutzen um Korrekturen durchzuführen.
Mit höchstens 2 Befehlen möchte man das falsch erkannte Wort per Sprache ersetzen. Bei der
aktuellen Diktiersoftware wird diese Funktion mittlerweile unterstützt, um diese zu aktivieren,
braucht man zum Beispiel nur den Befehl „Korrigiere <Wort>“ auszusprechen, und es öffnet
sich ein Korrekturfenster. In dem Korrekturfenster werden mehrere Korrekturvarianten
angezeigt, per Sprachbefehl, etwa mit „nimm 2“, wird das fehlerhafte Wort durch das
ausgewählte Wort ersetzt.
Eine andere Funktion bieten die aktuellen Diktierprogramme ebenfalls, nämlich die
sprachgesteuerte Navigation. Per Sprache lässt sich die Cursorposition ändern oder eine
Menüoption auswählen.
2.3.2. Kommandosysteme
In diesem Kapitel lernen wir Kommandosysteme kennen, auch bekannt unter dem
englischen Begriff Command-and-Control-Systeme. Sie sind Systeme, die auf
Sprachbefehle ohne synthetische Sprachausgabe reagieren. Wir lernen einen Spezialfall der
Kommandosysteme kennen, die Sprechererkennung. Hier wird der Befehl nur ausgeführt,
wenn der Sprecher vom System erkannt wurde.
Kommandosysteme reagieren auf einfache gesprochene Befehle mit bestimmten Aktionen,
deshalb verfügen sie nur über einen kleineren Wortschatz. Diese Kommandos können z.B.
sein: „Öffne Datei“, „ja“, „nein“, ... . Wenn der Benutzer das Kommando „Exit“ ausspricht,
dann verhält sich das System so, als ob man mit der Maus die Option „Exit“ geklickt hätte.
Heutzutage finden wir sprachgesteuerte Systeme in der Diktiersoftware, dies haben wir
schon unter dem Stichwort Navigation kennengelernt. Außerdem gibt es Kommandosysteme
in Autos, Home-Entertainment und in den einzelnen Geräten wie Kaffeemaschine,
Klimaanlage, Spielzeug, Telefon, ... .
Für Autofahrer stellen Kommandosysteme eine sichere Bedienung dar, so sind sie nicht
abgelenkt, wenn sie das Radio, die Klimaanlage, das Telefon oder das Navigationssystem per
Sprache bedienen.
Zum Home-Entertainment zählen Fernseher, Radiogeräte, Videorecorder, CD-Player,
DVD-Player, etc. … . Sie lassen sich gemütlich auf dem Sessel sitzend per Stimme steuern,
die Lautstärke lässt sich regeln oder das gewünschte Lied wird abgespielt ohne sich die Mühe
zu machen, nach der richtigen Fernbedienung zu suchen.
Kaffeemaschine lässt sich ebenso per Sprache steuern, indem sie angeht ohne auf dem
Knopf zu drücken, leider muss man das Kaffeepulver selbst in den Filter einfüllen.
Wenn das Feature Sprachsteuerung bei Handys vorhanden ist, so lässt sich das Wählen der
gespeicherten Rufnummer ebenfalls durch das Aussprechen des jeweiligen Namens ersetzen.
2.3.2.1. Sprechererkennung
Sprechererkennung ist der Prozess automatisch auf Basis der individuellen Information,
die in der Stimme enthalten ist, zu erkennen, wer gerade spricht. Die Sprechererkennung kann
man
unterteilen
in
Sprecheridentifikation
und
Sprecherverifikation.
Die
Sprecheridentifikation entscheidet, wer aus einer vorgegebenen Menge von Sprechern gerade
spricht, die Sprecherverifikation hingegen stellt fest, ob der Sprecher derjenige ist, der er
vorgibt zu sein.
Bei der Sprechererkennung werden Sprechproben jedes Benutzers aufgenommen analysiert
und abgespeichert. Um einen Sprecher zu identifizieren, spricht er in ein Mikrofon, die
Anlage stellt anhand der Stimmenprofile fest, wer gerade spricht falls eine Übereinstimmung
vorliegt, andererseits wird er als Unbekannter erkannt.
Um einen Sprecher zu verifizieren, spricht er seinen Identifikationscode, zum Beispiel
seinen Namen, in ein Mikrofon. Die Anlage stellt fest, ob der Sprecher derjenige ist, der er
vorgibt zu sein.
Die geeignetsten Anwendungsbereiche für die Sprechererkennung liegen im telefonischen
Bereich. Sie kann der Kontrolle der Berechtigung bei finanziellen Transaktionen dienen oder
der Authentifikation bei telefonischen Dienstleistungen. Außerhalb des telefonischen
Bereichs liegt die wesentliche Anwendung dieser Technologie im Sicherheitsbereich.
Bei den Recherchen zu diesem Punkt sind wir gerade auf zwei bekannte Firmen gestoßen,
die Sprecherverifikationssoftware herstellen, nämlich Nuance und Scansoft. Es handelt sich
um die Programme Nuance Verifier, ScanSoft SpeechWorks und Scansoft SpeechSecure.
2.4. Software und Geräte mit eingebauter Spracherkennung
Wir haben bisher die Klassen der Spracherkennungssoftware kennengelernt und die
Einsatzmöglichkeiten der Diktiersoftware und der Kommandosysteme beschrieben. Wir
werden jetzt konkrete auf dem Markt befindliche Software und Geräte mit eingebauter
Spracherkennung vorstellen.
Im ersten Abschnitt geben wir die Ergebnisse der Recherchen über Diktiersoftware vor
allem für die deutsche Sprache wieder; diese Informationen stammen aus bekannten
Zeitschriften.
Im zweiten Abschnitt haben wir eine Liste von Handys zusammengestellt, die
Sprachsteuerung unterstützen, außerdem stellen wir Beispiele verschiedener Geräte mit
eingebautem Command-and-Control-System vor; diese Informationen stammen Zeitschriften
und aus dem Internet.
2.4.1. Diktiersoftware
In diesem Abschnitt stellen wir 6 Diktierprogramme vor, diese Informationen sind aus den
beiden bekannten Zeitschriften „test“ herausgebracht von der Stiftung Warentest und „com!“
entnommen.
Stiftung Warentest testete in [test, 1/2004, S. 38] alle diese Diktierprogramme, während in
der Zeitschrift [com!, 5/2004, S. 80] nur drei davon getestet wurden. Die Hersteller dieser
Software sind „Scansoft“, „Linguatec“ und „IBM“ die beiden letzten benutzen die gleichen
Spracherkennungs-/Sprachausgabe-Engines, während „Scansoft“ selbst entwickelte Engines
benutzt. Sie sind die einzigen auf dem Markt, die sich mit Diktiersoftware beschäftigen; alle
übrigen haben sich inzwischen zurückgezogen.
Wir werden eine Beschreibung des Tests von beiden Zeitschriften geben. Da aber die
Testergebnisse von „test“ relativ dürftig sind, werden nur die Ergebnisse der drei in beiden
Zeitschriften getesteten Produkte ausführlich kommentiert; dabei stammen einige Fakten über
die Diktierprogramme von den Internetseiten der entsprechenden Hersteller. Die Ergebnisse
aller Produkte werden abschließend in einer Tabelle am Ende dieses Abschnitts
zusammengefasst.
2.4.1.1. Beschreibung des Tests der Stiftung Warentest
Es wurden die folgenden sechs Diktierprogramme auf insgesamt 4 verschiedenen PCs mit
jeweils 256 MB RAM unter dem Betriebssystem Microsoft Windows XP Home getestet.
„Linguatec Voice Pro 10 USB-Edition“
„Dragon NaturallySpeaking Version 7 Preferred“
„IBM ViaVoice R10 Pro Edition“
„IBM ViaVoice Standard Edition Release 8.02“
„Dragon NaturallySpeaking Version 7 Standard“
„Voice Office Premium 10“
Bewertet wurden Spracherkennung und Handhabung; was wir darunter verstehen wollen,
ist in den folgenden zwei Punkten genauer beschrieben:
(1) Spracherkennung:
Um diese zu bewerten, wurden gezielt fünf Punkte herangezogen, nämlich die Art des
diktierten Textes, der Einfluss von Hintergrundgeräuschen, die Lernfähigkeit, die
Navigation und technische Prüfungen. Zum Testen der diktierten zehn Personen, darunter
zwei mit Dialekt, eine mit Akzent und ein Kind jeweils 3 Aufsatztexte, einen Geschäftsbrief
und ein Gedicht. Außerdem wurden mit vier Testpersonen weitere Tests zum Einfluss von
Hintergrundgeräuschen durchgeführt. Die Lernfähigkeit der Software wurde von vier
Testpersonen durch Korrigieren der aufgetretenen Fehler und wiederholtes Diktieren
ermittelt. Die Navigation per Spracheingabe testen drei Prüfpersonen in drei Programmen:
der Textverarbeitung Microsoft Word 2000, dem Browser Microsoft Internet-Explorer 6 und
dem E-Mail Programm Pegasus Mail 4. Bei den technischen Prüfungen untersucht die
Stiftung Warentest die Start- und Beendungsdauer sowie den Ressourcenbedarf auf der
Festplatte und im Hauptspeicher. Ferner beurteilen sie die Bearbeitungszeit, den
Speicherbedarf und die CPU-Zeit für eine vorgegebene Aufgabenstellung.
(2) Handhabung:
Unter diesem Stichwort werden drei Punkte geprüft und bewertet, nämlich die
Benutzerführung, Handbücher- und Hilfefunktionen, sowie Installation und
Deinstallation. Zur Beurteilung der Benutzerführung urteilten ein Fachmann und zwei
interessierte Laien über die Handhabbarkeit der Software, die Einheitlichkeit der Begriffe
und des Layouts, die Verständlichkeit von Fehlermeldungen, und die Übersichtlichkeit
der Bedienoberfläche. Ein Fachmann und ein interessierter Laie beurteilten die Handbücher
und die Hilfefunktion der Software. Installation und Deinstallation wurden ebenfalls
untersucht.
Die Bewertungen der obigen Punkte wurden in Form von Schulnoten vorgenommen und in
einer Tabelle zusammengefasst, aber nicht näher begründet. Die Tabelle befindet sich am
Ende des Abschnitts „Diktiersoftware“. Leider bleiben die diktierten Texte und die genaue
Art der Fehler unbekannt.
2.4.1.2. Beschreibung des Tests der Zeitschrift com!
Die ersten drei der sechs von der Stiftung Warentest getesteten Diktierprogramme wurden
auch von der Zeitschrift „com!“ getestet, jeweils eines von den drei Herstellern von
Diktiersoftware.
Es wurden zwei Testdurchläufe mit dem gleichen diktierten Text durchgeführt. Der erste
Testdurchlauf wurde mit dem mitgelieferten Headset durchgeführt, beim zweiten Test wurden
optimale Testbedingungen dadurch geschaffen, dass das spezielle Spracherkennungs-Headset
„DSP-100“ der Firma „Plantronics“ benutzt wurde und der diktierte Text zuvor der
Analysefunktion unterzogen wurde. Es wurden sieben Kriterien untersucht, und ein Text so
zusammengestellt, dass zu jedem mehrere Beispiele vorkommen. Es sind:
1. Groß-/Kleinschreibung bei persönlicher Anrede
2. phonetisch ähnliche aber semantisch unterschiedliche Wörter
3. Komposita (zusammengesetzte Wörter)
4. Besonders ausgefallene Deklination (Genitiv, ...)
5. Datum, Uhrzeit, Währung, Sonderzeichen, Internet- und E-Mail-Adresse
6. Manuell auf der Tastatur ausgeführte oder gesprochene Befehle
7. Fachvokabular (hier: juristische Terminologie)
Dabei wurde folgender Text vorgelesen; die Farbmarkierungen in diesem Text entsprechen
den obigen Kriterien:
Sehr geehrter Herr Müller,
<manuelle (händische) Zeilenschaltung >
wie Ihnen sicher bekannt ist, müssen Sie das Umtauschrecht auf jeden Fall in Anspruch
nehmen, indem Sie das Rücksendungspaket, in dem die Ware gut verpackt ist, spätestens nach
14 Tagen zur Post bringen und bei der Postschalterfiliale aufgeben. In Ihrem Falle wäre dies
der 25. März 2004. Achten Sie bitte bei der Rücksendung darauf, dass Sie sie mit 4,20 €
ausreichend frankieren.
<manuelle (händische) Zeilenschaltung >
Wir erhalten jeden Tag viele Räder zurückgeschickt. Ich kann Ihnen nur den Rat geben, dass
Sie das Rad gut verpacken, wobei die Verpackung des Fahrrads von Ihnen übernommen
werden muß!
<Zeilenschaltung gesprochen>
Wir erwarten dann Ihre Sendung spätestens am 1. April 2004 bis 16:00 Uhr. Weitere
Informationen bezüglich des Versandes erhalten Sie im Internet unter www.Informationen.de
oder über eine Email an [email protected].
<Absatzschaltung gesprochen>
Sämtliche juristischen Fragen sind in unseren AGBs beschrieben. Beachten Sie bitte
insbesondere §8 Abs. 7 zum Thema Schickschuld (siehe auch BGB §269) sowie die
Anmerkungen zum „Gewährleistungsrecht“ und der „Gefahrtragung beim Versand von
Artikeln“.
Es grüßt aus Münchens kaltem Norden
Tinte & Klecks GmbH
2.4.1.3. Ausführliches Testergebnis der Diktiersoftware
Im diesem Abschnitt werde ich eine Zusammenfassung aller Ergebnisse der Tests der
Diktierprogramme von der Zeitschrift „com!“ geben. Die am Ende eingefügte Tabelle stammt
aus der Zeitschrift „test“.
1. Linguatec Voice Pro 10 USB-Edition:
Dieses Programm arbeitet mit der IBM Via Voice
Spracherkennungs-Engine und benutzt als SprachausgabeEngine Via Voice Text-To-Speech. Es verfügt über ca. 1 Million
Wortformen, und kann durch Wörterbücher aus den Bereichen
Geschäftskorrespondenz, Computer, IT und Recht um 100.000
Einträge erweitert werden. Außerdem kann es durch die
Analyse von Word-, Rich Text (RTF)-, Ascii- und HTMLDokumenten erweitert werden. Die Software ist nur für die
deutsche Sprache erhältlich.
Es werden mehrere Anwendungen unterstützt, unter anderem Excel, Outlook, Word,
Desktop, AOL, Internet-Explorer und Speak Pad, sowie weitere Anwendungen ohne
Spezialfunktionen.
In dem com!-Test wurden alle Formen der Groß- und Kleinschreibung bei persönlicher
Anrede korrekt umgesetzt. Auch alle phonetisch ähnlich klingenden aber semantisch
unterschiedlichen Wörter sowie zusammengesetzte Wörter und ausgefallene Deklinationen
wurden richtig geschrieben. Schwierigkeiten hatte das Programm bei E-Mail- und
Internetadressen. Bei manuell auf der Tastatur ausgeführten oder gesprochenen Befehlen wird
bei Absätzen immer groß, und bei neuen Zeilen immer klein weitergeschrieben. Bei dem
Diktieren des Wortes „Gewährleistungsrecht“ als juristisches Fachwort wurde statt dessen
„Gewährleistungsfristen“ geschrieben. Durch Schaffung der „optimalen Bedingungen“ wurde
die Anzahl der Fehler von 9 auf 6 reduziert.
Die sprachgesteuerte Navigation im Dokument geschieht mit Hilfe ziemlich langer Befehle
und diese werden häufig nicht als Navigationsbefehle erkannt sondern ausgeschrieben. Die
Software bietet gute, aber etwas umständliche Korrekturfunktionen.
Ein qualitativ gutes Headset mit USB-Anschluß wird mitgeliefert. Es ist sehr solide
verarbeitet, drückt nicht beim Aufsetzen und hält den Abstand des Mikrofons.
2. Dragon NaturallySpeaking Version 7 Preferred:
Dieses Produkt ist mit der hauseigenen Dragon-Spracherkennungs-Engine
und mit der Scansoft Real Speak V2 Sprachausgabe-Engine ausgestattet. Es
verfügt über 1 Million Wortformen bei einem Grundwortschatz von 250.000.
Der Wortschatz kann durch die Analyse von Dokumenten verschiedenster
Formate erweitert werden, nämlich durch Word-, Word Perfect-, Rich Text
(RTF)-, Ascii- und HTML-Dateien sowie durch Dateien der beiden E-Mail-Programme Notes
und Outlook. Die Software ist für die Sprachen Deutsch und Englisch erhältlich.
Es werden mehrere Anwendungen unterstützt, unter anderem Excel, Outlook, Word,
Desktop, AOL, Internet-Explorer und Dragon Pad, sowie weitere Anwendungen ohne
Spezialfunktionen.
In dem com!-Test wurde deutlich, dass das Programm Schwierigkeiten bei der Groß- und
Kleinschreibung bei persönlicher Anrede hat; es schrieb „sie“ anstelle von „Sie“; dieses
Problem lässt sich leider nicht durch Training beheben, sondern nur dadurch, dass man z. B.
explizit „Groß Sie“ diktiert, damit „Sie“ statt „sie“ geschrieben wird. Bei den phonetisch
ähnlich klingenden aber semantisch unterschiedlichen Wörtern wurden die Unterscheidungen
nicht immer korrekt umgesetzt, wie bei „in dem“ und „indem“. Beide im Text vorkommenden
Komposita wurden richtig zusammengesetzt. Bei den ausgefallenen Deklinationen wurde
anstelle von „kaltem“ „kalten“ erkannt. Alle Sonderschreibweisen wie Datum, Uhrzeit,
Währung, Internetadresse und E-Mail-Adresse wurden korrekt umgesetzt. Bei manuell auf der
Tastatur ausgeführten oder gesprochenen Befehlen wird die Groß- und Kleinschreibung
anhand des vorangehenden Satzzeichens festgestellt. Bei dem juristischen Fachvokabular
wurde statt „BGB“ „DGB“ erkannt. Durch Schaffung der „optimalen Bedingungen“ wurde
die Anzahl der Fehler von 11 auf 5 reduziert.
Die Navigation innerhalb des Dokumentes kann an Hand von Zeichen, Wörtern, Zeilen
und Absätzen sehr exakt durchgeführt werden.
Ein analoges Headset von hohem Tragekomfort wird mitgeliefert, aber das Mikrofon ist
wackelig, und die Erkennungsrate hängt sehr stark von der Mikrofonposition ab.
3. IBM ViaVoice R10 Pro Edition:
Dieses Programm arbeitet wie „Linguatec Voice Pro 10“ mit der
IBM Via Voice Spracherkennungs-Engine
und der Via Voice
Sprachausgabe-Engine. Es besitzt die gleichen Fähigkeiten wie
„Linguatec Voice Pro 10“, nur auf zusätzliche Wörterbücher muss man
verzichten.
Trotz der Ähnlichkeit in den technischen Details war die Erkennung
nicht von der gleichen Qualität wie bei „Linguatec Voice Pro 10“. In
dem com!-Test hatte das Programm Probleme bei der Groß- und
Kleinschreibung bei persönlicher Anrede, es konnte „Sie“ und „sie“
nicht unterscheiden. Alle phonetisch ähnlich klingenden aber semantisch unterschiedlichen
Wörter wurden erkannt, aber die zusammengesetzten Wörter wurden nicht
zusammengezogen. Bei den ausgefallenen Deklinationen wurde „kalten“ statt „kaltem“
erkannt. E-Mail- und Internetadressen wurden falsch geschrieben. Bei manuell auf der
Tastatur ausgeführten oder gesprochenen Befehlen wird bei Absätzen immer groß, und bei
neuen Zeilen immer klein weitergeschrieben. Die juristische Fachterminologie wurde nicht
erkannt, sogar das Wort „Paragraf“ wurde ausgeschrieben und Absatz wurde nicht abgekürzt.
Durch Schaffung der „optimalen Bedingungen“ wurde aber die Anzahl der Fehler drastisch
von 15 auf 6 reduziert.
Die sprachgesteuerte Navigation im Dokument geschieht mit Hilfe ziemlich langer Befehle
und diese werden häufig nicht als Navigationsbefehle erkannt sondern ausgeschrieben. Die
Software bietet gute, aber etwas umständliche Korrekturfunktionen.
Ein Headset mit soliden Bügeln wird mitgeliefert. Es hat einen festen Sitz ohne zu
drücken. Leider ändert sich der Abstand des Mikrofons zu leicht.
In der folgenden Tabelle die
Diktierprogramme von „Warentest“:
Zusammenfassung
der
Ergebnisse
aller
sechs
Linguatec Voice Pro
10 USB-Edition
IBM ViaVoice R10
Pro Edition
Dragon
NaturallySpeaking
Version 7 Standard
Webadresse
www.linguatec.de
www.scansoft.de
www.scansoft.de
Aufsatz und
Geschäftsbrief
Gut
Gut
Befriedigend
Gedicht
Befriedigend
Befriedigend
Gut
Einfluss von
Hintergrundgeräuschen
Sehr gut
Sehr gut
Gut
Lernfähigkeit
Sehr gut
Gut
Gut
Navigation
Befriedigend
Befriedigend
Benutzerführung
Gut
Gut
Gut
Audiodatenimport
Ja
Ja
Nein
Ja
Ja
Nein
Ja
Ja
Nein
Recht, Wirtschaft,
Computer, IT
Recht, Wirtschaft,
Computer, IT,
Medizin
Nein
Ja
Ja
Ja
Ja
Ja
Ja
Ja
Ja
Nein
Windows 98 SE,
2000 (SP2), NT 4.0
(SP6), Me, XP Home
oder XP Professional
Windows
95/98/NT/XP Home
Windows 98 SE,
2000, NT 4.0 (SP6),
Me, XP Home oder
XP Professional
Nachträgliches
Abhören des Diktats
Speichern des
Diktats als
Audiodatei
Fachvokabular
mitgeliefert
Sprachgesteuerte
Mausbedienung
Sprachgesteuerte
Tastaturbedienung
Vorlesen mit
synthetischer
Stimme
Systemvoraussetzungen
Testergebnisse der Stiftung Warentest
Gut
Dragon
NaturallySpeaking
Version 7 Preferred
IBM ViaVoice
Standard Edition
Release 8.02
Voice Office
Premium 10
Webadresse
www.scansoft.de
www.scansoft.de
www.interlinx.de/
vo10xp.html
Aufsatz und
Geschäftsbrief
Befriedigend
Gut
Befriedigend
Gedicht
Befriedigend
Befriedigend
Befriedigend
Einfluss von
HintergrundGeräuschen
Gut
Sehr gut
Befriedigend
Lernfähigkeit
Ausreichend
Befriedigend
Sehr gut
Navigation
Gut
Ausreichend
Mangelhaft
Benutzerführung
Gut
Gut
Ausreichend
Ja
Nein
Ja
Ja
Ja
Ja
Nein
Ja
Ja
Nein
Nein
Wirtschaft
Ja
Nein
Nein
Ja
Nein
Ja
Ja
Ja
Ja
Windows 98, Me,
2000, XP
Windows 98 SE, NT
4.0 (Service Pack 6),
Windows 2000
(Service Pack 2), XP
Home/Pro
Audiodatenimport
Nachträgliches
Abhören des Diktats
Speichern des
Diktats als
Audiodatei
Fachvokabular
mitgeliefert
Sprachgesteuerte
Mausbedienung
Sprachgesteuerte
Tastaturbedienung
Vorlesen mit
synthetischer
Stimme
Systemvoraussetzungen
Windows 98 SE,
2000, NT 4.0 (SP6),
Me, XP Home oder
XP Professional
Testergebnisse der Stiftung Warentest
2.4.2. Geräte mit Sprachsteuerung
Wir haben im ersten Abschnitt Kommandosysteme kennengelernt, die in der
Diktiersoftware integriert sind. Jetzt wollen wir andere Kommandosysteme vorstellen, die
nicht auf einem Computer laufen; diese Informationen über die aufgeführten Geräte stammen
von dem Link www.dynamic-living.com.
•
Voice Dialer ist ein Gerät, das an jedes Telefon angeschlossen werden kann. Er
speichert bis zu 50 Namen und man muss nur den Hörer abnehmen und den
gewünschten Namen aussprechen, der Voice Dialer wählt dann die entsprechende
Rufnummer, eine solche Funktion gibt es bei Handys und wird Sprachwahl genannt.
•
Der stimmen-aktivierbare Dimmerschalter (Voice Activated Dimmer Switch) lässt
sich per Sprache steuern, um die Elektrizität für die Lampe zu regulieren.
•
Die stimmen-aktivierbare Home-Entertainment Fernbedienung Accenda, mit
dieser Fernbedienung kann man den Fernseher und die Hifi-Anlage per Stimme
ein/ausschalten, Programme wechseln und die Lautstärke ändern.
Eine große Auswahl an Geräten mit Sprachsteuerung gibt es in dem Bereich der Handys.
Bei den Handys unterscheidet man zwischen den beiden Funktionen Sprachwahl und
Sprachsteuerung. Das Feature Sprachwahl dient ausschließlich dazu, gespeicherte
Rufnummern per Sprache zu wählen. Bei der Sprachsteuerung hingegen gibt es mehr
Funktionen zur Auswahl, die man per Sprache ausführen lassen kann. Die in der Tabelle
aufgezählten Handys besitzen alle eine Sprachwahl, nur einige davon besitzen auch eine
Sprachsteuerung.
Handy
Sprachsteuerung
Alcatel One Touch
LG-G5400
LG-G7050
Motorola C450
Motorola E365
Motorola MPx200
Motorola V150
Motorola V600
Nokia 3660
Nokia 6220
Nokia 6600
Nokia 6820
Nokia 7600
Nokia N-Gage
Panasonic G51M
Panasonic X70
Philips 350
Philips 530
Ja
Nein
Nein
Nein
Nein
Ja
Nein
Nein
Nein
Ja
Ja
Ja
Ja
Nein
Ja
Nein
Ja
Ja
Handy
Sprachsteuerung
SendoX
Siemens MC60
Siemens SL55
Siemens ST60
Siemens SX1
Siemens U15
Sonyericsson T610
Sonyericsson T630
Sonyericsson Z600
Sonyericsson K700I
Motorola E 398
Ja
Ja
Ja
Ja
Ja
Nein
Ja
Ja
Ja
Nein
Ja
Handy mit Sprachwahl
2.5. Zusammenfassung
In diesem Kapitel haben wir eine Einführung in die Spracherkennung (ASR) gegeben,
dabei unterscheidet man zwischen sprecherunabhängiger und sprecherabhängiger Erkennung.
Außerdem haben wir die Probleme näher kennengelernt, die bei der Spracherkennung
auftreten und deren Einfluss auf die Erkennungsqualität. Dann haben wir einige
marktführende Spracherkennungs-Engines vorgestellt.
Die Spracherkennungssoftware wird in zwei Kategorien unterteilt, Diktiersoftware und
Kommandosysteme. Bei den Recherchen über Diktiersoftware haben wir festgestellt, dass es
sowohl online als auch in den Fachzeitschriften immer um die selben drei Hersteller geht. Zu
jedem aktuellen Diktierprogramm wird ein Headset mitgeliefert, dessen Qualität einen großen
Einfluss auf die Erkennungsrate hat. Bei einem Wechsel des Headsets muss das Programm
von neuem trainiert werden, um ein Profil des Sprechers anzulegen. Von großer Bedeutung
für die Erkennung ist die Größe des Wörterbuchs, daher wurde eine Analysefunktion
integriert, die das Wörterbuch um neue Wörter ergänzt. Um die Erkennungsrate weiter zu
steigern, wird eine Korrekturfunktion angeboten, die bei fehlerhaft erkanntem Wort
aufgerufen werden soll, um das falsche Wort entweder per Sprachbefehl oder manuell zu
ersetzen. Außerdem haben wir die von der Diktiersoftware unterstützten Programme
vorgestellt.
Des weiteren haben wir zwei Testberichte über auf dem Markt befindliche Diktiersoftware
zusammengefasst. Es sind die einzigen ausführlichen Tests, die wir gefunden haben. Die
Beschreibung des Tests und der Ergebnisse in „com!“ ist präzise; der Leser wird auf alle
Punkte, die die Erkennungsrate verbessern, aufmerksam gemacht. Der Diktiertext und die
aufgetauchten Fehler wurden veröffentlicht, so dass man sich selbst ein Bild über die
Brauchbarkeit der Software machen kann, allerdings ist uns nicht klar, ob nur eine oder
mehrere Personen den Test durchgeführt hatten.
In „test“ wurden die Testbedingungen für die einzelnen Bewertungskriterien wie z.B.
Lernfähigkeit, Einfluss von Hintergrundgeräuschen und Navigation genau erklärt und die
Ergebnisse in einer Tabelle kurz zusammengefasst, jedoch erhält man keinen Einblick
darüber, wie die Endbewertung entstand. Außerdem fehlen viele Detailinformationen über die
Bedienung der Software, so dass man sich keine Vorstellung machen kann, wie zum Beispiel
die Korrekturfunktion bedient werden kann.
Anhand des „com!“ Tests könnte man die Leistungsfähigkeiten der Programme beurteilen,
wenn man wie der/die Tester sprechen würde, man kann nämlich nicht herausfinden, ob eines
der sechs Programme geeignet ist, wenn man mit Akzent oder undeutlich spricht, obwohl
dieser Aspekt bei „test“ berücksichtigt wurde.
Wir widmeten in diesem Kapitel einen Abschnitt den Kommandosystemen, dort haben wir
ein paar Geräte aus dem Bereich Home-Entertainment, Telefonie und Haushalt vorgestellt,
die per Stimme gesteuert werden können. Wir sind in unserem Recherchen auf keinen
öffentlichen Test oder auf unabhängige Meinungen gestoßen außer an Werbung der
Vertreiber der Geräte.
Uns wunderte bei der Recherchen, dass dem Feature Sprachsteuerung bei Handys nicht
mehr Aufmerksamkeit gewidmet wird, sondern eher integrierten Mp3-Playern, Kameras, der
Anzahl der Farben auf dem Display und Spielen …. Es liegt daran, dass die Kunden diese
Features verlockender finden als die Sprachsteuerung.
3. Sprachsynthese
In diesem Kapitel wollen wir auf die Sprachsynthese, die man von der Wiedergabe
aufgezeichneter natürlicher Sprache unterscheiden muss, näher eingehen. Die synthetische
Sprachausgabe wird oft auch Text-To-Speech genannt. Die eigentliche Synthetisierung der
Strings wird von der Text-To-Speech-Engine (kurz TTS-Engine) durchgeführt. Im ersten
Abschnitt werden wir den Ablauf der Sprachsynthese erläutern und dabei einige Probleme
kennenlernen, die bei der Umwandlung von Text zur Sprache auftauchen. Im zweiten
Abschnitt stellen wir einige Einsatzmöglichkeiten von TTS vor. Im dritten Abschnitt stellen
wir alle populären Dateiformate vor, die von TTS-Engines erzeugt werden, und im vierten
Abschnitt haben wir Tabellen erstellt, welche die TTS-Engines für PCs und Endgeräte sowie
TTS-Software umfasst, die sich auf dem Markt befinden.
3.1. Ablauf der Sprachsynthese
Prinzipiell gibt es zwei Möglichkeiten, Sprache auf einem Gerät auszugeben. Erstens durch
Abspielen aufgenommener Audio-Dateien und zweitens durch Umwandlung von Texten,
auch Strings genannt, in gesprochene Sprache. Das Erzeugen von gesprochener Sprache aus
Strings nennt man auch Sprachsynthese, und die zugehörige Software wird auch
Text to Speech-Engine (TTS-Engine) genannt.
Man kennt drei wesentliche Methoden zur Sprachsynthese: Die artikulatorische
Synthese, die Formantsynthese und die konkatenative Synthese. Die artikulatorische
Synthese basiert auf der Idee, die biologischen Teile der zum Sprechen benutzten Organe
nachzubilden. Das Verhalten von Stimmbändern, Gaumen, Zunge, Zähnen, Lippen etc. wird
in einer Datenbank abgespeichert, und bei der Sprachsynthese wird die Stellung der
beteiligten Muskeln berechnet und der daraus resultierende Effekt der lauterzeugenden
Komponenten simuliert. Die artikulatorische Synthese steckt noch in den Anfängen und sie
benötigt noch einen hohen Rechenaufwand.
Die meisten TTS-Systeme arbeiten mit der Formantsynthese. Diese benötigt nur einen
geringen Rechenaufwand, und führt zu klar verständlichen Ausgaben, die aber leicht als
Computerstimmen erkennbar sind. Jedes Phonem (Laut) hat eine charakteristische Anhäufung
von Frequenzen und deren Energie in bestimmten Bereichen; diese Charakteristika heißen
Formante. Mit Hilfe einer kleinen Datenbasis werden die bekannten Formante ausgesucht und
in den entsprechenden synthetischen Laut umgewandelt.
Die konkatenative Synthese umgeht das Problem der Formantsynthese dadurch, dass sie
die Bausteine für die Synthese von einem Menschen sprechen lässt und diese Bausteine in
einer Datenbank ablegt und beim Vorlesen wieder passend zusammengesetzt. Bei diesen
Bausteinen handelt es sich um Phoneme, Silben, Phonemübergänge, Silbenübergänge und
Halbsilben. Je genauer und umfangreicher dieser sogenannte Sprachkorpus ist, desto
natürlicher klingt die Stimme. Durch die Verwendung der natürlichen Bausteine ist die
konkatenative Synthese den beiden anderen Verfahren überlegen.
Bevor aber ein Text von einer TTS-Engine vorgelesen werden kann, muss der Text
zunächst vorbearbeitet werden. Dieser Schritt heißt auch Präprozessing. Dabei werden
Zahlen, Sonderzeichen, etc. in Text konvertiert. Nur wenn dieses Präprozessing erfolgreich
durchgeführt wird, kann die TTS-Engine gute Resultate liefern. Es zeigt sich, dass teilweise
die gleichen Probleme auftauchen wie bei der Spracherkennung. Beim Testen der TTS-
Engines in Kapitel 5 haben wir gezielt Beispiele ausgesucht, um die Qualität der Engines in
dieser Richtung hin zu untersuchen.
3.1.1. Linguistische Probleme
Das System muss linguistische Kenntnisse besitzen, da es entscheiden muss, ob der „3.4.“
in dem vorzulesenden Text als „dritter April“ oder als „Absatz 3, Punkt 4“ zu verstehen ist.
3.1.2. Komposita
Insbesondere in der deutschen Sprache gibt es viele zusammengesetzte Wörter. Daher
muss die Engine in der Lage sein diese Worte richtig auszusprechen, obwohl sie oft nicht in
ihrem Wörterbuch vorhanden sein werden. So soll es keinem Anwender zugemutet werden,
beim Hören des Wortes “Blumen-to-pferde” oder des Wortes “Blu-men-to-pferde”
herauszufinden, dass das eigentlich geschriebene Wort “Blumen-topf-erde” ist.
3.1.3. Sonderschreibweisen
Gerade beim Vorlesen von E-Mails tauchen viele Sonderzeichen wie www Links oder EMail Adressen auf. Da erwartet man, dass „@“ bzw. „.“ in der E-Mail Adresse als „at“ bzw.
“Punkt“ vorgelesen und nicht einfach ignoriert wird.
3.2. Einsatzbereiche von Text to Speech
TTS kann in verschiedenen Anwendungen auf dem Computer eingesetzt werden, wie zum
Beispiel Reader, Diktiersysteme, Spiele und Lernprogramme, und Intelligente Agenten. Aber
auch außerhalb des Computerbereichs, zum Beispiel im Automobilbereich, oder bei
telefonischen Auskunftssystemen und Informationskioske ist TTS im Einsatz.
• TTS kann benutzt werden, um Reader Software herzustellen, die Texte, E-Mails,
Webseiten, News Artikel und jede andere Art von Text vorliest.
• TTS wird auch in Diktiersystemen eingebaut; hier kann es als Korrekturhilfe dienen,
indem die eingegebenen Texte wieder vorgelesen werden.
• Spiele und Lernprogramme werden durch die multimediale Aufbereitung mit TTS
interessanter, da die Aussprache exakt auf den Charakter und die augenblickliche Situation
der Stimmen zugeschnitten werden kann.
• Wenn der Anwender sich auf seinem Computer einloggt, wird er von einem
Intelligenten Agenten begrüßt. Der Agent betreut auf Wunsch den Anwender den ganzen
Tag, er kann an wichtige Termine per Sprache erinnern, oder auf die Ankunft neuer
Nachrichten hinweisen. TTS kann dabei nicht nur die Stimme des Agenten zur Verfügung
stellen, sondern auch die notwendigen Daten, damit das Gesicht des Agenten realistisch
aussieht, wenn er spricht.
• Im Automobilbereich wird TTS ebenfalls benutzt, um dem Fahrer Informationen zu
übermitteln, so dass dieser die Straße immer im Auge behalten kann. Dies ist insbesondere bei
Navigationssystemen sehr sinnvoll.
• Da auf Flughäfen oft eine Auskunft in der Muttersprache des Passagiers wünschenswert
ist, wird in dieser Situation TTS als Informationskiosk sinnvoll eingesetzt.
• TTS ist in Auskunftssystemen eingebaut, wie zum Beispiel Fernsprechauskunft oder
Fahrplanauskunft. So kann sich der Kunde telefonisch informieren, diese Informationen
werden aus einer Datenbank geholt und anschließend per TTS vorgelesen. Genaueres zu
diesem Punkt im nächsten Kapitel.
3.3. Audio-Fileformate für Text to Speech
Text to Speech wandelt Geschriebenes in ein Audiofile um, manche Engines können
verschiedene Audioformate ausgeben, die bekanntesten sind:
•
WAV
Das WAV-Format (eigentlich RIFF WAVE) kann man als die unkomprimierte
Aufzeichnung von Sound Files betrachten und ist das wohl wichtigste der unkomprimierten
der Audio-Formate, insbesondere in der Windows-Welt. 25
• AIFF
Das AIFF-Format (Audio Interchange File Format) ist ein von Apple und SGI für den
Sound-Manager der Macintosh-Rechner entwickeltes Format.26
• AU
Das AU-Format wurde von NeXT und Sun entwickelt; in diesem Format kann man die
Audiodaten sowohl komprimiert als auch unkomprimiert abspeichern; dieses Format ist in der
Unix-Welt verbreitet.27
• MP3
MPEG-1 Audio Layer 3, bekannt unter dem Namen MP3 ist ein populäres
verlustbehaftetes komprimiertes Audioformat, das im Jahr 1991 von einem Team des
Frauenhofer Instituts entwickelt wurde28.
3.4. Text to Speech-Engines und Reader-Software
In der folgende Tabelle haben wir einige TTS-Engines aufgeführt; alle diese Informationen
stammen von den Webseiten der entsprechenden Hersteller. Die Firma Mindmaker stellt nur
ein Abspieldemo in englisch und ungarisch zur Verfügung. Alle übrigen Hersteller hingegen
stellen ein Web-Interface zur Verfügung, in dem man die Sprache und einige andere Optionen
wie zum Beispiel die Stimme oder die Tonhöhe auswählen kann. Anschließend kann man
einen deutschen oder englischen Text in ein Formular eingeben, und dieser Text wird
entweder vorgelesen oder es wird ein WAV-File produziert und zurückgeschickt. In einigen
Fällen sind auch andere Sprachen möglich. Eine genauere Analyse dieser TTS-Engines haben
wir in Kapitel 5 durchgeführt.
Hersteller
Engine
Output Format
AT&T
AT&T Natural
Voices29
WAV, Au, Aiff, Basic
Elan Speech
Sayso30
WAV, DirectX (SAPI4),
MCI, Memory buffer, MP3
Fonix
DECtalk 5.0
WAV
25
http://de.wikipedia.org/wiki/WAV_(Format)
http://de.wikipedia.org/wiki/Audio_Interchange_File_Format
27
http://en.wikipedia.org/wiki/Au_file_format
28
http://en.wikipedia.org/wiki/MP3
29
http://www.naturalvoices.att.com/demos/
30
http://sayso.elan.fr/interactive_va.asp
26
System
Windows NT, 2000, XP;
Linux 6.1, 6.2, 7.2
Windows 95, 98, NT4,
2000, ME, XP;
Mac OS X
Windows, Linux, Solaris
Hersteller
Engine
Output Format
System
Loquendo
Loquendo31
WAV
Mindmaker
FlexVoice 332
WAV
Nuance
Realspeak Solo 4.0
WAV
Nuance
rVoice
WAV
Nuance
Speechify
WAV
Nuance
Vocalizer 4.0
WAV
Babel
Technologies
Babel
Technologies
Infovox
Bright Speech
1.2 33
WAV, SUN, PCM, a-law,
µ-law, ADPCM
Windows 2000, Linux, Sun
Solaris
Windows 98 SE, NT, 2000,
XP
Babil 4.134
WAV, SUN, PCM, a-law,
µ-law, ADPCM
Windows 98 SE, NT, 2000,
XP; Linux
Cepstral
Cepstral Voices35
WAV
Acapela
group
Acapela
multimedia36
WAV, PCM
Neo Speech
Voice Text37
WAV, PCM, ADPCM, 8bit a-law/µ-law
Svox
Svox
WAV
Logox
Logox 4
WAV
Windows NT, 2000, XP,
98, ME; Linux; Sun Solaris
Windows (Microsoft SAPI
4.0/5.0, proprietary
interfaces), Linux
Windows 98, NT4,
2000, ME, XP
Windows NT, 2000, 2003,
XP; Linux; Sun Solaris
Windows, Linux, Mac OS
X, Sparc Solaris
Windows 98SE, NT4SP6,
2000SP3, Me, XP, Mac
OSX.2 und höher
Windows 98, NT 4.0, 2000,
XP
Windows, Linux, Solaris,
Macintosh
Windows 95, 98, ME, NT,
2000, XP
Liste der TTS-Engines für PC
Vier der obigen TTS-Engine Hersteller stellen auch TTS-Engines für Endgeräte zur
Verfügung. Auch diese Engines sind für die deutsche, englische und weitere Sprachen
erhältlich. Sie werden zusammen mit den Systemvoraussetzungen in der nächsten Tabelle
aufgelistet.
31
http://www.loquendo.com/de/demos/demo_tts.htm
http://www.flexvoice.com
33
http://www.babeltech.com
34
http://www.babeltech.com
35
http://www.infovox.se
36
http://www.acapela-group.com/products/products.asp
37
http://www.neospeech.com/demo/demo_text.php
32
Hersteller
Engine
System
Babel Technologies
Infovox
PocketBabil 3.5
Acapela group
Acapela Mobility
Cepstral
Cepstral Voices
Windows CE
Neo Speech
Voice Text
Windows CE 2.0 und 3.0, Pocket
PC 2002
Nuance
Realspeak Solo 4.0
Pocket PC 2003, Windows CE 3.0
Svox
Svox
Windows CE
Logox
Logox 4
Windows CE
Windows CE: Pocket PC, HPC,
Auto PC; Linux
Pocket PC 2002, Windows Mobile
2003, Symbian, Palm OS
Liste der TTS-Engines für Endgeräte
Wir haben exemplarisch 4 Vorleseprogramme aus dem Web ausgewählt, die sich aber in
der Funktion unterscheiden:
Digit 1.0 ist ein sogenannter Clipboard Reader, das heißt, er liest den Inhalt des Puffers
vor.
Hingegen liest Lesefix 5.12 insbesondere pdf, doc, html und eml-Dateien vor; die emlDateien sind Dateien, die von dem E-Mail Programm Outlook Express angelegt werden.
Logox 4 Professional ist eine Sammlung von Plugins für Outlook, Word, Excel und den
Internet Explorer.
Während die vorherige Software in der Windows Welt beheimatet ist, wurde
Speechissimo 1.1 speziell für MacOS entwickelt, und liest alle Arten von Texten vor.
Da in Vorleseprogramme kaum sinnvolle Features eingebaut sind, wird die Qualität eines
Programms von der eingebauten Engine bestimmt. Außerdem wurden keine Tests in den
Zeitschriften und im Internet veröffentlicht, daher gehen wir nicht näher auf die
Vorlesesoftware ein.
Produkt
Hersteller
System
Digit 1.038
LesefixPro 5.1239
Elan Speech, KinderleichtsoftDigalo
ware
Windows 95 bis Windows NT,
XP
2000, XP
Speechissimo
1.140
Elan Speech,
Digalo
Logox 4
Professional41
Gdata
Mac OS X 10.2
Windows 95
bis XP
Benutzerführung
English
Deutsch
English
Deutsch
Mitgelieferte
Stimmen
Männlich/weiblich
1/1
1/1
-/1
3/7
Engine
SaySo
TTS3000
SaySo
Microsegment
-synthesis
Vorleseprogramme
3.5. Zusammenfassung
In diesem Kapitel haben wir drei Methoden zur Sprachsynthese beschrieben, die
artikulatorische Synthese, die konkatenative Synthese und die Formantsynthese. Dabei
ist die letztere Methode diejenige, die aktuell Verwendung findet. Ferner haben wir die
Probleme geschildert, die bei der Umwandlung von Text in Sprache auftauchen. Die Sprache
wird in speziellen Dateiformaten angelegt, die wir im dritten Abschnitt beschrieben haben.
Ebenfalls haben wir Einsatzmöglichkeiten des TTS-Konzepts beschrieben; es ist
typischerweise in eine andere komplexere Anwendung integriert, wie zum Beispiel in einen
Informationskiosk oder ein Auskunftssystem oder auch eine Anwendung aus dem
Automobilbereich. Bei diesen komplizierteren Anwendungen haben wir leider keinen
„Zugriff“ auf den TTS-Teil des Systems. Die am einfachsten zu handhabende Anwendung
von TTS ist der Reader. Hier braucht der Anwender nur einen „Play-Knopf“ zu klicken, und
das Programm liest das Dokument oder den markierten Teil vor.
Einige ausgewählte Reader und TTS-Engines haben wir in verschiedenen Tabellen im
vierten Abschnitt zusammengefasst. Dank der Hersteller der meisten TTS-Engines konnten
wir durch Demos auf ihren Webseiten einen Eindruck von der Qualität der Engines gewinnen.
Eine ausführliche Analyse befindet sich in Kapitel 5.
38
http://www.lencom.com/desc/indexN2615.html
http://www.kinderleichtsoftware.de/lesefixpro.htm
40
http://www.speechissimo.com/
41
http://www.gdata.de/trade/productview/123/5/
39
4. Aufbau und Nutzen der Sprachdialogsysteme
Wer hat es noch nicht erlebt, bei einem Call Center anzurufen und ständig das
Besetztzeichen zu hören, und sich noch nicht die Frage gestellt: Warum gibt es denn kein
System, das meinen Anruf wenigstens entgegennimmt und mich dann zu einem geeigneten
Gesprächspartner weiterleitet? Oder besser noch: Warum gibt es kein „intelligentes“ System,
das meine Anfrage beantwortet? Ein klassisches System, das die Anrufe entgegennimmt und
gegebenenfalls weiterleitet, heißt Interactive Voice Response (IVR) System. Die
Fähigkeiten der IVR-Systeme wurden in der Zwischenzeit so stark erweitert, dass man auch
den Namen in Sprachdialogsystem oder auch Voice Portal änderte. Das erste Voice Portal
wurde 1996 von der Firma BellSouth eröffnet und wurde Val genannt.42 Ein Voice Portal
oder auch Sprachportal oder Sprachdialogsystem ist ein System, bei dem man mit
Computern in normaler Sprache fast wie mit einem Menschen sprechen kann.
Im ersten
kennenlernen.
Abschnitt werden wir Sprachdialogsysteme und deren Vorgänger
Im zweiten Abschnitt beschreiben wir den inneren Aufbau eines Sprachdialogsystems
und den Zusammenhang mit der Entwicklungssprache VoiceXML, und wir stellen
Unternehmen und deren Produkte vor.
Im dritten Abschnitt behandeln wir noch einen wichtigen Punkt der Sprachübertragung
mittels Internet Protokoll, das ist Voice over Internet Protocol (VoIP).
4.1.
Sprachdialogsysteme
Wenn man zum Beispiel bei einer Bank eine telefonische Transaktion durchführen möchte,
ruft man die Bank an, und wird mit einem speziellen Computer verbunden; dieser Computer
präsentiert dem Anrufer per Ansage verschiedene Optionen, und jeder Option wird eine
Telefontaste zugeordnet. Der Anrufer wählt die gewünschte Option, indem er die
entsprechende Taste auf seinem Telefon betätigt. Für jede Taste wird ein bestimmter Ton an
den Computer gesendet. Dieses Verfahren heißt Dual Tone Multifrequency (DTMF) oder
informell Touch Tone. Dieses Verfahren wird bei Banken, Call Centern oder TED-Diensten
eingesetzt.
Eine fortgeschrittenere Technologie als DTMF ist das Interactive Voice Response
System (IVR). Dieses System reagiert auch auf einzelne gesprochene Worte wie „Ja“ und
„Nein“, …. IVRs werden oft in Call Centern eingesetzt, nehmen Anrufe entgegen und leiten
sie an den richtigen Berater weiter. IVR-Systeme haben Vor- und Nachteile; sie sind
kostengünstiger als der Einsatz menschlicher Telefonisten, und Leistungsspitzen, wie sie
beispielsweise nach Werbespots auftreten, können effizient bearbeitet werden. Die Nachteile
hingegen sind die geringe Benutzerakzeptanz und die hohen Entwicklungskosten für diese
Systeme.
Erweiterte IVR-Systeme, die mehr Funktionalitäten anbieten, nämlich Spracherkennung
und Text-To-Speech, können in einen natürlichsprachlichen Dialog mit dem Anrufer treten.
Dieses intelligente IVR-System heißt natürlichsprachliches Dialogsystem (NDS). Geläufig
sind auch die Namen Voice Portal, Sprachportal und Sprachdialogsystem.
42
www.dragon-medical-transcription.com/historyspeechrecognitiontimeline.html
Ein natürlichsprachlicher Dialog mit einer Bank zum Zwecke des Aktienkaufs könnte zum
Beispiel folgendermaßen aussehen:43
NDS: Herzlich willkommen bei der Rendite-Bank. Was kann ich für Sie tun?
Anrufer: Ich möchte gerne 100 Aktien von DaimlerChrysler kaufen.
NDS: Um Aktien von DaimlerChrysler zu kaufen, sagen Sie mir bitte Ihre Kundennummer
oder geben Sie diese auf Ihrer Tastatur ein.
Anrufer: Zwanzig, neunzehn, vier, drei, acht.
NDS: Nun benötige ich bitte noch Ihre Geheimzahl. Wenn Ihnen jemand zuhören kann,
benutzen Sie besser die Tastatur.
Anrufer: [Gibt die Ziffernfolge der Geheimzahl auf der Telefontastatur ein.]
NDS: Herr Meyer, ist es richtig, dass sie jetzt 100 Aktien von DaimlerChrysler kaufen
möchten?
Anrufer: Ja, bitte.
NDS: Dann benötige ich noch eine gültige TAN von Ihnen.
Anrufer: [Gibt eine TAN auf der Telefontastatur ein.]
NDS: Vielen Dank. Ihr Auftrag wurde entgegengenommen und wird schnellstmöglich an
der Börse ausgeführt. Was kann ich noch für Sie tun?
Anrufer: Vielen Dank, das war’s erst mal. Auf Wiederhören.
NDS: Auf Wiederhören, Herr Meyer.
Bei dem Entwurf und der Entwicklung eines NDS muss viel Wert auf das Dialogdesign
gelegt werden. Ein wesentlicher Punkt ist: Die Dialoge sollen kurz und einfach sein, damit
sich der Anrufer die Menüpunkte merken kann. Außerdem muss sich das NDS dem
Erfahrungsgrad des Anrufers anpassen können. Genaueres zum Dialogdesign findet man in
Abschnitt zwei.
4.1.1. Einsatzbereich von NDS
NDS werden hauptsächlich in Bereichen eingesetzt wie Auskunfts-, Reservierungs- und
Buchungssystemen bei Börsen, Versandhandel, Banken, Hotels, Versicherungen etc.
Außerdem finden wir NDS in FAQ-Systemen und bei der Weitervermittlung von Anrufern in
Telefonzentralen. Man wird auch mit einem NDS verbunden, um die Zugangskontrolle zu
persönlichen Daten zu gewährleisten, wie bei E-Mail-Anfragen, oder auch Konto- und
Depotinformationen.
4.1.2. Nachteile und Vorteile von NDS
Der einzige Nachteil von NDS ist der hohe Aufwand, der bei der Entwicklung eines neuen
Designs und einer neuen Programmierung des Dialogs getrieben werden muss. Im Vergleich
dazu haben sie mehrere Vorteile44
43
44
VoiceXML 2.0, S. 43
VoiceXML 2.0
•
•
•
•
•
•
NDS sparen im Vergleich zu Call Centern 90 % der Kosten.
Leistungsspitzen zum Beispiel nach Werbespots können kostengünstig bearbeitet
werden.
Bis zu 70 % der Anrufe in Call Centern können ohne zusätzliches Personal
abgearbeitet werden.
24 Stunden Service kann ohne zusätzliche Kosten und ohne behördliche
Genehmigung angeboten werden.
NDS sind immer freundlich.
Die Servicequalität ändert sich nicht und muss somit nicht kontrolliert werden.
4.2. Entwicklung von NDS Applikationen mittels VoiceXML
Der hohe Entwicklungsaufwand bei der Erstellung einer NDS Applikation kann durch den
Einsatz einer geeigneten Programmierumgebung erträglich werden. Eine geeignete
Programmiersprache dafür ist Voice XML. VoiceXML bedeutet ausgeschrieben Voice
Extensible Markup Language (VXML), sie ist eine spezialisierte Auszeichnungssprache,
die von der Sprache XML abgeleitet wird. Die Metasprache VXML dient der Erstellung von
Dokumenten, auf die man über Internet Browser zugreifen kann.
Die Gründungsmitglieder des VXML Forums sind die bekannten Firmen AT&T, IBM,
Lucent Technologies und Motorola. Sie haben im Jahr 2000 die Version 1.0 von VXML
verabschiedet. Die Weiterentwicklung von VXML wurde im Jahre 2000 an das W3C
übergeben und im Jahre 2003 wurde eine Empfehlung für die Version 2.0 von VXML
abgegeben. 45
In dieser Empfehlung lautet der erste Absatz etwa: VXML wurde entwickelt für die
Erstellung von Audio Dialogen unter Verwendung von synthetisierter Sprache, AudioDateien, Erkennung von Sprache und DTMF-Eingaben, Aufnahmen gesprochener Sprache,
Telefonie-Steuerung und gemischt-initiativen Dialogen. Das wichtigste Ziel ist es, die
Vorteile
webbasierter
Entwicklung
und
Content-Lieferung
für
interaktive
Sprachapplikationen verfügbar zu machen.
Im Bereich der Telefonie-Steuerung bietet VXML nur zwei Möglichkeiten: das Beenden
und das Weiterleiten eines Telefonats. Unter gemischt-initiativen Dialogen versteht man
Dialoge, die nicht streng nach den Vorgaben des Computers verlaufen; auch der Anrufer kann
die Initiative übernehmen und etwas äußern und das natürlichsprachliche Dialogsystem NDS
richtet sich danach. Auf das Design gemischt-initiativer Dialoge werden wir in 4.2.1 näher
eingehen.
Damit unterstützt VXML die wesentlichen Funktionalitäten, die für eine moderne NDSApplikation notwendig sind.
4.2.1. Design gemischt-initiativer Dialoge
Die Programmierer bemühen sich bei der Entwicklung eines gemischt-initiativen Dialogs
auf die Wünsche der Anrufer bzw. Kunden einzugehen, um sie so weit wie möglich
zufriedenzustellen. Daher versuchen sie die Dialoge zu optimieren, indem sie die folgenden
Punkte beachten:
45
www.voicexml.org
Kürzere Ansagen mit viel Interaktion in den Dialog einbinden, damit der Anrufer nicht
ermüdet wird.
Wenige Optionen zur Verfügung stellen, da sich der Anrufer mehr als fünf Optionen nicht
mehr merken kann.
Dem Anrufer die Freiheit geben, sein Anliegen in ganzen Sätzen vorzutragen, als ob er mit
einem Menschen telefoniert.
Dem Anrufer konkrete Hilfestellungen bieten oder als letzte Alternative mit einem
persönlichen Betreuer zu verbinden.
Bei der Entwicklung eines NDS wird außerdem beachtet, dass der Anrufer an möglichst
vielen Stellen den vorgesehenen Ablauf unterbrechen kann, diese Möglichkeit wird in der
Fachsprache Bark in genannt.
Da sich Sprachdialogsysteme immer mehr zum Standard entwickeln, gibt es inzwischen
sogar internationale Richtlinien zur Dialoggestaltung nach DIN ISO 924146:
•
•
•
•
•
•
•
Aufgabenangemessenheit
Selbstbeschreibungsfähigkeit
Steuerbarkeit
Erwartungskonformität
Fehlertoleranz
Individualisierbarkeit
Lernförderlichkeit
alle diese Punkte müssen bei der Gestaltung des Dialogs eingehalten werden.
4.2.2. VoiceXML-Infrastruktur
In VoiceXML findet ein Client/Server Konzept Anwendung. Auf der Client-Seite kommt
ein spezieller Voice-Browser zum Einsatz; er ist der Kern der VoiceXML-Infrastruktur und
dabei insbesondere zuständig für das Parsen und die Abarbeitung von VoiceXMLDokumenten. Daher wird er auch manchmal VoiceXML-Interpreter genannt. Auf der
Server-Seite gibt es HTTP-Server, Applikations-Server und Datenbank-Server. Der Client
kommuniziert mit dem HTTP-Server und dem Applikations-Server, und zwar mittels HTTPProtokoll. Die Server stellen die VXML-Dokumente bereit, die der Voice-Browser abarbeitet.
Eine schematische Darstellung des Sachverhalts ist in der folgenden Abbildung 1 zu sehen:
46
funkschau 7/04
Web
Content
Provider
VoiceXML
TTS
Engine
Info
Broker
Telephony
Interface
Voice
Browser
XML-Interpreter
HTTP
Dialog
Interpreter
Web
Shop
Direct
Bank
ASR
Engine
Web
Auction
VoiceXML
Abbildung 1
Wir beschreiben den Ablauf eines Anrufs bei einem VoiceXML basierten
Telephoniedienst, um das Zusammenwirken von den VoiceXML-Komponeten näher zu
erläutern:
1.Ein Anrufer wählt die Telefonnummer eines VoiceXML-Dienstes.
2.Das Telefonie-Gateway teilt dem Voice Browser mit, dass ein Anruf anliegt, der
Browser lädt ein initiales VoiceXML-Dokument und weist die TTS-Engine an, den
Anrufer zu begrüßen. Außerdem aktiviert der Browser eine Grammatik für die
Spracherkennungs-Engine.
3.Der Anrufer stellt mittels Sprache seine Anfrage oder erteilt seine Anweisung.
Alternativ besteht auch die Möglichkeit DTMF zu benutzen.
4.Der Voice-Browser leitet die eingehenden Audio-Signale an die ASR-Engine weiter
und erhält von ihr ein Ergebnis, das vom Browser gemäß den kodierten Anweisungen in
dem VXML-Dokument weiterverarbeitet wird. Die Verarbeitung kann entweder in dem
geladenen Dokument fortgesetzt werden oder es wird ein HTTP-Request an des
Backend-System geschickt und eine neue VXML-Seite geladen. Der Voice-Browser
schickt seine Antworten als Audio-Dateien an das Telefonie-Gateway; diese AudioDateien entstehen entweder durch TTS als synthetisierte Texte oder wurden zu einem
früheren Zeitpunkt aufgenommen.
Eine VoiceXML Umgebung hat folgende wichtige Bestandteile (siehe Abbildung 1):
• Telefonie-Gateway
Das Telefonie-Gateway dient zum Empfang eines Telefonats und leitet dieses Telefonat
an den Voice-Browser weiter. Außerdem spielt es die Audio-Dateien ab, die es vom
Voice-Browser zurückerhält.
• Spracherkennungs-Engine (ASR) und Sprachsynthese-Engine (TTS)
• Voice-Browser
Der Voice Browser enthält einen Interpreter für VXML-Dokumente. Dieser verarbeitet
die Dokumente und kommuniziert mit den Servern mittels HTTP-Protokoll, und er steuert
die sprecherunabhängige ASR-Engine und die TTS-Engine. Er unterstützt Caching, damit
die geladenen Seiten für längere Zeit schneller abrufbar sind, und er bietet Scripting. In
die VXML-Dokumente kann ECMAScript-Code integriert werden, damit die
Seiteninhalte auf der Client-Seite dynamisch berechnet werden können.
Zusätzlich enthält der Voice Browser eine Audio-Schnittstelle für die Ein- und Ausgabe
der Sprachsignale bereit. Im folgenden Bild sehen wir die Architektur eines VoiceBrowsers.
Voice-Browser
Audio-Schnittstelle
Audio
Audio IN/OUT
z.B.Soundkarte
Audio
TelefonieSchnittstelle
Voice-over-IPSchnittstelle
VoiceXML Interpreter
Zuständig für:
•Verarbeitung der VoiceXMLDokumente
•HTTP-Kommunikation
•Cache Verwaltung
•ECMAScript-Engine
•Steuerung der ASR- und TTSEngine
Steuerdaten
Audio
TTSEngine
Audio&
Steuerdaten
HTTP
Erkennungsergebnis
ASREngine
• Backend-Infrastruktur
Um VoiceXML-Dokumente Server-seitig dynamisch zu generieren wird auf eine
Backend-Struktur zurückgegriffen. Die Daten stehen auf dem Backend im XML-Format,
über einen Transformer werden diese Daten in ein VXML-Dokument transformiert und
über einen HTTP-Server an den Voice-Browser weitergeleitet.
4.2.3. Vorteile von VoiceXML
VoiceXML bietet für die Sprachapplikationen viele Vorteile:
•
VoiceXML ist sowohl für einfache als auch für komplizierte Dialoge gut geeignet.
•
Die Programmierung in VXML ist plattformunabhängig.
•
Die Entwickler sind von der „Low-Level“-Programmierung befreit.
•
Der Benutzer-Interaktionscode in VXML wird von dem Code für die Service-Logik
(CGI-Script) getrennt.
4.2.4.
Voice Applikation Plattform und Entwicklungswerkzeuge
Um Sprachportale effizient zu entwickeln braucht man zumindest grafische Editoren und
eine möglichst intuitiv bedienbare Entwicklungsumgebung mit diversen Debug-Werkzeugen,
die VXML Programme unterstützen. Wenn man aber ein vollständiges VoiceXML Projekt
erstellen möchte, empfehlen sich Plattformen, diese heißen Voice Applikationen Plattform
(VAP).
Viele der VAPs laufen unter der Windows, aber einige unterstützen auch diverse UnixBetriebssysteme. Sie sollten die direkte Integration verschiedener TTS- und ASR-Engines
ebenso wie die direkte Anbindung verschiedener Datenbanken ermöglichen. Die VAPs
sollten unterschiedlichen Telefonieprotokolle unterstützen. Externe Anwendungen sollen
abrufbar sein und andererseits soll das VoiceXML Projekt auch in andere Anwendungen
integriert werden können. Die Plattform soll erweiterbar sein und über eine Vielzahl an
Schnittstellen verfügen. Die produzierten Anwendungen sollten auf allen Applikationsserver
lauffähig sein.
In der Tabelle stellen wir eine Anzahl von bekannten Unternehmen und deren
entsprechenden Produkte vor. Die meisten davon sind vollständige Plattformen.
Unternehmen
Produktname
Webseite
Ascent
AscenTel
www.ascentinc.com/html/services/avp/index.htm
Audium
Audium Studio 5
http://audiumcorp.com/index.php?option
=com_content&task=view&id=40&Itemi
d=57
BeVocal
BeVocal Café
www.bevocal.com
Envox
Envox 6 Studio
www.ascom.de
www.envox.com/software/envox-6.asp
IBM
wwwWebSphere Voice Server V.
306.ibm.com/software/pervasive/voice_se
5.1.3
rver
Nortel Networks
Speech Server
http://products.nortel.com/go/product_co
ntent.jsp?parId=0&segId=0&catId=S&pr
od_id=9140&locale=en-US
Nuance
SpeechPAK Application
Kits
www.nuance.com/spee
www.envox.com/software/envox-6.asp
VoiceGenie
NeXusPoint 6.4
www.voicegenie.com/NeXusPoint_Open
_Framework.htm?1.5.0.0
Unternehmen
Produktname
Webseite
Voxeo
Voxeo Evolution Community
www.voxeo.com/developers
Voxpilot
voxBuilder
www.voxpilot.com
Entwicklungswerkzeuge
4.2.5.
Applikation Service Provider
Eine Voice Applikation Plattform (VAP) enthält viele Komponenten. Um diese zu
entwickeln, zu installieren und in Betrieb zu halten, werden qualifizierte Fachleute benötigt.
Daher wurden sogenannte Applikation Service Provider (ASP) gegründet. Die
Unternehmen betreiben alle erforderlichen Komponenten und lassen darauf die VoiceXML
Applikationen laufen. Leider befinden sich die meisten Anbieter in der USA.
In dieser Tabelle sind die wichtigsten Anbieter von ASP47
Unternehmen
Land
Webseite
BeVocal
USA
www.bevocal.com
INA Germany AG
Deutschland
www.ina-germany.de
NetByTel
USA
www.netbytel.com
Telenet
Deutschland
www.telenet.de
Telera
USA
www.telera.com
VoiceGenie
USA
www.voicegenie.com
Voxeo
USA
www.voxeo.com
Voxpilot
Irland
www.voxpilot.com
ASP-Anbieter
4.3. Voice over IP
Bei der Kommunikation mit einem NDS wird die Stimme des Anrufers digitalisiert, in
Pakete zerlegt und über eine Datenleitung mittels IP-Protokoll zu einem Computer geschickt;
diesen Vorgang nennt man Voice over IP (VoIP). Es entstand die Idee, dass man auf teure
Telefonate verzichten kann und statt dessen die Gespräche über IP von Computer zu
Computer führen kann.
47
www.speech-user-interface.de
Bevor wir im nächsten Abschnitt in die Grundlagen von VoIP einsteigen, erläutern wir
fünf wichtige Begriffe aus diesem Umfeld, um das Verständnis zu erleichtern.
• SIP
Das Session Initiation Protocol (SIP) ist ein Netzwerkprotokoll zum Aufbau einer
Kommunikationssitzung zwischen zwei und mehr Teilnehmern. In der IP-Telefonie ist das
SIP ein häufig angewandtes Protokoll.48
• IP-Telefon
IP-Telefon ist ein neuer Typ von Telefon, der auf Voice over IP-Basis funktioniert. Wenn
dieses sogenannte Telefon das Session Initiation Protocol (SIP) nutzt, dann sprechen wir
von einem SIP-Telefon. Es lässt sich wie ein gewöhnliches Telefon bedienen und sieht
auch so aus. Das IP-Telefon muss für ein Telefonat eine Verbindung zum Internet haben
und das Gespräch wird dabei in einzelnen Datenpaketen über das Internet versendet.49
• Gateway
Gateways erlauben es Netzwerken, die auf völlig unterschiedlichen Protokollen basieren,
miteinander zu kommunizieren. Dem Gateway ist dabei alles erlaubt, was zur
Konvertierung der Daten notwendig ist, auch das Weglassen von Informationen, wenn
diese im Zielnetz nicht transportiert werden können.50
• Router
Ein Router ist ein Vermittlungsrechner, der in einem Netzwerk dafür sorgt, dass
verschickte Daten, die zu diesem Zweck in einzelne Datenpakete zerlegt wurden, zum
vorgesehenen Zielrechner weitergeleitet werden. Neben den großen Routern, die die
Internetbackbones miteinander verbinden, gibt es auch technisch einfachere kleine Router
für den Heim- oder Bürobereich, die über eine Telefonleitung an den Einwahlknoten des
Internetdienstanbieters und rückseitig über ein Ethernet-Kabel an das lokale Netzwerk
angeschlossen sind, und die den eigenen Internetdienstanbieter anrufen, wenn man selbst
Daten verschicken oder empfangen will. Diese Geräte sind technisch eigentlich
Gateways, im Sprachgebrauch hat sich aber die Verwendung des Wortes Router
durchgesetzt.51
• DSL-Modem
Das DSL-Modem dient der Übertragung von Daten über eine DSL-Leitung. Das Modem
wird entweder direkt an einen PC angeschlossen oder an ein Netzwerk/Router.52
4.3.1. Grundlagen von VoIP
Voice over IP ist die Übertragung der Gespräche zwischen zwei Partnern über das
Protokoll IP. VoIP gibt es in verschiedenen Varianten. Die bekannteste besteht darin, dass
beide Gesprächspartner an Computern sitzen, die mit dem Internet verbunden sind. Diese
Computer sind mit Mikrofon und Soundkarte ausgerüstet. In den nächsten Paragrafen
erläutern wir noch drei weitere wichtige Varianten.
Der Nachteil dieser ursprünglichen Form von VoIP besteht darin, dass die beiden
Personen, die miteinander kommunizieren wollen, an Computern sitzen, die online sein
müssen. Seit kurzem ist es jedoch möglich, dass die Gesprächspartner beide Telefone
48
49
http://www.computerbase.de/lexikon/SIP
http://de.wikipedia.org/wiki/SIP-Telefon
http://de.wikipedia.org/wiki/Gateway
51
http://de.wikipedia.org/wiki/Router
52
http://de.wikipedia.org/wiki/DSL-Modem
50
benutzen, und die Stimmen trotzdem in Form von Datenpaketen über das Internet wandern,
obwohl die Rechner ausgeschaltet sind.
Um Telefonate mittels VoIP zu führen braucht man entweder ein IP-Telefon oder ein
normales Festnetztelefon, das VoIP-fähig gemacht wurde. Es gibt dazu kleine Boxen,
welche die analogen Signale in IP-Pakete umwandeln. Diese Boxen werden einfach mit dem
Telefon verbunden. Mit diesen IP-Telefonen (bzw. VoIP-fähigen analogen Telefonen) kann
man nur noch IP-Gespräche und keine altmodischen Telefonate mehr führen. Will man aber
die Wahl zwischen IP-Gesprächen und altmodischen Telefonaten haben, dann benötigt
man einen speziellen Router. Dieser Router verbindet analoge Telefone wahlweise über das
Internet oder das Telefonnetz mit dem Gesprächspartner.
Bisher haben wir nur den Fall betrachtet, dass beide Gesprächspartner ein IP-Telefon oder
ein VoIP-fähiges analoges Telefon haben. Aber wir wollen natürlich auch unsere Oma, die
ein altmodisches Telefon besitzt, von unserem IP-Telefon aus anrufen. Ruft man vom
einem Computer mit Internetanschluss einen normalen Telefonanschluß an, dann wird dazu
ein Gateway benötigt, das die Gespräche aus dem Internet an einen normalen
Telefonanschluß weiterleitet; ruft man von einem normalen Telefonanschluß den Computer
mit Internetanschluss an, dann benötigt der Computer eine Telefonnummer. Sowohl das
Gateway als auch die Telefonnummer werden vom Internetprovider, der VoIP anbietet, zur
Verfügung gestellt.
Diese Technologie gewinnt immer mehr Bedeutung, so hat sich zum Beispiel die Anzahl
der Voice over IP Anbieter im letzten Jahr 10 auf 40 erhöht. Eine Liste der aktuellen Anbieter
findet man in www.onlinekosten.de/voip/anbieter53. Dabei setzen alle Anbieter auf das VoIPProtokoll SIP.
Die Sprachqualität ist durchgängig gut. Bei optimaler Qualität fließen in jeder Richtung
80Kbit/sek. über die Leitung, pro Gesprächsminute fallen also 1,2 MByte an so dass ein DSL
Anschluss zum Erreichen dieser Qualität benötigt wird.54,55,56
4.3.2. Vorteile und Nachteile von IP-Telefonie
Ob sich die Tarife der VoIP-Provider als ein Vor- oder ein Nachteil für die Nutzer von IPTelefonie gegenüber dem altmodischen Telefonbenutzer herausstellen, hängt stark vom
persönlichen Telefonverhalten ab. Es ist ein Vorteil, wenn jemand öfters ins Internet geht und
im wesentlichen Gespräche ins deutsche Festnetz führt, aber ein Nachteil, für jemanden, der
gerade online geht um seine E-Mails zu lesen und mehrere Gespräche ins Ausland führt, da er
die günstigen Call-by-Call Tarife nicht benutzen kann.
Die ersten beiden Punkte beschreiben die Vorteile der IP-Telefonie, die übrigen die
Nachteile:
Komfortfunktionen: Bei vielen Anbietern kann man Komfortfunktionen nutzen, die denen
bei ISDN-Benutzung entsprechen. Dazu gehören Anklopfen (Anzeichen, dass während eines
Gesprächs ein weiterer Anruf ankommt), Makeln (Hin- und Her- Springen zwischen zwei
Gesprächen), Konferenz etc.
53
www.onlinekosten.de/voip/anbieter
Connect 2004, Heft 6, S.60
55
c't 2004 Heft 9, S. 88
56
com! 2004 Heft 6, S. 30
54
Mobilität: Das VoIP-Konto kann weltweit an jedem Internetzugang genutzt werden ohne
zusätzliche Kosten; wenn man zum Beispiel eine VoIP-Flatrate benutzt, kann man auch aus
dem Ausland nach Deutschland kostenlos telefonieren.
Breitbandzugang und Flatrate erforderlich: Auf Grund der Datenmenge und der Tatsache,
dass man immer online sein muss, um ankommende Anrufe zu erhalten, empfiehlt sich ein
Breitbandzugang mit Flatrate. Diese verursachen zusätzliche Kosten für Leute, die den online
Zugang nicht oft nutzen.
Nicht Abhörsicher: Telefonate, die über VoIP geführt werden, sind nicht abhörsicher.
Nicht alle Nummern erreichbar: Einige VoIP-Anbieter können noch nicht zu allen
Nummern Verbindungen schalten; davon sind 0137er, 0180er und 0900er betroffen.
4.4. Zusammenfassung
In diesem Kapitel haben wir Voice Portale kennengelernt, die sich von dem einfachen
System DTMF zu einem intelligenten natürlichsprachlichen Dialogsystem entwickelt haben.
Ein NDS kann dank einem gut designten und getunten Dialogs eine Erkennungsrate von mehr
als 95 Prozent erreichen.57 Dabei kann man natürlich nicht auf eine gute ASR-Engine
verzichten. Wir treffen heutzutage Voice Portale in allen Bereichen der Dienstleistung an,
zum Beispiel in Call Centern oder Banken wie die Deutsche Bank. Man erzielt dadurch viele
Vorteile wie zum Beispiel 24 Stunden Service ohne großen Personalbedarf.
Der einzige Nachteil ist die Höhe der Entwicklungskosten eines Sprachportals. Die
Linderung dieses Problems besteht in der Nutzung der standardisierten Metasprache VXML.
Auf die VXML-Infrastruktur sind wir im zweiten Abschnitt eingegangen. Die zentrale
Komponente, die mit den Kunden in Kontakt tritt, ist der Voice Browser, der auch VXMLInterpreter genannt wird. Er steuert den kompletten Ablauf des Dialogs mit dem Kunden. Er
verfügt über Schnittstellen zur Kommunikation mit der ASR- und der TTS-Engine, und zum
Austausch von Daten mit dem Backend-Server mittels HTTP-Protokoll. Zur Erstellung einer
Voice-Applikation in VXML sind professionelle Werkzeuge in Form von grafischen Editoren
und Debuggern sehr wichtig; um diese Anwendung laufen zu lassen, benötigt man eine
adäquate Umgebung, die sogenannte Voice Applikation Plattform. Wenn man den Aufwand
für die Erstellung und Betreibung einer Voice Applikation scheut, kann man stattdessen
diesen Service bei Application Service Providern mieten.
Im dritten Abschnitt haben wir wichtige Varianten der Benutzung von VoIP vorgestellt,
von denen eine darin besteht, dass der Anrufer mit einem NDS in Kontakt tritt. Diese
Technologie gewinnt mehr und mehr an Bedeutung; sowohl die Anzahl der Nutzer im
Privatbereich als auch bei den Firmen wächst ständig.
57
Funkschau 2004 Heft 7, S. 12
5. Analyse ausgewählter Programme
Die zwei wesentlichen Teile der Sprachtechnologie sind Spracherkennung und
Sprachsynthese. Da die Qualität bei Sprachausgabeprogrammen nur von der TTS-Engine
abhängt, haben wir uns auf den Test dieser Engines beschränkt, den wir im ersten Abschnitt
durchführen. Im zweiten Abschnitt werden wir die Diktiersoftware einem Test unterziehen;
da stand uns Dragon NaturallySpeaking Standard 7 zur Verfügung.
5.1. TTS Engines
Die meisten Anbieter von TTS-Engines stellen in ihren Web-Auftritten
Demonstrationsprogramme zum Testen ihrer Engines zur Verfügung. Es wird ein Formular
angeboten, in das man den Text eintippt, der synthetisiert werden soll. Als Ausgabe wird
entweder ein WAV-File zurückgeschickt, den man abspeichern kann, oder die Ausgabe
geschieht in dem Browser als Sprache ohne eine direkte Möglichkeit zur Abspeicherung; in
diesem Fall haben wir den Soundrecorder Silent-Bob58 benutzt, der den Output der
Soundkarte als WAV-File auf die Festplatte schreiben kann.
Es wurden zehn TTS-Engines von verschiedenen Firmen getestet. Diese sind Babil59,
Bright Speech60, Cepstral Voices61, Logox62, Loquendo63, Natural Voices64, Proser65,
RealSpeak Solo66, Sayso67 und ViaVoice68. Bei einigen Anbietern gab es mehrere Optionen
zur Auswahl, man konnte zwischen verschiedenen Sprachen und Stimmen wählen oder auch
zum Beispiel die Tonhöhe und die Geschwindigkeit variieren. Als Beispiel sehen Sie den
Screenshot der Firma Logox69.
58
www.silent-bob.de
www.babeltech.com
60
www.babeltech.com
61
http://www.cepstral.com/demos/
62
http://www.logox.de/cgi-bin/speechform.cgi
63
http://actor.loquendo.com/actordemo/default.asp?language=de
64
http://www.naturalvoices.att.com/demos/
65
http://www.atip.de/german/technologie/tts/proseronline.htm
66
http://www.nuance.com/realspeak/demo/default.asp
67
http://sayso.elan.fr/interactive_va.asp
68
http://www-306.ibm.com/software/pervasive/tech/demos/tts.shtml
69
http://www.logox.de/cgi-bin/speechform.cgi
59
Speech Demo Logox
5.1.1. Kriterien des Tests
Wir beurteilen die Qualität einer TTS-Engine einerseits durch die Menschlichkeit des
Klangs der Stimme und andererseits durch die korrekte Aussprache des eingetippten Textes.
Objektiv meßbare Kriterien sind die Aussprache komplexerer Worte, die aus Komposita,
Sonderzeichen, Abkürzungen und Zahlen in unterschiedlichen Zusammenhängen bestehen. In
dem Text werden die komplexeren Worte in den Farben hervorgehoben, die den Kriterien
entsprechen. An Hand dieser Kriterien haben wir folgenden Text zusammengestellt, der von
allen TTS-Engines gelesen wurde:
Hallo! Ich bin Dounia und wurde am 3.4.1973 geboren. Ich habe einen Neffen, der am
2.10.2001 geboren wurde.
Der Transporter, den ich für meinen Umzug geliehen habe, hatte eine Länge von 5,2 m,
eine Ladefläche von 2,5 m² und einen Hubraum von 1798 cm³.
5,5 kg Blumentopferde kosten in den USA z. B. nur $ 2,2, in den EG-Ländern hingegen €
3,5.
In § 2.2.1. werden Kommandosysteme behandelt, in 2.2.2. die Sprechererkennung.
5.1.2. Ausführliches Testergebnis der TTS-Engines
Wir stellen nun den Aufbau der Webseiten und die Ergebnisse unseres Tests dar. Am Ende
fassen wir die Ergebnisse nochmals in einer Tabelle zusammen. Dabei haben wir die Symbole
„++“, „+“, „±“, „-“ und „--“ benutzt. Dabei bedeutet „++“ „sehr gut“, „+“ „gut“, „±“
„ausreichend“, „-“ „mangelhaft“ und „--“ „ungenügend“.
•
Bright Speech und Babil:
Die Belgisch-Schwedische Firma Babel Technologies Infovox vertreibt zwei TTS-Engines
für PCs, nämlich Bright Speech 1.2 und Babil 4.1. Bright Speech stellt 7 Sprachen zur
Verfügung, Babil sogar 18. Beide Engines stellen die Möglichkeit zur Verfügung, mit einem
Benutzerwörterbuch zu arbeiten. Man kann in diesem Wörterbuch die Aussprache
ungewöhnlich klingender Wörter abspeichern, zum Beispiel wird in dem Wörterbuch
abgespeichert, dass „Dounia“ wie „Dunja“ ausgesprochen wird. Auf den Webseiten der
Firma gab es sogar ein Lautsprechersymbol, und wenn man es aktivierte, dann wurde der
Inhalt der Webseite vorgelesen.
Für beide Programme gibt es Demo-Versionen auf ihrer Webseite. Man schreibt einen
Text in ein Formular, wählt dazu die zugehörige Sprache und eventuell sogar die Stimme
eines männlichen oder weiblichen Sprechers. In Deutsch sind 6 verschiedene Stimmen zur
Auswahl. Dann wird automatisch der Windows Media Player geöffnet, in dem die
ausgegebene WAV-Datei abgespielt wird. Es war verständlich, aber man konnte den
Unterschied zur menschlichen Stimme deutlich erkennen, Babil schnitt im Test in Bezug auf
den Klang der Stimme am schlechtesten ab.
Beide Engines haben im ersten Satz „zweiter Oktober zweitausendundein“ statt „zweiter
Oktober zweitausendundeins“ vorgelesen. Babil hat im zweiten Satz „m²“ als „m hoch zwei“
bzw. „cm³“ als „Zentimeter hoch drei“ gesprochen. Bright Speech hingegen hat das „m“ als
Meter erkannt, aber das „cm³“ als „cm hoch drei“ gesprochen. Im dritten Satz hat Babil einen
schweren Fehler begangen, weil sie „zwei Dollar zwei“ gesagt hat, aber darunter würde man
ja „zwei Dollar und zwei Cent“ verstehen und nicht „zwei Dollar und zwanzig Cent“. Im
letzten Satz haben beide Engines das Paragrafzeichen nicht erkannt und somit auch die
Paragrafnummer nicht korrekt gesprochen.
•
Cepstral Voices:
Auf der Webseite von Cepstral kann man sich eine Online-Demo der Engine Cepstral
Voices anhören. Neben der Texteingabe kann man verschiedene Einstellungen vornehmen
wie Tonhöhe, Geschwindigkeit und Effekte; unter Effekte sind 6 Optionen zu aktivieren
„Dizzy Droid“, „Liquid Love“, „Old Robot“, „PVC Pipe“, „Space Time Echo“ und „Split
Personality“. Als Ausgabe wurde eine WAV-Datei erstellt, die man auch herunterladen kann.
Die Stimmen Katrin und Matthias waren in der default Einstellung zufriedenstellend,
Änderungen verschlechterten allerdings die Verständlichkeit.
Im ersten Satz wurde die Deklination nicht beachtet und „am dritte April“ statt „am dritten
April“ vorgelesen. Im zweiten Satz wurden die Exponenten gar nicht erkannt und die
Abkürzungen wurden nur buchstabenweise gelesen. Im dritten Satz wurde zwar das
Dollarzeichen erkannt, das Eurozeichen hingegen nicht. Im letzen Satz wurde das
Paragrafzeichen auch nicht erkannt, was zur Folge hatte, dass die Paragrafnummer „In
zweite zweite erste“ gesprochen wurde.
•
Logox:
Die Deutsche Firma „G DATA“ stellt die Engine Logox 4 her. Die Demo-Webseite ist im
Bild oben zu sehen, dort gibt es mehrere Optionen zum Auswählen, wie Dialekt, Effekt,
Format und Sprecher; außerdem man kann das Tempo, Tonhöhe, Stimmumfang und Rauheit
variieren. Es sind 10 Stimmen zur Auswahl, von Kinderstimme bis zu Sexystimme. Trotzdem
ähneln alle Stimmen einer Roboterstimme. Die Engine hat als einziger im Test das Datum
falsch
wiedergegeben,
es
würde
nämlich
„3.4.1973“
als
„drei
vier
eintausandneunhundertdreiundsiebzig“ gesprochen.
•
Loquendo:
Die Firma Loquendo stammt aus Italien, und mit Ihrem einfachen Demo-Auftritt kann man
die Engine testen. Der Klang der Stimme ist sehr angenehm, und von den zusammengesetzten
Worten wurde nur die „Blumentopferde“ falsch ausgesprochen. Die Exponenten im zweiten
Satz wurden ignoriert, und nur die Zentimeter wurden korrekt ausgesprochen. Die Dollar und
Euro Zeichen wurden erkannt, aber anstelle der deutschen Sprechweise mit Komma wurde
die englische „Zwei Punkt zwei Dollar“ gelesen. Im vierten Satz wurde die
Paragrafennummer als Datum geparsed, und somit wurde „Im Paragraf zweiter Februar
zweitausendeins“ vorgelesen.
•
Natural Voices:
Die Firma AT&T stellt die Engine AT&T Natural Voices her. Auf ihrer Webseite70 kann
zwischen fünf verschiedenen Sprachen wählen. Bei der deutschen Sprache stehen zwei
Stimmen, Klara und Reiner, zur Verfügung. Man kann zwischen vier verschiedenen AudioFormaten und vier verschiedenen Frequenzen auswählen. Die beiden Stimmen sind sehr
angenehm anzuhören und kaum von einer menschlichen Stimme zu unterscheiden.
Die einzige echte Schwäche leistete sich diese Engine im zweiten Satz, in dem die
Potenzen zwar erkannt wurden, aber die Längenangaben nicht. So wurde „m²“ als „m
hochgestellte zwei“ bzw. „cm³“ als „cm hochgestellte drei“ gesprochen. Bei den
Währungsangaben wurden der Dollar und der Euro erkannt und wörtlich vorgelesen, aber
nicht interpretiert.
•
Proser:
Die deutsche Firma Atip, die von zwei Physikern und einem Phonetiker der J. W. Goethe
Universität in Frankfurt gegründet wurde, stellt eine Online-Demo zur Verfügung, bei der drei
deutsche Stimmen zur Auswahl stehen und bei der man Tonhöhe und Geschwindigkeit
variieren kann. Der Klang der Stimme ist angenehm zu hören. Im zweiten Satz ist „m“ nicht
als „Meter“ gesprochen und die Exponenten wurden ignoriert, ansonsten wurden alle anderen
Worte korrekt interpretiert.
70
http://www.naturalvoices.att.com/demos
•
RealSpeak Solo:
Der bekannteste US-amerikanische Hersteller von Sprachverarbeitungssystemen Nuance,
früher bekannt unter dem Namen Scansoft, brachte die Engine RealSpeak Solo heraus, die
man in 22 verschiedenen Sprachen in ihrem Demo-Auftritt ausprobieren kann. Außer der
Sprache kann man keine weiteren Optionen auswählen. Die einzige deutsche Stimme Steffi
klingt sehr angenehm, sie ist die natürlichste aller von uns getesteten Stimmen. Im letzten
Satz wurde „§ 2.2.1“ als „Zwei Punkt Zwei Eins“ gesprochen, es wurde zwar das
Paragrafzeichen nicht gesprochen, aber meiner Meinung nach als Nummerierung richtig
interpretiert.
•
Sayso:
Die von der französischen Firma Elan Speech hergestellte Engine Sayso schnitt in dem
Test ebenfalls sehr gut ab. Bei der Eingabe des Textes in das Demo-Formular konnte man die
Geschwindigkeit und die Tonhöhe einstellen. Die Stimme von Lea klang angenehm und war
sehr gut verständlich.
Der zweite Satz wurde vorbildlich ausgesprochen, und nur im dritten Satz zeigte sie
Schwächen bei der Aussprache von „USA“, „z.B.“ und „EG“. Ansonsten leistete sie bei fast
allen schwierigen Problemen eine gute Arbeit.
•
Via Voice:
Die von IBM entwickelte TTS-Engine begnügt sich mit einem einfachen Demo-Auftritt, in
dem nur die Sprache und die Lautstärke veränderbar ist. Die deutsche männliche Stimme war
sehr gut verständlich, aber hörte sich ein wenig synthetisch an. Via Voice meisterte die
Schwierigkeiten fast tadellos, nur das „m“ wurde nicht als „Meter“ erkannt.
Engine
Babil
Bright
Speech
Cepstral
Voices
Logox
Loquendo
Klang der Stimmen
-
±
+
+
++
Transporter
+
+
+
+
+
Ladefläche
+
+
+
+
+
Blumentopferde
-
-
-
+
-
Kommandosysteme
-
-
+
+
+
Sprechererkennung
-
-
-
+
+
!
-
-
-
-
-
$
+
+
+
+
+
€
+
+
-
+
+
§
-
-
-
+
+
m
-
++
-
+
-
m²
±
++
-
´+
-
cm³
+
±
-
-
±
Kg
-
-
-
+
+
USA
+
-
+
+
+
z. B.
-
-
-
-
-
EG
+
-
-
+
+
3.4.1973
++
++
±
-
++
2.10.2001
±
±
+
-
++
$ 2,2
-
++
+
+
-
€ 3,5
-
++
-
++
-
§ 2.2.1.
-
-
-
´+
--
2.2.2.
-
-
-
´+
--
Kriterien
Tabellarische Zusammenfassung der Ergebnisse der TTS-Engines
Engine
Natural
Voices
Proser
RealSpeak
Solo
Sayso
Via Voice
Klang der Stimmen
++
+
++
++
+
Transporter
+
+
+
+
+
Ladefläche
+
+
+
+
+
Blumentopferde
+
+
+
+
+
Kommandosysteme
+
+
+
+
+
Sprechererkennung
+
+
+
-
+
!
-
-
-
-
-
$
+
+
+
+
+
€
+
´+
+
+
+
§
+
+
-
+
+
m
-
-
+
++
-
m²
±
-
+
++
++
cm³
±
-
+
++
++
Kg
+
+
+
+
+
USA
+
+
+
-
+
z. B.
+
+
-
-
+
EG
+
+
+
-
+
3.4.1973
++
´+
++
+
++
2.10.2001
++
´+
++
+
++
$ 2,2
+
+
++
++
+
€ 3,5
+
+
++
++
+
§ 2.2.1.
++
+
++
+
++
2.2.2.
++
+
++
+
++
Kriterien
Tabellarische Zusammenfassung der Ergebnisse der TTS-Engines
5.1.3. Bewertung der TTS-Engines
Obwohl die beiden Engines „Babil“ und „Bright Speech“ von derselben Firma produziert
wurden, hört man deutliche Unterschiede; der Klang der „Bright Speech“-Stimme ist der
bessere. Außerdem hat „Bright Speech“ die Probleme bei den Währungen vorbildlich
gemeistert. Die Engine Cepstral Voices stellt bei ihrer online Demo viele Optionen zur
Verfügung, aber die Resultate bleiben schwach. Die Loquendo Engine mit ihrer angenehmen
Stimme und ihrer durchschnittlichen Fehlerrate hatte im Test ein schwerwiegendes
linguistisches Problem; die Paragrafnummer wurde als Datum geparsed, obwohl das
Paragrafzeichen richtig interpretiert wurde. Die beiden von deutschen Firmen hergestellten
Engines „Logox 4“ und „Proser“ sind im internationalen Vergleich konkurrenzfähig, ich bin
aber von dem fatalen Fehler von „Logox 4“ bei der Wiedergabe des Datums sehr enttäuscht.
Die vier besten Engines sind „Natural Voices“, „RealSpeak Solo“, „Sayso“ und „Via Voice“,
wobei die letztere zwar die Schwierigkeiten am besten gemeistert hat, aber der Klang der
Stimme ist nur zufriedenstellend. Von den vier Engines ist „RealSpeak Solo“ mein
persönlicher Favorit, weil sie die natürlichste Stimme hat und auch kaum Schwächen bei den
Kriterien zeigte.
5.2. Dragon NaturallySpeaking Standard 7
In diesem Abschnitt werden wir einen Test von Dragon NaturallySpeaking Standard 7
durchführen. Zum Lieferumfang dieser Software gehören eine Installations-CD, ein Headset,
ein 186-seitiges Handbuch und einer Kurzreferenz. Die Installation verläuft reibungslos und
erfordert ca. 300 MB Speicherplatz. Am Ende der Installation wird der Benutzerassistent
gestartet, der in fünf Schritten ein Profil des Benutzers anlegt. Im ersten Schritt wird der
Benutzer aufgefordert, das Mikrofon richtig zu positionieren. Im zweiten Schritt wird die
Lautstärke des Mikrofoneingangs angepaßt, und im dritten Schritt wird die Tonqualität
überprüft. Der vierte Schritt ist der wichtigste, in ihm lernt die Software die Sprechweise des
Sprechers kennen, das Training wird gestartet, indem der Benutzer vorgeschriebene Texte
vorliest. Diese Texte werden markiert, wenn sie erkannt worden sind. Andernfalls muss der
Benutzer sie wiederholen. Der letzte Schritt, die sogenannte Analysefunktion, besteht aus
einer Anpassung von Dragon an den Schreibstil des Benutzers, indem Microsoft Word, Corel
WordPerfect, Text- und Rich-Text-Dateien gelesen werden; dieser Vorgang benötigt bis zu 30
Minuten Zeit und kann übersprungen werden; dies ist aber nicht empfehlenswert.
Nachdem das Profil des Benutzers angelegt wurde, wird das Programm gestartet, und es
erscheint am oberen Bildschirmrand die folgende Leiste:
Es stehen die folgenden Untermenüs zur Verfügung:
Im Menü Naturally Speaking werden die unterschiedlichen Benutzerprofile verwaltet.
Im Menü Extras kann man das Befehlscenter, in dem kontextabhängig alle möglichen
Befehle aufgelistet werden, und den eigenen einfachen Texteditor DragonPad aufrufen.
.
Im Menü Wörter kann insbesondere zwischen den fünf Modus gewechselt werden;
zwischen diesen Modus kann man auch durch Spracheingabe wechseln. Wenn man diktieren
möchte benutzt man am einfachsten den Diktiermodus, wenn man aber Befehle aussprechen
will, muss man den Befehlsmodus aktivieren. Der Standardmodus ist ein Diktiermodus, in
dem Befehle ebenfalls verstanden werden, allerdings, falls ein Befehl falsch erkannt wird,
dann wird er nicht ausgeführt sondern geschrieben.
5.2.1. Kriterien des Tests
Beim Test von Dragon wurde ein Text jeweils von zwei verschieden Testpersonen
vorgelesen. Dabei wurden die Personen gezielt ausgesucht, so dass wir die folgenden zwei
Kriterien untersuchen konnten:
•
•
Bedienbarkeit des Programms für Computerlaien
Fehlerhafte Aussprache des Benutzers.
Die erste Testperson ist ein Computerexperte und hat einen leichtem Sprachfehler, sie
lispelt. Die zweite Testperson ist ein Laie auf dem Gebiet des PCs ohne Sprachfehler. Es wird
also beobachtet, ob der Sprachfehler einen negativen Einfluß auf die Erkennungsrate hat und
ob der zweite Tester das Programm problemlos bedienen kann. Jeder Tester testet Dragon
zwei mal: Das erste mal sofort nach der Trainingsphase, das zweite mal, nachdem die
Analysefunktion des Programms ausgeführt wurde. Dieser Schritt dient der Verbesserung der
Voraussetzungen für Dragon. Um Zufälligkeiten bei der Art und Weise des Diktierens
weitgehend auszuschließen, wurde jeder Test drei mal durchgeführt.
Der in DragonPad diktierte Text ist mit vielen Stolpersteinen bezüglich der folgenden
sieben Kriterien gespickt:
1. Groß-/Kleinschreibung bei persönlicher Anrede
2. phonetisch ähnliche aber semantisch unterschiedliche Wörter
3. Komposita (zusammengesetzte Wörter)
4. Besonders ausgefallene Deklination (Genitiv, ...)
5. Datum, Uhrzeit, Währung, Sonderzeichen, Internet- und E-Mail-Adresse
6. Manuell auf der Tastatur ausgeführte oder gesprochene Befehle
7. In die deutsche Sprache integrierte ausländische Wörter
Es folgt der diktierte Text, in dem
entsprechen:
die Farbmarkierungen den obigen Kriterien
Hallo Freunde!
<manuelle (händische) Zeilenschaltung >
Es ist tatsächlich wahr geworden und ich habe meine Bachelorarbeit am 1. Februar 2006
angemeldet, abgeben muss ich also am 2. Mai 2006. Meine Arbeit hat den Titel „Analyse und
Evaluation von Sprachverarbeitungssystemen“.
<Zeilenschaltung gesprochen>
Die
Arbeit
könnt
Ihr
Euch
von
dem
Link
http://wwwcs.unipaderborn.de/cs/Studenten/mirrouch dann auch downloaden. Am 13. Mai lade ich Euch dann
zur Party im Keller ein. Wir essen um 20 Uhr marokkanische Spezialitäten. Gegen
Mitternacht gibt es dann noch ein kaltes Essen für die Nachtschwärmer unter uns. Ich
erwarte Euch ab 18 Uhr 30. Ach ja, jeder soll sich mit 2 Euro 50 für alkoholische Getränke
beteiligen. Ach, übrigens, als ich gestern unterwegs war, bin ich in die Stadt gefahren statt
wie üblich samstags zu meiner Familie.
<Absatzschaltung gesprochen>
Für die, die noch nie bei mir zu Hause waren, ist hier meine Adresse: Frankfurter Straße
63 in 45276 Essen. Und ich gebe Euch noch einen Rat: Kommt mit dem Rad und nicht mit
dem Auto, denn die Straße ist längerfristig wegen Bauarbeiten gesperrt.
<Zeilenschaltung gesprochen>
Bitte mailt mir Eure
[email protected].
Bestätigung
an
meine
neue
E-Mail
Adresse
dounia-
Und Melanie, könntest Du bitte das rote Kleid mitbringen, das Du aus dem Katalog
bestellt hast, so dass ich es sehen kann, bevor ich es eventuell auch bestelle.
<Absatzschaltung gesprochen>
Grüße Euch, Dounia.
5.2.2. Ergebnisse des Tests und Bewertung
Beim Test stellte sich heraus, dass das Lispeln des zweiten Testers keinen Einfluß auf die
Erkennungsrate hat; auch Worte die ein oder mehrere „s“ enthalten werden im allgemeinen
erkannt. Der Computerlaie konnte das Programm problemlos bedienen. Auch für den
Computerexperten empfiehlt es sich, sich an Hand des Handbuchs vorher zu informieren, da
jeder lernen sollte, welche Befehle man aussprechen muss, wenn gewisse Aktionen
durchgeführt werden sollen. Bei beiden Testern funktioniert Command und Control ganz gut,
manchmal wurde ein Befehl zwar nicht erkannt, dann mußte man ihn wiederholen, aber
Fehler wurden nicht gemacht. Auch der für die Korrektur wichtige Befehl „Korrigiere“
wurde immer verstanden und ausgeführt. In dem Test tauchen viele Fehler auf, die nicht von
den Stolpersteinen herrühren, sondern von der integrierten ASR-Engine. Die Software ist
jedoch lernfähig, die vom Benutzer korrigierten Worte werden manchmal beim nächsten
Gebrauch richtig geschrieben. Dragon erfordert eine hohe Konzentration beim Diktieren,
somit empfiehlt es sich, den Text vorher zu schreiben und dann erst vorzulesen. Daher
reduziert sich die Anzahl der Benutzer, die Dragon effektiv einsetzen können, auf geduldige
Leute, die langsam tippen. Außerdem empfiehlt sich für User, die Dragon häufig benutzen,
tief in die Tasche zu greifen, um ein stabiles, leicht zu positionierendes Headset zu kaufen,
denn in unserem Test hat sich gezeigt, dass bei beiden Testpersonen die Anzahl der Fehler
beim zweiten Versuch mit Analyse trotz besserer Voraussetzungen größer ist als beim ersten
Versuch. Dies liegt an dem schlechten mitgelieferten Headset, bei dem man nicht in der Lage
ist, es nach dem Absetzen später wieder auf die exakt gleiche Weise aufzusetzen.
Testender Computerlaie ohne
Sprachfehler
1. Versuch
2. Versuch
ohne Analyse
mit Analyse
Groß/Kleinschreibung
bei persönlicher
Anrede
Fehler bei
„Euch“ und
„Du“
Testender Computerexperte mit
Sprachfehler
1. Versuch
2. Versuch
ohne Analyse
mit Analyse
Fehler bei
„Euch“ und
„Du“
Fehler bei
„Euch“ und
„Du“
Fehler bei
„Euch“ und
„Du“
Keine Probleme
Probleme mit
der
Großschreibung
von „Essen“ in
der Adresse
Keine Probleme
Probleme bei
„Sprachverarbeitungssystemen“
phonetisch ähnliche
aber semantisch
unterschiedliche
Wörter
Keine Probleme
Komposita
(zusammengesetzte
Wörter)
Probleme bei
„Sprachverarbeitungssystemen“
Keine Probleme
Probleme bei
„Sprachverarbeitungssystemen“
Besonders
ausgefallene
Deklination
(Genitiv, ...)
Keine Probleme
Keine Probleme
Keine Probleme
Keine Probleme
Datum, Uhrzeit,
Währung,
Sonderzeichen,
Internet- und EMail-Adresse
Große Probleme Große Probleme
bei der
bei der
Internetadresse Internetadresse,
und der E-mail- kleine bei der EAdresse
mail-Adresse
Große Probleme
bei der
Internetadresse
und der E-mailAdresse
Große Probleme
bei der
Internetadresse
und der E-mailAdresse
Manuell auf der
Tastatur
ausgeführte oder
gesprochene
Befehle
Keine Probleme
Keine Probleme
Keine Probleme
Keine Probleme
Probleme bei
„downloaden“
Probleme bei
„downloaden“
Probleme bei
„downloaden“
Probleme bei
„downloaden“
16
19
14
15
In die deutsche
Sprache integrierte
ausländische
Wörter
Anzahl der Fehler
Tabellarische Zusammenfassung der Ergebnisse von Dragon
5.3. Zusammenfassung
In diesem Kapitel haben wir zehn TTS-Engines und die Diktiersoftware Dragon
NaturallySpeaking getestet. Dank der Internetauftritte der Anbieter von TTS-Engines kann
jeder die Qualität beurteilen und somit wird ihm die Entscheidung vor Kauf eine Software mit
integriertem TTS erleichtert, besonders bei der riesigen Auswahl an Lernprogrammen. Von
den zehn getesteten Engines sind „Natural Voices“, „Via Voice“, „Sayso“ und „RealSpeak
Solo“ die, die am besten abgeschnitten haben, wobei die letztere mein persönlicher Favorit
ist, weil sie die natürlichste Stimme hat und auch kaum Schwächen zeigte.
Beim Testen von Diktiersoftware stand uns „Dragon NaturallySpeaking 7“ zur Verfügung.
Um gute Ergebnisse mit diesem Programm zu erzielen braucht man Ausdauer und viel
Geduld. Die Handhabung verschlechtert sich bei der Benutzung des beiliegenden Headsets,
daher empfiehlt sich der Kauf eines stabileren. Um mehr Benutzer zu gewinnen und zufrieden
zu stellen, müssen die Entwickler von Dragon über einen längeren Zeitraum daran arbeiten,
die Schwächen der Spracherkennungsengine zu beheben.
6.
Zusammenfassung der Arbeit
In dieser Arbeit haben wir uns mit Sprachverarbeitungssystemen und deren Analyse und
Evaluation beschäftigt. Unter Sprachverarbeitungssystemen verstehen wir Systeme zur
Spracheingabe, Spracherkennung und Sprachausgabe.
Die Spracheingabe geschieht meistens durch Sprechen in ein Mikrofon, das an einem mit
einer Soundkarte ausgerüsteten PC angeschlossen ist. Eine andere Möglichkeit besteht durch
Sprechen in ein Telefon; der Sprecher ist dann typischerweise mit einem
natürlichsprachlichen Dialogsystem verbunden.
Die Spracheingabe wird anschließend durch einen automatischen Spracherkennungsprozess, dem sogenannten ASR, in einen Text umgewandelt. Dieser Text wird entweder einfach
auf dem Bildschirm ausgegeben oder er wird als Befehl ausgeführt. Im ersten Fall spricht man
von Diktiersoftware, im zweiten von Kommandosystemen. Ein Spezialfall der
Kommandosysteme ist die Sprechererkennung. Somit unterteilt sich die Spracherkennung in
drei verschiedene Bereiche: Diktiersoftware, Kommandosysteme und Sprechererkennung.
Bei der Spracherkennung treten eine Reihe von Problemen auf, die die korrekte Erkennung
erschweren. Diese sind Linguistische Probleme, die Größe des Wortschatzes, Homophone,
Groß- und Kleinschreibung, Komposita und Sonderschreibweisen. Eine Möglichkeit, diese
Probleme bei Diktiersoftware einigermaßen in den Griff zu bekommen, ist ein großer
eingebauter sprecherunabhängiger Wortschatz; durch das Training des Sprechers lernt die
Diktiersoftware, wie der Sprecher die einzelnen Worte ausspricht. Zusätzlich verbessert sich
die Erkennungsrate kontinuierlich, da das Programm in der Lage ist, aus korrigierten Fehlern
zu lernen.
In der letzten Zeit haben sich viele Firmen aus dem Geschäft mit Diktiersoftware
zurückgezogen Es sind mittlerweile zwei Firmen, Nuance und IBM, die den Markt
beherrschen. Unser Test der Software „Dragon NaturallySpeaking 7“ offenbarte allerdings
einige Schwächen der Nuance-eigenen ASR-Engine. Es wird sicher noch einen längeren
Zeitraum in Anspruch nehmen diese Probleme zu beheben. Der Konkurrent IBM schnitt in
dem Test der Zeitschriften allerdings auch nicht besser ab.
In einem anderen Bereich finden wir ebenfalls Spracherkennung, und zwar im Bereich der
Kommandosysteme. Mit Ihrer Hilfe lassen sich viele PC-Programme durch Sprache steuern.
Dieses Feature funktionierte in unserer getesteten Diktiersoftware reibungslos, da zu diesem
Zweck nur einzelne Worte aus einem kleinen Wortschatz verstanden werden müssen. Neben
der Steuerung des PCs dienen Kommandosysteme auch der Steuerung anderer Geräte wie
zum Beispiel Handys, HiFi-Anlagen, ....
Der dritte Bereich der Sprachtechnologie ist die Sprachausgabe. Im dritten Kapitel haben
wir uns dann mit der synthetischen Sprachausgabe beschäftigt, die oft auch TTS genannt
wird. Diese Technologie findet man in einfachen Readern, aber auch in Diktiersoftware als
Korrekturhilfe und in Lernprogrammen für Kinder oder zum Erlernen einer Fremdsprache.
Man findet sie ebenso bei mobilen Geräten wie in Navigationssystemen. Außerdem ist TTS
neben ASR ein wichtiger Bestandteil eines IVR-Systems bzw. eines NDS. Insbesondere
profitieren stark sehbehinderte Menschen von dieser Technologie. So können sie sich z. B.
per Plugin mit eingebauter TTS-Engine ihre E-Mails vorlesen lassen.
Die Liste der in der TTS-Technologie aktiven Firmen unterliegt eine schnellen
Veränderung; Firmen ändern ihre Namen, fusionieren miteinander oder werden aufgekauft.
Lernout & Hauspie war früher eine der aktivsten Firmen in der Sprachverarbeitung, wurde
aber von Scansoft aufgekauft und Scansoft anschließend in Nuance umbenannt. Eine größere
Fusion der drei bekannten Firmen mit einer langen Erfahrung in der Entwicklung von TTSEngines, und zwar Babil, Elan Speech und Infovox, führte zur Acapela Group. AT & T und
Loquendo hingegen bleiben als Pioniere in der Entwicklung der Sprachtechnologie
eigenständig.
Bei der Entwicklung jeder neuen Technologie tauchen natürlich auch Schwierigkeiten auf.
Bei der Sprachsynthese finden wir drei wesentliche Probleme: Linguistische Probleme,
Komposita und Sonderschreibweisen, also eine Teilmenge der Probleme, die bei ASR zu
finden waren. Diese drei Punkte bildeten auch die Kriterien für unseren Test der TTSEngines.
Die Leistung der TTS-Engines hinsichtlich dieser Kriterien waren höchst unterschiedlich.
Die TTS-Engine Cepstral Voices versagte bei den meisten der von uns gestellten Probleme,
auch die beiden Engines Babil, Bright Speech und Loquendo liefern nur eine mäßige
Leistung. Alle übrigen Engines erbrachten eine recht gute Leistung. Die Spitzenplätze
gehörigen den Engines der drei US-amerikanischen Hersteller Nuance, AT & T und IBM. Ich
persönlich bevorzuge die Engine Realsoft Solo von Nuance mit ihrem angenehm natürlichen
Klang ihrer Stimme. Nuance ist auch der Herausgeber der Diktiersoftware Dragon Naturally
Speaking, und ist somit der führende Hersteller von Sprachpaketen für den privaten PC. Die
Gründung der Acapela Group sollte als Fusion mehrerer europäischer Firmen mit langen
Erfahrungen in der Sprachsynthese dazu führen, dass in Europa eine Engine so weit
verbessert wird, dass sie gegen die amerikanischen Engines bestehen kann. Die zwei
getesteten deutschen Engines Logox und Proser sollten sich in der Hauptsache bemühen, an
der Stimme zu arbeiten, damit sie natürlicher klingt.
Wenn man die drei Bereiche der Sprachtechnologie, nämlich die Spracheingabe,
Spracherkennung und Sprachausgabe auf geeignete Weise miteinander kombiniert, entsteht
ein natürlichsprachliches Dialogsystem. Das System kann mehrere Aufgaben erledigen wie
z. B. Auskünfte erteilen, Bankgeschäfte tätigen und Reservierungen vornehmen. Diese
natürlichsprachlichen Dialogsysteme, mit denen man sich fast wie mit einem Menschen
unterhalten kann, haben wir in Kapitel vier behandelt. Sprachdialogsysteme haben den
Vorteil, rund um die Uhr erreichbar zu sein, ohne dass zusätzliche Personalkosten für diesen
Service entstehen; NDS sind immer freundlich und von gleichbleibender Qualität, ohne dass
diese kontrolliert werden muss. Der einzige Nachteil ist der hohe Entwicklungsaufwand, der
bei der Programmierung eines neuen Dialogs anfällt. Dieser Entwicklungsaufwand wird
durch die Wahl von VXML als Programmiersprache und eine gute Entwicklungsumgebung
erträglich. Einerseits gibt es Firmen, die auf die Entwicklung eines NDS spezialisiert sind,
andererseits gibt es welche, die sogar eine Voice Applikation Plattform betreiben, die
sogenannten Applikation Service Provider. Die meisten dieser Provider befinden sich in den
USA, mittlerweile gibt es auch deutsche Firmen, die diesen Service bieten.
Durch die NDS-Technologie, die gezeigt hat, dass man über Datenleitungen telefonieren
kann, wurde ein Trend eingeleitet, den man Voice over IP nennt. Dabei können Menschen üb
er Datenleitungen miteinander telefonieren. Vor ein paar Monaten hätten wir in
Elektrokaufhäusern keine IP-Telefone gefunden; heute kann man sich sogar aus vielen
Modellen eins aussuchen. VoIP boomt, die Anzahl der Anbieter hat sich in ein paar Monaten
vervielfacht. Besonders Firmen mit mehreren Standorten profitieren durch geringere
Telefonkosten von dieser Technologie. Für Privatleute, die bereits einen DSL-Anschluss mit
Flatrate-Tarif besitzen, ist VoIP oft preislich gesehen von Vorteil. Allerdings wird die
Sprachqualität manchmal immer noch durch Nebengeräusche beeinträchtigt. Außerdem
entstehen für die Firmen nicht unbeträchtliche Kosten bei der Migration nach VoIP, die man
nicht unbedingt innerhalb eines Geschäftsjahres aufbringen will; eine Koexistenz von
analogen Telefonen und VoIP-Telefonen sowie eine sanfte Migration muß möglich sein.
Geheime Gespräche sollten auf die altmodische Art geführt werden, da VoIP-Telefonate nicht
abhörsicher sind, solange sie nicht verschlüsselt werden.
Ich denke, dass die Sprachtechnologie am heimischen PC jetzt und auch in der Zukunft nur
einen geringen Nutzen bzw. einen kleinen Nutzerkreis, wie zum Beispiel sehbehinderte
Personen, haben wird. Andererseits bin ich überzeugt, dass NDS eine große Akzeptanz finden
wird, wenn die Sprachtechnologie effektiv umgesetzt wird. In diesem Bereich wird die
Sprachtechnologie wirtschaftlichen Nutzen bringen, nicht nur der Industrie durch die
Reduzierung ihrer finanziellen Kosten, sondern auch dem Verbraucher durch die Erhöhung
seiner Bequemlichkeit und die Verbesserung der Erreichbarkeit.
Literaturverzeichnis
com! 2004, Heft 5
com! 2004, Heft 6
Connect 2004, Heft 6
c't 2004, Heft 9
Ernst Maracke: VoiceXML 2.0, Bonn 2003
Freiheit, Lehner, Matousek: VoiceXML, Berlin und Offenbach 2003
Funkschau 2004, Heft 7
http://de.wikipedia.org/wiki/AOL
http://de.wikipedia.org/wiki/ASCII
http://de.wikipedia.org/wiki/Audio_Interchange_File_Format
http://de.wikipedia.org/wiki/DSL-Modem
http://de.wikipedia.org/wiki/Excel
http://de.wikipedia.org/wiki/Gateway
http://de.wikipedia.org/wiki/Html
http://de.wikipedia.org/wiki/Internet_Explorer
http://de.wikipedia.org/wiki/Microsoft_Outlook
http://de.wikipedia.org/wiki/Microsoft_Word
http://de.wikipedia.org/wiki/Pegasus_Mail
http://de.wikipedia.org/wiki/Rich_Text_Format
http://de.wikipedia.org/wiki/Router
http://de.wikipedia.org/wiki/Schreibtisch_%28EDV%29
http://de.wikipedia.org/wiki/SIP-Telefon
http://de.wikipedia.org/wiki/WAV_(Format)
http://en.wikipedia.org/wiki/Au_file_format
http://en.wikipedia.org/wiki/MP3
http://sayso.elan.fr/interactive_va.asp
http://www.acapela-group.com/products/products.asp
http://www.babeltech.com
http://www.computerbase.de/lexikon/SIP
http://www.corel.com
http://www.flexvoice.com
http://www.gdata.de/trade/productview/123/5/
http://www.infovox.se
http://www.kinderleichtsoftware.de/lesefixpro.htm
http://www.lencom.com/desc/indexN2615.html
http://www.loquendo.com/de/demos/demo_tts.htm
http://www.naturalvoices.att.com/demos/
http://www.neospeech.com/demo/demo_text.php
http://www.speechissimo.com/
http://www-306.ibm.com/software/lotus/
Stiftung Warentest, Test 2004, Heft 1
www.dragon-medical-transcription.com/historyspeechrecognitiontimeline.html
www.dynamic-living.com
www.loquendo.com/de/technology/asr.htm
www.onlinekosten.de/voip/anbieter
www.sakrament-speech.com/products/asr/asr2
www.scansoft.com/automotive/vocon3200
www.speech-user-interface.de
www.spracherkennung.de
www.spracherkennung.de/service/sebuch.htm
www.telisma.com/ASRengine.html
www.telisma.com/overviewASR.html
www.voicexml.org
Hiermit versichere ich, dass ich diese Arbeit selbständig angefertigt und keine anderen als die
angegebebenen und bei Zitaten kenntlich gemachten Quellen und Hilfsmitteln benutzt habe.
______________
Dounia Mirrouch