Produktblatt als pdf
Transcription
Produktblatt als pdf
SymEmotion Erkennung von Emotionen aus Sprachsignalen Sprache und Emotionen Sympalogs automatisches Emotionserkennungsmodul SymEmotion ist in der Lage, auf Basis von stimmlichen (sog. prosodischen) Merkmalen, wie beispielsweise dem Tonlagenverlauf oder der Sprechgeschwindigkeit, verschiedene emotionale Zustände festzustellen. Je nach Qualität der Sprache und Anwendungsszenario sind mit SymEmotion Erkennungsraten möglich, die etwa dem Grad der Übereinstimmung zwischen mehreren menschlichen Experten entsprechen. Unter den genannten Voraussetzungen ist SymEmotion bei der Erkennung des emotionalen Zustands also ähnlich leistungsfähig wie ein Mensch. Funktional erweiterbar Emotionen von Anrufern lassen sich aus Sprachsignalen grundsätzlich auf verschiedene Arten ableiten. So können neben stimmlichen Merkmalen auch gesprochene Wörter als Anhaltspunkt für Emotionen des Anrufers dienen, beispielsweise der Gebrauch von Schimpfwörtern. Die automatische Erkennung solcher Äußerungen kann mittels automatischer Spracherkennung (SymRec) oder automatischer Schlüsselworterkennung (SymSpot) erfolgen. Klassifikation und Bewertung SymEmotion berechnet eine Vielzahl von Merkmalen (Kenngrößen) aus dem Sprachsignal, die mit dem Stimmungszustand des Anrufers in Zusammenhang stehen. Dazu gehören u.a. die Tonlage, die Lautstärke, die Sprechgeschwindigkeit und die Pausensetzung. Hinzu kommen Merkmale, die die Veränderung dieser Werte über den Gesprächsverlauf beschreiben. Mittels statistischer Verfahren erfolgt eine Zuordnung des Sprachsignals zu „Emotions-Klassen“. Ein Beispiel Sympalog Voice Solutions GmbH Karl-Zucker-Straße 10 D-91052 Erlangen Fon +49 (0) 9131 61661-0 Fax +49 (0) 9131 61661-20 [email protected] www.sympalog.de ist die Unterscheidung der Klassen „verärgert“ und „neutral“. Eine numerische Bewertung der einzelnen Gruppen erlaubt zudem, die Zuverlässigkeit der jeweiligen Zuordnung zu beurteilen. Adaptierbar auf Anwendungsszenario Die Trainingsumgebung zu SymEmotion erlaubt die Anpassung des Emotionsklassifikators auf spezielle Anwendungssituationen. Benötigt wird hierfür eine Sammlung von Sprachsignalen, denen jeweils eine Emotionsklasse manuell zugeordnet wurde. Die Zahl der Klassen ist dabei frei wählbar. Als Ergebnis des Trainingsvorgangs erhält man einen Satz von statistischen Parametern, der von der SymEmotion-Laufzeitumgebung eingelesen werden kann. Client-Server-Architektur SymEmotion verfügt wie alle Sympalog-Server-Module (z.B. SymRec, SymSpot, SymDialog, SymTTS) über eine flexible und echtzeitfähige Programmierschnittstelle (API) und kann aufgrund seiner Client-Server-Architektur in hochkanaligen Lösungen eingesetzt werden. Die inkrementelle Verarbeitung des AudioStreams stellt sicher, dass das Ergebnis der Emotions-Klassifikation unmittelbar nach dem Ende des Sprachsignals zur Verfügung steht. Integriertes Sprachdetektions-Modul Durch ein Modul zur Detektion gesprochener Sprache kann man die Segmentierung eines Signals in längere Abschnitte von Anteilen mit Sprache und Pausen automatisch vornehmen. SymEmotion liefert in diesem Fall die Klassifikationsergebnisse jeweils für einzelne, durch Pausen getrennte Signalabschnitte. Die hierbei zugrunde liegende Pausenlänge ist frei konfigurierbar. Technische Daten ❏ Lauffähig auf PC-Standard-Hardware ❏ Hardware-Mindestvoraussetzungen: • 512 MB Hauptspeicher • CPU mit 1,0 GHz • Benötigter Festplattenplatz für Installation und Betrieb: 2 GB ❏ Betriebssysteme: Linux, Windows (Vista/XP/etc.), Windows Server; weitere auf Anfrage ❏ Anzahl Emotionsklassen: i.d.R. 2 oder 3, technisch nicht begrenzt ❏ Ansteuerung SymRec-/SymSpot-Server über C/C++-API Sympalog Voice Solutions GmbH Karl-Zucker-Straße 10 D-91052 Erlangen Fon +49 (0) 9131 61661-0 Fax +49 (0) 9131 61661-20 [email protected] www.sympalog.de