Anwendung Rechnernetze Thema: Spracheingabe Michael Pöhnert
Transcription
Anwendung Rechnernetze Thema: Spracheingabe Michael Pöhnert
Anwendung Rechnernetze Thema: Spracheingabe Michael Pöhnert Matrikel: INF04 Kennnummer: 12538 Gliederung - Einleitung - Theoretische Grundlagen - Praktische Durchführung - Zusammenfassung - Quellenangaben Einleitung • Mensch möchte Maschine(Computer) möglichst einfach und intuitiv bedienen • Zur Bedienung oft sehr viele Befehle notwendig • Besteht Herausforderung zur Schaffung intelligenter Benutzerschnittstellen • Ermöglicht intuitive Bedienung • Vereinfacht somit Mensch-Maschine-Kommunikation Einleitung • Interaktion zwischen Mensch und Maschine als MTI (Mensch-Technik-Interaktion) bezeichnet • Auf verschiedene Arten möglich(Sprache, Schrift, Tastatur, Maus,...) • Möglichst einfache Kommunikation • Verschiedene Ansätze auf Gebiet der MTI Video-basierte Interaktion(z.B. Gesten- und Positionserkennung) Spracheingabe und Spracherkennung(z.B. Dialogsysteme) Avatare/Assistenten(z.B. Büroklammer bei Office) • Heute nur Spracheingabe wichtig Theoretische Grundlagen • Spracheingabe ist Eingabe von Sprache(Texte, Befehle) in eine Maschine(Computer) • Eingabe über ein Mikrophon(Headset vorteilhaft) • Spracherkennung oder auch automatische Spracherkennung ist ein Teilgebiet der angewandten Informatik. Sie beschäftigt sich mit der Untersuchung und Entwicklung von Verfahren, die Automaten, insbesondere Computern die gesprochene Sprache der automatischen Datenerfassung zugänglich macht. Quelle: Wikipedia Theoretische Grundlagen(Geschichte) • Beginn der Forschung an Spracherkennung 60er Jahre • Von privaten Firmen entwickelt(einige 100 Wörter erkannt) • Mitte 1980er kam Entdeckung: Kontextprüfung erkennt Homophone(gleich klingende Wörter haben unterschiedliche Bedeutungen; z.B. bis vs. Biss) • Statistiken über Häufigkeiten bestimmter Wortkombinationen(Trigrammstatistiken: drei Wörter oder drei Buchstaben ) für Spracherkennung wichtig ICH -> 1,15% // EIN -> 1,08% (statistische Auswertung einer deutschen Textbasis von etwa acht Millionen Zeichen) Theoretische Grundlagen(Geschichte) • 1984 - IBM: 5000 englische Worte erkannt Nachteil: ein Erkennungsvorgang dauert mehrere Minuten auf einem Großrechner • Dragon Systems: System für tragbaren PC • 1991 - IBM: TANGORA 4 (20000-30000 deutsche Worte erkannt) CeBIT-Vorstellung extra Raum nötig wegen Lärm der Menge • 1993/94 - IBM Personal Dictation System(erstes System für Massenmarkt) • 1994 auf CeBIT als IBM VoiceType Diktiersystem sehr begehrt(Preis unter $1.000) Theoretische Grundlagen(Geschichte) • 2004 Teile des Systems als Open Source freigegeben • Vermutlicher Grund: Microsoft bereits ein offenes System vorgestellt(Speech-SDK SAPI) • Aktuell: Microsoft(inVista eingebaut, Speech Server), IBM ViaVoice und Dragon Naturally Speaking (Nuance), Voice Pro (Linguatec) • neu(2007): Loquedo ASR(autom. Spracherkennung), SVOX(für Embedded Systeme) ASR- Automatic Speech Recognition Theoretische Grundlagen • Aktueller Stand: Sprecherabhängige Spracherkennung * Trainingsphase zur Einstimmung auf die Sprechgewohnheiten * Wechselnde Sprecher nicht möglich * Größerer Wortschatz als bei Sprecherunabhängigem Ansatz Sprecherunabhängige Spracherkennung * Keine Trainingsphase -> höhere Fehlerrate * Wechselnde Sprecher möglich * Auf mehrere tausend Wörter begrenzt Theoretische Grundlagen • Größe des Wortschatzes(gramm. Formen extra) • Sprache wird im Normalen fließend gesprochen • Mensch orientiert sich intuitiv am Übergang zwischen den Worten • Diskrete Sprache(deutliche Pausen zwischen den Worten) • Kontinuierliche Sprache(fließend) erst bei neueren Spracherkennungsprogrammen möglich Theoretische Grundlagen • Unterscheidung der Vokale mittels Formanten(unterschiedliche Frequenzbereiche) • Konsonanten schwieriger erkennbar a) Durch benachbarte Laute b) Durch spektrale Muster • Verwendung mathematischer Verfahren(HiddenMarkov-Model, Wahrscheinlichkeiten,Statistik) sowie Neuronaler Netze und Grammatiken zur Erkennung Theoretische Grundlagen Aufbau eines Spracherkennungssystems nach Waibel Praktische Durchführung • Voice Portale in Callcenter-Agenturen(Banken,...) • Fahrplanauskünfte und -bestellungen am Telefon • Medizinische Befunde und Schreibarbeit • Diktat von Texten • Sprachsteuerung eines Autoradios(Senderwahl) • Embedded Systeme(Chips in Maschinen,Automaten) • Sprachchat(z.B. TeamSpeak) Praktische Durchführung Nuance(IBM) Linguatec Nuance Praktische Durchführung Installation eines Spracherkennungssystems • Installation des Programmes(„Windows-Like“) • Erster Start: Probediktate 20-60min. • Programm rechnet ca. 30min.(Wertet Probediktate aus- erstellt Stimmenprofil) • Programme sind startbereit zum Diktat(ca. 5-10 Fehler auf 100 Worte) • Verminderung der Fehler auf ca. 3-8 Fehler pro 100 Worte mittels schon geschriebener Texte • Diktate geschehen mittels Mikrophon(Headset) wegen geringerer Fehler durch Lärm in der Umgebung Praktische Durchführung Speech Application Programming Interface(SAPI) • Schnittstelle zur Anbindung von Bibliotheken zur Sprachsynthese und Spracherkennung • Entwickler: Microsoft • Ab Windows 2000 in einer englischen Version vorinstalliert • Kann aber auf alle Systeme nachinstalliert werden • Programmierer benötigt SAPI-SDK Zusammenfassung Vorteile • Verminderter Arbeitsaufwand beim Tippen • Hände frei für andere Aufgaben • Einfache und intuitive Bedienung • Relativ preiswerte Programme Zusammenfassung Nachteile • Langwierige Einarbeitungszeit • Ohne Trainingszeit enorm hohe Fehlerrate • Fortschritt noch nicht so enorm • Anfällig auf Nebengeräusche(Messe, Konferenz, Büros,...) • Kritisch bei Erkältung und Stimmproblemen Quellenangaben Links http://www.wikipedia.de/ http://www.nuance.de/ http://www.microsoft.com/ http://www.google.de/ E-Book Dr. Eckard Bernd (Fraunhofer Institut) -“Angewandte Forschung in der Mensch-Technik-Interaktion“ Danke für die Aufmerksamkeit! Gibt es noch Fragen?