NEUROBIOLOGISCH INSPIRIERTE LOKALISIERUNG
Transcription
NEUROBIOLOGISCH INSPIRIERTE LOKALISIERUNG
NEUROBIOLOGISCH INSPIRIERTE LOKALISIERUNG VON SPRECHERN IN REALEN UMGEBUNGEN axel plinge korrigierte Version November 2010 Diplomarbeit Fakultät für Informatik in Zusammenarbeit mit dem Institut für Roboterforschung Technische Universität Dortmund Axel Plinge Neurobiologisch inspirierte Lokalisierung von Sprechern in realen Umgebungen Diplomarbeit korrigierte Version vom November 2010 gutachter: Dipl.-Inf. Marius Hennecke Prof. Dr.-Ing. Gernot A. Fink Kurzbeschreibung Die robuste Lokalisierung von Sprechern in realen Umgebungen ist eine Aufgabe für viele Anwendungen in modernen, „intelligenten Umgebungen“. Ein typisches Szenario ist ein Gruppengespräch in einem Konferenzraum, in welchem die Signale durch Hall gestört sind. Hierfür wurde ein Verfahren entwickelt, das mit der pragmatischen Kombination von Wissen aus technischer und biologischer Forschung Sprecher lokalisiert. Mit der Integration von Modellen der Neurobiologie und Kognitionspsychologie wird das natürliche Vorbild in Form von aktuellen Forschungsergebnissen zur menschlichen Verarbeitung von Sprache verwendet. Gleichzeitig werden durch Verwendung eines Mikrophonarrays technische Vorteile genutzt. Zur Evaluierung werden neben Simulationen insbesondere auch Daten aus realen Aufnahmen verwendet. Das Ergebnis der Arbeit ist zum einen ein echtzeitfähiges Lokalisierungsverfahren mit sehr robusten Merkmalen für reale Anwendungen; zum anderen ist der innovative Brückenschlag zwischen den verschiedenen Disziplinen eine Basis für weitere interessante Forschungsvorhaben. Abstract The robust localization of speakers is an important task in many modern intelligent surroundings. A prominent scenario is a discussion in a conference room. Here, reverberation distorts all acoustic measurements. For such environments a system was developed, which localizes speakers in real time by pragmatic combination of results from technical, psychological and biological research. By integrating neurobiological models and theories of cognitive psychology, recent results in our understanding of human hearing are used. Technical advantages are gained by use of a microphone array for signal input. The system was refined and tested in simulated and real environments. The result of this work is not only in a robust, real-time-capable localization solution, but also an innovative bridge between interdisciplinary fields that manifests a basis for many interesting directions of research. INHALTSVERZEICHNIS 1 Einleitung 1 1.1 Vorhaben 2 1.2 Struktur der Arbeit 3 2 Hintergrund 5 2.1 Sprachproduktion 6 2.1.1 Phone in flüssiger Sprache 6 2.1.2 Artikulation 7 2.1.3 Source-Filter-Modell 7 2.1.4 Lautklassen 8 2.2 Schallausbreitung, Raumakustik und Aufnahme 9 2.2.1 Schallausbreitung 9 2.2.2 Hall 10 2.2.3 Mehrere Sensoren 11 2.3 Menschliches Hören 14 2.3.1 Kopfbezogene Übertragungsfunktion 14 2.3.2 Reizaufnahme 15 2.3.3 Neurale Kodierung 16 2.3.4 Frühe neuronale Verarbeitung 19 2.3.5 Höherstufige Neuronale Sprach-Verarbeitung 20 2.3.6 Abstraktion und Aufmerksamkeit 21 2.4 Auditorische Szenenanalyse 22 2.4.1 Szenenanalyse 22 2.4.2 Gruppierung und Segregation 23 2.4.3 Verarbeitungsmodell für Sprache 24 3 Stand der Technik 29 3.1 Technische Lokalisierung 29 3.1.1 Indirekte Lokalisierung 29 3.1.2 Korrelationsbasierte Lokalisierung 30 3.1.3 Kombination mehrerer Mikrophonpaare 31 3.2 Lokalisierung mehrerer Quellen 32 3.2.1 Eigenwertverfahren 32 3.2.2 Gauß’sche Mischverteilung und Kurzzeitcluster 34 3.3 Modelle binauralen Hörens 35 3.3.1 Gammaton-Filterbank 35 3.3.2 Neuronale Kodierung 37 3.3.3 Korrelation 37 3.4 Bilogistische Lokalisierung 39 3.4.1 Kunstkopf 39 3.4.2 Salienz und humanoide Roboterohren 40 3.4.3 Sprecherverfolgung 41 3.5 Spracherkennung 42 3.5.1 Merkmale für robuste Spracherkennung 43 3.5.2 Einkanalige Sprechertrennung 44 3.5.3 Nulldurchgangsbasierte Trennung 44 3.5.4 Korrelationsbasierte Trennung 46 4 Neuro-Fuzzy-Lokalisierung 47 4.1 Verarbeitungsstruktur 47 iii 4.2 4.3 4.4 4.5 4.6 4.7 Signalaufnahme 48 4.2.1 Mikrophonarray 48 4.2.2 Platzierung 49 Cochlea-Modell 49 4.3.1 Filterbank 50 4.3.2 Impulserzeugung 51 Modell neuronaler Korrelation 53 4.4.1 Aliasing 53 4.4.2 Impulskorrelation 54 Rückprojektion und Kombination 54 4.5.1 Rückprojektion 54 4.5.2 Kombination 56 Lokalisierung von Sprechern 58 4.6.1 Zeitliche Mittelung 58 4.6.2 Zusammenfassen der Frequenzbänder 58 4.6.3 Peaklokalisierung 60 Zusammenfassung 61 5 Evaluierung 63 5.1 Daten 63 5.1.1 Simulierter Konferenzraum 63 5.1.2 AV16.3-Korpus 64 5.1.3 FINCA 64 5.2 Systemkomponenten 65 5.2.1 Impulserzeugung und Korrelation 65 5.2.2 Rückprojektion und Kombination 66 5.2.3 Kombinationsverfahren 68 5.3 Lokalisierung je Zeitfenster 68 5.3.1 Impulserzeugung 71 5.3.2 Hamacher-t-Normen 72 5.3.3 Modulationsdetektion 73 5.4 Integration über die Zeit 73 5.4.1 Sprach- und Hallmodell 74 5.4.2 Lokalisierung gleichzeitiger Sprecher 75 5.5 Anwendung in realen Konferenzraumszenarien 76 5.5.1 AV16.3-Sequenz 1: Einzelner Sprecher 77 5.5.2 FINCA-Sequenz 1: Einzelner Sprecher 78 5.5.3 FINCA-Sequenz 2: Diskussion am Tisch 80 5.5.4 FINCA-Sequenz 3: Gleichzeitige Sprecher im Raum 80 6 Fazit 83 6.1 Zusammenfassung 83 6.2 Bewertung 84 6.3 Einsatzgebiete und Weiterentwicklungen 84 a Implementierung 87 a.1 Laufzeitoptimierung 87 a.2 Werkzeuge 88 verzeichnisse 91 Abbildungsverzeichnis 91 Tabellenverzeichnis 92 Algorithmenverzeichnis 92 Literaturverzeichnis 92 iv inhaltsverzeichnis AKRONYME ASA Auditory Scene Analysis CASA Computational ASA CGM Corpus Geniculatum Medium, mittlerer Kniehöcker CN Cochlea Nucleus CRLB Cramer-Rao Lower Bound EM Expectation Maximization ERB Equal Resonance Bandwidth FFT Fast Fourier Transform FFTW Fastest Fourier Transform in the West, „somewhat whimsical title“ einer FFT Bibliothek FIR Finite Impulse Response, ein Filtertyp FINCA a Flexible, Intelligent eNvironment with Computational Augmentation GCC GNU 1) GNU Compiler Collection 2) Generalized Cross Correlation GNU is Not Unix HMM Hidden Markov Model HRTF Head Related Transfer Function IC Inferior Coculli IID Interaural Intensity Difference IIR Infinite Impulse Response, ein Filtertyp IRF Institut für Roboterforschung ISM Image-Source Model, Reflexionsmodell für Hall ISD Interaural Spectral Difference ITD Interaural Time Difference LSO Lateral Superior Olive, seitlicher Teil des SOC MFCC Mel Frequency Cepstral Coefficients MSO Medial Superior Olive, mittlerer Teil des SOC NCCF Normalized Cross Correlation Function OpenMP Open MultiProcessing. Ein Standard zur Nutzung von Multicore CPUs PHAT Phase Transform PoA Peak over Average PoAP Peak over Average Position RIR Room Impulse Response RMS Root Mean Square SLF Spatial Likelihood Function SOC Superior Oliveary Complex, oberer Olive SRP Steered Response Power TDOA Time Delay Of Arrival WER Word Error Rate akronyme v NOTATION r ein Skalar a ein Vektor ( x0 , . . . xn−1 ) T A eine Matrix x (t) eine kontinuierliche Funktion x [t] ein diskretes Signal X[ f ] xn ein Folgenwert ı die imaginäre Einheit k·k Euklidischer Abstand (·)∗ komplexe Konjugation (·)T Transposition (·)H Hermitische Transponsition, die Transponierte des komplex-konjugierten Vektors E {·} Erwartungswert N (µ, σ) a[t] ⊗ b[t] Normalverteilung mit Mittelwert µ und Standardabweichung σ diskrete Faltung F {·}, F −1 {·} Fourier-Transformierte und ihre Inverse x (t) ◦−• X (ω ) Korrespondenz, x im Zeitbereich entspricht X im Frequenzbereich X (ω ) •−◦ x (t) Korrespondenz, X im Frequenzbereich entspricht x im Zeitbereich /x/ vi ein diskretes Spektrum notation SAMPA Lautschrift /s'AmpAl'AutSRIft/ 1 EINLEITUNG Die faszinierende Fähigkeit des Menschen, aus der Schwingung zweier Trommelfelle eine reichhaltige Repräsentation der Außenwelt zu konstruieren, ist bereits seit über einem halben Jahrhundert Motor vielfältiger Forschung. Eine besonders bemerkenswerte Leistung ist das Verstehen eines Gesprächspartners bei Umgebungslärm, Hall und weiteren gleichzeitigen Sprechern. Die psychoakustische und kognitionspsychologische Forschung hat die menschliche Verarbeitung von Wahrnehmungsinhalten mit einer großen Zahl von Hörversuchen untersucht. Die Separation des Gehörten in Ströme (streams) verschiedener Quellen über die Zeit ist zentraler Bestandteil der Theorie der auditorischen Szenenanalyse (Auditory Scene Analysis, ASA) von A. Bregmann [Bre90]. Neben der Bildung von Merkmalen und den Regeln ihrer Verknüpfung spielt auch immer die Interpretation der Signale sowie die Rekonstruktion fehlender Information mittels Kontext und je eines Sprach- und Sprechermodells eine Rolle. Theorien wie das glimpsing model [Coo06] erklären das Sprachverstehen bei starken Störungen nicht per regelgeleiteter Merkmalskombination, sondern vielmehr als nachträgliche Interpretation und Zuordnung einiger weniger klarer Sprachelemente. Kognitionspsychologie Der psychoakustische Aufbau des Ohres ist inzwischen gut erforscht und in Modellen, zum Beispiel für Musikkompression in MPEG Audio, umgesetzt [Bra89]. Die neuronale Merkmalsextraktion entlang der auditory pathways ist Gegenstand neurobiologischer Untersuchungen, die Funktionen und das Wechselspiel der beteiligten Hirnareale sind nur zum Teil bekannt. Insbesondere für das Hören bei Hall existiert bis heute kein einheitliches Modell [PZSR+ 07]. Die hohe Komplexität und Individualität des Gehirns erschwert eine analytische Untersuchung der Mechanismen. Bei der Sprachwahrnehmung sind weitere Hirnareale beteiligt, welche unter anderem die räumliche Repräsentation, den Inhalt und die Erzeugung von Sprache betreffen [Sco05]. Psychoakustik In den letzten Jahren haben sich einige Implementierungen herausgebildet, welche die Fähigkeiten des menschlichen Gehirns bei der Sprachverarbeitung unter Verwendung von neurobiologischen Modellen und Konzepten der ASA nachahmen [WB06]. Die Übertragung des evolutionär optimierten menschlichen Hörapparates in ein Computermodell erzielt dabei mitunter beachtliche Ergebnisse. Bislang existieren jedoch sehr wenige erfolgreiche Anwendungen in realen Umgebungen mit signifikantem Hall, wie etwa einem typischen Konferenzraum. Demgegenüber existieren eine ganze Reihe technischer Lokalisierungslösungen mit Mikrophonarrays [BW01], welche trotz Störungen und Hall beachtliche Genauigkeit erzielen. Die hier angewendeten Verfahren stammen zum Teil aus der Radartechnik und nehmen nur selten Rücksicht auf die Natur des zu ortenden Signals. Für Einsatz in realen Umgebungen muss hier eine Sprache-Nichtsprache-Unterscheidung ergänzt werden. In den letzten Jahren gab es erste Versuche, die technischen und biologischen Lokalisierungsansätze in einem hybriden Verfahren zu vereinen [SGK+ 08]. 1 ASA glimpsing model Neurobiologie Sprache Computermodelle CASA technische Lokalisierung hybride Verfahren 1.1 hybrides Verfahren Hall zirkuläres Mikrophonarray TDOA Neurobiologische Modelle Zeit×Winkel Lokalisierung Evaluierung in realen Umgebungen vorhaben Hier setzt auch die vorliegende Arbeit an. Für die robuste Lokalisierung von Sprechern in realen Umgebungen wird ein hybrides Verfahren mit der pragmatischen Kombination von neurobiologischen und kognitionspsychologischen Modellen mit technischen Methoden entwickelt. Als typischer Anwendungsfall wird ein Gruppengespräch in einem Konferenzraum ausgewählt. Hier erschwert vor allem der Hall die Lokalisierung. Um technische Möglichkeiten dort zu nutzen, wo sie Vorteile bringen, wird von der menschlichen Physiologie Abstand genommen. Anstelle eines (Kunst-)Kopfes mit zwei Sensoren wird ein auf dem Tisch positioniertes zirkuläres Mikrophonarray aus acht Mikrophonen verwendet wie in Abbildung 1 skizziert. Die Lokalisierung wird durch eine Rückprojektion der Ankunftszeitdifferenzen zwischen Mikrophonsignalen in Sprecherwinkel vorgenommen. Neurobiologische Modelle der Cochlea und der lokalisierenden Verarbeitung in den auditory pathways werden eingesetzt und an die Verwendung von mehr als zwei Sensoren angepasst. Dabei wird besonders auf die Berechnung robuster Merkmale Wert gelegt und auf effiziente Berechenbarkeit geachtet. Es werden biologische wie technische Strategien zum Umgang mit Hall untersucht. Um Sprachenergie im Zeit×Winkel-Raum zu lokalisieren, wird eine zusammenfassende Nachverarbeitung basierend auf Sprachwahrnehmungs- und Sprachmodellen eingesetzt. Die Entwicklung und Optimierung des Systems geschieht zum Teil mit simulierten Szenarien mit vorgegebenen Eigenschaften. Das System wird auch auf realen Aufnahmen aus Konferenzraum-Korpora und mit eigenen Aufnahmen im intelligenten Konferenzraum der FINCA [Plö07] getestet. Abbildung 1.: Konferenzszenario: Die Sprecher an einem Konferenztisch werden durch das zirkuläre Mikrophonarray auf demselben lokalisiert. 2 einleitung 1.2 struktur der arbeit Die Arbeit gliedert sich in sechs Kapitel. Die Einleitung führt in die Thematik ein und skizziert die zu lösende Aufgabe. Im zweiten Kapitel wird die interdisziplinäre Basis in Form von Erkenntnissen der (Neuro-)Biologie, Kognitionspsychologie und Physik dargestellt. Vor diesem Hintergrund werden im dritten Kapitel existierende Modelle und Algorithmen aus der aktuellen Forschung in der (Neuro-)Informatik dargestellt. Im vierten Kapitel werden das entworfene Verfahren und die implementierte Verarbeitung im Detail beschrieben. Das fünfte Kapitel schildert die zur Evaluierung durchgeführten Experimente mit ihren Ergebnissen. Im sechsten Kapitel wird eine Bewertung der Implementierung und der damit durchgeführten Experimente abgegeben. Ein Ausblick auf mögliche weitere Arbeiten schließt diese Arbeit ab. 1.2 struktur der arbeit 3 2 HINTERGRUND Die in dieser Arbeit erstellte Implementierung basiert auf Wissen aus den Bereichen Psychophysik, Neurobiologie, Kognitionspsychologie und Akustik. Dieses Kapitel dient der Erläuterung relevanter Erkenntnisse in diesen Wissenschaften. In den folgenden Abschnitten wird das Sprachsignal von seiner Entstehung über seine Ausbreitung im Raum bis zur Aufnahme im menschlichen Ohr und schließlich der Interpretation des Gehörten im Gehirn verfolgt, wie in Abbildung 2 dargestellt. Für menschliche wie maschinelle Verarbeitung sind Informationen über die Natur des Signales wichtig und Grundlage für die Verarbeitungsstrukturen und Heuristiken [RS78, All94]. Daher werden die Sprachproduktion und die daraus folgenden charakteristischen Eigenschaften des Sprachsignales im ersten Abschnitt (2.1) kurz erläutert. Der physikalische Hintergrund der Schallausbreitung und Aufnahme wird im nächsten Abschnitt (2.2) kurz dargestellt. In einem Innenraum entsteht durch Reflexionen Hall [Kut00]. Statt sich auf zwei Ohren zu beschränken, können bei der technischen Aufnahme von Signalen mehrere Mikrophone verwendet und geeignet zusammengefasst werden, um die Signalqualität zu erhöhen [BW01]. Im folgenden Abschnitt (2.3) wird der aktuelle Wissensstand der Psychoakustik und Neurologie über das Hören von Sprache charakterisiert. Der Vorgang der Schallaufnahme bis zur neuronalen Kodierung ist im wesentlichen durch den physiologischen Aufbau des Hörapparates determiniert und somit beinahe identisch für alle Menschen und die meisten Säugetiere [GM00]. Die sensorischen Mechanismen sind heute weitgehend erforscht und in psychoakustischen Modellen nachgebildet, welche die Grundlage für die verlustbehaftete Audiokodierung in Ogg Vorbis und MPEG Audio bilden [Bra89, Lin98]. Demgegenüber ist die kognitive Verarbeitung bei Menschen kontext- und erfahrungsabhängig. Sie ist Gegenstand aktiver Forschung; die Hirnfunktionen sind nur teilweise bekannt [GM00]. Bei der Sprachwahrnehmung sind verschiedene Hirnareale beteiligt, deren genaues Zusammenspiel bis heute nicht eindeutig geklärt ist [Sco05]. Aus der Black-Box Perspektive wurden seit den 50er Jahren eine ganze Reihe kongnitionspsychologischer Experimente durchgeführt. Eine umfassende Beschreibung des Hörens verfasste Handel mit dem Buch Listening [Han89]. Zur Leistung des menschlichen Hörens zog Bregmann in dem einflussreichen Buch Auditory Scene Analysis [Bre90] (ASA) weitreichende Parallelen zu Theorien visueller Wahrnehmung und Aspekten der Gestalttheorie. Diese Theorie liefert auch eine der griffigsten Bescheibungen für die menschliche Fähigkeit, einer Person in einem Stimmengewirr mit vielfältigen Störungen zuzuhören: den 1953 so benannten Cocktail-Party-Effekt [Che53]. Der kognitionspsychologischen Theorie der ASA wird ein eigener Abschnitt (2.4) gewidmet, da sie vielen biologisch inspirierten Computermodellen, ebenso wie auch der vorliegenen Arbeit, als Grundlage dient. 5 interdisziplinärer Hintergrund Sprechen Raumakustik Hören psychoakustische Modelle kongnitionspsychologische Experimente Cocktail Party ASA Abbildung 2.: Sprachproduktion und -erkennung bei Menschen in Anlehnung an [RS78]. Der Sprecher (links) formuliert eine Nachricht. Diese wird im Gehirn in gesprochene Sprache in Form einer Folge von Phonemen und prosodischer Merkmale umgesetzt. Daraus wird eine motorische Kodierung in Bewegungsanweisungen erstellt, welche die Artikulation mittels Lunge, Stimmbändern und oberem Vokaltrakt steuern (Abschnitt 2.1). Die so produzierte Schallwelle verlässt den Mund und breitet sich im Raum aus, wo sie u.U. reflektiert wird, bis sie den Hörer erreicht (Abschnitt 2.2). Die Bewegung der beiden Tromellfelle wird in den Cochleas des Hörers (rechts) von mechanischer Bewegung in elektrische Impulse umgesetzt (Abschnitt 2.3.2ff.). Die Impulse werden in Merkmale umkodiert (Abschnitt 2.3.4). Durch neuronale Mustererkennung werden Phoneme zugeordnet, der Text der Nachricht wird dekodiert und schließlich verstanden (Abschnitt 2.3.6). Der Hörprozess wird auch durch die Theorie der ASA beschrieben (Abschnitt 2.4). 2.1 sprachproduktion Natürliche Sprache wird durch die Artikulation von Lauten erzeugt. Um die Sprache zu charakterisieren, wird selbige hier kurz erläutert. Schematisch wird die Lauterzeugung mit dem Source-Filter-Modell beschrieben. Die wesentlichen aus der Artikulation ableitbaren Lauteigenschaften und Lautklassen beschließen diesen Abschnitt. 2.1.1 Phon 6= Phonem Triphone 6 Phone in flüssiger Sprache Perzeptiv unterscheidbare Sprachlaute werden als „Phone“, bedeutungsunterscheidende als „Phoneme“ bezeichnet. Die Phone lassen sich Anhand ihrer Erzeugung in Klassen einteilen. Phone treten in natürlicher Sprache nicht isoliert auf, sondern werden vielmehr grundsätzlich durch den Kontext des vorhergehenden und folgenden Lautes beeinflusst. Dem wird in automatischen Spracherkennungs- und Sprachsynthesesystemen damit Rechnung getragen, dass nicht einzelne Phone, sondern Triphone die modellierenden Bausteine der Sprache bilden. Ein Triphon ist ein Modell eines zentralen Lautes mit dem Übergang zu seinem Vorgänger und Nachfolger [Fin03, ST95]. Entgegen der graphemischen Repräsentation von geschriebener Sprache, in der jedes Graphem weitgehend isoliert erkennbar ist, erfolgt die Artikulation von Phonen kontinuierlich. Die im folgenden beschriebenen klassentypischen Zustände des Artikulationsapparates werden in flüssiger Sprache oft nur kurzzeitig gerade solange und so deutlich ange- hintergrund Abbildung 3.: Röhrenmodell der Sprachproduktion [Han89, S. 140] Der Vokaltrakt wird durch eine Folge von Röhren unterschiedlichen Durchmessers modelliert. Aufgrund dieser ergeben sich Resonanzen und damit die spektrale Energieverteilung. nommen, dass ein Hörer diese gerade eben identifizieren kann. Der weitaus überwiegende Teil des Sprachsignales besteht aus Übergängen, die ihrerseits aus muskulären Übergängen des Artikulationsapparates resultieren. 2.1.2 Artikulation Die Produktion eines Sprachlautes durch den Menschen lässt sich in vier Schritte gliedern: Erstens das Ausströmen eines Luftstroms aus den Lungen, zweitens die Modulation desselben durch die Stimmbänder und Verwirbelungen, drittens die Artikulation durch eine bestimmte Konfiguration des Mund- und Nasenraumes und schließlich die Abstrahlung des Schalles an den Lippen [Han89, S. 135ff.]. Zur Artikulation eines Sprachlautes oder Phons wird Luft aus der Lunge gepresst. Werden die Stimmbänder in Schwingungen versetzt, so bewirkt das Öffnen und Schließen eine regelmäßige Modulation des Luftstromes und somit des erzeugten Druckes. Das modulierende Organ aus den Stimmbändern und dem Raum dazwischen wird als Glottis bezeichnet. Die Wiederholzeit T0 zwischen zwei Verschlüssen der Glottis nennt man Stimmtonhöhe, engl. pitch. Die Luft durchströmt dann Mund- und Nasenraum und verlässt dann den Mund an den Lippen. Je nach Stellung der Zunge, des Kiefers und der Lippen werden verschiedene Resonanzen erzeugt, welche die Klangfarbe des erzeugten Lautes ändern. Die Gesamtheit von Glottis, Rachen, Mund und Nasenraum bis zu den Lippen bezeichnet man bei Säugetieren als den Vokaltrakt. 2.1.3 Vokaltrakt Source-Filter-Modell Der Artikulationsprozess kann durch ein Source-Filter-Modell beschrieben werden. Dabei wird das Signal aus der Glottis als Quellsignal und der obere Teil des Vokaltraktes als Filter betrachtet. Das Filter wird wie in Abbildung 3 dargestellt als Folge von Röhren wechselnden Durchmessers modelliert; daher wird auch der Name Röhrenmodell verwendet. Das Anregungssignal kann man hier als additive Kombination einer stimmhaften oder tonalen Komponente v und stimmlosen oder Rauschkomponenten n formulieren. Das vom Röhrensystem t gefilterte Signal ergibt sich so mit einem diskreten Zeitindex i als x [i ] = (v[i ] + n[i ]) ⊗ t[i ]. Röhrenmodell (2.1) 2.1 sprachproduktion 7 Die Faltung geht dabei nach einer z-Transformation in eine Multiplikation über: X [z] = (V [z] + N [z]) T [z]. Sprachkodierung Sprachsynthese Dieses Modell bildet auch die Grundlage für die Anwendung der linearen Vorhersage (LPC) bei der Sprachkodierung [GM00, S. 280-291]. Diese findet in verschiedenen Algorithmen zur verlustbehafteten Sprachkompression Anwendung, die etwa bei Voice-over-IP-Telefonie oder GSM-Mobiltelefonen verwendet werden [GM00, S. 474-489] [Ata06]. Frühe Sprachsynthesizer und Vocoder basierten ebenfalls auf dem Source-Filter-Modell [GM00, S. 395-402, 431-449]. Heute sind diese fast nur noch im akademischen Umfeld zu finden. Maschinelle Sprachsynthese wird heute nahezu ausschließlich durch das Aneinanderreihen einzelner, kurzer Sprachsegmente aus der Aufnahme eines realen Sprechers realisiert. Dabei werden Segmente vom Umfang weniger Pitchperioden mit Verfahren der Zeitdehnung und -stauchung sowie Überblendung nach abgespeicherten prosodischen Regeln zu einem Sprachsignal mit kontinuierlichem Pitchverlauf kombiniert [GM00, S. 403405]. So ist qualitativ hochwertige Sprachsynthese mit vergleichsweise geringem Rechenaufwand und güstiger Hardware z.B. in AutoNavigationssystemen realisierbar. 2.1.4 Vokale Formanten Nasale Frikative stimmhafte Frikative Plosive 8 (2.2) Lautklassen Die Phonetik unterteilt Sprachlaute anhand ihrer Erzeugung in Klassen [Han89, S. 141ff.]. Stimmhafte Laute, die wesentlich durch regelmäßige, stimmhafte Anregung erzeugt werden, sind vor allem die Vokale und Nasale. Die Vokale /a/, . . . , /i/ unterscheiden sich primär durch die Resonanzen im Vokaltrakt, welche sich durch unterschiedliche Stellungen der Zunge ergeben. Die stark ausgeprägten spektralen Energiemaxima werden als Formanten bezeichnet. Wesentlich für die Lautunterscheidung sind hier insbesondere die stärksten beiden Formanten, welche im Bereich von 0.2 − 0.8 kHz und 0.4 − 3.2 kHz liegen. Sie werden oft auch kurz mit F1 und F2 bezeichnet. Diese führen unabhängig von der Anregung zu einer klaren Einteilung in Lautklassen. Bei einem gehauchten oder geflüsterten Vokal wird der Vokaltrakt bei identischer Stellung durch einen unmodulierten Luftstrom angeregt. Bei den Nasalen /m/, /n/ wird der Nasenraum zur Abstrahlung benutzt, was zu einem breiten niedrigen spektralen Energiemaximum, dem sogenannten nasal bar führt. Laute, deren Charakter wesentlich durch eine Rauschkomponente bestimmt wird, die durch Reibung im Mundraum erzeugt wird, bezeichnet man als Frikative (Reibelaute). Wichtige stimmlose Frikative in der deutschen Sprache sind etwa /s/ wie in Sieb, /f/ wie in Fisch oder /S/ wie in Schall. Werden zusätzlich die Stimmbänder eingesetzt so werden stimmhafte Frikative wie /z/ wie in Sonne oder /w/ wie in Wasser erzeugt. Das stimmhafte wie auch das stimmlose s (/z/, /s/) nehmen unter den Lauten eine Sonderrolle ein, da diese mit einem spektralen Schwerpunkt von 5 − 7 kHz als einzige Laute neben dem /t/ wesentliche Merkmalsenergien jenseits von 4 kHz aufweisen. Die stimmlosen und stimmhaften Plosive (Verschlusslaute) /t/, /p/ und /k/ sowie /b/, /d/ und /g/ bilden eine weitere Klasse. Diese sind durch eine 10 − 100 ms lange Verschlusspause (closure) gekennzeichnet, hintergrund auf welche ein explosiver Luftauslass (burst) folgt [Hel93]. Plosive werden nicht ohne den Kontext eines zweiten Lautes artikuliert, bei der Koartikulation mit einem vokalischen Laut kommt es zu typischen, merkmalstragenden Formantübergängen (formant transitions). Die Plosive werden in indoeuropäischen Sprachen für die Segmentierung des Sprachstromes durch den Hörer verwendet. Die fehlerfreie Unterscheidung zwischen einzelnen Plosiven gelingt auch menschlichen Hörern nur unter optimalen Bedingungen oder durch den Satzkontext [GM00, S. 228-235]. 2.2 schallausbreitung, raumakustik und aufnahme Der Schall, also auch das Sprachsignal eines menschlichen Sprechers, wird als kugelförmige Druckwelle abgestrahlt. Die Druckveränderungen können von einem Sensor wie etwa einem Mikrophon oder einem menschlichen Ohr an der Position mn aufgenommen werden. Im Folgenden werden kurz die physikalischen Eigenschaften der Schallausbreitung, des Halls und der Eigenschaften der Messung mit mehreren Sensoren beschrieben. 2.2.1 Schallausbreitung Schall breitet sich kugelförmig von seiner Quelle q aus. Nach der thermischen Zustandsgleichung ist die Geschwindigkeit c= r κ √ RK ≈ 402 · K, M (2.3) abhängig von der Temperatur K in Kelvin. Dabei bezeichnet κ den Adiabatenexponenten, R die Gaskonstante und M die molare Masse von Luft [Boh88]. Die Zeit T (q, mn ) = kq − mn k , c (2.4) welche der Schall von der Quelle an Position q zu einem Sensor mn benötigt, ist linear vom Abstand der beiden abhängig. Die Amplitude A(q, mn ) = A0 kq − mn k (2.5) der Schallwelle nimmt reziprok linear mit der Entfernung ab, dabei ist A0 die Amplitude an der Quelle [Täg98]. Die Überlagerung mehrerer Schallquellen erfolgt dabei linear in der Amplitude, so dass sich diese in der Betrachtung addieren lassen. Insgesamt ergibt sich das Signal yn (t) = ∑ A(qi , mn ) xi (t − T (qi , mn )) Linearkombination (2.6) qi am Sensor mn als Summe der Signale xi (t) von Positionen qi . 2.2 schallausbreitung, raumakustik und aufnahme 9 Abbildung 4.: Schallausbreitung im Raum: Von der Quelle qi kugelförmig abgestrahlte Druckwellen treffen auf direktem Wege bei den Sensoren m n und m n ein. Dazu kommen vielfältige Wege über die Reflexion an den Wänden. 2.2.2 Hall In Innenräumen kommt es durch die Reflexion der Schallwelle an Wänden und Objekten im Raum zum verzögerten, gedämpften Eintreffen des Schalles auf indirektem Wege von der Quelle zum Empfänger – dem Hall. In Abbildung 4 sind neben dem direkten Schallweg (durchgezogene Linien) exemplarisch indirekte Schallwege (gestrichelte Linien) zwischen Quelle und Sensoren eingezeichnet. Raumsimulation Raumimpulsantworten Nimmt man zu jeder Reflexion an einer Fläche Sk einen bestimmten Dämpfungsfaktor αk an und berechnet alle indirekten Wege als Spiegelungen an Flächen, so erhält man ein Spiegelmodell der Schallausbreitung, das source-image model [AB79]. Nach diesem werden für jedes Quelle-Sensor-Paar (i, n) Raumimpulsantworten (room image response, RIR) als Übertragungsfunktion angeben. Die RIRs sind hier analog zu einem Kern eines linearen Filters mit endlicher Impulsantwort (Finite Impulse Response, FIR). Faltet man nun das Quellsignal mit der RIR hin des zugehörigen Paares, erhält man das Signal am Sensor. Insgesamt ergibt sich das Signal yn (t) = ∑ hin ⊗ xi (t) ◦−• ∑ Hin ( f )Xi ( f ) i (2.7) i am Sensor mn als Summe der mit den RIRs gefalteten Signale xi (t). Trägt man die Energie einer Raumimpulsantwort gegen die Zeit auf, erhält man ein sogenanntes Reflektogramm (Abbildung 5). Am Anfang steht der primäre Peak des Direktschalls, gefolgt von wenigen frühen Reflexionen (early reflections) die immer dichter werden und in einem diffusen Hallgemisch auslaufen. Maßzahlen Nachhallzeit 10 Um die Stärke des Halls durch quantitative Größen auszudrücken, gibt es verschiedene Maßzahlen. Die Gebräuchlichste ist die Nachhallzeit T, die Zeit, welche der Schall benötigt, um auf ein Millionstel seiner Amplitude abzufallen. Wird diese anhand des Abfalls um 60 dB bestimmt, hintergrund Abbildung 5.: Reflektogramm mit der typischen dreigliedrigen Struktur aus Direktschall, frühen Reflexionen und diffusem Hall-ende (tail) [Beh06] wird die Nachhallzeit mit T60 bezeichnet. Näherungsweise kann die Nachhallzeit T für einen Raum mit dem Volumen V nach der Eyringschen Nachhallformel T ≈ 0.163 V 4mV − S ln(1 − α) (2.8) bestimmt werden [Kut00, S. 128]. Dabei wird die Absorption α über alle Flächen Sk gemittelt: α= ∑ k Sk α k , S S= ∑ Sk . (2.9) k Als den Hallradius eines Raumes bezeichnet man die Entfernung zur Quelle, in der direkter und reflektierter Schall die selbe Amplitude haben. Nimmt man näherungsweise an, dass der Direktschall nach Gleichung 2.5 linear abnimmt, während der Nachhall weitgehend konstant ist, läßt sich der Hallradius als r V (2.10) r H ≈ 0.057 T aus dem Volumen V des Raumes und der Nachhallzeit T bestimmen [Kut00, S. 317]. Für ein konkretes Quelle-Sensor-Paar wird manchmal auch das Verhältnis von direktem und reflektiertem Schall angegeben, die sogenannte direct-to-reverberation-ratio, DRR [WB06, S. 206]. 2.2.3 Hallradius DRR Mehrere Sensoren Häufig wird ein Quellsignal q(t) an einer Quellposition q von Sensoren wie Mikrophonen oder menschlichen Trommelfellen an Positionen mm,n aufgenommen. Die Signale ym , yn der verschiedenen Sensoren unterscheiden sich dabei zunächst abhängig von der Distanz zur Quelle. Der Sensorabstand wirkt sich unterschiedlich für verschiedene Frequenzen aus. Er hat auch Auswirkungen auf die Kohärenz der Signale. Quellpositionsabhängigkeit Werden mehrere Sensoren eingesetzt, kommt es zur richtungsabhängigen Verzögerung und Amplitudenunterschieden zwischen den aufge- 2.2 schallausbreitung, raumakustik und aufnahme 11 Abbildung 6.: Mikrophonpaar im Fernfeld: Die von oben Rechts eintreffenden quasiparallelen Wellenfronten (graue Linien) treffen bei den beiden Sensoren m m und m n mit einer zum Verhältnis der Ankathete und Hypothenuse des eingezeichneten rechwinklingen Dreiecks proportionalen Zeitverzögerung ein. nommenen Signalen. Die Zeitverzögerung, time delay of arrival, (TDOA) ist TDOA (mm , mn ) = far field assumption kq − mn k − kq − mm k . c (2.11) Im allgemeinen entspricht einem Wert für die Zeitverzögerung ein Hyperboloid im Raum, der um den Mittelpunkt m0 = (mm + mn )/2 der Mikrophone zentriert und zur Strecke mm mn symmetrisch ist. Für hinreichend große Abstände zur Quelle sind die eintreffenden Wellenfronten quasi parallel [BW01, S. 167ff.]. Diese wird als Fernfeldannahme bezeichnet, hier gilt die einfache geometrische Beziehung kmn − mm k TDOA (mm , mn ) ≈ cos α c (m0 − q )(mm − mn ) mit α = arccos , km0 − q kkmm − mn k (2.12) nach welchen der Laufzeitunterschied nur noch vom Winkel zwischen der Quelle und den Sensoren abhängt, dabei ist α der Winkel zur Strecke mm mn , wie in Abbildung 6 skizziert. Der Amplitudenunterschied entspricht dem Verhältnis der Entfernungen: ADOA (mm , mn ) = kq − mn k . kq − mm k (2.13) Die Amplitudendifferenz ist im Fernfeld vernachlässigbar, im Nahbereich jedoch signifikant [Täg98]. Frequenzabhängigkeit räumliches Aliasing Für Frequenzen, deren Wellenlänge kleiner ist als der Abstand zwischen den Sensoren, kommt es zu räumlichem Aliasing: Zwischen den Sensoren ist Raum für mehrere Wellen, so dass die Zeit-Wellenform nicht mehr eindeutig zuzuordnen ist. Für jeden Sensorabstand gibt es daher eine maximale Frequenz f < f alias = 12 hintergrund c , kmn − mm k (2.14) Abbildung 7.: zirkuläre (links), broadside (mittig) und end-fire (rechts) Anordung von Mikrophonen ab der räumliches Aliasing auftritt. Soll eine Richtwirkung durch Ausnutzen der Phasenlage in kohärenten Schallfeldern erzielt werden, so ist der Abstand auch nicht wesentlich kleiner als etwa eine Viertelbis Achtel-Wellenlänge zu wählen, da sonst große Amplitudenkorrekturfaktoren nötig sind. Zu hohe Verstärkungen sind praktisch nicht realisierbar, da sie das Eigenrauschen der Mikrophone verstärken und das System extrem empfindlich gegenüber kleinen Abweichungen machen: f ≥ f min = c . 8kmn − mm k (2.15) Um beide Forderungen zu beachten, werden verschachtelte Mehrbandstrukturen eingesetzt, welche Mikrophone in verschiedenen Abständen für verschiedene Frequenzbänder enthalten [MS01]. Üblicherweise werden dabei die Mikrophonabstände pro Frequenzband halbiert. In Abbildung 7 ist ein lineares Array aus sieben Mikrophonen in drei Oktavsubbändern in der kolinearen, sogenannten end-fire-Anordnung, und der orthogonalen, sogenannten broadside-Anordung skizziert. Insbesondere für Lokalisierungaufgaben werden auch zirkuläre und sphärische Mikrophonarrays eingesetzt [MM03, LO07, KR09]. Hier werden von allen Kanten gleicher Länge in der Clique der Mikrophone Subbänder aufgespannt, in Abbildung 7 links sind diese durch verschiedene Strichmuster für ein zirkuläres Array mit acht Mikrophonen dargestellt. Arraygeometrien Kohärenz Eine weitere von der Frequenz und dem Sensorabstand abhängige Größe ist die räumliche Kohärenz des Schallfeldes. Gemessen wird diese als Betragsquadrat der Kohärenzfunktion MSCm,n ( f ) = |Φm,n ( f )|2 , Φm,m ( f )Φn,n ( f ) (2.16) die sogenannte magnitude squared coherence. Der direkte Schallanteil ist per Definition kohärent. Wenn man eine punktförmige Quelle q und für den Weg von der Quelle zum Sensor jeweils ein lineares Filter Hm , Hn annimmt, folgt (direkt) MSCm,n ( f ) Φq Hm ( f ) Hn∗ ( f )2 |Φm,n ( f )|2 = = = 1, Φm,m ( f )Φn,n ( f ) Φq | Hm ( f )|Φq | Hn ( f )| magnitude squared coherence (2.17) wobei Φq die Kohärenz des Quellsignals repräsentiert [Mar95b]. 2.2 schallausbreitung, raumakustik und aufnahme 13 diffuses Rauschfeld In Innenräumen mit signifikantem Hall ( T ≫ 0.3 s) kann der Nachhall näherungsweise als diffuses Rauschen betrachtet werden. Für diffuses sphärisches Rauschen und omnidirektionale Sensoren gilt die Näherung (diff.R.) MSCm,n 2π f kmn − mm k 2 ( f ) = si , c (2.18) wobei si den nicht normierten sinus cardinalis bezeichnet. Dies bedeutet, dass die Kohärenz des Schallfeldes mit dem Produkt der Frequenz und des Sensorabstandes abnimmt [BW01, S. 66]. Für Frequenzen oberhalb der ersten Nullstelle nimmt Gleichung 2.18 sehr kleine Werte an, so dass die Sensorsignale als unkorreliert betrachtet werden können. Damit ergibt sich eine obere Grenze von f < fg = c kmn − mm k (2.19) für die Annahme eines kohärenten Störschallfeldes. Praktisch bedeutet dies nun, dass in den alias-freien Subbändern auch mit kohärentem Störschall zu rechnen ist. 2.3 menschliches hören Es wird zunächst die binaurale Apertur beschrieben, welche die Grundlage der Lokalisierung bildet. Dann wird der physikalische Aufbau eines Ohres betrachtet. Zusammen mit der neuronalen Kodierung bildet dies den präfferenten Rahmen der Psychoakustik. Im Folgenden werden wir die elektrischen Signale weiterverfolgen und zunächst die Merkmalsbildung in den audiotory pathways beschreiben. Dann wird eine knappe Darstellung der weiteren kortikalen Verarbeitung gegeben und schließlich die Arbeitsweise von Invarianzbildung und Abstraktionsprozessen kurz erläutert. 2.3.1 Kopfbezogene Übertragungsfunktion IID & ITD Pinna Notch 14 Durch Kopf und Außenohr ergibt sich abhängig von der Richtung eine frequenzabhängige Amplituden- und Laufzeitveränderung, diese wird als head-related transfer function (HRTF) bezeichnet. Im Wesentlichen lassen sich drei Effekte zur Lokalisierung nutzen. Durch die räumliche Entfernung der beiden Ohren ergibt sich für eintreffende Schallquellen ein winkelabhängiger Laufzeitunterschied (interaural time difference, ITD) zwischen den beiden Signalen. Die Abschattung des Schalls durch den Kopf führt ab ca. 1.2 kHz zu signifikanten Intentisitätsunterschieden (interaural intensity difference, IID) zwischen beiden. Neben diesen beiden Mechanismen binauraler Lokalisierung wirktnoch ein dritter, monauraler Mechanismus. Die Ohrmuschel oder „Pinna“, dient als richtungsabhängiger Schalltrichter. Für hohe Frequenzen wirkt die Pinna als Filter, welches durch Reflexion des Signales mit zwei verschiedenen Laufzeiten typische Auslöschungsnullstellen erzeugt. Somit ist durch das Lernen der typischen Übertragungsfunktion auch monaurale Lokalisierung möglich [Bla96, S. 63-77]. hintergrund (a) Außen- Mittel und Innenohr (b) Schenke (Schnitt) (c) Frequenz-Orts-Transformation (d) Corti’sches Organ Abbildung 8.: Menschliches Gehör [Zwi82, S. 22-25]: Der Schall trifft im Außenohr auf, wird im Mittelohr mechanisch verstärkt und im Innenohr von der Schnecke (Cochlea) in elektrische Impulse im Hörnerv umgesetzt (a). Entlang der Schneckenwindungen verläuft die Basilarmembran (b), welche eine Frequenz-Orts-Transformation vornimmt (c), auf derselben befindet sich das Corti’sche Organ (d). 2.3.2 Reizaufnahme Der Druck der Schallwelle wird vom Außenohr eingefangen und durch den Gehörgang an das Trommelfell weitergeleitet. Im Mittelohr wird der Schall über die zwei Knöchelchen „Hammer“ und „Amboss“ mechanisch verstärkt. Vom „Steigbügel“ wird der Druck auf das „ovale Fenster“ des Innenohres geleitet (Abbildung 8a). Der Frequenzgang von Außen- und Mittelohr kann nach Terhardt mit der folgenden Formel in dB für f in kHz approximiert werden [Ter79]: A( f ) = − 3.64 f −0.8 + 6.5 exp −0.6 ( f − 3.3)2 − 10−3 f 4 . (2.20) Die in der Schnecke (cochlea) befindliche inkompressible gallertartige Masse, die Peri Lymphe, leitet den Druck weiter bis zurück zum „runden Fenster“, was dem Druckausgleich dient. Entlang der Schnecke verläuft die „Basilarmembran“, welche in Schwingungen in Form einer Wanderwelle versetzt wird. Die Steifigkeit der Membran nimmt entlang der Schneckenwicklungen ab, was dazu führt, dass am Anfang hohe und am Ende niedrige Frequenzen die höchste Auslenkung erzielen, wie in Abbildung 8c dargestellt. Damit findet eine Übersetzung von Frequenzen in räumliche Positionen statt. Auf der Basilarmembran sitzt das in Abbildung 8d gezeigte Corti’sche Organ, in welchem bei Auslenkung gereizte innere „Haarzellen“ elektrische Impulse er- 2.3 menschliches hören Frequenz-OrtsTransformation 15 Abbildung 9.: Hörfläche zwischen Hörschwelle und Schädigungsgrenze. Isophone Linien sind gestrichelt eingezeichnet, der Bereich der Sprachlaute in 1 m Sprecherentfernung in der Mitte. Hörfläche zeugen. Die Impulsketten wandern in Form von spike-trains über den Hörnerv zum Gehirn [Han89, S. 461ff.]. Die leisesten Töne, welche von einem menschlichen Hörer wahrgenommen werden, bilden die sogenannte „Hörschwelle“ um 10 dB. Schalldrücke von 120 dB und mehr, welche zur Schädigung des Gehörs führen, bilden die obere Grenze wahrnehmbarer Schallamplituden. In Abbildung 9 ist der nutzbare Bereich dazwischen, die „Hörfläche“, aufgezeichnet. Die Abbildung der Frequenzen auf den Ort der Basilarmembran wird mit der Bark-Skala angegeben. Dabei entspricht ein Bark näherungsweise 1.3 mm Basilarmembranlänge. Die Frequenzverzerrung (frequency warping) kann mit folgender Näherungsformel für f in Hz berechnet werden [Tra90]: z[Bark] = (26.81 f / (1960 + f )) − 0.53. isophone Linien kritische Bänder (2.21) Die Lautstärkeempfindung folgt einer frequenzabhängien Übertragungsfunktion, welche sich aus der physikalischen Verstärkung und der Empfindlichkeit der Haarzellen ergibt. In physiologischen Versuchen wurden sogenannte „isophone Linien“, im Englischen equal loudness curves, für gleichlaut empfundene Töne verschiedener Frequenzen bestimmt [Zwi82]. Diese sind in Abbildung 9 als gestrichelte Linien skizziert. Die Fähigkeit, zwei reine Sinustöne als getrennt wahrzunehmen, wurde ebenfalls untersucht. Diese ist abhängig von der Frequenz der Beiden. Liegen die Töne auf der Basilarmembran näher als 1 Bark beieinander, werden sie als ein (modulierter) Ton wahrgenommen. Die zugehörigen Frequenzbereiche werden als 25 sogenannte „kritische Bänder“ bezeichnet [Zwi82]. 2.3.3 Neurale Kodierung Betrachten wir nun nicht nur die Leistungsverteilung auf der Basilarmembran, sondern auch die zeitliche Form der Wanderwelle und die 16 hintergrund 10.00 g aI s - t h Frequenz [kHz] 8.00 6.00 4.00 2.00 0.00 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Zeit [s] (a) Spektrogramm g aI s - t h Frequenz [Bark] 20 15 10 5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Zeit [s] (b) auditives Spektrogramm g aI 10.00 - s t h _ 0.6 0.7 Frequenz [kHz] 6.43 4.10 2.59 1.61 0.96 0.55 0.28 0.10 0.0 0.1 0.2 0.3 0.4 0.5 Zeit [s] (c) Cochleogramm Abbildung 11.: Spektrogramm einer Äußerung des Wortes „Geist“ /gaIs-th/ in physikalischen Messgrößen (oben, 1024er FFT, 512 Samples Überlappung) und Empfindungsgrößen mit Verdeckung (mitte, 1024er FFT, Simultanverdeckung, loudnessmapping) und Cochleogramm nach dem Standardmodell [Sla93] (unten, 129 Bänder, IIR-Gammatonfilter in ERB-Spacing nach Glasberg & Moore, Innenohrverstärkungsfunktion, Energie in 25 ms-Hammingfenster mit 5 ms Vorschub) 18 hintergrund Abbildung 12.: Auditive Pfade von den Cochleas über den Hörnerv durch das mittlere Hirn zum Cortex. Aus den Signalen des Hörnervs werden entlang der Cochlea Nuklei (CN), der oberen Olive (SOC) dem inferior coculli und dem mittleren Kniehöcker grundlegende Merkmale extrahiert, welche dann vom Cortex weiterverarbeitet werden. an, wobei diese von der Bandbreite b( f ) und dem Wert des Leistungsspektrums H ( f )2 abhängt. Allerdings kann auch zeitlich gesehen ein lautes Signal Leisere verdecken. So wird ein leiser Ton im „Windschatten“ eines lauten Vorgängers bis zu 200 ms schlicht nicht wahrgenommen. Faszinierenderweise funktioniert dies sogar umgekehrt: Bei der „Vorverdeckung“ überholen die Impulse für einen lauten Ton diejenigen für einen vorhergehenden leisen Ton und verhindern so dessen Wahrnehmung. Es wird also ein leiser Ton auch unmittelbar (ca. 20 ms) vor einem lauten Ton nicht wahrgenommen. Der von der Frequenz-Orts-Transformation aufgespannte Zeit×Frequenz-Raum lässt sich in einem zweidimensionalen Diagramm darstellen, wenn man die Energie jedes Punktes durch Farben oder Graustufen kodiert. Abbildung 11a zeigt ein solches „Spektrogramm“. Die Leistungsverteilung in psychoakustischen Messgrößen läßt sich nach einem psychoakustischen Modell aus dem Spektrogram ableiten und ebenfalls bildlich als „auditives Spectrogram“ darstellen wie in Abbildung 11b. Ein vergleichbares Bild ergibt sich aus aufwändigen Computermodellen der Basilarmembran und der anhängigen Lautheitssummation. Abbildung 11c zeigt ein solches, nach einfachen Regeln erstelltes „Cochleogramm“. 2.3.4 temporal masking Spektrogramm & Cochleogramm Frühe neuronale Verarbeitung Trotz vieler neurologischer Experimente ist die Funktion und der genaue Aufbau der neuronalen Verarbeitung zum Teil noch ungeklärt. Nach dem aktuellen Stand der Forschung wird als primärer Pfad der Hörverarbeitung zum auditiven Cortex der in Abbildung 12 skizzierte Weg angesehen [GM00, Kap. 14] [Han89, S. 478ff.]. Vom Hörnerv gelangt das Signal in den Cochlear Nucleus (CN). Durch neuronale „Sättigung“ werden hier zum Teil nur Signalspitzen ausgewertet und nachfolgende Hallanteile monaural unterdrückt [BvH07]. In der oberen Olive (SOC) wird die horizontale Schallrichtung durch Intensitätsunterschied (IID) und Zeitversatz (ITD) geschätzt. Nur durch neuronale phasengenaue Korrelation einzelner Spikes ist die spatiale Auflösung binauraler Analysevorgänge von bis zu ca. 10-50 µs erklärbar [SGK+ 08]. Im Colliculi (IC) wird Höheninformation aus dem Nukleus dazu kombiniert und somit eine dreidimensionale Rückprojektion vorgenom- 2.3 menschliches hören IID & ITD 19 Abbildung 15.: Der Cocktail-Party-Effekt – der Hörer in der Mitte kann seinen gegenüberligenden Gesprächspartner verstehen obwohl er gleichzeitig das Gespräch der beiden anderen Sprecher hört. bottom-up & top-down Prozesse Reduktion der Informationsmenge ist nicht rein statisch, sondern erfolgt dynamisch in Abhängigkeit von Signal, Vorwissen und Aufgabenkontext. Je nachdem, ob die Auswahl relevanter Daten von Neuronen in Richtung von „unteren“ (sensorischen) oder „oberen“ (abstrakteren) Hirnregionen bis hin zum frontalen Cortex gesteuert wird, spricht man in der Kognitionspsychologie von bottom-up- bzw. topdown-Selbstorganisation und Aufmerksamkeitsprozessen. 2.4 auditorische szenenanalyse Das 1990 am MIT erschienene Buch von Albert Bregman [Bre90] fasst eine Vielzahl von aus psychoakustischen Versuchen bekannten Phänomenen in einer weitgehend geschlossenen Theorie mit Anlehnung an die Gestalttheorie zusammen. Bregman beschreibt die faszinierende Fähigkeit der Rekonstruktion von Umweltereignissen anhand der Hörwahrnehmung mit der folgenden Analogie: [..] your friend digs two narrow channels from the side of a lake. Each is a few feet long and a few inches wide and they are spaced a few feet apart. Halfway up each one, your friend stretches a handkerchief and fastens it to the side of the channel. As waves reach the side of the lake they travel up the channels and cause the two handkerchiefs to go into motion. You are allowed to look only at the handkerchiefs and from their motions to answer a series of questions: How many boats are there on the lake and where are they? Which is the most powerful one? Which one is closer? Is the wind blowing? Has any large object been dropped suddenly into the lake? [Bre90, S. 5-6] 2.4.1 Szenenanalyse Die auditorische Szenenanalyse begreift Hörereignisse als komplexe Szenen in Analogie zu visuellen Szenen. Eine Szene besteht hier aus einem bestimmten Hintergrund (Rahmen, Kontext), in dem verschiedene Elemente (Stimmen, Objekte) als Ganzes oder als zusammenge- 22 hintergrund sind, werden als einer Quelle zugehörig zusammengefasst. Dies geschieht auf der unteren Ebene zum Teil schon im Segmentierungsschritt. In größeren Zeitkontexten wird nach demjenigen Merkmal gruppiert, dessen Werte den kleinsten Abstand haben. Man spricht hier auch von competetive criteria. Werden etwa zwei Klaviertöne oder ein Vokal mit zwei unterschiedlichen Pitchperioden mit großem zeitlichen Abstand abwechselnd dargeboten, wie in Abbildung 16a(1) skizziert, hört man eine Melodie. Ist dagegen der zeitliche Abstand sehr klein, wie in Abbildung 16a(2) dargestellt, bilden die beiden Töne zwei Gruppen, die zwei simultanen Ereignissen zugeordnet werden. Viele Merkmale, besonders bei Sprache, sind nicht konstant, sondern ändern sich über die Zeit. Diese werden ebenfalls zusammen gruppiert, solange sie als plausible Fortsetzung erscheinen wie bei der Klaviermelodie in Abbildung 16b(1). Tritt dagegen ein abrupter Wechsel auf, wie in Abbildung 16b(2), so werden die Ereignisse nicht gruppiert und bilden isolierte, aufeinanderfolgende Ereignisse. Closure Maskierung Wenn durch Störungen Lücken in der Merkmalsfolge auftreten, so findet das Prinzip der closure Anwendung. Wird etwa ein Glissando durch Bursts weißen Rauschens unterbrochen wie in Abbildung 16c(1) visualisiert, so setzt ein Hörer dies fort und hört eine durchgehende Melodie. Gibt es dagegen keinen Hinweis auf das Fehlen von Information durch maskierendes Rauschen, zerfallen die Tonfolgen zu Einzelereignissen (Abbildung 16c(2)). Common Fate pitch track Ein in der zeitlichen Folge wichtiger Mechanismus ist die Gruppierung von Ereignissen mit gemeinsamen Gradienten. Bregman taufte dieses Kriterium gemeinsames Schicksal, common fate (Abbildung 16d). So sind menschliche Hörer in der Lage, zwei oder drei gleichzeitige Sprecher anhand des Verlaufs der Stimmtonhöhe, dem pitch track, auseinanderzuhalten. Dieses Prinzip überlappt sich mit dem der Fortsetzung, so können auch Formant-Trajektorien oder Lautstärkegradienten zur Separation gleichzeitiger Ereignisse dienen. 2.4.3 Verarbeitungsmodell für Sprache Aus informatorischer Sicht erfolgt die ASA in den in Abbildung 17 dargestellten fünf Verarbeitungsschritten. Die binaurale Hörwahrnehmung extrahiert aus den Signalen im Hörnerv entlang der auditory pathways Merkmale entlang den Dimensionen Zeit, Frequenz und Raum. Diese werden zunächst bei der segmentation in kleine zusammenhängende Regionen zerschnitten. Danach werden beim grouping Segmente, die wahrscheinlich aus der selben Quelle stammen, über ihre typischen Eigenschaften anhand von grouping cues gruppiert. Diese Gruppen bilden jeweils einen in der Zeit ausgedehnten stream, der ein Szenenelement repräsentiert. Neben dem primitive grouping, das automatisch und kontextfrei geschieht, werden die Informationen in schema based intergration mittels erlernter Modelle der Sprache und ihrer Produktion in Abstimmung mit der Spracherkennung zu Strömen einer Quelle gruppiert [Bre90, PBO00, WB06]. 24 hintergrund Abbildung 17.: Schritte der Computational Auditory Scene Analysis Merkmalsgewinnung Entlang der auditory pathways werden aus den Signalen im Hörnerv wesentliche Merkmale extrahiert (siehe Abschnitt 2.3.4). Diese sind zunächst einmal die Energien im Zeit×Frequenz-Raum beider Ohren. Die Korrelation der Phasen wie der Amplituden dient der Rückprojektion in den Raum. Über die Korrelation der Signale in einzelnen Frequenzbändern wird eine unabhängige Pitch-Schätzung für jede Frequenzkomponente gewonnen. Die Differentation über die Zeit liefert ein Merkmal für das Ein- und Aussetzen von Komponenten (onset und offset). Die Korrelation der Umhüllenden der Signale in den Frequenzbändern untereinander extrahiert gemeinsame Amplitudenmodulation (common AM) sowie Trajektorien im Zeit×Frequenz-Raum (FM) wie etwa Formant-Trajektorien [WB06, S. 83-90]. Lokalisierung Pitch on & offset common AM & FM Segmentierung Die oben genannten Merkmale definieren zusammenhängende Segmente im Zeit×Frequenz-Raum, was der nachfolgenden Gruppierung als Basis dient. Der Prozess geschieht dabei auf mehreren Skalenebenen und mit zeitlicher Glättung [WB06, S. 90-97]. Haben benachbarte Frequenzbereiche eine gemeinsame Amplitudenmodulation, stammen diese höchstwahrscheinlich von der selben Quelle. So wird etwa im Falle eines menschlichen Sprechers die Amplitude durch den Druck des Luftstromes und die Größe der Mundöffnung bestimmt. Dasselbe gilt für das gemeinsame Ein- oder Aussetzen von Komponenten. Über die Kreuz- und Autokorrelation können zusammengehörige Bereiche identifiziert werden. Simultaneous Grouping Für die Gruppierung gleichzeitiger Ereignisse wird nach dem Prinzip der Nähe hauptsächlich Pitch und Lokalisierung sowie Einsetzen und Modulation verwendet [WB06, S. 97ff.] [UA99]. Für stimmhafte Laute liefert die Autokorrelation der Signale in allen Frequenzbändern, in welche Formant-Energie fällt, eine identische Schätzung der Stimmtonhöhe. Diese Energien werden zu einem Laut gruppiert [Bre90, S. 559ff.]. Eine identische Raumposition führt zu einer identischen Laufzeitschätzung durch die Korrelation der Signale beider Ohren. Dies wird, insbesondere bei einsetzenden und starken Signalenergien, zur Gruppierung verwendet [Bre90, S. 590ff.]. 2.4 auditorische szenenanalyse simultaneous grouping pitch 25 onset AM & FM Das gemeinsame Einsetzen von Energie in verschiedenen Frequenzbändern liefert einen starken Hinweis auf eine gemeinsame Ursache und wird zur Gruppierung verwendet. Allgemein wird auch gemeinsame Amplitudenmodulation als Gruppierungskriterium verwendet. Wie bereits bei der Segmentierung dargestellt, ist diese ein Indiz für eine Artikulationsquelle. Eine gemeinsame Frequenzverschiebung in verschiedenen Frequenzbereichen liefert ebenfalls einen Hinweis auf eine identische Quelle. Veränderungen des Vokaltrakts führen, etwa zwischen Vokalen und bei Vokal-Plosiv Kombinationen, zu gleichartigen Formant-Trajektorien [Bre90, S. 573-590]. Sequential Integration pitch track Rhythmus Lokalisierung Die Artikulation von Sprache ist ein kontinuierlicher Prozess, der zu kontinuierlichen Merkmalsverläufen führt (siehe Abschnitt 2.1.1). Gruppierung über die Zeit geschieht aufgrund andauernder gemeinsamer Veränderung von Intensität, Pitch, Spektrum oder Raumposition sowie über Rhythmus [WB06, S. 106ff.]. Die Lautstärke und Stimmtonhöhe wird beim Sprechen nur kontinuierlich variiert oder unterbrochen. Der Verlauf der Stimmtonhöhe bildet also in der Regel einen pitch track, der einem Sprecher zugeordnet werden kann [Bre90, S. 537ff.]. Die langsame Veränderung der Lautstärke erzeugt den Rhythmus, neben dem Stimmtonhöhenverlauf ein wesentliches prosodisches Merkmal. Die Abfolge der verschiedenen Phone geschieht fließend und führt zu kontinuierlichen Übergängen im Spektrum. Diese können der Zusammenfassung aufeinander folgender Segmente dienen. Ebenso bildet die relative Bewegung eines Sprechers im Raum eine Lokalisierung, welche soweit sie ungestört wahrgenommen wird, zur Gruppierung eingesetzt werden kann. Schema-basierte Integration attention figure ground 26 Das primitve grouping erfolgt bottom-up ohne Beeinflussung durch den Kontext oder bewusste oder unbewusste Aufmerksamkeitsprozesse. Nach Bregman findet diese in einem nachgeordneten Prozess der schema- oder modellbasierten Integration statt. Das Ergebnis des Gruppierungsprozesses wird mit Hilfe von a priori- Informationen und Modellen interpretiert. Das primitive grouping bildet eine Menge von gruppierten Ereignissen, aus denen ein bis drei mögliche Streams gebildet werden. Die Auswahl der Streams erfolgt dabei zum Teil bewusst. Nachdem ein Objekt in der Gesamtrepräsentation der Umwelt etabliert ist, kann man sich entscheiden, diesem zuzuhören. Die endgültige Streambildung erfolgt in Abhängigkeit der gesamten Wahrnehmung [WB06, S. 115ff.] [Bre90, S. 395ff.]. Hier spielen Aufmerksamskeitprozesse eine Rolle, so kann etwa ein Ohr ausgewählt werden, wenn sich dort das interessantere Signal befindet. Jede Form von abrupter akustischer Änderung, insbesondere plötzliche laute Ereignisse, führen zur Fokussierung der Aufmerksamkeit. Bregman zieht hier eine Parallele zu visuellen figure ground Phänomenen, bei denen sich ein Objekt vom Hintergrund abhebt. Ebenso kann ein stark eingeprägtes Muster wie der Klang des eigenen Namens die Aufmerksamkeit lenken. Dabei muss die Streamzuordnung durch das grouping alleine keineswegs eindeutig möglich sein, vielmehr können bestimmte grouping cues hintergrund zugunsten der erfolgreichen Streambildung ignoriert werden. So können die akustischen Lokalisierungs-Cues zugunsten höherstufiger Kriterien oder visueller Empfindungen vernachlässigt werden. Ein starker Hinweis hierfür sind Experimente, bei denen Signalkomponenten, welche unterschiedlichen Ohren dargeboten werden, zu einem Strom fusioniert werden [Bre90, S. 591ff.]. In schwierigen Hörsituationen wird die Sprachverständlichkeit maßgeblich top-down erzeugt. Die Sprachinformation wird anhand weniger eindeutiger akustischer Ereignisse rekonstruiert, was vom Spracherkennungsprozess gesteuert wird. Das „glimpsing model“ wendet genau dies an, um bei starken Störungen im Bereich von −6 dB SNR Sprache zu erkennen [Coo06]. Bei der Sprachwahrnehmung beteiligte Modelle sind ein Sprecherund ein Sprachmodell. Das Sprechermodell repräsentiert alle sprechertypischen Eigenschaften. Damit kann eine Zuordnung über mittleren Pitch, Pitchrauhigkeit, Lautstärke und Position erfolgen. Das Sprachmodell erlaubt die Einschränkung der zu erwartenden Phone – etwa in Analogie zum bei HMMs gebräuchlichen beam search [Fin03, S. 165ff.]. Dabei kann auch eine probabilistische Einschränkung aufgrund der verwendeten Sprache mit ihrer Grammatik und des inhaltlichen Kontextes erfolgen. Auswahl glimpsing Interaktion im Raum Befindet sich der Sprecher im gleichen Raum, kommt ein Raummodell hinzu, in dem die Position des Sprechers repräsentiert ist. So wird etwa die Stärke des Nachhalls zur Schätzung der Entfernung verwendet und kann umgekehrt zur Gruppierung und Streambildung verwendet werden [WB06, S. 219]. Die Bestimmung des Drehwinkels anhand von ITD-Cues ist zur Trennung nicht immer hinreichend. Praktisch erfolgt das Auswählen eines Sprechers im Raum meist multimodal und interaktiv. Der Kopf wird in Richtung des gewünschten Sprechers gedreht, die Lokalisierung kann dann mit Integration des visuellen Systems erfolgen, sobald dieser ins Gesichtsfeld kommt. Bei frontaler Ausrichtung sind dann beide Ohren auf den Sprecher gerichtet und es kommt nicht zur Abschattung durch Pinna oder Kopf. 2.4 auditorische szenenanalyse multimodale & interaktive Lokalisierung 27 3 STAND DER TECHNIK In diesem Kapitel wird ein Überblick über den aktuellen Forschungsstand im Bereich der technischen Quellenlokalisierung und neurobiologisch inspirierter Audioverarbeitung gegeben. Zunächst werden Verfahren der technischen Lokalisierung von einer oder mehreren Schallquellen mit Mikrophonarrays beschrieben. Danach werden Computermodelle binauralen Hörens und ihr praktischer Einsatz dargestellt. Schließlich wird die computergestützte Simulation verschiedener Aspekte der neuronalen Verarbeitung beschrieben. Dabei wird der Einsatz von Modellen nach der Auditory Scene Analysis (ASA) zur Lokalisierung und Verfolgung interessanter akustischer Ereignisse sowie Quellentrennung und Spracherkennung geschildert. 3.1 technische lokalisierung Die Lokalisierung einer oder mehrerer Quellen mit Arrays räumlich verteilter Sensoren wird seit langem in der Radartechnik und Akustik eingesetzt. Wichtige Prinzipien sind dabei die kohärente Überlagerung von Signalanteilen von der Quelle und die paarweise Kreuzkorrelation des Signales zweier Sensoren zur Bestimmung des Zeitversatzes des Eintreffens der Schallwellen [MHA08, S. 135-170] [GB01, S. 239-260] [BW01, S. 181-202]. 3.1.1 Indirekte Lokalisierung Nimmt man eine hallfreie Schallausbreitung an, so gilt der schon beschriebene Zusammenhang zwischen der zeitverzögerten Ankunft des Schalles an einem Paar von Mikrophonen an den Positionen mm,n und der Position der Quelle q. Die Ankuftszeitdifferenz (time delay of arrival, TDOA) ist τm,n (q ) = (kq − mn k − kq − mm k) f s c (3.1) Samples bei einer Abtastrate von f s . Im Fernfeld ohne signifikanten Hall oder Störungen kann eine Schätzung τ̂ der Laufzeitdifferenz über den erwarteten quadratischen Fehler erfolgen, also n o τ̂ =argmin E (yn [t] − ym [t + τ ])2 (3.2) τ n o n o =argmin E yn [t]2 + E ym [t + τ ]2 − 2E {yn [t]ym [t + τ ]} τ für die Signale yn [t] und ym [t] der beiden Mikrophone. Dies ist für stationäre Quellen gleich τ̂ =argmax E {yn [t]ym [t + τ ]} , τ (3.3) da die Signalenergie in diesem Fall unabhängig von τ ist [MHA08, S. 135ff.]. 29 Modelliert man die Raumimpulsantworten als linearphasige FIR-Filter (vgl. Abschnitt 2.2.2) und Störungen als additives Signal, so ist das Signal, welches vom n-ten Mikrophon aufgenommen wird y n [ t ] = h n [ k ] ⊗ x [ t ] + n n [ t ], (3.4) hierbei wird die Störung mit nn und die Raumimpulsantwort mit allen Reflexionen zwischen der Quelle und dem Mikrophon als hn bezeichnet [MHA08, S. 137ff.]. 3.1.2 Korrelationsbasierte Lokalisierung Um den Einfluss von Hall und Störungen entgegenzuwirken, kann je ein lineares Filter h̃n , h̃m auf das Signal zweier Mikrophone angewendet werden, um die TDOA-Schätzung zu berechnen: τ̂ = argmax E (h̃n ⊗ yn (t))(h̃m ⊗ ym (t + τ )) τ = argmax Rym yn (τ ) . (3.5) τ GCC Der Ausdruck Rym yn wird als verallgemeinerte Kreuzkorrelation (generalized cross correlation, GCC) bezeichnet. Die Kreuzleistungsdichte der Signale Φym yn (ω ) = Ym (ω )Yn∗ (ω ) •−◦ yn [t] ⊗ ym [t] = ϕym yn (τ ) (3.6) ist identisch mit der Fouriertransformierten der Kreuzkorrelation ϕym yn . So kann man die GCC im Frequenzbereich als 1 Rym yn ( τ ) = 2π PHAT −∞ ∗ H̃n (ω ) H̃m (ω ) Φym yn (ω )ejωτ dω {z } | G (ω ) PH AT 1 (τ ) = 2π Z∞ −∞ Φ (ω ) jωτ ym yn Φy y (ω ) e dω. (3.8) m n Für jede Quellposition q kann nach Gleichung 3.1 die sich ergebende Laufzeitverzögerung berechnet werden. Durch Aufzählung der möglichen Quellpositionen ergibt sich für jede Position ein Schätzwert, der proportional zu der Wahrscheinlichkeit ist, dass sich dort eine Quelle befindet. Die sich ergebende „Landschaft“ aus Rückprojektionen von Schätzwerten wird als spatial likelihood function (SLF) bezeichnet. Das Maximum der Funktion entspricht der geschätzten Quellposition q̂ = argmax R PH AT (τ(m,n) (q )). q 30 (3.7) berechnen. In den meisten Anwendungsfällen sind weder die Raumimpulsantworten noch die spektrale Verteilung von Signal- und Störkom∗ (ω ) geschätzt. Ein ponenten bekannt. Daher wird G (ω ) := H̃n (ω ) H̃m praktisch gut bewährter Ansatz ist die Phasentransformation (PHAT). Hier wird angenommen, dass nur die Phase der Kreuzleistungdichte für die Lokalisierung relevant ist [MHA08, S. 144]. Daher wird hier eine Betragsnormalisierung vorgenommen: R spatial likelihood function Z∞ stand der technik (3.9) Dieses Maximum ist für zwei Mikrophone nicht eindeutig, einem diskreten TDOA-Wert entspricht ein Hyperboloid im Raum. Um die Position einzuschränken, müssen also mehr als zwei Mikrophone verrechnet werden. Dies erreicht man durch paarweise Kombination. 3.1.3 Kombination mehrerer Mikrophonpaare Die Kombination der Schätzung mehrerer Mikrophonpaare (m, n) ∈ P in einem Mikrophonarray kann auf verschiedene Weise erfolgen. Vielfach wird der steered response power-Ansatz (SRP-PHAT) eingesetzt [BW01, S. 157-180]. Dabei wird ein Delay-and-Sum-Beamformer in die Richtung gesteuert, bei der er die maximale Ausgangsenergie hat. Geht man von einer Quellposition q aus, lässt sich diese Bedingung als q̂ = argmax q = argmax q 1 2π Zπ ∑ −π (m,n)∈ P Zπ 1 2π (m,n)∈ P −π | ∑ Φ (ω ) jωτm,n (q) ym yn dω Φy y (ω ) e steered response power (3.10) m n Φ (ω ) jωτm,n (q) ym yn dω Φy y (ω ) e m n {z } R PH AT (τ(m,n) (q)) schreiben, was man auch als Erweiterung der GCC auf mehrere Mikrophonpaare ansehen kann [MHA08, S. 149ff.]. Der SRP-PHAT-Algorithmus hat sich praktisch vielfach bewährt. Das Vorgehen ist im Fall eines Signal-Rausch-Verhältnisses von etwa 10 dB oder mehr theoretisch optimal, hier wird die Cramer-Rao Lower-Bound (CRLB), eine untere Schranke für den RMS-Fehler eines Parameterschätzers, erreicht [WW83]. Bei Verwendung hinreichend großer Zeitfenster ist das Verfahren auch robust gegenüber Hall und anderen Störungen [ZFZ08]. Die Addition der Kreuzkorrelationsergebnisse verschiedener Mikrophonpaare führt dabei allerdings zu vielerlei Nebenmaxima (ghosts). Eine theoretisch optimale Vermeidung von Nebenmaxima erhält man durch multiplikative Kombination, diese schränkt die Quellposition auf den Schnitt der jeweiligen Hyperboloiden ein. Dies ist mit der Wahrscheinlichkeitsinterpretation der spatial likelihood function einsichtig: Entspricht ein Wert der SLF der Wahrscheinlichkeit für eine Quellposition, so ist die Gesamtwahrscheinlichkeit einer Quellposition P(q ) = ∏ R PH AT τ(m,n) (q ) (3.11) CRLB Verbundwahrscheinlichkeit (m,n)∈ P als Produkt der Wahrscheinlichkeiten über alle Mikrophonpaare P gegeben [PKV08]. Praktisch ist die Multiplikation nicht optimal, da eine Nullkomponente eine Position vollständig ausschließt. Zu niedrige Korrelationswerte für ein einzelnes Paar können leicht durch Fehler im Signal oder Fehler im Aufbau des Mikrophonarrays zustande kommen. Als alternative Kombinationsvorschrift wurde von Pertilä et al. die Familie hγ ( x, y) = xy =: x ⊙ y γ + (1 − γ)( x + y − xy) (3.12) der Hamacher-t-Normen aus der Fuzzy Logic vorgeschlagen [PKV08]. 3.1 technische lokalisierung fuzzy t-norm 31 Abbildung 18.: Wahrscheinlichkeitskombination mit Summe, Produkt und Hamacher-t-Norm. Für alle drei Kombinationsverfahren sind jeweils Konturlinien gleicher Wahrscheinlichkeit eingezeichnet; aus [PKV08]. Durch iterative Anwendung von hγ , K i∈ I xi := ((( x1 ⊙ x2 ) ⊙ . . .) ⊙ xn ), (3.13) kann so eine robustere Schätzung der Gesamtwahrscheinlichkeit als K P(q ) = R PH AT τ(m,n) (q ) (3.14) (m,n)∈ P bestimmt werden. Dabei kann die Kombination mit einer Hamacher-tNorm mit dem Parameter γ zwischen dem normalen Produkt γ = 1 und dem Hamacher-Produkt γ = 0 variiert werden. Auf diese Weise ist ein Kompromiss einstellbar, der Nebenmaxima hinreichend unterdrückt und trotzdem robust gegen Ungenauigkeiten ist. 3.2 spatial likelihood peaks lokalisierung mehrerer quellen Entsprechend der Lokalisierung einer Quelle mit der SRP-PHAT lassen sich mehrere gleichzeitige Quellen als die n höchsten Peaks in der spatial likelihood lokalisieren. Abbildung 19 zeigt die spatial likelihood zweier stationärer Quellen aufgetragen für Quellpositionen in zwei kartesischen Raumkoordinaten. Dies ist jedoch nur anwendbar, wenn die Quellen stationär und für den Großteil des betrachteten Zeitfensters aktiv sind. Des Weiteren ist eine Schätzung der Quellenanzahl Q nötig. Diese erfolgt im einfachsten Fall über einen Energieschwellwert. Für die Lokalisierung bewegter Quellen wechselnder Zahl sind verschiedene Algorithmen im Einsatz: 3.2.1 Eigenwertverfahren Ein Ansatz der Lokalisierung mehrerer Signalquellen ist die Dekomposition in linear unabhängige Unterräume. Entsprechende Verfahren sind unter den Namen MUSIC, Root-MUSIC oder PRIMES bekannt. Formuliert man das Signalmodell aus Gleichung 3.4 im Frequenzbereich so geht die Faltung in eine Multiplikation über und man erhält Yn = Hn X + Nn , 32 stand der technik (3.15) (a) SRP-PHAT (b) Hamacher-PHAT Abbildung 19.: SRP-PHAT und Hamacher-PHAT spatial likelihood für zwei stationäre Quellen [PKV08] dabei lassen wir den Frequenzindex zugunsten der Lesbarkeit kurzzeitig weg. Fassen wir die Signale aller Mikrophone in einem Vektor Y = (Y0 , Y1 , . . . Yk−1 ) T zusammen, lässt sich die gesamte Aufnahme als (3.16) Y = HX + N schreiben. Betrachten wir nun die spektrale Kovarianz n o ΦYY = E YY H . spektrale Kovarianz (3.17) Unter Annahme unabhängiger Signal- und Störkomponenten gilt n o n o ΦYY = H E XX H H H + E N N H (3.18) = HΦXX H H + Φ NN H = HΦXX H + ΦNN I. (3.19) (3.20) Durch Eigenvektorzerlegung lässt sich die spektrale Kovarianz mit einer Diagonalmatrix D als ΦYY = U (D + ΦNN I )U H (3.21) ausdrücken. Hier kann man nun die Q Eigenvektoren, welche den Q größten Eigenwerten zugeordnet sind, als signaltragende Unterräume und die restlichen als Unterräume betrachten, welche nur aus Störungen bestehen. Man kann die signaltragenden Unterräume als M × QMatrix UX zusammenfassen. Mit einem steering vector s(q ) = (ejωτ0 (q) , ejωτ1 (q) , . . . ejωτM−1 (q) ) T , Diagonalisierung Unterräume (3.22) welcher die Delay-and-Beamformer-Zeitverzögerungen τm (q) der M Mikrophone in Richtung einer Quelle q ausdrückt, kann der Vektor der Q Quellen q = (q0 , qi . . . qQ−1 ) berechnet werden [MHA08, S. 151ff.]: q̂ = argmax s(q ) H UX UXH s(q ). q (3.23) 3.2 lokalisierung mehrerer quellen 33 (a) Mischverteilungsmodell (b) Clustering Abbildung 20.: Clustering von Sprachereignissen [LO07]. Mischverteilungsmodell für die Winkelzuordung des Signals eines Sprechers mit Störungen (links) und Clustering im Zeit×Drehwinkel-Raum (rechts). PASTd-Algoritmus Basierend auf dem Unterraumansatz sind verschiedene akustische Lokalisierungen umgesetzt worden. Weiterentwicklungen des als PRIME bekannten Lokalisierungsschemas erreichen mit einer Monte-CarloOptimierung die Cramer-Rao-Schranke für zwei simulierte kontinuierliche stationäre Quellen und gutes Signal-Rauschverhältnis [CKR09]. Ein vereinfachtes Root-MUSIC Schema mit direktem Aufteilen der Summe aus Gleichung 3.16 in zwei Quellen und rekursive zeitliche Glättung erster Ordnung mit dem PASTd-Algoritmus erlauben OnlineLokalisierung zweier Quellen. Experimente in einem Innenraum mit Hall ( T60 = 0.5 s) erzielten korrekte Lokalisierungen mit einem RMSFehler von 22° [OS09]. 3.2.2 zweistufige SRPPHAT-Lokalisierung 34 Gauß’sche Mischverteilung und Kurzzeitcluster Ein anderer Ansatz der Lokalisierung mehrerer Sprecher wurde von Lathoud et al. für den Einsatz eines zirkulären Mikrophonarrays in einem Konferenzraum entwickelt. Es werden Trajektorien von Sprache im Zeit×Drehwinkel-Raum bestimmt [LO07]. Dabei werden aus Energiepeaks kurze Sprachsegmente gebildet. Die kurzen Segmente wurden absichtlich gewählt, da ohne Sprachmodell oder ergänzende visuelle Information die Bestimmung von Sprechertrajektorien nicht sinnvoll realisierbar ist. Die Bestimmung von Energiepeaks mit der SRP-PHAT erfolgt in zwei Schritten. Im ersten Schritt werden 20°-Sektoren um das zirkuläre Mikrophonarray bestimmt, welche signifikante korrelierte Energie aufweisen. Im zweiten Schritt wird in den aktiven Sektoren eine Sprecherposition per Gradientenabstieg in der SRP-PHAT-Energielandschaft in nach Drehwinkel×Neigung× log(Entfernung) diskretisierten Raumkoordinaten bestimmt. Die so in 32 ms-Frames mit 50 % Überlappung bestimmten Peaks werden durch dynamische maximum likelihood-Partitionierung zu Kurzzeitclustern zusammengefasst wie in Abbildung 20b schematisch dargestellt. Dabei ist ein Kurzzeitcluster eine Folge von Drehwinkel-Zeit-Punkten mit Pausen von weniger als sieben Frames. Als Modell der lokalen Dynamik wird eine Gauß’sche Mischverteilung verwendet. Dabei wird ein kleiner Wert σsame für die für die stand der technik Varianz des Winkels innerhalb des Clusters eines Sprechers und eine großer Wert σdiff für Störungen, Nebenmaxima und Peaks anderer Sprecher angenommen. Abbildung 20a zeigt das Mischverteilungsmodell im Vergleich zu der tatsächlichen Varianz der Winkel bis zu zwei Frames. Mit diesem Modell erfolgt die Erzeugung von Kurzzeitclustern. Dabei werden zunächst Startwerte vorgegeben und die Varianzen in einem expectation maximization-Trainingsschritt (EM) geschätzt. Dann wird die wahrscheinlichste Partitionierung über ein Zeitfenster von sieben Frames mit dem EM-Algorithmus [DHS01, S. 124ff.] bestimmt. Dabei wird für Elemente in derselben Partition σsame angenommen, andernfalls σdiff . Die Partitionierung wird dann mit der Partitionierung der vorhergehenden Frames nach demselben Modell vereinigt. Für sieben Frames existieren bereits 877 mögliche Partitionen und 13 327 mögliche Vereinigungen, so dass hier heuristisches pruning zum Einsatz kommt, um Laufzeiten im Echtzeitbereich zu erhalten. Neben dieser „on-line“-Variante wurde eine Suche von optimalen Clustern mit simulated annealing implementiert. Da viele Peaks detektiert werden, welche keinem Sprecher zugeordnet werden können (false positives), wurde auf Clusterebene eine Sprache-Nichtsprache-Unterscheidung eingeführt. Der Cluster muss aus mehr als zwei Elementen bestehen, welche sich über mehrere Frequenzen erstrecken. Dabei muss eine minimale Zeit- oder Winkelvariation auftreten (Nichtstationarität). Dieses Kriterium wurde eingeführt, um stationäre Störungen wie Notebook- oder Projektorlüfter zu unterdrücken. Dieses Verfahren wurde mit Daten aus dem AV16.3-Korpus [LOGP05] evaluiert. Dabei wurden Detektionen erzeugt, welche zu 92 % nach einem adaptiven Schwellwertkriterium mit den tatsächlichen Positionen übereinstimmten. Eine Implementierung von Madhu und Martin setzt ebenfalls basierend auf der SRP-PHAT eine Gauß’sche Mischverteilung mit dem EMAlgorithmus zur Lokalisierung mehrerer Sprecher ein. Hier wird der Restklasse eine feste Varianz von 90° zugewiesen. Der Kurzzeitcharakter von Sprecheraktivität wird hier durch eine time to live (TTL)-Größe modelliert [MM08]. 3.3 Varianzmodell Partitionierung speech-nonspeech modelle binauralen hörens Alle biologisch inspirierten Implementierungen enthalten ein Modell des binauralen Hörens [Bla96, S. 337ff.]. Diese bestehen in der Regel aus den drei folgenden Komponenten: Einer Filterbank zur Modellierung der Frequenz-Orts-Transformation der Cochlea (Abschnitt 3.3.1), einem Spike-Generierungsschritt zur Modellierung der Kodierung im auditiven Nerv (Abschnitt 3.3.2) und einer Modellierung der ITD/IID-Schätzung im SOC. Letztere erfolgt meist als Korrelation nach dem Jeffress-Colburn-Modell (Abschnitt 3.3.3). 3.3.1 Gammaton-Filterbank Die Funktion der Basilarmembran (vgl. Abschnitt 2.3.2) kann mit einer ERB-skalierten Gammaton-Filterbank nach dem Patterson-Holdsworth-Modell nachgebildet werden [PNSHR88]. Dabei wird eine Reihe von Gammaton-Filtern n-ter Ordnung eingesetzt, eine äquidistante Positionierung der Mittenfrequenzen erfolgt dabei nach der Equal Resonance Bandwidth-Skala (ERB). Dabei sind beide Größen das Ergebnis 3.3 modelle binauralen hörens 35 Abbildung 21.: Filter des auditiven Nervs, gewonnen durch Kreuzkorrelation neuronaler Antworten einer Ratte auf einen 3 kHz-Stimulus [Mø77] g(t) 0.2 0 −0.2 0 1 2 3 4 5 6 7 8 9 10 t [ms] Abbildung 22.: Impulsantwort eines Gammatonfilters mit f b = 3 kHz neurologischer Untersuchungen. Abbildung 21 zeigt die Messung der Antwort des akustischen Nervs auf einen Sinuston, welcher durch die Gammatonfilter angenähert wird. Ein Gammatonfilter n-ter Ordnung mit der Bandbreite wb und der Mittenfrequenz f b hat eine wie in Abbildung 22 gezeigte Impulsantwort g(n) (t) = at(n−1) exp(−2πwb t) cos(2π f b t + φ). IIR-BiQuads Für die Gammaton-Filter existiert eine effiziente Implementierung von Slaney [Sla93] als vier IIR-BiQuads, rekursive Filter zweiter Ordnung mit unendlicher Impulsantwort (Infinite Impulse Respose, IIR), welche auch die Grundlage für die oft eingesetzte MATLAB-Toolbox desselben Autors sind. Die Übertragungsfunktion der vier kaskadierten Filter lässt sich zusammenfassend mit einem Parameter k = 0 . . . 3 als √ − Ts cos(2π f Ts ) Ts sin(2π f Ts ) −1 k H (k) ( z ) = forward backward method 36 (3.24) Ts z+ 3+(−1)2k 21.5 exp(T b) +(−1) exp( Ts b) s −2 cos(bT ) z+ exp(T b)s z−1 +exp(−2bTs )z−2 s z (3.25) aufschreiben, hierbei ist Ts := 1/ f s das Abtastintervall. Dazu ist noch eine Amplitudennormalisierung nötig. Ein Vorteil der IIR-Lösung ist die vergleichsweise schnelle Berechnung. Allerdings ist diese Approximation allein aufgrund des Amplitudenganges definiert und hat einen nichtlinearen Phasengang, welcher zu einer Verzerrung der Laufzeiten innerhalb jedes Kanals führt. Abbildung 23 zeigt den Amplitudenund Phasengang einer solchen Realisierung. Wenn man, wie im vorliegenden Fall, auch die Phaseninformation innerhalb der Kanäle benötigt, kann man hier einen Laufzeitausgleich einführen, etwa nach der forward-backward-Methode. Hier wird das gefilterte Signal zeitlich invertiert und durch ein ebenfalls zeitlich invertiertes Filter erneut gefiltert. Dies führt zu blockweiser Verarbeitung und erfordert die aufwändige Bestimmung geeigneter Anfangszustände [VLAO05, Gus96]. stand der technik |G(f )| [dB] −12 −24 −36 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 8,000 5,000 6,000 7,000 8,000 ∡G(f) [◦ ] f [Hz] 360 270 180 90 0 −90 −180 −270 −360 0 1,000 2,000 3,000 4,000 f [Hz] Abbildung 23.: Amplituden- und Phasengang einer Gammaton-Filterbank aus IIR-BiQuads. Acht Kanäle von 200 bis 6 000 Hz in ERB-Spacing nach Glasberg und Moore, f s = 20 000 Hz 3.3.2 Neuronale Kodierung Aus den gefilterten Signalen in den einzelnen Frequenzbändern werden den neuronalen spike trains (vgl. Abschnitt 2.3.3) entsprechende Impulsfolgen erzeugt. Basierend auf dem Modell von Lyon [Lyo83] verwenden bis heute die meisten CASA-Modelle durch Einweggleichrichtung und quadratische Kompression gewonnene Impulse [SW07, RW08]: ( √ xn xn > 0 ′ (3.26) xn = 0 sonst. Dies stellt eine sehr einfache Näherung dar, genauere Modellierungen berücksichtigen sämtliche Kodierungseingeschaften der inneren Haarzellen [LPGR+ 09, VLAO05, Kat91]. Eine andere einfache Näherung ist die Auswertung von Nulldurchgängen der bandpassgefilterten Signale. Hiermit wird die Phase des Signals direkt repräsentiert und eine einfache Korrelation ermöglicht [HOS95, KAK06]. Um die phasenstarre Spike-Generierung der Cochlea besser abzubilden, kann eine Erzeugung von Impulsen bei Signalmaxima erfolgen. Diese sind im Gegensatz zu den Nulldurchgänge allerdings nicht nur bei reinen, ungestörten Signalen mit den Phasen eines Quellsignals korreliert, da etwa die Maxima kräftiger Formanten auch bei Mischungen mit geringem Signal-Rauschverhältnis die Phase wiedergeben [Gro03]. 3.3.3 Einweggleichrichtung Nulldurchgänge Peaks Korrelation Die binaurale Auswertung entlang der auditory pathways (vgl. Abschnitt 2.3.4) wird oft durch eine einfache oder modifizierte Varian- 3.3 modelle binauralen hörens 37 Abbildung 24.: ITD-Analysator nach dem Jeffress-Colburn-Modell mit der Erweiterung von Lindemann aus Zeitverzögerungsgliedern (z−1 ), Inhibitoren (i) und neuronalen Multiplikatoren (×) te des Jeffress-Colburn-Modells modelliert [Bla96, S. 393ff.]. Ein ITDAnalysator nach Jeffress’ neural coincidence model [Jef48] in der Quantifizierung durch Colburn [CD78] ist wie folgt realisiert: Die Signale x L (t), x R (t) zweier Mikrophone in einem Band werden an den Enden einer Reihe von Neuronen eingespeist und mit je einem Sample Verzögerung an das Nächste weitergeleitet: x n ( t ) : = x L ( t − n ) · x R ( t + n ). bandwise cross correlation (3.27) Korrelieren die Signale mit einer bestimmten Laufzeitdifferenz, so zeigt das zugeordnete Neuron eine hohe Aktivität. Für korrelierte Signale ohne Zeitversatz zeigt hier das mittlere Neuron maximale Reaktion, bei einem Signal von links ein Neuron rechts von der Mitte, bei dem sich ITD und Verzögerung ausgleichen. Das Ergebnis der Korrelation von halbweggleichgerichten Signalen durch das Jeffress-Colburn-Modell sind mitunter sehr breite Korrelationsfiguren. Um klare, schmale Peaks zu erhalten, wird dies zu einem skeleton cross-correlogram geschärft. Dabei werden die Peaks durch Gaußfunktionen mit der Höhe des Peaks und einer der Bandfrequenz invers proportionalen Breite ersetzt [PBW04, RW08] [WB06, S. 172175]. contralateral inhibition Frequenz × ILD 38 Zu dem einfachen Jeffress-Colburn-Modell existieren vielfältige Erweiterungen [WB06, S. 160-171] [Bla96, S. 393-408]. Lindemann führte die kontralaterale Inhibition ein, bei welcher sich die Zellen entgegengesetzter Zeitversätze gegenseitig unterdrücken können. Diese sind in Abbildung 24 mit i bezeichnet. Durch diese Erweiterung wird die Korrelation erheblich geschärft, da nur bei übereinstimmendem Zeitversatz keine Inhibition auftritt [Lin86a]. Durch Halten der Inibition für einen längeren Zeitraum ist eine Nachahmung des precedence effect für einige Stimuli möglich [Lin86b]. In der neurologischen Forschung sind einige recht komplexe Modelle der SOC entwickelt worden. Eine typische Erweiterung ist eine Übertragung des Jeffress-Modells auf interaurale Pegeldifferenzen (ILDs). Hier wird neben einem rechteckigen Frequenzband-ITD-Neuronenschema als Modell der LSO (seitliche obere Olive) nach JeffressColburn ein rechteckiges Frequenzband-ILD-Neuronenschema als Modell der MSO (mittlere obere Olive) gebildet [LPGR+ 09, WEA+ 06]. stand der technik Abbildung 25.: K. Martin, KEMAR Dummy und W. Gardner in der Akustikkammer des MIT Media Lab 3.4 bilogistische lokalisierung Im Gegensatz zu Mikrophonarrays verfügen Säugetiere nur über zwei akustische Sensoren. Dennoch kann mit diesen nicht nur eine Schätzung der Richtung in der Ebene, sondern auch eine Schätzung der Höhe erschlossen werden. Hier ist es notwendig, die Übertragungsfunktion des aufnehmendenen Systems in allen Raumrichtungen zu kennen. Es existieren verschiedene Implementierungen, welche über die kombinierte Übertragungsfunktion von Kopfabschattung und Außenohr (head-related transfer function, HRTF) eine Ortung vornehmen. 3.4.1 Kunstkopf Von Martin und Gardner wurde am MIT Media Lab 1994 eine genaue Messung der HRTF eines „KEMAR-Dummy“ durchgeführt. Dabei handelt es sich um einen speziell für akustische Messungen gefertigten Oberkörper und Kopf mit Mikrophonen in den Ohren [GM94]. Diese ist frei verfügbar und wird bis heute in vielen Simulationen verwendet.1 Basierend auf dieser wurde von Martin eine Lokalisierung in Kugelkoordinaten implementiert [Mar95a]. Die zwei Eingangssignale werden mit einem Kunstkopf aufgenommen, mit einer Innenohrübertragungsfunktion gefaltet und in einer Cochlear-Filterbank [Sla93] in 24 Bänder von 80 Hz bis 18 kHz aufgeteilt. In jedem Band wird mit einem Tiefpass die Umhüllende berechnet. Der Einsatz (onset) in jedem Band wird als lokales Maximum der beiden Umhüllenden bestimmt. Hierbei wird mit einer 10 ms-Totzeit Nachverdeckung und mit einer einfachen Regel Vorverdeckung simuliert. Auf so bestimmten, „interessanten“ Zeitpunkten wird ein 2 − 3 ms langes Exponentialfenster zentriert. Auf diesem wird das Energieverhältnis ∑ t=−n onset temporal masking n n IIDk =10 log10 HRTF Messung Lk (t) − 10 log10 ∑ t=−n Rk (t) (3.28) 1 http://sound.media.mit.edu/resources/KEMAR.html 3.4 bilogistische lokalisierung 39 zwischen Links und Rechts bestimmt. Dazu wird der Spitzenversatz n IPTDk =argmax τ τ τ Rk t + Lk t − 2 2 t=−n ∑ (3.29) und Umhüllendenverschiebung n IETDk =argmax τ ML-Schätzer τ τ L̃k t − R̃k t + 2 2 t=−n ∑ (3.30) für jedes Band k per Korrelation geschätzt. Ausgehend von weißem, Gaußverteiltem Rauschen als durchschnittlichem Eingangssignal wurden theoretische Werte in 5◦ -Schritten für jedes Band berechnet. Die Parameter werden dann über die inverse Fouriertransformierte der HRTF für Dirac-impulse bzw. gleichverteilte Spektren bestimmt. Aus diesen Daten wird mit einem maximum likelihood-Schätzer die wahrscheinlichste Schallrichtung bestimmt. Das Verfahren bestimmt den Dreh- und Neigungswinkel von Quellen in der akustischen Kammer bis auf wenige Ausnahmen im richtigen 5°-Segment. 3.4.2 Salienz und humanoide Roboterohren Ein aus der Neurologie stammendes Konzept ist das einer sensorischen, raumorientierten Interessantheits- oder Salienzkarte (saliency map). Nach der feature-integration theory [TG80] werden im posterior parietalen Cortex (PP) interessante Ereignisse in einer ortsbasierten Karte verortet. Dazu wurde von dem Informatiker Itti und dem Kognitionsbiologen Koch eine Implementierung entwickelt, welche herausstechende Bildbereiche detektiert [IKN98]. Dabei wird der aus der Kognitionspsychologie bekannten Effekt der inhibition of return (IOR) bei Blickbewegungen nachgeahmt. Der jeweils interessanteste Ort wird in einer inhibierenden Karte eingetragen, sodass in der Folge der jeweils nächste interessante Ort gefunden wird. Der Ansatz wird heute oft um weitere Modalitäten erweitert. So werden auch Bewegungsmerkmale in Bildfolgen sowie akustische Ortung verwendet. ego-sphere ITD spektrale Neigungsschätzung Bei einer Umsetzung multimodaler Aufmerksamkeit auf dem humanoiden Roboter „iCub“ werden akustische und visuelle Ereignisse in Kugelkoordinaten in eine ego-sphere genannte Interessantheitskarte eingetragen, welche den Kopf des Roboters umspannt. Die visuelle Interessantheit wird in Skalenpyramiden der Merkmale Intensität, Farbwert, Richtung und einem aus Differenzbildern gewonnen Bewegungsmerkmal berechnet. Dabei wird eine akutsische Lokalisierung mit der Visuellen integriert [RLB+ 08]. Der Roboter besitzt als Nachbildung der menschlichen Physiologie zwei Mikrophone in je einem künstlichen Außenohr wie in Abbildung 26a zu sehen. Der Drehungswinkel wird direkt aus dem Zeitversatz abgeleitet. Dieser wird aus der Kreuzkorrelation des ungefilterten Zeitsignals berechnet. Der Neigungswinkel wird mittels der spektralen Minima (pinna notch) der Signale bestimmt. Dazu wird die Differenz der Spektren gebildet (interaural spectral difference, ISD) ∆H (ω ) =10 log10 HL (ω ) − 10 log10 HR (ω ). 40 stand der technik (3.31) (a) T60 = 0.0 s (b) T60 = 0.05 s Abbildung 27.: Sprecherverfolgung im Modell von Roman et al. [RW08]; Lokalisierungstrajektorien für drei überlappende Sprecher in 30°-Abständen ohne (links) und mit leichtem Hall (rechts). Schon bei leichtem Hall treten Zuordnungsfehler, Lücken und starke Winkelabweichungen auf. likelihood HMM subspace Viterbi Tracking nicht Hall-robust zeitige Sprecher verwendet. Ausgehend von null bis drei möglichen Sprechern und der Einschränkung der Änderung der Sprecherzahl um höchstens eins zwischen zwei Frames ergeben sich acht Subräume von HMM-Zuständen – ein Subraum für keinen Sprecher (S0 ), drei für einen Sprecher (S11..3 ), drei für zwei Sprecher (S21,2 , S22,3 , S21,3 ) und einer für drei gleichzeitige Sprecher (S3 ) – mit 32 Übergängen. In jedem Subraum werden die Sprecherpositionen in 1°-Schritten parametrisiert. Mittels Viterbi-Dekodierung werden die Spuren der Sprecher berechnet. Dabei wird der Rechenaufwand mittels beam search und Einschränkung der Winkelvariation eines Sprechers zwischen zwei Frames auf 6° reduziert. Eine Evaluierung wurde mit Aufnahmen gesprochener Sätze aus dem TIMIT-Korpus durchgeführt. Es wurde eine Simulation von drei gleichzeitigen bewegten Sprechern in 30° Abstand ohne Nachhall T60 = 0 s berechnet. Dabei wird eine Genauigkeit von 7.2° ohne Störungen und von 6.9° bei einem simulierten Signal-Rauschverhältnis von 40 dB erreicht. Eine zum Vergleich durchgeführte Lokalisierung mit 16 Mikrophonen und einem Kalmanfilter-Ansatz erreicht hier 12.9° Genauigkeit. Die meisten Untersuchungen wurden mit der Simulation von hallfreien Umgebungen (T60 = 0 s) gemacht. Die Lokalisierungsgenauigkeit nimmt bereits für eine simulierte Nachhallzeit von T60 = 0.05 s deutlich ab, wie in Abbildung 27b zu sehen [RW08, S. 737]. 3.5 spracherkennung Die CASA kann durch Nachbildung von stream separation eine Grundlage für robuste Spracherkennung liefern. Bevor die einzelnen Implementierungen dargestellt werden, wird kurz das gemeinsame Prinzip der Zeit×Frequenz-Masken und seine Integration in den Spracherkennungsprozess geschildert (Abschnitt 3.5.1). Eine der großen Herausforderungen ist die automatische Separation eines einkanaligen Signales in mehrere Streams. Zur Trennung von cochannel speech gibt es verschiedene Ansätze, die jeweils ein sehr komplexes Modell des menschlichen Hörens beinhalten. Hier wird zum Vergleich mit den mehrkanaligen Verfahren ein Spracherkennungsystem vorgestellt, welches in der Lage ist, zwei gleichzeitige Sprecher in einem einkanaligen Signal zu trennen und Sprache eines nach vorgegebenen Regeln selektierten 42 stand der technik Sprechers zu erkennen (Abschnitt 3.5.2). Die Verwendung mehrerer Mikrophone erleichtert die Trennung gleichzeitiger, räumlich getrennter Sprecher. Basierend auf der Modellierung binauralen Hörens wurden verschiedene Spracherkennungssysteme entworfen. Dabei wird zunächst eine Lokalisierung in unabhängigen Frequenzbändern vorgenommen, mit dieser wird dann die Sprecherposition und -Anzahl geschätzt. Dazu werden zwei Ansätze dargestellt: Die Verwendung von Nulldurchgängen in Bändern (Abschnitt 3.5.3) und eine gegen Hall unempfindliche Lokalisierung mit einer Modellierung des precednece effect (Abschnitt 3.5.4). 3.5.1 Merkmale für robuste Spracherkennung Anhand der Signalenergien wird eine Zeit×Frequenz-Maske für jeden Sprecher berechnet. Die Elemente repräsentieren die Zugehörigkeit des entsprechenden Signalanteils zu dem Sprecher. Ist ein Matrixelement null, so fehlt die entsprechende Information über den jeweiligen Sprecher, das Signal an dieser Stelle ist aufgrund von Störungen unzuverlässig. Um diesen Umstand zu modellieren wurde das Verfahren der missing data-Spracherkennung eingeführt [RSS04]. Dabei werden meist fehlende Bereiche durch Integration über die Randverteilung ersetzt, was einer impliziten Annahme von Gleichverteilung für fehlende Information entspricht. Die missing data-Wahrscheinlichkeit für einen Merkmalsvektor x = ( xi )i ergibt sich als Mischverteilung p(x|θ ) = ∑ αk p(x|θ, k) Sprecherzuordnung missing data (3.32) k mit der binären Maske m bei der vereinfachten Annahme additiver gleichartiger Störungen [HBB06] p(x|θ, k ) = ∏ i 1 − mi mi · p( xi |θ, k ) + xi Zxi p( xi ′ |θ, k)dxi ′ −∞ (3.33) mit Gaußverteilungen ohne (nichtdiagonale) Kovarianzen p( xi |θ, k ) =N ( xi ; µki , σki ) . (3.34) Als Merkmale für die Spracherkennung können die Komponenten des auditiven Spektrogramms, also die Energien in den Frequenzbändern, direkt verwendet werden. Dazu werden auch sogenannte auditory rate maps verwendet, welche neuronale Pulse modellieren. Diese werden aus der Hilbertumhüllenden der Bandfiltersignale über Tiefpassfilterung und Abtastung gebildet. Hier ist die Zuordnung der Zeit×Frequenz-Maske zu spektralen HMM-Emissionen direkt möglich. Ein für Spracherkennung häufig verwendetes Merkmal sind die sogenannten mel frequency cepstral coefficents (MFCC). Hier werden die Koeffizienten des Spektrums des logarithmierten Bertrages des MelSpektrums sowie ihre diskrete Ableitung berechnet [ST95, HAH01]. Eine einfache Möglichkeit der Integration ist die Kombination von spektralen Features nach dem missing data-Ansatz mit den wie üblich berechneten MFCC in einem gemeinsamen Merkmalsvektor [PBB06]. Wesentlich aufwändiger ist die Übertragung der spektralen Unsicherheiten in den cepstralen Bereich, da sich eine Frequenz auf alle MFCC auswirkt. Von Srinivasan wurde ein Verfahren entwickelt, um die 3.5 spracherkennung auditory rate maps MFCC 43 Abbildung 28.: CASA Spracherkennung nach Srinivasan und Wang [SSJW06] regression trees → MFCC Zeit×Frequenz-Maske in den cepstralen Bereich zu transformieren. Es verwendet Regressionsbäume, um die nichtlineare Transformation automatisch zu ermitteln [SW07]. 3.5.2 multipitch tracking multiscale onset detection spectral reconstruction → MFCC stream separation Einkanalige Sprechertrennung Ein komplexes CASA-Modell für Spracherkennung wurde von Srinivasan, und Wang an der Ohio State University entwickelt. Auch hier wird eine binäre Zeit×Frequenz-Maske relevanter Ereignisse berechnet und von einem nachgeschalteten HMM mit MFCC-Merkmalen verarbeitet [SSJW06, SW07]. Das in Abbildung 28 skizzierte Modell verwendet eine GammatonFilterbank mit 128 Bändern zwischen 50 Hz und 8 kHz. Simultane Gruppierung erfolgt über multiple Pitchtracker für stimmhafte und multiskalische Einsatzfeatures für stimmlose Laute. Mit einem speziellen Algorithmus [SW06] werden Sequenzen identifiziert. Zeit×Frequenz-Bereiche mit einer positiven Sprachidentifizierung werden in einer binären Maske vermerkt. Fehlende Werte werden über das missing data-Verfahren mittels Randverteilungen geschätzt. Das Signal für jeden Sprecher wird, wo nötig, im Spektralbereich rekonstruiert und dann in MFCC-Merkmale überführt, auf welche ein Standard-Spracherkenner angewendet wird. In dem auf der Interspeech 2006 vorgestellten Experiment wurde auf das Vorkommen eines gewünschten Trigger-Wortes reagiert und das Signal des dieses äußernden Sprechers getrennt und klassifiziert, so daß von stream separation gesprochen werden kann. Dabei wurden Kommandosätze der Form „place blue at f2 now“ verwendet.3 Der resultierende Erkenner hat die Performance eines einkanaligen bei ca. 6 dB besseren SNR in Situationen mit zwei durcheinanderredeneden Sprechern und immerhin über 40 % gegenüber 65 % word error rate (WER) bei einem SNR von 0 dB, also gleichlauten Sprechern [SSJW06]. 3.5.3 Nulldurchgangsbasierte Trennung Anstelle der Verwendung von Halbweggleichrichtung und Korrelation nach dem Jeffress-Colburn Modell mit anschließender Schärfung (Abschnitt 3.3.3) kann auch die Bestimmung des Zeitversatzes von Null3 Speech separation and recognition competition. http://www.dcs.shef.ac.uk/ martin/SpeechSeparationChallenge.htm 44 stand der technik durchgängen zur ITD-Schätzung verwendet werden [HOS95, KAK06, PS06]. Alle zitierten Ansätze verwenden als ITD-Schätzung den Abstand der am nächsten benachbarten Nulldurchgänge. Aus diesen wird dann eine Zeit×Frequenz-Maske für missing data-Spracherkennung geschätzt. Bei vergleichenden Experimenten zeigt sich, dass die Nulldurchgänge mindestens so gut geeignet sind wie die Schätzung durch Kreuzkorrelation. Die Schätzung kontinuierlicher Masken führt gegenüber binären Masken bei beiden Verfahren zu besseren Ergebnissen. Die Implementierung von Kim et al. bestimmt für die Signale beider Ohren in 32 gammatongefilterten Bändern mit ERB-verteilten Mittenfrequenzen von 200 Hz bis 4 kHz Nulldurchgänge. Für jedes Paar (n, m) von Nulldurchgängen in jedem Band b wird der Zeitversatz (ITD) ∆tb (n, m) und ein Energieverhältnis (IID) ∆pb (n, m) bestimmt. Für das Energieverhältnis wird die Energie in der Umgebung des Nulldurchgangs als Quadratsumme bestimmt. Über alle Paare werden diejenigen gesucht, welche die geringste Winkeldifferenz implizieren: argmin |θ ITD (∆tb (m, n)) − θ I ID (∆pb (m, n))|. m zerocross distance → ITD kombinierte ITD IID Schätzung (3.35) Aus diesen wird ein Histogramm gebildet. Histogramm-Peaks werden als Audioquellen interpretiert. Die Varianz der zugehörigen Nulldurchgänge entspricht dabei einer impliziten Schätzung des SignalRauschverhältnisses. Die so gefundenen Drehwinkel von stationären Quellen dienen als Grundlage für die Schätzung der zugehörigen Signalenergie. Die Energie in den Bändern wird zwischen den Nulldurchgängen je Quelle über längere Zeitsegmente aufsummiert. Erreicht die Energie einen Wert von über der Hälfte der Gesamtenergie, so wird in der Zeit×Frequenz-Maske der relative Anteil eingetragen. Diese Masken werden zusammen mit auditory rate maps zur Spracherkennung verwendet. Es wurden verschiedene Spracherkennungs-Experimente mit dem CASA Toolkit auf Ziffernfolgen aus dem TI- Digits-Korpus4 durchgeführt. Dabei wurden ein oder zwei Störsprecher in 5° oder 30° Abstand mit −5 bis 20 dB in einer hallfreien Umgebung simuliert. Das Verfahren wurde mit der kreuzkorrelationsbasierten Schätzung binärer Masken verglichen. Wurde die Maskenschätzung für die Kreuzkorrelation vorher nach dem Verfahren von N. Roman [RWB03] mit trainiert, so erreicht diese vergleichbare Genauigkeit, andernfalls blieb die Kreuzkorrelation hinter der Auswertung von Nulldurchgängen zurück. Bei einem gleichlauten störenden Sprecher erreichen die Nulldurchgänge wie die trainierte Kreuzkorrelation 7 % WER, die untrainierte Kreuzkorrelation hingegen nur 40 %. Für zwei störende Sprecher erreicht das Nulldurchgangsverfahren 17 %, die trainierte Kreuzkorrelation 21 % und die untrainierte 54 %. Binäre Masken sind in allen Fällen schlechter. Die Implementierung von Park et al. [PS06] schätzt kontinuierliche Zeit×Frequenz-Masken nur mit ITDs. Als Spracherkenner wird ein kontinuierliches HMM mit MFCC als Merkmalen verwendet (CMU SPHINX-III). Hier wird für einen gleich lauten Störsprecher 12 % WER erreicht, gegenüber 23 % für Kreuzkorrelation und 90 % ohne binaurale Verarbeitung. Binäre Masken sind in allen Fällen schlechter. In keiner Evaluation wurde Hall simuliert. auditory rate maps T60 = 0 4 Der TI Digits enthält Aufnahmen von 77 Zahlensequenzen von 326 Sprechern [LDC]. 3.5 spracherkennung 45 Abbildung 29.: Hallrobuste neurobioloisch inspirierte Spracherkennung [PBW04] 3.5.4 precedence effect pooled sekleton cross-correlogram θs , θn time-frequency mask CC (θs ) > CC (θn ) ITD 7→ θs ILD 7→ θs Energie besser als Mono MFCC ASR T60 = 0.3 s 46 Korrelationsbasierte Trennung Eine der wenigen erfolgreichen Anwendungen eines CASA-Modells bei Nachhall wurde 2004 von Palomäki et al. vorgestellt [PBW04]. Hier werden IID- und ITD-Cues mit einer Modellierung des precedence effect zur Schätzung des Drehwinkels zweier stationärer Quellen verwendet. Die Schätzung verlässlicher Zeit×Frequenz-Bereiche wird für missing data Spracherkennung genutzt. Die Signale der zwei Ohren eines Kunstkopfes werden mittels einer komplexen Gammatonfilterbank mit ERB-verteilten Mittenfrequenzen zwischen 50 Hz und 8 kHz in 32 Bänder aufgeteilt. Die Signale in den Bändern werden einweggleichgerichtet. Davon wird die Hilbertumhüllende berechnet, deren Verhältnis in Bändern über 2.8 kHz wird als IID cue verwendet. Die Hilbertumhüllenden dient auch der Simulation des precedence effect bei der Bestimmung der ITDs. Das Umhüllendensignal wird mit einem 15 ms-Tiefpassfilter geglättet und vom Bandsignal subtrahiert. Nur positive Differenzen werden zur Kreuzkorrelation verwendet, welche in 10 ms-Schritten per FFT berechnet wird. Da für tiefe Frequenzen sehr breite Peaks auftreten, wird die Korrelationsfigur zu einem pooled sekleton cross-correlogram geschärft, indem lokale Peaks mit Gaußfunktionen multipliziert werden (Abschnitt 3.3.3). Die Korrelelogramme werden über alle Zeitframes und Frequenzbänder gemittelt, was stationäre Quellen voraussetzt. Die beiden größten Peaks in dem gemittelten Korrelelogram werden als Position von Signal und Störer interpretiert. Damit wird eine binäre Zeit×Frequenz-Maske geschätzt. Ein Einswert wird dort angenommen wenn vier Bedingungen erfüllt sind: Der Wert des Korrelelogramms an der Signalposition ist höher als eine Schwelle und höher als der an der Störerposition. Des weiteren muss der ILD-Wert bis auf 0.5 dB einem bandabhängigen Template für die Signalposition entsprechen. Die Energie je Band, über 200 ms-Fenster gemittelt, muss über einer Schwelle von −11 dB liegen. Der normalisierte Wert der Hilbertumhüllenden wird als Merkmal für den Spracherkenner verwendet. In Experimenten mit zwei gleichzeitigen Sprechern und variablem Hall wurde das System mit einem einkanaligen MFCC Spracherkenner auf Ziffernfolgen aus dem TI-Digits-Korpus verglichen. In den Simulationen ohne Hall ( T60 = 0 s) erreicht das System 7 % gegenüber 94 % WER bei 0 dB SNR, bei mittlerem Nachhall ( T60 = 0.3 s) 45 % gegenüber 86 % WER. Das binaurale System zeigt also deutlich bessere Ergebnisse. Die WER steigt dabei für Sprecherabstände von weniger als 40° und 20 dB SNR [PBW04]. stand der technik 4 NEURO-FUZZY-LOKALISIERUNG Im Rahmen der Arbeit wurde ein Verfahren zur Lokalisierung von Sprechern in realen Umgebungen entwickelt. Dabei wurden neben technischen Lokalisierungsverfahren insbesondere auch aktuelle Erkenntnisse der Neurobiologie und Kognitionspsychologie über das menschliche Hören zu Grunde gelegt. Basierend auf umfangreichem Wissen über die Natur der Sprache und das menschliche Hören wurden vielfältige Sprachverarbeitungsysteme im Rahmen der kognitionspsychologischen Theorie der Auditory Scene Analysis (ASA) realisiert [WB06]. Diese sind in erster Linie auf die Imitation der menschlichen Fähigkeiten ausgerichtet. Ein Großteil der biologisch inspirierten Systeme arbeitet nur in Simulationen und hallfreien Umgebungen. Viele reale Umgebungen in unserer modernen Umwelt sind Innenräume, hier stellt der Hall eine der größten Herausforderungen für Lokalisierungssyteme dar. Technische Lokalisierungsansätze erreichen gute Ergebnisse im realen Einsatz unter der Verwendung von Mikrophonarrays für allgemeine Lokalisierungsaufgaben [BW01]. In dem hier entwickelten System wurde vom menschlichen Vorbild insoweit Abstand genommen, dass kein Kunstkopf mit zwei Ohren, sondern ein Mikrophonarray zur Aufnahme des Signales verwendet wird. Durch die pragmatische Kombination von Modellen aus der neurobiologischen Forschung und technischer Lokalisierungsverfahren ist das System robust gegenüber Hall und Störungen. Zum einen erlaubt der Einsatz von Mikrophonarrays eine robuste Schätzung des Quellortes über Ankunftszeitdifferenzen, zum anderen erlaubt die Übertragung des evolutionär optimierten menschlichen Hörapparates in ein Computermodell die Nutzung eines auf menschliche Sprache optimierten Systems. Schließlich führt die konsequente Einschränkung auf klar lokalisierte Sprachanteile durch die strikte Anwendung von technischen Rahmenbedingungen und von Sprachheuristiken zu wenigen aber klar lokalisierten Ergebnissen im Sinne eines glimpsing model [Coo06]. Das entwickelte Verfahren realisiert die Lokalisierung von Sprechern mit der erfolgreichen Kombination von technischem und biologischem Wissen. Die konsequente Beschränkung auf wesentliche, robuste Merkmale, die Entwicklung optimierter Algorithmen sowie die Anwendung optimierter Bibliotheken zur Signalverarbeitung und Mehrkernprozessoren ermöglichen die Lokalisierung in Echtzeit auf aktullen Rechnern. 4.1 verarbeitungsstruktur Das System verwendet zur Signalaufnahme ein zirkuläres Mikrophonarray, das auf einem Konferenztisch zwischen den Sprechern angeordnet wird. Die Verarbeitung erfolgt in den in Abbildung 30 skizzierten sechs Schritten: In Anlehnung an die Frequenz-Orts-Transformation in der menschlichen Cochlea werden die Signale in Frequenzbänder aufgeteilt wie in Abschnitt 4.3.1 beschrieben. Analog zur Kodierung der Signalphase und -energie im Hörnerv werden Rechteckim- 47 ASA Innenräume Nachhall Mikrophonarray Neurobiologie TDOA klar lokalisierte Sprachteile glimpsing model Echtzeit Abbildung 30.: Verarbeitungsstruktur (von links nach rechts): Mikrophonarray, Filterbank, Spikeerzeugung, Korrelation, Rückprojektion, Fuzzy-Kombination und Sprachenergiedetektion. pulse generiert (Abschnitt 4.3.2). Hier führen nur stark modulierte Anfangspeaks zur Impulserzeugung. Diese werden einer korrelativen Analyse in Anlehnung an die Verarbeitung der auditory pathways unterzogen. Dabei werden von Band- und Mikrophonabstand abhängige Fensterlängen zum Erhalt eindeutiger Peaks verwendet (Abschnitt 4.4). Die Korrelationswerte werden von den Ankunftszeitverzögerungen zu Quellwinkeln zurückprojeziert (Abschnitt 4.5.1). Danach werden die Werte der einzelnen Mikrophonpaare mit einer robusten Fuzzy-Kombination zu gemeinsamen Quellpositionshypothesen kombiniert (Abschnitt 4.5.2). Diese werden über Zeitfenster und alle Frequenzbänder zusammengefaßt. Über die Zeit werden schliesslich die Winkel von aktiven Sprechern als Peaks über die Quellwinkel identifiziert (Abschnitt 4.6). 4.2 signalaufnahme Die hier vorgestellte Implementierung lässt sich prinzipiell auf beliebige Mikrophonanordnungen anwenden. Für die Lokalisierung von Gesprächspartnern in einem Konferenzraum wird ein zirkuläres Mikrophonarray gewählt, welches auf dem Tisch zwischen den Sprechern positioniert wird wie in Abbildung 31 dargestellt. Um Signale mit guter Phasenauflösung zu erhalten, werden die Mikrophone mit einer Abtastrate von f s = 48 kHz abgetastet. 4.2.1 Mikrophonarray zirkular äquidistantes Mikrophonarray Das Mikrophonarray besteht aus acht äquidistant auf einem Kreis angeordneten omnidirektionalen Mikrophonen. Die äquidistant planare Anordung ist auf die Lokalisierung über den Drehwinkel abgestimmt. Die Mikrophone spannen vier Subbänder mit unterschiedlichen Eigenschaften auf wie in Tabelle 1 aufgelistet. In der Skizze am Rand sind jeweils die Mikrophonpaare eines Subbands mit einem Strichmuster verbunden. Bei Verwendung eines kleinen Radius von r a = 0.05 m liegt die Grenze f a für räumliches Aliasing zwischen 3.4 kHz und 9 kHz, so Paare 4 8 8 8 |i − j | 4 3 2 1 2r 1.84r 1.42r 0.72r d [m] f a [kHz] = 0.10 = 0.92 = 0.71 = 0.36 3.43 3.73 4.83 9.03 2τmax 28 26 20 11 Tabelle 1.: Subbänder des zirkulären Mikrophonarrays 48 neuro-fuzzy-lokalisierung Abbildung 31.: Platzierung des Mikrophonarrays im Konferenzszenario auf dem Tisch zwischen den Sprechern. Die zirkulär äquidistant angeordneten Mikrophone erlauben die Lokalisierung des Quellwinkels, ein Winkel α1 zur Quellposition q1 ist exemplarisch eingezeichnet. dass alle ersten und zweiten Formanten durchgängig aufgelöst werden. Bei einer Abtastrate von 48 kHz entsprechen 11 bis 28 Samples der physikalisch maximal möglichen Laufzeitdifferenz zwischen zwei Mikrophonsignalen in den Subbändern. 4.2.2 Platzierung Das Mikrophonarray wird so platziert, dass es möglichst koplanar und nah an allen möglichen Sprecherpositionen ist. Die Präzision der Drehwinkellokalisierung nimmt mit der Neigung und der Entfernung zum Sprecher ab. Für gute Ergebnisse ist das Array so zu platzieren, dass sich die Sprecher in einer Neigung von −25° bis 25° aufhalten. Die maximale Sprecherentfernung sollte im Bereich des doppelten Hallradius 2 · r H liegen (vgl. Abschnitt 2.2.2), was in üblichen Konferenzräumen zwischen 2 m und 4 m entspricht. Dazu ist ein Mindestabstand von 0.5 m zu beachten, um die Fernfeldannahme nicht zu verletzen (vgl. Abschnitt 2.2.3). Bei kleineren Abständen führt die Sphärizität der Wellenfronten zu Laufzeit- und Amplitudenunterschieden, die vom Abstand und der relativen Position der Mikrophone abhängen. Diese Forderungen sind in den meisten Konferenzsituationen leicht durch eine zentrale Positionierung des Mikrophonarrays auf dem Konferenztisch zu erreichen. 4.3 Sprecher in 0.5 - 3 m, −25° - 25° cochlea-modell Das verwendete Modell der menschlichen Cochlea besteht aus einer Filterbank und einer modulationsbasierten Generierung von Rechteckimpulsen. Als Modell der frühen neuronalen Verarbeitung werden die Pulse mit einer Betonung des Einsatzes generiert und dann korreliert. Die onset dominance wird von einigen Neurologen als wesentlicher Mechanismus für das Hören und Lokalisieren in Umgebungen mit starkem Hall beim Menschen gesehen [DIH+ 09]. In der Kongitionspychologie wird die Auswertung der „ersten Wellenfront“ als precedence effect bezeichnet [WB06, S. 26ff.] und als wesentlicher Mechanismus der Lokalisierung bei Hall angesehen. 4.3 cochlea-modell onset dominance precedence effect 49 4.3.1 Gammatonfilter Filterbank Die Frequenz-Orts-Transformation auf der Basilarmembran wird nach dem Patterson-Holdsworth-Modell mit einer Filterbank nachgebildet [PNSHR88]. Dabei wird eine Reihe von Gammatonfiltern vierter Ordnung eingesetzt (vgl. Abchnitt 3.3.1). Die Übertragungsfunktion eines Gammtonfilters n-ter Ordnung mit einer Mittenfrequenz f b und Bandbreite wb entspricht im wesentlichen einem Bandpassfilter in Form einer Exponentialfunktion [UA99] (b) Ĝ(n) ( f ) = ı( f − f b ) 1+ wb −n , (4.1) hier bezeichnet ı die imaginäre Einheit. Der Amplitudengang für ein Gammatonfilter vierter Ordnung lässt sich so als w4b w4b = p Ĝ (b) ( f ) = 4 rg( f )2 + ig( f )2 (wb − ı ( f − f b )) (4.2) mit rg( f ) = w4b − 6w2b ( f − f c )2 + ( f − f b )4 und ig( f ) = 4 wb ( f − f c )3 − ( f − f b )w3b approximieren. Entsprechend der Außen-Mittelohr Übertragung kann die Maximalamplitude der Bänder nach der Näherung von Terhardt als 2 A f · 103 = − 3.64 f −0.8 + 6.5e−0.6( f −3.3) − 10−3 f 4 (4.3) Filterdefinition approximiert werden [Ter79]. Damit ergibt sich als Filterdefinition für eine auditive Filterbank H (b) ( f ) = 10( A( f b )/20) Ĝ (b) ( f ). (4.4) Die Positionierung der Mittenfrequenzen f b erfolgt dabei äquidistant nach der equal resonance bandwidth (ERB) ERB( f ) := 21.366 log f · 4.368 · 10−3 + 1 . (4.5) Glasberg&MooreParameter Nach Glasberg und Moore [GM90] wählt man diese nach Gleichung 4.5 mit wb = ERB ( f b ). Zur Lokalisierung von Sprechern anhand der typischen Sprachenergien werden nb = 16 Frequenzbänder mit Mittenfrequenzen f b zwischen 0.2 kHz und 3.6 kHz eingesetzt. Abbildung 32 zeigt die Amplitudengänge dieser Filterbank. Die Filter werden dabei mit schneller Faltung via FFT-Overlap-Add realisiert [Smi99, S. 180ff.]. Das Zeitsignal y[t] wird in N = 2ν Samples lange Zeitfenster mit 50 % Überlappung, also in t = k · 2ν−1 Intervallen, mit einem Cisoid-Fenster πn w[n] = sin (4.6) N−1 multipliziert und über eine schnelle Fouriertransformation in den Frequenzbereich überführt Y [ f ] ◦−• y[t]w[t] . 50 neuro-fuzzy-lokalisierung (4.7) H (b) (f) [dB] −12 −24 −36 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 f [kHz] Abbildung 32.: Frequenzgang der auditiven Filterbank aus 16 Gammatonfiltern mit Mittenfrequenzen f b = 0.2, . . . , 3.6 kHz mit der exponentiellen Näherung und Bandamplituden nach der AußenMittelohr-Übertragungsfunktion. Das Spektrum wird für jedes Band mit dem Frequenzgang nach Gleichung 4.4 multipliziert und mit der inversen Transformation in den Zeitbereich zurücktransformiert: y(b) [t] •−◦ Y [ f ] H (b) [ f ] , (4.8) wo aufeinander folgende Zeitfenster überlappend zu einem kontinuierlichen Zeitsignal addiert werden. Durch diese Berechnungsweise bleiben die Phasen des Signales in den Bändern zueinander synchron, was wesentlich für die nachfolgende Laufzeitauswertung ist. Durch Verwendung der hochoptimierten libFFTW [FJ05] ist dies in etwa gleich schnell wie die gebräuchliche Realisierung mit IIR-Filtern [Sla93] ohne Phasenkompensation. Zur Erzeugung linearphasiger Signale wird bei Verwendung von IIR-Filtern üblicherweise eine zweite Filterung des zeitlich invertierten Signales vorgenommen [SGT07]. Damit ist diese Variante sowohl langsamer als auch nicht direkt online-fähig. 4.3.2 Impulserzeugung Zur Modellierung der neuronalen Verarbeitung werden in den Bändern schmale Rechteckimpulse bei Signalmaxima generiert, welche die Phase und Energie des Signales repräsentieren. Die Auswertung von Maxima ist gegenüber anderen Ansätzen störresistenter, eine derartige Erzeugung phasenstarrer Impulse bildet auch beim Menschen die Basis der Lokalisierung [Gro03]. Der Mittelwert des gleichgerichteten Signales ỹ[t] = 1 L− D ∑ |y[t + l ]| L + 1 l =− D phase locking Peak over Average (4.9) wird als moving average über L = f s · 30 ms entsprechend ca. zwei Pitchperioden gewonnen, um die aktuelle Stimmlautstärke wiederzugeben. Der Lesbarkeit zuliebe wird der Bandindex (b) in diesem Abschnitt weggelassen. Die Differenz ŷ[t] :=y[t] − ỹ[t] (4.10) 4.3 cochlea-modell 51 (a) Bestimmung der Peakposition pn (b) Rechteckimpuls s[t] (c) Onset-Dominance Abbildung 33.: Erzeugen eines Rechteckimpulses mit dem Peak-over-Average Verfahren. Über den Vergleich des Mikrophonsignales y[t] mit seinem Mittelwert ỹ[t] werden modulierte Intervalle [un , dn ] bestimmt (a). Die Position des höchsten Wertes pn bestimmt die Phase, die Differenzamplitude in dem Intervall die Höhe hn des generierten Impulses (b). Durch Verschieben des Mittelwertes ragen die ersten Schwingungen stärker heraus (c) und es kommt hier vermehrt zur Impulsgenerierung. precedence effect wird als Peak-over-Average-Modulationsmaß berechnet. Durch eine Verschiebung des Mittelwertes um D = f s · 3 ms wird bereits monaural auf starke Einsätze (onsets) folgender Hall unterdrückt, wie dies nach Ansicht einiger Neurologen im Cochlear Nucleus (CN) erfolgt [BvH07]. Zusammen mit der nachfolgenden Korrelation ist dies auch eine pragmatische Umsetzung des precedence effect ähnlich der von Palomäki et al. [PBW04]. Positive ŷ[t]-Intervalle [un , dn ] enthalten onsets hinreichender Modulation. Diese sind leicht zwischen den Nulldurchgängen der Signaldifferenz zu identifizieren: ŷ [ t ] > 0 ∀ u<t<d . (4.11) Iy = [u, d] ∧ ŷ[u − 1] ≤ 0 ∧ ŷ[d + 1] ≤ 0 Die Maximumpositionen (Peak-over-Average Positions, PoAP) PoAP y[t] := pn = argmax ŷ[t] | [un , dn ] ∈ Iy t phase locking un ≤ t ≤ dn werden nun als Position des höchsten Wertes von ŷ[t] in den Intervallen [un , dn ] bestimmt wie in Abbildung 33 dargestellt. Dabei kodieren die pn die Phase des Maximums des Eingangsignales, wie dies auch bei den Spike-Trains im Hörnerv durch deren Phase geschieht. Als weitere Bedingung für signifikante Sprachenergie werden nur Positionen pn verwendet, bei denen das Energieverhältnis 20 log y[ pn ] − 20 log ỹ[ pn ] > thmod intesity coding (4.12) (4.13) hinreichend groß ist. Die Modulationsschwelle thmod wird entsprechend der Modulation typischer starker Sprachbestandteile auf 9 dB gesetzt. Die Höhe des Rechteckimpulses repräsentiert die Signalenergie, wie sie im Hörnerv durch die Spikeanzahl kodiert ist [Han89]. Die Höhe hn = 2 f b /1000 dn ∑ t=un (ŷi [t])0.5 (4.14) eines Rechteckimpulses wird als Summe der Wurzeln der Peak-overAverage-Werte bestimmt. Dazu wird eine Emphase zur Equalisierung über die Frequenzbänder ergänzt, die zu gleichstarken Korrelationswerten in allen Bändern führt. 52 neuro-fuzzy-lokalisierung Die Breite des erzeugten Rechteckimpulses wurde heuristisch auf 50 µs in Analogie zur menschlichen neuronalen Verarbeitung fixiert. Zu große Breiten erzeugen unscharfe Korrelationsfiguren, zu schmale Breiten verhindern die Korrelation von Signalen mit kleinen Phasenunterschieden. Das Impulsfolgensignal ergibt sich so zu si [ t ] = ∑ hn ⊓25 (t − pn ) Rechteckimpuls (4.15) n mit ⊓l (t) := ( 1 t ≤ l f s 10−6 0 sonst. Aus Effizienzgründen wird in der Implementierung für die Impulsfolgen kein Zeitsignal, sondern eine Liste der Positionen und Höhen ( pn , hn ) in einer indizierten Datenstruktur verwendet. 4.4 modell neuronaler korrelation Entsprechend dem Modell der neuronalen Korrelation von Jeffress [Jef48] werden die Signale eines Mikrophonpaares in jedem Fequenzband gefaltet. Die in kurzen Zeitfenstern akkumulierten Werte sind abhängig von der modulierten Sprachenergie mit einem bestimten Zeitversatz. Die Rechteckimpulse ergeben hier eine scharfe Korrelationsfigur mit deutlich entfernten, fluktuierenden Nebenmaxima. So kann hier eine ITD-Schätzung erfolgen, ohne dass eine Schärfung zu einem skeleton cross-correlogram nötig ist (vgl. Abschnitt 3.3.3). Diese wird von vielen CASA-Modellen verwendet, um die Korrelationsfigur von Halbweggleichgerichteten Signalen auszuwerten [PBW04, RW08]. Bei der Faltung werden je nach Mikrophonpaar und Frequenzband unterschiedlich lange Fenster gewählt, um Aliasing zu vermeiden. Jeffress Model 4.4.1 Aliasing Die Länge der Korrelationsfenster wird hierbei band- und mikrophonpaarweise festgelegt, um zwei Arten von Aliasing zu minimieren: Zum einen räumliches Aliasing, welches auftritt, wenn eine Wellenlänge kürzer ist als der Abstand der beiden Mikrophone und zum anderen harmonische Fehler, die auftreten wenn mehr als eine Schwingung in das Korrelationsfenster fällt. Als Bandgrenzen der Gammatonfilter werden die Frequenzen f b ± 2wb angenommen, hier ist die Dämpfung größer als 24 dB. Räumliches Aliasing wird durch Einschränkung der korrelierten Mikrophonpaare (i, j) auf diejenigen erreicht, welche die Bedingung c P(b) = (i, j) kmi − m j k < (4.16) f b + 2wb erfüllen, dass die kürzeste Welle im Band mindestens so breit ist wie der Mikrophonabstand. Hier sind die Mikrophonpositionen mit mi und m j bezeichnet und mit c die Schallgeschwindigkeit. Durch die Selbstähnlichkeit des Signals treten bei der Korrelation harmonischer Fehler auf. Hier führen ähnliche Signalteile, ebenso wie die gleichzeitg geäußerten, zu Maxima in der Korrelation beider Signale. Um harmonische Fehler zu reduzieren, wird die Größe des Korrelationsfensters als Summe der maximalen Pitchperiode T0 = 14 ms (ent- 4.4 modell neuronaler korrelation räumliches Aliasing harmonische Fehler 53 sprechend einer minimalen Stimmtonhöhe von etwa 70 Hz, vgl. Abschnitt 2.1.2) des Mikrophonabstandes und zwei maximalen Wellenenlängen zu (b) K(i,j) = k mi − m j k 2 + T0 + c f b − 2wb fs (4.17) bestimmt. Als Vorschub der Korrelationsfenster wird S = f s · 20 ms gewählt. 4.4.2 Impulskorrelation Die Faltung von Impulspaarfolgen ( pi , hi ) und ( p j , h j ) in einem Zeitfenster k wird explizit berechnet: Die Faltung zweier Rechteckimpulse mit den Amplituden hi , h j ergibt ein Dreieck der Höhe hi h j . Die Summe aller so bestimmten Dreiecke entspricht somit der Faltung aller Rechtecke. So kann zur Berechnung der Korrelation für jedes Paar von Impulsen aus den zwei Folgen ein Dreieckimpuls aufaddiert werden: (b) rij [k, τ ] = ∑ (b) (b) ( pi ,hi )∈si ,( p j ,h j )∈s j mit ∧l (t) := |t−l ′ | l′ 0 (∧25 (τ − pi )hi h j + ∧25 ( p j − τ )h j hi ) |t − l ′ | < l ′ , l ′ := l f s 10−6 (4.18) sonst. Experimente zeigen, dass dies für die dünn besetzen Impulsfolgen mindestens so effizient berechenbar ist wie die Faltung per Fouriertransformation. Durch Verwendung der Datenstruktur mit indizierten Impulspositionen ist dies in Algorithmus 1 angebene Verfahren deutlich schneller. 4.5 rückprojektion und kombination Die ermittelten Zeitverzögerungen werden auf Drehwinkel zurückprojeziert (Abschnitt 4.5.1). Die Projektionen aller Mikrophonpaare werden dann zu einer gemeinesamen Quellpositionsschätzung kombiniert (Abschnitt 4.5.2). 4.5.1 Rückprojektion Fernfeld dilution of precison 54 Wird das Array auf dem Tisch platziert, wie in Abbildung 31 dargestellt, kann man davon ausgehen, dass sich die Sprecher anhand des Drehwinkels trennen lassen und dort nicht überlappen. Als mögliche Sprecherpositionen sind nur flache Neigungswinkel interessant. Die eintreffenden Wellenfronten können nach der Fernfeldannahme als quasi parallel angesehen werden, daher kann die Entfernung der Quelle nicht geschätzt werden. Die auftretenden Ankunftszeitverzögerungen aus einer festen Richtung sind auf die Genauigkeit eines Abtastwertes identisch für r ≫ 5r a . Den Abstand des Mikrophonpaarmittelpunktes vom Mikrophonarraymittelpunkt kann man ebenfalls nach der Fernfeldannahme vernachlässigen. Für flache Neigungswinkel ist die Neigungsschätzung durch ein planares Array extrem ungenau, was auch die dilution of precison wiedergibt [BH99]. Die Zeitver- neuro-fuzzy-lokalisierung Input : zwei Impulsfolgen si = ( pi , hi ), s j = ( p j , h j ) Output : Korrelation r in überlappenden Fenstern foreach Fenster k do ps = kS pe = ps + K r [k, τ ] = 0 Li = Lj = ∅ pi = FirstNonzeroPositionGreater( si , ps ) while pi < pe do Li = Li ∪ ( pi , hi ) // Impulse in si pi = NextNonzeroPosition( si ) end p j = FirstNonzeroPositionGreater( s j , ps ) while p j < pe do Lj = Lj ∪ ( pj, hj ) // Impulse in s j p j = NextNonzeroPosition( s j ) end foreach ( pi , hi ) ∈ Li do foreach ( p j , h j ) ∈ L j do τ = pi − p j // TDOA if |τ | < τmax then h = hi h j // Dreieck addieren r [k, τ ] = r [k, τ ] + h r [k, τ ± 1] = r [k, τ ± 1] + 2/3h r [k, τ ± 2] = r [k, τ ± 2] + 1/3h end end end end Algorithmus 1: Schnelle Impulskorrelation zögerungen τ jedes Mikrophonpaares werden daher auf Drehwinkel zurückprojeziert, welche dem Einfallswinkel in der Mikrophonarrayebene entsprechen. Für einen Drehwinkel α und das Mikrophonpaar (i, j) ergibt sich so die Ankunftszeitdifferenz (TDOA) kmi − m j k cos α − β ij f s τij (α) = (4.19) c TDOA abhängig vom Abstand der Mikrophone und der relativen Ausrichtung des Mikrophonpaares bezogen auf ein beliebiges Paar, etwa (0, 4), also ! (m j − mi )(m4 − m0 ) (4.20) β ij =∡ mi m j , m0 m4 = arccos km j − mi kkm4 − m0 | wie in Abbildung 34 skizziert. Somit erhält man durch Umformung von Gleichung 4.19 den aus einer Ankunftszeitdifferenz τ̂ an einem Mikrophonpaar geschätzten Quellwinkel ! c τ̂ ′ ′ ′ α̂ ∈ {α , π − α }, α = arccos − β ij . (4.21) k mi − m j k f s 4.5 rückprojektion und kombination Quellwinkel 55 Abbildung 34.: Parallele Schallfront, die auf ein Paar (i, j) des zirkulären Mikrophonarrays trifft. Eingezeichnet sind die relative Ausrichtung β ij zum Paar (0, 4) und die dem Ankunftszeitversatz entsprechenden Winkel α′ und π − α′ . So können die Korrelationsergebnisse je diskreter Ankunftszeitdifferenz in die interpolierte Energie je Quellwinkel umgerechnet werden: (b) (b) eij [k, α] = rij [k, τij (α)]. (4.22) Für diskretisierte Quellwinkel werden Energiewerte durch lineare Interpolation zwischen den Energiewerten für einen Halbkreis und anschließende Spiegelung berechnet. Die Zeitverzögerungen entsprechen zwei Drehwinkeln für eine Neigungsebene, diese Mehrdeutigkeit wird durch die Kombination nicht kolinearer Mikrophone aufgelöst. 4.5.2 Kombination Verbundwahrscheinlichkeit Fuzzy Kombination 56 Zur kombinierten Schätzung der Quellposition werden die Werte der einzelnen Mikrophonpaare kombiniert. Bei hinreichender Energie im Quellsignal x [t] an einer Position α muss der Energiewert für alle Paare hoch sein. Die Addition bei der SPR-PHAT führt damit für jeden echten Quellwinkel zu einem hohen Wert, jedoch treten auch eine Vielzahl ungewollter sekundärer Peaks (ghosts) auf. Betrachtet man die Energiewerte als Wahrscheinlichkeiten und die Mikrophonpaare als unabhängige Messungen, ist das Produkt der Energie der Paare die Verbundwahrscheinlichkeit der Präsenz einer Quelle an α. Ein einfaches Produkt macht die Kombination allerdings empfindlich gegen kleinste Abweichungen in Signal und Geometrie. Als robuste produktartige Kombinationsvorschrift wird eine Fuzzy-t-Norm verwendet. Die Familie hγ ( x, y) der Hamacher-t-Normen (Gleichung 3.12) wurde hierzu erstmals von P. Pertilä et al. als Kombinationsmethode verwendet [PKV08]. Für das hier beschriebene System ist die von γ = 0.3 bestimmte t-Norm gut geeignet. Höhere Werte für γ reduzieren die Zahl der Peaks, Kleinere führen zu ungewollten sekundären Peaks. Durch neuro-fuzzy-lokalisierung Input : Energiesignale E = {eij } Output : Kombination e while | E| > 2 do E′ = ∅ for i ∈ {0 . . . | E|/2} do e′ = CombinePair( e[2i ], e[2i + 1] ) E′ = E′ ∪ e′ end E = E′ end e = E [0] // Algorithmus 3 // neue Blattebene Algorithmus 2: Paarweise Kombination Input : zwei Energiesignale ei , e j Output : Kombination e pi = p j = 0 pe = min{ LastPosition( ei ), LastPosition( e j ) } e=0 repeat while pi < p j do pi = NextNonzeroPosition( ei ) end while p j < pi do p j = NextNonzeroPosition( e j ) end if p j = pi then e[ p j ] = hγ (ei [ pi ], e j [ p j ]) pi = NextNonzeroPosition( ei ) end until pi ≥ pe ∨ p j ≥ pe // ei holt auf // e j holt auf // kombinieren Algorithmus 3: Kombination eines Paares iterative Anwendung von hγ wird nun die kombinierte Quellenergie im Zeit×Winkel-Raum berechnet e(b) [k, α] = K (b) eij [k, α]. (4.23) (i,j)∈ P(b) Dies kann einfach als ebenen-weises Zusammenfassen des Binärbaumes bis zur Wurzel formuliert werden wie in Algorithmus 2 angegeben. Bei der Kombination kann wie bei der Korrelation der Umstand ausgenutzt werden, dass die Energiewerte dünn besetzt sind, um die Berechnung zu beschleunigen. Dazu wurde ein „Wettlaufalgorithmus“ zur schnellen Kombination zweier rückprojezierter Impulsfolgen implementiert. Da für die Hamacher-, wie für jede Fuzzy-t-Norm die Nullelementeigenschaft hγ (0, x ) = hγ ( x, 0) = 0 gilt, müssen nur Positionen beachtet werden, bei denen beide Paare von Null verschiedene Werte haben. Daher wird jeweils in einem Signal die Position erhöht, bis Sie die Position im anderen eingeholt hat. Sind die Positionen gleich, wird e[ p j ] = hγ (ei [ pi ], e j [ p j ]) als Ausgabe berechnet. Algorithmus 3 zeigt den entsprechenden Pseudocode. Die pro Zeitfenster kombinierten Ergebnisse e(b) [k, α] sind durch die onset dominance und die variable Korrelationsfensterlänge und Aus- 4.5 rückprojektion und kombination 57 wahl alias-freier Mikrophonpaare bereits von vielen Störungen befreit, wie in Abbildung 35 zu sehen. 4.6 lokalisierung von sprechern Zur finalen Lokalisierung von Sprechern wird Wissen über die Natur des Sprachsignals, die zeitliche Dynamik und ein Modell der Peakverteilung eingesetzt. Dabei wird zunächst über ein Zeitfenster gemittelt, dann werden die Frequenzbänder zusammengefasst. Schließlich werden mit einem Peakdetektor die Quellwinkel aktiver Sprecher in jedem Zeitfenster ermittelt. 4.6.1 Zeitliche Mittelung Bei starkem Hall ist die Zahl verlässlicher Energiepeaks relativ gering. Es existiert dazu eine Zahl verbleibender unkorrelierter sekundärer Peaks. Geht man davon aus, dass der Sprecher sich nicht ungewöhnlich schnell bewegt, so ist die Zahl der seiner Position entsprechenden Peaks über einen längeren Zeitraum deutlich höher. Der Mittelwert über eine längeres Zeitsegment von M = f s · 1 s Samples wird als moving average mit einem Viertel Fensterlänge Vorschub von T = f s · 250 ms berechnet: ẽ(b) [l, α] = S M ⌈(lT + M/2)/S⌉ ∑ e(b) [k, α]. (4.24) k=⌊(lT − M/2)/S⌋ Die Summe der Energien in einem längeren Zeitfenster produziert dann an den Sprecherpositionen hohe Peaks, wie in Abbildung 35d zu sehen. 4.6.2 Zusammenfassen der Frequenzbänder assumtion → Summation dependency spektrale Verteilung → Anzahl 58 Da alle Frequenzanteile des Signales eines Sprechers durch dieselbe Mundöffnung moduliert werden, ist ihre Amplitudenmodulation und insbesondere ihr Einsetzen (onset) stark korreliert, was von verschiedenen ASA grouping cues ausgenutzt wird [Bre90, S. 572ff.]. Bei natürlicher Sprache kann man daher nach der dependency assumption spektrale Energien als abhängig über die Frequenzbänder betrachten [PK06]. Geht man weiter davon aus, dass keine oder nur sehr wenige e(b) [k, α]Werte von verschiedenen Sprechern kollidieren, und Störungen wie Hall als unabhängig über die Frequenz betrachtet werden können, so sind gemeinsame Peaks in verschiedenen Frequenzbändern unabhängige „Zeugen“ für Sprache. Dementsprechend produziert die Summe über die Frequenzbänder Peaks, die sehr wahrscheinlich einen einzelnen Sprecher repräsentieren. Sowohl der Hall als auch verbleibende harmonische Fehler durch Aliasing sind abhängig von der Signalfrequenz und erzeugen Peaks in verschiedenen Frequenzbändern an verschiedenen Stellen. Demgegenüber erzeugt die Sprache eines Sprechers an einer festen Position Peaks in verschiedenen Frequenzbändern an derselben Stelle, welche der Ankunftszeitverzögerung entspricht. Viele natürliche Sprachlaute sind über mehrere Frequenzbänder ausgedehnt. Ein längeres Zeitintervall von Sprache enthält verschiedene Laute und die Übergänge zwischen neuro-fuzzy-lokalisierung 180 120 2.24 Winkel [°] Frequenz [kHz] 3.60 1.37 0.80 0.44 60 0 -60 -120 0.20 -180 -180 0 180 Winkel [°] 80.0 82.5 85.0 87.5 Zeit [s] 90.0 92.5 95.0 (a) PoAP Rechteckimpulse D = 15 ms, thmod = 0, feste Fensterlänge K = 40 ms, alle Paare 180 120 2.24 Winkel [°] Frequenz [kHz] 3.60 1.37 0.80 0.44 60 0 -60 -120 0.20 -180 -180 0 180 Winkel [°] 80.0 82.5 85.0 87.5 Zeit [s] 90.0 92.5 95.0 (b) (b) PoAP Rechteckimpulse D = 15 ms, thmod = 0, variable Fensterlänge K(i,j) , alias-freie Paare P(b) 180 120 2.24 Winkel [°] Frequenz [kHz] 3.60 1.37 0.80 0.44 60 0 -60 -120 0.20 -180 -180 0 180 Winkel [°] 80.0 82.5 85.0 87.5 Zeit [s] 90.0 92.5 95.0 92.5 95.0 (c) onset dominance D = 3 ms, thmod = 9, feste Fensterlänge K = 40 ms, alle Paare 180 120 2.24 Winkel [°] Frequenz [kHz] 3.60 1.37 0.80 0.44 60 0 -60 -120 0.20 -180 -180 0 180 Winkel [°] 80.0 82.5 85.0 87.5 Zeit [s] 90.0 (b) (d) onset dominance D = 3 ms, thmod = 9, variable Fensterlänge K(i,j) , alias-freie Paare P(b) Abbildung 35.: Hier wird der isolierte und gemeinsame Effekt der Begrenzung der Korrelationsfensterlänge und der Einschränkung auf Mikrophonpaare sowie der onset dominance an einem Beispiel gezeigt. Dargestellt ist das kombinierte Korrelationsergebnis für 2 gleichzeitige Sprecher in der FINCA, dargestellt ist jeweils die summierte Korrelationsenergie als Funktion von Winkel und Frequenzband ∑k e(b) [k, α] (links) und von Winkel und Zeit ∑α e(b) [k, α] (rechts). 4.6 lokalisierung von sprechern 59 denselben, so dass ein großer Frequenzbereich abgedeckt wird. Daher können fehlerhafte Detektionen durch Einführen einer Bedingung für die Anzahl aktiver Bänder B[l, α] := {b | ẽ(b) [l, α] > 0} (4.25) unterdrückt werden. Aufgrund dieser beiden Überlegungen werden die Ergebnisse der einzelnen Frequenzbänder addiert, und bei Summation nur solche Zeitfenster berücksichtigt, bei denen mindestens ein Viertel der nb Frequenzbänder einen Peak aufweist: ẽ[l, α] = ∑b∈ B[k,α] ẽ(b) [l, α] 0 wenn | B[l, α]| ≥ ⌊nb /4⌋ (4.26) sonst. 4.6.3 Peaklokalisierung In einem Kurzzeitsegment erzeugen die je Frame k lokalisierten Energien eines Sprechers schmale Peaks mit kleiner Varianz σs ≤ 5°. Demgegenüber haben Störungen und insbesondere Hall eine große Varianz σn ≥ 45°. Verschiedene Lokalisierungsverfahren verwenden eine Gaußsche Mischverteilung mit entsprechenden Parametern zur Modellierung der Peakverteilung [LO07, MM08]. Das hier üblicherweise eingesetzte maximum likelihood-Clustering erfordert allerdings eine Schätzung der Anzahl der Sprecher sowie ihrer Position [DHS01, S. 124ff.]. Als alternatives Verfahren wird hier stattdessen auf den über M = f s · 1 s Intervallen gemittelten Werten ẽ[l, α] ein Peak der Energie über die Winkel gesucht, um Sprechermaxima von dem Störungungshintergrund zu identifizieren. Wie bei der Difference of Gaussians (DoG) in der menschlichen Wahrnehmungsverarbeitung [IKN98] wird hierbei die Differenz von Werten aus verschiedenen Skalenebenen verwendet. Dazu werden über die Drehwinkel Mittelwerte als moving average modulo 360° berechnet ĕ A [l, α] = A/2 1 ∑ ẽ[l, (α + d) mod 360]. A + 1 d=− A/2 (4.27) Die Differenz (4.28) ê[l, α] =ĕ4 [l, α] − ĕ44 [l, α] eines schmalen Mittelwertes, welche die Sprecherpeaks repräsentiert, und eines breiten Mittelwertes, welcher den Störungshintergrund repräsentiert, induziert wieder modulierte Intervalle ê [ l, a ] > 0 ∀ u< a<d . (4.29) Ie = [u, d] ∧ ê[l, u − 1] ≤ 0 ∧ ê[l, d + 1] ≤ 0 Die Position eines Maximums (Peak-over-Average Position, PoAP) entspricht einer geschätzten Quellposition: (4.30) PoAP ẽ[l, α] = (l, an ) | an = argmax ê[l, a] | [un , dn ] ∈ Ie α 60 neuro-fuzzy-lokalisierung un ≤ a ≤ dn Hier entsprechen die Winkel an der Position eines aktiven Sprechers zu Zeitpunkt l, also der Vektor (l, an )T einer Detektion im Zeit×WinkelRaum. Abbildung 36 zeigt die Wirkung der drei beschriebenen Nachverarbeitungsschritte am Beispiel eines Ausschnitts einer Aufnahme in dem Konferenzraum der FINCA [Plö07] mit deutlichem Hall, T20 ≈ 0.5 s [Hen09, S. 51ff.]. 4.7 zusammenfassung Das im Rahmen dieser Arbeit entwickelte Verfahren lokalisiert Sprecher in realen Umgebungen mit einer Kombination von neurobiologischen und kognitionspsychologischen Modellen mit technischen Methoden. Dabei wird ein auf einen Konferenztisch angeordnetes planares zirkuläres Array aus acht omnidirektionalen Mikrophonen verwendet, das an einen handelsüblichen PC angeschlossen ist. Die Verarbeitung stützt sich auf neurobiologische und kognitionspsychologische Erkenntnisse zur Ermittlung besonders robuster Merkmale, alle Modellparameter sind auf die Lokalisierung von Sprachereignissen abgestimmt. Durch Laufzeitoptimierung sind in Echtzeit kontinuierliche Sprecherpositionsschätzungen möglich. Das Verfahren kann in verschiedenen realen Situationen zur Sprecherlokalisierung eingesetzt werden, insbesondere auch in Innenräumen mit mittlerem oder starkem Hall. 4.7 zusammenfassung Mikrophonarray Neurobiologie Lokalisation von Sprechern reale Umgebungen Hall 61 180 Wi6kel [°] 120 60 0 -60 -120 -180 102.0 103.0 104.0 105.0 106.0 107.0 Zeit [s] 108.0 109.0 110.0 111.0 (a) Korrelationsergebnis der einzelnen Zeitfenster e(b) [k, α] 180 Winkel [°] 120 60 0 -60 -120 -180 102.5 105.0 107.5 110.0 112.5 Zeit [s] (b) Zeitliche Mittelung ẽ(b) [l, α] über eine Sekunde 180 Winkel [°] 120 60 0 -60 -120 -180 102.5 105.0 107.5 Zeit [s] 110.0 112.5 (c) Zusammengefasste Frequenzbänder ẽ[l, α] mit Energie in mehr als 5/16 Bändern 180 Winkel [°] 120 0 0 - 0 -120 -180 102.5 105.0 107.5 Zeit [s] 110.0 112.5 (d) Peaklokalisierung PoAP ẽ[l, α] α Abbildung 36.: Lokalisierung der Sprachenergien zweier Sprecher im Konferenzraum der FINCA mit dem beschriebenen System. Beide sprechen weitgehend kontiuierlich, einer sitzt bei −90° am Tisch, der zweite steht bei 130° davor, beide sprechen zueinander in Richtung des beschriebenen Mikrophonarrays. Dargestellt sind die Daten vor und nach den drei Nachverarbeitungsschritten zeitliche Mittelung, Zusammenfassen der Frequenzbänder und Peak-Lokalisierung. 62 neuro-fuzzy-lokalisierung 5 EVALUIERUNG Das in dieser Arbeit vorgestellte Verfahren wurde mittels der Evaluierung von Einzelkomponenten, Teilmodellen und schließlich dem Gesamtsystem entwickelt und verfeinert. In diesem Kapitel werden die wesentlichen Experimente und Ergebnisse dargestellt, welche zu dem im vorhergehenden Kapitel beschriebenen Verfahren geführt haben. Als Daten für die Entwicklung und für Tests wurden simulierte Konferenzszenarios verwendet. Diese erlauben eine parametrisierte Variation von Hallstärke und Sprecherposition. Zur Evaluierung in realen Umgebungen wurden Daten aus dem AV16.3-Korpus und eigene Aufnahmen benutzt, die einzelnen Quellen sind in Abschnitt 5.1 beschrieben. Bei der Entwicklung des Verfahrens wurden initial einige Komponenten isoliert validiert; Abschnitt 5.2 stellt die zugehörigen Überlegungen und Ergebnisse kurz dar. Nach dieser Vorauswahl wurden die Parameter für die Gewinnung von Schätzungen der Quellenergie, also der spatial likelihood, für die Lokalisierung in einzelnen Zeitfenstern mit zum Teil aufwändigen Simulationen bestimmt; diese sind in Abschnitt 5.3 beschrieben. Die Verarbeitung längerer Zeitabschnitte erfolgt mit einer modellbasierten Nachverarbeitung. Anhand von Verarbeitungsergebnissen für Simulationen wurden die Modellparameter überprüft und festgelegt wie in Abschnitt 5.4.1 dargestellt. In welchem Abstand sich gleichzeitige Sprecher trennen lassen, wird in Abschnitt 5.4.2 anhand einer eigenen Simulationsreihe untersucht. Schließlich wird das Verfahren zur Lokalisierung von Sprechern in Aufnahmen aus realen Konferenzräumen angewandt. In Abschnitt 5.5 werden die Ergebnisse für die Lokalisierung eines oder mehrerer Sprecher in einer Reihe typischer Konferenzszenarien dargestellt. 5.1 daten Die Evaluierung wurde mit Daten aus drei verschiedenen Quellen durchgeführt: Zunächsteinmal Raumsimulationen, die wie in Abschnitt 5.1.1 beschrieben erstellt wurden; Dann dem AV16.3-Korpus, der Aufnahmen und Annotationen aus einem Konferenzraum enthält (Abschnitt 5.1.2). Schließlich wurden in eigenen Experimenten Daten wie in Abschnitt 5.1.3 dargestellt aufgenommen. 5.1.1 Simulierter Konferenzraum Um die Auswirkung vom Hall auf die Lokaliserung genauer beziffern zu können, wurde ein 5 × 6 × 2.5 m3 großer Raum mit T60 -Zeiten zwischen 0 und 1.5 Sekunden simuliert. Mit dem image-source model (vgl. Abschnitt 2.2.2) wurden Raumimpulsantworten generiert, mit welchen dann Audiodaten gefaltet wurden [AB79]. Dazu wurde eine frei verfügbare MATLAB-Implementierung von E. Lehmann verwendet.1 1 http://www.eric-lehmann.com/ism_code.html – Heruntergeladen am 1.12.2009 63 (a) Positionierung (b) Videobild Abbildung 37.: AV16.3 Aufnahmesituation [LOGP05] MA1,2 bezeichnen die beiden Mikrophonarrays C1-3 bezeichnen die Kameras (a) Konferenzraum der FINCA (b) Mikrophonarray auf dem Tisch Abbildung 38.: Konferenzraum und Mikrophonarray auf dem Tisch in der FINCA 5.1.2 f s = 16 kHz Der AV16.3-Korpus [LOGP05] enthält Aufnahmen, die mit zwei Mikrophonarrays in einem Konferenzraum erstellt wurden. Der Grundriss ist in Abbildung 37a zu sehen. Zu einigen Sequenzen sind Annotationen mit exakten Sprecherpositionen verfügbar, diese wurden zum Teil durch Tracking eines auf den Kopf des Sprechers geschnallten bunten Balls gewonnen, wie in Abbildung 37b zu sehen. Unglücklicherweise liegen die Daten nur in 16 kHz Abtastrate vor, so dass die Phaseninformation weit unter dem gewünschten Maß liegt. Unter 42 kHz ist mit Qualitätseinbußen zu rechnen, unter 32 kHz sinkt die Qualität der Spike-Korrelation rapide. Auch der Radius von r a = 10 cm ist nicht optimal für den vorgestellten Ansatz, da mit mehr Aliasing und geringerer Kohärenz zu rechnen ist. 5.1.3 Konferenzraum 64 AV16.3-Korpus FINCA Die FINCA[Plö07] ist eine smarthouse-Studie im Institut für Roboterforschung (IRF), welche der Entwicklung intelligenter Umgebungen dient [PKCF08]. Sie hat einen Konferenzraum mit einer Größe von ca. 3.7 × 6.8 × 2.6 m3 . Das Foto in Abbildung 38a zeigt den verwendeten Konferenztisch und den Raumbereich, in dem sich die Sprecher evaluierung x [t] 1000 2000 w[t] w[t] ⊗ w[t] t 1000 τ -100 2000 s[t] 0 100 0 100 s[t] ⊗ s[t] t 1000 2000 τ -100 Abbildung 39.: Korrelation eines mit einem 500 Hz-Gamatonfilter gefilterten Rauschpaketes. Dargestellt sind das Quellsignal x [t], die Einweggleichrichtung w[t] sowie die Peak-over-Average Spikes s[t] und die jeweilige Korrelation für 249 Zeiten entsprechend 3.5 ms bei 48 000 Hz während der Aufnahmen aufgehalten haben. Messungen ergaben eine Nachhallzeit von T20 ≈ 0.5 s [Hen09, S. 51ff.], damit ergibt sich ein geschätzter Hallradius von r H ≈ 0.65 m. Dem entwickelten System entsprechend wurde ein auf den Tisch gestelltes Mikrophonarray mit einem Radius von r a = 5 cm verwendet. Die Mikrophone wurden mit zwei durchbohrten Holzplatten fixiert, wie in Abbildung 38b zu sehen ist. Bei den Mikrophonen handelte es sich um omnidirektionale Elektret-Kondensatormikrophone vom Typ „ECM-8000“ der Firma Behringer mit einem nahezu linearen Frequenzgang. Die analogen Mikrophonsignale wurden mit einer achtkanaligen Soundkarte vom Typ „Delta 1010“ der Firma M-AUDIO digitalisiert. Diese war an einen PC angeschlossen, welcher die digitalisierten Signale mit f s = 48 kHz zur späteren Auswertung auf die Festplatte aufzeichnete. 5.2 Audiohardware systemkomponenten Zunächst wurden die Teile des Modells soweit möglich einzelnen Funktionstests unterzogen. In der einem Modell der menschlichen Cochlea nachempfundenen Eingangsstufe wurden aus den gefilterten Daten Signale gewonnen, welche die spike trains im Hörnerv modellieren. Dabei wurden die Auswirkung verschiedener Spike-Funktionen untersucht (Abschnitt 5.2.1). Diese wurden dann ihrerseits in einem Korrelator nach dem Jeffress-Colburn-Modell (vgl. Abschnitt 3.3.3) paarweise zusammengefasst. Es wurden verschiedene Rückprojektionsverfahren implementiert (Abschnitt 5.2.2). Die Kombination der Mikrophone wurde anhand der sich ergebenden spatial likelihoods für simulierte und echte Szenarien untersucht (Abschnitt 5.2.3). 5.2.1 Impulserzeugung und Korrelation In vielen CASA-Modellen werden durch Einweggleichrichtung und quadratische Kompression Impulse w[t] gewonnen [SW07, RW08]. Dieser einfache Verarbeitungsschritt liefert eine Repräsentation der Merkmalsenergie und auch der Phase, jedoch ist die Korrelation zweier so behandelter Signale, wie in Abbildung 39 zu sehen, nicht wesentlich 5.2 systemkomponenten 65 schärfer als diejenige des unbehandelten Signales. Entsprechend werden diese bei der Verwendung zur Lokalisierung zu einem sogenannten skeleton cross-correlogram nachgeschärft [PBW04]. Als Alternative zur Einweggleichrichtung können von Nulldurchgängen oder Signalmaxima getriggerte dirac-artige Rechteckimpulse eingesetzt werden (vgl. Abschnitt 3.3.2). Rechteckimpulse s[t] erzeugen eine im Korrelationsraum scharf definierte Funktion, wie in Abbildung 39 gezeigt. 5.2.2 time delay of arrival Rückprojektion und Kombination Ein Wert der Ankunftszeitdifferenz (TDOA) eines Signales entspricht allgemein einem hyperparaboloiden Ausschnitt des Raumes. Für ein zirkuläres Mikrophonarray lassen sich über eine einfache Fernfeldnäherung die Winkel der Quelle in der Ebene berechnen, wie in Abschnitt 4.5.1 beschrieben. Eine einfache Simulation wurde zur Überprüfung der Rückprojektion verwendet. Als Testsignal für die Rückprojektion wurden zwei 10 cm entfernte Mikrophone mit weißem Rauschen auf einer radialen Trajektorie in 1 m Entfernung beschallt. Wie in Abbildung 40a zu sehen, steigt die Ungenauigkeit an den endfire-Positionen bzw. der Unendlichkeitsstelle der arccos-Funkion. Die Summe zweier orthogonaler Mikrophonpaare (Abbildung 40c) zeigt ein eindeutiges Maximum bei dem tatsächlichen Quellwinkel. Verwendet man das Produkt wie in Abbildung 40d, so verschwinden die ghosts und es ist nur um den tatsächlichen Quellwinkel Energie vorhanden, da nur hier beide Paare einen Wert ungleich null aufweisen (vgl. Abschnitt 3.1.3). Kugelrückprojektion In einem sphärischen Koordinatensystem lassen sich die möglichen Quellpositionen als n o q ∈ u(θ, φ) := (r sin θ cos φ, r cos θ cos φ, r sin φ)T (5.1) angeben. Für r ≫ 5r a sind die Verzögerungen auf Samplinggenauigkeit identisch. Im Fernfeld ist die TDOA also nur noch abhängig vom Drehungswinkel θ und Neigungswinkel φ, und die Entfernung kann fest als r = 1.5 m gewählt werden. Kreisnäherung und Kugelrückprojektion im Vergleich dilution of precision 66 Um zu untersuchen, wie sehr die Näherung durch den Kreis die Lokalisierungsgenauigkeit beeinträchtigt, wurden diese und eine Kugelrückprojektion nach Gleichung 5.1 zur Bestimmung der Position von Sprechern in dem simulierten Raum verwendet. In beiden Fällen wurden alle acht Mikrophone verwendet und per Hamacher t-Norm mit γ = 0.3 kombiniert. Die Sprecher wurden in 10°-Schritten um das Array angeordnet, als Signal wurden 5 s Sprache verwendet. Die Lokalisierung erfolgte über die Position des Maximums in der Summe aller Frames. Aufgrund der geometrischen Eigenschaften ist anzunehmen, dass die Genauigkeit des Drehwinkels mit der Neigung fällt, während die Genauigkeit der Bestimmung der Neigung zunimmt. Dies läßt sich etwa mit der dilution of precision nachvollziehen [BH99]. Abbildung 41 zeigt den RMS-Lokalisierungsfehler gegen die Neigung aufgetragen. Wie erwartet, ist ein gegenläufiger Trend zwischen Ge- evaluierung 180° 120° 60° 0° -60° -120° 180 120 120 60 60 Winkel [°] Winkel [°] 180 0 -60 0.0 2.5 Zeit [s] (a) -60 2.5 Zeit [s] 0.0 Mikrophonpaar in 90◦ -Richtung (gespiegelt an der 0◦ -Linie) 180° 120° 60° 0° (b) -60° -120° 180 120 120 60 60 0 -60 -120 -180 -60° -120° 0 -180 5.0 Winkel [°] Winkel [°] 180 0° -120 -120 -180 180° 120° 60° 5.0 Mikrophonpaar in 0◦ -Richtung (gespiegelt an den ±90◦ -Linien) 180° 120° 60° 0° -60° -120° 0 -60 -120 0.0 2.5 Zeit [s] (c) -180 5.0 2.5 Zeit [s] 0.0 Summe der Mikrophonpaare in 0◦ und 90◦ -Richtung (d) 5.0 Produkt der Mikrophonpaare in 0◦ und 90◦ -Richtung Abbildung 40.: ITD-Korrelation in 37 Bändern bei 48000 Hz nach einem Gamamtonfilter um 700 Hz, ISMSimulation mit weißem Rauschen, das in 1 m Entfernung um ein zirkuläres Mikrophonarray mit 10 cm Durchmesser läuft. Die tatsächliche Position ist oben angegeben. Lokalisierungsgenauigkeit T60 = 0.1s Lokalisierungsgenauigkeit T60 = 0.5s 40 Kugel φ Kugel θ Kreis α 10 Kugel φ Kugel θ Kreis α 35 RMS-Fehler [◦ ] RMS-Fehler [◦ ] 15 5 30 25 20 15 10 5 0 0 0 20 40 Neigung [◦ ] 60 80 0 20 60 40 80 Neigung [◦ ] Abbildung 41.: Der RMS-Fehler der Rückprojektion in Kreis und Kugel für geringen und mittleren Hall im Vergleich: argmax-Lokalisierung auf Daten einer ISM-Simulation eines Konferenzraumes. 5.2 systemkomponenten 67 Kreisrückprojektion nauigkeit von Neigungs- und Drehungswinkel zu erkennen. Die Kreisnäherung zeigt für kleine Neigungen gleich gute Ergebnisse, bei zu großer Neigung wird mit dieser kein Maximum mehr gefunden. 5.2.3 Kombinationsverfahren Mit der Laufzeitkorrelation, Rückprojektion und Kombination wird eine spatial likelihood berechnet. Für diese wurden zunächst einige graphische Repräsentationen erzeugt. Damit konnte die Auswirkung der Modellparameter wie verschiedener Kombinationsverfahren überprüft werden. Abbildung 42 zeigt zu der ersten Sekunde von vier Simulationsläufen im simulierten Konferenzraum mit einem Sprecher die summarische Projektion der Energie in den Zeit×Frequenz-, Winkel×Frequenz- und den Zeit×Winkel-Raum, also ∑ e(b) [k, α], α Hamacher-t-Norm ∑ e(b) [k, α] und k ∑ e(b) [k, α]. (5.2) b Es wurde jeweils das Wort „Geist“ /gaIst/ aus 1.5 m bei T60 = 0.1 ohne additives Rauschen verarbeitet. Hier werden die drei t-Normen Minimum, Hamacher mit γ = 0.1, 0.3 und das Produkt kontrastiert. Es ist klar ersichtlich, dass die stärker multiplikativ wirkenden Fuzzy tNormen den oberen Frequenzbereich schwächen und zunehmend nur ein Skelett der Sprachenergie übrig lassen. Durch Inspektion der Graphen für verschiedene alternative Verfahren wurde die Familie der Hamacher-t-Normen als am geeignetsten bestätigt (vgl. Abschnitt 3.1.3). 5.3 lokalisierung je zeitfenster Eine einzelne Quelle kann über das Maximum der spatial likelihood lokalisiert werden. Zur Lokaliserung wurde das folgende Verfahren verwendet: Zunächst wurden die Eingangssignale aller Mikrophone in 25 Frequenzbänder aufgespalten und danach in Spikes umgewandelt. Die Korrelation und ihre Kombination wurde in K = f s · 28 ms-Fenstern mit 15 ms Vorschub berechnet. Danach wurden diese Werte in den Winkelraum zurückprojeziert und die Winkelergebnisse der einzelnen Paare mit einem Hamacher-t-Norm Operator zusammengefasst. Auf diese Weise ließ sich die Qualität der Lokalisierung in Abhängigkeit von gewählten Parametern ohne Einfluss der Nachverarbeitung direkt für die einzelnen Zeitfenster beurteilen. Zur Ermittlung der grundlegenden Parameter wurde eine erschöpfende Suche über ausgewählte Parameter für eine Schar von Sprechern in dem simulierten Raum mit verschiedenen Eigenschaften berechnet. Als Signale wurden jeweils 5 Sekunden Sprache bei 48 kHz Samplingrate verarbeitet. Die einzelnen Simulationen unterscheiden sich dabei durch die Parameter: nachhallzeit: Es wurden T60 -Zeiten von 0, 0.1, . . . , 1.4 Sekunden verwendet, was den Bereich von mildem bis starkem Nachhall abdeckt. signal-rausch-verhältnis: Durch Addition von unkorreliertem weißen Rauschen auf alle Mikrophonsignale wurde eine simulierte SNR von ∞, 24, 12 und 6 dB erzeugt. 68 evaluierung 5.60 3.54 3.54 2.21 1.35 0.79 2.21 Winkel [°] Frequenz [kHz] Frequenz [kHz] 5.60 1.35 0.79 0.43 0.43 0.20 0 250 500 750 Zeit [ms] 0.20 -180 180 Winkel [°] 1000 180 135 90 45 0 -45 -90 -135 -180 0 250 500 750 Zeit [ms] 1000 0 250 750 500 Zeit [ms] 1000 250 500 750 Zeit [ms] 1000 250 500 750 Zeit [ms] 1000 5.60 5.60 3.54 3.54 2.21 1.35 0.79 2.21 Winkel [°] Frequenz [kHz] Frequenz [kHz] (a) Minimum 1.35 0.79 0.43 0.43 0.20 0 250 500 750 Zeit [ms] 0.20 -180 180 Winkel [°] 1000 180 135 90 45 0 -45 -90 -135 -180 5.60 5.60 3.54 3.54 2.21 1.35 0.79 0.43 2.21 Winkel [°] Frequenz [kHz] Frequenz [kHz] (b) Hamacher, γ = 0.1 1.35 0.79 0.43 0.20 0 250 500 750 Zeit [ms] 0.20 -180 180 Winkel [°] 1000 180 135 90 45 0 -45 -90 -135 -180 0 5.60 5.60 3.54 3.54 2.21 1.35 0.79 0.43 2.21 Winkel [°] Frequenz [kHz] Frequenz [kHz] (c) Hamacher, γ = 0.3 1.35 0.79 0.43 0.20 0 250 500 750 Zeit [ms] 1000 0.20 -180 180 Winkel [°] 180 135 90 45 0 -45 -90 -135 -180 0 (d) Produkt Abbildung 42.: Energieverteilung für verschiedene t-Normen als Kombinationsoperator; Korrelation von Peak-over-Average Spikes über die Hälfte aller Mikrophonpaarungen von acht Mikrophonen in einem radialen Array mit 10 cm Durchmesser. Simulation einer Äußerung des Wortes „Geist“ /gaIst/ von -10◦ in 1 m Entfernung bei T60 = 0.1. 5.3 lokalisierung je zeitfenster 69 Abbildung 43.: Szenario im simulierten Konferenzraum sprecherposition: -10◦ in 1 m, -60◦ in 1.25 m, -110◦ in 1.5 m und 100◦ in 2 m Entfernung wie in Abbildung 43 dargestellt. Zu jeder Position wurde eine Neigung von 0°, 10° und 20° simuliert. Die Lokalisierung erfolgte über die mit einer Hamacher-t-Norm kombinierte Kreisrückprojektion der Korrelation von Signalen in 25 Frequenzbändern mit f b = 0.2, . . . 9.0 kHz. Dabei wurden die folgenden Verarbeitungsschritte variiert: spike-generierung: Es wurden vier Varianten benutzt: • Halbweggleichrichtung • Nulldurchgang-getriggerte Rechteckimpulse • PoAP-Spikes ohne Einsatz-Betonung ( D = f s · 15 ms) • PoAP-Spikes mit Einsatz-Betonung ( D = f s · 3 ms) mikrophonpaare: Vier Auswahlen fanden hier Verwendung: • die 4 orthogonalen Mikrophonpaare • 8 Paare, welche je zwei Paarungen pro Subband aus möglichst vielen unterschiedlichen Mikrophonen kombinieren • 16 Paare, welche aus je vier Paaren bestehen, die ein bipartites Matching der Mikrophone für alle vier möglichen Paarungsabstände bilden • alle 28 Paare hamacher-t-norm: Für die Zusammenfassung der Energien der Mikrophonpaare wurden die Hamacher-t-Norm mit γ = 0.0, 0.1, 0.3, 0.5, 0.9 und 1.0 verwendet, wobei die Hamacher-t-Norm für γ = 1.0 mit dem normalen Produkt übereinstimmt. Sprecherentfernung 70 Abbildung 44 zeigt wesentliche Ergebnisse. Die Lokalisierungsqualität fällt erwartungsgemäß mit der T60 -Zeit und steigt mit dem SignalRausch-Verhältnis. Die Lokalisierungsqualität nimmt ebenfalls mit der Entfernung des Sprechers ab. Dies ist auf den stärkeren Hallanteil im Signal zurückzuführen. Sprecherposition C und D, welche als entfernte Kugelquelle in Wandnähe simuliert wurden, zeigten eine deutliche Verschlechterung mit zunehmendem Hall. evaluierung 60 30 6 0 12 1 . 4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ T60 [s 0 R ] SN 90 60 30 6 0 12 1 .4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ T60 [s 0 R ] SN PoAP onset RMS-Fehler [◦ ] 90 PoAP RMS-Fehler [◦ ] Nulldurchgänge RMS-Fehler [◦ ] RMS-Fehler [◦ ] Halbweggleichrichtung 90 60 30 90 60 30 6 0 12 1 .4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ T60 [s 0 R ] SN 6 0 12 1 . 4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ T60 [s 0 R ] SN (a) Spike Generierung 60 30 6 0 12 1.41.1 .8 5 0 0. .2 ∞ 24 dB] T60 [s 0 R[ ] SN 90 60 30 6 0 12 1.41.1 .8 5 0 0. .2 ∞ 24 dB] T60 [s 0 R[ ] SN Alle (28) RMS-Fehler [◦ ] 90 Hälfte (16) RMS-Fehler [◦ ] Viertel (8) RMS-Fehler [◦ ] RMS-Fehler [◦ ] Orthogonal (4) 90 60 30 90 60 30 6 0 12 1.41.1 .8 5 0 0. .2 ∞ 24 dB] T60 [s 0 R[ ] SN 6 0 12 1.41.1 .8 5 0 0. .2 ∞ 24 dB] T60 [s 0 R[ ] SN (b) Mikrophonpaare 60 30 6 0 12 1 .4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ 0 T60 [s R ] SN 90 60 30 6 0 12 1 .4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ 0 T60 [s R ] SN γ = 1.0 RMS-Fehler [◦ ] 90 γ = 0.3 RMS-Fehler [◦ ] γ = 0.1 RMS-Fehler [◦ ] RMS Fehler [◦ ] γ = 0.0 90 60 30 90 60 30 6 0 12 1 .4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ 0 T60 [s R ] SN 6 0 12 1 . 4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ 0 T60 [s R ] SN (c) Hamacher Fuzzy t-Norm 60 30 6 0 12 1 .4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ T60 [s 0 R ] SN 90 60 30 6 0 12 1 .4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ T60 [s 0 R ] SN Position D (2.0 m) RMS-Fehler [◦ ] 90 Position C (1.5 m) RMS-Fehler [◦ ] Position B (1.25 m) RMS-Fehler [◦ ] RMS-Fehler [◦ ] Position A (1 m) 90 60 30 6 0 12 1 .4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ T60 [s 0 R ] SN 90 60 30 6 0 12 1 . 4 1 .1 .8 0 0.5 .2 ∞ 24 dB] [ T60 [s 0 R ] SN (d) Entfernung Abbildung 44.: Evaluierung der Parameter der Lokalisation je Zeitfenster. Es wird jeweils der RMS-Fehler der Position der maximalen Energie gegen T60 -Zeiten und SNR aufgetragen. Sofern nicht variiert, sind die Parameter: Peak-over-Average-Spikes, Hamacher-t-Norm mit γ = 0.3, alle Mikrophonpaare. Die vier orthogonalen Mikrophonpaare erreichten keine nutzbare Lokalisierung. Der Fehler bei Verwendung von nur acht Mikrophonpaarungen unterscheidet sich wenig von der Auswahl von 16, ist aber etwas empfindlicher gegen Rauschen. Die Kombination von acht Paaren pro Subband bei der Nutzung aller Mikrophonpaare ist noch einmal deutlich besser. 5.3.1 28 Paare Impulserzeugung Die Halbweggleichrichtung versagt bereits ab T60 -Zeiten von 0.3 s oder einem Signal-Rauschverhältnis von unter 24 dB. Die Korrelationsfigu- 5.3 lokalisierung je zeitfenster 71 Detektionen / s RMS-Fehler [◦ ] 40 30 20 10 10 PoAP PoAP onset Nulldurchgang 5 0 0 0.2 0.5 0.8 1.1 0.2 1.4 0.5 T60 [s] 0.8 1.1 1.4 T60 [s] Abbildung 45.: Vergleich der Spikgenerierungsvorschriften anhand der argmax-Lokalisierung von 5 s Sprache bei einem SNR von 24 dB. Es wurden alle Mikrophonpaare und die Hamacher-t-Norm mit γ = 0.3 verwendet. Links ist der RMS-Fehler, rechts die Anzahl der Detektionen pro Sekunde aufgetragen. Detektionen / s RMS-Fehler [◦ ] 40 30 20 10 10 γ γ γ γ γ 5 = 0.0 = 0.1 = 0.3 = 0.5 = 1.0 0 0.2 0.5 0.8 1.1 1.4 0.2 0.5 0.8 1.1 1.4 T60 [s] T60 [s] Abbildung 46.: Vergleich der Hamacher-t-Normen anhand der argmax-Lokalisierung von 5 s Sprache bei einem SNR von 24 dB. Es wurden alle Mikrophonpaare und die PoAP-Spike-Generierungvorschrift verwendet. Links ist der RMS-Fehler, rechts die Anzahl der Detektionen pro Sekunde aufgetragen. PoAP Spikes PoAP onset dominance ren sind hier schlicht zu verschmiert. Die Peak-over-Average- und Nulldurchgangs-Spikes zeigen vergleichbar gute Lokalisierung für geringen bis mittleren Hall, bei starkem Hall sind die mit Peak-overAverage-Spikes erzielten Ergebnisse besser. Die Einsatz-Betonung (onset dominance) bewirkt noch einmal eine wesentliche Reduktion der Störungen und führt zu der mit Abstand störresistentesten Schätzung, die sich selbst von 6 dB SNR weitgehend unbeeinflusst zeigt. In Abbildung 45 sind die Lokalisierungsgenauigkeit und Anzahl der Detektionen pro Sekunde für die einzelnen Spikegenerierungsvorschriften gegen die Nachhallzeit für eine typischeren SNR Wert von 24 dB aufgetragen. Für geringen Hall sind alle Verfahren gleich gut. Die Nulldurchgangsmethodik ist für mittleren Hall bereits deutlich schlechter und bei starkem Hall nicht mehr verwendbar. Dazu erzeugen sie auch weniger Detektionen. Am robustesten sind die PoAP-Impulse mit onset dominance, wobei diese nur etwa halb so viele Detektionen erzeugen wie die PoAP-Impulse ohne Einsatz-Betonung. 5.3.2 Hamacher, γ ≈ 0.3 72 Hamacher-t-Normen In Abbildung 46 sind der RMS-Fehler in Grad und die Anzahl der Detektionen pro Sekunde gegen die simulierte Nachhallzeit aufgetragen. Die Familie der Hamacher-t-Normen zeigt für alle Wahlen von γ ab 0.3 einem vergleichbar geringen Fehler. Dagegen fällt die Zahl der Detektionen mit steigendem Wert weiter. Somit kann der Wert auf 0.3 fixiert werden, um bei geringem Fehler möglichst viele Detektionen zu erhalten. evaluierung 45 60 T60 T60 T60 T60 T60 45 30 15 = 0.2 = 0.5 = 0.8 = 1.1 = 1.4 RMS-Fehler [◦ ] RMS-Fehler [◦ ] 75 30 15 0 0 0 3 6 9 Modulationsschwelle [dB] 1 3 5 10 15 Verschiebung [ms] Abbildung 47.: Vergleich der Modulationsdetektionsparameter anhand der argmax-Lokalisierung von 5 s Sprache. Es wurden alle Mikrophonpaare und die PoAP-Spike-Generierungvorschrift verwendet. Links ist der RMS-Fehler gegen die Wahl der Modulationschschwelle bei D = f s · 3 ms und rechts gegen die Verschiebung D bei einer Modulationsschwelle von 9 dB aufgetragen. 5.3.3 Modulationsdetektion In der eben beschriebenen Untersuchung zeigte sich eine klare Verbesserung durch die Einsatz-Betonung. Die beiden wesentlichen Parameter der Modulationsdetektion wurden in einer weiteren Reihe von Simulationen noch einmal gezielt variiert. Dabei wurden für die Modulationsschwelle Werte von thmod = 0, 1, . . . 9 und für die Verschiebung zur Einsatz-Betonung Werte von D = f s · 1, 2, . . . , 15 ms gewählt. Alle anderen Parameter wurden auf die in der vorhergehenden Untersuchung ermittelten Werte fixiert. Die Sprecherpositionen und Nachhallzeiten wurden erneut wie oben beschrieben variiert. In Abbildung 47 ist der RMS-Fehler für verschiedene T60 -Zeiten gegen die Werte der beiden Parameter aufgetragen. Es ist klar zu erkennen, dass eine hohe Modulationsschwelle den RMS-Fehler reduziert. Die Reduktion auf klar lokalisierte glimpses führt für alle Simulationen mit Nachhallzeiten von T60 ≥ 0.3 s zu einer Verbesserung des Ergebnisses. Die über Versatz von Mittelwert und Signal erzeugte onset dominance bewirkt für mittlere bis starke Nachhallzeiten bis zu einer Sekunde eine Verbesserung der Lokalisierungsgenauigkeit. Der vorher per Inspektion gewählte Wert von f s · 3 ms ist für die meisten Simulationen optimal. 5.4 thmod = 9 dB D = f s · 3 ms integration über die zeit Für die Lokalisierung von mehreren gleichzeitigen Sprechern ist die Auswahl der maximalen Position nicht mehr hinreichend, hier werden mitunter komplexe Strategien angewendet [CMWB07, MM08]. Das in dieser Arbeit entwickelte Lokalisierungsverfahren ist durch die in Abschnitt 4.6.3 beschreibene PoAPα -Nachverarbeitung zur Lokalisierung mehrerer gleichzeitiger Sprecher in der Lage. Die Parameter der Nachverarbeitung wurden anhand der Inspektion von Ergebnissen für verschiedene reale Aufnahmen und gezielte Untersuchungen mit Simulationen bestimmt. Diese sind in Abschnitt 5.4.1 beschrieben. Um den minimal möglichen Sprecherabstand zu bestimmen, der noch zu klar getrennten Lokalisierungen führt, wurde eine eigene in Abschnitt 5.4.2 vorgestellte Untersuchung mit einer Simulationsreihe vorgenommen. 5.4 integration über die zeit Modulationsbasierte Winkellokalisierung 73 80 80 T60 T60 T60 T60 60 40 20 = 0.2 = 0.5 = 0.8 = 1.1 60 0 15 Winkelabweichung 30 20 0 −20 0 −45 −30 −15 40 PoA Energie [%] 100 45 [◦ ] −45 −30 −15 0 15 Winkelabweichung 30 45 [◦ ] Abbildung 48.: Ergebnis der zeitlichen Mittelung (links) und PoA-Operation (rechts) auf den Energiewerten aus der Simulation eines Sprechers im simulierten Konferenzraum. 9 T60 T60 T60 T60 30 15 = 0.2 = 0.5 = 0.8 = 1.1 0 RMS-Fehler [◦ ] RMS-Fehler [◦ ] 45 6 3 0 100 200 500 1000 2000 6 5 4 3 2 Divisor Fensterlänge [ms] Abbildung 49.: Einfluss der Fensterlänge der zeitlichen Mittelung und des Schwellwerts für die spektrale Verteilung. 5.4.1 0.2 - 3.6 kHz Winkel PoA 5° und 45°-Mittelwert 74 Sprach- und Hallmodell Um die wesentlichen modulierten Sprachenergien (vgl. Abschnitt 2.1) zu erfassen wurde die Bandkonfiguration auf nb = 16 Frequenzbänder mit Mittenfrequenzen f b zwischen 0.2 kHz und 3.6 kHz festgesetzt. Ebenso wie für die adaptive Fensterlänge lässt sich die Adäquatheit dieser Wahl durch Inspektion der spatial likelihood (Abbildung 35 und 42) nachvollziehen. Der Effekt der zeitlichen Mittelung und der PoA-Operation wird in Abbildung 48 verdeutlicht. Hier sind links die summierten Energien aller Frames, d.h. über 5 s, für das simulierte Koferenzraumszenario in ein Histogramm bezüglich der Winkelabweichung von der tatsächlichen Quellposition eingetragen. Die Position des Maximums entspricht dem Quellwinkel, mit steigendem Hall wird der Peak immer breiter und unregelmäßiger. Rechts ist der Peak-over-Average-Wert ê aufgetragen. Die positiven ê Werte bilden einen schmaleren Peak. Durch Inspektion der Ergebnisse für verschieden simulierte und reale Szenarien wurden die Werte für die beiden verglichenen Mittelwerte bestimmt. Werte im Bereich von 2-5° und 30-90° erzeugen hier quasi identische Ergebnisse. Als praktische Festlegung wurden die im vorhergehenden Kapitel angegebenen Werte von 5° und 45° gewählt. Somit kann die PoAPα -Auswertung über ein längeres Zeitfenster Nebenmaxima ausschließen, wie die folgende Auswertung über die Daten aus dem simulierten Konferenzraum belegt: Es wurde über Fenster verschiedene Längen W mit einem Viertel Vorschub über alle Bänder summiert, und mit der eben gewählten PoAPα -Lokaliserung die Sprecherpositon bestimmt. Abbildung 49 zeigt links den Einfluss der Fensterlänge, gemittelt über alle vier Sprecherpositionen, in Abhängigkeit evaluierung Winkel [◦ ] Sprecherposition Detektion 0 −20 −40 −60 0 2 4 6 8 10 12 14 16 14 16 14 16 Winkel [◦ ] Zeit [s] (a) T60 = 0.1 Sprecherposition Detektion 0 −20 −40 −60 0 2 4 6 8 10 12 Winkel [◦ ] Zeit [s] (b) T60 = 0.5 Sprecherposition Detektion 0 −20 −40 −60 0 2 4 6 8 10 Zeit [s] 12 (c) T60 = 0.9 Abbildung 50.: Detektion zweier Sprecher in 30° Abstand in 1.25 m Entfernung im simuliert Konferenzraum. Der Grauwert der Marker gibt den Peakwert wieder, ein schwarzer Marker entspricht dem Maximum, ein weißer dem Minimum in der Aufnahme. von der Nachhallzeit. Um 500 ms wird der Fehler in allen Fällen reduziert, erst bei Zeiten über 1.6 s bzw. 2.5 s für T60 = 1.1 s tritt eine starke Reduktion ein. Ein Wert von 3 s oder mehr kann also in quasi statischen Szenarios eine Verbesserung erzielen. Hier wird für allgemeine Anwendungen ein Wert von W = f s · 1 s gewählt, der bei normalen Bewegungsgeschwindigkeiten angemessen ist. Um die spektrale Verteilung von Sprache zu berücksichtigen, kann ein Schwellwert für die Anzahl der Bänder festgelegt werden, in denen Energie zu dem Peak beiträgt. Um diesen zu bestimmen, wurde eine weitere Auswertung vorgenommen. Bei der Summation der Frequenzbänder wurden nur solche Peaks berücksichtigt, die in mehr als nb /v Bändern auftraten. Abbildung 49 zeigt rechts den Einfluss des gewählten Divisors v für eine Fensterlänge von W = f s · 1 s. Für alle T60 -Zeiten über 0.2 s sinkt der Fehler für einen Divisor von 4 oder weniger deutlich, in allen Fällen wird 3° unterschritten. Da ein kleinerer Divisor die Zahl der verbleibenden Detektionen reduziert, wurde praktisch ein Wert von v = 4 festgesetzt, so dass nur Peaks bei der Lokalisierung berücksichtigt werden, bei welchen in 16/4, also vier oder mehr Bändern Sprachenergie auftritt. Damit sind alle Parameter des in Kapitel 4 beschriebenen Verfahrens festgelegt. 5.4.2 W = fs · 1 s Sprachenergie in nb /4 = 4 oder mehr Bändern Lokalisierung gleichzeitiger Sprecher Abbildung 50 zeigt Detektionen mit dem so definierten Verfahren für zwei Sprecher an fester Position im Abstand von 30° für Simulationen mit verschiedenen Nachhallzeiten. Die Varianz der Detektionen nimmt mit steigendem Hall leicht zu, dennoch sind die beiden Sprecher als getrennte Objekte auszumachen. Mit steigendem Hall nimmt auch die Zahl der Lücken zu. Hier ist zu erkennen, dass nach dem glimpsing model-Ansatz nur die klar lokalisierten Ereignisse verbleiben, was zu einer Ausdünnung der Repräsentation bei starken Störungen führt. 5.4 integration über die zeit glimpsing model 75 7 RMS-Fehler [◦ ] Fehldetektion [%] 50 40 30 20 10 0 0.9 6 5 4 3 2 30 0.7 0.5 T60 [ s] 0.3 60 0.1 90 1 0.9 ◦] d[ an bst A 30 0.7 0.5 T60 [ s] 0.3 60 0.1 90 ◦] d[ an bst A Abbildung 51.: Fehlerrate und RMS-Fehler für zwei simulierte gleichzeitige Sprecher simulierte gleichzeitige Sprecher Um die Grenzen des Verfahrens zur Trennung gleichzeitiger Sprecher zu bestimmen wurde eine eigene Untersuchung vollzogen. In einer Reihe von Simulationsszenarien sprachen zwei Sprecher mit Abständen von |α1 − α2 | = 10, 20, . . . , 90° gleichzeitig eine Sequenz von 18 s Länge in 1.25 m Entfernung vom Mikrophonarray in einem 5x6x2.5 m3 Raum. Es wurden jeweils Nachhallzeiten von T60 = 0.1, 0.2, . . . , 0.9 simuliert. Um zu entscheiden, wann ein Sprecher korrekt detektiert wird, wird eine Schwelle von ∆α = min {6, |α1 − α2 |/3} (5.3) festgesetzt, um die Fehldetektionen als FD := {(l, an ) | min{| an − α1 |, | an − α2 |} > ∆α} (5.4) bestimmen zu können. So erhält man die Fehlerrate er = ab 30° | FD | |{(l, an )}| (5.5) relativ zur Zahl der Gesamtdetektionen. Die Ergebnisse der Auswertung sind in Abbildung 51 dargestellt. Die Fehlerrate liegt für |α1 − α2 | ≥ 30° fast immer unter 5 %, in einigen Fällen mit T60 ≥ 0.7 s steigt sie auf bis zu 10 %. Der RMS-Fehler steigt mit der Nachhallzeit von ca. 1° auf etwa 5°, mit einigen Ausnahmen bei T60 = 0.9 s. Der steile Anstieg sowohl des RMS-Fehlers als auch der Fehlerrate für kleine Winkel belegt, dass zwei gleichzeitige Schallereignisse in einem Abstand von weniger als 30° nicht sicher getrennt werden können. Darüber zeigt das Verfahren eine robuste Lokalisierung mit einem mittleren Fehler von 3°. 5.5 anwendung in realen konferenzraumszenarien Schließlich wurde das in dieser Arbeit entwickelte Verfahren mit den ermittelten Parametern an Aufnahmen aus realen Umgebungen getestet. Es wurde ein öffentlich verfügbarer Korpus benutzt, um den Ansatz mit publizierten Ergebnissen anderer Verfahren zu vergleichen. Hier war eine kleine Anpassung für die niedrige Abtastrate von 16 kHz nötig (Abschnitt 5.5.1). Mit eigenen Aufnahmen im intelligenten Konferenzraum der FINCA wurden Szenarien aufsteigender Komplexität 76 evaluierung getestet: Zunächst die Lokalisierung eines einzelnen Sprechers an festen Positionen (Abschnitt 5.5.2), dann eine Diskussion am Konferenztisch (Abschnitt 5.5.3) und schließlich eine Aufnahme mit zwei kontinuierlich durcheinander sprechenden Personen (Abschnitt 5.5.4). Um eine anwendungsorientierte Schranke für die Genauigkeit zu berechnen, wurde für jede Position abhängig vom Abstand di des Sprechers eine maximale Winkelabweichung ∆α = arctan(di , ∆d) (5.6) abhängig von der tolerierten Abweichung ∆d, welche z.B. der Kopfbreite entspricht, berechnet. Somit erhält mit dem Winkel des Sprechers (m0 − qi )(m4 − m0 ) (5.7) αi = arccos km0 − qi kkm4 − m0 k als Treffer (true positives) TPi := {(l, an ) | | an − αi | ≤ ∆α}. (5.8) und als Fehldetektionen (false positives) FPi := {(l, an ) | i = argmin {| an − α j |} ∧ | an − αi | > ∆α} j (5.9) diejenigen, die am nächsten an dem Quellwinkel αi sind, aber nicht in den Bereich des Sprechers fallen. Somit lässt sich die „Genauigkeit“ (precision) wie üblich bestimmen: pri := | TPi | | FPi ∪ TPi | und pr := ∑i | TPi | . ∑i | FPi ∪ TPi | (5.10) Liegen Daten über die Sprachaktivität vor, so kann man anhand der Anzahl der aktiven Fenster Pi die „Trefferrate“ (recall) bestimmen: rei := | TPi | | Pi | und re := ∑i | TPi | . ∑i | Pi | (5.11) Für einige Aufnahmen liegt keine genaue Information der Sprecheraktivität vor. Um hier dennoch eine Aussage über die Anzahl der Detektionen machen zu können, wird die „Dichte“ als Anzahl der Detektionen pro Zeiteinheit definiert. 5.5.1 AV16.3-Sequenz 1: Einzelner Sprecher Der AV16.3-Korpus liefert eine ganze Reihe von Aufnahmen mit verschiedenen Szenarios [LOGP05]. Da die Daten nur in 16 kHz Abtastrate vorliegen, ist die Phaseninformation schlecht repräsentiert. Darüber hinaus führt auch der größere Radius von r a = 10 cm zu mehr Aliasing und geringerer Kohärenz für hohe Frequenzen. Oberhalb von 1.7 kHz ist keine auswertbare Information vorhanden. Die Daten wurden auf 48 kHz umgerechnet und die Lokalisierung dann mit zwölf Frequenzbändern mit den Mittenfrequenzen f b = 0.2, . . . , 1.6 kHz vorgenommen. Mit dieser Anpassung konnte das Verfahren auf die Aufnahmen aus dem AV16.3-Korpus erfolgreich angewendet werden. In Sequenz 1 wurden von einem Sprecher 16 Positionen fest eingenommen und die Phrase „one two three four five six seven eight nine ten this 5.5 anwendung in realen konferenzraumszenarien ≤ 1.7 kHz 77 Sprecherposition Detektion Winkel θ [◦ ] 90 45 0 −45 −90 0 20 40 60 80 100 120 140 160 180 200 220 Zeit [s] Abbildung 52.: Detektionen für AV16.3-Sequenz 1, ein einzelner Sprecher nimmt 16 Positionen im Raum ein und äußert jeweils einen kurzen Text. is position X“ gesprochen, wobei X die Nummer der Sprecherposition ist. Die Aufnahme des mundnahen Lapel-Mikrophons wurde ebenfalls mit der Gammaton-Filterbank gefiltert und in diesem entsprechenden Fenstern die RMS-Energie gebildet. Diese ist in Abbildung 52 unterhalb der Detektionsgraphen aufgetragen. Der Mittelwert dieser Größe wurde in den Mittelungsfenstern der Auswertung bestimmt. Mit einem einfachen Energieschwellwert von −45 dB wurden diejenigen Zeitfenster bestimmt, in denen im Quellsignal gesprochen wurde. Darauf bezogen wird die Anzahl der korrekt lokalisierten Detektionen bezogen auf das Spechersignal ermittelt. Dabei wurden nur Detektionen mit einer Abweichung von unter ∆d = 0.2 m als Treffer gezählt, also solche, welche den Kopf des Sprechers auf etwa eine Kopfbreite genau lokalisierten. 3° RMS-Fehler 97 % Genauigkeit Abbildung 52 zeigt die berechneten Detektionen für MA1, das erste Mikrophonarray. Nahezu alle Positionen werden gut lokalisiert. Insgesamt ergab sich ein RMS Fehler von 3.2° mit 97 % Genauigkeit für beide Mikrophonarrays. Die Trefferrate betrug 93 % für MA1 und 86 % für MA2. Für SRP-PHAT-Lokalisation in eben diesem Szenario wird eine Genauigkeit von 5◦ angegeben [Lat06, S. 37 oben]. Dieses Ergebnis wird allerdings nur erzielt, wenn lediglich als Sprache markierte 32 ms-Zeitfenster ausgewertet werden. Dazu wurde in der Implementierung von Lathoud et al. eine Sprache-Nichtsprache Unterscheidung eingeführt, welche unter anderem den Notebooklüfter in der Aufnahme von Szenario 1 ausblendet [LO07]. 5.5.2 5° RMS-Fehler 94 % Genauigkeit 78 FINCA-Sequenz 1: Einzelner Sprecher Ähnlich wie Sequenz 1 des AV16.3 wurde auch in der FINCA eine Aufnahme zum Test der Lokalisierung eines einzelnen Sprechers erstellt. In dieser nahm ein Sprecher die sieben in Abbildung 53 gezeigten Positionen ein und äußerte jeweils einige Sätze. Dabei wurden mit dem in Kapitel 4 beschreibenen Verfahren die in Abbildung 54 gezeigten Detektionen erzielt. So ergab sich sich hier ein RMS-Fehler von 4.43°. Mit einer Toleranz von ∆d = 0.2 m ergab sich eine Genauigkeit von 93.9 %. In den Zeitintervallen, in denen der Sprecher stillstand, erreichten die Detektionen eine Dichte von 83.4 %. evaluierung Winkel [◦ ] Abbildung 53.: FINCA-Sequenz 1: Ein einzelner Sprecher spricht an sieben Positionen jeweils mehrere Sätze. Sprecherposition Detektion 180 135 90 45 0 −45 −90 −135 −180 60 80 100 120 140 160 180 200 220 240 260 Zeit [s] Abbildung 54.: Detektionen zu FINCA-Sequenz 1 Position 1 2 3 4 5 6 7 Abstand Winkel 2.16 m 1.70 m 1.34 m 1.20 m 1.27 m 0.90 m 1.08 m 146.31° 135.00° 116.57° 90.00° 45.00° 0.00° −33.69° Fehler Genauigkeit 3.61° 5.70° 4.34° 2.69° 4.87° 7.86° 2.79° 86.1 % 76.0 % 100.0 % 99.3 % 100.0 % 87.8 % 100.0 % Tabelle 2.: Detektionen zu FINCA-Sequenz 1 nach Sprecherposition 5.5 anwendung in realen konferenzraumszenarien 79 Dichte 69.9 % 88.1 % 85.8 % 96.1 % 93.1 % 50.5 % 92.3 % 280 5.5.3 natürliche Diskussion 6° RMS Fehler 99 % Genauigkeit Zum Test der Ortung von Sprechern in natürlichen Gesprächen wurde eine Diskussion zwischen zwei am Tisch sitzenden Sprechern aufgezeichnet. Dabei saßen die beiden Sprecher ca. 90° versetzt in ca. 1 m Entfernung vom Mikrophonarray am Tisch. Um eine möglichst natürliche Aufnahme zu erhalten, wurden keine Einschränkungen zum Verhalten vorgegeben. Beide Sprecher bewegten sich während des Gesprächs natürlich auf den Stühlen, zeigten einander Ausdrucke usw. Die ausgewertete Aufnahme hat eine Gesamtlänge von einer halben Stunde. In Anbetracht dessen wurde im Hinblick auf mögliche Anwendungen die Detektion eines Sprechers auf eine Stuhlbreite als korrekt eingestuft und eine erhöhte Abweichung von ∆α = 26.56° zugelassen, was ∆d = 50 cm in einem Meter Entfernung entspricht. Die Sitzpositionen der beiden Sprecher wurde entsprechend der Stellung der Stühle zum Mikrophonarray als 0° und 90° angenommen und nicht weiter korrigiert. Bei der Auswertung wurde jeweils der einer Detektion nähere Sprecher derselben zugeordnet. Abbildung 55 zeigt die Detektionen für einen zehn Minuten langen Ausschnitt. Es fällt auf, dass die Sprecher sich zwar abwechseln, aber dennoch relativ oft gleichzeitig sprechen. Über die gesamte Sequenz und beide Sprecher ergab sich ein RMS-Fehler von 5.87° und eine Genauigkeit von 99.4 %, für die beiden Sprecher einzeln 5.25° bzw. 7.15° RMS-Fehler und 99.6 % bzw. 98.9 % Genauigkeit. Ohne dass die Sprecheraktivität oder die genaue Position vorher bekannt war, wurden die Sprachaktivitäten beider Sprecher mit hoher Präzision erkannt. Die wenigen fehlerhaften Detektionen sind höchstwahrscheinlich auf Sprecherbewegungen oder verbleibende Störungen wie Papierrascheln, Stuhlrücken oder Aussetzer der Aufnahmesoftware zurückzuführen. 5.5.4 concurrent speakers 5° RMS-Fehler 95 % Genauigkeit 80 FINCA-Sequenz 2: Diskussion am Tisch FINCA-Sequenz 3: Gleichzeitige Sprecher im Raum Um die Lokalisierung gleichzeitiger Sprecher zu testen, wurde das folgende Szenario aufgenommen: Ein Sprecher nahm die bereits verwendeten sieben Positionen vor der Präsentationsleinwand ein und sprach an jeder einige Sätze. Ein Sprecher saß am Tisch der Präsentationsleinwand gegenüber bei −90° und sprach dauerhaft. Hier ergab sich ein RMS-Fehler von 4.88°, 6.02° für den Laufenden, 3.91° für den sitzenden Sprecher. Mit einer Toleranz von ∆d = 0.2 m ergibt sich eine Genauigkeit von 94.8 %, je 90.3 % und 99.0 % für die beiden Sprecher bei einer Dichte von 82.4 % und 90.2 %. Wie in Abbildung 57 klar zu sehen, wird der bewegte Sprecher an den ersten zwei Positionen schlechter lokalisiert. In Tabelle 3 sind die Ergebnisse für die einzelnen Positionen von Sprecher 1 aufgelistet. An den ersten Positionen ist der Sprecher über 2 · r H = 1.3 m vom Mikrophonarray entfernt, danach wird die Lokalisierung deutlich dichter. Dies legt die Vermutung nahe, dass eine Positionierung des Mikrophonarrays in der Mitte des Tisches oder die Verwendung eines zweiten Mikrophonarrays am anderen Tischende eine durchgängig präzise Lokalisierung ermöglichen würde. evaluierung Winkel [◦ ] 180 135 90 45 0 −45 −90 −135 −180 Sprecher 1 Sprecher 2 Detektion 0 50 100 150 200 250 300 350 400 450 500 550 600 Zeit [s] Abbildung 55.: Detektionen zu FINCA-Sequenz 2: Diskussion zweier Gesprächspartner am Tisch. Winkel [◦ ] Abbildung 56.: FINCA-Sequenz 3: Zwei gleichzeitige Sprecher, einer läuft während der Präsentation durch den Raum, ein zweiter am Tisch redet dazwischen. Sprecher 1 (laufend) Sprecher 2 (sitzend) Detektion 180 135 90 45 0 −45 −90 −135 −180 40 60 80 100 120 140 160 180 Zeit [s] Abbildung 57.: Detektionen zu FINCA-Sequenz 3 Position 1 2 3 4 5 6 7 Abstand 2.16 m 1.70 m 1.34 m 1.20 m 1.35 m 0.90 m 1.08 m Sprecher 1 (laufend) Fehler Genau. Dichte 3.77° 5.77° 7.50° 6.92° 5.80° 3.62° 5.78° 89.1 % 66.7 % 70.1 % 100.0 % 98.5 % 100.0 % 97.5 % 52.9 % 66.2 % 91.8 % 95.7 % 95.7 % 88.7 % 89.9 % Sprecher 2 (sitzend) Fehler Genau. Dichte 3.66° 4.14° 3.88° 3.93° 3.82° 3.80° 4.13° 100.0 % 97.2 % 98.3 % 98.4 % 100.0 % 98.8 % 100.0 % Tabelle 3.: Detektionen zu FINCA-Sequenz 3 nach Sprecherposition 5.5 anwendung in realen konferenzraumszenarien 81 98.9 % 92.2 % 82.2 % 88.4 % 94.2 % 82.5 % 93.3 % 6 FAZIT Abschließend wird die Arbeit kurz zusammengefasst und bewertet. Danach wird ein Ausblick auf mögliche Erweiterungen und Einsatzgebiete des Verfahrens gegeben. 6.1 zusammenfassung Im Rahmen dieser Arbeit wurde ein Verfahren entwickelt, welches Sprecher mit der pragmatischen Kombination von neurobiologischen und kognitionspsychologischen Modellen mit technischen Methoden in realen Umgebungen lokalisiert. Es kann in verschiedenen realen Situationen eingesetzt werden, insbesondere auch in Innenräumen mit mittlerem oder starkem Hall. Als prototypisches Anwendungszenario wurde ein intelligenter Konferenzraum gewählt. Hier wird zwischen die Sprecher auf den Tisch ein planares zirkuläres Array aus acht omnidirektionalen Mikrophonen platziert [BW01], welches an einen handelsüblichen PC angeschlossen ist. Die Verarbeitung stützt sich auf neurobiologische und kognitionspsychologische Erkenntnisse zur Ermittlung hoch-robuster Merkmale. Jedes Mikrophonpaar wird in Analogie zur menschlichen Verarbeitung in der Cochlea und den auditory pathways in einer auf Sprache abgestimmte Weise verarbeitet. Mittels der in dieser Arbeit entwickelten Peak-over-Average-Position-Auswertung (PoAP) werden Folgen von Rechteckimpulsen erzeugt, welche dann für alle Mikrophonpaare korreliert werden. Dabei wird mit der onset dominance ein Mechanismus des Menschen nachgeahmt, welcher von Neurologen als wichtig für das Hören und Lokalisieren in Umgebungen mit starkem Nachhall angesehen wird [DIH+ 09, Gro03]. In der Kognitionspsychologie wird die verbesserte Lokalisierung bei Hall durch Auswertung dominanter onsets bzw. der „ersten Wellenfront“ als precedence effect bezeichnet [WB06, S. 26ff.]. Anhand der in der Korrelation bestimmten Laufzeitunterschiede werden die Quellwinkel geschätzt. Mittels einer Fuzzy-Kombination werden die Ergebnisse aller Mikrophonpaare zu robusten Schätzungen kombiniert. Die Nachverarbeitung berechnet die Winkel von Sprechern in Zeitfenstern als modulierte Peaks mit sprachtypischen Eigenschaften. Die konsequente Einschränkung auf wenige aber eindeutige Peaks entspricht der Auswertung gestörter Signale im Sinne eines glimpsing model [Coo06]. Das Verfahren liefert mit optimierten Algorithmen kontinuierliche Sprecherpositionsschätzungen in Echtzeit. In ausführlichen Evaluationen mit simulierten Räumen und realen Aufnahmen wurde die Implementierung mit allen Parametern auf die Nutzung höchst klar lokalisierter Sprachereignisse optimiert. Versuche im Konferenzraum der FINCA bestätigten die Einsatzfähigkeit der entwickelten Lokalisierung in realen Umgebungen und deren Robustheit gegenüber hall- und rauschinduzierten Störungen. 83 reale Umgebungen Hall Konferenzszenario Mikrophonarray Neurobiologie onset dominance precedence effect Fuzzy Lokalisation von Sprechern glimpsing model Echtzeit reale Aufnahmen in der FINCA 6.2 interdisziplinär PoAP Spikes onset dominance Fuzzy Kombination Sprachmodell Lokalisierung bei Hall in realen Umgebugnen CASA in realen Situationen bewertung Ein Ziel dieser Arbeit war ein anwendungsorientierter Brückenschlag zwischen verschiedenen Disziplinen. Durch die pragmatische Kombination von Mikrophonarraytechnik und neurobiologischen und kognitionspyschologischen Modellen wurde ein Verfahren geschaffen, das höchst robuste Merkmale zur Lokalisierung von Sprechern berechnet. Die Verwendung der PoAP-Impulsgenerierung erwies sich als unemfindlicher gegen Störungen als die der Korrelation von Nulldurchgängen. Durch onset dominance konnte die Robustheit gegen starken Hall noch deutlich gesteigert werden. Die Kombination mit der Hamachert-Norm erlaubte eine unempfindliche Quellenschätzung. Mit der Detektion als Peaks über Winkel aus spektral verteilter Sprachenergie konnten zuverlässig Sprecher lokalisiert werden. Der Ansatz hat sich im praktischen Einsatz im Konferenzraum der FINCA mit deutlichem Hall bewährt. Die Lokalisierung von Sprechern gelingt hier in verschiedenen realen Situationen wie auch auf Konferenzraum-Korpora mit zwischen 3° und 6° RMS-Fehler und über 90 % Genauigkeit. In der überwiegenden Mehrheit der Anwendungsszenarien findet die Lokalisierung von Sprechern in Innenräumen und nicht auf dem freien Feld oder in hallfreien Akustikkammern statt. Dennoch ist die überwiegende Mehrheit der CASA-Systeme diesen Situationen nicht gewachsen [WB06]. Daher ist das Ergebnis dieser Arbeit ein Schritt in der Entwicklung der CASA-Anwendungen zum erfolgreichen Einsatz in realen Situationen. 6.3 einsatzgebiete und weiterentwicklungen Das hier vorgestellte System lässt sich durch Einsatz verteilter Mikrophonarrays leicht zur Lokalisierung von Sprechern in kartesischen Raumkoordinaten erweitern. Hier ist auch die Erweiterung der Nachverarbeitung zur Sprecherverfolgung interessant. Die Interaktion in einem intelligenten Konferenzraum bietet viele mögliche Einsatzgebiete. Des Weiteren kann die Lokalisation der Sprachstromtrennung dienen, welche in ein Spracherkennungssystem integriert werden kann. Verteilte Mikrophonarrays verteilte Mikrophonarrays In einem intelligenten Raum kann durch Nutzung verteilter Mikrophonarrays die stabile Lokalisierung von Sprechern in Raumkoordinaten realisiert werden. Dies kann durch eine Kombination von Winkelvorselektion in einem groben Raster und nachfolgender genauer Positionsbestimmung, etwa via Gradientenabstieg, effizient erfolgen [LO07]. Bei einer drahtlosen Netzwerkverbindung mit einem Roboter ist auch eine kombinierte Schätzung von an diesem und im Raum installierten Mikrophonarrays möglich [NNM+ 06]. Sprecherverfolgung (Tracking) Durch Intergration eines Modells der zeitlichen Dynamik sich bewegender Sprecher über entsprechende Verfahren kann die Verfolgung von Sprechern realisiert werden. Bekannte Ansätze hierzu sind viter- 84 fazit bi tracking [RW08], der eigenwertbasierte PASTd-Algorithmus [OS09] oder partikelbasierte Verfahren [Leh06] und PHD-Filter [MVSB06]. PHD-Filter Multimodale Interaktion Die Lokalisierung kann zur Steuerung von Kameras in vielfältigen Interaktionsszenarien verwendet werden. Durch eine Kopplung mit einem Gesichts- oder Kopf-Schulter-Detektor lässt sich die Genauigkeit steigern. Eine Lokalisierungslösung kann auch auf einem mobilen Roboter eingesetzt werden [RLB+ 08]. Da die Lokalisierungsgenauigkeit mit fallendem Abstand steigt, kann der Roboter Sprecher mit steigender Genauigkeit ansteuern. mobiler Roboter Sprachstromtrennung und robuste Spracherkennung Mit der Lokalisierung können Energien im Zeit×Frequenz×WinkelRaum Sprechern zugeordnet werden. Darauf basierend lässt sich ein Teil des Sprachsignals in Analogie zu einem steered beamformer mit optimiertem Nachfilter [Dob06] rekonstruieren. Die durch Hall reduzierten Zeit×Frequenz-Masken können als Merkmale für ein Spracherkennungssystem genutzt werden. Das Fehlen von Teilen der Sprache kann hierbei mit einem missing data-Ansatz modelliert werden [RSS04, KPTN08]. Als Spracherkennungsmerkmale können dann die beteiligten Energien in Form von auditory rate maps dienen, hier ist die Übertragung der Unsicherheiten aus einer kontinuierlichen Zeit-Frequenz-Maske direkt möglich [HBB06]. Die Übertragung der spektralen Unsicherheiten in den cepstralen Bereich ist wesentlich aufwändiger, da sich eine Frequenz auf alle MFCCs auswirkt [SW07]. 6.3 einsatzgebiete und weiterentwicklungen missing data auditory rate maps 85 A IMPLEMENTIERUNG Im Rahmen der Arbeit wurde eine Vielzahl von Testprogrammen und Oberflächen erstellt. Hier wird zunächst kurz die Laufzeitoptimierung dargestellt, die zum Design des Echtzeitsystems führte. Danach werden Implementierungen des Systems dargestellt. a.1 laufzeitoptimierung Während der Implementierung wurden immer wieder Schritte zur Reduktion der Gesamtlaufzeit unternommen. Dazu wurden wiederholt Laufzeituntersuchungen durchgeführt. Während der Laufzeittests wurde das 90 % Konfidenzintervall i90 nach der Tschebyscheff-Ungleichung bestimmt. Sank die Schwankungsbreite unter 12 % oder wurden n = 45 Iterationen erreicht, wurde der Test beendet. Alle hier aufgeführten Messungen beziehen sich auf C++-Quellcode, der vom GCC1 mit den Einstellungen -O3 -ffast-math -fopenmp übersetzt wurde. Die Messungen wurden auf einem PC mit einem Core2 Duo E8500 Prozessor unter dem Betriebssystem Kubuntu Linux 9.04 „Jaunty“ durchgeführt. OpenMP -O3 -ffast-math Filterbank Der erste optimierte Aspekt ist die verwendete Filterbank. Es wurde zunächst die IIR-Filter-Variante [Sla93] implementiert. Da diese einen extrem nichtlinearen Phasengang aufweist, wurden die Filter alternativ per FFT Overlap-Add realisiert. Die C++-Implementierung der FFT ist etwa 2.1 mal langsamer als die IIR-Filter. Durch Nutzung der libFFTW [FJ05] erreicht die FFT-Variante eine vergleichbare Laufzeit. Eine Filterbank mit 25 Bändern für ein mit f s = 48 kHz abgetastetes Signal kann mit beiden Verfahren in etwa 4 % der Signallänge, also 4 % der für Echtzeitverarbeitung verfügbaren Rechenzeit, berechnet werden. Tabelle 4 gibt die Ergebnisse einer vergleichenden Messung wieder. libFFTW Korrelation Eine der aufwändigsten Rechenoperationen ist die Korrelation der Rechteckimpulse. Hier wurde eine ganze Reihe von Verfahren imple1 GNU Compiler Collection, http://gcc.gnu.org/ Implementierung IIR FFT FFTW single core % Echtzeit i90 [ms] 6.75 15.97 7.78 [177, [377, [202, 177] 461] 206] OpenMP % Echtzeit i90 [ms] 3.82 8.89 4.03 Tabelle 4.: Laufzeitvergleich Gammaton Filterbank 87 [ 94, [223, [ 76, 107 ] 244 ] 135 ] Implementierung Datenstruktur Jeffress FFT FFTW Match Match Array Array Array Array Indexed % Echtzeit 12.41 4.70 2.43 1.84 0.10 i90 [ms] [324, [116, [63, [47, [3, 327] 131] 65] 50] 3] Tabelle 5.: Laufzeitvergleich Korrelation schnelle Faltung schnelle Spikekorrelation mentiert. Das erste Verfahren war die diskrete Korrelation nach dem Jeffress-Colburn Modell. Diese benötigte allein über 12 % der Signallänge auf einem Signalpaar. Die „schnelle Faltung“ per FFT reduzierte die Rechenzeit auf erträglichere 2.5 % und rückte damit die Implementierung erstmals in die Nähe von Echtzeitbetrieb. Das Suchen von Paaren in den spärlich besetzten spike trains drückte die Zeit noch einmal geringfügig auf 1.8 %, mit der Verwendung einer indizierten Datenstruktur ist die Korrelation spärlich besetzter Signale 20-100 mal so schnell wie die erste Variante. Gesamtlaufzeit 90% Echtzeit Betrachtet man die Gesamtlaufzeit verschiedener Implementierungen, so hat dieser letzte Schritt der Verwendung einer indizierten Datenstruktur für schnelle Korrelation und Kombination den Echtzeitbetrieb auf einem Rechner mit einen Core2 Quad Q9550 Prozessor der Firma Intel ermöglicht. Tabelle 6 stellt die mittlere Laufzeit der einzelnen Implementierungen gegeneinander. Die Nachverarbeitung benötigt ca. 2 % der Echtzeit und ist nicht einzeln aufgeführt. Der wesentliche Unterschied ist die Rechenzeit, welche für den Kombinations- und Korrelationsschritt benötigt wird. Diese konnte von 18 bzw. 10 mal Echtzeit beim Jeffress-Korrelator auf schließlich 38 % bzw. 23 % Echtzeit gesenkt werden. Core2 Quad Implementierung Gesamt Filter Core2 Duo Spikes Ko&Ko Gesamt Filter Spikes Ko&Ko Jeffress 1116 % 34.1 % 41.6 % 1026 % 1860 % 38.4 % 61.6 % 1758 % FFTW 163 % 31.6 % 35.4 % 95.0 % 264 % 38.9 % 61.6 % 162.4 % match 124 % 30.5 % 34.9 % 56.9 % 198 % 38.2 % 61.7 % 96.3 % indexed 90 % 26.1 % 40.7 % 22.6 % 137 % 31.0 % 68.0 % 37.8 % Tabelle 6.: Laufzeitvergleich Lokalisation gesamt, alle Angaben bezüglich Echtzeit a.2 werkzeuge Zur Evaluierung wurde eine Reihe von Programmen geschrieben. Die Implementierung der Lokalisierung als Kommandozeilen- und grafisches Werkzeug werden hier kurz dargestellt. 88 implementierung Parameter Name Einheit --radius ra cm Radius des Mikrophonarrays --sampling-frequency fs Hz Abtastrate --alias Beschreibung erlaubt räumliches Aliasing --time-limit s maximale Länge der Eingabedaten --time-offset s Startzeitpunkt der Berechnung in den Eingabedaten --max-elevation ◦ maximale Neigung der Halbkugelrückprojektion, ein Wert von 0 schaltet auf Kreisrückprojektion --bands nb --fmin, --fmax fb Hz erste und letzte Mittenfrequenz --frame-step S ms Schrittweite des Korrelationsfensters --frame-length T0 ms Basisbreite des Korrelationsfensters --spike-mth thmod dB Modulationsschwelle für Spikeauslösung --spike-ath th abs --spike-avg L ms Länge des moving average Fensters --spike-pre D ms Versatz des Signals zum moving average Fenster --gamma γ Anzahl der Frequenzbänder absolute Schwelle für Spikeauslösung --post Hamacher t-Norm - separierte Nachverarbeitungsschritte opt:p1:p2 Tabelle 7.: Verarbeitungsparameter auf der Kommandozeile Option Beschreibung bs Frequenzbänder summieren | B| > p1 e > p2 es über Neigung summieren av Mittelwert über p1 Sekunden max argmax-Lokalisierung poap PoAPα p1 zu p2 Grad Mittelwert grid PoAP gridsearch p1 zu p2 Grad Mittelwert Tabelle 8.: Nachverarbeitungsdefinition auf der Kommandozeile Kommandozeilenberechnung Das Komandozeilenwerkzeug corfbar4cmd (bzw. die architekturoptimierte Variante corfbar4cmd-core2) berechnet die Lokalisierung aus einer WAV-Datei und erzeugt eine CSV-Datei mit den Ergebnissen. Die Aufrufsyntax ist wie folgt: corfbar4cmd [ --bands # | --fmin #.# | --fmax #.# | --radius #.# | --sampling-frequency #.# | --alias | --time-limit #.# | --time-offset #.# | --max-elevation #.# | --spike-ath #.# | --spike-mth #.# | --spike-avg #.# | --spike-pre #.# | --frame-step #.# | --frame-length #.# | --gamma #.# | --post (opt[:p1[:p2]])[-(opt[:p1[:p2]])]+ | --outfile <outfile> ] <filename> Tabelle 7 listet alle Parameter auf, Tabelle 8 alle möglichen Nachverarbeitungsschritte. Als Nachverarbeitung können verschiedene Schritte A.2 werkzeuge 89 Abbildung 58.: Lokalisierungs GUI in beliebiger Reihenfolge angegeben werden. Die einzelnen Schritte werden per „-“ separiert und können bis zu zwei per „:“ separierte Parameter erhalten, so wird z.B. die übliche Nachverarbeitung als bs:4-av:1-poap:5:45 angegeben. Lokalisierungs GUI Die Kernimplementierungen der einzelnen Lokalisierungsverfahren wurden jeweils mit einer Qt42 -GUI versehen, um interaktiv am Bildschirm Parameter bestimmen und bewerten zu können. Die Parameter entsprechen dabei denen aus Tabelle 7 und 8. Abbildung 58 zeigt die Oberfläche der Implementierung. Links sind die Parameter der Lokalisierung aufgeführt, rechts werden die vier Projektionen in Drehwinkel×Neigungswinkel, Drehwinkel×Zeit, Drehwinkel×Frequenz und Frequenz×Zeit angezeigt. 2 http://qt.nokia.com/ 90 implementierung ABBILDUNGSVERZEICHNIS Abbildung 1 Abbildung 2 Abbildung 3 Abbildung 4 Abbildung 5 Abbildung 6 Abbildung 7 Abbildung 8 Abbildung 9 Abbildung 10 Abbildung 11 Abbildung 12 Abbildung 13 Abbildung 14 Abbildung 15 Abbildung 16 Abbildung 17 Abbildung 18 Abbildung 19 Abbildung 20 Abbildung 21 Abbildung 22 Abbildung 23 Abbildung 24 Abbildung 25 Abbildung 26 Abbildung 27 Abbildung 28 Abbildung 29 Abbildung 30 Abbildung 31 Abbildung 32 Abbildung 33 Abbildung 34 Abbildung 35 Abbildung 36 Abbildung 37 Abbildung 38 Abbildung 39 Abbildung 40 Abbildung 41 Abbildung 42 Abbildung 43 Abbildung 44 Abbildung 45 Abbildung 46 Abbildung 47 Abbildung 48 Abbildung 49 Konferenzszenario 2 Sprachproduktion und -erkennung bei Menschen 6 Röhrenmodell der Sprachproduktion 7 Schallausbreitung im Raum 10 Reflektogramm 11 Mikrophonpaar im Fernfeld 12 Mikrophonarrays 13 Menschliches Gehör 15 Hörfläche 16 Impulskodierung der Wanderwelle 17 Spektrogramm 18 Auditive Pfade 19 Bei Sprachwahrnehmung beteiligte Hirnareale 20 Abstraktion und Algoritmen 21 Cocktail-Party-Effekt 22 Gruppierungsprinzipien der ASA 23 CASA Modell der Sprachverarbeitung 25 Summe, Produkt und Hamacher-t-Norm 32 Hamacher- und SRP-PHAT spatial likelihood 33 Clusteringansatz für Sprecherlokalisierung 34 Filter des Auditiven Nervs 36 Impulsantwort eines Gammatonfilters 36 Gammaton-Filterbank 37 Jeffress-Colburn-Modell 38 KEMAR Dummy 39 künstlichem Außenohr des Roboters iCub 41 Sprecherverfolgung im Modell von Roman 42 CASA Spracherkennung Srinivasan/Wang 44 Hallrobuste CASA Spracherkennung 46 Verarbeitungsstruktur 48 Mikrophonarray im Konferenzszenario 49 Auditive Filterbank 51 Peak-over-Average Impulserzeugung 52 Schallfront am zirkulären Mikrophonarray 56 Korrelationsvariation 59 Lokalisierung zweier Sprecher in der FINCA 62 AV16.3 Aufnahmesituation 64 Aufnahmesetup in der FINCA 64 Vergleich der Spikegenerierung 65 ITD-Korrelation; Mikrophonzusammenfassung 67 Rückprojektion Kreis und Kugel 67 Energieverteilung verschiedener t-Normen 69 Szenario im simulierten Konferenzraum 70 Paramertervariation Lokalisierung 71 Vergleich der Spikegenerierungsvorschriften 72 Vergleich der Hamacher-t-Normen 72 Vergleich der Modulationsschwellen 73 Zeitliche Mittelung und Winkel-PoA 74 Zeitliche Integration 74 91 Abbildung 50 Abbildung 51 Abbildung 52 Abbildung 53 Abbildung 54 Abbildung 55 Abbildung 56 Abbildung 57 Abbildung 58 Lokalisierung zweier simulierter Sprecher 75 Trennbarkeit simulierter gleichzeitige Sprecher 76 Detektionen für AV16.3-Sequenz 1 78 Einzelner Sprecher in der FINCA 79 Detektionen zu FINCA-Sequenz 1 79 Detektionen zu FINCA-Sequenz 2 81 FINCA-Sequenz 3 81 Detektionen zu FINCA-Sequenz 3 81 Lokalisierungs GUI 90 TABELLENVERZEICHNIS Tabelle 1 Tabelle 2 Tabelle 3 Tabelle 4 Tabelle 5 Tabelle 6 Tabelle 7 Tabelle 8 Subbänder des zirkulären Mikrophonarrays 48 Detektionen eines Sprechers nach Position 79 Detektionen zu FINCA-Sequenz 3 81 Laufzeitvergleich Gammaton Filterbank 87 Laufzeitvergleich Korrelation 88 Laufzeitvergleich Lokalisation 88 Kommandozeile: Verarbeitungsparameter 89 Kommandozeile: Nachverarbeitung 89 ALGORITHMENVERZEICHNIS Algorithmus 1 Algorithmus 2 Algorithmus 3 92 Schnelle Impulskorrelation 55 Paarweise Kombination 57 Kombination eines Paares 57 LITERATURVERZEICHNIS [AB79] J. B. Allen und D. A. Berkley: Image Method for Efficiently Simulating Small-Room Acoustics. Journal of the Acoustical Society of America, 65(4):943–950, 1979. [All94] J. B. Allen: How do Humans Process and Recognize Speech? IEEE Transaction on Speech and Audio Processing, 2(4):567–577, Oktober 1994. [Ata06] B. Atal: The History of Linear Prediction. IEEE Signal Processing Magazine, 23(2):154–161, 2006. [Bar04] J. Barker: The RESPITE CASA Toolkit Project – A Toolkit for Computational Auditory Scene Analysis. http://www.dcs. shef.ac.uk/~jon/ctk.html, 2004. [Beh06] G. K. Behler: How to Compare Concert Halls by Listening to Music. In: Joint ASA/ASJ Meeting, Honolulu, Hawaii, 2006. [BH99] J. D. Bard und F. M. Ham: Time Difference of Arrival Dilution of Precision and Applications. IEEE Transactions on Signal Processing, 47(2):521–523, Februar 1999. [Bla96] J. Blauert: Spatial Hearing - Revised Edition: The Psychophysics of Human Sound Localization. The MIT Press, October 1996. [Boh88] D. A. Bohn: Environmental Effects on the Speed of Sound. Journal of the Audio Engineering Society, 36, April 1988. [Bra89] K. Brandenburg: Ein Beitrag zu den Verfahren und der Qualitätsbeurteilung für hochwertige Musikcodierung. Doktorarbeit, Technische Fakultät der Universität ErlangenNürnberg, 1989. [Bre90] A. S. Bregman: Auditory Scene Analysis. MIT Press, 1990. [BvH07] M. Bürck und J. L. van Hemmen: Modeling the Cochlear Nucleus: A Site for Monaural Echo Suppression? Journal of the Acoustical Society of America, 122:2226–2235, 2007. [BW01] M. Brandstein und D. Ward (Herausgeber): Microphone Arrays. Springer, 2001. [CD78] S. Colburn und N. I. Durlach: Models of Binaural Interaction. In: E. C. Carterette und M. P. Friedman (Herausgeber): Handbook of Perception, Seiten 467–518. Academic Press, New York, 1978. [Che53] E. C. Cherry: Some Experiments on the Recognition of Speech, with One and with Two Ears. Journal of the Acoustical Society of America, 25(5):975–979, 1953. [CKR09] M. Costa, V. Koivunen und A. Richter: Low Complexity Azimuth and Elevation Estimation for Arbitrary Array Configurations. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Seiten 2185–2188, Taipei, Taiwan, 2009. 93 [CMWB07] H. Christensen, N. Ma, S. N. Wrigley und J. Barker: Integrating Pitch and Localisation Cues at a Speech Fragment Level. In: Interspeech 2007; Antwerp, Belgium, Seiten 2769– 2772, 2007. 94 [Coo06] M. P. Cooke: A Glimpsing Model of Speech Perception in Noise. Journal of the Acoustical Society of America, 119:1562– 1573, 2006. [DHS01] R. O. Duda, P. E. Hart und D. G. Stork: Pattern Classification. John Wiley & Sons, New York, 2 Auflage, 2001. [DIH+ 09] S. Devore, A. Ihlefeld, K. Hancock, B. ShinnCunningham und B. Delgutte: Accurate Sound Localization in Reverberant Environments is mediated by Robust Encoding of Spatial Cues in the Auditory Midbrain. Neuron, 16;62(1):123–34, April 2009. [Dob06] G. Doblinger: An Adaptive Microphone Array for Optimum Beamforming and Noise Reduction. In: 14th European Signal Processing Conference, Florence, Italy, 2006. [Fin03] G. A. Fink: Mustererkennung mit Markov-Modellen. Teubner, 2003. [FJ05] M. Frigo und S. G. Johnson: The Design and Implementation of FFTW3. Proceedings of the IEEE, 93(2):216–231, 2005. Special issue on “Program Generation, Optimization, and Platform Adaptation”. [Fuk90] K. Fukunaga: Introduction to Statistical Pattern Recognition. Academic Press Professional, Inc., San Diego, CA, USA, 2 Auflage, 1990. [GB01] S. L. Gay und J. Benesty (Herausgeber): Acoustic Signal Processing for Telecommunication. Kluwer, 2001. [GM90] B. Glasberg und B. Moore: Derivation of Auditory Filter Shapes from Notched-Noise Data. Hearing Research, 47(1–2):103–138, August 1990. [GM94] W. G. Gardner und K. D. Martin: HRTF Measurements of a KEMAR Dummy Head Microphone. Technischer Bericht, MIT Media Lab, 1994. [GM00] B. Gold und N. Morgan: Speech and Audio Signal Processing. Wiley, 1 Auflage, 2000. [Gro03] B. Grothe: New Roles for Synaptic Inhibtion in Sound Localisation. Nature, 4(7):540–550, 2003. [Gus96] F. Gustafsson: Determining the Initial States in ForwardBackward Filtering. IEEE Transactions on Signal Processing, 44(4):988–992, 1996. [HAH01] X. Huang, A. Acero und H.-W. Hon: Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall, Upper Saddle River, NJ, 2001. [Ham91] R. W. Hamming: The Art of Probability for Scientists and Engineers. Addison-Wesley, 1991. [Han89] S. Handel: Listening. MIT Press, 1989. literaturverzeichnis [HBB06] S. Harding, J. Barker und G. Brown: Mask Estimation for Missing Data Speech Recognition based on Statistics of Binaural Interaction. IEEE Transactions on Audio, Speech, and Language Processing, 14(1):58–67, 2006. [Hel93] J. Helbig: Merkmale Deutscher Plosive aus der Sicht der Automatischen Spracherkennung. Doktorarbeit, TU Dresden, 1993. [Hen09] M. Hennecke: Automatische Kalibrierung verteilter Mikrophonfelder. Diplomarbeit, TU Dortmund; Fakultät für Informatik in Zusammenarbeit mit dem Institut für Roboterforschung, Dortmund, Germany, 2009. [HLSVL06] J. Hörnstein, M. Lopes, J. Santos-Victor und F. Lacerda: Sound Localization for Humanoid Robots – Building AudioMotor Maps based on the HRTF. In: IEEE/RSJ International Conference on Intelligent Robots and Systems, Seiten 1170– 1176, Beijing, China, 2006. [HOS95] J. Huang, N. Ohnishi und N. Sugie: A Biomimetic System for Localization and Separation of Multiple Sound Sources. IEEE Transactions on Instrumentation and Measurement, 44(3):733–738, 1995. [IKN98] L. Itti, C. Koch und E. Niebur: A Model of Saliency-Based Visual Attention for Rapid Scene Analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):1254– 1259, 1998. [Jef48] L. A. Jeffress: A Place Theory of Sound Localization. Journal of Comparative & Physiological Psychology, 41:35–39, 1948. [Jeh05] T. Jehan: Creating Music by Listening. Doktorarbeit, MIT, 2005. [KAK06] Y.-I. Kim, S. An und R. Kil: Zero-Crossing Based Binaural Mask Estimation for Missing Data Speech Recognition. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 5, Toulouse, France, 2006. [Kat91] J. Kates: A time-domain digital cochlear model. IEEE Transactions on Signal Processing, 39(12):2573–2592, 1991. [KPTN08] M. Kuhne, D. Pullella, R. Togneri und S. Nordholm: Towards the Use of Full Covariance Models for Missing Data Speaker Recognition. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Seiten 4537–4540, Las Vegas, Nevada, USA, 2008. [KR09] D. Khaykin und B. Rafaely: Coherent Signals Direction-ofArrival Estimation using a Spherical Microphone Array: Frequency Smoothing Approach. In: IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, Seiten 221–224, 2009. [Kut00] H. Kuttruff: Room Acoustics. Taylor & Francis, 4 Auflage, 2000. literaturverzeichnis 95 [Lat06] G. Lathoud: Spatio-temporal Analysis of Spontaneous Speech with Microphone Arrays. Doktorarbeit, Ecole Polytechnique Féderale de Lausanne, 2006. [LDC] The LDC Corpus Catalog – Linguistic Data Consortium, University of Pennsylvania. http://www.ldc.upenn.edu/. [Leh06] E. Lehmann: Particle Filtering Approach to Adaptive TimeDelay Estimation. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 4, Toulouse, France, 2006. [Lin86a] W. Lindemann: Extension of a Binaural Cross-correlation Model by Contralateral Inhibition. I. Simulation of Lateralization for Stationary Signals. Journal of the Acoustical Society of America, 80:1608–1622, 1986. [Lin86b] W. Lindemann: Extension of a Binaural Cross-correlation Model by Contralateral Inhibition. II. The Law of the First Wavefront. Journal of the Acoustical Society of America, 80:1623–1630, 1986. [Lin98] B. Lincoln: An Experimental High Fidelity Perceptual Audio Coder. Technischer Bericht, University Stanford, CCRMA, 1998. [LK00] A. M. Law und D. W. Kelton: Simulation Modelling and Analysis. McGraw-Hill, April 2000. [LO07] G. Lathoud und J.-M. Odobez: Short-Term Spatio-Temporal Clustering Applied to Multiple Moving Speakers. IEEE Transactions on Audio, Speech, and Language Processing, 2007. [LOGP05] G. Lathoud, J.-M. Odobez und D. Gatica-Perez: AV16.3: An Audio-Visual Corpus for Speaker Localization and Tracking. In: Proceedigns of the International Workshop ; LNCS, Band 3361, Seiten 182–195, Martigny, Switzerland, 2005. [LPGR+ 09] J. Liu, D. Perez-Gonzalez, A. Rees, H. Erwin und S. Wermter: Multiple Sound Source Localisation in Reverberant Environments Inspired by the Auditory Midbrain. In: C. Alippi, M. Polycarpou, C. Panayiotou und G. Ellinas (Herausgeber): Artificial Neural Networks – ICANN 2009; 19th International Conference on Artificial Neural Networks; Limassol, Cyprus, September 14-17, 2009, Band 5769 der Reihe Lecture Notes in Computer Science, Seiten 208–217. Springer, 2009. 96 [Lyo83] R. Lyon: A computational model of binaural localization and separation. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 8, Seiten 1148–1151, Boston, Massachusetts, USA, 1983. [LYWJ10] Y. Liu, Z. Yang, X. Wang und L. Jiang: Location, Localization, and Localizability. Journal of Computer Science and Technology, 25(2):274–297, March 2010. [Mar95a] K. D. Martin: Estimating Azimuth and Elevation from Interaural Differences. In: IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics, Seiten 96–99, Oct 1995. literaturverzeichnis [Mar95b] R. Martin: Freisprecheinrichtungen mit mehrkanaliger Echokompensation und Störgeräuschunterdrückung. Doktorarbeit, RWTH Aachen, 1995. [MF00] Z. Michalewicz und D. B. Fogel: How to Solve It: Modern Heuristics. Springer, 2000. [MHA08] R. Martin, U. Heute und C. Antweiler: Advances in Digital Speech Transmission. Wiley, 1 Auflage, 2008. [MM03] D. Moore und I. McCowan: Microphone Array Speech Recognition: Experiments on Overlapping Speech in Meetings. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 5, Seite 497, 2003. [MM08] N. Madhu und R. Martin: A Scalable Framework for Multiple Speaker Localization and Tracking. In: 11th International Workshop on Acoustic Echo and Noise Control, Seattle, Washington USA, September 2008. [MS01] I. A. McCowan und S. Sridharan: Multi-Channel SubBand Speech Recognition. EURASIP Journal on Applied Signal Processing, 2001(1):45–52, 2001. [MVSB06] W.-K. Ma, B.-N. Vo, S. S. Singh und A. Baddeley: Tracking an unknown time-varying Number of Speakers using TDOA Measurements: A Random Finite Set Approach. IEEE Transactions on Signal Processing, 54:3291–3304, 2006. [Mø77] A. R. Møllner: Frequency Selectivity of Single AuditoryNerve Fibers in Response to Broad-Band Noise Stimuli. Journal of the Acoustical Society of America, 62(1):135–142, 1977. [NNM+ 06] K. Nakadai, H. Nakajima, M. Murase, S. Kaijiri, K. Yamada, T. Nakamura, Y. Hasegawa, H. Okuno und H. Tsujino: Robust Tracking of Multiple Sound Sources by Spatial Integration of Room and Robot Microphone Arrays. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 4, Seiten Iv–Iv, 2006. [OS09] N. Ohwada und K. Suyama: Multiple Sound Sources Tracking Method based on Subspace Tracking. In: IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, Seiten 217–220, 2009. [PBB06] K. Palomäki, G. Brown und J. Barker: Recognition of Reverberant Speech using Full Cepstral Features and Spectral Missing Data. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 1, Toulouse, France, 2006. [PBO00] H. Purwins, B. Blankertz und K. Obermayer: Computing Auditory Perception. Organised Sound, 5(3):159–171, 2000. [PBW04] K. J. Palomäki, G. J. Brown und D. Wang: A Binaural Processor for Missing Data Speech Recognition in the Presence of Noise and Small-Room Reverberation. Speech Communication, 43(4):361–378, 2004. [PH01] D. W. R. Paulus und J. Hornegger: Applied Pattern Recognition – A practical Introduction to Image and Speech Processing in C++. Vieweg, 2001. literaturverzeichnis 97 [PK06] J. Peterson und C. Kyriakakis: Analysis of Source Localization in Reverberant Environments. In: IEEE Workshop on Sensor Array and Multichannel Processing, Seiten 672–676, Waltham, Massachusetts, USA, 2006. [PKCF08] T. Plötz, C. Kleine-Cosack und G. A. Fink: Towards Human Centered Ambient Intelligence. In: E. Aarts, J. L. Crowley, B. de Ruyter, H. Gerhäuser, A. Pflaum, J. Schmidt und R. Wichert (Herausgeber): European Conference on Ambient Intelligence, Band 5355 der Reihe Lecture Notes in Computer Science, Seiten 26–43. Springer, 2008. [PKV08] P. Pertilä, T. Korhonen und A. Visa: Measurement Combination for Acoustic Source Localization in a Room Environment. EURASIP Journal on Audio, Speech, and Music Processing, 2008:1–14, 2008. [Plö07] T. Plötz: The FINCA: A Flexible, Intelligent eNvironment with Computational Augmentation. http://finca.irf.de, 2007. [PM96] J. Prokakis und D. Manolakis: Digital Signal Processing: Principles, Algorithms and Applications. Prentice Hall, 3 Auflage, 1996. [PNSHR88] R. Patterson, I. Nimmo-Smith, J. Holdsworth und P. Rice: An Efficient Auditory Filterbank based on the Gammatone Functions. Technischer Bericht APU Report 2341, MRC, Applied Psychology Unit, Cambridge U.K, 1988. [Pol88] G. Polya: How to Solve It. Princeton University Press, 1988. [PS06] H.-M. Park und R. Stern: Spatial Separation of Speech Signals using Continuously-Variable Masks Estimated from Comparisons of Zero Crossings. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 4, Toulouse, France, 2006. [PZSR+ 07] M. Pecka, T. P. Zahn, B. Saunier-Rebori, I. Siveke, F. Felmy, L. Wiegrebe, A. Klug, G. Pollak und B. Grothe: Inhibiting the Inhibition: A Neuronal Network for Sound Localization in Reverberant Environments. Journal of Neuroscience, 27:1782–1790, 2007. 98 [RLB+ 08] J. Ruesch, M. Lopes, A. Bernardino, J. Hornstein, J. Santos-Victor und R. Pfeifer: Multimodal SaliencyBased Bottom-Up Attention – A Framework for the Humanoid Robot iCub. In: IEEE International Conference on Robotics and Automation, Pasadena, California, Seiten 962–967, 2008. [RS78] L. R. Rabiner und R. W. Schafer: Digital Processing of Speech Signals. Prentice-Hall, 1978. [RSS04] B. Raj, M. L. Seltzer und R. M. Stern: Reconstruction of Missing Features for Robust Speech Recognition. Speech Communication, 43(4):275–296, 2004. [RW03] N. Roman und D. Wang: Binaural Tracking of Multiple Moving Sources. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 5, Seite 149, 2003. literaturverzeichnis [RW08] N. Roman und D. Wang: Binaural Tracking of Multiple Moving Sources. IEEE Transactions on Audio, Speech, and Language Processing, 16(4):728–739, 2008. [RWB03] N. Roman, D. Wang und G. Brown: Speech Segregation based on Sound Localization. Journal of the Acoustical Society of America, 114:2236–2252, 2003. [Sco05] S. K. Scott: Auditory processing – speech, space and auditory objects. Current Opinion in Neurobiology, 15(2):197–201, 2005. [SGK+ 08] R. Stern, E. Gouvea, C. Kim, K. Kumar und H.-M. Park: Binaural and Multiple-Microphone Signal Processing Motivated by Auditory Perception. In: Joint Workshop on HandsFree Speech Communication and Microphone Arrays, Seiten 98–103, Trento, Italy, 2008. [SGT07] R. M. Stern, E. B. Gouvea und G. Thattai: ”polyaural” array processing for automatic speech recognition in degraded environments. In: INTERSPEECH Proceedings, Seiten 926– 929, 2007. [Sha85] S. A. Shamma: Speech Processing in the Auditory System I: The Representation of Speech Sounds in the Responses of the Auditory Nerve. Journal of the Acoustical Society of America, 78(5):1612–1621, 1985. [Sla93] M. Slaney: An efficient implementation of the PattersonHoldsworth auditory filter bank. Technischer Bericht 35, Apple Computer, Inc., 1993. [Smi99] S. W. Smith: The Scientists and Engineer’s Guide to Digital Signal Processing. California Technical Publishing, 2 Auflage, 1999. [SN09] A. Saxena und A. Y. Ng.: Learning Sound Location from a Single Microphone. In: International Conference on Robotics and Automation, Kobe, Japan, 2009. [SSJW06] S. Srinivasan, Y. Shao, Z. Jin und D. Wang: A Computational Auditory Scene Analysis System for Robust Speech Recognition. In: Interspeech, Seiten 73–76, Pittsburgh, Pennsylvania, USA, 2006. [ST95] E. G. Schukat-Talamazzini: Automatische Spracherkennung. Vieweg, Wiesbaden, 1995. [SW06] Y. Shao und D. Wang: Model-based sequential organization in cochannel speech. IEEE Transactions on Audio, Speech, and Language Processing, 14(1):289–298, 2006. [SW07] S. Srinivasan und D. Wang: Transforming Binary Uncertainties for Robust Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing, 15(7):2130–2140, 2007. [Täg98] W. Täger: Near Field Superdirectivity (NFSD). In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 4, Seiten 2045–2048, Seattle, WA, USA, 1998. literaturverzeichnis 99 [Ter79] E. Terhardt: Calculating Virtual Pitch. Hearing Research, 1:155–182, 1979. [TG80] A. Treisman und G. Gelade: A Feature–Integration Theory of Attention. Cognitive Psychology, 12:97–136, 1980. [Tra90] H. Traunmüller: Analytical expressions for the tonotopic sensory scale. Journal of the Acoustical Society of America, 88:97–100, 1990. [UA99] M. Unoki und M. Akagi: A Method of Signal Extraction from Noisy Signal based on Auditory Scene Analysis. Speech Communication, 27(3):261–279, 1999. [VLAO05] K. Voutsas, G. Langner, J. Adamy und M. Ochse: A Brain-like Neural Network for Periodicity Analysis. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 35(1):12–22, 2005. [WB06] D. Wang und G. J. Brown (Herausgeber): Computational Auditory Scene Analysis: Principles, Algorithms, and Applications. IEEE Press/Wiley Interscience, 2006. [WEA+ 06] V. Willert, J. Eggert, J. Adamy, R. Stahl und E. Korner: A Probabilistic Model for Binaural Sound Localization. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 36(5):982–994, 2006. 100 [WW83] A. Weiss und E. Weinstein: Fundamental Limitations in Passive Time Delay Estimation – Part I: Narrow-Band Systems. IEEE Transactions on Acoustics, Speech and Signal Processing, 31(2):472–486, 1983. [WW84] E. Weinstein und A. Weiss: Fundamental Limitations in Passive Time-Delay Estimation – Part II: Wide-Band Systems. IEEE Transactions on Acoustics, Speech and Signal Processing, 32(5):1064–1078, 1984. [ZFZ08] C. Zhang, D. Florencio und Z. Zhang: Why does PHAT work well in Lownoise, Reverberative Environments? In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Seiten 2565–2568, 2008. [Zwi82] E. Zwicker: Psychoakustik. Springer, 1982. literaturverzeichnis