NEUROBIOLOGISCH INSPIRIERTE LOKALISIERUNG

Transcription

NEUROBIOLOGISCH INSPIRIERTE LOKALISIERUNG
NEUROBIOLOGISCH INSPIRIERTE
LOKALISIERUNG VON SPRECHERN
IN REALEN UMGEBUNGEN
axel plinge
korrigierte Version
November 2010
Diplomarbeit
Fakultät für Informatik
in Zusammenarbeit mit dem
Institut für Roboterforschung
Technische Universität Dortmund
Axel Plinge
Neurobiologisch inspirierte Lokalisierung von
Sprechern in realen Umgebungen
Diplomarbeit
korrigierte Version vom November 2010
gutachter:
Dipl.-Inf. Marius Hennecke
Prof. Dr.-Ing. Gernot A. Fink
Kurzbeschreibung
Die robuste Lokalisierung von Sprechern in realen Umgebungen ist eine Aufgabe für viele Anwendungen in modernen, „intelligenten Umgebungen“. Ein typisches Szenario ist ein Gruppengespräch in einem
Konferenzraum, in welchem die Signale durch Hall gestört sind. Hierfür wurde ein Verfahren entwickelt, das mit der pragmatischen Kombination von Wissen aus technischer und biologischer Forschung Sprecher lokalisiert. Mit der Integration von Modellen der Neurobiologie
und Kognitionspsychologie wird das natürliche Vorbild in Form von
aktuellen Forschungsergebnissen zur menschlichen Verarbeitung von
Sprache verwendet. Gleichzeitig werden durch Verwendung eines Mikrophonarrays technische Vorteile genutzt. Zur Evaluierung werden
neben Simulationen insbesondere auch Daten aus realen Aufnahmen
verwendet. Das Ergebnis der Arbeit ist zum einen ein echtzeitfähiges
Lokalisierungsverfahren mit sehr robusten Merkmalen für reale Anwendungen; zum anderen ist der innovative Brückenschlag zwischen
den verschiedenen Disziplinen eine Basis für weitere interessante Forschungsvorhaben.
Abstract
The robust localization of speakers is an important task in many modern intelligent surroundings. A prominent scenario is a discussion in
a conference room. Here, reverberation distorts all acoustic measurements. For such environments a system was developed, which localizes speakers in real time by pragmatic combination of results from
technical, psychological and biological research. By integrating neurobiological models and theories of cognitive psychology, recent results
in our understanding of human hearing are used. Technical advantages are gained by use of a microphone array for signal input. The
system was refined and tested in simulated and real environments.
The result of this work is not only in a robust, real-time-capable localization solution, but also an innovative bridge between interdisciplinary fields that manifests a basis for many interesting directions of
research.
INHALTSVERZEICHNIS
1 Einleitung
1
1.1 Vorhaben 2
1.2 Struktur der Arbeit
3
2 Hintergrund
5
2.1 Sprachproduktion 6
2.1.1 Phone in flüssiger Sprache 6
2.1.2 Artikulation 7
2.1.3 Source-Filter-Modell 7
2.1.4 Lautklassen 8
2.2 Schallausbreitung, Raumakustik und Aufnahme 9
2.2.1 Schallausbreitung 9
2.2.2 Hall 10
2.2.3 Mehrere Sensoren 11
2.3 Menschliches Hören 14
2.3.1 Kopfbezogene Übertragungsfunktion 14
2.3.2 Reizaufnahme 15
2.3.3 Neurale Kodierung 16
2.3.4 Frühe neuronale Verarbeitung 19
2.3.5 Höherstufige Neuronale Sprach-Verarbeitung 20
2.3.6 Abstraktion und Aufmerksamkeit 21
2.4 Auditorische Szenenanalyse 22
2.4.1 Szenenanalyse 22
2.4.2 Gruppierung und Segregation 23
2.4.3 Verarbeitungsmodell für Sprache 24
3 Stand der Technik 29
3.1 Technische Lokalisierung 29
3.1.1 Indirekte Lokalisierung 29
3.1.2 Korrelationsbasierte Lokalisierung 30
3.1.3 Kombination mehrerer Mikrophonpaare 31
3.2 Lokalisierung mehrerer Quellen 32
3.2.1 Eigenwertverfahren 32
3.2.2 Gauß’sche Mischverteilung und Kurzzeitcluster 34
3.3 Modelle binauralen Hörens 35
3.3.1 Gammaton-Filterbank 35
3.3.2 Neuronale Kodierung 37
3.3.3 Korrelation 37
3.4 Bilogistische Lokalisierung 39
3.4.1 Kunstkopf 39
3.4.2 Salienz und humanoide Roboterohren 40
3.4.3 Sprecherverfolgung 41
3.5 Spracherkennung 42
3.5.1 Merkmale für robuste Spracherkennung 43
3.5.2 Einkanalige Sprechertrennung 44
3.5.3 Nulldurchgangsbasierte Trennung 44
3.5.4 Korrelationsbasierte Trennung 46
4 Neuro-Fuzzy-Lokalisierung 47
4.1 Verarbeitungsstruktur 47
iii
4.2
4.3
4.4
4.5
4.6
4.7
Signalaufnahme 48
4.2.1 Mikrophonarray 48
4.2.2 Platzierung 49
Cochlea-Modell 49
4.3.1 Filterbank 50
4.3.2 Impulserzeugung 51
Modell neuronaler Korrelation 53
4.4.1 Aliasing 53
4.4.2 Impulskorrelation 54
Rückprojektion und Kombination 54
4.5.1 Rückprojektion 54
4.5.2 Kombination 56
Lokalisierung von Sprechern 58
4.6.1 Zeitliche Mittelung 58
4.6.2 Zusammenfassen der Frequenzbänder 58
4.6.3 Peaklokalisierung 60
Zusammenfassung 61
5 Evaluierung 63
5.1 Daten 63
5.1.1 Simulierter Konferenzraum 63
5.1.2 AV16.3-Korpus 64
5.1.3 FINCA 64
5.2 Systemkomponenten 65
5.2.1 Impulserzeugung und Korrelation 65
5.2.2 Rückprojektion und Kombination 66
5.2.3 Kombinationsverfahren 68
5.3 Lokalisierung je Zeitfenster 68
5.3.1 Impulserzeugung 71
5.3.2 Hamacher-t-Normen 72
5.3.3 Modulationsdetektion 73
5.4 Integration über die Zeit 73
5.4.1 Sprach- und Hallmodell 74
5.4.2 Lokalisierung gleichzeitiger Sprecher 75
5.5 Anwendung in realen Konferenzraumszenarien 76
5.5.1 AV16.3-Sequenz 1: Einzelner Sprecher 77
5.5.2 FINCA-Sequenz 1: Einzelner Sprecher 78
5.5.3 FINCA-Sequenz 2: Diskussion am Tisch 80
5.5.4 FINCA-Sequenz 3: Gleichzeitige Sprecher im Raum 80
6 Fazit 83
6.1 Zusammenfassung 83
6.2 Bewertung 84
6.3 Einsatzgebiete und Weiterentwicklungen 84
a Implementierung 87
a.1 Laufzeitoptimierung 87
a.2 Werkzeuge 88
verzeichnisse 91
Abbildungsverzeichnis 91
Tabellenverzeichnis 92
Algorithmenverzeichnis 92
Literaturverzeichnis 92
iv
inhaltsverzeichnis
AKRONYME
ASA
Auditory Scene Analysis
CASA
Computational ASA
CGM
Corpus Geniculatum Medium, mittlerer Kniehöcker
CN
Cochlea Nucleus
CRLB
Cramer-Rao Lower Bound
EM
Expectation Maximization
ERB
Equal Resonance Bandwidth
FFT
Fast Fourier Transform
FFTW
Fastest Fourier Transform in the West, „somewhat whimsical title“ einer FFT Bibliothek
FIR
Finite Impulse Response, ein Filtertyp
FINCA
a Flexible, Intelligent eNvironment with Computational
Augmentation
GCC
GNU
1) GNU Compiler Collection
2) Generalized Cross Correlation
GNU is Not Unix
HMM
Hidden Markov Model
HRTF
Head Related Transfer Function
IC
Inferior Coculli
IID
Interaural Intensity Difference
IIR
Infinite Impulse Response, ein Filtertyp
IRF
Institut für Roboterforschung
ISM
Image-Source Model, Reflexionsmodell für Hall
ISD
Interaural Spectral Difference
ITD
Interaural Time Difference
LSO
Lateral Superior Olive, seitlicher Teil des SOC
MFCC
Mel Frequency Cepstral Coefficients
MSO
Medial Superior Olive, mittlerer Teil des SOC
NCCF
Normalized Cross Correlation Function
OpenMP
Open MultiProcessing. Ein Standard zur Nutzung von
Multicore CPUs
PHAT
Phase Transform
PoA
Peak over Average
PoAP
Peak over Average Position
RIR
Room Impulse Response
RMS
Root Mean Square
SLF
Spatial Likelihood Function
SOC
Superior Oliveary Complex, oberer Olive
SRP
Steered Response Power
TDOA
Time Delay Of Arrival
WER
Word Error Rate
akronyme
v
NOTATION
r
ein Skalar
a
ein Vektor ( x0 , . . . xn−1 ) T
A
eine Matrix
x (t)
eine kontinuierliche Funktion
x [t]
ein diskretes Signal
X[ f ]
xn
ein Folgenwert
ı
die imaginäre Einheit
k·k
Euklidischer Abstand
(·)∗
komplexe Konjugation
(·)T
Transposition
(·)H
Hermitische Transponsition, die Transponierte des
komplex-konjugierten Vektors
E {·}
Erwartungswert
N (µ, σ)
a[t] ⊗ b[t]
Normalverteilung mit Mittelwert µ und Standardabweichung σ
diskrete Faltung
F {·}, F −1 {·}
Fourier-Transformierte und ihre Inverse
x (t) ◦−• X (ω )
Korrespondenz, x im Zeitbereich entspricht X im
Frequenzbereich
X (ω ) •−◦ x (t)
Korrespondenz, X im Frequenzbereich entspricht x
im Zeitbereich
/x/
vi
ein diskretes Spektrum
notation
SAMPA Lautschrift /s'AmpAl'AutSRIft/
1
EINLEITUNG
Die faszinierende Fähigkeit des Menschen, aus der Schwingung zweier
Trommelfelle eine reichhaltige Repräsentation der Außenwelt zu konstruieren, ist bereits seit über einem halben Jahrhundert Motor vielfältiger Forschung. Eine besonders bemerkenswerte Leistung ist das
Verstehen eines Gesprächspartners bei Umgebungslärm, Hall und weiteren gleichzeitigen Sprechern.
Die psychoakustische und kognitionspsychologische Forschung hat
die menschliche Verarbeitung von Wahrnehmungsinhalten mit einer
großen Zahl von Hörversuchen untersucht. Die Separation des Gehörten in Ströme (streams) verschiedener Quellen über die Zeit ist zentraler Bestandteil der Theorie der auditorischen Szenenanalyse (Auditory
Scene Analysis, ASA) von A. Bregmann [Bre90]. Neben der Bildung von
Merkmalen und den Regeln ihrer Verknüpfung spielt auch immer die
Interpretation der Signale sowie die Rekonstruktion fehlender Information mittels Kontext und je eines Sprach- und Sprechermodells eine
Rolle. Theorien wie das glimpsing model [Coo06] erklären das Sprachverstehen bei starken Störungen nicht per regelgeleiteter Merkmalskombination, sondern vielmehr als nachträgliche Interpretation und
Zuordnung einiger weniger klarer Sprachelemente.
Kognitionspsychologie
Der psychoakustische Aufbau des Ohres ist inzwischen gut erforscht
und in Modellen, zum Beispiel für Musikkompression in MPEG Audio, umgesetzt [Bra89]. Die neuronale Merkmalsextraktion entlang der
auditory pathways ist Gegenstand neurobiologischer Untersuchungen,
die Funktionen und das Wechselspiel der beteiligten Hirnareale sind
nur zum Teil bekannt. Insbesondere für das Hören bei Hall existiert bis
heute kein einheitliches Modell [PZSR+ 07]. Die hohe Komplexität und
Individualität des Gehirns erschwert eine analytische Untersuchung
der Mechanismen. Bei der Sprachwahrnehmung sind weitere Hirnareale beteiligt, welche unter anderem die räumliche Repräsentation,
den Inhalt und die Erzeugung von Sprache betreffen [Sco05].
Psychoakustik
In den letzten Jahren haben sich einige Implementierungen herausgebildet, welche die Fähigkeiten des menschlichen Gehirns bei der
Sprachverarbeitung unter Verwendung von neurobiologischen Modellen und Konzepten der ASA nachahmen [WB06]. Die Übertragung des
evolutionär optimierten menschlichen Hörapparates in ein Computermodell erzielt dabei mitunter beachtliche Ergebnisse. Bislang existieren jedoch sehr wenige erfolgreiche Anwendungen in realen Umgebungen mit signifikantem Hall, wie etwa einem typischen Konferenzraum. Demgegenüber existieren eine ganze Reihe technischer Lokalisierungslösungen mit Mikrophonarrays [BW01], welche trotz Störungen und Hall beachtliche Genauigkeit erzielen. Die hier angewendeten
Verfahren stammen zum Teil aus der Radartechnik und nehmen nur
selten Rücksicht auf die Natur des zu ortenden Signals. Für Einsatz in
realen Umgebungen muss hier eine Sprache-Nichtsprache-Unterscheidung ergänzt werden. In den letzten Jahren gab es erste Versuche, die
technischen und biologischen Lokalisierungsansätze in einem hybriden Verfahren zu vereinen [SGK+ 08].
1
ASA
glimpsing model
Neurobiologie
Sprache
Computermodelle
CASA
technische
Lokalisierung
hybride Verfahren
1.1
hybrides Verfahren
Hall
zirkuläres
Mikrophonarray
TDOA
Neurobiologische
Modelle
Zeit×Winkel
Lokalisierung
Evaluierung in
realen Umgebungen
vorhaben
Hier setzt auch die vorliegende Arbeit an. Für die robuste Lokalisierung von Sprechern in realen Umgebungen wird ein hybrides Verfahren mit der pragmatischen Kombination von neurobiologischen und
kognitionspsychologischen Modellen mit technischen Methoden entwickelt. Als typischer Anwendungsfall wird ein Gruppengespräch in
einem Konferenzraum ausgewählt. Hier erschwert vor allem der Hall
die Lokalisierung.
Um technische Möglichkeiten dort zu nutzen, wo sie Vorteile bringen,
wird von der menschlichen Physiologie Abstand genommen. Anstelle eines (Kunst-)Kopfes mit zwei Sensoren wird ein auf dem Tisch
positioniertes zirkuläres Mikrophonarray aus acht Mikrophonen verwendet wie in Abbildung 1 skizziert. Die Lokalisierung wird durch eine Rückprojektion der Ankunftszeitdifferenzen zwischen Mikrophonsignalen in Sprecherwinkel vorgenommen. Neurobiologische Modelle der Cochlea und der lokalisierenden Verarbeitung in den auditory
pathways werden eingesetzt und an die Verwendung von mehr als
zwei Sensoren angepasst. Dabei wird besonders auf die Berechnung
robuster Merkmale Wert gelegt und auf effiziente Berechenbarkeit geachtet. Es werden biologische wie technische Strategien zum Umgang
mit Hall untersucht. Um Sprachenergie im Zeit×Winkel-Raum zu lokalisieren, wird eine zusammenfassende Nachverarbeitung basierend
auf Sprachwahrnehmungs- und Sprachmodellen eingesetzt.
Die Entwicklung und Optimierung des Systems geschieht zum Teil mit
simulierten Szenarien mit vorgegebenen Eigenschaften. Das System
wird auch auf realen Aufnahmen aus Konferenzraum-Korpora und
mit eigenen Aufnahmen im intelligenten Konferenzraum der FINCA
[Plö07] getestet.
Abbildung 1.: Konferenzszenario: Die Sprecher an einem Konferenztisch werden durch das zirkuläre Mikrophonarray auf demselben lokalisiert.
2
einleitung
1.2
struktur der arbeit
Die Arbeit gliedert sich in sechs Kapitel. Die Einleitung führt in die
Thematik ein und skizziert die zu lösende Aufgabe. Im zweiten Kapitel wird die interdisziplinäre Basis in Form von Erkenntnissen der
(Neuro-)Biologie, Kognitionspsychologie und Physik dargestellt. Vor
diesem Hintergrund werden im dritten Kapitel existierende Modelle
und Algorithmen aus der aktuellen Forschung in der (Neuro-)Informatik dargestellt. Im vierten Kapitel werden das entworfene Verfahren
und die implementierte Verarbeitung im Detail beschrieben. Das fünfte Kapitel schildert die zur Evaluierung durchgeführten Experimente
mit ihren Ergebnissen. Im sechsten Kapitel wird eine Bewertung der
Implementierung und der damit durchgeführten Experimente abgegeben. Ein Ausblick auf mögliche weitere Arbeiten schließt diese Arbeit
ab.
1.2 struktur der arbeit
3
2
HINTERGRUND
Die in dieser Arbeit erstellte Implementierung basiert auf Wissen aus
den Bereichen Psychophysik, Neurobiologie, Kognitionspsychologie
und Akustik. Dieses Kapitel dient der Erläuterung relevanter Erkenntnisse in diesen Wissenschaften. In den folgenden Abschnitten wird das
Sprachsignal von seiner Entstehung über seine Ausbreitung im Raum
bis zur Aufnahme im menschlichen Ohr und schließlich der Interpretation des Gehörten im Gehirn verfolgt, wie in Abbildung 2 dargestellt.
Für menschliche wie maschinelle Verarbeitung sind Informationen
über die Natur des Signales wichtig und Grundlage für die Verarbeitungsstrukturen und Heuristiken [RS78, All94]. Daher werden die
Sprachproduktion und die daraus folgenden charakteristischen Eigenschaften des Sprachsignales im ersten Abschnitt (2.1) kurz erläutert.
Der physikalische Hintergrund der Schallausbreitung und Aufnahme
wird im nächsten Abschnitt (2.2) kurz dargestellt. In einem Innenraum
entsteht durch Reflexionen Hall [Kut00]. Statt sich auf zwei Ohren
zu beschränken, können bei der technischen Aufnahme von Signalen
mehrere Mikrophone verwendet und geeignet zusammengefasst werden, um die Signalqualität zu erhöhen [BW01].
Im folgenden Abschnitt (2.3) wird der aktuelle Wissensstand der Psychoakustik und Neurologie über das Hören von Sprache charakterisiert. Der Vorgang der Schallaufnahme bis zur neuronalen Kodierung
ist im wesentlichen durch den physiologischen Aufbau des Hörapparates determiniert und somit beinahe identisch für alle Menschen und
die meisten Säugetiere [GM00]. Die sensorischen Mechanismen sind
heute weitgehend erforscht und in psychoakustischen Modellen nachgebildet, welche die Grundlage für die verlustbehaftete Audiokodierung in Ogg Vorbis und MPEG Audio bilden [Bra89, Lin98]. Demgegenüber ist die kognitive Verarbeitung bei Menschen kontext- und erfahrungsabhängig. Sie ist Gegenstand aktiver Forschung; die Hirnfunktionen sind nur teilweise bekannt [GM00]. Bei der Sprachwahrnehmung
sind verschiedene Hirnareale beteiligt, deren genaues Zusammenspiel
bis heute nicht eindeutig geklärt ist [Sco05].
Aus der Black-Box Perspektive wurden seit den 50er Jahren eine ganze Reihe kongnitionspsychologischer Experimente durchgeführt. Eine umfassende Beschreibung des Hörens verfasste Handel mit dem
Buch Listening [Han89]. Zur Leistung des menschlichen Hörens zog
Bregmann in dem einflussreichen Buch Auditory Scene Analysis [Bre90]
(ASA) weitreichende Parallelen zu Theorien visueller Wahrnehmung
und Aspekten der Gestalttheorie. Diese Theorie liefert auch eine der
griffigsten Bescheibungen für die menschliche Fähigkeit, einer Person
in einem Stimmengewirr mit vielfältigen Störungen zuzuhören: den
1953 so benannten Cocktail-Party-Effekt [Che53]. Der kognitionspsychologischen Theorie der ASA wird ein eigener Abschnitt (2.4) gewidmet,
da sie vielen biologisch inspirierten Computermodellen, ebenso wie
auch der vorliegenen Arbeit, als Grundlage dient.
5
interdisziplinärer
Hintergrund
Sprechen
Raumakustik
Hören
psychoakustische
Modelle
kongnitionspsychologische
Experimente
Cocktail Party
ASA
Abbildung 2.: Sprachproduktion und -erkennung bei Menschen in Anlehnung an [RS78].
Der Sprecher (links) formuliert eine Nachricht. Diese wird im Gehirn in gesprochene Sprache in Form einer Folge von Phonemen und prosodischer Merkmale umgesetzt. Daraus wird
eine motorische Kodierung in Bewegungsanweisungen erstellt, welche die Artikulation mittels Lunge, Stimmbändern und oberem Vokaltrakt steuern (Abschnitt 2.1). Die so produzierte
Schallwelle verlässt den Mund und breitet sich im Raum aus, wo sie u.U. reflektiert wird,
bis sie den Hörer erreicht (Abschnitt 2.2). Die Bewegung der beiden Tromellfelle wird in den
Cochleas des Hörers (rechts) von mechanischer Bewegung in elektrische Impulse umgesetzt
(Abschnitt 2.3.2ff.). Die Impulse werden in Merkmale umkodiert (Abschnitt 2.3.4). Durch neuronale Mustererkennung werden Phoneme zugeordnet, der Text der Nachricht wird dekodiert
und schließlich verstanden (Abschnitt 2.3.6). Der Hörprozess wird auch durch die Theorie der
ASA beschrieben (Abschnitt 2.4).
2.1
sprachproduktion
Natürliche Sprache wird durch die Artikulation von Lauten erzeugt.
Um die Sprache zu charakterisieren, wird selbige hier kurz erläutert.
Schematisch wird die Lauterzeugung mit dem Source-Filter-Modell
beschrieben. Die wesentlichen aus der Artikulation ableitbaren Lauteigenschaften und Lautklassen beschließen diesen Abschnitt.
2.1.1
Phon 6= Phonem
Triphone
6
Phone in flüssiger Sprache
Perzeptiv unterscheidbare Sprachlaute werden als „Phone“, bedeutungsunterscheidende als „Phoneme“ bezeichnet. Die Phone lassen
sich Anhand ihrer Erzeugung in Klassen einteilen. Phone treten in natürlicher Sprache nicht isoliert auf, sondern werden vielmehr grundsätzlich durch den Kontext des vorhergehenden und folgenden Lautes beeinflusst. Dem wird in automatischen Spracherkennungs- und
Sprachsynthesesystemen damit Rechnung getragen, dass nicht einzelne Phone, sondern Triphone die modellierenden Bausteine der Sprache bilden. Ein Triphon ist ein Modell eines zentralen Lautes mit dem
Übergang zu seinem Vorgänger und Nachfolger [Fin03, ST95]. Entgegen der graphemischen Repräsentation von geschriebener Sprache, in
der jedes Graphem weitgehend isoliert erkennbar ist, erfolgt die Artikulation von Phonen kontinuierlich. Die im folgenden beschriebenen
klassentypischen Zustände des Artikulationsapparates werden in flüssiger Sprache oft nur kurzzeitig gerade solange und so deutlich ange-
hintergrund
Abbildung 3.: Röhrenmodell der Sprachproduktion [Han89, S. 140] Der Vokaltrakt wird durch eine Folge von
Röhren unterschiedlichen Durchmessers modelliert. Aufgrund dieser ergeben sich Resonanzen
und damit die spektrale Energieverteilung.
nommen, dass ein Hörer diese gerade eben identifizieren kann. Der
weitaus überwiegende Teil des Sprachsignales besteht aus Übergängen, die ihrerseits aus muskulären Übergängen des Artikulationsapparates resultieren.
2.1.2
Artikulation
Die Produktion eines Sprachlautes durch den Menschen lässt sich in
vier Schritte gliedern: Erstens das Ausströmen eines Luftstroms aus
den Lungen, zweitens die Modulation desselben durch die Stimmbänder und Verwirbelungen, drittens die Artikulation durch eine bestimmte Konfiguration des Mund- und Nasenraumes und schließlich die Abstrahlung des Schalles an den Lippen [Han89, S. 135ff.].
Zur Artikulation eines Sprachlautes oder Phons wird Luft aus der Lunge gepresst. Werden die Stimmbänder in Schwingungen versetzt, so
bewirkt das Öffnen und Schließen eine regelmäßige Modulation des
Luftstromes und somit des erzeugten Druckes. Das modulierende Organ aus den Stimmbändern und dem Raum dazwischen wird als Glottis bezeichnet. Die Wiederholzeit T0 zwischen zwei Verschlüssen der
Glottis nennt man Stimmtonhöhe, engl. pitch. Die Luft durchströmt
dann Mund- und Nasenraum und verlässt dann den Mund an den Lippen. Je nach Stellung der Zunge, des Kiefers und der Lippen werden
verschiedene Resonanzen erzeugt, welche die Klangfarbe des erzeugten Lautes ändern. Die Gesamtheit von Glottis, Rachen, Mund und
Nasenraum bis zu den Lippen bezeichnet man bei Säugetieren als den
Vokaltrakt.
2.1.3
Vokaltrakt
Source-Filter-Modell
Der Artikulationsprozess kann durch ein Source-Filter-Modell beschrieben werden. Dabei wird das Signal aus der Glottis als Quellsignal und der obere Teil des Vokaltraktes als Filter betrachtet. Das Filter
wird wie in Abbildung 3 dargestellt als Folge von Röhren wechselnden
Durchmessers modelliert; daher wird auch der Name Röhrenmodell
verwendet. Das Anregungssignal kann man hier als additive Kombination einer stimmhaften oder tonalen Komponente v und stimmlosen oder Rauschkomponenten n formulieren. Das vom Röhrensystem
t gefilterte Signal ergibt sich so mit einem diskreten Zeitindex i als
x [i ] = (v[i ] + n[i ]) ⊗ t[i ].
Röhrenmodell
(2.1)
2.1 sprachproduktion
7
Die Faltung geht dabei nach einer z-Transformation in eine Multiplikation über:
X [z] = (V [z] + N [z]) T [z].
Sprachkodierung
Sprachsynthese
Dieses Modell bildet auch die Grundlage für die Anwendung der linearen Vorhersage (LPC) bei der Sprachkodierung [GM00, S. 280-291]. Diese findet in verschiedenen Algorithmen zur verlustbehafteten Sprachkompression Anwendung, die etwa bei Voice-over-IP-Telefonie oder
GSM-Mobiltelefonen verwendet werden [GM00, S. 474-489] [Ata06].
Frühe Sprachsynthesizer und Vocoder basierten ebenfalls auf dem
Source-Filter-Modell [GM00, S. 395-402, 431-449]. Heute sind diese fast
nur noch im akademischen Umfeld zu finden. Maschinelle Sprachsynthese wird heute nahezu ausschließlich durch das Aneinanderreihen
einzelner, kurzer Sprachsegmente aus der Aufnahme eines realen Sprechers realisiert. Dabei werden Segmente vom Umfang weniger Pitchperioden mit Verfahren der Zeitdehnung und -stauchung sowie Überblendung nach abgespeicherten prosodischen Regeln zu einem Sprachsignal mit kontinuierlichem Pitchverlauf kombiniert [GM00, S. 403405]. So ist qualitativ hochwertige Sprachsynthese mit vergleichsweise geringem Rechenaufwand und güstiger Hardware z.B. in AutoNavigationssystemen realisierbar.
2.1.4
Vokale
Formanten
Nasale
Frikative
stimmhafte
Frikative
Plosive
8
(2.2)
Lautklassen
Die Phonetik unterteilt Sprachlaute anhand ihrer Erzeugung in Klassen [Han89, S. 141ff.]. Stimmhafte Laute, die wesentlich durch regelmäßige, stimmhafte Anregung erzeugt werden, sind vor allem die Vokale und Nasale. Die Vokale /a/, . . . , /i/ unterscheiden sich primär
durch die Resonanzen im Vokaltrakt, welche sich durch unterschiedliche Stellungen der Zunge ergeben. Die stark ausgeprägten spektralen
Energiemaxima werden als Formanten bezeichnet. Wesentlich für die
Lautunterscheidung sind hier insbesondere die stärksten beiden Formanten, welche im Bereich von 0.2 − 0.8 kHz und 0.4 − 3.2 kHz liegen.
Sie werden oft auch kurz mit F1 und F2 bezeichnet. Diese führen unabhängig von der Anregung zu einer klaren Einteilung in Lautklassen.
Bei einem gehauchten oder geflüsterten Vokal wird der Vokaltrakt bei
identischer Stellung durch einen unmodulierten Luftstrom angeregt.
Bei den Nasalen /m/, /n/ wird der Nasenraum zur Abstrahlung benutzt, was zu einem breiten niedrigen spektralen Energiemaximum,
dem sogenannten nasal bar führt.
Laute, deren Charakter wesentlich durch eine Rauschkomponente bestimmt wird, die durch Reibung im Mundraum erzeugt wird, bezeichnet man als Frikative (Reibelaute). Wichtige stimmlose Frikative in der
deutschen Sprache sind etwa /s/ wie in Sieb, /f/ wie in Fisch oder
/S/ wie in Schall. Werden zusätzlich die Stimmbänder eingesetzt so
werden stimmhafte Frikative wie /z/ wie in Sonne oder /w/ wie in
Wasser erzeugt. Das stimmhafte wie auch das stimmlose s (/z/, /s/)
nehmen unter den Lauten eine Sonderrolle ein, da diese mit einem
spektralen Schwerpunkt von 5 − 7 kHz als einzige Laute neben dem
/t/ wesentliche Merkmalsenergien jenseits von 4 kHz aufweisen.
Die stimmlosen und stimmhaften Plosive (Verschlusslaute) /t/, /p/
und /k/ sowie /b/, /d/ und /g/ bilden eine weitere Klasse. Diese sind
durch eine 10 − 100 ms lange Verschlusspause (closure) gekennzeichnet,
hintergrund
auf welche ein explosiver Luftauslass (burst) folgt [Hel93]. Plosive werden nicht ohne den Kontext eines zweiten Lautes artikuliert, bei der
Koartikulation mit einem vokalischen Laut kommt es zu typischen,
merkmalstragenden Formantübergängen (formant transitions). Die Plosive werden in indoeuropäischen Sprachen für die Segmentierung des
Sprachstromes durch den Hörer verwendet. Die fehlerfreie Unterscheidung zwischen einzelnen Plosiven gelingt auch menschlichen Hörern
nur unter optimalen Bedingungen oder durch den Satzkontext [GM00,
S. 228-235].
2.2
schallausbreitung, raumakustik und aufnahme
Der Schall, also auch das Sprachsignal eines menschlichen Sprechers,
wird als kugelförmige Druckwelle abgestrahlt. Die Druckveränderungen können von einem Sensor wie etwa einem Mikrophon oder einem
menschlichen Ohr an der Position mn aufgenommen werden. Im Folgenden werden kurz die physikalischen Eigenschaften der Schallausbreitung, des Halls und der Eigenschaften der Messung mit mehreren
Sensoren beschrieben.
2.2.1
Schallausbreitung
Schall breitet sich kugelförmig von seiner Quelle q aus. Nach der thermischen Zustandsgleichung ist die Geschwindigkeit
c=
r
κ
√
RK
≈ 402 · K,
M
(2.3)
abhängig von der Temperatur K in Kelvin. Dabei bezeichnet κ den
Adiabatenexponenten, R die Gaskonstante und M die molare Masse
von Luft [Boh88]. Die Zeit
T (q, mn ) =
kq − mn k
,
c
(2.4)
welche der Schall von der Quelle an Position q zu einem Sensor mn
benötigt, ist linear vom Abstand der beiden abhängig. Die Amplitude
A(q, mn ) =
A0
kq − mn k
(2.5)
der Schallwelle nimmt reziprok linear mit der Entfernung ab, dabei ist
A0 die Amplitude an der Quelle [Täg98]. Die Überlagerung mehrerer
Schallquellen erfolgt dabei linear in der Amplitude, so dass sich diese
in der Betrachtung addieren lassen. Insgesamt ergibt sich das Signal
yn (t) =
∑ A(qi , mn ) xi (t − T (qi , mn ))
Linearkombination
(2.6)
qi
am Sensor mn als Summe der Signale xi (t) von Positionen qi .
2.2 schallausbreitung, raumakustik und aufnahme
9
Abbildung 4.: Schallausbreitung im Raum: Von der Quelle qi kugelförmig abgestrahlte Druckwellen treffen
auf direktem Wege bei den Sensoren m n und m n ein. Dazu kommen vielfältige Wege über die
Reflexion an den Wänden.
2.2.2
Hall
In Innenräumen kommt es durch die Reflexion der Schallwelle an
Wänden und Objekten im Raum zum verzögerten, gedämpften Eintreffen des Schalles auf indirektem Wege von der Quelle zum Empfänger – dem Hall. In Abbildung 4 sind neben dem direkten Schallweg
(durchgezogene Linien) exemplarisch indirekte Schallwege (gestrichelte Linien) zwischen Quelle und Sensoren eingezeichnet.
Raumsimulation
Raumimpulsantworten
Nimmt man zu jeder Reflexion an einer Fläche Sk einen bestimmten
Dämpfungsfaktor αk an und berechnet alle indirekten Wege als Spiegelungen an Flächen, so erhält man ein Spiegelmodell der Schallausbreitung, das source-image model [AB79]. Nach diesem werden für jedes
Quelle-Sensor-Paar (i, n) Raumimpulsantworten (room image response,
RIR) als Übertragungsfunktion angeben. Die RIRs sind hier analog zu
einem Kern eines linearen Filters mit endlicher Impulsantwort (Finite
Impulse Response, FIR). Faltet man nun das Quellsignal mit der RIR hin
des zugehörigen Paares, erhält man das Signal am Sensor. Insgesamt
ergibt sich das Signal
yn (t) =
∑ hin ⊗ xi (t) ◦−• ∑ Hin ( f )Xi ( f )
i
(2.7)
i
am Sensor mn als Summe der mit den RIRs gefalteten Signale xi (t).
Trägt man die Energie einer Raumimpulsantwort gegen die Zeit auf,
erhält man ein sogenanntes Reflektogramm (Abbildung 5). Am Anfang steht der primäre Peak des Direktschalls, gefolgt von wenigen
frühen Reflexionen (early reflections) die immer dichter werden und in
einem diffusen Hallgemisch auslaufen.
Maßzahlen
Nachhallzeit
10
Um die Stärke des Halls durch quantitative Größen auszudrücken, gibt
es verschiedene Maßzahlen. Die Gebräuchlichste ist die Nachhallzeit T,
die Zeit, welche der Schall benötigt, um auf ein Millionstel seiner Amplitude abzufallen. Wird diese anhand des Abfalls um 60 dB bestimmt,
hintergrund
Abbildung 5.: Reflektogramm mit der typischen dreigliedrigen Struktur aus Direktschall, frühen Reflexionen
und diffusem Hall-ende (tail) [Beh06]
wird die Nachhallzeit mit T60 bezeichnet. Näherungsweise kann die
Nachhallzeit T für einen Raum mit dem Volumen V nach der Eyringschen Nachhallformel
T ≈ 0.163
V
4mV − S ln(1 − α)
(2.8)
bestimmt werden [Kut00, S. 128]. Dabei wird die Absorption α über
alle Flächen Sk gemittelt:
α=
∑ k Sk α k
,
S
S=
∑ Sk
.
(2.9)
k
Als den Hallradius eines Raumes bezeichnet man die Entfernung zur
Quelle, in der direkter und reflektierter Schall die selbe Amplitude haben. Nimmt man näherungsweise an, dass der Direktschall nach Gleichung 2.5 linear abnimmt, während der Nachhall weitgehend konstant
ist, läßt sich der Hallradius als
r
V
(2.10)
r H ≈ 0.057
T
aus dem Volumen V des Raumes und der Nachhallzeit T bestimmen
[Kut00, S. 317]. Für ein konkretes Quelle-Sensor-Paar wird manchmal
auch das Verhältnis von direktem und reflektiertem Schall angegeben,
die sogenannte direct-to-reverberation-ratio, DRR [WB06, S. 206].
2.2.3
Hallradius
DRR
Mehrere Sensoren
Häufig wird ein Quellsignal q(t) an einer Quellposition q von Sensoren wie Mikrophonen oder menschlichen Trommelfellen an Positionen
mm,n aufgenommen. Die Signale ym , yn der verschiedenen Sensoren
unterscheiden sich dabei zunächst abhängig von der Distanz zur Quelle. Der Sensorabstand wirkt sich unterschiedlich für verschiedene Frequenzen aus. Er hat auch Auswirkungen auf die Kohärenz der Signale.
Quellpositionsabhängigkeit
Werden mehrere Sensoren eingesetzt, kommt es zur richtungsabhängigen Verzögerung und Amplitudenunterschieden zwischen den aufge-
2.2 schallausbreitung, raumakustik und aufnahme
11
Abbildung 6.: Mikrophonpaar im Fernfeld: Die von oben Rechts eintreffenden quasiparallelen Wellenfronten (graue Linien) treffen bei den beiden Sensoren m m und m n mit einer zum Verhältnis
der Ankathete und Hypothenuse des eingezeichneten rechwinklingen Dreiecks proportionalen Zeitverzögerung ein.
nommenen Signalen. Die Zeitverzögerung, time delay of arrival, (TDOA)
ist
TDOA (mm , mn ) =
far field assumption
kq − mn k − kq − mm k
.
c
(2.11)
Im allgemeinen entspricht einem Wert für die Zeitverzögerung ein Hyperboloid im Raum, der um den Mittelpunkt m0 = (mm + mn )/2 der
Mikrophone zentriert und zur Strecke mm mn symmetrisch ist. Für
hinreichend große Abstände zur Quelle sind die eintreffenden Wellenfronten quasi parallel [BW01, S. 167ff.]. Diese wird als Fernfeldannahme
bezeichnet, hier gilt die einfache geometrische Beziehung
kmn − mm k
TDOA (mm , mn ) ≈
cos α
c
(m0 − q )(mm − mn )
mit α = arccos
,
km0 − q kkmm − mn k
(2.12)
nach welchen der Laufzeitunterschied nur noch vom Winkel zwischen
der Quelle und den Sensoren abhängt, dabei ist α der Winkel zur Strecke mm mn , wie in Abbildung 6 skizziert. Der Amplitudenunterschied
entspricht dem Verhältnis der Entfernungen:
ADOA (mm , mn ) =
kq − mn k
.
kq − mm k
(2.13)
Die Amplitudendifferenz ist im Fernfeld vernachlässigbar, im Nahbereich jedoch signifikant [Täg98].
Frequenzabhängigkeit
räumliches Aliasing
Für Frequenzen, deren Wellenlänge kleiner ist als der Abstand zwischen den Sensoren, kommt es zu räumlichem Aliasing: Zwischen den
Sensoren ist Raum für mehrere Wellen, so dass die Zeit-Wellenform
nicht mehr eindeutig zuzuordnen ist. Für jeden Sensorabstand gibt es
daher eine maximale Frequenz
f < f alias =
12
hintergrund
c
,
kmn − mm k
(2.14)
Abbildung 7.: zirkuläre (links), broadside (mittig) und end-fire (rechts) Anordung von Mikrophonen
ab der räumliches Aliasing auftritt. Soll eine Richtwirkung durch Ausnutzen der Phasenlage in kohärenten Schallfeldern erzielt werden, so
ist der Abstand auch nicht wesentlich kleiner als etwa eine Viertelbis Achtel-Wellenlänge zu wählen, da sonst große Amplitudenkorrekturfaktoren nötig sind. Zu hohe Verstärkungen sind praktisch nicht
realisierbar, da sie das Eigenrauschen der Mikrophone verstärken und
das System extrem empfindlich gegenüber kleinen Abweichungen machen:
f ≥ f min =
c
.
8kmn − mm k
(2.15)
Um beide Forderungen zu beachten, werden verschachtelte Mehrbandstrukturen eingesetzt, welche Mikrophone in verschiedenen Abständen für verschiedene Frequenzbänder enthalten [MS01]. Üblicherweise werden dabei die Mikrophonabstände pro Frequenzband halbiert.
In Abbildung 7 ist ein lineares Array aus sieben Mikrophonen in drei
Oktavsubbändern in der kolinearen, sogenannten end-fire-Anordnung,
und der orthogonalen, sogenannten broadside-Anordung skizziert. Insbesondere für Lokalisierungaufgaben werden auch zirkuläre und sphärische Mikrophonarrays eingesetzt [MM03, LO07, KR09]. Hier werden
von allen Kanten gleicher Länge in der Clique der Mikrophone Subbänder aufgespannt, in Abbildung 7 links sind diese durch verschiedene
Strichmuster für ein zirkuläres Array mit acht Mikrophonen dargestellt.
Arraygeometrien
Kohärenz
Eine weitere von der Frequenz und dem Sensorabstand abhängige Größe ist die räumliche Kohärenz des Schallfeldes. Gemessen wird diese als
Betragsquadrat der Kohärenzfunktion
MSCm,n ( f ) =
|Φm,n ( f )|2
,
Φm,m ( f )Φn,n ( f )
(2.16)
die sogenannte magnitude squared coherence.
Der direkte Schallanteil ist per Definition kohärent. Wenn man eine
punktförmige Quelle q und für den Weg von der Quelle zum Sensor
jeweils ein lineares Filter Hm , Hn annimmt, folgt
(direkt)
MSCm,n ( f )
Φq Hm ( f ) Hn∗ ( f )2
|Φm,n ( f )|2
=
=
= 1,
Φm,m ( f )Φn,n ( f )
Φq | Hm ( f )|Φq | Hn ( f )|
magnitude squared
coherence
(2.17)
wobei Φq die Kohärenz des Quellsignals repräsentiert [Mar95b].
2.2 schallausbreitung, raumakustik und aufnahme
13
diffuses Rauschfeld
In Innenräumen mit signifikantem Hall ( T ≫ 0.3 s) kann der Nachhall
näherungsweise als diffuses Rauschen betrachtet werden. Für diffuses
sphärisches Rauschen und omnidirektionale Sensoren gilt die Näherung
(diff.R.)
MSCm,n
2π f kmn − mm k 2
( f ) = si
,
c
(2.18)
wobei si den nicht normierten sinus cardinalis bezeichnet. Dies bedeutet, dass die Kohärenz des Schallfeldes mit dem Produkt der Frequenz
und des Sensorabstandes abnimmt [BW01, S. 66].
Für Frequenzen oberhalb der ersten Nullstelle nimmt Gleichung 2.18
sehr kleine Werte an, so dass die Sensorsignale als unkorreliert betrachtet werden können. Damit ergibt sich eine obere Grenze von
f < fg =
c
kmn − mm k
(2.19)
für die Annahme eines kohärenten Störschallfeldes. Praktisch bedeutet
dies nun, dass in den alias-freien Subbändern auch mit kohärentem
Störschall zu rechnen ist.
2.3
menschliches hören
Es wird zunächst die binaurale Apertur beschrieben, welche die
Grundlage der Lokalisierung bildet. Dann wird der physikalische Aufbau eines Ohres betrachtet. Zusammen mit der neuronalen Kodierung
bildet dies den präfferenten Rahmen der Psychoakustik. Im Folgenden
werden wir die elektrischen Signale weiterverfolgen und zunächst die
Merkmalsbildung in den audiotory pathways beschreiben. Dann wird eine knappe Darstellung der weiteren kortikalen Verarbeitung gegeben
und schließlich die Arbeitsweise von Invarianzbildung und Abstraktionsprozessen kurz erläutert.
2.3.1 Kopfbezogene Übertragungsfunktion
IID & ITD
Pinna Notch
14
Durch Kopf und Außenohr ergibt sich abhängig von der Richtung eine frequenzabhängige Amplituden- und Laufzeitveränderung, diese
wird als head-related transfer function (HRTF) bezeichnet. Im Wesentlichen lassen sich drei Effekte zur Lokalisierung nutzen.
Durch die räumliche Entfernung der beiden Ohren ergibt sich für eintreffende Schallquellen ein winkelabhängiger Laufzeitunterschied (interaural time difference, ITD) zwischen den beiden Signalen. Die Abschattung des Schalls durch den Kopf führt ab ca. 1.2 kHz zu signifikanten Intentisitätsunterschieden (interaural intensity difference, IID)
zwischen beiden.
Neben diesen beiden Mechanismen binauraler Lokalisierung wirktnoch ein dritter, monauraler Mechanismus. Die Ohrmuschel oder „Pinna“, dient als richtungsabhängiger Schalltrichter. Für hohe Frequenzen wirkt die Pinna als Filter, welches durch Reflexion des Signales
mit zwei verschiedenen Laufzeiten typische Auslöschungsnullstellen
erzeugt. Somit ist durch das Lernen der typischen Übertragungsfunktion auch monaurale Lokalisierung möglich [Bla96, S. 63-77].
hintergrund
(a) Außen- Mittel und Innenohr
(b) Schenke (Schnitt)
(c) Frequenz-Orts-Transformation
(d) Corti’sches Organ
Abbildung 8.: Menschliches Gehör [Zwi82, S. 22-25]: Der Schall trifft im Außenohr auf, wird im Mittelohr
mechanisch verstärkt und im Innenohr von der Schnecke (Cochlea) in elektrische Impulse
im Hörnerv umgesetzt (a). Entlang der Schneckenwindungen verläuft die Basilarmembran
(b), welche eine Frequenz-Orts-Transformation vornimmt (c), auf derselben befindet sich das
Corti’sche Organ (d).
2.3.2
Reizaufnahme
Der Druck der Schallwelle wird vom Außenohr eingefangen und
durch den Gehörgang an das Trommelfell weitergeleitet. Im Mittelohr
wird der Schall über die zwei Knöchelchen „Hammer“ und „Amboss“
mechanisch verstärkt. Vom „Steigbügel“ wird der Druck auf das „ovale Fenster“ des Innenohres geleitet (Abbildung 8a). Der Frequenzgang
von Außen- und Mittelohr kann nach Terhardt mit der folgenden Formel in dB für f in kHz approximiert werden [Ter79]:
A( f ) = − 3.64 f −0.8 + 6.5 exp −0.6 ( f − 3.3)2 − 10−3 f 4 . (2.20)
Die in der Schnecke (cochlea) befindliche inkompressible gallertartige Masse, die Peri Lymphe, leitet den Druck weiter bis zurück zum
„runden Fenster“, was dem Druckausgleich dient. Entlang der Schnecke verläuft die „Basilarmembran“, welche in Schwingungen in Form
einer Wanderwelle versetzt wird. Die Steifigkeit der Membran nimmt
entlang der Schneckenwicklungen ab, was dazu führt, dass am Anfang
hohe und am Ende niedrige Frequenzen die höchste Auslenkung erzielen, wie in Abbildung 8c dargestellt. Damit findet eine Übersetzung
von Frequenzen in räumliche Positionen statt. Auf der Basilarmembran sitzt das in Abbildung 8d gezeigte Corti’sche Organ, in welchem
bei Auslenkung gereizte innere „Haarzellen“ elektrische Impulse er-
2.3 menschliches hören
Frequenz-OrtsTransformation
15
Abbildung 9.: Hörfläche zwischen Hörschwelle und Schädigungsgrenze. Isophone Linien sind gestrichelt
eingezeichnet, der Bereich der Sprachlaute in 1 m Sprecherentfernung in der Mitte.
Hörfläche
zeugen. Die Impulsketten wandern in Form von spike-trains über den
Hörnerv zum Gehirn [Han89, S. 461ff.].
Die leisesten Töne, welche von einem menschlichen Hörer wahrgenommen werden, bilden die sogenannte „Hörschwelle“ um 10 dB. Schalldrücke von 120 dB und mehr, welche zur Schädigung des Gehörs führen, bilden die obere Grenze wahrnehmbarer Schallamplituden. In Abbildung 9 ist der nutzbare Bereich dazwischen, die „Hörfläche“, aufgezeichnet.
Die Abbildung der Frequenzen auf den Ort der Basilarmembran wird
mit der Bark-Skala angegeben. Dabei entspricht ein Bark näherungsweise 1.3 mm Basilarmembranlänge. Die Frequenzverzerrung (frequency warping) kann mit folgender Näherungsformel für f in Hz berechnet
werden [Tra90]:
z[Bark] = (26.81 f / (1960 + f )) − 0.53.
isophone Linien
kritische Bänder
(2.21)
Die Lautstärkeempfindung folgt einer frequenzabhängien Übertragungsfunktion, welche sich aus der physikalischen Verstärkung und
der Empfindlichkeit der Haarzellen ergibt. In physiologischen Versuchen wurden sogenannte „isophone Linien“, im Englischen equal loudness curves, für gleichlaut empfundene Töne verschiedener Frequenzen
bestimmt [Zwi82]. Diese sind in Abbildung 9 als gestrichelte Linien
skizziert.
Die Fähigkeit, zwei reine Sinustöne als getrennt wahrzunehmen, wurde ebenfalls untersucht. Diese ist abhängig von der Frequenz der Beiden. Liegen die Töne auf der Basilarmembran näher als 1 Bark beieinander, werden sie als ein (modulierter) Ton wahrgenommen. Die zugehörigen Frequenzbereiche werden als 25 sogenannte „kritische Bänder“
bezeichnet [Zwi82].
2.3.3 Neurale Kodierung
Betrachten wir nun nicht nur die Leistungsverteilung auf der Basilarmembran, sondern auch die zeitliche Form der Wanderwelle und die
16
hintergrund
10.00
g
aI
s
-
t
h
Frequenz [kHz]
8.00
6.00
4.00
2.00
0.00
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Zeit [s]
(a) Spektrogramm
g
aI
s
-
t
h
Frequenz [Bark]
20
15
10
5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Zeit [s]
(b) auditives Spektrogramm
g aI
10.00
-
s
t
h
_
0.6
0.7
Frequenz [kHz]
6.43
4.10
2.59
1.61
0.96
0.55
0.28
0.10
0.0
0.1
0.2
0.3
0.4
0.5
Zeit [s]
(c) Cochleogramm
Abbildung 11.: Spektrogramm einer Äußerung des Wortes „Geist“ /gaIs-th/ in physikalischen Messgrößen
(oben, 1024er FFT, 512 Samples Überlappung) und Empfindungsgrößen mit Verdeckung
(mitte, 1024er FFT, Simultanverdeckung, loudnessmapping) und Cochleogramm nach dem
Standardmodell [Sla93] (unten, 129 Bänder, IIR-Gammatonfilter in ERB-Spacing nach Glasberg & Moore, Innenohrverstärkungsfunktion, Energie in 25 ms-Hammingfenster mit 5 ms
Vorschub)
18
hintergrund
Abbildung 12.: Auditive Pfade von den Cochleas über den Hörnerv durch das mittlere Hirn zum Cortex.
Aus den Signalen des Hörnervs werden entlang der Cochlea Nuklei (CN), der oberen Olive
(SOC) dem inferior coculli und dem mittleren Kniehöcker grundlegende Merkmale extrahiert,
welche dann vom Cortex weiterverarbeitet werden.
an, wobei diese von der Bandbreite b( f ) und dem Wert des Leistungsspektrums H ( f )2 abhängt. Allerdings kann auch zeitlich gesehen ein
lautes Signal Leisere verdecken. So wird ein leiser Ton im „Windschatten“ eines lauten Vorgängers bis zu 200 ms schlicht nicht wahrgenommen. Faszinierenderweise funktioniert dies sogar umgekehrt: Bei der
„Vorverdeckung“ überholen die Impulse für einen lauten Ton diejenigen für einen vorhergehenden leisen Ton und verhindern so dessen
Wahrnehmung. Es wird also ein leiser Ton auch unmittelbar (ca. 20 ms)
vor einem lauten Ton nicht wahrgenommen.
Der von der Frequenz-Orts-Transformation aufgespannte Zeit×Frequenz-Raum lässt sich in einem zweidimensionalen Diagramm darstellen, wenn man die Energie jedes Punktes durch Farben oder Graustufen kodiert. Abbildung 11a zeigt ein solches „Spektrogramm“. Die
Leistungsverteilung in psychoakustischen Messgrößen läßt sich nach
einem psychoakustischen Modell aus dem Spektrogram ableiten und
ebenfalls bildlich als „auditives Spectrogram“ darstellen wie in Abbildung 11b. Ein vergleichbares Bild ergibt sich aus aufwändigen Computermodellen der Basilarmembran und der anhängigen Lautheitssummation. Abbildung 11c zeigt ein solches, nach einfachen Regeln erstelltes „Cochleogramm“.
2.3.4
temporal masking
Spektrogramm &
Cochleogramm
Frühe neuronale Verarbeitung
Trotz vieler neurologischer Experimente ist die Funktion und der genaue Aufbau der neuronalen Verarbeitung zum Teil noch ungeklärt.
Nach dem aktuellen Stand der Forschung wird als primärer Pfad der
Hörverarbeitung zum auditiven Cortex der in Abbildung 12 skizzierte
Weg angesehen [GM00, Kap. 14] [Han89, S. 478ff.].
Vom Hörnerv gelangt das Signal in den Cochlear Nucleus (CN). Durch
neuronale „Sättigung“ werden hier zum Teil nur Signalspitzen ausgewertet und nachfolgende Hallanteile monaural unterdrückt [BvH07].
In der oberen Olive (SOC) wird die horizontale Schallrichtung durch
Intensitätsunterschied (IID) und Zeitversatz (ITD) geschätzt. Nur
durch neuronale phasengenaue Korrelation einzelner Spikes ist die
spatiale Auflösung binauraler Analysevorgänge von bis zu ca. 10-50 µs
erklärbar [SGK+ 08].
Im Colliculi (IC) wird Höheninformation aus dem Nukleus dazu kombiniert und somit eine dreidimensionale Rückprojektion vorgenom-
2.3 menschliches hören
IID & ITD
19
Abbildung 15.: Der Cocktail-Party-Effekt – der Hörer in der Mitte kann seinen gegenüberligenden Gesprächspartner verstehen obwohl er gleichzeitig das Gespräch der beiden anderen Sprecher hört.
bottom-up &
top-down Prozesse
Reduktion der Informationsmenge ist nicht rein statisch, sondern erfolgt dynamisch in Abhängigkeit von Signal, Vorwissen und Aufgabenkontext. Je nachdem, ob die Auswahl relevanter Daten von Neuronen in Richtung von „unteren“ (sensorischen) oder „oberen“ (abstrakteren) Hirnregionen bis hin zum frontalen Cortex gesteuert wird,
spricht man in der Kognitionspsychologie von bottom-up- bzw. topdown-Selbstorganisation und Aufmerksamkeitsprozessen.
2.4
auditorische szenenanalyse
Das 1990 am MIT erschienene Buch von Albert Bregman [Bre90] fasst
eine Vielzahl von aus psychoakustischen Versuchen bekannten Phänomenen in einer weitgehend geschlossenen Theorie mit Anlehnung
an die Gestalttheorie zusammen. Bregman beschreibt die faszinierende Fähigkeit der Rekonstruktion von Umweltereignissen anhand der
Hörwahrnehmung mit der folgenden Analogie: [..] your friend digs
two narrow channels from the side of a lake. Each is a few feet long and a
few inches wide and they are spaced a few feet apart. Halfway up each one,
your friend stretches a handkerchief and fastens it to the side of the channel.
As waves reach the side of the lake they travel up the channels and cause the
two handkerchiefs to go into motion. You are allowed to look only at the handkerchiefs and from their motions to answer a series of questions: How many
boats are there on the lake and where are they? Which is the most powerful
one? Which one is closer? Is the wind blowing? Has any large object been
dropped suddenly into the lake? [Bre90, S. 5-6]
2.4.1 Szenenanalyse
Die auditorische Szenenanalyse begreift Hörereignisse als komplexe
Szenen in Analogie zu visuellen Szenen. Eine Szene besteht hier aus
einem bestimmten Hintergrund (Rahmen, Kontext), in dem verschiedene Elemente (Stimmen, Objekte) als Ganzes oder als zusammenge-
22
hintergrund
sind, werden als einer Quelle zugehörig zusammengefasst. Dies geschieht auf der unteren Ebene zum Teil schon im Segmentierungsschritt. In größeren Zeitkontexten wird nach demjenigen Merkmal
gruppiert, dessen Werte den kleinsten Abstand haben. Man spricht
hier auch von competetive criteria. Werden etwa zwei Klaviertöne oder
ein Vokal mit zwei unterschiedlichen Pitchperioden mit großem zeitlichen Abstand abwechselnd dargeboten, wie in Abbildung 16a(1) skizziert, hört man eine Melodie. Ist dagegen der zeitliche Abstand sehr
klein, wie in Abbildung 16a(2) dargestellt, bilden die beiden Töne zwei
Gruppen, die zwei simultanen Ereignissen zugeordnet werden. Viele
Merkmale, besonders bei Sprache, sind nicht konstant, sondern ändern sich über die Zeit. Diese werden ebenfalls zusammen gruppiert,
solange sie als plausible Fortsetzung erscheinen wie bei der Klaviermelodie in Abbildung 16b(1). Tritt dagegen ein abrupter Wechsel auf,
wie in Abbildung 16b(2), so werden die Ereignisse nicht gruppiert und
bilden isolierte, aufeinanderfolgende Ereignisse.
Closure
Maskierung
Wenn durch Störungen Lücken in der Merkmalsfolge auftreten, so
findet das Prinzip der closure Anwendung. Wird etwa ein Glissando
durch Bursts weißen Rauschens unterbrochen wie in Abbildung 16c(1)
visualisiert, so setzt ein Hörer dies fort und hört eine durchgehende
Melodie. Gibt es dagegen keinen Hinweis auf das Fehlen von Information durch maskierendes Rauschen, zerfallen die Tonfolgen zu Einzelereignissen (Abbildung 16c(2)).
Common Fate
pitch track
Ein in der zeitlichen Folge wichtiger Mechanismus ist die Gruppierung
von Ereignissen mit gemeinsamen Gradienten. Bregman taufte dieses
Kriterium gemeinsames Schicksal, common fate (Abbildung 16d). So
sind menschliche Hörer in der Lage, zwei oder drei gleichzeitige Sprecher anhand des Verlaufs der Stimmtonhöhe, dem pitch track, auseinanderzuhalten. Dieses Prinzip überlappt sich mit dem der Fortsetzung,
so können auch Formant-Trajektorien oder Lautstärkegradienten zur
Separation gleichzeitiger Ereignisse dienen.
2.4.3
Verarbeitungsmodell für Sprache
Aus informatorischer Sicht erfolgt die ASA in den in Abbildung 17
dargestellten fünf Verarbeitungsschritten. Die binaurale Hörwahrnehmung extrahiert aus den Signalen im Hörnerv entlang der auditory pathways Merkmale entlang den Dimensionen Zeit, Frequenz und Raum.
Diese werden zunächst bei der segmentation in kleine zusammenhängende Regionen zerschnitten. Danach werden beim grouping Segmente, die wahrscheinlich aus der selben Quelle stammen, über ihre typischen Eigenschaften anhand von grouping cues gruppiert. Diese Gruppen bilden jeweils einen in der Zeit ausgedehnten stream, der ein Szenenelement repräsentiert. Neben dem primitive grouping, das automatisch und kontextfrei geschieht, werden die Informationen in schema
based intergration mittels erlernter Modelle der Sprache und ihrer Produktion in Abstimmung mit der Spracherkennung zu Strömen einer
Quelle gruppiert [Bre90, PBO00, WB06].
24
hintergrund
Abbildung 17.: Schritte der Computational Auditory Scene Analysis
Merkmalsgewinnung
Entlang der auditory pathways werden aus den Signalen im Hörnerv
wesentliche Merkmale extrahiert (siehe Abschnitt 2.3.4). Diese sind zunächst einmal die Energien im Zeit×Frequenz-Raum beider Ohren.
Die Korrelation der Phasen wie der Amplituden dient der Rückprojektion in den Raum. Über die Korrelation der Signale in einzelnen
Frequenzbändern wird eine unabhängige Pitch-Schätzung für jede Frequenzkomponente gewonnen. Die Differentation über die Zeit liefert
ein Merkmal für das Ein- und Aussetzen von Komponenten (onset und
offset). Die Korrelation der Umhüllenden der Signale in den Frequenzbändern untereinander extrahiert gemeinsame Amplitudenmodulation (common AM) sowie Trajektorien im Zeit×Frequenz-Raum (FM) wie
etwa Formant-Trajektorien [WB06, S. 83-90].
Lokalisierung
Pitch
on & offset
common AM & FM
Segmentierung
Die oben genannten Merkmale definieren zusammenhängende Segmente im Zeit×Frequenz-Raum, was der nachfolgenden Gruppierung
als Basis dient. Der Prozess geschieht dabei auf mehreren Skalenebenen und mit zeitlicher Glättung [WB06, S. 90-97].
Haben benachbarte Frequenzbereiche eine gemeinsame Amplitudenmodulation, stammen diese höchstwahrscheinlich von der selben
Quelle. So wird etwa im Falle eines menschlichen Sprechers die Amplitude durch den Druck des Luftstromes und die Größe der Mundöffnung bestimmt. Dasselbe gilt für das gemeinsame Ein- oder Aussetzen
von Komponenten. Über die Kreuz- und Autokorrelation können zusammengehörige Bereiche identifiziert werden.
Simultaneous Grouping
Für die Gruppierung gleichzeitiger Ereignisse wird nach dem Prinzip
der Nähe hauptsächlich Pitch und Lokalisierung sowie Einsetzen und
Modulation verwendet [WB06, S. 97ff.] [UA99].
Für stimmhafte Laute liefert die Autokorrelation der Signale in allen Frequenzbändern, in welche Formant-Energie fällt, eine identische
Schätzung der Stimmtonhöhe. Diese Energien werden zu einem Laut
gruppiert [Bre90, S. 559ff.].
Eine identische Raumposition führt zu einer identischen Laufzeitschätzung durch die Korrelation der Signale beider Ohren. Dies wird, insbesondere bei einsetzenden und starken Signalenergien, zur Gruppierung verwendet [Bre90, S. 590ff.].
2.4 auditorische szenenanalyse
simultaneous
grouping
pitch
25
onset
AM & FM
Das gemeinsame Einsetzen von Energie in verschiedenen Frequenzbändern liefert einen starken Hinweis auf eine gemeinsame Ursache
und wird zur Gruppierung verwendet. Allgemein wird auch gemeinsame Amplitudenmodulation als Gruppierungskriterium verwendet.
Wie bereits bei der Segmentierung dargestellt, ist diese ein Indiz für
eine Artikulationsquelle. Eine gemeinsame Frequenzverschiebung in
verschiedenen Frequenzbereichen liefert ebenfalls einen Hinweis auf
eine identische Quelle. Veränderungen des Vokaltrakts führen, etwa
zwischen Vokalen und bei Vokal-Plosiv Kombinationen, zu gleichartigen Formant-Trajektorien [Bre90, S. 573-590].
Sequential Integration
pitch track
Rhythmus
Lokalisierung
Die Artikulation von Sprache ist ein kontinuierlicher Prozess, der
zu kontinuierlichen Merkmalsverläufen führt (siehe Abschnitt 2.1.1).
Gruppierung über die Zeit geschieht aufgrund andauernder gemeinsamer Veränderung von Intensität, Pitch, Spektrum oder Raumposition
sowie über Rhythmus [WB06, S. 106ff.].
Die Lautstärke und Stimmtonhöhe wird beim Sprechen nur kontinuierlich variiert oder unterbrochen. Der Verlauf der Stimmtonhöhe bildet also in der Regel einen pitch track, der einem Sprecher zugeordnet
werden kann [Bre90, S. 537ff.]. Die langsame Veränderung der Lautstärke erzeugt den Rhythmus, neben dem Stimmtonhöhenverlauf ein
wesentliches prosodisches Merkmal.
Die Abfolge der verschiedenen Phone geschieht fließend und führt zu
kontinuierlichen Übergängen im Spektrum. Diese können der Zusammenfassung aufeinander folgender Segmente dienen.
Ebenso bildet die relative Bewegung eines Sprechers im Raum eine
Lokalisierung, welche soweit sie ungestört wahrgenommen wird, zur
Gruppierung eingesetzt werden kann.
Schema-basierte Integration
attention
figure ground
26
Das primitve grouping erfolgt bottom-up ohne Beeinflussung durch den
Kontext oder bewusste oder unbewusste Aufmerksamkeitsprozesse.
Nach Bregman findet diese in einem nachgeordneten Prozess der schema- oder modellbasierten Integration statt. Das Ergebnis des Gruppierungsprozesses wird mit Hilfe von a priori- Informationen und Modellen interpretiert. Das primitive grouping bildet eine Menge von gruppierten Ereignissen, aus denen ein bis drei mögliche Streams gebildet werden. Die Auswahl der Streams erfolgt dabei zum Teil bewusst.
Nachdem ein Objekt in der Gesamtrepräsentation der Umwelt etabliert ist, kann man sich entscheiden, diesem zuzuhören. Die endgültige Streambildung erfolgt in Abhängigkeit der gesamten Wahrnehmung [WB06, S. 115ff.] [Bre90, S. 395ff.].
Hier spielen Aufmerksamskeitprozesse eine Rolle, so kann etwa ein
Ohr ausgewählt werden, wenn sich dort das interessantere Signal befindet. Jede Form von abrupter akustischer Änderung, insbesondere
plötzliche laute Ereignisse, führen zur Fokussierung der Aufmerksamkeit. Bregman zieht hier eine Parallele zu visuellen figure ground Phänomenen, bei denen sich ein Objekt vom Hintergrund abhebt. Ebenso
kann ein stark eingeprägtes Muster wie der Klang des eigenen Namens die Aufmerksamkeit lenken.
Dabei muss die Streamzuordnung durch das grouping alleine keineswegs eindeutig möglich sein, vielmehr können bestimmte grouping cues
hintergrund
zugunsten der erfolgreichen Streambildung ignoriert werden. So können die akustischen Lokalisierungs-Cues zugunsten höherstufiger Kriterien oder visueller Empfindungen vernachlässigt werden. Ein starker
Hinweis hierfür sind Experimente, bei denen Signalkomponenten, welche unterschiedlichen Ohren dargeboten werden, zu einem Strom fusioniert werden [Bre90, S. 591ff.]. In schwierigen Hörsituationen wird
die Sprachverständlichkeit maßgeblich top-down erzeugt. Die Sprachinformation wird anhand weniger eindeutiger akustischer Ereignisse
rekonstruiert, was vom Spracherkennungsprozess gesteuert wird. Das
„glimpsing model“ wendet genau dies an, um bei starken Störungen im
Bereich von −6 dB SNR Sprache zu erkennen [Coo06].
Bei der Sprachwahrnehmung beteiligte Modelle sind ein Sprecherund ein Sprachmodell. Das Sprechermodell repräsentiert alle sprechertypischen Eigenschaften. Damit kann eine Zuordnung über mittleren
Pitch, Pitchrauhigkeit, Lautstärke und Position erfolgen. Das Sprachmodell erlaubt die Einschränkung der zu erwartenden Phone – etwa in
Analogie zum bei HMMs gebräuchlichen beam search [Fin03, S. 165ff.].
Dabei kann auch eine probabilistische Einschränkung aufgrund der
verwendeten Sprache mit ihrer Grammatik und des inhaltlichen Kontextes erfolgen.
Auswahl
glimpsing
Interaktion im Raum
Befindet sich der Sprecher im gleichen Raum, kommt ein Raummodell
hinzu, in dem die Position des Sprechers repräsentiert ist. So wird etwa die Stärke des Nachhalls zur Schätzung der Entfernung verwendet
und kann umgekehrt zur Gruppierung und Streambildung verwendet
werden [WB06, S. 219]. Die Bestimmung des Drehwinkels anhand von
ITD-Cues ist zur Trennung nicht immer hinreichend. Praktisch erfolgt
das Auswählen eines Sprechers im Raum meist multimodal und interaktiv. Der Kopf wird in Richtung des gewünschten Sprechers gedreht,
die Lokalisierung kann dann mit Integration des visuellen Systems
erfolgen, sobald dieser ins Gesichtsfeld kommt. Bei frontaler Ausrichtung sind dann beide Ohren auf den Sprecher gerichtet und es kommt
nicht zur Abschattung durch Pinna oder Kopf.
2.4 auditorische szenenanalyse
multimodale &
interaktive
Lokalisierung
27
3
STAND DER TECHNIK
In diesem Kapitel wird ein Überblick über den aktuellen Forschungsstand im Bereich der technischen Quellenlokalisierung und neurobiologisch inspirierter Audioverarbeitung gegeben. Zunächst werden Verfahren der technischen Lokalisierung von einer oder mehreren Schallquellen mit Mikrophonarrays beschrieben. Danach werden Computermodelle binauralen Hörens und ihr praktischer Einsatz dargestellt.
Schließlich wird die computergestützte Simulation verschiedener Aspekte der neuronalen Verarbeitung beschrieben. Dabei wird der Einsatz von Modellen nach der Auditory Scene Analysis (ASA) zur Lokalisierung und Verfolgung interessanter akustischer Ereignisse sowie
Quellentrennung und Spracherkennung geschildert.
3.1
technische lokalisierung
Die Lokalisierung einer oder mehrerer Quellen mit Arrays räumlich
verteilter Sensoren wird seit langem in der Radartechnik und Akustik
eingesetzt. Wichtige Prinzipien sind dabei die kohärente Überlagerung
von Signalanteilen von der Quelle und die paarweise Kreuzkorrelation
des Signales zweier Sensoren zur Bestimmung des Zeitversatzes des
Eintreffens der Schallwellen [MHA08, S. 135-170] [GB01, S. 239-260]
[BW01, S. 181-202].
3.1.1
Indirekte Lokalisierung
Nimmt man eine hallfreie Schallausbreitung an, so gilt der schon beschriebene Zusammenhang zwischen der zeitverzögerten Ankunft des
Schalles an einem Paar von Mikrophonen an den Positionen mm,n und
der Position der Quelle q. Die Ankuftszeitdifferenz (time delay of arrival,
TDOA) ist
τm,n (q ) =
(kq − mn k − kq − mm k) f s
c
(3.1)
Samples bei einer Abtastrate von f s . Im Fernfeld ohne signifikanten
Hall oder Störungen kann eine Schätzung τ̂ der Laufzeitdifferenz über
den erwarteten quadratischen Fehler erfolgen, also
n
o
τ̂ =argmin E (yn [t] − ym [t + τ ])2
(3.2)
τ
n
o
n
o
=argmin E yn [t]2 + E ym [t + τ ]2 − 2E {yn [t]ym [t + τ ]}
τ
für die Signale yn [t] und ym [t] der beiden Mikrophone. Dies ist für
stationäre Quellen gleich
τ̂ =argmax E {yn [t]ym [t + τ ]} ,
τ
(3.3)
da die Signalenergie in diesem Fall unabhängig von τ ist [MHA08,
S. 135ff.].
29
Modelliert man die Raumimpulsantworten als linearphasige FIR-Filter
(vgl. Abschnitt 2.2.2) und Störungen als additives Signal, so ist das
Signal, welches vom n-ten Mikrophon aufgenommen wird
y n [ t ] = h n [ k ] ⊗ x [ t ] + n n [ t ],
(3.4)
hierbei wird die Störung mit nn und die Raumimpulsantwort mit allen
Reflexionen zwischen der Quelle und dem Mikrophon als hn bezeichnet [MHA08, S. 137ff.].
3.1.2
Korrelationsbasierte Lokalisierung
Um den Einfluss von Hall und Störungen entgegenzuwirken, kann je
ein lineares Filter h̃n , h̃m auf das Signal zweier Mikrophone angewendet werden, um die TDOA-Schätzung zu berechnen:
τ̂ = argmax E (h̃n ⊗ yn (t))(h̃m ⊗ ym (t + τ ))
τ
= argmax Rym yn (τ ) .
(3.5)
τ
GCC
Der Ausdruck Rym yn wird als verallgemeinerte Kreuzkorrelation (generalized cross correlation, GCC) bezeichnet. Die Kreuzleistungsdichte der
Signale
Φym yn (ω ) = Ym (ω )Yn∗ (ω ) •−◦ yn [t] ⊗ ym [t] = ϕym yn (τ )
(3.6)
ist identisch mit der Fouriertransformierten der Kreuzkorrelation
ϕym yn . So kann man die GCC im Frequenzbereich als
1
Rym yn ( τ ) =
2π
PHAT
−∞
∗
H̃n (ω ) H̃m
(ω ) Φym yn (ω )ejωτ dω
{z
}
|
G (ω )
PH AT
1
(τ ) =
2π
Z∞
−∞
Φ
(ω ) jωτ
ym yn
Φy y (ω ) e dω.
(3.8)
m n
Für jede Quellposition q kann nach Gleichung 3.1 die sich ergebende
Laufzeitverzögerung berechnet werden. Durch Aufzählung der möglichen Quellpositionen ergibt sich für jede Position ein Schätzwert, der
proportional zu der Wahrscheinlichkeit ist, dass sich dort eine Quelle
befindet. Die sich ergebende „Landschaft“ aus Rückprojektionen von
Schätzwerten wird als spatial likelihood function (SLF) bezeichnet. Das
Maximum der Funktion entspricht der geschätzten Quellposition
q̂ = argmax R PH AT (τ(m,n) (q )).
q
30
(3.7)
berechnen. In den meisten Anwendungsfällen sind weder die Raumimpulsantworten noch die spektrale Verteilung von Signal- und Störkom∗ (ω ) geschätzt. Ein
ponenten bekannt. Daher wird G (ω ) := H̃n (ω ) H̃m
praktisch gut bewährter Ansatz ist die Phasentransformation (PHAT).
Hier wird angenommen, dass nur die Phase der Kreuzleistungdichte
für die Lokalisierung relevant ist [MHA08, S. 144]. Daher wird hier
eine Betragsnormalisierung vorgenommen:
R
spatial likelihood
function
Z∞
stand der technik
(3.9)
Dieses Maximum ist für zwei Mikrophone nicht eindeutig, einem diskreten TDOA-Wert entspricht ein Hyperboloid im Raum. Um die Position einzuschränken, müssen also mehr als zwei Mikrophone verrechnet werden. Dies erreicht man durch paarweise Kombination.
3.1.3
Kombination mehrerer Mikrophonpaare
Die Kombination der Schätzung mehrerer Mikrophonpaare (m, n) ∈ P
in einem Mikrophonarray kann auf verschiedene Weise erfolgen. Vielfach wird der steered response power-Ansatz (SRP-PHAT) eingesetzt
[BW01, S. 157-180]. Dabei wird ein Delay-and-Sum-Beamformer in
die Richtung gesteuert, bei der er die maximale Ausgangsenergie hat.
Geht man von einer Quellposition q aus, lässt sich diese Bedingung
als
q̂ = argmax
q
= argmax
q
1
2π
Zπ
∑
−π (m,n)∈ P
Zπ
1
2π
(m,n)∈ P
−π
|
∑
Φ
(ω ) jωτm,n (q)
ym yn
dω
Φy y (ω ) e
steered response
power
(3.10)
m n
Φ
(ω ) jωτm,n (q)
ym yn
dω
Φy y (ω ) e
m n
{z
}
R PH AT (τ(m,n) (q))
schreiben, was man auch als Erweiterung der GCC auf mehrere Mikrophonpaare ansehen kann [MHA08, S. 149ff.]. Der SRP-PHAT-Algorithmus hat sich praktisch vielfach bewährt. Das Vorgehen ist im Fall
eines Signal-Rausch-Verhältnisses von etwa 10 dB oder mehr theoretisch optimal, hier wird die Cramer-Rao Lower-Bound (CRLB), eine untere Schranke für den RMS-Fehler eines Parameterschätzers, erreicht
[WW83]. Bei Verwendung hinreichend großer Zeitfenster ist das Verfahren auch robust gegenüber Hall und anderen Störungen [ZFZ08].
Die Addition der Kreuzkorrelationsergebnisse verschiedener Mikrophonpaare führt dabei allerdings zu vielerlei Nebenmaxima (ghosts).
Eine theoretisch optimale Vermeidung von Nebenmaxima erhält man
durch multiplikative Kombination, diese schränkt die Quellposition
auf den Schnitt der jeweiligen Hyperboloiden ein. Dies ist mit der
Wahrscheinlichkeitsinterpretation der spatial likelihood function einsichtig: Entspricht ein Wert der SLF der Wahrscheinlichkeit für eine Quellposition, so ist die Gesamtwahrscheinlichkeit einer Quellposition
P(q ) = ∏ R PH AT τ(m,n) (q )
(3.11)
CRLB
Verbundwahrscheinlichkeit
(m,n)∈ P
als Produkt der Wahrscheinlichkeiten über alle Mikrophonpaare P gegeben [PKV08].
Praktisch ist die Multiplikation nicht optimal, da eine Nullkomponente eine Position vollständig ausschließt. Zu niedrige Korrelationswerte
für ein einzelnes Paar können leicht durch Fehler im Signal oder Fehler im Aufbau des Mikrophonarrays zustande kommen. Als alternative
Kombinationsvorschrift wurde von Pertilä et al. die Familie
hγ ( x, y) =
xy
=: x ⊙ y
γ + (1 − γ)( x + y − xy)
(3.12)
der Hamacher-t-Normen aus der Fuzzy Logic vorgeschlagen [PKV08].
3.1 technische lokalisierung
fuzzy t-norm
31
Abbildung 18.: Wahrscheinlichkeitskombination mit Summe, Produkt und Hamacher-t-Norm. Für alle drei
Kombinationsverfahren sind jeweils Konturlinien gleicher Wahrscheinlichkeit eingezeichnet;
aus [PKV08].
Durch iterative Anwendung von hγ ,
K
i∈ I
xi := ((( x1 ⊙ x2 ) ⊙ . . .) ⊙ xn ),
(3.13)
kann so eine robustere Schätzung der Gesamtwahrscheinlichkeit als
K
P(q ) =
R PH AT τ(m,n) (q )
(3.14)
(m,n)∈ P
bestimmt werden. Dabei kann die Kombination mit einer Hamacher-tNorm mit dem Parameter γ zwischen dem normalen Produkt γ = 1
und dem Hamacher-Produkt γ = 0 variiert werden. Auf diese Weise
ist ein Kompromiss einstellbar, der Nebenmaxima hinreichend unterdrückt und trotzdem robust gegen Ungenauigkeiten ist.
3.2
spatial likelihood
peaks
lokalisierung mehrerer quellen
Entsprechend der Lokalisierung einer Quelle mit der SRP-PHAT lassen sich mehrere gleichzeitige Quellen als die n höchsten Peaks in der
spatial likelihood lokalisieren. Abbildung 19 zeigt die spatial likelihood
zweier stationärer Quellen aufgetragen für Quellpositionen in zwei
kartesischen Raumkoordinaten.
Dies ist jedoch nur anwendbar, wenn die Quellen stationär und für den
Großteil des betrachteten Zeitfensters aktiv sind. Des Weiteren ist eine
Schätzung der Quellenanzahl Q nötig. Diese erfolgt im einfachsten
Fall über einen Energieschwellwert. Für die Lokalisierung bewegter
Quellen wechselnder Zahl sind verschiedene Algorithmen im Einsatz:
3.2.1
Eigenwertverfahren
Ein Ansatz der Lokalisierung mehrerer Signalquellen ist die Dekomposition in linear unabhängige Unterräume. Entsprechende Verfahren
sind unter den Namen MUSIC, Root-MUSIC oder PRIMES bekannt.
Formuliert man das Signalmodell aus Gleichung 3.4 im Frequenzbereich so geht die Faltung in eine Multiplikation über und man erhält
Yn = Hn X + Nn ,
32
stand der technik
(3.15)
(a) SRP-PHAT
(b) Hamacher-PHAT
Abbildung 19.: SRP-PHAT und Hamacher-PHAT spatial likelihood für zwei stationäre Quellen [PKV08]
dabei lassen wir den Frequenzindex zugunsten der Lesbarkeit kurzzeitig weg. Fassen wir die Signale aller Mikrophone in einem Vektor
Y = (Y0 , Y1 , . . . Yk−1 ) T zusammen, lässt sich die gesamte Aufnahme
als
(3.16)
Y = HX + N
schreiben. Betrachten wir nun die spektrale Kovarianz
n
o
ΦYY = E YY H .
spektrale Kovarianz
(3.17)
Unter Annahme unabhängiger Signal- und Störkomponenten gilt
n
o
n
o
ΦYY = H E XX H H H + E N N H
(3.18)
= HΦXX H H + Φ NN
H
= HΦXX H + ΦNN I.
(3.19)
(3.20)
Durch Eigenvektorzerlegung lässt sich die spektrale Kovarianz mit einer Diagonalmatrix D als
ΦYY = U (D + ΦNN I )U H
(3.21)
ausdrücken. Hier kann man nun die Q Eigenvektoren, welche den Q
größten Eigenwerten zugeordnet sind, als signaltragende Unterräume
und die restlichen als Unterräume betrachten, welche nur aus Störungen bestehen. Man kann die signaltragenden Unterräume als M × QMatrix UX zusammenfassen. Mit einem steering vector
s(q ) = (ejωτ0 (q) , ejωτ1 (q) , . . . ejωτM−1 (q) ) T ,
Diagonalisierung
Unterräume
(3.22)
welcher die Delay-and-Beamformer-Zeitverzögerungen τm (q) der M
Mikrophone in Richtung einer Quelle q ausdrückt, kann der Vektor der
Q Quellen q = (q0 , qi . . . qQ−1 ) berechnet werden [MHA08, S. 151ff.]:
q̂ = argmax s(q ) H UX UXH s(q ).
q
(3.23)
3.2 lokalisierung mehrerer quellen
33
(a) Mischverteilungsmodell
(b) Clustering
Abbildung 20.: Clustering von Sprachereignissen [LO07]. Mischverteilungsmodell für die Winkelzuordung
des Signals eines Sprechers mit Störungen (links) und Clustering im Zeit×Drehwinkel-Raum
(rechts).
PASTd-Algoritmus
Basierend auf dem Unterraumansatz sind verschiedene akustische Lokalisierungen umgesetzt worden. Weiterentwicklungen des als PRIME
bekannten Lokalisierungsschemas erreichen mit einer Monte-CarloOptimierung die Cramer-Rao-Schranke für zwei simulierte kontinuierliche stationäre Quellen und gutes Signal-Rauschverhältnis [CKR09].
Ein vereinfachtes Root-MUSIC Schema mit direktem Aufteilen der
Summe aus Gleichung 3.16 in zwei Quellen und rekursive zeitliche
Glättung erster Ordnung mit dem PASTd-Algoritmus erlauben OnlineLokalisierung zweier Quellen. Experimente in einem Innenraum mit
Hall ( T60 = 0.5 s) erzielten korrekte Lokalisierungen mit einem RMSFehler von 22° [OS09].
3.2.2
zweistufige SRPPHAT-Lokalisierung
34
Gauß’sche Mischverteilung und Kurzzeitcluster
Ein anderer Ansatz der Lokalisierung mehrerer Sprecher wurde von
Lathoud et al. für den Einsatz eines zirkulären Mikrophonarrays in
einem Konferenzraum entwickelt. Es werden Trajektorien von Sprache im Zeit×Drehwinkel-Raum bestimmt [LO07]. Dabei werden aus
Energiepeaks kurze Sprachsegmente gebildet. Die kurzen Segmente
wurden absichtlich gewählt, da ohne Sprachmodell oder ergänzende
visuelle Information die Bestimmung von Sprechertrajektorien nicht
sinnvoll realisierbar ist.
Die Bestimmung von Energiepeaks mit der SRP-PHAT erfolgt in zwei
Schritten. Im ersten Schritt werden 20°-Sektoren um das zirkuläre Mikrophonarray bestimmt, welche signifikante korrelierte Energie aufweisen. Im zweiten Schritt wird in den aktiven Sektoren eine Sprecherposition per Gradientenabstieg in der SRP-PHAT-Energielandschaft in
nach Drehwinkel×Neigung× log(Entfernung) diskretisierten Raumkoordinaten bestimmt. Die so in 32 ms-Frames mit 50 % Überlappung
bestimmten Peaks werden durch dynamische maximum likelihood-Partitionierung zu Kurzzeitclustern zusammengefasst wie in Abbildung
20b schematisch dargestellt. Dabei ist ein Kurzzeitcluster eine Folge
von Drehwinkel-Zeit-Punkten mit Pausen von weniger als sieben Frames. Als Modell der lokalen Dynamik wird eine Gauß’sche Mischverteilung verwendet. Dabei wird ein kleiner Wert σsame für die für die
stand der technik
Varianz des Winkels innerhalb des Clusters eines Sprechers und eine großer Wert σdiff für Störungen, Nebenmaxima und Peaks anderer
Sprecher angenommen. Abbildung 20a zeigt das Mischverteilungsmodell im Vergleich zu der tatsächlichen Varianz der Winkel bis zu zwei
Frames. Mit diesem Modell erfolgt die Erzeugung von Kurzzeitclustern. Dabei werden zunächst Startwerte vorgegeben und die Varianzen in einem expectation maximization-Trainingsschritt (EM) geschätzt.
Dann wird die wahrscheinlichste Partitionierung über ein Zeitfenster von sieben Frames mit dem EM-Algorithmus [DHS01, S. 124ff.]
bestimmt. Dabei wird für Elemente in derselben Partition σsame angenommen, andernfalls σdiff . Die Partitionierung wird dann mit der
Partitionierung der vorhergehenden Frames nach demselben Modell
vereinigt. Für sieben Frames existieren bereits 877 mögliche Partitionen und 13 327 mögliche Vereinigungen, so dass hier heuristisches
pruning zum Einsatz kommt, um Laufzeiten im Echtzeitbereich zu erhalten. Neben dieser „on-line“-Variante wurde eine Suche von optimalen Clustern mit simulated annealing implementiert. Da viele Peaks detektiert werden, welche keinem Sprecher zugeordnet werden können
(false positives), wurde auf Clusterebene eine Sprache-Nichtsprache-Unterscheidung eingeführt. Der Cluster muss aus mehr als zwei Elementen bestehen, welche sich über mehrere Frequenzen erstrecken. Dabei
muss eine minimale Zeit- oder Winkelvariation auftreten (Nichtstationarität). Dieses Kriterium wurde eingeführt, um stationäre Störungen
wie Notebook- oder Projektorlüfter zu unterdrücken. Dieses Verfahren
wurde mit Daten aus dem AV16.3-Korpus [LOGP05] evaluiert. Dabei
wurden Detektionen erzeugt, welche zu 92 % nach einem adaptiven
Schwellwertkriterium mit den tatsächlichen Positionen übereinstimmten.
Eine Implementierung von Madhu und Martin setzt ebenfalls basierend auf der SRP-PHAT eine Gauß’sche Mischverteilung mit dem EMAlgorithmus zur Lokalisierung mehrerer Sprecher ein. Hier wird der
Restklasse eine feste Varianz von 90° zugewiesen. Der Kurzzeitcharakter von Sprecheraktivität wird hier durch eine time to live (TTL)-Größe
modelliert [MM08].
3.3
Varianzmodell
Partitionierung
speech-nonspeech
modelle binauralen hörens
Alle biologisch inspirierten Implementierungen enthalten ein Modell
des binauralen Hörens [Bla96, S. 337ff.]. Diese bestehen in der Regel
aus den drei folgenden Komponenten: Einer Filterbank zur Modellierung der Frequenz-Orts-Transformation der Cochlea (Abschnitt 3.3.1),
einem Spike-Generierungsschritt zur Modellierung der Kodierung im
auditiven Nerv (Abschnitt 3.3.2) und einer Modellierung der ITD/IID-Schätzung im SOC. Letztere erfolgt meist als Korrelation nach dem
Jeffress-Colburn-Modell (Abschnitt 3.3.3).
3.3.1
Gammaton-Filterbank
Die Funktion der Basilarmembran (vgl. Abschnitt 2.3.2) kann mit einer ERB-skalierten Gammaton-Filterbank nach dem Patterson-Holdsworth-Modell nachgebildet werden [PNSHR88]. Dabei wird eine Reihe von Gammaton-Filtern n-ter Ordnung eingesetzt, eine äquidistante
Positionierung der Mittenfrequenzen erfolgt dabei nach der Equal Resonance Bandwidth-Skala (ERB). Dabei sind beide Größen das Ergebnis
3.3 modelle binauralen hörens
35
Abbildung 21.: Filter des auditiven Nervs, gewonnen durch Kreuzkorrelation neuronaler Antworten einer
Ratte auf einen 3 kHz-Stimulus [Mø77]
g(t)
0.2
0
−0.2
0
1
2
3
4
5
6
7
8
9
10
t [ms]
Abbildung 22.: Impulsantwort eines Gammatonfilters mit f b = 3 kHz
neurologischer Untersuchungen. Abbildung 21 zeigt die Messung der
Antwort des akustischen Nervs auf einen Sinuston, welcher durch die
Gammatonfilter angenähert wird. Ein Gammatonfilter n-ter Ordnung
mit der Bandbreite wb und der Mittenfrequenz f b hat eine wie in Abbildung 22 gezeigte Impulsantwort
g(n) (t) = at(n−1) exp(−2πwb t) cos(2π f b t + φ).
IIR-BiQuads
Für die Gammaton-Filter existiert eine effiziente Implementierung von
Slaney [Sla93] als vier IIR-BiQuads, rekursive Filter zweiter Ordnung
mit unendlicher Impulsantwort (Infinite Impulse Respose, IIR), welche
auch die Grundlage für die oft eingesetzte MATLAB-Toolbox desselben Autors sind. Die Übertragungsfunktion der vier kaskadierten Filter lässt sich zusammenfassend mit einem Parameter k = 0 . . . 3 als
√
− Ts cos(2π f Ts )
Ts sin(2π f Ts )
−1
k
H (k) ( z ) =
forward backward
method
36
(3.24)
Ts z+
3+(−1)2k 21.5 exp(T b)
+(−1)
exp( Ts b)
s
−2 cos(bT )
z+ exp(T b)s z−1 +exp(−2bTs )z−2
s
z
(3.25)
aufschreiben, hierbei ist Ts := 1/ f s das Abtastintervall. Dazu ist noch
eine Amplitudennormalisierung nötig. Ein Vorteil der IIR-Lösung ist
die vergleichsweise schnelle Berechnung. Allerdings ist diese Approximation allein aufgrund des Amplitudenganges definiert und hat einen
nichtlinearen Phasengang, welcher zu einer Verzerrung der Laufzeiten innerhalb jedes Kanals führt. Abbildung 23 zeigt den Amplitudenund Phasengang einer solchen Realisierung. Wenn man, wie im vorliegenden Fall, auch die Phaseninformation innerhalb der Kanäle benötigt, kann man hier einen Laufzeitausgleich einführen, etwa nach
der forward-backward-Methode. Hier wird das gefilterte Signal zeitlich
invertiert und durch ein ebenfalls zeitlich invertiertes Filter erneut gefiltert. Dies führt zu blockweiser Verarbeitung und erfordert die aufwändige Bestimmung geeigneter Anfangszustände [VLAO05, Gus96].
stand der technik
|G(f )| [dB]
−12
−24
−36
0
1,000
2,000
3,000
4,000
5,000
6,000
7,000
8,000
5,000
6,000
7,000
8,000
∡G(f) [◦ ]
f [Hz]
360
270
180
90
0
−90
−180
−270
−360
0
1,000
2,000
3,000
4,000
f [Hz]
Abbildung 23.: Amplituden- und Phasengang einer Gammaton-Filterbank aus IIR-BiQuads. Acht Kanäle von
200 bis 6 000 Hz in ERB-Spacing nach Glasberg und Moore, f s = 20 000 Hz
3.3.2
Neuronale Kodierung
Aus den gefilterten Signalen in den einzelnen Frequenzbändern werden den neuronalen spike trains (vgl. Abschnitt 2.3.3) entsprechende
Impulsfolgen erzeugt. Basierend auf dem Modell von Lyon [Lyo83]
verwenden bis heute die meisten CASA-Modelle durch Einweggleichrichtung und quadratische Kompression gewonnene Impulse [SW07,
RW08]:
( √
xn xn > 0
′
(3.26)
xn =
0
sonst.
Dies stellt eine sehr einfache Näherung dar, genauere Modellierungen
berücksichtigen sämtliche Kodierungseingeschaften der inneren Haarzellen [LPGR+ 09, VLAO05, Kat91].
Eine andere einfache Näherung ist die Auswertung von Nulldurchgängen der bandpassgefilterten Signale. Hiermit wird die Phase des
Signals direkt repräsentiert und eine einfache Korrelation ermöglicht
[HOS95, KAK06]. Um die phasenstarre Spike-Generierung der Cochlea besser abzubilden, kann eine Erzeugung von Impulsen bei Signalmaxima erfolgen. Diese sind im Gegensatz zu den Nulldurchgänge
allerdings nicht nur bei reinen, ungestörten Signalen mit den Phasen
eines Quellsignals korreliert, da etwa die Maxima kräftiger Formanten
auch bei Mischungen mit geringem Signal-Rauschverhältnis die Phase
wiedergeben [Gro03].
3.3.3
Einweggleichrichtung
Nulldurchgänge
Peaks
Korrelation
Die binaurale Auswertung entlang der auditory pathways (vgl. Abschnitt 2.3.4) wird oft durch eine einfache oder modifizierte Varian-
3.3 modelle binauralen hörens
37
Abbildung 24.: ITD-Analysator nach dem Jeffress-Colburn-Modell mit der Erweiterung von Lindemann aus
Zeitverzögerungsgliedern (z−1 ), Inhibitoren (i) und neuronalen Multiplikatoren (×)
te des Jeffress-Colburn-Modells modelliert [Bla96, S. 393ff.]. Ein ITDAnalysator nach Jeffress’ neural coincidence model [Jef48] in der Quantifizierung durch Colburn [CD78] ist wie folgt realisiert: Die Signale
x L (t), x R (t) zweier Mikrophone in einem Band werden an den Enden
einer Reihe von Neuronen eingespeist und mit je einem Sample Verzögerung an das Nächste weitergeleitet:
x n ( t ) : = x L ( t − n ) · x R ( t + n ).
bandwise cross
correlation
(3.27)
Korrelieren die Signale mit einer bestimmten Laufzeitdifferenz, so
zeigt das zugeordnete Neuron eine hohe Aktivität. Für korrelierte Signale ohne Zeitversatz zeigt hier das mittlere Neuron maximale Reaktion, bei einem Signal von links ein Neuron rechts von der Mitte, bei
dem sich ITD und Verzögerung ausgleichen.
Das Ergebnis der Korrelation von halbweggleichgerichten Signalen
durch das Jeffress-Colburn-Modell sind mitunter sehr breite Korrelationsfiguren. Um klare, schmale Peaks zu erhalten, wird dies zu einem skeleton cross-correlogram geschärft. Dabei werden die Peaks durch
Gaußfunktionen mit der Höhe des Peaks und einer der Bandfrequenz
invers proportionalen Breite ersetzt [PBW04, RW08] [WB06, S. 172175].
contralateral
inhibition
Frequenz × ILD
38
Zu dem einfachen Jeffress-Colburn-Modell existieren vielfältige Erweiterungen [WB06, S. 160-171] [Bla96, S. 393-408]. Lindemann führte die
kontralaterale Inhibition ein, bei welcher sich die Zellen entgegengesetzter Zeitversätze gegenseitig unterdrücken können. Diese sind in
Abbildung 24 mit i bezeichnet. Durch diese Erweiterung wird die Korrelation erheblich geschärft, da nur bei übereinstimmendem Zeitversatz keine Inhibition auftritt [Lin86a]. Durch Halten der Inibition für
einen längeren Zeitraum ist eine Nachahmung des precedence effect für
einige Stimuli möglich [Lin86b].
In der neurologischen Forschung sind einige recht komplexe Modelle der SOC entwickelt worden. Eine typische Erweiterung ist eine Übertragung des Jeffress-Modells auf interaurale Pegeldifferenzen
(ILDs). Hier wird neben einem rechteckigen Frequenzband-ITD-Neuronenschema als Modell der LSO (seitliche obere Olive) nach JeffressColburn ein rechteckiges Frequenzband-ILD-Neuronenschema als Modell der MSO (mittlere obere Olive) gebildet [LPGR+ 09, WEA+ 06].
stand der technik
Abbildung 25.: K. Martin, KEMAR Dummy und W. Gardner in der Akustikkammer des MIT Media Lab
3.4
bilogistische lokalisierung
Im Gegensatz zu Mikrophonarrays verfügen Säugetiere nur über zwei
akustische Sensoren. Dennoch kann mit diesen nicht nur eine Schätzung der Richtung in der Ebene, sondern auch eine Schätzung der
Höhe erschlossen werden. Hier ist es notwendig, die Übertragungsfunktion des aufnehmendenen Systems in allen Raumrichtungen zu
kennen. Es existieren verschiedene Implementierungen, welche über
die kombinierte Übertragungsfunktion von Kopfabschattung und Außenohr (head-related transfer function, HRTF) eine Ortung vornehmen.
3.4.1
Kunstkopf
Von Martin und Gardner wurde am MIT Media Lab 1994 eine genaue Messung der HRTF eines „KEMAR-Dummy“ durchgeführt. Dabei handelt es sich um einen speziell für akustische Messungen gefertigten Oberkörper und Kopf mit Mikrophonen in den Ohren [GM94].
Diese ist frei verfügbar und wird bis heute in vielen Simulationen verwendet.1
Basierend auf dieser wurde von Martin eine Lokalisierung in Kugelkoordinaten implementiert [Mar95a]. Die zwei Eingangssignale werden
mit einem Kunstkopf aufgenommen, mit einer Innenohrübertragungsfunktion gefaltet und in einer Cochlear-Filterbank [Sla93] in 24 Bänder
von 80 Hz bis 18 kHz aufgeteilt. In jedem Band wird mit einem Tiefpass
die Umhüllende berechnet. Der Einsatz (onset) in jedem Band wird als
lokales Maximum der beiden Umhüllenden bestimmt. Hierbei wird
mit einer 10 ms-Totzeit Nachverdeckung und mit einer einfachen Regel Vorverdeckung simuliert. Auf so bestimmten, „interessanten“ Zeitpunkten wird ein 2 − 3 ms langes Exponentialfenster zentriert. Auf diesem wird das Energieverhältnis
∑
t=−n
onset
temporal masking
n
n
IIDk =10 log10
HRTF Messung
Lk (t) − 10 log10
∑
t=−n
Rk (t)
(3.28)
1 http://sound.media.mit.edu/resources/KEMAR.html
3.4 bilogistische lokalisierung
39
zwischen Links und Rechts bestimmt. Dazu wird der Spitzenversatz
n
IPTDk =argmax
τ
τ
τ Rk t +
Lk t −
2
2
t=−n
∑
(3.29)
und Umhüllendenverschiebung
n
IETDk =argmax
τ
ML-Schätzer
τ τ
L̃k t −
R̃k t +
2
2
t=−n
∑
(3.30)
für jedes Band k per Korrelation geschätzt. Ausgehend von weißem,
Gaußverteiltem Rauschen als durchschnittlichem Eingangssignal wurden theoretische Werte in 5◦ -Schritten für jedes Band berechnet. Die
Parameter werden dann über die inverse Fouriertransformierte der
HRTF für Dirac-impulse bzw. gleichverteilte Spektren bestimmt. Aus
diesen Daten wird mit einem maximum likelihood-Schätzer die wahrscheinlichste Schallrichtung bestimmt. Das Verfahren bestimmt den
Dreh- und Neigungswinkel von Quellen in der akustischen Kammer
bis auf wenige Ausnahmen im richtigen 5°-Segment.
3.4.2
Salienz und humanoide Roboterohren
Ein aus der Neurologie stammendes Konzept ist das einer sensorischen, raumorientierten Interessantheits- oder Salienzkarte (saliency
map). Nach der feature-integration theory [TG80] werden im posterior
parietalen Cortex (PP) interessante Ereignisse in einer ortsbasierten
Karte verortet. Dazu wurde von dem Informatiker Itti und dem Kognitionsbiologen Koch eine Implementierung entwickelt, welche herausstechende Bildbereiche detektiert [IKN98]. Dabei wird der aus der Kognitionspsychologie bekannten Effekt der inhibition of return (IOR) bei
Blickbewegungen nachgeahmt. Der jeweils interessanteste Ort wird in
einer inhibierenden Karte eingetragen, sodass in der Folge der jeweils
nächste interessante Ort gefunden wird. Der Ansatz wird heute oft um
weitere Modalitäten erweitert. So werden auch Bewegungsmerkmale
in Bildfolgen sowie akustische Ortung verwendet.
ego-sphere
ITD
spektrale
Neigungsschätzung
Bei einer Umsetzung multimodaler Aufmerksamkeit auf dem humanoiden Roboter „iCub“ werden akustische und visuelle Ereignisse in
Kugelkoordinaten in eine ego-sphere genannte Interessantheitskarte eingetragen, welche den Kopf des Roboters umspannt. Die visuelle Interessantheit wird in Skalenpyramiden der Merkmale Intensität, Farbwert, Richtung und einem aus Differenzbildern gewonnen Bewegungsmerkmal berechnet. Dabei wird eine akutsische Lokalisierung mit der
Visuellen integriert [RLB+ 08].
Der Roboter besitzt als Nachbildung der menschlichen Physiologie
zwei Mikrophone in je einem künstlichen Außenohr wie in Abbildung
26a zu sehen. Der Drehungswinkel wird direkt aus dem Zeitversatz
abgeleitet. Dieser wird aus der Kreuzkorrelation des ungefilterten Zeitsignals berechnet. Der Neigungswinkel wird mittels der spektralen Minima (pinna notch) der Signale bestimmt. Dazu wird die Differenz der
Spektren gebildet (interaural spectral difference, ISD)
∆H (ω ) =10 log10 HL (ω ) − 10 log10 HR (ω ).
40
stand der technik
(3.31)
(a) T60 = 0.0 s
(b) T60 = 0.05 s
Abbildung 27.: Sprecherverfolgung im Modell von Roman et al. [RW08]; Lokalisierungstrajektorien für drei
überlappende Sprecher in 30°-Abständen ohne (links) und mit leichtem Hall (rechts). Schon
bei leichtem Hall treten Zuordnungsfehler, Lücken und starke Winkelabweichungen auf.
likelihood
HMM subspace
Viterbi Tracking
nicht Hall-robust
zeitige Sprecher verwendet. Ausgehend von null bis drei möglichen
Sprechern und der Einschränkung der Änderung der Sprecherzahl um
höchstens eins zwischen zwei Frames ergeben sich acht Subräume von
HMM-Zuständen – ein Subraum für keinen Sprecher (S0 ), drei für
einen Sprecher (S11..3 ), drei für zwei Sprecher (S21,2 , S22,3 , S21,3 ) und einer für drei gleichzeitige Sprecher (S3 ) – mit 32 Übergängen. In jedem
Subraum werden die Sprecherpositionen in 1°-Schritten parametrisiert.
Mittels Viterbi-Dekodierung werden die Spuren der Sprecher berechnet. Dabei wird der Rechenaufwand mittels beam search und Einschränkung der Winkelvariation eines Sprechers zwischen zwei Frames auf
6° reduziert.
Eine Evaluierung wurde mit Aufnahmen gesprochener Sätze aus
dem TIMIT-Korpus durchgeführt. Es wurde eine Simulation von drei
gleichzeitigen bewegten Sprechern in 30° Abstand ohne Nachhall
T60 = 0 s berechnet. Dabei wird eine Genauigkeit von 7.2° ohne Störungen und von 6.9° bei einem simulierten Signal-Rauschverhältnis
von 40 dB erreicht. Eine zum Vergleich durchgeführte Lokalisierung
mit 16 Mikrophonen und einem Kalmanfilter-Ansatz erreicht hier 12.9°
Genauigkeit.
Die meisten Untersuchungen wurden mit der Simulation von hallfreien Umgebungen (T60 = 0 s) gemacht. Die Lokalisierungsgenauigkeit
nimmt bereits für eine simulierte Nachhallzeit von T60 = 0.05 s deutlich ab, wie in Abbildung 27b zu sehen [RW08, S. 737].
3.5
spracherkennung
Die CASA kann durch Nachbildung von stream separation eine Grundlage für robuste Spracherkennung liefern. Bevor die einzelnen Implementierungen dargestellt werden, wird kurz das gemeinsame Prinzip
der Zeit×Frequenz-Masken und seine Integration in den Spracherkennungsprozess geschildert (Abschnitt 3.5.1). Eine der großen Herausforderungen ist die automatische Separation eines einkanaligen Signales
in mehrere Streams. Zur Trennung von cochannel speech gibt es verschiedene Ansätze, die jeweils ein sehr komplexes Modell des menschlichen Hörens beinhalten. Hier wird zum Vergleich mit den mehrkanaligen Verfahren ein Spracherkennungsystem vorgestellt, welches in
der Lage ist, zwei gleichzeitige Sprecher in einem einkanaligen Signal
zu trennen und Sprache eines nach vorgegebenen Regeln selektierten
42
stand der technik
Sprechers zu erkennen (Abschnitt 3.5.2). Die Verwendung mehrerer
Mikrophone erleichtert die Trennung gleichzeitiger, räumlich getrennter Sprecher. Basierend auf der Modellierung binauralen Hörens wurden verschiedene Spracherkennungssysteme entworfen. Dabei wird
zunächst eine Lokalisierung in unabhängigen Frequenzbändern vorgenommen, mit dieser wird dann die Sprecherposition und -Anzahl geschätzt. Dazu werden zwei Ansätze dargestellt: Die Verwendung von
Nulldurchgängen in Bändern (Abschnitt 3.5.3) und eine gegen Hall
unempfindliche Lokalisierung mit einer Modellierung des precednece
effect (Abschnitt 3.5.4).
3.5.1 Merkmale für robuste Spracherkennung
Anhand der Signalenergien wird eine Zeit×Frequenz-Maske für jeden
Sprecher berechnet. Die Elemente repräsentieren die Zugehörigkeit
des entsprechenden Signalanteils zu dem Sprecher. Ist ein Matrixelement null, so fehlt die entsprechende Information über den jeweiligen
Sprecher, das Signal an dieser Stelle ist aufgrund von Störungen unzuverlässig. Um diesen Umstand zu modellieren wurde das Verfahren
der missing data-Spracherkennung eingeführt [RSS04]. Dabei werden
meist fehlende Bereiche durch Integration über die Randverteilung ersetzt, was einer impliziten Annahme von Gleichverteilung für fehlende
Information entspricht. Die missing data-Wahrscheinlichkeit für einen
Merkmalsvektor x = ( xi )i ergibt sich als Mischverteilung
p(x|θ ) = ∑ αk p(x|θ, k)
Sprecherzuordnung
missing data
(3.32)
k
mit der binären Maske m bei der vereinfachten Annahme additiver
gleichartiger Störungen [HBB06]
p(x|θ, k ) = ∏
i
1 − mi
mi · p( xi |θ, k ) +
xi
Zxi
p( xi ′ |θ, k)dxi ′
−∞
(3.33)
mit Gaußverteilungen ohne (nichtdiagonale) Kovarianzen
p( xi |θ, k ) =N ( xi ; µki , σki ) .
(3.34)
Als Merkmale für die Spracherkennung können die Komponenten des
auditiven Spektrogramms, also die Energien in den Frequenzbändern,
direkt verwendet werden. Dazu werden auch sogenannte auditory rate
maps verwendet, welche neuronale Pulse modellieren. Diese werden
aus der Hilbertumhüllenden der Bandfiltersignale über Tiefpassfilterung und Abtastung gebildet. Hier ist die Zuordnung der Zeit×Frequenz-Maske zu spektralen HMM-Emissionen direkt möglich.
Ein für Spracherkennung häufig verwendetes Merkmal sind die sogenannten mel frequency cepstral coefficents (MFCC). Hier werden die
Koeffizienten des Spektrums des logarithmierten Bertrages des MelSpektrums sowie ihre diskrete Ableitung berechnet [ST95, HAH01].
Eine einfache Möglichkeit der Integration ist die Kombination von
spektralen Features nach dem missing data-Ansatz mit den wie üblich
berechneten MFCC in einem gemeinsamen Merkmalsvektor [PBB06].
Wesentlich aufwändiger ist die Übertragung der spektralen Unsicherheiten in den cepstralen Bereich, da sich eine Frequenz auf alle MFCC
auswirkt. Von Srinivasan wurde ein Verfahren entwickelt, um die
3.5 spracherkennung
auditory rate maps
MFCC
43
Abbildung 28.: CASA Spracherkennung nach Srinivasan und Wang [SSJW06]
regression trees
→ MFCC
Zeit×Frequenz-Maske in den cepstralen Bereich zu transformieren. Es
verwendet Regressionsbäume, um die nichtlineare Transformation automatisch zu ermitteln [SW07].
3.5.2
multipitch tracking
multiscale onset
detection
spectral
reconstruction
→ MFCC
stream separation
Einkanalige Sprechertrennung
Ein komplexes CASA-Modell für Spracherkennung wurde von Srinivasan, und Wang an der Ohio State University entwickelt. Auch hier wird
eine binäre Zeit×Frequenz-Maske relevanter Ereignisse berechnet und
von einem nachgeschalteten HMM mit MFCC-Merkmalen verarbeitet
[SSJW06, SW07].
Das in Abbildung 28 skizzierte Modell verwendet eine GammatonFilterbank mit 128 Bändern zwischen 50 Hz und 8 kHz. Simultane
Gruppierung erfolgt über multiple Pitchtracker für stimmhafte und
multiskalische Einsatzfeatures für stimmlose Laute. Mit einem speziellen Algorithmus [SW06] werden Sequenzen identifiziert. Zeit×Frequenz-Bereiche mit einer positiven Sprachidentifizierung werden in
einer binären Maske vermerkt. Fehlende Werte werden über das missing data-Verfahren mittels Randverteilungen geschätzt. Das Signal für
jeden Sprecher wird, wo nötig, im Spektralbereich rekonstruiert und
dann in MFCC-Merkmale überführt, auf welche ein Standard-Spracherkenner angewendet wird. In dem auf der Interspeech 2006 vorgestellten Experiment wurde auf das Vorkommen eines gewünschten
Trigger-Wortes reagiert und das Signal des dieses äußernden Sprechers
getrennt und klassifiziert, so daß von stream separation gesprochen werden kann. Dabei wurden Kommandosätze der Form „place blue at f2
now“ verwendet.3 Der resultierende Erkenner hat die Performance eines einkanaligen bei ca. 6 dB besseren SNR in Situationen mit zwei
durcheinanderredeneden Sprechern und immerhin über 40 % gegenüber 65 % word error rate (WER) bei einem SNR von 0 dB, also gleichlauten Sprechern [SSJW06].
3.5.3 Nulldurchgangsbasierte Trennung
Anstelle der Verwendung von Halbweggleichrichtung und Korrelation
nach dem Jeffress-Colburn Modell mit anschließender Schärfung (Abschnitt 3.3.3) kann auch die Bestimmung des Zeitversatzes von Null3 Speech separation and recognition competition.
http://www.dcs.shef.ac.uk/ martin/SpeechSeparationChallenge.htm
44
stand der technik
durchgängen zur ITD-Schätzung verwendet werden [HOS95, KAK06,
PS06]. Alle zitierten Ansätze verwenden als ITD-Schätzung den Abstand der am nächsten benachbarten Nulldurchgänge. Aus diesen
wird dann eine Zeit×Frequenz-Maske für missing data-Spracherkennung geschätzt. Bei vergleichenden Experimenten zeigt sich, dass die
Nulldurchgänge mindestens so gut geeignet sind wie die Schätzung
durch Kreuzkorrelation. Die Schätzung kontinuierlicher Masken führt
gegenüber binären Masken bei beiden Verfahren zu besseren Ergebnissen.
Die Implementierung von Kim et al. bestimmt für die Signale beider Ohren in 32 gammatongefilterten Bändern mit ERB-verteilten Mittenfrequenzen von 200 Hz bis 4 kHz Nulldurchgänge. Für jedes Paar
(n, m) von Nulldurchgängen in jedem Band b wird der Zeitversatz
(ITD) ∆tb (n, m) und ein Energieverhältnis (IID) ∆pb (n, m) bestimmt.
Für das Energieverhältnis wird die Energie in der Umgebung des Nulldurchgangs als Quadratsumme bestimmt. Über alle Paare werden diejenigen gesucht, welche die geringste Winkeldifferenz implizieren:
argmin |θ ITD (∆tb (m, n)) − θ I ID (∆pb (m, n))|.
m
zerocross distance
→ ITD
kombinierte ITD IID
Schätzung
(3.35)
Aus diesen wird ein Histogramm gebildet. Histogramm-Peaks werden als Audioquellen interpretiert. Die Varianz der zugehörigen Nulldurchgänge entspricht dabei einer impliziten Schätzung des SignalRauschverhältnisses. Die so gefundenen Drehwinkel von stationären
Quellen dienen als Grundlage für die Schätzung der zugehörigen Signalenergie. Die Energie in den Bändern wird zwischen den Nulldurchgängen je Quelle über längere Zeitsegmente aufsummiert. Erreicht die Energie einen Wert von über der Hälfte der Gesamtenergie,
so wird in der Zeit×Frequenz-Maske der relative Anteil eingetragen.
Diese Masken werden zusammen mit auditory rate maps zur Spracherkennung verwendet. Es wurden verschiedene Spracherkennungs-Experimente mit dem CASA Toolkit auf Ziffernfolgen aus dem TI- Digits-Korpus4 durchgeführt. Dabei wurden ein oder zwei Störsprecher
in 5° oder 30° Abstand mit −5 bis 20 dB in einer hallfreien Umgebung
simuliert.
Das Verfahren wurde mit der kreuzkorrelationsbasierten Schätzung binärer Masken verglichen. Wurde die Maskenschätzung für die Kreuzkorrelation vorher nach dem Verfahren von N. Roman [RWB03] mit
trainiert, so erreicht diese vergleichbare Genauigkeit, andernfalls blieb
die Kreuzkorrelation hinter der Auswertung von Nulldurchgängen zurück. Bei einem gleichlauten störenden Sprecher erreichen die Nulldurchgänge wie die trainierte Kreuzkorrelation 7 % WER, die untrainierte Kreuzkorrelation hingegen nur 40 %. Für zwei störende Sprecher
erreicht das Nulldurchgangsverfahren 17 %, die trainierte Kreuzkorrelation 21 % und die untrainierte 54 %. Binäre Masken sind in allen Fällen schlechter.
Die Implementierung von Park et al. [PS06] schätzt kontinuierliche
Zeit×Frequenz-Masken nur mit ITDs. Als Spracherkenner wird ein
kontinuierliches HMM mit MFCC als Merkmalen verwendet (CMU
SPHINX-III). Hier wird für einen gleich lauten Störsprecher 12 % WER
erreicht, gegenüber 23 % für Kreuzkorrelation und 90 % ohne binaurale Verarbeitung. Binäre Masken sind in allen Fällen schlechter. In
keiner Evaluation wurde Hall simuliert.
auditory rate maps
T60 = 0
4 Der TI Digits enthält Aufnahmen von 77 Zahlensequenzen von 326 Sprechern [LDC].
3.5 spracherkennung
45
Abbildung 29.: Hallrobuste neurobioloisch inspirierte Spracherkennung [PBW04]
3.5.4
precedence effect
pooled sekleton
cross-correlogram
θs , θn
time-frequency mask
CC (θs ) > CC (θn )
ITD 7→ θs
ILD 7→ θs
Energie
besser als
Mono MFCC ASR
T60 = 0.3 s
46
Korrelationsbasierte Trennung
Eine der wenigen erfolgreichen Anwendungen eines CASA-Modells
bei Nachhall wurde 2004 von Palomäki et al. vorgestellt [PBW04]. Hier
werden IID- und ITD-Cues mit einer Modellierung des precedence effect
zur Schätzung des Drehwinkels zweier stationärer Quellen verwendet.
Die Schätzung verlässlicher Zeit×Frequenz-Bereiche wird für missing
data Spracherkennung genutzt.
Die Signale der zwei Ohren eines Kunstkopfes werden mittels einer
komplexen Gammatonfilterbank mit ERB-verteilten Mittenfrequenzen
zwischen 50 Hz und 8 kHz in 32 Bänder aufgeteilt. Die Signale in den
Bändern werden einweggleichgerichtet. Davon wird die Hilbertumhüllende berechnet, deren Verhältnis in Bändern über 2.8 kHz wird als IID
cue verwendet. Die Hilbertumhüllenden dient auch der Simulation des
precedence effect bei der Bestimmung der ITDs. Das Umhüllendensignal
wird mit einem 15 ms-Tiefpassfilter geglättet und vom Bandsignal subtrahiert. Nur positive Differenzen werden zur Kreuzkorrelation verwendet, welche in 10 ms-Schritten per FFT berechnet wird. Da für tiefe
Frequenzen sehr breite Peaks auftreten, wird die Korrelationsfigur zu
einem pooled sekleton cross-correlogram geschärft, indem lokale Peaks
mit Gaußfunktionen multipliziert werden (Abschnitt 3.3.3). Die Korrelelogramme werden über alle Zeitframes und Frequenzbänder gemittelt, was stationäre Quellen voraussetzt. Die beiden größten Peaks
in dem gemittelten Korrelelogram werden als Position von Signal und
Störer interpretiert. Damit wird eine binäre Zeit×Frequenz-Maske geschätzt. Ein Einswert wird dort angenommen wenn vier Bedingungen
erfüllt sind: Der Wert des Korrelelogramms an der Signalposition
ist höher als eine Schwelle und höher als der an der Störerposition.
Des weiteren muss der ILD-Wert bis auf 0.5 dB einem bandabhängigen
Template für die Signalposition entsprechen. Die Energie je Band, über
200 ms-Fenster gemittelt, muss über einer Schwelle von −11 dB liegen.
Der normalisierte Wert der Hilbertumhüllenden wird als Merkmal für
den Spracherkenner verwendet.
In Experimenten mit zwei gleichzeitigen Sprechern und variablem
Hall wurde das System mit einem einkanaligen MFCC Spracherkenner auf Ziffernfolgen aus dem TI-Digits-Korpus verglichen. In den Simulationen ohne Hall ( T60 = 0 s) erreicht das System 7 % gegenüber
94 % WER bei 0 dB SNR, bei mittlerem Nachhall ( T60 = 0.3 s) 45 % gegenüber 86 % WER. Das binaurale System zeigt also deutlich bessere
Ergebnisse. Die WER steigt dabei für Sprecherabstände von weniger
als 40° und 20 dB SNR [PBW04].
stand der technik
4
NEURO-FUZZY-LOKALISIERUNG
Im Rahmen der Arbeit wurde ein Verfahren zur Lokalisierung von
Sprechern in realen Umgebungen entwickelt. Dabei wurden neben
technischen Lokalisierungsverfahren insbesondere auch aktuelle Erkenntnisse der Neurobiologie und Kognitionspsychologie über das
menschliche Hören zu Grunde gelegt.
Basierend auf umfangreichem Wissen über die Natur der Sprache und
das menschliche Hören wurden vielfältige Sprachverarbeitungsysteme im Rahmen der kognitionspsychologischen Theorie der Auditory
Scene Analysis (ASA) realisiert [WB06]. Diese sind in erster Linie auf
die Imitation der menschlichen Fähigkeiten ausgerichtet. Ein Großteil
der biologisch inspirierten Systeme arbeitet nur in Simulationen und
hallfreien Umgebungen. Viele reale Umgebungen in unserer modernen Umwelt sind Innenräume, hier stellt der Hall eine der größten
Herausforderungen für Lokalisierungssyteme dar. Technische Lokalisierungsansätze erreichen gute Ergebnisse im realen Einsatz unter der
Verwendung von Mikrophonarrays für allgemeine Lokalisierungsaufgaben [BW01].
In dem hier entwickelten System wurde vom menschlichen Vorbild insoweit Abstand genommen, dass kein Kunstkopf mit zwei Ohren, sondern ein Mikrophonarray zur Aufnahme des Signales verwendet wird.
Durch die pragmatische Kombination von Modellen aus der neurobiologischen Forschung und technischer Lokalisierungsverfahren ist das
System robust gegenüber Hall und Störungen. Zum einen erlaubt der
Einsatz von Mikrophonarrays eine robuste Schätzung des Quellortes
über Ankunftszeitdifferenzen, zum anderen erlaubt die Übertragung
des evolutionär optimierten menschlichen Hörapparates in ein Computermodell die Nutzung eines auf menschliche Sprache optimierten
Systems. Schließlich führt die konsequente Einschränkung auf klar lokalisierte Sprachanteile durch die strikte Anwendung von technischen
Rahmenbedingungen und von Sprachheuristiken zu wenigen aber klar
lokalisierten Ergebnissen im Sinne eines glimpsing model [Coo06].
Das entwickelte Verfahren realisiert die Lokalisierung von Sprechern
mit der erfolgreichen Kombination von technischem und biologischem
Wissen. Die konsequente Beschränkung auf wesentliche, robuste Merkmale, die Entwicklung optimierter Algorithmen sowie die Anwendung optimierter Bibliotheken zur Signalverarbeitung und Mehrkernprozessoren ermöglichen die Lokalisierung in Echtzeit auf aktullen
Rechnern.
4.1
verarbeitungsstruktur
Das System verwendet zur Signalaufnahme ein zirkuläres Mikrophonarray, das auf einem Konferenztisch zwischen den Sprechern angeordnet wird. Die Verarbeitung erfolgt in den in Abbildung 30 skizzierten sechs Schritten: In Anlehnung an die Frequenz-Orts-Transformation in der menschlichen Cochlea werden die Signale in Frequenzbänder aufgeteilt wie in Abschnitt 4.3.1 beschrieben. Analog zur Kodierung der Signalphase und -energie im Hörnerv werden Rechteckim-
47
ASA
Innenräume
Nachhall
Mikrophonarray
Neurobiologie
TDOA
klar lokalisierte
Sprachteile
glimpsing model
Echtzeit
Abbildung 30.: Verarbeitungsstruktur (von links nach rechts): Mikrophonarray, Filterbank, Spikeerzeugung,
Korrelation, Rückprojektion, Fuzzy-Kombination und Sprachenergiedetektion.
pulse generiert (Abschnitt 4.3.2). Hier führen nur stark modulierte
Anfangspeaks zur Impulserzeugung. Diese werden einer korrelativen
Analyse in Anlehnung an die Verarbeitung der auditory pathways unterzogen. Dabei werden von Band- und Mikrophonabstand abhängige
Fensterlängen zum Erhalt eindeutiger Peaks verwendet (Abschnitt 4.4).
Die Korrelationswerte werden von den Ankunftszeitverzögerungen zu
Quellwinkeln zurückprojeziert (Abschnitt 4.5.1). Danach werden die
Werte der einzelnen Mikrophonpaare mit einer robusten Fuzzy-Kombination zu gemeinsamen Quellpositionshypothesen kombiniert (Abschnitt 4.5.2). Diese werden über Zeitfenster und alle Frequenzbänder
zusammengefaßt. Über die Zeit werden schliesslich die Winkel von aktiven Sprechern als Peaks über die Quellwinkel identifiziert (Abschnitt
4.6).
4.2
signalaufnahme
Die hier vorgestellte Implementierung lässt sich prinzipiell auf beliebige Mikrophonanordnungen anwenden. Für die Lokalisierung von Gesprächspartnern in einem Konferenzraum wird ein zirkuläres Mikrophonarray gewählt, welches auf dem Tisch zwischen den Sprechern
positioniert wird wie in Abbildung 31 dargestellt. Um Signale mit guter Phasenauflösung zu erhalten, werden die Mikrophone mit einer
Abtastrate von f s = 48 kHz abgetastet.
4.2.1 Mikrophonarray
zirkular
äquidistantes
Mikrophonarray
Das Mikrophonarray besteht aus acht äquidistant auf einem Kreis angeordneten omnidirektionalen Mikrophonen. Die äquidistant planare
Anordung ist auf die Lokalisierung über den Drehwinkel abgestimmt.
Die Mikrophone spannen vier Subbänder mit unterschiedlichen Eigenschaften auf wie in Tabelle 1 aufgelistet. In der Skizze am Rand sind
jeweils die Mikrophonpaare eines Subbands mit einem Strichmuster
verbunden. Bei Verwendung eines kleinen Radius von r a = 0.05 m liegt
die Grenze f a für räumliches Aliasing zwischen 3.4 kHz und 9 kHz, so
Paare
4
8
8
8
|i − j |
4
3
2
1
2r
1.84r
1.42r
0.72r
d [m]
f a [kHz]
= 0.10
= 0.92
= 0.71
= 0.36
3.43
3.73
4.83
9.03
2τmax
28
26
20
11
Tabelle 1.: Subbänder des zirkulären Mikrophonarrays
48
neuro-fuzzy-lokalisierung
Abbildung 31.: Platzierung des Mikrophonarrays im Konferenzszenario auf dem Tisch zwischen den Sprechern. Die zirkulär äquidistant angeordneten Mikrophone erlauben die Lokalisierung des
Quellwinkels, ein Winkel α1 zur Quellposition q1 ist exemplarisch eingezeichnet.
dass alle ersten und zweiten Formanten durchgängig aufgelöst werden. Bei einer Abtastrate von 48 kHz entsprechen 11 bis 28 Samples
der physikalisch maximal möglichen Laufzeitdifferenz zwischen zwei
Mikrophonsignalen in den Subbändern.
4.2.2
Platzierung
Das Mikrophonarray wird so platziert, dass es möglichst koplanar und
nah an allen möglichen Sprecherpositionen ist. Die Präzision der Drehwinkellokalisierung nimmt mit der Neigung und der Entfernung zum
Sprecher ab. Für gute Ergebnisse ist das Array so zu platzieren, dass
sich die Sprecher in einer Neigung von −25° bis 25° aufhalten. Die
maximale Sprecherentfernung sollte im Bereich des doppelten Hallradius 2 · r H liegen (vgl. Abschnitt 2.2.2), was in üblichen Konferenzräumen zwischen 2 m und 4 m entspricht. Dazu ist ein Mindestabstand
von 0.5 m zu beachten, um die Fernfeldannahme nicht zu verletzen
(vgl. Abschnitt 2.2.3). Bei kleineren Abständen führt die Sphärizität der
Wellenfronten zu Laufzeit- und Amplitudenunterschieden, die vom
Abstand und der relativen Position der Mikrophone abhängen. Diese
Forderungen sind in den meisten Konferenzsituationen leicht durch
eine zentrale Positionierung des Mikrophonarrays auf dem Konferenztisch zu erreichen.
4.3
Sprecher in 0.5 - 3 m,
−25° - 25°
cochlea-modell
Das verwendete Modell der menschlichen Cochlea besteht aus einer
Filterbank und einer modulationsbasierten Generierung von Rechteckimpulsen. Als Modell der frühen neuronalen Verarbeitung werden die
Pulse mit einer Betonung des Einsatzes generiert und dann korreliert.
Die onset dominance wird von einigen Neurologen als wesentlicher Mechanismus für das Hören und Lokalisieren in Umgebungen mit starkem Hall beim Menschen gesehen [DIH+ 09]. In der Kongitionspychologie wird die Auswertung der „ersten Wellenfront“ als precedence effect
bezeichnet [WB06, S. 26ff.] und als wesentlicher Mechanismus der Lokalisierung bei Hall angesehen.
4.3 cochlea-modell
onset dominance
precedence effect
49
4.3.1
Gammatonfilter
Filterbank
Die Frequenz-Orts-Transformation auf der Basilarmembran wird nach
dem Patterson-Holdsworth-Modell mit einer Filterbank nachgebildet
[PNSHR88]. Dabei wird eine Reihe von Gammatonfiltern vierter Ordnung eingesetzt (vgl. Abchnitt 3.3.1). Die Übertragungsfunktion eines
Gammtonfilters n-ter Ordnung mit einer Mittenfrequenz f b und Bandbreite wb entspricht im wesentlichen einem Bandpassfilter in Form einer Exponentialfunktion [UA99]
(b)
Ĝ(n) ( f )
=
ı( f − f b )
1+
wb
−n
,
(4.1)
hier bezeichnet ı die imaginäre Einheit. Der Amplitudengang für ein
Gammatonfilter vierter Ordnung lässt sich so als
w4b
w4b
= p
Ĝ (b) ( f ) = 4
rg( f )2 + ig( f )2
(wb − ı ( f − f b )) (4.2)
mit rg( f ) = w4b − 6w2b ( f − f c )2 + ( f − f b )4
und ig( f ) = 4 wb ( f − f c )3 − ( f − f b )w3b
approximieren. Entsprechend der Außen-Mittelohr Übertragung kann
die Maximalamplitude der Bänder nach der Näherung von Terhardt
als
2
A f · 103 = − 3.64 f −0.8 + 6.5e−0.6( f −3.3) − 10−3 f 4
(4.3)
Filterdefinition
approximiert werden [Ter79]. Damit ergibt sich als Filterdefinition für
eine auditive Filterbank
H (b) ( f ) = 10( A( f b )/20) Ĝ (b) ( f ).
(4.4)
Die Positionierung der Mittenfrequenzen f b erfolgt dabei äquidistant
nach der equal resonance bandwidth (ERB)
ERB( f ) := 21.366 log
f · 4.368 · 10−3 + 1 .
(4.5)
Glasberg&MooreParameter
Nach Glasberg und Moore [GM90] wählt man diese nach Gleichung
4.5 mit wb = ERB ( f b ). Zur Lokalisierung von Sprechern anhand der
typischen Sprachenergien werden nb = 16 Frequenzbänder mit Mittenfrequenzen f b zwischen 0.2 kHz und 3.6 kHz eingesetzt. Abbildung
32 zeigt die Amplitudengänge dieser Filterbank.
Die Filter werden dabei mit schneller Faltung via FFT-Overlap-Add
realisiert [Smi99, S. 180ff.]. Das Zeitsignal y[t] wird in N = 2ν Samples
lange Zeitfenster mit 50 % Überlappung, also in t = k · 2ν−1 Intervallen,
mit einem Cisoid-Fenster
πn
w[n] = sin
(4.6)
N−1
multipliziert und über eine schnelle Fouriertransformation in den Frequenzbereich überführt
Y [ f ] ◦−• y[t]w[t] .
50
neuro-fuzzy-lokalisierung
(4.7)
H (b) (f) [dB]
−12
−24
−36
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
f [kHz]
Abbildung 32.: Frequenzgang der auditiven Filterbank aus 16 Gammatonfiltern mit Mittenfrequenzen f b =
0.2, . . . , 3.6 kHz mit der exponentiellen Näherung und Bandamplituden nach der AußenMittelohr-Übertragungsfunktion.
Das Spektrum wird für jedes Band mit dem Frequenzgang nach Gleichung 4.4 multipliziert und mit der inversen Transformation in den
Zeitbereich zurücktransformiert:
y(b) [t] •−◦ Y [ f ] H (b) [ f ] ,
(4.8)
wo aufeinander folgende Zeitfenster überlappend zu einem kontinuierlichen Zeitsignal addiert werden.
Durch diese Berechnungsweise bleiben die Phasen des Signales in den
Bändern zueinander synchron, was wesentlich für die nachfolgende
Laufzeitauswertung ist. Durch Verwendung der hochoptimierten libFFTW [FJ05] ist dies in etwa gleich schnell wie die gebräuchliche Realisierung mit IIR-Filtern [Sla93] ohne Phasenkompensation. Zur Erzeugung linearphasiger Signale wird bei Verwendung von IIR-Filtern üblicherweise eine zweite Filterung des zeitlich invertierten Signales vorgenommen [SGT07]. Damit ist diese Variante sowohl langsamer als auch
nicht direkt online-fähig.
4.3.2
Impulserzeugung
Zur Modellierung der neuronalen Verarbeitung werden in den Bändern schmale Rechteckimpulse bei Signalmaxima generiert, welche die
Phase und Energie des Signales repräsentieren. Die Auswertung von
Maxima ist gegenüber anderen Ansätzen störresistenter, eine derartige Erzeugung phasenstarrer Impulse bildet auch beim Menschen die
Basis der Lokalisierung [Gro03]. Der Mittelwert des gleichgerichteten
Signales
ỹ[t] =
1 L− D
∑ |y[t + l ]|
L + 1 l =−
D
phase locking
Peak over Average
(4.9)
wird als moving average über L = f s · 30 ms entsprechend ca. zwei Pitchperioden gewonnen, um die aktuelle Stimmlautstärke wiederzugeben.
Der Lesbarkeit zuliebe wird der Bandindex (b) in diesem Abschnitt
weggelassen. Die Differenz
ŷ[t] :=y[t] − ỹ[t]
(4.10)
4.3 cochlea-modell
51
(a) Bestimmung der Peakposition pn
(b) Rechteckimpuls s[t]
(c) Onset-Dominance
Abbildung 33.: Erzeugen eines Rechteckimpulses mit dem Peak-over-Average Verfahren. Über den Vergleich
des Mikrophonsignales y[t] mit seinem Mittelwert ỹ[t] werden modulierte Intervalle [un , dn ]
bestimmt (a). Die Position des höchsten Wertes pn bestimmt die Phase, die Differenzamplitude in dem Intervall die Höhe hn des generierten Impulses (b). Durch Verschieben des
Mittelwertes ragen die ersten Schwingungen stärker heraus (c) und es kommt hier vermehrt
zur Impulsgenerierung.
precedence effect
wird als Peak-over-Average-Modulationsmaß berechnet. Durch eine Verschiebung des Mittelwertes um D = f s · 3 ms wird bereits monaural auf starke Einsätze (onsets) folgender Hall unterdrückt, wie dies
nach Ansicht einiger Neurologen im Cochlear Nucleus (CN) erfolgt
[BvH07]. Zusammen mit der nachfolgenden Korrelation ist dies auch
eine pragmatische Umsetzung des precedence effect ähnlich der von Palomäki et al. [PBW04]. Positive ŷ[t]-Intervalle [un , dn ] enthalten onsets
hinreichender Modulation. Diese sind leicht zwischen den Nulldurchgängen der Signaldifferenz zu identifizieren:





ŷ
[
t
]
>
0
∀
u<t<d 


.
(4.11)
Iy = [u, d] ∧ ŷ[u − 1] ≤ 0






∧ ŷ[d + 1] ≤ 0
Die Maximumpositionen (Peak-over-Average Positions, PoAP)
PoAP y[t] := pn = argmax ŷ[t] | [un , dn ] ∈ Iy
t
phase locking
un ≤ t ≤ dn
werden nun als Position des höchsten Wertes von ŷ[t] in den Intervallen [un , dn ] bestimmt wie in Abbildung 33 dargestellt. Dabei kodieren
die pn die Phase des Maximums des Eingangsignales, wie dies auch
bei den Spike-Trains im Hörnerv durch deren Phase geschieht. Als weitere Bedingung für signifikante Sprachenergie werden nur Positionen
pn verwendet, bei denen das Energieverhältnis
20 log y[ pn ] − 20 log ỹ[ pn ] > thmod
intesity coding
(4.12)
(4.13)
hinreichend groß ist. Die Modulationsschwelle thmod wird entsprechend der Modulation typischer starker Sprachbestandteile auf 9 dB
gesetzt.
Die Höhe des Rechteckimpulses repräsentiert die Signalenergie, wie
sie im Hörnerv durch die Spikeanzahl kodiert ist [Han89]. Die Höhe
hn = 2 f b /1000
dn
∑
t=un
(ŷi [t])0.5
(4.14)
eines Rechteckimpulses wird als Summe der Wurzeln der Peak-overAverage-Werte bestimmt. Dazu wird eine Emphase zur Equalisierung
über die Frequenzbänder ergänzt, die zu gleichstarken Korrelationswerten in allen Bändern führt.
52
neuro-fuzzy-lokalisierung
Die Breite des erzeugten Rechteckimpulses wurde heuristisch auf
50 µs in Analogie zur menschlichen neuronalen Verarbeitung fixiert.
Zu große Breiten erzeugen unscharfe Korrelationsfiguren, zu schmale
Breiten verhindern die Korrelation von Signalen mit kleinen Phasenunterschieden. Das Impulsfolgensignal ergibt sich so zu
si [ t ] =
∑ hn ⊓25 (t − pn )
Rechteckimpuls
(4.15)
n
mit ⊓l (t) :=
(
1
t ≤ l f s 10−6
0 sonst.
Aus Effizienzgründen wird in der Implementierung für die Impulsfolgen kein Zeitsignal, sondern eine Liste der Positionen und Höhen
( pn , hn ) in einer indizierten Datenstruktur verwendet.
4.4
modell neuronaler korrelation
Entsprechend dem Modell der neuronalen Korrelation von Jeffress
[Jef48] werden die Signale eines Mikrophonpaares in jedem Fequenzband gefaltet. Die in kurzen Zeitfenstern akkumulierten Werte sind
abhängig von der modulierten Sprachenergie mit einem bestimten
Zeitversatz. Die Rechteckimpulse ergeben hier eine scharfe Korrelationsfigur mit deutlich entfernten, fluktuierenden Nebenmaxima. So
kann hier eine ITD-Schätzung erfolgen, ohne dass eine Schärfung zu
einem skeleton cross-correlogram nötig ist (vgl. Abschnitt 3.3.3). Diese
wird von vielen CASA-Modellen verwendet, um die Korrelationsfigur
von Halbweggleichgerichteten Signalen auszuwerten [PBW04, RW08].
Bei der Faltung werden je nach Mikrophonpaar und Frequenzband
unterschiedlich lange Fenster gewählt, um Aliasing zu vermeiden.
Jeffress Model
4.4.1 Aliasing
Die Länge der Korrelationsfenster wird hierbei band- und mikrophonpaarweise festgelegt, um zwei Arten von Aliasing zu minimieren: Zum
einen räumliches Aliasing, welches auftritt, wenn eine Wellenlänge
kürzer ist als der Abstand der beiden Mikrophone und zum anderen
harmonische Fehler, die auftreten wenn mehr als eine Schwingung
in das Korrelationsfenster fällt. Als Bandgrenzen der Gammatonfilter
werden die Frequenzen f b ± 2wb angenommen, hier ist die Dämpfung
größer als 24 dB.
Räumliches Aliasing wird durch Einschränkung der korrelierten Mikrophonpaare (i, j) auf diejenigen erreicht, welche die Bedingung
c
P(b) = (i, j) kmi − m j k <
(4.16)
f b + 2wb
erfüllen, dass die kürzeste Welle im Band mindestens so breit ist wie
der Mikrophonabstand. Hier sind die Mikrophonpositionen mit mi
und m j bezeichnet und mit c die Schallgeschwindigkeit.
Durch die Selbstähnlichkeit des Signals treten bei der Korrelation harmonischer Fehler auf. Hier führen ähnliche Signalteile, ebenso wie die
gleichzeitg geäußerten, zu Maxima in der Korrelation beider Signale.
Um harmonische Fehler zu reduzieren, wird die Größe des Korrelationsfensters als Summe der maximalen Pitchperiode T0 = 14 ms (ent-
4.4 modell neuronaler korrelation
räumliches
Aliasing
harmonische Fehler
53
sprechend einer minimalen Stimmtonhöhe von etwa 70 Hz, vgl. Abschnitt 2.1.2) des Mikrophonabstandes und zwei maximalen Wellenenlängen zu
(b)
K(i,j)
=
k mi − m j k
2
+
T0 +
c
f b − 2wb
fs
(4.17)
bestimmt. Als Vorschub der Korrelationsfenster wird S = f s · 20 ms
gewählt.
4.4.2
Impulskorrelation
Die Faltung von Impulspaarfolgen ( pi , hi ) und ( p j , h j ) in einem Zeitfenster k wird explizit berechnet: Die Faltung zweier Rechteckimpulse
mit den Amplituden hi , h j ergibt ein Dreieck der Höhe hi h j . Die Summe aller so bestimmten Dreiecke entspricht somit der Faltung aller
Rechtecke. So kann zur Berechnung der Korrelation für jedes Paar von
Impulsen aus den zwei Folgen ein Dreieckimpuls aufaddiert werden:
(b)
rij [k, τ ] =
∑
(b)
(b)
( pi ,hi )∈si ,( p j ,h j )∈s j
mit ∧l (t) :=

 |t−l ′ |
l′

0
(∧25 (τ − pi )hi h j + ∧25 ( p j − τ )h j hi )
|t − l ′ | < l ′ , l ′ := l f s 10−6
(4.18)
sonst.
Experimente zeigen, dass dies für die dünn besetzen Impulsfolgen
mindestens so effizient berechenbar ist wie die Faltung per Fouriertransformation. Durch Verwendung der Datenstruktur mit indizierten
Impulspositionen ist dies in Algorithmus 1 angebene Verfahren deutlich schneller.
4.5
rückprojektion und kombination
Die ermittelten Zeitverzögerungen werden auf Drehwinkel zurückprojeziert (Abschnitt 4.5.1). Die Projektionen aller Mikrophonpaare werden dann zu einer gemeinesamen Quellpositionsschätzung kombiniert
(Abschnitt 4.5.2).
4.5.1 Rückprojektion
Fernfeld
dilution of precison
54
Wird das Array auf dem Tisch platziert, wie in Abbildung 31 dargestellt, kann man davon ausgehen, dass sich die Sprecher anhand des
Drehwinkels trennen lassen und dort nicht überlappen. Als mögliche
Sprecherpositionen sind nur flache Neigungswinkel interessant.
Die eintreffenden Wellenfronten können nach der Fernfeldannahme
als quasi parallel angesehen werden, daher kann die Entfernung der
Quelle nicht geschätzt werden. Die auftretenden Ankunftszeitverzögerungen aus einer festen Richtung sind auf die Genauigkeit eines Abtastwertes identisch für r ≫ 5r a . Den Abstand des Mikrophonpaarmittelpunktes vom Mikrophonarraymittelpunkt kann man ebenfalls
nach der Fernfeldannahme vernachlässigen. Für flache Neigungswinkel ist die Neigungsschätzung durch ein planares Array extrem ungenau, was auch die dilution of precison wiedergibt [BH99]. Die Zeitver-
neuro-fuzzy-lokalisierung
Input : zwei Impulsfolgen si = ( pi , hi ), s j = ( p j , h j )
Output : Korrelation r in überlappenden Fenstern
foreach Fenster k do
ps = kS
pe = ps + K
r [k, τ ] = 0
Li = Lj = ∅
pi = FirstNonzeroPositionGreater( si , ps )
while pi < pe do
Li = Li ∪ ( pi , hi )
// Impulse in si
pi = NextNonzeroPosition( si )
end
p j = FirstNonzeroPositionGreater( s j , ps )
while p j < pe do
Lj = Lj ∪ ( pj, hj )
// Impulse in s j
p j = NextNonzeroPosition( s j )
end
foreach ( pi , hi ) ∈ Li do
foreach ( p j , h j ) ∈ L j do
τ = pi − p j
// TDOA
if |τ | < τmax then
h = hi h j
// Dreieck addieren
r [k, τ ] = r [k, τ ] + h
r [k, τ ± 1] = r [k, τ ± 1] + 2/3h
r [k, τ ± 2] = r [k, τ ± 2] + 1/3h
end
end
end
end
Algorithmus 1: Schnelle Impulskorrelation
zögerungen τ jedes Mikrophonpaares werden daher auf Drehwinkel
zurückprojeziert, welche dem Einfallswinkel in der Mikrophonarrayebene entsprechen. Für einen Drehwinkel α und das Mikrophonpaar
(i, j) ergibt sich so die Ankunftszeitdifferenz (TDOA)
kmi − m j k cos α − β ij f s
τij (α) =
(4.19)
c
TDOA
abhängig vom Abstand der Mikrophone und der relativen Ausrichtung des Mikrophonpaares bezogen auf ein beliebiges Paar, etwa (0, 4),
also
!
(m j − mi )(m4 − m0 )
(4.20)
β ij =∡ mi m j , m0 m4 = arccos
km j − mi kkm4 − m0 |
wie in Abbildung 34 skizziert. Somit erhält man durch Umformung
von Gleichung 4.19 den aus einer Ankunftszeitdifferenz τ̂ an einem
Mikrophonpaar geschätzten Quellwinkel
!
c τ̂
′
′
′
α̂ ∈ {α , π − α }, α = arccos
− β ij .
(4.21)
k mi − m j k f s
4.5 rückprojektion und kombination
Quellwinkel
55
Abbildung 34.: Parallele Schallfront, die auf ein Paar (i, j) des zirkulären Mikrophonarrays trifft. Eingezeichnet sind die relative Ausrichtung β ij zum Paar (0, 4) und die dem Ankunftszeitversatz entsprechenden Winkel α′ und π − α′ .
So können die Korrelationsergebnisse je diskreter Ankunftszeitdifferenz in die interpolierte Energie je Quellwinkel umgerechnet werden:
(b)
(b)
eij [k, α] = rij [k, τij (α)].
(4.22)
Für diskretisierte Quellwinkel werden Energiewerte durch lineare
Interpolation zwischen den Energiewerten für einen Halbkreis und
anschließende Spiegelung berechnet. Die Zeitverzögerungen entsprechen zwei Drehwinkeln für eine Neigungsebene, diese Mehrdeutigkeit
wird durch die Kombination nicht kolinearer Mikrophone aufgelöst.
4.5.2 Kombination
Verbundwahrscheinlichkeit
Fuzzy
Kombination
56
Zur kombinierten Schätzung der Quellposition werden die Werte der
einzelnen Mikrophonpaare kombiniert. Bei hinreichender Energie im
Quellsignal x [t] an einer Position α muss der Energiewert für alle Paare
hoch sein. Die Addition bei der SPR-PHAT führt damit für jeden echten Quellwinkel zu einem hohen Wert, jedoch treten auch eine Vielzahl
ungewollter sekundärer Peaks (ghosts) auf. Betrachtet man die Energiewerte als Wahrscheinlichkeiten und die Mikrophonpaare als unabhängige Messungen, ist das Produkt der Energie der Paare die Verbundwahrscheinlichkeit der Präsenz einer Quelle an α. Ein einfaches
Produkt macht die Kombination allerdings empfindlich gegen kleinste Abweichungen in Signal und Geometrie. Als robuste produktartige
Kombinationsvorschrift wird eine Fuzzy-t-Norm verwendet. Die Familie hγ ( x, y) der Hamacher-t-Normen (Gleichung 3.12) wurde hierzu erstmals von P. Pertilä et al. als Kombinationsmethode verwendet
[PKV08]. Für das hier beschriebene System ist die von γ = 0.3 bestimmte t-Norm gut geeignet. Höhere Werte für γ reduzieren die Zahl
der Peaks, Kleinere führen zu ungewollten sekundären Peaks. Durch
neuro-fuzzy-lokalisierung
Input : Energiesignale E = {eij }
Output : Kombination e
while | E| > 2 do
E′ = ∅
for i ∈ {0 . . . | E|/2} do
e′ = CombinePair( e[2i ], e[2i + 1] )
E′ = E′ ∪ e′
end
E = E′
end
e = E [0]
// Algorithmus 3
// neue Blattebene
Algorithmus 2: Paarweise Kombination
Input : zwei Energiesignale ei , e j
Output : Kombination e
pi = p j = 0
pe = min{ LastPosition( ei ), LastPosition( e j ) }
e=0
repeat
while pi < p j do
pi = NextNonzeroPosition( ei )
end
while p j < pi do
p j = NextNonzeroPosition( e j )
end
if p j = pi then
e[ p j ] = hγ (ei [ pi ], e j [ p j ])
pi = NextNonzeroPosition( ei )
end
until pi ≥ pe ∨ p j ≥ pe
// ei holt auf
// e j holt auf
// kombinieren
Algorithmus 3: Kombination eines Paares
iterative Anwendung von hγ wird nun die kombinierte Quellenergie
im Zeit×Winkel-Raum berechnet
e(b) [k, α] =
K
(b)
eij [k, α].
(4.23)
(i,j)∈ P(b)
Dies kann einfach als ebenen-weises Zusammenfassen des Binärbaumes bis zur Wurzel formuliert werden wie in Algorithmus 2 angegeben.
Bei der Kombination kann wie bei der Korrelation der Umstand ausgenutzt werden, dass die Energiewerte dünn besetzt sind, um die Berechnung zu beschleunigen. Dazu wurde ein „Wettlaufalgorithmus“
zur schnellen Kombination zweier rückprojezierter Impulsfolgen implementiert. Da für die Hamacher-, wie für jede Fuzzy-t-Norm die
Nullelementeigenschaft hγ (0, x ) = hγ ( x, 0) = 0 gilt, müssen nur Positionen beachtet werden, bei denen beide Paare von Null verschiedene Werte haben. Daher wird jeweils in einem Signal die Position
erhöht, bis Sie die Position im anderen eingeholt hat. Sind die Positionen gleich, wird e[ p j ] = hγ (ei [ pi ], e j [ p j ]) als Ausgabe berechnet. Algorithmus 3 zeigt den entsprechenden Pseudocode.
Die pro Zeitfenster kombinierten Ergebnisse e(b) [k, α] sind durch die
onset dominance und die variable Korrelationsfensterlänge und Aus-
4.5 rückprojektion und kombination
57
wahl alias-freier Mikrophonpaare bereits von vielen Störungen befreit,
wie in Abbildung 35 zu sehen.
4.6
lokalisierung von sprechern
Zur finalen Lokalisierung von Sprechern wird Wissen über die Natur
des Sprachsignals, die zeitliche Dynamik und ein Modell der Peakverteilung eingesetzt. Dabei wird zunächst über ein Zeitfenster gemittelt,
dann werden die Frequenzbänder zusammengefasst. Schließlich werden mit einem Peakdetektor die Quellwinkel aktiver Sprecher in jedem
Zeitfenster ermittelt.
4.6.1
Zeitliche Mittelung
Bei starkem Hall ist die Zahl verlässlicher Energiepeaks relativ gering. Es existiert dazu eine Zahl verbleibender unkorrelierter sekundärer Peaks. Geht man davon aus, dass der Sprecher sich nicht ungewöhnlich schnell bewegt, so ist die Zahl der seiner Position entsprechenden Peaks über einen längeren Zeitraum deutlich höher. Der
Mittelwert über eine längeres Zeitsegment von M = f s · 1 s Samples
wird als moving average mit einem Viertel Fensterlänge Vorschub von
T = f s · 250 ms berechnet:
ẽ(b) [l, α] =
S
M
⌈(lT + M/2)/S⌉
∑
e(b) [k, α].
(4.24)
k=⌊(lT − M/2)/S⌋
Die Summe der Energien in einem längeren Zeitfenster produziert
dann an den Sprecherpositionen hohe Peaks, wie in Abbildung 35d
zu sehen.
4.6.2 Zusammenfassen der Frequenzbänder
assumtion
→ Summation
dependency
spektrale
Verteilung
→ Anzahl
58
Da alle Frequenzanteile des Signales eines Sprechers durch dieselbe
Mundöffnung moduliert werden, ist ihre Amplitudenmodulation und
insbesondere ihr Einsetzen (onset) stark korreliert, was von verschiedenen ASA grouping cues ausgenutzt wird [Bre90, S. 572ff.]. Bei natürlicher Sprache kann man daher nach der dependency assumption spektrale Energien als abhängig über die Frequenzbänder betrachten [PK06].
Geht man weiter davon aus, dass keine oder nur sehr wenige e(b) [k, α]Werte von verschiedenen Sprechern kollidieren, und Störungen wie
Hall als unabhängig über die Frequenz betrachtet werden können, so
sind gemeinsame Peaks in verschiedenen Frequenzbändern unabhängige „Zeugen“ für Sprache. Dementsprechend produziert die Summe
über die Frequenzbänder Peaks, die sehr wahrscheinlich einen einzelnen Sprecher repräsentieren.
Sowohl der Hall als auch verbleibende harmonische Fehler durch Aliasing sind abhängig von der Signalfrequenz und erzeugen Peaks in
verschiedenen Frequenzbändern an verschiedenen Stellen. Demgegenüber erzeugt die Sprache eines Sprechers an einer festen Position Peaks
in verschiedenen Frequenzbändern an derselben Stelle, welche der
Ankunftszeitverzögerung entspricht. Viele natürliche Sprachlaute sind
über mehrere Frequenzbänder ausgedehnt. Ein längeres Zeitintervall
von Sprache enthält verschiedene Laute und die Übergänge zwischen
neuro-fuzzy-lokalisierung
180
120
2.24
Winkel [°]
Frequenz [kHz]
3.60
1.37
0.80
0.44
60
0
-60
-120
0.20
-180
-180
0
180
Winkel [°]
80.0
82.5
85.0
87.5
Zeit [s]
90.0
92.5
95.0
(a) PoAP Rechteckimpulse D = 15 ms, thmod = 0, feste Fensterlänge K = 40 ms, alle Paare
180
120
2.24
Winkel [°]
Frequenz [kHz]
3.60
1.37
0.80
0.44
60
0
-60
-120
0.20
-180
-180
0
180
Winkel [°]
80.0
82.5
85.0
87.5
Zeit [s]
90.0
92.5
95.0
(b)
(b) PoAP Rechteckimpulse D = 15 ms, thmod = 0, variable Fensterlänge K(i,j) , alias-freie Paare P(b)
180
120
2.24
Winkel [°]
Frequenz [kHz]
3.60
1.37
0.80
0.44
60
0
-60
-120
0.20
-180
-180
0
180
Winkel [°]
80.0
82.5
85.0
87.5
Zeit [s]
90.0
92.5
95.0
92.5
95.0
(c) onset dominance D = 3 ms, thmod = 9, feste Fensterlänge K = 40 ms, alle Paare
180
120
2.24
Winkel [°]
Frequenz [kHz]
3.60
1.37
0.80
0.44
60
0
-60
-120
0.20
-180
-180
0
180
Winkel [°]
80.0
82.5
85.0
87.5
Zeit [s]
90.0
(b)
(d) onset dominance D = 3 ms, thmod = 9, variable Fensterlänge K(i,j) , alias-freie Paare P(b)
Abbildung 35.: Hier wird der isolierte und gemeinsame Effekt der Begrenzung der Korrelationsfensterlänge
und der Einschränkung auf Mikrophonpaare sowie der onset dominance an einem Beispiel
gezeigt. Dargestellt ist das kombinierte Korrelationsergebnis für 2 gleichzeitige Sprecher in
der FINCA, dargestellt ist jeweils die summierte Korrelationsenergie als Funktion von Winkel
und Frequenzband ∑k e(b) [k, α] (links) und von Winkel und Zeit ∑α e(b) [k, α] (rechts).
4.6 lokalisierung von sprechern
59
denselben, so dass ein großer Frequenzbereich abgedeckt wird. Daher
können fehlerhafte Detektionen durch Einführen einer Bedingung für
die Anzahl aktiver Bänder
B[l, α] := {b | ẽ(b) [l, α] > 0}
(4.25)
unterdrückt werden.
Aufgrund dieser beiden Überlegungen werden die Ergebnisse der einzelnen Frequenzbänder addiert, und bei Summation nur solche Zeitfenster berücksichtigt, bei denen mindestens ein Viertel der nb Frequenzbänder einen Peak aufweist:
ẽ[l, α] =



∑b∈ B[k,α] ẽ(b) [l, α]
0
wenn | B[l, α]| ≥ ⌊nb /4⌋
(4.26)
sonst.
4.6.3 Peaklokalisierung
In einem Kurzzeitsegment erzeugen die je Frame k lokalisierten Energien eines Sprechers schmale Peaks mit kleiner Varianz σs ≤ 5°. Demgegenüber haben Störungen und insbesondere Hall eine große Varianz σn ≥ 45°. Verschiedene Lokalisierungsverfahren verwenden eine
Gaußsche Mischverteilung mit entsprechenden Parametern zur Modellierung der Peakverteilung [LO07, MM08]. Das hier üblicherweise eingesetzte maximum likelihood-Clustering erfordert allerdings eine Schätzung der Anzahl der Sprecher sowie ihrer Position [DHS01, S. 124ff.].
Als alternatives Verfahren wird hier stattdessen auf den über M =
f s · 1 s Intervallen gemittelten Werten ẽ[l, α] ein Peak der Energie über
die Winkel gesucht, um Sprechermaxima von dem Störungungshintergrund zu identifizieren. Wie bei der Difference of Gaussians (DoG) in
der menschlichen Wahrnehmungsverarbeitung [IKN98] wird hierbei
die Differenz von Werten aus verschiedenen Skalenebenen verwendet.
Dazu werden über die Drehwinkel Mittelwerte als moving average modulo 360° berechnet
ĕ A [l, α] =
A/2
1
∑ ẽ[l, (α + d) mod 360].
A + 1 d=−
A/2
(4.27)
Die Differenz
(4.28)
ê[l, α] =ĕ4 [l, α] − ĕ44 [l, α]
eines schmalen Mittelwertes, welche die Sprecherpeaks repräsentiert,
und eines breiten Mittelwertes, welcher den Störungshintergrund repräsentiert, induziert wieder modulierte Intervalle





ê
[
l,
a
]
>
0
∀
u< a<d 


.
(4.29)
Ie = [u, d] ∧ ê[l, u − 1] ≤ 0






∧ ê[l, d + 1] ≤ 0
Die Position eines Maximums (Peak-over-Average Position, PoAP) entspricht einer geschätzten Quellposition:
(4.30)
PoAP ẽ[l, α] = (l, an ) | an = argmax ê[l, a] | [un , dn ] ∈ Ie
α
60
neuro-fuzzy-lokalisierung
un ≤ a ≤ dn
Hier entsprechen die Winkel an der Position eines aktiven Sprechers zu
Zeitpunkt l, also der Vektor (l, an )T einer Detektion im Zeit×WinkelRaum. Abbildung 36 zeigt die Wirkung der drei beschriebenen Nachverarbeitungsschritte am Beispiel eines Ausschnitts einer Aufnahme
in dem Konferenzraum der FINCA [Plö07] mit deutlichem Hall, T20 ≈
0.5 s [Hen09, S. 51ff.].
4.7
zusammenfassung
Das im Rahmen dieser Arbeit entwickelte Verfahren lokalisiert Sprecher in realen Umgebungen mit einer Kombination von neurobiologischen und kognitionspsychologischen Modellen mit technischen Methoden. Dabei wird ein auf einen Konferenztisch angeordnetes planares zirkuläres Array aus acht omnidirektionalen Mikrophonen verwendet, das an einen handelsüblichen PC angeschlossen ist. Die Verarbeitung stützt sich auf neurobiologische und kognitionspsychologische Erkenntnisse zur Ermittlung besonders robuster Merkmale, alle Modellparameter sind auf die Lokalisierung von Sprachereignissen
abgestimmt. Durch Laufzeitoptimierung sind in Echtzeit kontinuierliche Sprecherpositionsschätzungen möglich. Das Verfahren kann in
verschiedenen realen Situationen zur Sprecherlokalisierung eingesetzt
werden, insbesondere auch in Innenräumen mit mittlerem oder starkem Hall.
4.7 zusammenfassung
Mikrophonarray
Neurobiologie
Lokalisation von
Sprechern
reale Umgebungen
Hall
61
180
Wi6kel [°]
120
60
0
-60
-120
-180
102.0
103.0
104.0
105.0
106.0
107.0
Zeit [s]
108.0
109.0
110.0
111.0
(a) Korrelationsergebnis der einzelnen Zeitfenster e(b) [k, α]
180
Winkel [°]
120
60
0
-60
-120
-180
102.5
105.0
107.5
110.0
112.5
Zeit [s]
(b) Zeitliche Mittelung ẽ(b) [l, α] über eine Sekunde
180
Winkel [°]
120
60
0
-60
-120
-180
102.5
105.0
107.5
Zeit [s]
110.0
112.5
(c) Zusammengefasste Frequenzbänder ẽ[l, α] mit Energie in mehr als 5/16 Bändern
180
Winkel [°]
120
0
0
- 0
-120
-180
102.5
105.0
107.5
Zeit [s]
110.0
112.5
(d) Peaklokalisierung PoAP ẽ[l, α]
α
Abbildung 36.: Lokalisierung der Sprachenergien zweier Sprecher im Konferenzraum der FINCA mit dem
beschriebenen System. Beide sprechen weitgehend kontiuierlich, einer sitzt bei −90° am Tisch,
der zweite steht bei 130° davor, beide sprechen zueinander in Richtung des beschriebenen Mikrophonarrays. Dargestellt sind die Daten vor und nach den drei Nachverarbeitungsschritten
zeitliche Mittelung, Zusammenfassen der Frequenzbänder und Peak-Lokalisierung.
62
neuro-fuzzy-lokalisierung
5
EVALUIERUNG
Das in dieser Arbeit vorgestellte Verfahren wurde mittels der Evaluierung von Einzelkomponenten, Teilmodellen und schließlich dem Gesamtsystem entwickelt und verfeinert. In diesem Kapitel werden die
wesentlichen Experimente und Ergebnisse dargestellt, welche zu dem
im vorhergehenden Kapitel beschriebenen Verfahren geführt haben.
Als Daten für die Entwicklung und für Tests wurden simulierte Konferenzszenarios verwendet. Diese erlauben eine parametrisierte Variation von Hallstärke und Sprecherposition. Zur Evaluierung in realen
Umgebungen wurden Daten aus dem AV16.3-Korpus und eigene Aufnahmen benutzt, die einzelnen Quellen sind in Abschnitt 5.1 beschrieben.
Bei der Entwicklung des Verfahrens wurden initial einige Komponenten isoliert validiert; Abschnitt 5.2 stellt die zugehörigen Überlegungen
und Ergebnisse kurz dar. Nach dieser Vorauswahl wurden die Parameter für die Gewinnung von Schätzungen der Quellenergie, also der spatial likelihood, für die Lokalisierung in einzelnen Zeitfenstern mit zum
Teil aufwändigen Simulationen bestimmt; diese sind in Abschnitt 5.3
beschrieben. Die Verarbeitung längerer Zeitabschnitte erfolgt mit einer
modellbasierten Nachverarbeitung. Anhand von Verarbeitungsergebnissen für Simulationen wurden die Modellparameter überprüft und
festgelegt wie in Abschnitt 5.4.1 dargestellt. In welchem Abstand sich
gleichzeitige Sprecher trennen lassen, wird in Abschnitt 5.4.2 anhand
einer eigenen Simulationsreihe untersucht.
Schließlich wird das Verfahren zur Lokalisierung von Sprechern in
Aufnahmen aus realen Konferenzräumen angewandt. In Abschnitt 5.5
werden die Ergebnisse für die Lokalisierung eines oder mehrerer Sprecher in einer Reihe typischer Konferenzszenarien dargestellt.
5.1
daten
Die Evaluierung wurde mit Daten aus drei verschiedenen Quellen
durchgeführt: Zunächsteinmal Raumsimulationen, die wie in Abschnitt 5.1.1 beschrieben erstellt wurden; Dann dem AV16.3-Korpus,
der Aufnahmen und Annotationen aus einem Konferenzraum enthält
(Abschnitt 5.1.2). Schließlich wurden in eigenen Experimenten Daten
wie in Abschnitt 5.1.3 dargestellt aufgenommen.
5.1.1
Simulierter Konferenzraum
Um die Auswirkung vom Hall auf die Lokaliserung genauer beziffern zu können, wurde ein 5 × 6 × 2.5 m3 großer Raum mit T60 -Zeiten
zwischen 0 und 1.5 Sekunden simuliert. Mit dem image-source model
(vgl. Abschnitt 2.2.2) wurden Raumimpulsantworten generiert, mit
welchen dann Audiodaten gefaltet wurden [AB79]. Dazu wurde eine
frei verfügbare MATLAB-Implementierung von E. Lehmann verwendet.1
1 http://www.eric-lehmann.com/ism_code.html – Heruntergeladen am 1.12.2009
63
(a) Positionierung
(b) Videobild
Abbildung 37.: AV16.3 Aufnahmesituation [LOGP05] MA1,2 bezeichnen die beiden Mikrophonarrays C1-3
bezeichnen die Kameras
(a) Konferenzraum der FINCA
(b) Mikrophonarray auf dem Tisch
Abbildung 38.: Konferenzraum und Mikrophonarray auf dem Tisch in der FINCA
5.1.2
f s = 16 kHz
Der AV16.3-Korpus [LOGP05] enthält Aufnahmen, die mit zwei Mikrophonarrays in einem Konferenzraum erstellt wurden. Der Grundriss
ist in Abbildung 37a zu sehen. Zu einigen Sequenzen sind Annotationen mit exakten Sprecherpositionen verfügbar, diese wurden zum Teil
durch Tracking eines auf den Kopf des Sprechers geschnallten bunten
Balls gewonnen, wie in Abbildung 37b zu sehen. Unglücklicherweise
liegen die Daten nur in 16 kHz Abtastrate vor, so dass die Phaseninformation weit unter dem gewünschten Maß liegt. Unter 42 kHz ist
mit Qualitätseinbußen zu rechnen, unter 32 kHz sinkt die Qualität der
Spike-Korrelation rapide. Auch der Radius von r a = 10 cm ist nicht
optimal für den vorgestellten Ansatz, da mit mehr Aliasing und geringerer Kohärenz zu rechnen ist.
5.1.3
Konferenzraum
64
AV16.3-Korpus
FINCA
Die FINCA[Plö07] ist eine smarthouse-Studie im Institut für Roboterforschung (IRF), welche der Entwicklung intelligenter Umgebungen
dient [PKCF08]. Sie hat einen Konferenzraum mit einer Größe von
ca. 3.7 × 6.8 × 2.6 m3 . Das Foto in Abbildung 38a zeigt den verwendeten Konferenztisch und den Raumbereich, in dem sich die Sprecher
evaluierung
x [t]
1000
2000
w[t]
w[t] ⊗ w[t]
t
1000
τ
-100
2000
s[t]
0
100
0
100
s[t] ⊗ s[t]
t
1000
2000
τ
-100
Abbildung 39.: Korrelation eines mit einem 500 Hz-Gamatonfilter gefilterten Rauschpaketes. Dargestellt sind
das Quellsignal x [t], die Einweggleichrichtung w[t] sowie die Peak-over-Average Spikes s[t]
und die jeweilige Korrelation für 249 Zeiten entsprechend 3.5 ms bei 48 000 Hz
während der Aufnahmen aufgehalten haben. Messungen ergaben eine Nachhallzeit von T20 ≈ 0.5 s [Hen09, S. 51ff.], damit ergibt sich
ein geschätzter Hallradius von r H ≈ 0.65 m. Dem entwickelten System entsprechend wurde ein auf den Tisch gestelltes Mikrophonarray
mit einem Radius von r a = 5 cm verwendet. Die Mikrophone wurden
mit zwei durchbohrten Holzplatten fixiert, wie in Abbildung 38b zu
sehen ist. Bei den Mikrophonen handelte es sich um omnidirektionale Elektret-Kondensatormikrophone vom Typ „ECM-8000“ der Firma
Behringer mit einem nahezu linearen Frequenzgang. Die analogen Mikrophonsignale wurden mit einer achtkanaligen Soundkarte vom Typ
„Delta 1010“ der Firma M-AUDIO digitalisiert. Diese war an einen PC
angeschlossen, welcher die digitalisierten Signale mit f s = 48 kHz zur
späteren Auswertung auf die Festplatte aufzeichnete.
5.2
Audiohardware
systemkomponenten
Zunächst wurden die Teile des Modells soweit möglich einzelnen
Funktionstests unterzogen. In der einem Modell der menschlichen
Cochlea nachempfundenen Eingangsstufe wurden aus den gefilterten
Daten Signale gewonnen, welche die spike trains im Hörnerv modellieren. Dabei wurden die Auswirkung verschiedener Spike-Funktionen
untersucht (Abschnitt 5.2.1). Diese wurden dann ihrerseits in einem
Korrelator nach dem Jeffress-Colburn-Modell (vgl. Abschnitt 3.3.3)
paarweise zusammengefasst. Es wurden verschiedene Rückprojektionsverfahren implementiert (Abschnitt 5.2.2). Die Kombination der
Mikrophone wurde anhand der sich ergebenden spatial likelihoods für
simulierte und echte Szenarien untersucht (Abschnitt 5.2.3).
5.2.1 Impulserzeugung und Korrelation
In vielen CASA-Modellen werden durch Einweggleichrichtung und
quadratische Kompression Impulse w[t] gewonnen [SW07, RW08]. Dieser einfache Verarbeitungsschritt liefert eine Repräsentation der Merkmalsenergie und auch der Phase, jedoch ist die Korrelation zweier so
behandelter Signale, wie in Abbildung 39 zu sehen, nicht wesentlich
5.2 systemkomponenten
65
schärfer als diejenige des unbehandelten Signales. Entsprechend werden diese bei der Verwendung zur Lokalisierung zu einem sogenannten skeleton cross-correlogram nachgeschärft [PBW04]. Als Alternative
zur Einweggleichrichtung können von Nulldurchgängen oder Signalmaxima getriggerte dirac-artige Rechteckimpulse eingesetzt werden
(vgl. Abschnitt 3.3.2). Rechteckimpulse s[t] erzeugen eine im Korrelationsraum scharf definierte Funktion, wie in Abbildung 39 gezeigt.
5.2.2
time delay of arrival
Rückprojektion und Kombination
Ein Wert der Ankunftszeitdifferenz (TDOA) eines Signales entspricht
allgemein einem hyperparaboloiden Ausschnitt des Raumes. Für ein
zirkuläres Mikrophonarray lassen sich über eine einfache Fernfeldnäherung die Winkel der Quelle in der Ebene berechnen, wie in Abschnitt 4.5.1 beschrieben.
Eine einfache Simulation wurde zur Überprüfung der Rückprojektion
verwendet. Als Testsignal für die Rückprojektion wurden zwei 10 cm
entfernte Mikrophone mit weißem Rauschen auf einer radialen Trajektorie in 1 m Entfernung beschallt. Wie in Abbildung 40a zu sehen,
steigt die Ungenauigkeit an den endfire-Positionen bzw. der Unendlichkeitsstelle der arccos-Funkion. Die Summe zweier orthogonaler Mikrophonpaare (Abbildung 40c) zeigt ein eindeutiges Maximum bei dem
tatsächlichen Quellwinkel. Verwendet man das Produkt wie in Abbildung 40d, so verschwinden die ghosts und es ist nur um den tatsächlichen Quellwinkel Energie vorhanden, da nur hier beide Paare einen
Wert ungleich null aufweisen (vgl. Abschnitt 3.1.3).
Kugelrückprojektion
In einem sphärischen Koordinatensystem lassen sich die möglichen
Quellpositionen als
n
o
q ∈ u(θ, φ) := (r sin θ cos φ, r cos θ cos φ, r sin φ)T
(5.1)
angeben. Für r ≫ 5r a sind die Verzögerungen auf Samplinggenauigkeit identisch. Im Fernfeld ist die TDOA also nur noch abhängig vom
Drehungswinkel θ und Neigungswinkel φ, und die Entfernung kann
fest als r = 1.5 m gewählt werden.
Kreisnäherung und Kugelrückprojektion im Vergleich
dilution of precision
66
Um zu untersuchen, wie sehr die Näherung durch den Kreis die Lokalisierungsgenauigkeit beeinträchtigt, wurden diese und eine Kugelrückprojektion nach Gleichung 5.1 zur Bestimmung der Position von
Sprechern in dem simulierten Raum verwendet. In beiden Fällen wurden alle acht Mikrophone verwendet und per Hamacher t-Norm mit
γ = 0.3 kombiniert. Die Sprecher wurden in 10°-Schritten um das
Array angeordnet, als Signal wurden 5 s Sprache verwendet. Die Lokalisierung erfolgte über die Position des Maximums in der Summe aller
Frames. Aufgrund der geometrischen Eigenschaften ist anzunehmen,
dass die Genauigkeit des Drehwinkels mit der Neigung fällt, während
die Genauigkeit der Bestimmung der Neigung zunimmt. Dies läßt sich
etwa mit der dilution of precision nachvollziehen [BH99].
Abbildung 41 zeigt den RMS-Lokalisierungsfehler gegen die Neigung
aufgetragen. Wie erwartet, ist ein gegenläufiger Trend zwischen Ge-
evaluierung
180° 120° 60°
0°
-60° -120°
180
120
120
60
60
Winkel [°]
Winkel [°]
180
0
-60
0.0
2.5
Zeit [s]
(a)
-60
2.5
Zeit [s]
0.0
Mikrophonpaar in 90◦ -Richtung
(gespiegelt an der 0◦ -Linie)
180° 120° 60°
0°
(b)
-60° -120°
180
120
120
60
60
0
-60
-120
-180
-60° -120°
0
-180
5.0
Winkel [°]
Winkel [°]
180
0°
-120
-120
-180
180° 120° 60°
5.0
Mikrophonpaar in 0◦ -Richtung (gespiegelt an den ±90◦ -Linien)
180° 120° 60°
0°
-60° -120°
0
-60
-120
0.0
2.5
Zeit [s]
(c)
-180
5.0
2.5
Zeit [s]
0.0
Summe der Mikrophonpaare in 0◦ und 90◦ -Richtung
(d)
5.0
Produkt der Mikrophonpaare in 0◦ und 90◦ -Richtung
Abbildung 40.: ITD-Korrelation in 37 Bändern bei 48000 Hz nach einem Gamamtonfilter um 700 Hz, ISMSimulation mit weißem Rauschen, das in 1 m Entfernung um ein zirkuläres Mikrophonarray
mit 10 cm Durchmesser läuft. Die tatsächliche Position ist oben angegeben.
Lokalisierungsgenauigkeit T60 = 0.1s
Lokalisierungsgenauigkeit T60 = 0.5s
40
Kugel φ
Kugel θ
Kreis α
10
Kugel φ
Kugel θ
Kreis α
35
RMS-Fehler [◦ ]
RMS-Fehler [◦ ]
15
5
30
25
20
15
10
5
0
0
0
20
40
Neigung [◦ ]
60
80
0
20
60
40
80
Neigung [◦ ]
Abbildung 41.: Der RMS-Fehler der Rückprojektion in Kreis und Kugel für geringen und mittleren Hall im
Vergleich: argmax-Lokalisierung auf Daten einer ISM-Simulation eines Konferenzraumes.
5.2 systemkomponenten
67
Kreisrückprojektion
nauigkeit von Neigungs- und Drehungswinkel zu erkennen. Die Kreisnäherung zeigt für kleine Neigungen gleich gute Ergebnisse, bei zu
großer Neigung wird mit dieser kein Maximum mehr gefunden.
5.2.3
Kombinationsverfahren
Mit der Laufzeitkorrelation, Rückprojektion und Kombination wird eine spatial likelihood berechnet. Für diese wurden zunächst einige graphische Repräsentationen erzeugt. Damit konnte die Auswirkung der
Modellparameter wie verschiedener Kombinationsverfahren überprüft
werden. Abbildung 42 zeigt zu der ersten Sekunde von vier Simulationsläufen im simulierten Konferenzraum mit einem Sprecher die summarische Projektion der Energie in den Zeit×Frequenz-, Winkel×Frequenz- und den Zeit×Winkel-Raum, also
∑ e(b) [k, α],
α
Hamacher-t-Norm
∑ e(b) [k, α]
und
k
∑ e(b) [k, α].
(5.2)
b
Es wurde jeweils das Wort „Geist“ /gaIst/ aus 1.5 m bei T60 = 0.1
ohne additives Rauschen verarbeitet. Hier werden die drei t-Normen
Minimum, Hamacher mit γ = 0.1, 0.3 und das Produkt kontrastiert. Es
ist klar ersichtlich, dass die stärker multiplikativ wirkenden Fuzzy tNormen den oberen Frequenzbereich schwächen und zunehmend nur
ein Skelett der Sprachenergie übrig lassen. Durch Inspektion der Graphen für verschiedene alternative Verfahren wurde die Familie der Hamacher-t-Normen als am geeignetsten bestätigt (vgl. Abschnitt 3.1.3).
5.3
lokalisierung je zeitfenster
Eine einzelne Quelle kann über das Maximum der spatial likelihood lokalisiert werden. Zur Lokaliserung wurde das folgende Verfahren verwendet: Zunächst wurden die Eingangssignale aller Mikrophone in
25 Frequenzbänder aufgespalten und danach in Spikes umgewandelt.
Die Korrelation und ihre Kombination wurde in K = f s · 28 ms-Fenstern mit 15 ms Vorschub berechnet. Danach wurden diese Werte in den
Winkelraum zurückprojeziert und die Winkelergebnisse der einzelnen
Paare mit einem Hamacher-t-Norm Operator zusammengefasst. Auf
diese Weise ließ sich die Qualität der Lokalisierung in Abhängigkeit
von gewählten Parametern ohne Einfluss der Nachverarbeitung direkt
für die einzelnen Zeitfenster beurteilen.
Zur Ermittlung der grundlegenden Parameter wurde eine erschöpfende Suche über ausgewählte Parameter für eine Schar von Sprechern
in dem simulierten Raum mit verschiedenen Eigenschaften berechnet.
Als Signale wurden jeweils 5 Sekunden Sprache bei 48 kHz Samplingrate verarbeitet. Die einzelnen Simulationen unterscheiden sich dabei
durch die Parameter:
nachhallzeit: Es wurden T60 -Zeiten von 0, 0.1, . . . , 1.4 Sekunden
verwendet, was den Bereich von mildem bis starkem Nachhall
abdeckt.
signal-rausch-verhältnis: Durch Addition von unkorreliertem
weißen Rauschen auf alle Mikrophonsignale wurde eine simulierte SNR von ∞, 24, 12 und 6 dB erzeugt.
68
evaluierung
5.60
3.54
3.54
2.21
1.35
0.79
2.21
Winkel [°]
Frequenz [kHz]
Frequenz [kHz]
5.60
1.35
0.79
0.43
0.43
0.20
0
250
500
750
Zeit [ms]
0.20
-180 180
Winkel [°]
1000
180
135
90
45
0
-45
-90
-135
-180
0
250
500
750
Zeit [ms]
1000
0
250
750
500
Zeit [ms]
1000
250
500
750
Zeit [ms]
1000
250
500
750
Zeit [ms]
1000
5.60
5.60
3.54
3.54
2.21
1.35
0.79
2.21
Winkel [°]
Frequenz [kHz]
Frequenz [kHz]
(a) Minimum
1.35
0.79
0.43
0.43
0.20
0
250
500
750
Zeit [ms]
0.20
-180 180
Winkel [°]
1000
180
135
90
45
0
-45
-90
-135
-180
5.60
5.60
3.54
3.54
2.21
1.35
0.79
0.43
2.21
Winkel [°]
Frequenz [kHz]
Frequenz [kHz]
(b) Hamacher, γ = 0.1
1.35
0.79
0.43
0.20
0
250
500
750
Zeit [ms]
0.20
-180 180
Winkel [°]
1000
180
135
90
45
0
-45
-90
-135
-180
0
5.60
5.60
3.54
3.54
2.21
1.35
0.79
0.43
2.21
Winkel [°]
Frequenz [kHz]
Frequenz [kHz]
(c) Hamacher, γ = 0.3
1.35
0.79
0.43
0.20
0
250
500
750
Zeit [ms]
1000
0.20
-180 180
Winkel [°]
180
135
90
45
0
-45
-90
-135
-180
0
(d) Produkt
Abbildung 42.: Energieverteilung für verschiedene t-Normen als Kombinationsoperator; Korrelation von
Peak-over-Average Spikes über die Hälfte aller Mikrophonpaarungen von acht Mikrophonen in einem radialen Array mit 10 cm Durchmesser. Simulation einer Äußerung des Wortes
„Geist“ /gaIst/ von -10◦ in 1 m Entfernung bei T60 = 0.1.
5.3 lokalisierung je zeitfenster
69
Abbildung 43.: Szenario im simulierten Konferenzraum
sprecherposition: -10◦ in 1 m, -60◦ in 1.25 m, -110◦ in 1.5 m und
100◦ in 2 m Entfernung wie in Abbildung 43 dargestellt. Zu jeder
Position wurde eine Neigung von 0°, 10° und 20° simuliert.
Die Lokalisierung erfolgte über die mit einer Hamacher-t-Norm kombinierte Kreisrückprojektion der Korrelation von Signalen in 25 Frequenzbändern mit f b = 0.2, . . . 9.0 kHz. Dabei wurden die folgenden
Verarbeitungsschritte variiert:
spike-generierung: Es wurden vier Varianten benutzt:
• Halbweggleichrichtung
• Nulldurchgang-getriggerte Rechteckimpulse
• PoAP-Spikes ohne Einsatz-Betonung ( D = f s · 15 ms)
• PoAP-Spikes mit Einsatz-Betonung ( D = f s · 3 ms)
mikrophonpaare: Vier Auswahlen fanden hier Verwendung:
• die 4 orthogonalen Mikrophonpaare
• 8 Paare, welche je zwei Paarungen pro Subband aus möglichst vielen unterschiedlichen Mikrophonen kombinieren
• 16 Paare, welche aus je vier Paaren bestehen, die ein bipartites Matching der Mikrophone für alle vier möglichen Paarungsabstände bilden
• alle 28 Paare
hamacher-t-norm: Für die Zusammenfassung der Energien der
Mikrophonpaare wurden die Hamacher-t-Norm mit γ = 0.0, 0.1,
0.3, 0.5, 0.9 und 1.0 verwendet, wobei die Hamacher-t-Norm für
γ = 1.0 mit dem normalen Produkt übereinstimmt.
Sprecherentfernung
70
Abbildung 44 zeigt wesentliche Ergebnisse. Die Lokalisierungsqualität fällt erwartungsgemäß mit der T60 -Zeit und steigt mit dem SignalRausch-Verhältnis. Die Lokalisierungsqualität nimmt ebenfalls mit der
Entfernung des Sprechers ab. Dies ist auf den stärkeren Hallanteil im
Signal zurückzuführen. Sprecherposition C und D, welche als entfernte Kugelquelle in Wandnähe simuliert wurden, zeigten eine deutliche
Verschlechterung mit zunehmendem Hall.
evaluierung
60
30
6
0
12
1 . 4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
T60 [s 0
R
]
SN
90
60
30
6
0
12
1 .4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
T60 [s 0
R
]
SN
PoAP onset
RMS-Fehler [◦ ]
90
PoAP
RMS-Fehler [◦ ]
Nulldurchgänge
RMS-Fehler [◦ ]
RMS-Fehler [◦ ]
Halbweggleichrichtung
90
60
30
90
60
30
6
0
12
1 .4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
T60 [s 0
R
]
SN
6
0
12
1 . 4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
T60 [s 0
R
]
SN
(a) Spike Generierung
60
30
6
0
12
1.41.1 .8 5
0 0. .2 ∞ 24
dB]
T60 [s 0
R[
]
SN
90
60
30
6
0
12
1.41.1 .8 5
0 0. .2 ∞ 24
dB]
T60 [s 0
R[
]
SN
Alle (28)
RMS-Fehler [◦ ]
90
Hälfte (16)
RMS-Fehler [◦ ]
Viertel (8)
RMS-Fehler [◦ ]
RMS-Fehler [◦ ]
Orthogonal (4)
90
60
30
90
60
30
6
0
12
1.41.1 .8 5
0 0. .2 ∞ 24
dB]
T60 [s 0
R[
]
SN
6
0
12
1.41.1 .8 5
0 0. .2 ∞ 24
dB]
T60 [s 0
R[
]
SN
(b) Mikrophonpaare
60
30
6
0
12
1 .4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
0
T60 [s
R
]
SN
90
60
30
6
0
12
1 .4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
0
T60 [s
R
]
SN
γ = 1.0
RMS-Fehler [◦ ]
90
γ = 0.3
RMS-Fehler [◦ ]
γ = 0.1
RMS-Fehler [◦ ]
RMS Fehler [◦ ]
γ = 0.0
90
60
30
90
60
30
6
0
12
1 .4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
0
T60 [s
R
]
SN
6
0
12
1 . 4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
0
T60 [s
R
]
SN
(c) Hamacher Fuzzy t-Norm
60
30
6
0
12
1 .4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
T60 [s 0
R
]
SN
90
60
30
6
0
12
1 .4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
T60 [s 0
R
]
SN
Position D (2.0 m)
RMS-Fehler [◦ ]
90
Position C (1.5 m)
RMS-Fehler [◦ ]
Position B (1.25 m)
RMS-Fehler [◦ ]
RMS-Fehler [◦ ]
Position A (1 m)
90
60
30
6
0
12
1 .4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
T60 [s 0
R
]
SN
90
60
30
6
0
12
1 . 4 1 .1 .8
0 0.5 .2 ∞ 24
dB]
[
T60 [s 0
R
]
SN
(d) Entfernung
Abbildung 44.: Evaluierung der Parameter der Lokalisation je Zeitfenster. Es wird jeweils der RMS-Fehler
der Position der maximalen Energie gegen T60 -Zeiten und SNR aufgetragen. Sofern nicht
variiert, sind die Parameter: Peak-over-Average-Spikes, Hamacher-t-Norm mit γ = 0.3, alle
Mikrophonpaare.
Die vier orthogonalen Mikrophonpaare erreichten keine nutzbare Lokalisierung. Der Fehler bei Verwendung von nur acht Mikrophonpaarungen unterscheidet sich wenig von der Auswahl von 16, ist aber etwas empfindlicher gegen Rauschen. Die Kombination von acht Paaren
pro Subband bei der Nutzung aller Mikrophonpaare ist noch einmal
deutlich besser.
5.3.1
28 Paare
Impulserzeugung
Die Halbweggleichrichtung versagt bereits ab T60 -Zeiten von 0.3 s oder
einem Signal-Rauschverhältnis von unter 24 dB. Die Korrelationsfigu-
5.3 lokalisierung je zeitfenster
71
Detektionen / s
RMS-Fehler [◦ ]
40
30
20
10
10
PoAP
PoAP onset
Nulldurchgang
5
0
0
0.2
0.5
0.8
1.1
0.2
1.4
0.5
T60 [s]
0.8
1.1
1.4
T60 [s]
Abbildung 45.: Vergleich der Spikgenerierungsvorschriften anhand der argmax-Lokalisierung von 5 s Sprache bei einem SNR von 24 dB. Es wurden alle Mikrophonpaare und die Hamacher-t-Norm
mit γ = 0.3 verwendet. Links ist der RMS-Fehler, rechts die Anzahl der Detektionen pro
Sekunde aufgetragen.
Detektionen / s
RMS-Fehler [◦ ]
40
30
20
10
10
γ
γ
γ
γ
γ
5
= 0.0
= 0.1
= 0.3
= 0.5
= 1.0
0
0.2
0.5
0.8
1.1
1.4
0.2
0.5
0.8
1.1
1.4
T60 [s]
T60 [s]
Abbildung 46.: Vergleich der Hamacher-t-Normen anhand der argmax-Lokalisierung von 5 s Sprache bei
einem SNR von 24 dB. Es wurden alle Mikrophonpaare und die PoAP-Spike-Generierungvorschrift verwendet. Links ist der RMS-Fehler, rechts die Anzahl der Detektionen pro Sekunde
aufgetragen.
PoAP Spikes
PoAP
onset dominance
ren sind hier schlicht zu verschmiert. Die Peak-over-Average- und
Nulldurchgangs-Spikes zeigen vergleichbar gute Lokalisierung für geringen bis mittleren Hall, bei starkem Hall sind die mit Peak-overAverage-Spikes erzielten Ergebnisse besser. Die Einsatz-Betonung (onset dominance) bewirkt noch einmal eine wesentliche Reduktion der
Störungen und führt zu der mit Abstand störresistentesten Schätzung,
die sich selbst von 6 dB SNR weitgehend unbeeinflusst zeigt.
In Abbildung 45 sind die Lokalisierungsgenauigkeit und Anzahl der
Detektionen pro Sekunde für die einzelnen Spikegenerierungsvorschriften gegen die Nachhallzeit für eine typischeren SNR Wert von
24 dB aufgetragen. Für geringen Hall sind alle Verfahren gleich gut.
Die Nulldurchgangsmethodik ist für mittleren Hall bereits deutlich
schlechter und bei starkem Hall nicht mehr verwendbar. Dazu erzeugen sie auch weniger Detektionen. Am robustesten sind die PoAP-Impulse mit onset dominance, wobei diese nur etwa halb so viele Detektionen erzeugen wie die PoAP-Impulse ohne Einsatz-Betonung.
5.3.2
Hamacher, γ ≈ 0.3
72
Hamacher-t-Normen
In Abbildung 46 sind der RMS-Fehler in Grad und die Anzahl der
Detektionen pro Sekunde gegen die simulierte Nachhallzeit aufgetragen. Die Familie der Hamacher-t-Normen zeigt für alle Wahlen von γ
ab 0.3 einem vergleichbar geringen Fehler. Dagegen fällt die Zahl der
Detektionen mit steigendem Wert weiter. Somit kann der Wert auf 0.3
fixiert werden, um bei geringem Fehler möglichst viele Detektionen zu
erhalten.
evaluierung
45
60
T60
T60
T60
T60
T60
45
30
15
= 0.2
= 0.5
= 0.8
= 1.1
= 1.4
RMS-Fehler [◦ ]
RMS-Fehler [◦ ]
75
30
15
0
0
0
3
6
9
Modulationsschwelle [dB]
1
3
5
10
15
Verschiebung [ms]
Abbildung 47.: Vergleich der Modulationsdetektionsparameter anhand der argmax-Lokalisierung von 5 s
Sprache. Es wurden alle Mikrophonpaare und die PoAP-Spike-Generierungvorschrift verwendet. Links ist der RMS-Fehler gegen die Wahl der Modulationschschwelle bei D = f s · 3 ms
und rechts gegen die Verschiebung D bei einer Modulationsschwelle von 9 dB aufgetragen.
5.3.3
Modulationsdetektion
In der eben beschriebenen Untersuchung zeigte sich eine klare Verbesserung durch die Einsatz-Betonung. Die beiden wesentlichen Parameter der Modulationsdetektion wurden in einer weiteren Reihe von
Simulationen noch einmal gezielt variiert. Dabei wurden für die Modulationsschwelle Werte von thmod = 0, 1, . . . 9 und für die Verschiebung
zur Einsatz-Betonung Werte von D = f s · 1, 2, . . . , 15 ms gewählt. Alle
anderen Parameter wurden auf die in der vorhergehenden Untersuchung ermittelten Werte fixiert. Die Sprecherpositionen und Nachhallzeiten wurden erneut wie oben beschrieben variiert.
In Abbildung 47 ist der RMS-Fehler für verschiedene T60 -Zeiten gegen
die Werte der beiden Parameter aufgetragen. Es ist klar zu erkennen,
dass eine hohe Modulationsschwelle den RMS-Fehler reduziert. Die
Reduktion auf klar lokalisierte glimpses führt für alle Simulationen mit
Nachhallzeiten von T60 ≥ 0.3 s zu einer Verbesserung des Ergebnisses.
Die über Versatz von Mittelwert und Signal erzeugte onset dominance
bewirkt für mittlere bis starke Nachhallzeiten bis zu einer Sekunde
eine Verbesserung der Lokalisierungsgenauigkeit. Der vorher per Inspektion gewählte Wert von f s · 3 ms ist für die meisten Simulationen
optimal.
5.4
thmod = 9 dB
D = f s · 3 ms
integration über die zeit
Für die Lokalisierung von mehreren gleichzeitigen Sprechern ist die
Auswahl der maximalen Position nicht mehr hinreichend, hier werden
mitunter komplexe Strategien angewendet [CMWB07, MM08]. Das in
dieser Arbeit entwickelte Lokalisierungsverfahren ist durch die in Abschnitt 4.6.3 beschreibene PoAPα -Nachverarbeitung zur Lokalisierung
mehrerer gleichzeitiger Sprecher in der Lage. Die Parameter der Nachverarbeitung wurden anhand der Inspektion von Ergebnissen für verschiedene reale Aufnahmen und gezielte Untersuchungen mit Simulationen bestimmt. Diese sind in Abschnitt 5.4.1 beschrieben. Um den
minimal möglichen Sprecherabstand zu bestimmen, der noch zu klar
getrennten Lokalisierungen führt, wurde eine eigene in Abschnitt 5.4.2
vorgestellte Untersuchung mit einer Simulationsreihe vorgenommen.
5.4 integration über die zeit
Modulationsbasierte
Winkellokalisierung
73
80
80
T60
T60
T60
T60
60
40
20
= 0.2
= 0.5
= 0.8
= 1.1
60
0
15
Winkelabweichung
30
20
0
−20
0
−45 −30 −15
40
PoA
Energie [%]
100
45
[◦ ]
−45 −30 −15
0
15
Winkelabweichung
30
45
[◦ ]
Abbildung 48.: Ergebnis der zeitlichen Mittelung (links) und PoA-Operation (rechts) auf den Energiewerten
aus der Simulation eines Sprechers im simulierten Konferenzraum.
9
T60
T60
T60
T60
30
15
= 0.2
= 0.5
= 0.8
= 1.1
0
RMS-Fehler [◦ ]
RMS-Fehler [◦ ]
45
6
3
0
100
200
500 1000 2000
6
5
4
3
2
Divisor
Fensterlänge [ms]
Abbildung 49.: Einfluss der Fensterlänge der zeitlichen Mittelung und des Schwellwerts für die spektrale
Verteilung.
5.4.1
0.2 - 3.6 kHz
Winkel PoA
5° und
45°-Mittelwert
74
Sprach- und Hallmodell
Um die wesentlichen modulierten Sprachenergien (vgl. Abschnitt 2.1)
zu erfassen wurde die Bandkonfiguration auf nb = 16 Frequenzbänder mit Mittenfrequenzen f b zwischen 0.2 kHz und 3.6 kHz festgesetzt.
Ebenso wie für die adaptive Fensterlänge lässt sich die Adäquatheit
dieser Wahl durch Inspektion der spatial likelihood (Abbildung 35 und
42) nachvollziehen.
Der Effekt der zeitlichen Mittelung und der PoA-Operation wird in
Abbildung 48 verdeutlicht. Hier sind links die summierten Energien aller Frames, d.h. über 5 s, für das simulierte Koferenzraumszenario in ein Histogramm bezüglich der Winkelabweichung von der tatsächlichen Quellposition eingetragen. Die Position des Maximums entspricht dem Quellwinkel, mit steigendem Hall wird der Peak immer
breiter und unregelmäßiger. Rechts ist der Peak-over-Average-Wert ê
aufgetragen. Die positiven ê Werte bilden einen schmaleren Peak.
Durch Inspektion der Ergebnisse für verschieden simulierte und reale
Szenarien wurden die Werte für die beiden verglichenen Mittelwerte
bestimmt. Werte im Bereich von 2-5° und 30-90° erzeugen hier quasi
identische Ergebnisse. Als praktische Festlegung wurden die im vorhergehenden Kapitel angegebenen Werte von 5° und 45° gewählt.
Somit kann die PoAPα -Auswertung über ein längeres Zeitfenster Nebenmaxima ausschließen, wie die folgende Auswertung über die Daten aus dem simulierten Konferenzraum belegt: Es wurde über Fenster
verschiedene Längen W mit einem Viertel Vorschub über alle Bänder
summiert, und mit der eben gewählten PoAPα -Lokaliserung die Sprecherpositon bestimmt. Abbildung 49 zeigt links den Einfluss der Fensterlänge, gemittelt über alle vier Sprecherpositionen, in Abhängigkeit
evaluierung
Winkel [◦ ]
Sprecherposition Detektion
0
−20
−40
−60
0
2
4
6
8
10
12
14
16
14
16
14
16
Winkel [◦ ]
Zeit [s] (a) T60 = 0.1
Sprecherposition Detektion
0
−20
−40
−60
0
2
4
6
8
10
12
Winkel [◦ ]
Zeit [s] (b) T60 = 0.5
Sprecherposition Detektion
0
−20
−40
−60
0
2
4
6
8
10
Zeit [s]
12
(c) T60 = 0.9
Abbildung 50.: Detektion zweier Sprecher in 30° Abstand in 1.25 m Entfernung im simuliert Konferenzraum.
Der Grauwert der Marker gibt den Peakwert wieder, ein schwarzer Marker entspricht dem
Maximum, ein weißer dem Minimum in der Aufnahme.
von der Nachhallzeit. Um 500 ms wird der Fehler in allen Fällen reduziert, erst bei Zeiten über 1.6 s bzw. 2.5 s für T60 = 1.1 s tritt eine starke
Reduktion ein. Ein Wert von 3 s oder mehr kann also in quasi statischen Szenarios eine Verbesserung erzielen. Hier wird für allgemeine
Anwendungen ein Wert von W = f s · 1 s gewählt, der bei normalen
Bewegungsgeschwindigkeiten angemessen ist.
Um die spektrale Verteilung von Sprache zu berücksichtigen, kann ein
Schwellwert für die Anzahl der Bänder festgelegt werden, in denen
Energie zu dem Peak beiträgt. Um diesen zu bestimmen, wurde eine
weitere Auswertung vorgenommen. Bei der Summation der Frequenzbänder wurden nur solche Peaks berücksichtigt, die in mehr als nb /v
Bändern auftraten. Abbildung 49 zeigt rechts den Einfluss des gewählten Divisors v für eine Fensterlänge von W = f s · 1 s. Für alle T60 -Zeiten
über 0.2 s sinkt der Fehler für einen Divisor von 4 oder weniger deutlich, in allen Fällen wird 3° unterschritten. Da ein kleinerer Divisor die
Zahl der verbleibenden Detektionen reduziert, wurde praktisch ein
Wert von v = 4 festgesetzt, so dass nur Peaks bei der Lokalisierung
berücksichtigt werden, bei welchen in 16/4, also vier oder mehr Bändern Sprachenergie auftritt. Damit sind alle Parameter des in Kapitel
4 beschriebenen Verfahrens festgelegt.
5.4.2
W = fs · 1 s
Sprachenergie in
nb /4 = 4 oder mehr
Bändern
Lokalisierung gleichzeitiger Sprecher
Abbildung 50 zeigt Detektionen mit dem so definierten Verfahren für
zwei Sprecher an fester Position im Abstand von 30° für Simulationen
mit verschiedenen Nachhallzeiten. Die Varianz der Detektionen nimmt
mit steigendem Hall leicht zu, dennoch sind die beiden Sprecher als
getrennte Objekte auszumachen. Mit steigendem Hall nimmt auch die
Zahl der Lücken zu. Hier ist zu erkennen, dass nach dem glimpsing
model-Ansatz nur die klar lokalisierten Ereignisse verbleiben, was zu
einer Ausdünnung der Repräsentation bei starken Störungen führt.
5.4 integration über die zeit
glimpsing model
75
7
RMS-Fehler [◦ ]
Fehldetektion [%]
50
40
30
20
10
0
0.9
6
5
4
3
2
30
0.7
0.5
T60 [
s]
0.3
60
0.1 90
1
0.9
◦]
d[
an
bst
A
30
0.7
0.5
T60 [
s]
0.3
60
0.1 90
◦]
d[
an
bst
A
Abbildung 51.: Fehlerrate und RMS-Fehler für zwei simulierte gleichzeitige Sprecher
simulierte
gleichzeitige Sprecher
Um die Grenzen des Verfahrens zur Trennung gleichzeitiger Sprecher
zu bestimmen wurde eine eigene Untersuchung vollzogen. In einer
Reihe von Simulationsszenarien sprachen zwei Sprecher mit Abständen von |α1 − α2 | = 10, 20, . . . , 90° gleichzeitig eine Sequenz von 18 s
Länge in 1.25 m Entfernung vom Mikrophonarray in einem 5x6x2.5 m3
Raum. Es wurden jeweils Nachhallzeiten von T60 = 0.1, 0.2, . . . , 0.9
simuliert. Um zu entscheiden, wann ein Sprecher korrekt detektiert
wird, wird eine Schwelle von
∆α = min {6, |α1 − α2 |/3}
(5.3)
festgesetzt, um die Fehldetektionen als
FD := {(l, an ) | min{| an − α1 |, | an − α2 |} > ∆α}
(5.4)
bestimmen zu können. So erhält man die Fehlerrate
er =
ab 30°
| FD |
|{(l, an )}|
(5.5)
relativ zur Zahl der Gesamtdetektionen. Die Ergebnisse der Auswertung sind in Abbildung 51 dargestellt. Die Fehlerrate liegt für
|α1 − α2 | ≥ 30° fast immer unter 5 %, in einigen Fällen mit T60 ≥ 0.7 s
steigt sie auf bis zu 10 %. Der RMS-Fehler steigt mit der Nachhallzeit von ca. 1° auf etwa 5°, mit einigen Ausnahmen bei T60 = 0.9 s.
Der steile Anstieg sowohl des RMS-Fehlers als auch der Fehlerrate für
kleine Winkel belegt, dass zwei gleichzeitige Schallereignisse in einem
Abstand von weniger als 30° nicht sicher getrennt werden können. Darüber zeigt das Verfahren eine robuste Lokalisierung mit einem mittleren Fehler von 3°.
5.5
anwendung in realen konferenzraumszenarien
Schließlich wurde das in dieser Arbeit entwickelte Verfahren mit den
ermittelten Parametern an Aufnahmen aus realen Umgebungen getestet. Es wurde ein öffentlich verfügbarer Korpus benutzt, um den
Ansatz mit publizierten Ergebnissen anderer Verfahren zu vergleichen.
Hier war eine kleine Anpassung für die niedrige Abtastrate von 16 kHz
nötig (Abschnitt 5.5.1). Mit eigenen Aufnahmen im intelligenten Konferenzraum der FINCA wurden Szenarien aufsteigender Komplexität
76
evaluierung
getestet: Zunächst die Lokalisierung eines einzelnen Sprechers an festen Positionen (Abschnitt 5.5.2), dann eine Diskussion am Konferenztisch (Abschnitt 5.5.3) und schließlich eine Aufnahme mit zwei kontinuierlich durcheinander sprechenden Personen (Abschnitt 5.5.4).
Um eine anwendungsorientierte Schranke für die Genauigkeit zu berechnen, wurde für jede Position abhängig vom Abstand di des Sprechers eine maximale Winkelabweichung
∆α = arctan(di , ∆d)
(5.6)
abhängig von der tolerierten Abweichung ∆d, welche z.B. der Kopfbreite entspricht, berechnet. Somit erhält mit dem Winkel des Sprechers
(m0 − qi )(m4 − m0 )
(5.7)
αi = arccos
km0 − qi kkm4 − m0 k
als Treffer (true positives)
TPi := {(l, an ) | | an − αi | ≤ ∆α}.
(5.8)
und als Fehldetektionen (false positives)
FPi := {(l, an ) | i = argmin {| an − α j |} ∧ | an − αi | > ∆α}
j
(5.9)
diejenigen, die am nächsten an dem Quellwinkel αi sind, aber nicht
in den Bereich des Sprechers fallen. Somit lässt sich die „Genauigkeit“
(precision) wie üblich bestimmen:
pri :=
| TPi |
| FPi ∪ TPi |
und
pr :=
∑i | TPi |
.
∑i | FPi ∪ TPi |
(5.10)
Liegen Daten über die Sprachaktivität vor, so kann man anhand der
Anzahl der aktiven Fenster Pi die „Trefferrate“ (recall) bestimmen:
rei :=
| TPi |
| Pi |
und
re :=
∑i | TPi |
.
∑i | Pi |
(5.11)
Für einige Aufnahmen liegt keine genaue Information der Sprecheraktivität vor. Um hier dennoch eine Aussage über die Anzahl der Detektionen machen zu können, wird die „Dichte“ als Anzahl der Detektionen pro Zeiteinheit definiert.
5.5.1
AV16.3-Sequenz 1: Einzelner Sprecher
Der AV16.3-Korpus liefert eine ganze Reihe von Aufnahmen mit verschiedenen Szenarios [LOGP05]. Da die Daten nur in 16 kHz Abtastrate vorliegen, ist die Phaseninformation schlecht repräsentiert. Darüber
hinaus führt auch der größere Radius von r a = 10 cm zu mehr Aliasing
und geringerer Kohärenz für hohe Frequenzen. Oberhalb von 1.7 kHz
ist keine auswertbare Information vorhanden. Die Daten wurden auf
48 kHz umgerechnet und die Lokalisierung dann mit zwölf Frequenzbändern mit den Mittenfrequenzen f b = 0.2, . . . , 1.6 kHz vorgenommen. Mit dieser Anpassung konnte das Verfahren auf die Aufnahmen
aus dem AV16.3-Korpus erfolgreich angewendet werden.
In Sequenz 1 wurden von einem Sprecher 16 Positionen fest eingenommen und die Phrase „one two three four five six seven eight nine ten this
5.5 anwendung in realen konferenzraumszenarien
≤ 1.7 kHz
77
Sprecherposition
Detektion
Winkel θ [◦ ]
90
45
0
−45
−90
0
20
40
60
80
100
120
140
160
180
200
220
Zeit [s]
Abbildung 52.: Detektionen für AV16.3-Sequenz 1, ein einzelner Sprecher nimmt 16 Positionen im Raum ein
und äußert jeweils einen kurzen Text.
is position X“ gesprochen, wobei X die Nummer der Sprecherposition
ist. Die Aufnahme des mundnahen Lapel-Mikrophons wurde ebenfalls
mit der Gammaton-Filterbank gefiltert und in diesem entsprechenden
Fenstern die RMS-Energie gebildet. Diese ist in Abbildung 52 unterhalb der Detektionsgraphen aufgetragen. Der Mittelwert dieser Größe wurde in den Mittelungsfenstern der Auswertung bestimmt. Mit
einem einfachen Energieschwellwert von −45 dB wurden diejenigen
Zeitfenster bestimmt, in denen im Quellsignal gesprochen wurde. Darauf bezogen wird die Anzahl der korrekt lokalisierten Detektionen bezogen auf das Spechersignal ermittelt. Dabei wurden nur Detektionen
mit einer Abweichung von unter ∆d = 0.2 m als Treffer gezählt, also
solche, welche den Kopf des Sprechers auf etwa eine Kopfbreite genau
lokalisierten.
3° RMS-Fehler
97 % Genauigkeit
Abbildung 52 zeigt die berechneten Detektionen für MA1, das erste
Mikrophonarray. Nahezu alle Positionen werden gut lokalisiert. Insgesamt ergab sich ein RMS Fehler von 3.2° mit 97 % Genauigkeit für
beide Mikrophonarrays. Die Trefferrate betrug 93 % für MA1 und 86 %
für MA2.
Für SRP-PHAT-Lokalisation in eben diesem Szenario wird eine Genauigkeit von 5◦ angegeben [Lat06, S. 37 oben]. Dieses Ergebnis wird
allerdings nur erzielt, wenn lediglich als Sprache markierte 32 ms-Zeitfenster ausgewertet werden. Dazu wurde in der Implementierung von
Lathoud et al. eine Sprache-Nichtsprache Unterscheidung eingeführt,
welche unter anderem den Notebooklüfter in der Aufnahme von Szenario 1 ausblendet [LO07].
5.5.2
5° RMS-Fehler
94 % Genauigkeit
78
FINCA-Sequenz 1: Einzelner Sprecher
Ähnlich wie Sequenz 1 des AV16.3 wurde auch in der FINCA eine Aufnahme zum Test der Lokalisierung eines einzelnen Sprechers erstellt.
In dieser nahm ein Sprecher die sieben in Abbildung 53 gezeigten Positionen ein und äußerte jeweils einige Sätze. Dabei wurden mit dem in
Kapitel 4 beschreibenen Verfahren die in Abbildung 54 gezeigten Detektionen erzielt. So ergab sich sich hier ein RMS-Fehler von 4.43°. Mit
einer Toleranz von ∆d = 0.2 m ergab sich eine Genauigkeit von 93.9 %.
In den Zeitintervallen, in denen der Sprecher stillstand, erreichten die
Detektionen eine Dichte von 83.4 %.
evaluierung
Winkel [◦ ]
Abbildung 53.: FINCA-Sequenz 1: Ein einzelner Sprecher spricht an sieben Positionen jeweils mehrere Sätze.
Sprecherposition
Detektion
180
135
90
45
0
−45
−90
−135
−180
60
80
100
120
140
160
180
200
220
240
260
Zeit [s]
Abbildung 54.: Detektionen zu FINCA-Sequenz 1
Position
1
2
3
4
5
6
7
Abstand
Winkel
2.16 m
1.70 m
1.34 m
1.20 m
1.27 m
0.90 m
1.08 m
146.31°
135.00°
116.57°
90.00°
45.00°
0.00°
−33.69°
Fehler Genauigkeit
3.61°
5.70°
4.34°
2.69°
4.87°
7.86°
2.79°
86.1 %
76.0 %
100.0 %
99.3 %
100.0 %
87.8 %
100.0 %
Tabelle 2.: Detektionen zu FINCA-Sequenz 1 nach Sprecherposition
5.5 anwendung in realen konferenzraumszenarien
79
Dichte
69.9 %
88.1 %
85.8 %
96.1 %
93.1 %
50.5 %
92.3 %
280
5.5.3
natürliche
Diskussion
6° RMS Fehler
99 % Genauigkeit
Zum Test der Ortung von Sprechern in natürlichen Gesprächen wurde
eine Diskussion zwischen zwei am Tisch sitzenden Sprechern aufgezeichnet. Dabei saßen die beiden Sprecher ca. 90° versetzt in ca. 1 m
Entfernung vom Mikrophonarray am Tisch. Um eine möglichst natürliche Aufnahme zu erhalten, wurden keine Einschränkungen zum
Verhalten vorgegeben. Beide Sprecher bewegten sich während des Gesprächs natürlich auf den Stühlen, zeigten einander Ausdrucke usw.
Die ausgewertete Aufnahme hat eine Gesamtlänge von einer halben
Stunde.
In Anbetracht dessen wurde im Hinblick auf mögliche Anwendungen
die Detektion eines Sprechers auf eine Stuhlbreite als korrekt eingestuft und eine erhöhte Abweichung von ∆α = 26.56° zugelassen, was
∆d = 50 cm in einem Meter Entfernung entspricht. Die Sitzpositionen
der beiden Sprecher wurde entsprechend der Stellung der Stühle zum
Mikrophonarray als 0° und 90° angenommen und nicht weiter korrigiert. Bei der Auswertung wurde jeweils der einer Detektion nähere
Sprecher derselben zugeordnet.
Abbildung 55
zeigt die Detektionen für einen zehn Minuten langen Ausschnitt. Es
fällt auf, dass die Sprecher sich zwar abwechseln, aber dennoch relativ
oft gleichzeitig sprechen. Über die gesamte Sequenz und beide Sprecher ergab sich ein RMS-Fehler von 5.87° und eine Genauigkeit von
99.4 %, für die beiden Sprecher einzeln 5.25° bzw. 7.15° RMS-Fehler
und 99.6 % bzw. 98.9 % Genauigkeit. Ohne dass die Sprecheraktivität
oder die genaue Position vorher bekannt war, wurden die Sprachaktivitäten beider Sprecher mit hoher Präzision erkannt. Die wenigen
fehlerhaften Detektionen sind höchstwahrscheinlich auf Sprecherbewegungen oder verbleibende Störungen wie Papierrascheln, Stuhlrücken
oder Aussetzer der Aufnahmesoftware zurückzuführen.
5.5.4
concurrent speakers
5° RMS-Fehler
95 % Genauigkeit
80
FINCA-Sequenz 2: Diskussion am Tisch
FINCA-Sequenz 3: Gleichzeitige Sprecher im Raum
Um die Lokalisierung gleichzeitiger Sprecher zu testen, wurde das folgende Szenario aufgenommen: Ein Sprecher nahm die bereits verwendeten sieben Positionen vor der Präsentationsleinwand ein und sprach
an jeder einige Sätze. Ein Sprecher saß am Tisch der Präsentationsleinwand gegenüber bei −90° und sprach dauerhaft.
Hier ergab sich ein RMS-Fehler von 4.88°, 6.02° für den Laufenden,
3.91° für den sitzenden Sprecher. Mit einer Toleranz von ∆d = 0.2 m
ergibt sich eine Genauigkeit von 94.8 %, je 90.3 % und 99.0 % für die
beiden Sprecher bei einer Dichte von 82.4 % und 90.2 %. Wie in Abbildung 57 klar zu sehen, wird der bewegte Sprecher an den ersten
zwei Positionen schlechter lokalisiert. In Tabelle 3 sind die Ergebnisse
für die einzelnen Positionen von Sprecher 1 aufgelistet. An den ersten
Positionen ist der Sprecher über 2 · r H = 1.3 m vom Mikrophonarray
entfernt, danach wird die Lokalisierung deutlich dichter. Dies legt die
Vermutung nahe, dass eine Positionierung des Mikrophonarrays in der
Mitte des Tisches oder die Verwendung eines zweiten Mikrophonarrays am anderen Tischende eine durchgängig präzise Lokalisierung
ermöglichen würde.
evaluierung
Winkel [◦ ]
180
135
90
45
0
−45
−90
−135
−180
Sprecher 1
Sprecher 2
Detektion
0
50
100
150
200
250
300
350
400
450
500
550
600
Zeit [s]
Abbildung 55.: Detektionen zu FINCA-Sequenz 2: Diskussion zweier Gesprächspartner am Tisch.
Winkel [◦ ]
Abbildung 56.: FINCA-Sequenz 3: Zwei gleichzeitige Sprecher, einer läuft während der Präsentation durch
den Raum, ein zweiter am Tisch redet dazwischen.
Sprecher 1 (laufend)
Sprecher 2 (sitzend)
Detektion
180
135
90
45
0
−45
−90
−135
−180
40
60
80
100
120
140
160
180
Zeit [s]
Abbildung 57.: Detektionen zu FINCA-Sequenz 3
Position
1
2
3
4
5
6
7
Abstand
2.16 m
1.70 m
1.34 m
1.20 m
1.35 m
0.90 m
1.08 m
Sprecher 1 (laufend)
Fehler
Genau.
Dichte
3.77°
5.77°
7.50°
6.92°
5.80°
3.62°
5.78°
89.1 %
66.7 %
70.1 %
100.0 %
98.5 %
100.0 %
97.5 %
52.9 %
66.2 %
91.8 %
95.7 %
95.7 %
88.7 %
89.9 %
Sprecher 2 (sitzend)
Fehler
Genau.
Dichte
3.66°
4.14°
3.88°
3.93°
3.82°
3.80°
4.13°
100.0 %
97.2 %
98.3 %
98.4 %
100.0 %
98.8 %
100.0 %
Tabelle 3.: Detektionen zu FINCA-Sequenz 3 nach Sprecherposition
5.5 anwendung in realen konferenzraumszenarien
81
98.9 %
92.2 %
82.2 %
88.4 %
94.2 %
82.5 %
93.3 %
6
FAZIT
Abschließend wird die Arbeit kurz zusammengefasst und bewertet.
Danach wird ein Ausblick auf mögliche Erweiterungen und Einsatzgebiete des Verfahrens gegeben.
6.1
zusammenfassung
Im Rahmen dieser Arbeit wurde ein Verfahren entwickelt, welches
Sprecher mit der pragmatischen Kombination von neurobiologischen
und kognitionspsychologischen Modellen mit technischen Methoden
in realen Umgebungen lokalisiert. Es kann in verschiedenen realen Situationen eingesetzt werden, insbesondere auch in Innenräumen mit
mittlerem oder starkem Hall. Als prototypisches Anwendungszenario
wurde ein intelligenter Konferenzraum gewählt. Hier wird zwischen
die Sprecher auf den Tisch ein planares zirkuläres Array aus acht omnidirektionalen Mikrophonen platziert [BW01], welches an einen handelsüblichen PC angeschlossen ist.
Die Verarbeitung stützt sich auf neurobiologische und kognitionspsychologische Erkenntnisse zur Ermittlung hoch-robuster Merkmale. Jedes Mikrophonpaar wird in Analogie zur menschlichen Verarbeitung
in der Cochlea und den auditory pathways in einer auf Sprache abgestimmte Weise verarbeitet. Mittels der in dieser Arbeit entwickelten
Peak-over-Average-Position-Auswertung (PoAP) werden Folgen von
Rechteckimpulsen erzeugt, welche dann für alle Mikrophonpaare korreliert werden. Dabei wird mit der onset dominance ein Mechanismus
des Menschen nachgeahmt, welcher von Neurologen als wichtig für
das Hören und Lokalisieren in Umgebungen mit starkem Nachhall
angesehen wird [DIH+ 09, Gro03]. In der Kognitionspsychologie wird
die verbesserte Lokalisierung bei Hall durch Auswertung dominanter onsets bzw. der „ersten Wellenfront“ als precedence effect bezeichnet [WB06, S. 26ff.]. Anhand der in der Korrelation bestimmten Laufzeitunterschiede werden die Quellwinkel geschätzt. Mittels einer Fuzzy-Kombination werden die Ergebnisse aller Mikrophonpaare zu robusten Schätzungen kombiniert. Die Nachverarbeitung berechnet die
Winkel von Sprechern in Zeitfenstern als modulierte Peaks mit sprachtypischen Eigenschaften. Die konsequente Einschränkung auf wenige
aber eindeutige Peaks entspricht der Auswertung gestörter Signale im
Sinne eines glimpsing model [Coo06]. Das Verfahren liefert mit optimierten Algorithmen kontinuierliche Sprecherpositionsschätzungen in
Echtzeit.
In ausführlichen Evaluationen mit simulierten Räumen und realen
Aufnahmen wurde die Implementierung mit allen Parametern auf die
Nutzung höchst klar lokalisierter Sprachereignisse optimiert. Versuche
im Konferenzraum der FINCA bestätigten die Einsatzfähigkeit der entwickelten Lokalisierung in realen Umgebungen und deren Robustheit
gegenüber hall- und rauschinduzierten Störungen.
83
reale Umgebungen
Hall
Konferenzszenario
Mikrophonarray
Neurobiologie
onset dominance
precedence effect
Fuzzy
Lokalisation von
Sprechern
glimpsing model
Echtzeit
reale Aufnahmen in
der FINCA
6.2
interdisziplinär
PoAP Spikes
onset dominance
Fuzzy Kombination
Sprachmodell
Lokalisierung bei
Hall in realen
Umgebugnen
CASA in realen
Situationen
bewertung
Ein Ziel dieser Arbeit war ein anwendungsorientierter Brückenschlag
zwischen verschiedenen Disziplinen. Durch die pragmatische Kombination von Mikrophonarraytechnik und neurobiologischen und kognitionspyschologischen Modellen wurde ein Verfahren geschaffen, das
höchst robuste Merkmale zur Lokalisierung von Sprechern berechnet.
Die Verwendung der PoAP-Impulsgenerierung erwies sich als unemfindlicher gegen Störungen als die der Korrelation von Nulldurchgängen. Durch onset dominance konnte die Robustheit gegen starken Hall
noch deutlich gesteigert werden. Die Kombination mit der Hamachert-Norm erlaubte eine unempfindliche Quellenschätzung. Mit der Detektion als Peaks über Winkel aus spektral verteilter Sprachenergie
konnten zuverlässig Sprecher lokalisiert werden.
Der Ansatz hat sich im praktischen Einsatz im Konferenzraum der
FINCA mit deutlichem Hall bewährt. Die Lokalisierung von Sprechern
gelingt hier in verschiedenen realen Situationen wie auch auf Konferenzraum-Korpora mit zwischen 3° und 6° RMS-Fehler und über 90 %
Genauigkeit.
In der überwiegenden Mehrheit der Anwendungsszenarien findet die
Lokalisierung von Sprechern in Innenräumen und nicht auf dem freien
Feld oder in hallfreien Akustikkammern statt. Dennoch ist die überwiegende Mehrheit der CASA-Systeme diesen Situationen nicht gewachsen [WB06]. Daher ist das Ergebnis dieser Arbeit ein Schritt in
der Entwicklung der CASA-Anwendungen zum erfolgreichen Einsatz
in realen Situationen.
6.3
einsatzgebiete und weiterentwicklungen
Das hier vorgestellte System lässt sich durch Einsatz verteilter Mikrophonarrays leicht zur Lokalisierung von Sprechern in kartesischen
Raumkoordinaten erweitern. Hier ist auch die Erweiterung der Nachverarbeitung zur Sprecherverfolgung interessant. Die Interaktion in einem intelligenten Konferenzraum bietet viele mögliche Einsatzgebiete.
Des Weiteren kann die Lokalisation der Sprachstromtrennung dienen,
welche in ein Spracherkennungssystem integriert werden kann.
Verteilte Mikrophonarrays
verteilte
Mikrophonarrays
In einem intelligenten Raum kann durch Nutzung verteilter Mikrophonarrays die stabile Lokalisierung von Sprechern in Raumkoordinaten realisiert werden. Dies kann durch eine Kombination von Winkelvorselektion in einem groben Raster und nachfolgender genauer Positionsbestimmung, etwa via Gradientenabstieg, effizient erfolgen [LO07].
Bei einer drahtlosen Netzwerkverbindung mit einem Roboter ist auch
eine kombinierte Schätzung von an diesem und im Raum installierten
Mikrophonarrays möglich [NNM+ 06].
Sprecherverfolgung (Tracking)
Durch Intergration eines Modells der zeitlichen Dynamik sich bewegender Sprecher über entsprechende Verfahren kann die Verfolgung
von Sprechern realisiert werden. Bekannte Ansätze hierzu sind viter-
84
fazit
bi tracking [RW08], der eigenwertbasierte PASTd-Algorithmus [OS09]
oder partikelbasierte Verfahren [Leh06] und PHD-Filter [MVSB06].
PHD-Filter
Multimodale Interaktion
Die Lokalisierung kann zur Steuerung von Kameras in vielfältigen Interaktionsszenarien verwendet werden. Durch eine Kopplung mit einem Gesichts- oder Kopf-Schulter-Detektor lässt sich die Genauigkeit
steigern. Eine Lokalisierungslösung kann auch auf einem mobilen Roboter eingesetzt werden [RLB+ 08]. Da die Lokalisierungsgenauigkeit
mit fallendem Abstand steigt, kann der Roboter Sprecher mit steigender Genauigkeit ansteuern.
mobiler Roboter
Sprachstromtrennung und robuste Spracherkennung
Mit der Lokalisierung können Energien im Zeit×Frequenz×WinkelRaum Sprechern zugeordnet werden. Darauf basierend lässt sich ein
Teil des Sprachsignals in Analogie zu einem steered beamformer mit optimiertem Nachfilter [Dob06] rekonstruieren.
Die durch Hall reduzierten Zeit×Frequenz-Masken können als Merkmale für ein Spracherkennungssystem genutzt werden. Das Fehlen
von Teilen der Sprache kann hierbei mit einem missing data-Ansatz
modelliert werden [RSS04, KPTN08].
Als Spracherkennungsmerkmale können dann die beteiligten Energien in Form von auditory rate maps dienen, hier ist die Übertragung der
Unsicherheiten aus einer kontinuierlichen Zeit-Frequenz-Maske direkt
möglich [HBB06]. Die Übertragung der spektralen Unsicherheiten in
den cepstralen Bereich ist wesentlich aufwändiger, da sich eine Frequenz auf alle MFCCs auswirkt [SW07].
6.3 einsatzgebiete und weiterentwicklungen
missing data
auditory rate maps
85
A
IMPLEMENTIERUNG
Im Rahmen der Arbeit wurde eine Vielzahl von Testprogrammen und
Oberflächen erstellt. Hier wird zunächst kurz die Laufzeitoptimierung
dargestellt, die zum Design des Echtzeitsystems führte. Danach werden Implementierungen des Systems dargestellt.
a.1
laufzeitoptimierung
Während der Implementierung wurden immer wieder Schritte zur
Reduktion der Gesamtlaufzeit unternommen. Dazu wurden wiederholt Laufzeituntersuchungen durchgeführt. Während der Laufzeittests
wurde das 90 % Konfidenzintervall i90 nach der Tschebyscheff-Ungleichung bestimmt. Sank die Schwankungsbreite unter 12 % oder wurden
n = 45 Iterationen erreicht, wurde der Test beendet. Alle hier aufgeführten Messungen beziehen sich auf C++-Quellcode, der vom GCC1
mit den Einstellungen -O3 -ffast-math -fopenmp übersetzt wurde.
Die Messungen wurden auf einem PC mit einem Core2 Duo E8500 Prozessor unter dem Betriebssystem Kubuntu Linux 9.04 „Jaunty“ durchgeführt.
OpenMP
-O3 -ffast-math
Filterbank
Der erste optimierte Aspekt ist die verwendete Filterbank. Es wurde
zunächst die IIR-Filter-Variante [Sla93] implementiert. Da diese einen
extrem nichtlinearen Phasengang aufweist, wurden die Filter alternativ per FFT Overlap-Add realisiert. Die C++-Implementierung der FFT
ist etwa 2.1 mal langsamer als die IIR-Filter. Durch Nutzung der libFFTW [FJ05] erreicht die FFT-Variante eine vergleichbare Laufzeit. Eine
Filterbank mit 25 Bändern für ein mit f s = 48 kHz abgetastetes Signal kann mit beiden Verfahren in etwa 4 % der Signallänge, also 4 %
der für Echtzeitverarbeitung verfügbaren Rechenzeit, berechnet werden. Tabelle 4 gibt die Ergebnisse einer vergleichenden Messung wieder.
libFFTW
Korrelation
Eine der aufwändigsten Rechenoperationen ist die Korrelation der
Rechteckimpulse. Hier wurde eine ganze Reihe von Verfahren imple1 GNU Compiler Collection, http://gcc.gnu.org/
Implementierung
IIR
FFT
FFTW
single core
% Echtzeit
i90 [ms]
6.75
15.97
7.78
[177,
[377,
[202,
177]
461]
206]
OpenMP
% Echtzeit
i90 [ms]
3.82
8.89
4.03
Tabelle 4.: Laufzeitvergleich Gammaton Filterbank
87
[ 94,
[223,
[ 76,
107 ]
244 ]
135 ]
Implementierung
Datenstruktur
Jeffress
FFT
FFTW
Match
Match
Array
Array
Array
Array
Indexed
% Echtzeit
12.41
4.70
2.43
1.84
0.10
i90 [ms]
[324,
[116,
[63,
[47,
[3,
327]
131]
65]
50]
3]
Tabelle 5.: Laufzeitvergleich Korrelation
schnelle Faltung
schnelle
Spikekorrelation
mentiert. Das erste Verfahren war die diskrete Korrelation nach dem
Jeffress-Colburn Modell. Diese benötigte allein über 12 % der Signallänge auf einem Signalpaar. Die „schnelle Faltung“ per FFT reduzierte
die Rechenzeit auf erträglichere 2.5 % und rückte damit die Implementierung erstmals in die Nähe von Echtzeitbetrieb. Das Suchen von Paaren in den spärlich besetzten spike trains drückte die Zeit noch einmal
geringfügig auf 1.8 %, mit der Verwendung einer indizierten Datenstruktur ist die Korrelation spärlich besetzter Signale 20-100 mal so
schnell wie die erste Variante.
Gesamtlaufzeit
90% Echtzeit
Betrachtet man die Gesamtlaufzeit verschiedener Implementierungen,
so hat dieser letzte Schritt der Verwendung einer indizierten Datenstruktur für schnelle Korrelation und Kombination den Echtzeitbetrieb
auf einem Rechner mit einen Core2 Quad Q9550 Prozessor der Firma
Intel ermöglicht. Tabelle 6 stellt die mittlere Laufzeit der einzelnen
Implementierungen gegeneinander. Die Nachverarbeitung benötigt ca.
2 % der Echtzeit und ist nicht einzeln aufgeführt. Der wesentliche Unterschied ist die Rechenzeit, welche für den Kombinations- und Korrelationsschritt benötigt wird. Diese konnte von 18 bzw. 10 mal Echtzeit beim Jeffress-Korrelator auf schließlich 38 % bzw. 23 % Echtzeit
gesenkt werden.
Core2 Quad
Implementierung Gesamt
Filter
Core2 Duo
Spikes Ko&Ko Gesamt
Filter
Spikes
Ko&Ko
Jeffress
1116 %
34.1 %
41.6 %
1026 %
1860 %
38.4 %
61.6 %
1758 %
FFTW
163 %
31.6 %
35.4 %
95.0 %
264 %
38.9 %
61.6 %
162.4 %
match
124 %
30.5 %
34.9 %
56.9 %
198 %
38.2 %
61.7 %
96.3 %
indexed
90 %
26.1 %
40.7 %
22.6 %
137 %
31.0 %
68.0 %
37.8 %
Tabelle 6.: Laufzeitvergleich Lokalisation gesamt, alle Angaben bezüglich Echtzeit
a.2
werkzeuge
Zur Evaluierung wurde eine Reihe von Programmen geschrieben. Die
Implementierung der Lokalisierung als Kommandozeilen- und grafisches Werkzeug werden hier kurz dargestellt.
88
implementierung
Parameter
Name
Einheit
--radius
ra
cm
Radius des Mikrophonarrays
--sampling-frequency
fs
Hz
Abtastrate
--alias
Beschreibung
erlaubt räumliches Aliasing
--time-limit
s
maximale Länge der Eingabedaten
--time-offset
s
Startzeitpunkt der Berechnung in den Eingabedaten
--max-elevation
◦
maximale Neigung der Halbkugelrückprojektion,
ein Wert von 0 schaltet auf Kreisrückprojektion
--bands
nb
--fmin, --fmax
fb
Hz
erste und letzte Mittenfrequenz
--frame-step
S
ms
Schrittweite des Korrelationsfensters
--frame-length
T0
ms
Basisbreite des Korrelationsfensters
--spike-mth
thmod
dB
Modulationsschwelle für Spikeauslösung
--spike-ath
th abs
--spike-avg
L
ms
Länge des moving average Fensters
--spike-pre
D
ms
Versatz des Signals zum moving average Fenster
--gamma
γ
Anzahl der Frequenzbänder
absolute Schwelle für Spikeauslösung
--post
Hamacher t-Norm
- separierte Nachverarbeitungsschritte opt:p1:p2
Tabelle 7.: Verarbeitungsparameter auf der Kommandozeile
Option
Beschreibung
bs
Frequenzbänder summieren | B| > p1 e > p2
es
über Neigung summieren
av
Mittelwert über p1 Sekunden
max
argmax-Lokalisierung
poap
PoAPα p1 zu p2 Grad Mittelwert
grid
PoAP gridsearch p1 zu p2 Grad Mittelwert
Tabelle 8.: Nachverarbeitungsdefinition auf der Kommandozeile
Kommandozeilenberechnung
Das Komandozeilenwerkzeug corfbar4cmd (bzw. die architekturoptimierte Variante corfbar4cmd-core2) berechnet die Lokalisierung aus
einer WAV-Datei und erzeugt eine CSV-Datei mit den Ergebnissen. Die
Aufrufsyntax ist wie folgt:
corfbar4cmd [ --bands # | --fmin #.# | --fmax #.# | --radius #.# |
--sampling-frequency #.# | --alias |
--time-limit #.# | --time-offset #.# |
--max-elevation #.# | --spike-ath #.# |
--spike-mth #.# | --spike-avg #.# | --spike-pre #.# |
--frame-step #.# | --frame-length #.# | --gamma #.# |
--post (opt[:p1[:p2]])[-(opt[:p1[:p2]])]+ |
--outfile <outfile> ] <filename>
Tabelle 7 listet alle Parameter auf, Tabelle 8 alle möglichen Nachverarbeitungsschritte. Als Nachverarbeitung können verschiedene Schritte
A.2 werkzeuge
89
Abbildung 58.: Lokalisierungs GUI
in beliebiger Reihenfolge angegeben werden. Die einzelnen Schritte
werden per „-“ separiert und können bis zu zwei per „:“ separierte Parameter erhalten, so wird z.B. die übliche Nachverarbeitung als
bs:4-av:1-poap:5:45 angegeben.
Lokalisierungs GUI
Die Kernimplementierungen der einzelnen Lokalisierungsverfahren
wurden jeweils mit einer Qt42 -GUI versehen, um interaktiv am Bildschirm Parameter bestimmen und bewerten zu können. Die Parameter entsprechen dabei denen aus Tabelle 7 und 8. Abbildung 58
zeigt die Oberfläche der Implementierung. Links sind die Parameter der Lokalisierung aufgeführt, rechts werden die vier Projektionen
in Drehwinkel×Neigungswinkel, Drehwinkel×Zeit, Drehwinkel×Frequenz und Frequenz×Zeit angezeigt.
2 http://qt.nokia.com/
90
implementierung
ABBILDUNGSVERZEICHNIS
Abbildung 1
Abbildung 2
Abbildung 3
Abbildung 4
Abbildung 5
Abbildung 6
Abbildung 7
Abbildung 8
Abbildung 9
Abbildung 10
Abbildung 11
Abbildung 12
Abbildung 13
Abbildung 14
Abbildung 15
Abbildung 16
Abbildung 17
Abbildung 18
Abbildung 19
Abbildung 20
Abbildung 21
Abbildung 22
Abbildung 23
Abbildung 24
Abbildung 25
Abbildung 26
Abbildung 27
Abbildung 28
Abbildung 29
Abbildung 30
Abbildung 31
Abbildung 32
Abbildung 33
Abbildung 34
Abbildung 35
Abbildung 36
Abbildung 37
Abbildung 38
Abbildung 39
Abbildung 40
Abbildung 41
Abbildung 42
Abbildung 43
Abbildung 44
Abbildung 45
Abbildung 46
Abbildung 47
Abbildung 48
Abbildung 49
Konferenzszenario 2
Sprachproduktion und -erkennung bei Menschen 6
Röhrenmodell der Sprachproduktion 7
Schallausbreitung im Raum 10
Reflektogramm 11
Mikrophonpaar im Fernfeld 12
Mikrophonarrays 13
Menschliches Gehör 15
Hörfläche 16
Impulskodierung der Wanderwelle 17
Spektrogramm 18
Auditive Pfade 19
Bei Sprachwahrnehmung beteiligte Hirnareale 20
Abstraktion und Algoritmen 21
Cocktail-Party-Effekt 22
Gruppierungsprinzipien der ASA 23
CASA Modell der Sprachverarbeitung 25
Summe, Produkt und Hamacher-t-Norm 32
Hamacher- und SRP-PHAT spatial likelihood 33
Clusteringansatz für Sprecherlokalisierung 34
Filter des Auditiven Nervs 36
Impulsantwort eines Gammatonfilters 36
Gammaton-Filterbank 37
Jeffress-Colburn-Modell 38
KEMAR Dummy 39
künstlichem Außenohr des Roboters iCub 41
Sprecherverfolgung im Modell von Roman 42
CASA Spracherkennung Srinivasan/Wang 44
Hallrobuste CASA Spracherkennung 46
Verarbeitungsstruktur 48
Mikrophonarray im Konferenzszenario 49
Auditive Filterbank 51
Peak-over-Average Impulserzeugung 52
Schallfront am zirkulären Mikrophonarray 56
Korrelationsvariation 59
Lokalisierung zweier Sprecher in der FINCA 62
AV16.3 Aufnahmesituation 64
Aufnahmesetup in der FINCA 64
Vergleich der Spikegenerierung 65
ITD-Korrelation; Mikrophonzusammenfassung 67
Rückprojektion Kreis und Kugel 67
Energieverteilung verschiedener t-Normen 69
Szenario im simulierten Konferenzraum 70
Paramertervariation Lokalisierung 71
Vergleich der Spikegenerierungsvorschriften 72
Vergleich der Hamacher-t-Normen 72
Vergleich der Modulationsschwellen 73
Zeitliche Mittelung und Winkel-PoA 74
Zeitliche Integration 74
91
Abbildung 50
Abbildung 51
Abbildung 52
Abbildung 53
Abbildung 54
Abbildung 55
Abbildung 56
Abbildung 57
Abbildung 58
Lokalisierung zweier simulierter Sprecher 75
Trennbarkeit simulierter gleichzeitige Sprecher 76
Detektionen für AV16.3-Sequenz 1 78
Einzelner Sprecher in der FINCA 79
Detektionen zu FINCA-Sequenz 1 79
Detektionen zu FINCA-Sequenz 2 81
FINCA-Sequenz 3 81
Detektionen zu FINCA-Sequenz 3 81
Lokalisierungs GUI 90
TABELLENVERZEICHNIS
Tabelle 1
Tabelle 2
Tabelle 3
Tabelle 4
Tabelle 5
Tabelle 6
Tabelle 7
Tabelle 8
Subbänder des zirkulären Mikrophonarrays 48
Detektionen eines Sprechers nach Position 79
Detektionen zu FINCA-Sequenz 3 81
Laufzeitvergleich Gammaton Filterbank 87
Laufzeitvergleich Korrelation 88
Laufzeitvergleich Lokalisation 88
Kommandozeile: Verarbeitungsparameter 89
Kommandozeile: Nachverarbeitung 89
ALGORITHMENVERZEICHNIS
Algorithmus 1
Algorithmus 2
Algorithmus 3
92
Schnelle Impulskorrelation 55
Paarweise Kombination 57
Kombination eines Paares 57
LITERATURVERZEICHNIS
[AB79]
J. B. Allen und D. A. Berkley: Image Method for Efficiently
Simulating Small-Room Acoustics. Journal of the Acoustical
Society of America, 65(4):943–950, 1979.
[All94]
J. B. Allen: How do Humans Process and Recognize
Speech? IEEE Transaction on Speech and Audio Processing, 2(4):567–577, Oktober 1994.
[Ata06]
B. Atal: The History of Linear Prediction. IEEE Signal Processing Magazine, 23(2):154–161, 2006.
[Bar04]
J. Barker: The RESPITE CASA Toolkit Project – A Toolkit
for Computational Auditory Scene Analysis. http://www.dcs.
shef.ac.uk/~jon/ctk.html, 2004.
[Beh06]
G. K. Behler: How to Compare Concert Halls by Listening to
Music. In: Joint ASA/ASJ Meeting, Honolulu, Hawaii, 2006.
[BH99]
J. D. Bard und F. M. Ham: Time Difference of Arrival Dilution of Precision and Applications. IEEE Transactions on
Signal Processing, 47(2):521–523, Februar 1999.
[Bla96]
J. Blauert: Spatial Hearing - Revised Edition: The Psychophysics of Human Sound Localization. The MIT Press, October
1996.
[Boh88]
D. A. Bohn: Environmental Effects on the Speed of Sound.
Journal of the Audio Engineering Society, 36, April 1988.
[Bra89]
K. Brandenburg: Ein Beitrag zu den Verfahren und der
Qualitätsbeurteilung für hochwertige Musikcodierung. Doktorarbeit, Technische Fakultät der Universität ErlangenNürnberg, 1989.
[Bre90]
A. S. Bregman: Auditory Scene Analysis. MIT Press, 1990.
[BvH07]
M. Bürck und J. L. van Hemmen: Modeling the Cochlear
Nucleus: A Site for Monaural Echo Suppression? Journal of
the Acoustical Society of America, 122:2226–2235, 2007.
[BW01]
M. Brandstein und D. Ward (Herausgeber): Microphone
Arrays. Springer, 2001.
[CD78]
S. Colburn und N. I. Durlach: Models of Binaural Interaction. In: E. C. Carterette und M. P. Friedman (Herausgeber): Handbook of Perception, Seiten 467–518. Academic
Press, New York, 1978.
[Che53]
E. C. Cherry: Some Experiments on the Recognition of Speech,
with One and with Two Ears. Journal of the Acoustical Society of America, 25(5):975–979, 1953.
[CKR09]
M. Costa, V. Koivunen und A. Richter: Low Complexity
Azimuth and Elevation Estimation for Arbitrary Array Configurations. In: IEEE International Conference on Acoustics,
Speech, and Signal Processing, Seiten 2185–2188, Taipei, Taiwan, 2009.
93
[CMWB07] H. Christensen, N. Ma, S. N. Wrigley und J. Barker:
Integrating Pitch and Localisation Cues at a Speech Fragment
Level. In: Interspeech 2007; Antwerp, Belgium, Seiten 2769–
2772, 2007.
94
[Coo06]
M. P. Cooke: A Glimpsing Model of Speech Perception in Noise. Journal of the Acoustical Society of America, 119:1562–
1573, 2006.
[DHS01]
R. O. Duda, P. E. Hart und D. G. Stork: Pattern Classification. John Wiley & Sons, New York, 2 Auflage, 2001.
[DIH+ 09]
S. Devore, A. Ihlefeld, K. Hancock, B. ShinnCunningham und B. Delgutte: Accurate Sound Localization in Reverberant Environments is mediated by Robust Encoding of Spatial Cues in the Auditory Midbrain. Neuron,
16;62(1):123–34, April 2009.
[Dob06]
G. Doblinger: An Adaptive Microphone Array for Optimum
Beamforming and Noise Reduction. In: 14th European Signal
Processing Conference, Florence, Italy, 2006.
[Fin03]
G. A. Fink: Mustererkennung mit Markov-Modellen. Teubner,
2003.
[FJ05]
M. Frigo und S. G. Johnson: The Design and Implementation of FFTW3. Proceedings of the IEEE, 93(2):216–231, 2005.
Special issue on “Program Generation, Optimization, and
Platform Adaptation”.
[Fuk90]
K. Fukunaga: Introduction to Statistical Pattern Recognition.
Academic Press Professional, Inc., San Diego, CA, USA, 2
Auflage, 1990.
[GB01]
S. L. Gay und J. Benesty (Herausgeber): Acoustic Signal
Processing for Telecommunication. Kluwer, 2001.
[GM90]
B. Glasberg und B. Moore: Derivation of Auditory Filter Shapes from Notched-Noise Data. Hearing Research,
47(1–2):103–138, August 1990.
[GM94]
W. G. Gardner und K. D. Martin: HRTF Measurements of
a KEMAR Dummy Head Microphone. Technischer Bericht,
MIT Media Lab, 1994.
[GM00]
B. Gold und N. Morgan: Speech and Audio Signal Processing. Wiley, 1 Auflage, 2000.
[Gro03]
B. Grothe: New Roles for Synaptic Inhibtion in Sound Localisation. Nature, 4(7):540–550, 2003.
[Gus96]
F. Gustafsson: Determining the Initial States in ForwardBackward Filtering. IEEE Transactions on Signal Processing,
44(4):988–992, 1996.
[HAH01]
X. Huang, A. Acero und H.-W. Hon: Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall, Upper Saddle River, NJ, 2001.
[Ham91]
R. W. Hamming: The Art of Probability for Scientists and Engineers. Addison-Wesley, 1991.
[Han89]
S. Handel: Listening. MIT Press, 1989.
literaturverzeichnis
[HBB06]
S. Harding, J. Barker und G. Brown: Mask Estimation for
Missing Data Speech Recognition based on Statistics of Binaural Interaction. IEEE Transactions on Audio, Speech, and
Language Processing, 14(1):58–67, 2006.
[Hel93]
J. Helbig: Merkmale Deutscher Plosive aus der Sicht der Automatischen Spracherkennung. Doktorarbeit, TU Dresden,
1993.
[Hen09]
M. Hennecke: Automatische Kalibrierung verteilter Mikrophonfelder. Diplomarbeit, TU Dortmund; Fakultät für Informatik in Zusammenarbeit mit dem Institut für Roboterforschung, Dortmund, Germany, 2009.
[HLSVL06] J. Hörnstein, M. Lopes, J. Santos-Victor und F. Lacerda: Sound Localization for Humanoid Robots – Building AudioMotor Maps based on the HRTF. In: IEEE/RSJ International
Conference on Intelligent Robots and Systems, Seiten 1170–
1176, Beijing, China, 2006.
[HOS95]
J. Huang, N. Ohnishi und N. Sugie: A Biomimetic System for Localization and Separation of Multiple Sound Sources.
IEEE Transactions on Instrumentation and Measurement,
44(3):733–738, 1995.
[IKN98]
L. Itti, C. Koch und E. Niebur: A Model of Saliency-Based
Visual Attention for Rapid Scene Analysis. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 20(11):1254–
1259, 1998.
[Jef48]
L. A. Jeffress: A Place Theory of Sound Localization. Journal of Comparative & Physiological Psychology, 41:35–39,
1948.
[Jeh05]
T. Jehan: Creating Music by Listening. Doktorarbeit, MIT,
2005.
[KAK06]
Y.-I. Kim, S. An und R. Kil: Zero-Crossing Based Binaural
Mask Estimation for Missing Data Speech Recognition. In:
IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 5, Toulouse, France, 2006.
[Kat91]
J. Kates: A time-domain digital cochlear model. IEEE Transactions on Signal Processing, 39(12):2573–2592, 1991.
[KPTN08]
M. Kuhne, D. Pullella, R. Togneri und S. Nordholm:
Towards the Use of Full Covariance Models for Missing Data Speaker Recognition. In: IEEE International Conference on
Acoustics, Speech, and Signal Processing, Seiten 4537–4540,
Las Vegas, Nevada, USA, 2008.
[KR09]
D. Khaykin und B. Rafaely: Coherent Signals Direction-ofArrival Estimation using a Spherical Microphone Array: Frequency Smoothing Approach. In: IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, Seiten
221–224, 2009.
[Kut00]
H. Kuttruff: Room Acoustics. Taylor & Francis, 4 Auflage,
2000.
literaturverzeichnis
95
[Lat06]
G. Lathoud: Spatio-temporal Analysis of Spontaneous Speech
with Microphone Arrays. Doktorarbeit, Ecole Polytechnique
Féderale de Lausanne, 2006.
[LDC]
The LDC Corpus Catalog – Linguistic Data Consortium, University of Pennsylvania. http://www.ldc.upenn.edu/.
[Leh06]
E. Lehmann: Particle Filtering Approach to Adaptive TimeDelay Estimation. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 4, Toulouse, France, 2006.
[Lin86a]
W. Lindemann: Extension of a Binaural Cross-correlation Model by Contralateral Inhibition. I. Simulation of Lateralization
for Stationary Signals. Journal of the Acoustical Society of
America, 80:1608–1622, 1986.
[Lin86b]
W. Lindemann: Extension of a Binaural Cross-correlation Model by Contralateral Inhibition. II. The Law of the First Wavefront. Journal of the Acoustical Society of America,
80:1623–1630, 1986.
[Lin98]
B. Lincoln: An Experimental High Fidelity Perceptual Audio
Coder. Technischer Bericht, University Stanford, CCRMA,
1998.
[LK00]
A. M. Law und D. W. Kelton: Simulation Modelling and
Analysis. McGraw-Hill, April 2000.
[LO07]
G. Lathoud und J.-M. Odobez: Short-Term Spatio-Temporal
Clustering Applied to Multiple Moving Speakers. IEEE Transactions on Audio, Speech, and Language Processing,
2007.
[LOGP05]
G. Lathoud, J.-M. Odobez und D. Gatica-Perez: AV16.3:
An Audio-Visual Corpus for Speaker Localization and Tracking.
In: Proceedigns of the International Workshop ; LNCS, Band
3361, Seiten 182–195, Martigny, Switzerland, 2005.
[LPGR+ 09] J. Liu, D. Perez-Gonzalez, A. Rees, H. Erwin und
S. Wermter: Multiple Sound Source Localisation in Reverberant Environments Inspired by the Auditory Midbrain. In:
C. Alippi, M. Polycarpou, C. Panayiotou und G. Ellinas (Herausgeber): Artificial Neural Networks – ICANN
2009; 19th International Conference on Artificial Neural Networks; Limassol, Cyprus, September 14-17, 2009, Band 5769
der Reihe Lecture Notes in Computer Science, Seiten 208–217.
Springer, 2009.
96
[Lyo83]
R. Lyon: A computational model of binaural localization and
separation. In: IEEE International Conference on Acoustics,
Speech, and Signal Processing, Band 8, Seiten 1148–1151, Boston, Massachusetts, USA, 1983.
[LYWJ10]
Y. Liu, Z. Yang, X. Wang und L. Jiang: Location, Localization, and Localizability. Journal of Computer Science and
Technology, 25(2):274–297, March 2010.
[Mar95a]
K. D. Martin: Estimating Azimuth and Elevation from Interaural Differences. In: IEEE ASSP Workshop on Applications of
Signal Processing to Audio and Acoustics, Seiten 96–99, Oct
1995.
literaturverzeichnis
[Mar95b]
R. Martin: Freisprecheinrichtungen mit mehrkanaliger Echokompensation und Störgeräuschunterdrückung. Doktorarbeit,
RWTH Aachen, 1995.
[MF00]
Z. Michalewicz und D. B. Fogel: How to Solve It: Modern
Heuristics. Springer, 2000.
[MHA08]
R. Martin, U. Heute und C. Antweiler: Advances in Digital Speech Transmission. Wiley, 1 Auflage, 2008.
[MM03]
D. Moore und I. McCowan: Microphone Array Speech Recognition: Experiments on Overlapping Speech in Meetings. In:
IEEE International Conference on Acoustics, Speech, and Signal
Processing, Band 5, Seite 497, 2003.
[MM08]
N. Madhu und R. Martin: A Scalable Framework for Multiple Speaker Localization and Tracking. In: 11th International
Workshop on Acoustic Echo and Noise Control, Seattle, Washington USA, September 2008.
[MS01]
I. A. McCowan und S. Sridharan: Multi-Channel SubBand Speech Recognition. EURASIP Journal on Applied Signal Processing, 2001(1):45–52, 2001.
[MVSB06]
W.-K. Ma, B.-N. Vo, S. S. Singh und A. Baddeley: Tracking
an unknown time-varying Number of Speakers using TDOA
Measurements: A Random Finite Set Approach. IEEE Transactions on Signal Processing, 54:3291–3304, 2006.
[Mø77]
A. R. Møllner: Frequency Selectivity of Single AuditoryNerve Fibers in Response to Broad-Band Noise Stimuli. Journal
of the Acoustical Society of America, 62(1):135–142, 1977.
[NNM+ 06] K. Nakadai, H. Nakajima, M. Murase, S. Kaijiri, K. Yamada, T. Nakamura, Y. Hasegawa, H. Okuno und
H. Tsujino: Robust Tracking of Multiple Sound Sources by
Spatial Integration of Room and Robot Microphone Arrays. In:
IEEE International Conference on Acoustics, Speech, and Signal
Processing, Band 4, Seiten Iv–Iv, 2006.
[OS09]
N. Ohwada und K. Suyama: Multiple Sound Sources
Tracking Method based on Subspace Tracking. In: IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, Seiten 217–220, 2009.
[PBB06]
K. Palomäki, G. Brown und J. Barker: Recognition of Reverberant Speech using Full Cepstral Features and Spectral
Missing Data. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 1, Toulouse, France, 2006.
[PBO00]
H. Purwins, B. Blankertz und K. Obermayer: Computing
Auditory Perception. Organised Sound, 5(3):159–171, 2000.
[PBW04]
K. J. Palomäki, G. J. Brown und D. Wang: A Binaural Processor for Missing Data Speech Recognition in the Presence of
Noise and Small-Room Reverberation. Speech Communication, 43(4):361–378, 2004.
[PH01]
D. W. R. Paulus und J. Hornegger: Applied Pattern Recognition – A practical Introduction to Image and Speech Processing in C++. Vieweg, 2001.
literaturverzeichnis
97
[PK06]
J. Peterson und C. Kyriakakis: Analysis of Source Localization in Reverberant Environments. In: IEEE Workshop on
Sensor Array and Multichannel Processing, Seiten 672–676,
Waltham, Massachusetts, USA, 2006.
[PKCF08]
T. Plötz, C. Kleine-Cosack und G. A. Fink: Towards Human Centered Ambient Intelligence. In: E. Aarts, J. L. Crowley, B. de Ruyter, H. Gerhäuser, A. Pflaum, J. Schmidt
und R. Wichert (Herausgeber): European Conference on
Ambient Intelligence, Band 5355 der Reihe Lecture Notes in
Computer Science, Seiten 26–43. Springer, 2008.
[PKV08]
P. Pertilä, T. Korhonen und A. Visa: Measurement Combination for Acoustic Source Localization in a Room Environment. EURASIP Journal on Audio, Speech, and Music Processing, 2008:1–14, 2008.
[Plö07]
T. Plötz: The FINCA: A Flexible, Intelligent eNvironment
with Computational Augmentation. http://finca.irf.de,
2007.
[PM96]
J. Prokakis und D. Manolakis: Digital Signal Processing:
Principles, Algorithms and Applications. Prentice Hall, 3 Auflage, 1996.
[PNSHR88] R. Patterson, I. Nimmo-Smith, J. Holdsworth und P. Rice: An Efficient Auditory Filterbank based on the Gammatone
Functions. Technischer Bericht APU Report 2341, MRC,
Applied Psychology Unit, Cambridge U.K, 1988.
[Pol88]
G. Polya: How to Solve It. Princeton University Press, 1988.
[PS06]
H.-M. Park und R. Stern: Spatial Separation of Speech Signals using Continuously-Variable Masks Estimated from Comparisons of Zero Crossings. In: IEEE International Conference
on Acoustics, Speech, and Signal Processing, Band 4, Toulouse, France, 2006.
[PZSR+ 07] M. Pecka, T. P. Zahn, B. Saunier-Rebori, I. Siveke, F. Felmy, L. Wiegrebe, A. Klug, G. Pollak und B. Grothe: Inhibiting the Inhibition: A Neuronal Network for Sound Localization in Reverberant Environments. Journal of Neuroscience,
27:1782–1790, 2007.
98
[RLB+ 08]
J. Ruesch, M. Lopes, A. Bernardino, J. Hornstein,
J. Santos-Victor und R. Pfeifer: Multimodal SaliencyBased Bottom-Up Attention – A Framework for the Humanoid
Robot iCub. In: IEEE International Conference on Robotics and
Automation, Pasadena, California, Seiten 962–967, 2008.
[RS78]
L. R. Rabiner und R. W. Schafer: Digital Processing of
Speech Signals. Prentice-Hall, 1978.
[RSS04]
B. Raj, M. L. Seltzer und R. M. Stern: Reconstruction of
Missing Features for Robust Speech Recognition. Speech Communication, 43(4):275–296, 2004.
[RW03]
N. Roman und D. Wang: Binaural Tracking of Multiple Moving Sources. In: IEEE International Conference on Acoustics,
Speech, and Signal Processing, Band 5, Seite 149, 2003.
literaturverzeichnis
[RW08]
N. Roman und D. Wang: Binaural Tracking of Multiple Moving Sources. IEEE Transactions on Audio, Speech, and
Language Processing, 16(4):728–739, 2008.
[RWB03]
N. Roman, D. Wang und G. Brown: Speech Segregation based on Sound Localization. Journal of the Acoustical Society
of America, 114:2236–2252, 2003.
[Sco05]
S. K. Scott: Auditory processing – speech, space and auditory
objects. Current Opinion in Neurobiology, 15(2):197–201,
2005.
[SGK+ 08]
R. Stern, E. Gouvea, C. Kim, K. Kumar und H.-M. Park:
Binaural and Multiple-Microphone Signal Processing Motivated by Auditory Perception. In: Joint Workshop on HandsFree Speech Communication and Microphone Arrays, Seiten
98–103, Trento, Italy, 2008.
[SGT07]
R. M. Stern, E. B. Gouvea und G. Thattai: ”polyaural”
array processing for automatic speech recognition in degraded
environments. In: INTERSPEECH Proceedings, Seiten 926–
929, 2007.
[Sha85]
S. A. Shamma: Speech Processing in the Auditory System I:
The Representation of Speech Sounds in the Responses of the
Auditory Nerve. Journal of the Acoustical Society of America, 78(5):1612–1621, 1985.
[Sla93]
M. Slaney: An efficient implementation of the PattersonHoldsworth auditory filter bank. Technischer Bericht 35, Apple Computer, Inc., 1993.
[Smi99]
S. W. Smith: The Scientists and Engineer’s Guide to Digital
Signal Processing. California Technical Publishing, 2 Auflage, 1999.
[SN09]
A. Saxena und A. Y. Ng.: Learning Sound Location from a
Single Microphone. In: International Conference on Robotics
and Automation, Kobe, Japan, 2009.
[SSJW06]
S. Srinivasan, Y. Shao, Z. Jin und D. Wang: A Computational Auditory Scene Analysis System for Robust Speech Recognition. In: Interspeech, Seiten 73–76, Pittsburgh, Pennsylvania,
USA, 2006.
[ST95]
E. G. Schukat-Talamazzini: Automatische Spracherkennung. Vieweg, Wiesbaden, 1995.
[SW06]
Y. Shao und D. Wang: Model-based sequential organization
in cochannel speech. IEEE Transactions on Audio, Speech,
and Language Processing, 14(1):289–298, 2006.
[SW07]
S. Srinivasan und D. Wang: Transforming Binary Uncertainties for Robust Speech Recognition. IEEE Transactions on
Audio, Speech, and Language Processing, 15(7):2130–2140,
2007.
[Täg98]
W. Täger: Near Field Superdirectivity (NFSD). In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 4, Seiten 2045–2048, Seattle, WA, USA, 1998.
literaturverzeichnis
99
[Ter79]
E. Terhardt: Calculating Virtual Pitch. Hearing Research,
1:155–182, 1979.
[TG80]
A. Treisman und G. Gelade: A Feature–Integration Theory
of Attention. Cognitive Psychology, 12:97–136, 1980.
[Tra90]
H. Traunmüller: Analytical expressions for the tonotopic sensory scale. Journal of the Acoustical Society of America,
88:97–100, 1990.
[UA99]
M. Unoki und M. Akagi: A Method of Signal Extraction
from Noisy Signal based on Auditory Scene Analysis. Speech
Communication, 27(3):261–279, 1999.
[VLAO05] K. Voutsas, G. Langner, J. Adamy und M. Ochse: A
Brain-like Neural Network for Periodicity Analysis. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 35(1):12–22, 2005.
[WB06]
D. Wang und G. J. Brown (Herausgeber): Computational
Auditory Scene Analysis: Principles, Algorithms, and Applications. IEEE Press/Wiley Interscience, 2006.
[WEA+ 06] V. Willert, J. Eggert, J. Adamy, R. Stahl und E. Korner:
A Probabilistic Model for Binaural Sound Localization. IEEE
Transactions on Systems, Man, and Cybernetics, Part B:
Cybernetics, 36(5):982–994, 2006.
100
[WW83]
A. Weiss und E. Weinstein: Fundamental Limitations in Passive Time Delay Estimation – Part I: Narrow-Band Systems.
IEEE Transactions on Acoustics, Speech and Signal Processing, 31(2):472–486, 1983.
[WW84]
E. Weinstein und A. Weiss: Fundamental Limitations in
Passive Time-Delay Estimation – Part II: Wide-Band Systems.
IEEE Transactions on Acoustics, Speech and Signal Processing, 32(5):1064–1078, 1984.
[ZFZ08]
C. Zhang, D. Florencio und Z. Zhang: Why does PHAT
work well in Lownoise, Reverberative Environments? In: IEEE
International Conference on Acoustics, Speech, and Signal Processing, Seiten 2565–2568, 2008.
[Zwi82]
E. Zwicker: Psychoakustik. Springer, 1982.
literaturverzeichnis