Perceptual Linear Prediction

Transcription

Perceptual Linear Prediction
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Perceptual Linear Prediction
Denis Extra
Institut für Physik
Carl von Ossietzky Universität Oldenburg
20.11.06
Denis Extra
Zusammenfassung
Einleitung
Grundlagen
PLP Technik
Gliederung
1
Einleitung
2
Grundlagen
3
PLP Technik
4
Matlab-Demo
5
Ergebnisse
6
Zusammenfassung
Denis Extra
Matlab-Demo
Ergebnisse
Zusammenfassung
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Einleitung
Ziel: Klassifikation von Sprachsignalen
(Merkmalsvektoren)
Unterschiedliche Phoneme sollten möglichst
unterschiedliche Merkmale aufweisen
Gleiche Phoneme sollten möglichst gleiche Merkmale
aufweisen
Bekannte Verfahren:
Spektralalanalyse
Autokorrelationsanalyse
LPC- Analyse
MFCC-Analyse
Perceptual Linear Prediction
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Rückblick: LPC
LPC-Analyse gibt Filterkoeffizienten zurück
Filterkoeffizienten beschreiben die Lage der Pole
Stellen somit das für die Klassifikation wichtige
Merkmal dar
1
0.8
0.6
Imaginary Part
0.4
Magnitude (dB)
100
0.2
0
−0.2
−0.4
50
−0.6
0
−50
−0.8
−1
0
0.5
1
Frequency (Hz)
1.5
2
−1
−0.5
4
x 10
Analyse auf Basis linearer Frequenzachse
Denis Extra
0
Real Part
0.5
1
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Fromanten
Charakteristische Überhöhungen im
Frequenzspektrum
Die Lage der Formanten lässt auf bestimmten Laut
schließen
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Idee der PLP
Perceptual Linear Prediction (Hermansky 1989):
Methode zur Klassifikation von Sprachsignalen
(Feature Extraction)
Anwendung: Automatische Spracherkennung
Berücksichtigung spezieller Eigenschaften des
Gehörs
Frequenzgruppeneinteilung
Kurve gleicher Lautstärke
Nichtlinearität der Basilarmembran
Idee: Eigenschaften des Ohres optimiert zur
Sprachanalyse
Denis Extra
Einleitung
Grundlagen
PLP Technik
Innenohr
Denis Extra
Matlab-Demo
Ergebnisse
Zusammenfassung
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Tonotopie des Innenohres
Denis Extra
Ergebnisse
Zusammenfassung
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Maskierung, Frequenzselektivität, kritische
Bänder
Frequenzselektivität: Fähigkeit einzelne
Komponenten aus einem komplexen Stimulus
heraushören zu können
Demonstration durch Maskierungsexperimente
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Fletcher Experiment: Kritische Bänder
Detektion eines Testtones (fester Frequenz) in
Rauschen
Rauschen symmetrisch um Testton platziert
Konstante spektrale Leistungsdichte
Variable Bandbreite ∆f
Messung der Detektionsschwelle des Tones als
Funktion von ∆f
Ergebnis:
Ab gewisser Bandbreite (Kritische Bandbreite) bleibt
Schwelle konstant
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Fletcher Experiment: Kritische Bänder
Fletcher nahm an:
SNR ist an der Detektionsschwelle konstant
(unabhängig von der Mittenfrequenz)
Power Spectrum Model
Energie
Energie
Spektrum des Rauschsignals
Auditorisches Filter
Frequenz [Hz]
Frequenz [Hz]
Korrektur nach Scharf (1970) :
Das Ohr fasst Intensitäten von Schallreizen in
Frequenzbändern zusammen
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Abschätzung der Form auditorischer Filter
Testton fester Frequenz f0 und Pegel
Schmalbandiger Maskierer zentriert um fm
Messung der Maskierungsschwelle
Basilarmembran läßt sich als Bandpass-Filterbank
darstellen
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Lautheit
Beschreibt wie laut Schall subjektiv empfunden wird
Messmethode: Lautheitsvergleich
1Phon = Pegel [dBSPL] eines 1 kHz Sinustones, der
bei binauralem Hören zur gleichen subjektiven
Lautheit, wie der Testschall führt.
Darstellung auf sogenannten Isophone
Daher: Kurve die Töne unterschiedlicher Frequenz
aber gleicher Lautheit verbindet
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Kurven gleicher Lautheit (Isophone)
Man erkennt:
Lautheit wächst mit steigendem Pegel
Lautheitswachstum ist frequenzabhängig
40 Phon-Isophone entspricht A-Gewichtung bei
Schallpegelmessung
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Nichlinearität der Basilarmembran
Experiment von Robles
Kompressive Wirkung abhängig von Abstand zur
beob. Zenterfrequenz (Center-Frequency)
Je näher der Stimulus an der CF liegt desto stärker
ist die kompressive Wirkung der Basilarmembran
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Aktiver Verstärkungsmechanismus der BM
Äußere Haarzellen stehen im dirketen Kontakt mit der
Tektorialmembran
Bei Reiz priodische Längenänderung
Signalintensität kann um Faktor 103 erhöht werden
Aktive Verstärkung der Wanderwelle
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Nichlinearität der Basilarmembran
Wahrnehmung von Schall über einen größeren
Dynamikbereich
Die Kompressionseigenschaften der Basilarmembran
sind frequenzselektiv
Kompression bspw. bei tiefen Frequenzen weniger
ausgeprägt
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Schritte der PLP- Verarbeitung
Speech
Spektral analysis
Critical Band integration and re-sampling
Equal-loudness curve
Power Law of hearing
IDFT
LPC
Denis Extra
Ergebnisse
Zusammenfassung
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Spectral analysis
1. Blockweise Verarbeitung des Sprachsignals
Gewichtung mit Hamming - Fenster (Minimierung des
Leakage-Effekts)
Minimierung des Leakage-Effekts
Typische Blocklänge: 20 ms
Aneinandergrenzende Fenster überlappen sich
Hamming Fenster
Amplitude
1
0.5
0
0
2
4
6
8
10
12
Zeit [ms]
14
16
18
20
2. Diskrete Fourier Transformation
3. Kurzzeit-Leistungs-Dichte-Spektrum
P(ω) = Re[S(ω)]2 + Im[S(ω)]2
Denis Extra
(1)
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Spectral analysis
Segmentierung und Überlappung
Sprachsignal (gefenstert)
0.2
0.4
0.1
Amplitude
Amplitude
Sprachsignal (Auschnitt)
0.6
0.2
0
−0.2
0
2
4
6
8
10
12
Zeit [ms]
14
16
18
20
0
−0.1
−0.2
0
2
4
6
8
10
12
Zeit [ms]
14
16
18
20
Sprachsignal
Zeit
Block
Fensterung, DTF, LDS
Sinn der überlappenden Fenster:
Ausgleich des Informationsverlusts durch Fensterung
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Critical-band integration and Re-Sampling
An das Gehör angepasste Verzerrung der
Frequenzskala
Verzerrung der Frequenzachse (Schroeder 1977):
ω
ω
Ω(ω) = 6ln{
+ [(
)2 + 1]0.5 }
(2)
1200π
1200π
Bark Frequenzskala
14000
12000
Frequenz [Hz]
10000
8000
6000
4000
2000
0
0
5
10
15
Bark Intervall
Denis Extra
20
25
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Critical-band integration and Re-Sampling
Faltung mit konstruierter
Frequenzgruppen-Maskierungskurve
Resultat ist das Bark-Spektrum
Reduzierung der Spektralen Auflösung
Abtastung in 1-Bark Intervalen
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Equal-loudness preemphasis
Berücksichtigung der Sensivität des menschlichen
Gehörs für verschiedene Frequenzen
Bewertung des unterabgetasteten Spektrums mit
einer simulierten Kurve gleicher Lautheit.
Ziel: Ausgleich der frequenzabhängikeit der Lautheit
Ξ[Ω(ω)] = E(ω) · Θ[Ω(ω)]
Kurve gleicher Lautheit nach Makhoul fs/2 > 5000
0
−20
−20
H (f) dB
E(f) dB
Kurve gleicher Lautheit nach Makhoul fs/2 < 5000
0
−40
−40
−60
−60
−80
(3)
0
500
1000
1500
2000 2500 3000
Frequenz [Hz]
3500
4000
4500
5000
Denis Extra
−80
0
0.5
1
1.5
Frequenz [Hz]
2
2.5
4
x 10
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Power law of hearing
Berücksichtigung der Nichtlinearität zwischen
Klangintensität und wahrgenommener Lautheit
Kompression des Spektrums durch Ziehen der
Kubikwurzel
Φ(Ω) = Ξ(Ω)0.33
Spektrum vor Kompression
(4)
Spektrum nach Kompression
−8
x 10
−3
x 10
5
4
Amplitude
Amplitude
4
3
2
3
2
1
1
0
0
0
0
20
5
40
10
60
15
80
20
25
0
0
20
5
40
10
60
15
80
20
Block
25
Bark Interval
Bark Interval
Denis Extra
Block
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Linear Prediction
Berechnung der IDFT
Vorher: Resynthese von negativen Frequenzen
Das Ergebnis ist eine Art Autokorrelationsfunktion
Blockverarbeitung:
Bestimmen der Prädiktions-Filterkoeffizienten
Fouriertransformation der Filterkoeffizienten
Berechnung des Leistungsspektrums
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Matlab-Demo
Formantenlage der deutschen Sprache
Denis Extra
Ergebnisse
Zusammenfassung
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Phonem-Analyse
Zwei mänliche und weibliche Sprecher
Phonemextraktion (Cluster gleicher Phoneme)
Vergleich der Cluster einzelner Personen
Identifikation erfolgt nur über spektrale Komponenten
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Wort-Analyse
36 Einzelwörter im Test
PLP-Analyse mit 10 ms Blocklänge
Angleich der Signallänge
Sprecherabhängiger und kreuzweiser Vergleich
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Sprecherunabhängige Erkennung
f
t
Denis Extra
Zusammenfassung
Einleitung
Grundlagen
PLP Technik
Rechenleistung
Denis Extra
Matlab-Demo
Ergebnisse
Zusammenfassung
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Vorteile der PLP vs. LPC-Analyse
Bessere Erkennungsraten
Gleichbleibende Sensivität bei Formantenänderung
Unterdrückung sprecherabhängiger Informationen
Starke Datenreduktion
Geringere Filterordnung
Denis Extra
Einleitung
Grundlagen
PLP Technik
Matlab-Demo
Ergebnisse
Zusammenfassung
Zusammenfassung
PLP ist eine spezielles Werkzeug zur Sprachanalyse
Grundlage bildet eine an das Ohr angepasste
Vorverarbeitung des Signals
Einteilung in kritische Bänder
Ausgleich der Lautheitskurve
Berücksichtigung der Nichtlinearität der BM
Anschließend erfolgt die normale LPC - Analyse
Deultliche Leistungssteigerung gegenüber der
herkömmlich LPC
Denis Extra