Perceptual Linear Prediction
Transcription
Perceptual Linear Prediction
Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Perceptual Linear Prediction Denis Extra Institut für Physik Carl von Ossietzky Universität Oldenburg 20.11.06 Denis Extra Zusammenfassung Einleitung Grundlagen PLP Technik Gliederung 1 Einleitung 2 Grundlagen 3 PLP Technik 4 Matlab-Demo 5 Ergebnisse 6 Zusammenfassung Denis Extra Matlab-Demo Ergebnisse Zusammenfassung Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Einleitung Ziel: Klassifikation von Sprachsignalen (Merkmalsvektoren) Unterschiedliche Phoneme sollten möglichst unterschiedliche Merkmale aufweisen Gleiche Phoneme sollten möglichst gleiche Merkmale aufweisen Bekannte Verfahren: Spektralalanalyse Autokorrelationsanalyse LPC- Analyse MFCC-Analyse Perceptual Linear Prediction Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Rückblick: LPC LPC-Analyse gibt Filterkoeffizienten zurück Filterkoeffizienten beschreiben die Lage der Pole Stellen somit das für die Klassifikation wichtige Merkmal dar 1 0.8 0.6 Imaginary Part 0.4 Magnitude (dB) 100 0.2 0 −0.2 −0.4 50 −0.6 0 −50 −0.8 −1 0 0.5 1 Frequency (Hz) 1.5 2 −1 −0.5 4 x 10 Analyse auf Basis linearer Frequenzachse Denis Extra 0 Real Part 0.5 1 Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Fromanten Charakteristische Überhöhungen im Frequenzspektrum Die Lage der Formanten lässt auf bestimmten Laut schließen Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Idee der PLP Perceptual Linear Prediction (Hermansky 1989): Methode zur Klassifikation von Sprachsignalen (Feature Extraction) Anwendung: Automatische Spracherkennung Berücksichtigung spezieller Eigenschaften des Gehörs Frequenzgruppeneinteilung Kurve gleicher Lautstärke Nichtlinearität der Basilarmembran Idee: Eigenschaften des Ohres optimiert zur Sprachanalyse Denis Extra Einleitung Grundlagen PLP Technik Innenohr Denis Extra Matlab-Demo Ergebnisse Zusammenfassung Einleitung Grundlagen PLP Technik Matlab-Demo Tonotopie des Innenohres Denis Extra Ergebnisse Zusammenfassung Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Maskierung, Frequenzselektivität, kritische Bänder Frequenzselektivität: Fähigkeit einzelne Komponenten aus einem komplexen Stimulus heraushören zu können Demonstration durch Maskierungsexperimente Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Fletcher Experiment: Kritische Bänder Detektion eines Testtones (fester Frequenz) in Rauschen Rauschen symmetrisch um Testton platziert Konstante spektrale Leistungsdichte Variable Bandbreite ∆f Messung der Detektionsschwelle des Tones als Funktion von ∆f Ergebnis: Ab gewisser Bandbreite (Kritische Bandbreite) bleibt Schwelle konstant Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Fletcher Experiment: Kritische Bänder Fletcher nahm an: SNR ist an der Detektionsschwelle konstant (unabhängig von der Mittenfrequenz) Power Spectrum Model Energie Energie Spektrum des Rauschsignals Auditorisches Filter Frequenz [Hz] Frequenz [Hz] Korrektur nach Scharf (1970) : Das Ohr fasst Intensitäten von Schallreizen in Frequenzbändern zusammen Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Abschätzung der Form auditorischer Filter Testton fester Frequenz f0 und Pegel Schmalbandiger Maskierer zentriert um fm Messung der Maskierungsschwelle Basilarmembran läßt sich als Bandpass-Filterbank darstellen Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Lautheit Beschreibt wie laut Schall subjektiv empfunden wird Messmethode: Lautheitsvergleich 1Phon = Pegel [dBSPL] eines 1 kHz Sinustones, der bei binauralem Hören zur gleichen subjektiven Lautheit, wie der Testschall führt. Darstellung auf sogenannten Isophone Daher: Kurve die Töne unterschiedlicher Frequenz aber gleicher Lautheit verbindet Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Kurven gleicher Lautheit (Isophone) Man erkennt: Lautheit wächst mit steigendem Pegel Lautheitswachstum ist frequenzabhängig 40 Phon-Isophone entspricht A-Gewichtung bei Schallpegelmessung Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Nichlinearität der Basilarmembran Experiment von Robles Kompressive Wirkung abhängig von Abstand zur beob. Zenterfrequenz (Center-Frequency) Je näher der Stimulus an der CF liegt desto stärker ist die kompressive Wirkung der Basilarmembran Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Aktiver Verstärkungsmechanismus der BM Äußere Haarzellen stehen im dirketen Kontakt mit der Tektorialmembran Bei Reiz priodische Längenänderung Signalintensität kann um Faktor 103 erhöht werden Aktive Verstärkung der Wanderwelle Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Nichlinearität der Basilarmembran Wahrnehmung von Schall über einen größeren Dynamikbereich Die Kompressionseigenschaften der Basilarmembran sind frequenzselektiv Kompression bspw. bei tiefen Frequenzen weniger ausgeprägt Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Schritte der PLP- Verarbeitung Speech Spektral analysis Critical Band integration and re-sampling Equal-loudness curve Power Law of hearing IDFT LPC Denis Extra Ergebnisse Zusammenfassung Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Spectral analysis 1. Blockweise Verarbeitung des Sprachsignals Gewichtung mit Hamming - Fenster (Minimierung des Leakage-Effekts) Minimierung des Leakage-Effekts Typische Blocklänge: 20 ms Aneinandergrenzende Fenster überlappen sich Hamming Fenster Amplitude 1 0.5 0 0 2 4 6 8 10 12 Zeit [ms] 14 16 18 20 2. Diskrete Fourier Transformation 3. Kurzzeit-Leistungs-Dichte-Spektrum P(ω) = Re[S(ω)]2 + Im[S(ω)]2 Denis Extra (1) Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Spectral analysis Segmentierung und Überlappung Sprachsignal (gefenstert) 0.2 0.4 0.1 Amplitude Amplitude Sprachsignal (Auschnitt) 0.6 0.2 0 −0.2 0 2 4 6 8 10 12 Zeit [ms] 14 16 18 20 0 −0.1 −0.2 0 2 4 6 8 10 12 Zeit [ms] 14 16 18 20 Sprachsignal Zeit Block Fensterung, DTF, LDS Sinn der überlappenden Fenster: Ausgleich des Informationsverlusts durch Fensterung Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Critical-band integration and Re-Sampling An das Gehör angepasste Verzerrung der Frequenzskala Verzerrung der Frequenzachse (Schroeder 1977): ω ω Ω(ω) = 6ln{ + [( )2 + 1]0.5 } (2) 1200π 1200π Bark Frequenzskala 14000 12000 Frequenz [Hz] 10000 8000 6000 4000 2000 0 0 5 10 15 Bark Intervall Denis Extra 20 25 Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Critical-band integration and Re-Sampling Faltung mit konstruierter Frequenzgruppen-Maskierungskurve Resultat ist das Bark-Spektrum Reduzierung der Spektralen Auflösung Abtastung in 1-Bark Intervalen Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Equal-loudness preemphasis Berücksichtigung der Sensivität des menschlichen Gehörs für verschiedene Frequenzen Bewertung des unterabgetasteten Spektrums mit einer simulierten Kurve gleicher Lautheit. Ziel: Ausgleich der frequenzabhängikeit der Lautheit Ξ[Ω(ω)] = E(ω) · Θ[Ω(ω)] Kurve gleicher Lautheit nach Makhoul fs/2 > 5000 0 −20 −20 H (f) dB E(f) dB Kurve gleicher Lautheit nach Makhoul fs/2 < 5000 0 −40 −40 −60 −60 −80 (3) 0 500 1000 1500 2000 2500 3000 Frequenz [Hz] 3500 4000 4500 5000 Denis Extra −80 0 0.5 1 1.5 Frequenz [Hz] 2 2.5 4 x 10 Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Power law of hearing Berücksichtigung der Nichtlinearität zwischen Klangintensität und wahrgenommener Lautheit Kompression des Spektrums durch Ziehen der Kubikwurzel Φ(Ω) = Ξ(Ω)0.33 Spektrum vor Kompression (4) Spektrum nach Kompression −8 x 10 −3 x 10 5 4 Amplitude Amplitude 4 3 2 3 2 1 1 0 0 0 0 20 5 40 10 60 15 80 20 25 0 0 20 5 40 10 60 15 80 20 Block 25 Bark Interval Bark Interval Denis Extra Block Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Linear Prediction Berechnung der IDFT Vorher: Resynthese von negativen Frequenzen Das Ergebnis ist eine Art Autokorrelationsfunktion Blockverarbeitung: Bestimmen der Prädiktions-Filterkoeffizienten Fouriertransformation der Filterkoeffizienten Berechnung des Leistungsspektrums Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Matlab-Demo Formantenlage der deutschen Sprache Denis Extra Ergebnisse Zusammenfassung Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Phonem-Analyse Zwei mänliche und weibliche Sprecher Phonemextraktion (Cluster gleicher Phoneme) Vergleich der Cluster einzelner Personen Identifikation erfolgt nur über spektrale Komponenten Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Wort-Analyse 36 Einzelwörter im Test PLP-Analyse mit 10 ms Blocklänge Angleich der Signallänge Sprecherabhängiger und kreuzweiser Vergleich Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Sprecherunabhängige Erkennung f t Denis Extra Zusammenfassung Einleitung Grundlagen PLP Technik Rechenleistung Denis Extra Matlab-Demo Ergebnisse Zusammenfassung Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Vorteile der PLP vs. LPC-Analyse Bessere Erkennungsraten Gleichbleibende Sensivität bei Formantenänderung Unterdrückung sprecherabhängiger Informationen Starke Datenreduktion Geringere Filterordnung Denis Extra Einleitung Grundlagen PLP Technik Matlab-Demo Ergebnisse Zusammenfassung Zusammenfassung PLP ist eine spezielles Werkzeug zur Sprachanalyse Grundlage bildet eine an das Ohr angepasste Vorverarbeitung des Signals Einteilung in kritische Bänder Ausgleich der Lautheitskurve Berücksichtigung der Nichtlinearität der BM Anschließend erfolgt die normale LPC - Analyse Deultliche Leistungssteigerung gegenüber der herkömmlich LPC Denis Extra