Uporaba prostorskega zvoka v interakciji človek

Comments

Transcription

Uporaba prostorskega zvoka v interakciji človek
Psihoakustika
Človeško uho
Človeško uho
Človeško uho
Frekvenčni odziv sluhovoda
Človeško uho
Človeško uho
Polž in bazilarna membrana
†
Spektralni analizator
„
„
„
Različni deli se odzivajo različno odzivajo na
različne frekvenčne komponente
Nabor filtrov različnih pasovnih širin
Pasovna širina filtrov je konstanta do frekvence
500 Hz, nato pa začne naraščati
Vir: http://www.ifd.mavt.ethz.ch/research/group_lk/projects/cochlear_mechanics
Glasnost zvoka
†
IL (Intensity Level)
⎛ I ⎞
IL = 10 log10 ⎜⎜ ⎟⎟dB
⎝ I0 ⎠
⎛W ⎞
PWL = 10 log10 ⎜⎜ ⎟⎟dB
⎝ W0 ⎠
†
I 0 = 10 −12 W / m 2
W0 = 10 −12 W
SPL (Sound Pressure Level)
⎛ p2 ⎞
⎛ p ⎞
⎟⎟dB
SPL = 10 log10 ⎜⎜ 2 ⎟⎟dB = 20 log10 ⎜⎜
⎝ 20μPa ⎠
⎝ p0 ⎠
P0 = 2 ×10 −5 N / m 2 ( Pa)
Glasnost zvoka
†
Nivo glasnosti (LL – Loudness Level) / fon
(phon)
„
SPL glasnost tona glede na osnovni ton s
frekvenco 1000 Hz
†
„
Dinamično področje do 80 dB
†
„
x fonov = x dB (SPL) pri
frekvenci 1k Hz
Glasnost je odvisna od števila živcev, ki se vzbudijo
(najmanjši premiki so 0.04nm)
Krivulje enake glasnosti
Glasnost zvoka
Krivulje enake glasnosti
Glasnost zvoka
†
Relativna glasnost dveh zvočnih signalov
„
Zaznana glasnost in dejanska vrednost v fonih
nista linearno odvisni
†
†
†
Glasnost 60 fonov ni zaznana kot dvakrat večja
od glasnosti 30 fonov
Spremembo 10 fonov je zaznati kot podvojitev
glasnosti (premik iz ene krivulje enake glasnosti
na drugo)
Subjektivna glasnost je definirana v “sonih”
„
Podvojitev glasnosti (L) v sonih pomeni
povečanje LL za 10 dB
Glasnost zvoka
Povezava med enotama fon in son za 1kHz ton
Glasnost zvoka
†
Velik dinamični razpon
120 – 160 dB (108 – krat)
„
SPL (dB)
Opis
SPL (dB)
Opis
170
Bolečina
70
Restavracija
160
Reaktivec
60
Pogovor
140
Rock koncert
40
Tih pogovor
120
Strela
30
Šepetanje
110
Vlak (subway)
20
Hoja po listju
100
Vrtalni stroj
10
Dihanje
90
Kosilnica
0
Prag slišnosti
Glasnost zvoka
†
Merjenje SPL s filtri
„
„
„
Krivulja A: dbA – 40 phonov
Krivulja B: dbB – 70 phonov
Krivulja C: dbC – 100 phonov
Glasnost zvoka
Glasnost zvoka in pasovna širina
†
Subjektivno zaznavanje glasnosti je močno
odvisno od pasovne širine signala
Signal s konstantnim SPL (60dB) in centralno frekvenco 1kHz
Kritični pasovi
Zap. številka
kritičnega pasu /
Bark
fsp / Hz
fzg / Hz
B / Hz
Zap. številka
kritičnega pasu /
Bark
fsp / Hz
fzg / Hz
B / Hz
1
20
110
90
13
1700
1970
270
2
110
200
90
14
1970
2290
320
3
200
295
95
15
2290
2670
380
4
295
395
100
16
2670
3120
450
5
395
503
108
17
3120
3680
560
6
503
625
120
18
3680
4360
680
7
625
755
130
19
4360
5200
840
8
755
900
145
20
5200
6200
1000
9
900
1060
160
21
6200
7500
1300
10
1060
1250
190
22
7500
9300
1800
11
1250
1460
210
23
9300
11700
2400
12
1460
1700
240
24
11700
15000
3300
25
15000
19600
4600
ΔFc = 25 + 75 ⎡1 + 1.4 ( Fc /1000 ) ⎤
⎣
⎦
2
0.69
Širina kritičnih pasov v odvisnosti od centralne frekvence
narašča linearno do 1000 Hz, nato pa eksponentno!
Glasnost zvoka in njegovo trajanje
†
Zelo kratki zvoki (impulzi) so zaznani z manjšo
glasnostjo
Ton (pitch)
†
Zaznava tona je izrazito subjektivna in odvisna
od frekvence in amplitude zvočnega signala
„
Enota za ton je mel
†
†
†
1000 Hz (SPL = 60 dB) = 1000 mel
Ton se označuje kombinacijo črk in številk (C0,
C1, A440, A880…)
Povezava med tonom in frekvenco je
logaritemska
„
Razlika med A220 in A440 se sliši enako kot razlika
med A440 in A880
Ton (pitch)
Frekvenca
†
†
Zaznava frekvence zvočnega signala (tona) je odvisna od
absolutne frekvence in amplitude
„
Ljudje lahko zaznamo 3Hz razlike med dvema tonoma (v
področju do 500Hz)
„
Nad 500 Hz je ločljivost 0.003F0
„
Približno 1% človeške populacije sposobno absolutne
zaznave frekvence (tona)
„
Absolutno pa lahko ločimo le nekje 5-7 različnih frekvenc in
5-7 nivojev glasnosti
Zaznavanje kompleksnih tonov
„
Primer: Signal, ki vsebuje frekvence 200Hz, 400Hz, 600Hz,
itd. zaznamo kot signal osnovne frekvence 200Hz
„
Enako zaznamo tudi, če osnovna frekvenca sploh ni prisotna
v signalu
Maskiranje
†
†
†
Medsebojni vpliv zvočnih signalov oz. prekrivanje
enega z drugim
Maskirni in maskirani zvočni signal
Maskirano področje obsega frekvence pod in nad
frekvenco maskirnega signala in je odvisno od širine
pripadajočega kritičnega pasu
Maskiranje
†
†
Maskirni efekt je izrazitejši za frekvence, ki
so višje od maskirnega signala
Maskirni efekt je izrazitejši pri maskirnih
signalih visokih glasnosti
Maskirni ton: 400 Hz
Maskirni ton: 2kHz
Maskiranje
†
Maskiranje s hrupom
„
†
Večanje pasovne širine belega šuma poveča maskirni efekt,
dokler ne presežemo pasovne širine kritičnega pasu, znotraj
katerega se nahaja maskirani signal
Časovno maskiranje
„
Zvočni signali, ki nastopijo tik pred ali za maskirnim signalom
so lahko maskirani
Zaznavanje odbojev zvočnega valovanja
†
Vpliv enega odboja (več poskusov)
„
Razmerje med nivoji in zakasnitvami direktnih in odbitih zvokov
Zaznavanje odbojev zvočnega valovanja
†
Smer odbojev nima vpliva na zaznavo
„
†
Tip signala ima velik vpliv na zaznavo
„
†
Izjema: če je odboj iz iste smeri kot direktni zvok
(mora imeti od 5-10 dB višji nivo, da ga sploh
zaznamo – maskirni efekt)
Impulzi (kliki, poki) imajo manjši vpliv kot zvezni
zvoki (šum, glasba)
Vpliv spektra signala ne vpliva na zaznavo
odboja
Govorni signali
Generacija in zaznava govornega signala
Vir:
http://www.rle.mit.edu/smcg/perkell_
people.htm
Govorni signal
†
Generacija človeškega govora
Govorni signal
†
Osnovne enote govora
„
„
„
†
Fonemi
Zlogi
Samoglasniki in soglasniki
Osnovne značilnosti
„
„
„
Govor je zaporedje spreminjajočih se glasov
Ko-artikulacija: medsebojni vpliv posameznih delov govora
Osnovna frekvenca (“pitch” – F0) in višje resonančne
frekvence (“formants” - F1, F2, F3, itd.)
†
†
†
„
Osnovna frekvenca pri moških: 85 – 180 Hz
Osnovna frekvenca pri ženskah: 165 – 255 Hz
Dojenčki: ~ 500 Hz
Za razumljivost govora so pomembne predvsem višje
frekvence (izjeme: kitajščina)
Govorni signal
†
Amplituda govornega signala
„
„
„
Odvisna od razpoloženja govorca, hrupa okolice, itd.
Razmerje signal/šum je lahko negativno, a je govor še vedno
razumljiv
Povečanje hrupa za 1dB povzroči povečanje nivoja govora
za 0.5 dB
Lokacija
Nivo hrupa (dB)
Nivo govora (dB)
Šola
50
71
Dom - zunaj (mesto)
61
65
Dom – zunaj (podeželje)
48
55
Dom – znotraj (mesto)
48
57
Dom – znotraj (podeželje)
41
55
Trgovina
54
58
Vlak
74
66
Letalo
79
68
Govorni signal
†
Frekvenca govornega signala
„
„
„
†
Energijsko najbogatejši del frekvenčnega spektra ni enak
tistemu delu spektra, ki je pomemben za razumljivost govora
84% energije govornega signala se nahaja do frekvence
1kHz
Za razumljivost so pomembne predvsem frekvence med
300 Hz in 4 kHz
Hitrost govorjenja
„
„
Hitrost artikulacije je neodvisna od hitrosti govorjenja
Pri hitrem govorjenju se skrajša le premor med posameznimi
zlogi v besedah
Zaznavanje govora
†
†
Ločena dela možganov za zaznavanje zvoka
in zaznavanje govora
Kvaliteta in razumljivost nista povezana
„
„
†
Kvaliteta: reprodukcija
Razumljivost: količina prenesene informacije
Primeri:
„
„
„
Zaporedje naključnih zlogov visoke kvalitete
(dojenčki)
Posnetek govora z glasno motnjo v ozadju
Vojaške komunikacije (“clipping”)
Zaznavanje govora
†
Zaznavanje govora v šumnem okolju
„
„
Zaznavanje govora je možno tudi pri zelo
nizkih razmerjih SNR
Zelo pomembna je predvidljivost (sintaktična
informacija)
†
Primeri:
„
„
„
Kdor visoko leta ….
Žive naj vsi narodi, ki …
Shannon-ova igra predikcije
Zaznavanje govora
†
Prepoznava različnih govornih signalov v
šumnem okolju (Miller, Heise, Lichten)
Zaznavanje govora
†
Vpliv velikosti nabora besed (slovarja) na
prepoznavo
Zaznavanje govora
†
JND (Just Noticeable Difference)
„
Najmanjša sprememba v določenem
fizikalnem parametru govornega signala, ki jo
je še mogoče zaznati
Parameter
Osnovna frekvenca
Glasnost
JND
0.3 – 0.5%
1.5 dB
Merjenje kvalitete govornega signala
†
Objektivne meritve kvalitete
„
Razmerje med močmi signala in šuma
⎛ Psignal
SNR = 10 log10 ⎜⎜
⎝ Pšum
„
⎞
⎟⎟
⎠
Srednja kvadratna napaka (MSE)
1
MSE =
N
N −1
∑ (s[i] − p[i])
i =0
2
Merjenje kvalitete govornega signala
†
Subjektivne meritve kvalitete in razumljivosti
„
MOS testi (Mean Opinion Score)
†
Odlična kvaliteta
„
†
†
†
†
„
MOS=4
MOS=3
MOS=2
MOS=1
Kvaliteta in razumljivost sta neprimerna za komunikacijo
Primeri MOS ocen
†
†
†
„
Opazovani in referenčni signal se ne razlikujeta v kvaliteti in
razumljivosti
Dobra kvaliteta
Zadovoljiva kvaliteta
Slaba kvaliteta
Zelo slaba kvaliteta
„
MOS=5
Širokopasovni sistemi (50 Hz – 7 kHz):
Mobilni sistemi (celični):
Nizko-bitni koderji in sintetiziran govor:
MOS=4.5
MOS=3.5 - 4.0
MOS=2.0 – 3.5
MOS test je standardiziran s strani ITU-T (P.800)
Merjenje kvalitete govornega signala
†
PESQ (Perceptual Evaluation of Speech
Quality)
„
„
Avtomatska določitev MOS ocene na osnovi
primerjave opazovanih in referenčnih signalov
Koraki
†
†
†
†
„
Časovna poravnava opazovanega in referenčnega
signala
Uporaba modela slušnega sistema (vpliv kritičnih pasov,
dojemanja glasnosti, itd.)
Seštevanje napak s povprečenjem po času in frekvenci
Rezultat je MOS ocena
Ujemanje med dejanskimi MOS testi in PESQ
izračuni je
78% – 98%
Merjenje kvalitete govornega signala
†
Merjenje razumljivosti govornega signala
„
„
„
„
DRT (Diagnostic Rhyme Test): sposobnost
ločevanja dveh besed, ki se rimata (primer:
nos, kos)
MRT (Modified Ryhme Test): zaznava ene iz
nabora več podobnih besed (primer - ang: rat,
cat, cap, tap, itd.)
Fonetično urejeno zaporedje besed: 50
stavkov sestavljenih iz 20 besed
ICAO črkovalni testi:
“alpha”,”bravo”,”charlie”,”delta”, itd.