žmogaus šnekos emocijų analizė ir atpažinimas

Transcription

žmogaus šnekos emocijų analizė ir atpažinimas
Vilniaus universitetas
Matematikos ir informatikos
institutas
LIETUVA
INFORMATIKA (09 P)
ŽMOGAUS ŠNEKOS EMOCIJŲ ANALIZĖ IR
ATPAŽINIMAS
Tatjana Liogienė
2015 m. spalis
Mokslinė ataskaita MII-DS-09P-15-1
VU Matematikos ir informatikos institutas, Akademijos g. 4, Vilnius LT-08663
www.mii.lt
Santrauka
Emocijų atpažinimas šnekoje yra klasikinis atpažinimo uždavinys, kurio tikslumą nulemia emocionalios
šnekos bazės, bazės tipo, požymių rinkinio, klasifikatoriaus, emocionalios šnekos klasifikavimo schemos
bei kitų faktorių pasirinkimas. Šioje mokslinėje ataskaitoje yra pateikti šių, emocijų atpažinimui šnekoje,
svarbių faktorių apžvalgos bei analizės rezultatai. Pirmiausia yra supažindinama su šnekos signalo
generavimo procesų bei išsiaiškinama, kokią įtaką šnekos signalo generavimo procesui daro kalbančiojo
emocinė būsena. Toliau yra atliekama emocionalios šnekos duomenų bazių apžvalga, nurodant bazės tipą,
emocijas, apimtį, kalbą. Vėliau pateikiama emocijų atpažinime šnekoje naudojamų šnekos signalo požymių
bei požymių atrankos kriterijų apžvalgą. Taip pat yra pateikta emocionalios šnekos klasifikavimo schemų
apžvalga bei pasiūlyta nauja daugiapakopė emocijų klasifikavimo schema su požymių atrankos kriterijais.
Reikšminiai žodžiai: kalbos emocijų atpažinimas, emocionalios šnekos duomenų bazė, šnekos signalo
požymis, klasifikatorius.
Turinys
1
Įvadas .........................................................................................................................................................4
2
Emocijos šnekos signale ............................................................................................................................5
3
4
2.1
Šnekos signalo generavimo procesas ..................................................................................................5
2.2
Emocinės būsenos įtaka šnekos generavimo procesui ........................................................................6
2.3
Nagrinėjamų emocijų skaičius ............................................................................................................9
2.4
Automatizuotas emocijų atpažinimas ...............................................................................................10
Emocionalios šnekos duomenų bazės ......................................................................................................11
3.1
Emocionalios šnekos duomenų bazių tipai .......................................................................................11
3.2
Dabartinės duomenų bazės................................................................................................................12
Emocijų požymiai šnekos signale ............................................................................................................23
4.1
Požymių paskirtis ..............................................................................................................................23
4.2
Požymių rūšys ...................................................................................................................................23
4.3
Požymių rinkinio optimizavimas ......................................................................................................24
4.4
Požymių atrankos kriterijai ...............................................................................................................26
5
Emocionalios šnekos klasifikavimo schemos ..........................................................................................27
6
Daugiapakopio klasifikavimo schema .....................................................................................................29
7
6.1
Maksimalaus efektyvumo kriterijus daugiapakopių šnekos emocijų atpažinimo požymių atrankai 30
6.2
Minimalios koreliacijos kriterijus daugiapakopių šnekos emocijų atpažinimo požymių atrankai ...30
Literatūra..................................................................................................................................................32
1 priedas ...........................................................................................................................................................37
2 priedas ...........................................................................................................................................................46
1 Įvadas
Emocijų atpažinimas šnekoje kaip svarbi mokslinių tyrimų sritis atsirado neseniai – praeito amžiaus
devinto dešimtmečio viduryje, bet nepaisant to emocinės būsenos šnekoje atpažinimas turi platų pritaikymą
ir gali būti naudojamas kriminalistikoje, skambučių centruose, robotų kūrime ir kitose srityse, kuriant vis
efektyvesnę žmogaus ir kompiuterio sąveiką.
Emocijų atpažinimas šnekoje yra sudėtingas procesas, kurio rezultatas priklauso nuo emocionalios
šnekos duomenų bazės bei jos tipo, požymių rinkinio, klasifikatoriaus, emocionalios šnekos klasifikavimo
schemos ir daugelio kitų faktorių pasirinkimo.
Todėl šio darbo tikslas yra išskirti šnekos požymius šnekos signale, leidžiančius įvertinti ar atpažinti
kalbančiojo emocinę būklę, suformuluoti požymių išskyrimo metodikas, įvertinti požymių kokybę.
Darbo tikslui pasiekti yra iškelti tokie uždaviniai:
1.
Žmogaus emocinės būklės įtakos šnekos generavimo procesui bei šnekos signalui analizė;
2.
Emocijų atpažinimo šnekos signale tyrimų rezultatų apžvalga ir analizė;
3.
Bazinio nagrinėjamų emocijų rinkinio suformulavimas;
4.
Požymių, atsispindinčių pasirinktąsias emocijas, bei jų išskyrimo metodikų suformulavimas;
5.
Emocijų klasifikavimo schemų, požymių atrankos sudarymas ir įgyvendinimas.
6.
Emocijų klasifikavimo tyrimas.
7.
Eksperimentinis suformuluotųjų požymių tyrimas.
2 Emocijos šnekos signale
2.1 Šnekos signalo generavimo procesas
Bendravimas mūsų gyvenime yra labai svarbus. Bendraudami mes apsikeičiame informacija.
Verbalinio bendravimo metu informacija yra perduodama šnekos signalu.
Šnekos signalas – konkrečią žinią pernešantis akustinis signalas, generuojamas sąmoningais šnekos
organų veiksmais. Savo prigimtimi šnekos signalas yra akustinis signalas − atmosferos aplinkoje jis sklinda
kaip oro tankio svyravimas [41]. Pakaitomis einančios sutankėjimų ir praretėjimų sritys sklinda ore kaip
garso banga.
Žmogaus šnekos organai atlieka pagrindinius akustinio šnekos signalo formavimo veiksmus.
Svarbiausi šnekos signalo generavimo organai yra plaučiai, trachėja, gerklos su jų svarbiausia dalimi – balso
stygomis, nosies ertmė, minkštasis ir kietasis gomurys, liežuvis, dantys bei lūpos. Visi šie organai dar yra
vadinami artikuliatoriais. Jie juda keisdami savo padėtį, taip sukurdami skirtingus garsus.
Akustinio šnekos signalo generavimo procesą sudaro trys etapai [41]:
1. Šaltinio generavimas;
2. Artikuliacija;
3. Signalo išspinduliavimas.
Panagrinėsime kiekvieną etapą detaliau.
Šaltinio generavimas prasideda plaučiuose. Oras patenka į plaučius. Plaučiai išstumdami orą sukelia
oro srautą. Oro srautas eina per balso stygas ir veikia jas. Balso stygos reaguodamos į oro srauto poveikį
pradeda virpėti. Dėl suspaustų balso stygų susidaro slėgio padidėjimas (sutankėjimas) ir balso stygos
prasiveria. Oro slėgiui staiga sumažėjus (praretėjus) balso stygos vėl užsidaro ir sustabdo oro srautą taip
sukeldamos slėgio padidėjimą. Balso stygų prasivėrimo ir užsidarymo procesas yra kvaziperiodiškas, vieno
periodo trukmė siekia nuo 4-7 ms (vaikų ir moterų kalbėtojų atveju) iki 6-20 ms (vyrų kalbėtojų atveju).
Sekantis etapas po šaltinio generavimo yra artikuliacija. Sugeneruotasis signalas patenka į balso
traktą (ryklės, burnos ir nosies ertmė). Balso traktas pasižymi rezonansinėmis savybėmis ir priklausomai
nuo jo konfigūracijos (liežuvio, lūpų padėties, burnos ertmės tūrio, praeinamumo tarp ryklės ir nosies bei
burnos ertmių, dantų sukandimo ir t. t.) tos savybės kinta. Toks balso trakto spektrinių savybių kitimas laike
formuoja šaltinio signalo spektrą, taip gaunant skirtingus garsus bei jų sekas – šnekos signalą. Balso trakto
konfigūracijos kitimas siekiant išgauti garsus yra vadinamas artikuliacija, o balso trakto organų judesiai –
artikuliaciniais. Rezonansiniai balso trakto dažniai dar vadinami formantėmis.
Paskutinis šnekos signalo generavimo etapas – išspinduliavimas. Šneka išspinduliuojama daugiausia
per burną, skruostus ir kartais per nosį (tik konkretiems garsams).
2.2 Emocinės būsenos įtaka šnekos generavimo procesui
Šnekos signalą gali paveikti šnekančiojo emocijos ir kontekstas.
Stresas yra psichologinė būsena, atsakanti už grėsmės suvokimą ir įprastai lydima specifinėmis
emocijomis (pvz., baimė, pyktis, nerimas ir kt.) [18]. Streso sukelti pokyčiai gali paveikti šneką net prieš
asmens valią.
Stresą sukelia per didelis darbo krūvis, miego trūkumas, prieštaringos informacijos gavimas,
psichologinė įtampa ir kitos sąlygos, būdingos šiandieniniam pasauliui.
Emocijų analizei šnekos signale yra svarbu suprasti kaip stresas ir emocijos įtakoja šnekos signalo
generavimą.
Verbaliniai streso rodikliai gali būti nustatomi iš šnekos ženklų streso metu (pvz., mikčiojimas,
kartojimas ir pan.).
Kvėpavimas dažnai yra tikslus rodiklis tam tikrose emocinėse situacijose. Kai asmuo patiria stresinę
situaciją, jo kvėpavimo dažnis padidėja, o tai šnekos metu padidina slėgį balsaskylės pradžioje, kuris
padidina pagrindinio tono dažnį. Padidėjus kvėpavimo dažniui seka trumpesnės trukmės šneka tarp
įkvėpimų ir tai paveikia tarimo/artikuliacijos greitį.
Burnos sausumas pasireiškia tokiose situacijose kaip susijaudinimas, baimė, pyktis ir pan. Tai gali
įtakoti šnekos generavimą (pvz., gerklų raumenų aktyvumas ir balso stygų būsena). Gerklų raumenų veikla
ir balso stygų virpėjimas tiesiogiai veikia garso greitį per balsaskylę, o tai įtakoja pagrindinio tono dažnį.
Yra daugiau fizinių savybių, kurios yra būdingos skirtingoms emocinėms būsenoms [50]:
 Baimė/pyktis:
 padidėjęs širdies susitraukimų dažnis ir kraujospūdis;
 kvėpavimo organų judesių sekos ir intensyvumo pokyčiai;
 padidėjęs kvėpavimo dažnis sukeliantis slėgio padidėjimą balsaskylės pradžioje;
 sausumas burnoje;
 raumenų drebulys.
 Atsipalaidavimas/liūdesys:
 sumažėjęs širdies susitraukimų dažnis ir kraujospūdis;
 padidėjęs seilėtekis;
 sumažėjęs kvėpavimo dažnis, žemas slėgis balsaskylės pradžioje;
 ramus kvėpavimas.
Triukšmingoje aplinkoje šnekantieji keičia savo šnekėseną – šneka garsiau, intensyviau. Tai
vadinama Lombardo efektu, kurio metu šnekos signalo savybės stipriai pakinta [18].
Šnekos generavimo sistemą gali įtakoti skirtingi stresoriai, kurie vaidina skirtingus vaidmenis šnekos
generavimo metu [18]:
 Fiziniai stresoriai – balso trakto formos pokyčiai, sukelti vibracijos ar judėjimo, kurie tiesiogiai
paveikia artikuliatorius.
 Nesąmoningi fiziologiniai stresoriai – streso sukeliami kvėpavimo dažnio ar raumenų įsitempimo
pokyčiai, kuriuos gali sukelti miego trūkumas, nuovargis ir pan..
 Sąmoningi fiziologiniai stresoriai – streso sukeliamas vokalinių pastangų padidėjimas. Pvz., balso
pakėlimas, kad šnekantysis galėtų išgirsti save triukšmingoje aplinkoje. Taip gali nutikti dėl triukšmingos
aplinkos, įvykus kokiam nors atsitikimui, patiriant kažkokią emocinę būseną.
Analizuojant emocijas šnekoje, pagrindinis dėmesys yra sutelkiamas į tokius požymius, kaip
pagrindinio tono dažnis, intensyvumas, trukmė, formančių vieta spektre, formančių reikšmė, spektrinis
nuolydis [18, 50].
Literatūroje pateikiami tyrimo rezultatai, kurio metu buvo nagrinėjami 8 šnekėjimo stiliai: neutralus
(su juo lygino kitų šnekėjimo stilių rezultatus), lėtas, greitas, švelnus, garsus, piktas, aiškus bei Lombardo
efektas [18]. Žemiau yra pateiktos tyrimo išvados, kurios parodo emocinės šnekos įtaką tam tikroms šnekos
signalo charakteristikoms.
Pagrindinis dažnis
Pagrindinio tono dažnio vidurkis yra geras streso būsenos rodiklis. Garsios, piktos ir Lombardo
efekto šnekų stilių pagrindinio tono dažnio vidurkiai, palyginus su kitomis streso būsenomis, labai skiriasi
(yra aukštesni) nuo neutralios šnekos pagrindinio tono dažnio vidurkio.
Pagrindinio tono dažnio reikšmių dispersija (variance) garsios, piktos ir Lombardo efekto šnekų
stilių taip pat labai skiriasi (yra didesnė) nuo neutralios šnekos pagrindinio tono dažnio dispersijos,
palyginus su kitomis streso būsenomis, todėl tai irgi yra geras streso parametras.
Bet, pagrindinio tono dažnio dispersija nėra patikimas rodiklis lėtai ir greitai šnekai nustatyti, nes
nuo neutralios šnekos skiriasi nežymiai (šiek tiek mažesnė).
Taigi, pagrindinio tono dažnio vidurkis ir sklaida yra efektyvūs rodikliai streso būsenų klasifikavime.
Tačiau reikėtų turėti omenyje, jog pagrindinio tono dažnis yra šnekančiajam individuali
charakteristika, taigi šiuo parametru perduodama ir informacija apie šnekantįjį, t.y. jis priklauso nuo
šnekančiojo.
Trukmė
Vidutinė žodžio trukmė didėja lėtai šnekant ir mažėja greitai šnekant. Priebalsių, pusbalsių ir
dvibalsių trukmė yra vienoda, esant tiek švelniai, tiek garsiai, tiek neutraliai šnekai. Balsių trukmė, lyginant
su neutralia šneka, nežymiai mažėja švelniai šnekant ir nežymiai didėja garsiai šnekant.
Intensyvumas
Intensyvumas, lyginant su neutralia šneka, didesnis garsioje ir piktoje šnekoje, o švelnioje ir aiškioje
– mažesnis.
Balsių intensyvumas lieka pastovus, esant lėtai, aiškiai ir Lombardo efekto šnekėsenoms, o
priebalsių intensyvumas padidėja, esant švelniai ir piktai šnekėsenoms.
Taigi, žodžio intensyvumas gali būti naudojamas, klasifikuojant streso būsenas.
Spektrinis nuolydis
Visų šnekėjimo stilių spektrinis nuolydis (spektro dedamųjų amplitudės sumažėjimas) ženkliai
skiriasi nuo neutralios šnekos. Statesnis spektrinis nuolydis (-9 dB/oktavą) yra būdingas greitai, garsiai,
piktai ir Lombardo efekto šnekėsenoms, staigus (-15 dB/oktavą) - lėtai ir švelniai.
Taigi, spektrinis nuolydis yra svarbus perduodant stresą ir geras identifikatorius, išskiriant šnekos stilius.
Formantės
Lėtos, garsios, piktos ir aiškios šnekos stiliai rodo plačiausi F1 formantės vietos spektre pakeitimą.
F2 formantės dažniai padidėja daugeliui šnekėsenų. Nežymūs F3 ir F4 formančių reikšmių pokyčiai įvyksta
visiems stiliams.
F1 formantės reikšmės dispersija ženkliai pasikeičia garsiai, piktai ir aiškiai šnekėsenoms.
F1, F2 ir F3 formančių vidutinių reikšmių poslinkiai garsiai, piktai ir aiškiai šnekėsenoms yra
didesni nei neutralios šnekos atveju.
Apibendrinus, galima pastebėti tokį emocijų poveikį šnekai [18, 50]:
 Baimė/pyktis:
 Didesnis šnekos greitis ir garsumas;
 Aukštesnis tono vidurkis;
 Platesnis pagrindinio tono dažnio reikšmių diapazonas;
 Aukštesnio dažnio dedamųjų energijos padidėjimas (increased higher frequency energy);
 Sutrikęs šnekos ritmas dėl trumpo kvėpavimo ciklo;
 Padidėjęs artikuliacijos tikslumas (increased precision of articulation).
 Atsipalaidavimas/ liūdesys:
 Žemas šnekos greitis ir garsumas;
 Aukštesnio dažnio dedamųjų energijos sumažėjimas (decreased higher frequency energy);
 Žemesnis tono vidurkis;
 Mažesnės tono ribos (smaller pitch range);
 Sklandi/laisva šneka;
 Sumažintos tono ribos (reduced pitch range);
 Sumažėjęs artikuliacijos tikslumas (decreased precision of articulation, in general);
 Formantės pozicijos pokyčiai (F1, F2, F3), dėl artikuliatoriaus judesių sumažėjimo.
Tyrimas parodė, kad sunku nustatyti emocijas tik pagal šneką. Informaciją apie žmogaus emocinę
būseną suteikia veido išraiška ir kūno kalba. Kūno kalbą sudaro gestai ir laikysena. Pvz., piktas žmogus
suspaudžia kumščius ir nuleidžia galvą žemyn, liūdnas - žiūri žemyn, rankos laisvai kabo. Veido išraiška yra
labai svarbi nustatant emocinę būseną. Laimingas žmogus šypsosi, piktas – suspaudžia lupas ir nuleidžia
antakius [50].
2.3 Nagrinėjamų emocijų skaičius
Emocijų atpažinimui šnekoje (emocinės šnekos analizei) yra naudojami emocinės šnekos duomenų
bazių įrašai. Tokiose bazėse yra tik tam tikras emocijas atspindintys šnekos įrašai. Dauguma emocionalios
šnekos duomenų bazių rinkinių apima 5-6 emocijas, kurios yra vadinamos pagrindinėmis emocijomis (basic
emotions) [43]. Realiame gyvenime emocijų kategorijų yra daugiau.
Dažniausiai pasitaikančių emocijų, kurias galima rasti duomenų bazėse sąrašas yra pateiktas žemiau
[22, 42].
1 lentelė. Emocijos, nagrinėjamos duomenų bazėse.
Nr.
1.
2.
3.
4.
5.
6.
7.
8.
Emocija
Pyktis (anger)
Liūdesys (sadness)
Baimė (fear)
Laimė (happiness)
Džiaugsmas (joy)
Šlykštumas (disgust)
Nuostaba (surprise)
Nuobodulys (boredom)
Duomenų bazių skaičius
35
30
19
17
16
14
11
7
Nr.
9.
10.
11.
12.
Emocija
Stresas (stress)
Panieka (contempt)
Nepasitenkinimas (dissatisfaction)
Gėda, išdidumas, nerimas, išgąstis,
pakili nuotaika, neviltis, humoras, ...
Duomenų bazių skaičius
6
2
2
1
Taigi, labiausiai paplitusios emocijos yra pyktis, liūdesys, laimė, baimė, pasišlykštėjimas, nuostaba,
nuobodulys ir džiaugsmas. Neutrali šneka taip pat yra dažnai nagrinėjama.
2.4 Automatizuotas emocijų atpažinimas
Emocijų analizei bei atpažinimui šnekoje yra sukurta nemažai automatizuotų sistemų (WEKA ir kt.).
Automatizuotą šnekos emocijų atpažinimą sudaro signalo apdorojimas, požymių išskirimas ir
pasirinkimas, klasifikavimas [46] (1 pav.).
1 pav. Automatizuotas šnekos emocijų atpažinimas [42].
Apdorojant šnekos signalą vyksta jo segmentavimas (suskaidymas į dalis). Šnekos signalas
suskaidomas į trumpas atkarpas – kadrus, kurių trukmė yra 20–30 ms, daroma prielaida, kad šnekos savybės
esančios trumpoje atkarpoje nekinta laike (yra stacionarios). Kadrai persikloja taip, kad gretimas kadras
prasideda nuo tam tikros prieš jį einančios kadro dalies. Siekiant nuglodinti kadro kraštus, kiekvienam
kadrui yra taikoma lango funkcija. Naudojamos įvairios lango funkcijos, tokios kaip Hamingo, Haningo.
Išskiriant požymius dėmesys yra koncentruojamas ties aktualių šnekos signalo požymių identifikavimo
atsižvelgiant į nagrinėjamas emocines būsenas. Visi atrinkti požymiai sudaro požymių vektorių.
Klasifikuojant pavyzdžius požymių vektoriai yra nukreipiami į emocijų klases per savaiminio mokymosi
pavyzdžius [46].
3 Emocionalios šnekos duomenų bazės
Emocionalios šnekos duomenų bazės yra būtinos emocijų atpažinimui šnekos signale [22]. Jos
neabejotinai yra naudingos emocijų šnekos signale tyrėjams [43]. Emocinės šnekos duomenų bazės yra
kuriamos įvairiems tikslams, bet dauguma jų yra naudojamos automatiniam šnekos atpažinimui ir šnekos
sintezei [42].
3.1 Emocionalios šnekos duomenų bazių tipai
Emocinės šnekos duomenų bazės yra suskirstytos į tris tipus [22]:
1.
Suvaidintos emocijos (actor/acted, simulated);
2.
Sukeltos emocijos (elicited, induced);
3.
Natūralios emocijos (natural).
Suvaidintose emocinės šnekos garsynuose (corpora) yra surenkami patyrusių ir apmokytų aktorių
bei diktorių pasisakymai [22]. Aktoriai yra prašomi
šneka išreikšti skirtingas emocijas neutraliuose
sakiniuose. Įrašai yra daromi skirtingų sesijų metu. Tai yra vienas iš paprasčiausių ir patikimiausių emocinės
šnekos duomenų bazių rinkimo metodų. Tokios duomenų bazės turi platų emocijų pasirinkimą. Daugiau nei
60% duomenų bazių, naudojamų emocionalios šnekos tyrimams yra suvaidintos. Suvaidintos emocijos yra
išraiškingesnės nei natūralios. Suvaidinta emocionali šneka yra patikimiausia emocinei šnekai atpažinti, nes
turi aukštą susijaudinimo lygį (high arousal), t. y. emocijos su didele amplitude arba stiprumu [43].
Sukeltos emocinės šnekos garsynai yra surenkami simuliuojant dirbtines emocines situacijas
kalbančiajam to nežinant [22, 43]. Kalbantysis yra įtraukiamas į emocionalų pokalbį su aktoriumi, kur
skirtingos situacijos yra sukuriamos aktoriaus, taip sukeliant įvairias kalbančiojo emocijas be jo žinios. Šios
duomenų bazės yra natūralesnės, palyginus su vaidintos emocinės šnekos bazėmis. Bet kalbantysis gali
nebūti pakankamai išraiškingas, jeigu žinos, kad jo šneka yra įrašoma. Kartais tokio tipo duomenų bazės yra
įrašomos paprašius kalbantįjį įsitraukti į verbalinę sąveiką su kompiuteriu, jo atsakymai savo ruožtu paeiliui
yra kontroliuojami žmogaus be kalbančiojo žinios. Tokios emocijos yra sukeltos. Sukelta šneka nėra nei
natūrali nei suvaidinta.
Natūralios emocijos yra mažiau išraiškingos. Kartais yra sunku aiškiai atpažinti tokias emocijas.
Tokios duomenų bazės yra įrašomos panaudojus prieinamus realaus pasaulio duomenis, pvz., gali būti
įrašomi skambučių centro dialogai, pokalbis piloto kabinoje ekstremalioje situacijoje, dialogas tarp gydytojo
ir paciento, emocionalus pokalbis viešoje vietoje ir pan. Šio tipo duomenų bazėse emocijų pasirinkimas nėra
platus. Tokių emocijų aiškinimas gali būti labai subjektyvus ir jų suskirstymas į kategorijas visada yra
ginčytinas. Taip pat yra keli teisiniai klausimai, pvz., natūralios šnekos duomenų bazių privatumas ir
kopijavimas. Tai trukdo duomenų rinkmenų platinimui [22, 42, 43]. Natūrali šneka yra tiesiog spontaniška
šneka, kur visos emocijos yra tikros. Natūralios emocijos yra sunkiau klasifikuojamos nei vaidintos [42].
Įvairių tipų duomenų bazių privalumai ir trūkumai pateikti 2 lentelėje [22].
2 lentelė. Duomenų bazių privalumai ir trūkumai.
Duomenų bazės
tipas
Suvaidintos
Privalumai
Trūkumai
 Standartizuotos.
 Rezultatai gali būti lengvai
palyginami.
 Gausus emocijų pasirinkimas
ir prieinamumas.
 Gausi duomenų bazių įvairovė
įvairiomis kalbomis.
 Suvaidinta kalba nusako kaip
emocijos turėtų būti
vaizduojamos, bet ne taip, kaip
jos vaizduojamos realybėje.
 Nėra informacijos,
priklausančios nuo konteksto,
tikslo.
 Dažniausiai tai yra skaitoma
šneka, o ne sakoma.
Sukeltos
 Arčiau natūralios šnekos
 Visos emocijos gali nebūti
duomenų bazėms.
prieinamos.
 Kontekstinė informacija
 Jeigu kalbantieji žino, kad jų
pateikta, bet ji yra dirbtinė.
šneka yra įrašoma, tai sukeltos
šnekos kokybė bus dirbtina.
Natūralios
 Visiškai natūraliai išreikštos.
 Visos emocijos gali nebūti
 Naudinga realaus pasaulio
prieinamos.
emocijų modeliavimui.
 Kopijavimo ir privatumo
klausimai.
 Pasakymų
dubliavimasis/sutapimas.
 Triukšmo buvimas.
 Yra sudėtinių ir lygiagrečių
emocijų.
 Sunku modeliuoti.
Emocionalios šnekos duomenų bazių projektavimas ir rinkimas priklauso nuo tyrimo tikslų. Pvz.,
vieno kalbančiojo emocionalios šnekos rinkinys (corpus) yra pakankamas, jeigu tyrimo tikslas yra
emocionalios šnekos sintezė, o emocijų atpažinimui šnekoje reikalinga kelių kalbančiųjų duomenų bazė su
įvairaus stiliaus emocijų išreiškimu [22].
3.2 Dabartinės duomenų bazės
Esamos emocinės šnekos duomenų bazės yra labai skirtingos. Jos yra įrašytos įvairiomis kalbomis
(anglų, vokiečių, kinų, ispanų, japonų, rusų, švedų, italų, indų ir kt.). Skiriasi jų apimtys emocijos bei jų
skaičius, kalbančiųjų skaičius, kūrimo tikslas (atpažinimui, sintezei) [22].
1. Berlyno emocionalios šnekos duomenų bazė (Berlin Database of Emotional Speech, EMO-DB)
Kalba: vokiečių.
Tipas: suvaidintos emocijos.
Kalbantieji: 10 aktorių (5 vyrai ir 5 moterys).
Emocijos: pyktis, baimė, džiaugsmas, liūdesys, išgąstis, nuobodulys, neutrali šneka.
Įrašai: 10 sakinių (5 trumpi ir 5 ilgi), kurie gali būti naudojami kasdieniniame bendravime.
Emocijų atpažinimo tikslumas: 75%.
Įrašant Berlyno emocionalios šnekos duomenų bazę buvo nuspręsta ieškoti kalbančiųjų pagal
skelbimą laikraštyje, nes aktoriai emocijas perteikia perdėtai. Tik vienas iš atrinktų kalbančiųjų buvo baigęs
aktorystės kursus. 10 sakinių yra sukonstruoti taip, kad juos būtų galima perteikti visomis pasirinktomis
emocijomis. Duomenų bazės sakiniai yra sudaryti taip, kad juose būtų kiek įmanoma daugiau balsių, tam,
kad būtų galima atlikti formančių analizę. Norint pasiekti aukštą įrašų kokybę, įrašinėjimas buvo atliekamas
beaidėje kameroje su aukštos kokybės įrašymo įranga. Kalbantieji stovėjo priešais mikrofoną maždaug 30
cm atstumu ir esant poreikiui galėjo naudoti kūno kalbą. Tai sukėlė problemą: aktoriai judėjo, atstumas tarp
burnos ir mikrofono nebuvo pastovus, todėl, atlikus signalo energijos analizę būtų gauti nepatikimi
rezultatai. Duomenų bazės apimtis yra apie 500 pasisakymų. Tyrimas parodė, kad klausytojai atpažįsta 80%
emocijų, o 60% duomenų bazės emocijų yra arti natūralioms emocijoms. Ši duomenų bazė yra plačiausiai
naudojama ir yra nemokama (http://www.expressive-speech.net) [4; 5; 24; 35; 45; 48].
2. Belfasto duomenų bazė (Belfast Database)
Kalba: anglų.
Tipas: natūralios emocijos.
Kalbantieji: 40 savanorių ir 125 televizijos laidų dalyviai.
Emocijos: pyktis, laimė, liūdesys, baimė, neutrali šneka ir kitos natūralios emocijos.
Įrašai: įrašyti studijoje įrašai ir televizijos laidų ištraukos.
Pagrindinis duomenų bazės vienetas yra klipas (audiovizualinis įrašas) (clip). Klipo trukmė 10-60
sekundžių, jie įrašyti MPEG formatu. Duomenų bazės įrašymui buvo naudojami du pagrindiniai šaltiniai.
Pirmasis - studijoje įrašyta šneka. Emocionali kalbančiųjų šneka buvo įrašoma diskutuojant emocionaliomis
temomis tarpusavyje arba su tyrinėtojų komanda. Antrasis - pasirinktų televizijos laidų ištraukos.
Atliekant įrašus studijoje dalyvavo 40 savanorių. Buvo įrašoma tarpusavyje pažįstamų pašnekovų
šneka emocionaliomis temomis. Televizijos laidų ištraukose yra 125 kalbančiųjų pasisakymai. Televizija
buvo pagrindinis stiprių emocijų šaltinis. Visose televizijos laidose buvo realus bendravimas. Televizijos
laidų tipai: pokalbių šou, religinės laidos ir pan. Duomenų bazės apimtis yra 239 klipai (209 klipai yra
televizijos laidų ištraukos ir 30 – pokalbio įrašai) [12; 22; 42].
3. Danų emocionalios šnekos duomenų bazė (Danish Emotional Speech Database, DES)
Kalba: danų.
Tipas: suvaidintos emocijos.
Kalbantieji: 4 aktoriai (2 vyrai ir 2 moterys).
Emocijos: nuostaba, laimė, liūdesys, pyktis ir neutrali šneka.
Įrašai: 2 žodžiai, 9 sakiniai ir 2 ištraukos.
Emocijų atpažinimo tikslumas: 67%.
Duomenų bazę sudaro maždaug 30 minučių trukmės 419 emocionalios šnekos įrašai. Su kiekvienu
aktoriumi buvo įrašomi 2 atskiri žodžiai (yes ir no), 9 sakiniai (4 iš jų klausimai) ir 2 ištraukos (laisvos
šnekos (fluent speech)). Kiekvienas pasisakymas buvo atliekamas 5 skirtingomis emocijomis. DES buvo
įrašyta pašalinius garsus slopinančioje garso studijoje. Kiekvieno aktoriaus šneka buvo įrašoma skirtingu
laiku, kad jie negalėtų pamėgdžioti vienas kito šnekėjimo stiliaus. Dvidešimt teisėjų (18-58 metų) įvertino
emocijas su 67% tikslumu [22; 35; 44; 48].
4. Hindi emocionalios šnekos rinkinys (Hindi Speech Corpus for Emotional Analysis, IITKGPSEHSC)
Kalba: hindi (viena iš Indijos kalbų).
Tipas: suvaidintos emocijos.
Kalbantieji: 10 profesionalių aktorių (5 vyrai ir 5 moterys).
Emocijos: pyktis, pasišlykštėjimas, baimė, laimė, liūdesys, nuostaba, sarkazmas ir neutrali šneka.
Įrašai: 15 sakinių.
Ši bazė sukurta emocijų šnekos signale analizei. 15 sakinių turinys neutralus. Kiekvienas aktorius
atskiros sesijos metu turėjo ištarti 15 sakinių panaudojęs 8 skirtingas emocijas. Tokių sesijų buvo 10.
Pasakymų skaičius duomenų bazėje yra 12000 (15 sakinių * 8 emocijos * 10 kalbančiųjų * 10 sesijų).
Kiekviena emocija turi 1500 pasakymų. Žodžių ir skiemenų skaičius sakiniuose atitinkamai yra 4-7 ir 9-17.
Duomenų bazės trukmė yra maždaug 9 valandos. Įrašinėjimo metu buvo naudojamas mikrofonas. Įrašai
atlikti patalpoje be pašalinių garsų [23].
5. Vokiečių emocionalios šnekos duomenų bazė (The Vera am Mittag German audio-visual
emotional speech database, VAM Corpus)
Kalba: vokiečių.
Tipas: natūralios emocijos.
Kalbantieji: televizijos pokalbių šou laidos dalyviai.
Emocijos: valentingumas, aktyvacija ir dominavimas (valence, activation and dominance).
Įrašai: 12 laidų.
Duomenų bazę sudaro trys dalys: VAM-Video, VAM-Audio ir VAM-Faces. Emocijų apibudinimui
yra naudojama trimatės emocijų erdvės koncepcija, kurioje emocinė būklė yra apibūdinama pagal
valentingumą (emocinę būklę sukelia teigiamas arba neigiamas išgyvenimas, teigiamas - neigiamas
(negatyve – positive)), aktyvaciją (kai stimulai padidina ar sumažina organizmo aktyvumo būseną, ramus susijaudinęs (calm – excited)) ir dominavimą (ar individas manąs sugebantis išspęsti konkrečią situaciją,
silpnas - stiprus (weak - strong)) [21]. Duomenų bazę sudaro 12 valandų trukmės televizijos pokalbių šou
„Vera am Mittag“ diskusijų tarp dalyvių garso ir vaizdo įrašai. Kiekvieną iš 12 įrašytų laidų sudaro keli
dialogai tarp 2-5 kalbančiųjų. Duomenų bazę sudaro 45 laidos dialogai suskirstyti į pasisakymus. VAMAudio sudaro 47 kalbančiųjų (11 vyrų ir 36 moterų) 1018 pasisakymų. Kalbančiųjų amžius yra 16-69 metai
[16; 35]. http://emotion-research.net/download/vam
6. Kroatų emocionalios šnekos duomenų bazė (Emotional Speech Corpus of Croatian Language,
KEG)
Kalba: kroatų.
Tipas: natūralios ir suvaidintos emocijos.
Kalbantieji: apie 200.
Emocijos: pyktis, baimė, laimė, liūdesys ir neutrali šneka.
Įrašai: 496 pasisakymai, bendra trukmė 41 minutė 16 sekundžių.
Tai antra kroatų kalba įrašyta duomenų bazė. Jos paskirtis yra nustatyti ryšį tarp natūralios ir
suvaidintos emocionalios šnekos. Medžiaga duomenų bazės įrašams buvo renkama internete ir kituose
viešosios žiniasklaidos šaltiniuose. Natūralioms emocijoms rinkti buvo naudojami kroatų realybės šou ir
dokumentinių filmų įrašai. Suvaidintoms emocijoms rinkti buvo naudojami kroatų filmų, televizijos šou ir
įgarsintų knygų programos (Books-Aloud programs) įrašai. Buvo atrinkti 674 pasisakymai, kurių bendra
trukmė yra 46 minutės ir 55 sekundės. Įdomu tai, kad laimę ir pyktį išreiškiantys pasisakymai yra patys
trumpiausi – 3 sekundės, o neutralus pasisakymas yra pats ilgiausias – 10 minučių 39sekundės. Kalbėtojų
skaičius yra 204 (104 vyrai ir 100 moterų). Pasisakymai ir kalbantieji yra suskirstyti į tris amžiaus
kategorijas: vaikai, paaugliai ir suaugusieji. Dauguma pasisakymų yra priskiriama suaugusiųjų kategorijai.
Duomenų bazės įrašus vertino Zagrebo universiteto psichologijos studijų programos diplomantai, kurių
amžius 22-24 metai. Po atrankos liko 496 pasisakymai, o bazės trukmė sumažėjo 5 minutėmis [13].
7. Serbų emocionalios šnekos duomenų bazė (Serbian emotional speech database, GEES)
Kalba: serbų.
Tipas: suvaidintos emocijos.
Kalbantieji: 6 aktoriai (3 vyrai ir 3 moterys).
Emocijos: pyktis, baimė, laimė, liūdesys ir neutrali šneka.
Įrašai: 32 žodžiai, 30 trumpų semantiškai neutralių sakinių, 30 ilgų semantiškai neutralių sakinių,
viena 79 žodžių ištrauka.
Tai pirmoji serbų emocionalios šnekos duomenų bazė. Ją sudaro 2790 įrašų, kurių bendra trukmė yra
3 valandos. Įrašai buvo atliekami Belgrado universiteto Dramos meno fakulteto pašalinius garsus
slopinančioje garso studijoje. Kiekvieno aktoriaus šneka buvo įrašoma skirtingu laiku, kad jie negalėtų
pamėgdžioti vienas kito šnekėjimo stiliaus [38].
8. Rusų emocionalios šnekos duomenų bazė (Russlana: A Database of Russian Emotion
Utterances)
Kalba: rusų.
Tipas: suvaidintos emocijos.
Kalbantieji: 61 kalbantysis (12 vyrų ir 49 moterys).
Emocijos: pyktis, baimė, laimė, liūdesys, nuostaba.
Įrašai: 10 sakinių.
Duomenų bazę sudaro 3660 įrašų, kurie buvo įrašyti pašalinius garsus slopinančioje garso studijoje.
Kalbantieji atvyko iš visos šalies, o jų amžius nuo 16 iki 28 metų. Buvo parinkti sakiniai, apimantys visas
rusų kalbos fonemas ir priebalses [28].
9. Graikų emocionalios šnekos duomenų bazė (Modern Greek real-world emotional speech
corpus)
Kalba: graikų.
Tipas: natūralios emocijos.
Kalbantieji: 43 asmenys (23 vyrai ir 20 moterų).
Emocijos: malonumas, džiaugsmas, sąmyšis, pyktis (piktas, labai piktas) ir neutrali šneka.
Įrašai: 4413 įrašų.
Emocijų atpažinimo tikslumas: 75,4%.
Duomenų bazę sudaro protingo namo dialogo sistemos patyrusių ir pradedančiųjų naudotojų
pasisakymo įrašai. Kalbančiųjų amžius varijuoja nuo 12 iki 56 metų, o amžiaus vidurkis yra 22 metai.
Kalbantieji turėjo duoti 10 nurodymų protingam namui naudodami natūralią šneką. Dialogas su protingo
namo sistema buvo įrašomas ir filmuojamas, vėliau buvo panaikinti nekokybiški įrašai, o likusieji buvo
suskirstyti į 6 kategorijas, kurios atitinka emocines būkles. Duomenų bazės įrašų skaičius yra 4413, o
trukmė yra 3,5 valandos [25].
10. eNTERFACE'05 emocionalios šnekos duomenų bazė (eNTERFACE'05 emotion Database)
Kalba: anglų.
Tipas: suvaidintos ir sukeltos emocijos.
Kalbantieji: 42 asmenys.
Emocijos: pyktis, pasišlykštėjimas, baimė, džiaugsmas, liūdesys, nuostaba.
Įrašai: 5 sakiniai * 6 emocinės būklės.
Tai garso ir vaizdo emocionalios šnekos duomenų bazė skirta emocijų atpažinimo algoritmų
testavimui. Dalyvavo 14 tautybių (Belgija, Turkija, Prancūzija, Ispanija, Graikija, Italija, Austrija, Kuba,
Slovakija, Brazilija, USA, Kroatija, Kanada, Rusija) 42 kalbantieji (34 vyrai, 8 moterys). Duomenų bazę
sudaro 1277 anglų kalbos įrašai. Kiekvienas kalbantysis išklausydavo 6 trumpas istorijas, kurios sukeldavo
6 emocines būkles. Kiekvienas kalbantysis turėjo ištarti po 5 sakinius išreikšdamas kiekvieną emociją. Du
ekspertai sprendė, ar emocijos yra išreiškiamos nedviprasmiškai. Duomenų bazė yra nemokama
(http://www.enterface.net/enterface05/main.php?frame=emotion) [29; 35].
11. Lėktuvo erdvės emocionalios šnekos duomenų bazė (Airplane Behaviour Corpus, ABC)
Kalba: vokiečių.
Tipas: natūralios emocijos.
Kalbantieji: 8 asmenys.
Emocijos: agresyvus, linksmas, apsvaigęs/neblaivus (intoxicated), nervingas, pavargęs ir neutralus
elgesys.
Įrašai: 431 įrašas.
Tai dar viena garso ir vaizdo emocionalios šnekos duomenų bazė sukurta viešojo transporto erdvės
stebėjimui. Siekiant sukelti tam tikrą nuotaiką buvo naudojamas scenarijus, kuris skatino kalbėtojus juo
vadovautis: iš anksto įrašyti pranešimai buvo automatiškai paleidžiami. Buvo pasirinktas poilsinis skrydis
pirmyn ir atgal, kurį sudaro (atitinkamai) 13 ir 10 tokių siužetų kaip netinkamų maisto produktų pateikimas,
įvairūs nemalonumai, užmigimas, pokalbis su kaimynu ir kt. Prieš kalbėtojo lėktuvo sėdinę buvo pastatytas
mėlynas ekranas. 8 kalbėtojai 25-48 metų dalyvavo įrašyme. Duomenų bazę sudaro 431 įrašas, kiekvieno
vidutinė trukmė yra 8,4 sekundės [34; 35].
12. SUSAS emocionalios šnekos duomenų bazė (Speech Under Simulated and Actual Stress,
SUSAS)
Kalba: anglų (amerikonų).
Tipas: natūralios ir suvaidintos emocijos.
Kalbantieji: 36 kalbėtojai (23 vyrai, 13 moterų).
Emocijos: baimė ir neutrali šneka (vidutinis stresas, aukštas stresas, riksmai).
Įrašai: 35 izoliuoti žodžiai.
Pradinę duomenų bazę sudarė 32 kalbėtojų (13 moterų, 19 vyrų), kurių amžius yra 22-76 metai,
16000 izoliuotų žodžių įrašų. Vėliau duomenų bazę papildė dar 4 kareivių vyrų kariniame sraigtasparnyje
šnekos įrašai skrydžio metu. Duomenų bazės žodyną sudaro 35 skrydžio orlaiviu metu bendravimui
naudojami žodžiai [17; 35].
13. AVIC emocionalios šnekos duomenų bazė (Audiovisual Interest Corpus, AVIC)
Kalba: anglų.
Tipas: natūralios emocijos.
Kalbantieji: 21 kalbėtojas (10 moterų, 11 vyrų) .
Emocijos: nuobodulis, džiaugsmas ir neutrali būklė.
Įrašai: 3002 frazės.
AVIC yra garso ir vaizdo emocionalios šnekos įrašų duomenų bazė. Įrašant ją produkto pristatytojas
lydi vieną (iš 21) asmenį anglų komerciniame pristatyme. Yra apibudintas kiekvieno dalyvio susidomėjimo
lygis: nuobodulis (dalyviui nuobodu klausyti ir šnekėti ta tema, jis pasyvus, neseka pokalbio, susidomėjimo
lygis yra 1), neutralus (dalyvis seka ir dalyvauja pokalbyje, bet yra sunku nustatyti ar pokalbio tema jį tikrai
domina, susidomėjimo lygis yra 2 ) ir džiaugsmas (dalyvio noras šnekėti ir sužinoti daugiau ta tema,
susidomėjimo lygis yra 3) [33; 35].
14. SAL emocionalios šnekos duomenų bazė (Sensitive Artificial Listener, SAL)
Kalba: anglų.
Tipas: sukeltos emocijos.
Kalbantieji: 4 kalbėtojai (2 moterys, 2 vyrai).
Emocijos: emocijų daug, bet jos nėra intensyvios.
Įrašai: 20 min. kiekvienam kalbėtojui.
Audiovizualizuotą duomenų bazę sudaro žmogaus ir kompiuterio dialogo įrašai. Jautraus dirbtinio
klausytojo (Sensitive Artificial Listener, SAL) grafinė vartotojo sąsaja suprojektuota taip, kad leistų
naudotojams darbo metu patirti kuo daugiau emocijų. Sąsaja sukurta keturioms asmenybėms: Popy
(laimingas), Obadiah (niūrus), Spike (piktas) ir Prudence (pragmatiškas). Naudotojai pasirenka asmenybę,
su kuria norėtų šnekėti. Kiekvienas herojus turi atsakymų rinkinį, kuris provokuoja atitinkama naudotojo
emocinę būklę. Taip herojai sukelia emocijas kalbėtojams. Duomenų bazę sudaro 25 įrašai 4 kalbėtojams.
Kiekvienam kalbėtojui skirta apie 20 minučių [10; 35; 47].
15. SmartKom emocionalios šnekos duomenų bazė (Multimodal Corpus in SmartKom)
Kalba: anglų ir vokiečių.
Tipas: natūralios emocijos.
Kalbantieji: 224 kalbėtojai.
Emocijos: pyktis, džiaugsmas, nuostaba, bejėgiškumas, susimąstymas ir neutrali šneka.
Įrašai: 4,5 minučių trukmės.
Duomenų bazės įrašai sudaryti stebint žmogaus ir kompiuterio sąveiką atliekant skirtingas užduotis
ir technines konfigūracijas. SmartKom yra garso ir vaizdo emocionalios šnekos įrašų duomenų bazė įrašyta
anglų ir vokiečių kalbomis taikant Wizard-Of-Oz techniką. Subjektai buvo paprašyti sudalyvauti sistemos
prototipo testavime ir manė, kad jie sąveikauja su egzistuojančia sistema, bet realiai sistemos elgesį
modeliavo du kitame kambaryje esantys žmonės. Kiekvienos sesijos metu (reikėjo atlikti dvi 4,5 min.
trukmės užduotis) buvo įrašoma kalbančiojo spontaniška šneka, veido išraiška ir gestai. Kalbantieji mane,
kad sistema turi suprasti šneką, gestus, mimiką ir turėtų bendrauti kaip žmogus. Įrašai suskirstyti į 448
sesijas, kurių kiekvieną sudaro vienas 4,5 minučių trukmės vieno asmens įrašas [35; 39].
16. FAU Aibo emocionalios šnekos duomenų bazė (FAU Aibo Emotion Corpus)
Kalba: vokiečių.
Tipas: natūralios emocijos.
Kalbantieji: 51 vaikas (10-13 metų, 21 mergaitė, 30 berniukų).
Emocijos: pyktis, džiaugsmas, nuostaba, nuobodulis, bejėgiškumas, susierzinimas, neutrali būklė ir
kt.
Įrašai: 48401 žodis, 13642 įrašai, 9,2 valandos.
Duomenų bazės įrašai sudaryti stebint žmogaus (vaiko) ir roboto sąveiką. FAU Aibo įrašyta
naudojant Wizard-Of-Oz techniką. Vaikai šnekėjo su šunimi-robotu Aibo kaip su draugu. Jie buvo tikri, kad
Aibo reaguos į jų komandas, bet roboto veiksmus kontroliavo žmogus naudodamas specialią programinę
įrangą. Duomenų bazės trukmė yra 9,2 val. įrašai yra suskirstyti į 11 kategorijų, atitinkančių emocines
būkles [3].
17. Turkų emocionalios šnekos duomenų bazė (Turkish emotional speech database, TURES)
Kalba: turkų.
Tipas: suvaidintos emocijos.
Kalbantieji: 582 kalbantieji (394 vyrai, 188 moterys).
Emocijos: pyktis, baimė, liūdesys, laimė, nuostaba, neutrali šneka ir kt.
Įrašai: 5100 įrašų.
Duomenų bazę sudaro 5100 įrašų iš 55 turkų filmų. Vidutinė kiekvieno įrašo trukmė yra 2,34
sekundės. Kiekvienas duomenų bazės įrašas yra priskirtas tam tikrai emocinei būklei ir atvaizduotas
trimatėje emocijų erdvėje (valence, activation and dominance) (http://www.turesdatabase.com/page/home)
[30].
18. Suomių emocionalios šnekos duomenų bazė (Media Team Speech Corpus)
Kalba: suomių.
Tipas: suvaidintos emocijos.
Kalbantieji: 14 aktorių (6 moterys, 8 vyrai).
Emocijos: pyktis, džiaugsmas, liūdesys, baimė, pasišlykštėjimas, nuobodulis ir neutrali šneka.
Įrašai: 490 įrašų.
14 profesionalių aktorių dalyvavo įrašant duomenų bazę. Kalbančiųjų amžius 25-50 metų.
Kiekvienas kalbėtojas turėjo perskaityti 100 žodžių ištrauką neutralia šneka ir emocionaliai. Duomenų bazę
sudaro 490 įrašų [37].
19. EmoTV emocionalios šnekos duomenų bazė (EmoTV Emotional Speech Database, 2005)
Kalba: prancūzų.
Tipas: natūralios emocijos.
Kalbantieji: 48 kalbėtojai.
Emocijos: daug pozityvių ir negatyvių įvairaus intensyvumo emocijų.
Įrašai: 51 įrašas.
EmoTV emocionalios šnekos duomenų bazę sudaro 51 įrašas. Kiekvieno įrašo trukmė yra 4-43
sekundės. Įrašų šaltinis yra televizijos laidų emocionalūs pokalbiai. Duomenų bazės trukmė yra 12 minučių.
EmoTV yra HUMAINE duomenų bazės dalis [1; 9].
20. Castaway emocionalios šnekos duomenų bazė (Castaway Reality Television Database, 2006)
Kalba: anglų.
Tipas: natūralios emocijos.
Kalbantieji: 10 kalbėtojai.
Emocijos: daug pozityvių ir negatyvių įvairaus intensyvumo emocijų.
Įrašai: 10 įrašų.
Castaway duomenų bazę sudaro grupės žmonių pokalbių ištraukų garso ir vaizdo įrašai. 10 žmonių
atokioje saloje konkuruoja tarpusavyje atlikdami tam tikras užduotis. Ši duomenų bazė įdomi tuo, kad
leidžia analizuoti emocijas veikloje, t. y. dalyviai atlieka kažkokią sudėtingą užduoti poromis arba grupėje ir
rezultate laimi arba pralaimi. Duomenų bazę sudaro 10 įrašų. Kiekvieno įrašo trukmė yra 30 minučių.
Castaway yra HUMAINE duomenų bazės dalis [10].
21. Daugiakalbė emocionalios šnekos duomenų bazė (Multilingual Emotional Database, 2010)
Kalbos: anglų, italų, vokiečių ir prancūzų.
Tipas: suvaidintos emocijos.
Kalbantieji: 39 kalbėtojai.
Emocijos: pyktis, pasišlykštėjimas, baimė, laimė, liūdesys, nuostaba ir neutrali šneka.
Įrašai: vienas neutralaus turinio sakinis ištariamas visomis kalbomis keturiais būdais išreiškiant
visas emocijas.
Italų sukurta Daugiakalbė emocionalios šnekos duomenų bazė yra įrašyta italų, prancūzų, anglų ir
vokiečių kalbomis. Duomenų bazė buvo įrašyta pašalinius garsus slopinančioje garso studijoje. Kalbantieji
(27 vyrai ir 12 vyrų aktorių) vieną neutralų sakinį turėjo ištarti savo gimtąja kalba (keturias būdais)
išreikšdami pyktį, pasišlykštėjimą, baimę, laimę, liūdesį, nuostabą ir neutralia emocinę būklę. Buvo gauti
1560 suvaidintų emocijų įrašai, iš kurių testavimui buvo atrinktas 721 įrašas. Vienas iš duomenų bazės
kūrimo tikslų buvo palyginti kaip skirtingai emocijas išreiškia aktoriai ir ne aktoriai, kitas – tarpkultūriniai
skirtumai. Automatizuoto emocijų atpažinimo rezultato vidurkis yra 62,3% [31].
22. HUMAINE emocionalios šnekos duomenų bazė (HUMAINE Database, 2007)
Kalbos: anglų, prancūzų, hebrajų.
Tipas: natūralios, sukeltos ir suvaidintos emocijos.
Kalbantieji: įvairaus amžiaus vyrai ir moterys.
Emocijos: platus emocijų (išreiškiamu veikloje, bendravime) diapazonas.
Įrašai: 50 įrašų.
HUMAINE duomenų bazę sudaro dvi dalys: Pirminiai įrašai ir Struktūrizuotas paženklintas rinkinys.
Beveik visi pirminiai įrašai yra audiovizualizuoti ir apima įvairias emocijas išreiškiančius scenarijus.
Struktūrizuotą paženklintą įrašų rinkinį sudaro emocijų epizodai, išrinkti iš pirminių įrašų. Pirminiai įrašai
apima tris natūralios emocionalios šnekos duomenų bazes (Belfast Naturalistic Database, EmoTV database,
Castaway Reality Television Database), šešias sukeltų emocijų duomenų bazes (Sensitive Artificial Listener,
Activity Data/Spaghetti Data, Belfast Driving simulator Data, EmoTABOO, Green Persuasive Dataset,
DRIVAWORK ) ir vieną suvaidintų emocijų duomenų bazę (GEMEP Corpus). Struktūrizuotą paženklintą
rinkinį sudaro 48 iš pirminių įrašų atrinkti įrašai. Įrašų trukmė nuo 3 sekundžių iki 2 minučių. Parinkti įrašai
demonstruoja emocijas veikloje ir bendravime (monologas, dialogas). Du įrašai yra laisvai prieinami
svetainėje http://emotion-research.net/download/pilot-db/ [10; 11; 35; 47].
Kalbant apie emocionalios šnekos duomenų bazes reikėtų pabrėžti, kad dominuoja duomenų bazės
įrašytos anglų kalba, po jų seka vokiečių ir kinų kalbomis įrašytos bazės. Rusų, olandų, slovėnų, švedų,
japonų, ispanų ir kitomis kalbomis yra įrašytos tik kelios duomenų bazės. Daugumą duomenų bazių sudaro
4-5 pagrindinės emocijos ir tik kelias duomenų bazes sudaro 7-8 emocijos. Suvaidintos emocionalios šnekos
duomenų bazės yra dominuojančios [22; 42].
Emocionalios šnekos duomenų bazės yra labai skirtingos. Skiriasi jų apimtys, emocijos bei jų
skaičius, kalbančiųjų skaičius. Todėl palyginti emocijų analizės bei atpažinimo rezultatus naudojant
skirtingas bazes (skirtingas kalbas) yra neįmanoma. Siekiant analizuoti emocijų atpažinimą skirtingose
kalbose yra sukuriamos daugiakalbės emocionalios šnekos duomenų bazės (Multilingual Emotional
Database) [31].
Sukurtų duomenų bazių įrašai yra testuojami. Dažniausiai testuoja 20-30 asmenų grupė. Jiems
leidžiama vieną kartą paklausyti emocionalios šnekos įrašo ir nustatyti emocijos tipą. Tokio emocijų
atpažinimo tikslumas neviršija 80%. Automatizuoto emocijų atpažinimo rezultatai taip pat yra arti 80%
[22].
Dauguma emocionalios šnekos duomenų bazių yra mokamos. Viena populiariausių ir nemokamų yra
Berlyno emocionalios šnekos duomenų bazė.
Apibendrinant galima pasakyti, kad yra būtinybė sukurti tinkamai suprojektuotą, fonetiškai
subalansuotą natūralios emocionalios šnekos duomenų bazę apimančią įvairias emocijas. Ši duomenų bazė
galėtų būti standartizuota tarptautiniu mastu bei įrašyta pagrindinėmis kalbomis, kas leistų atlikti emocijų
analizę skirtingose kalbose bei palyginti rezultatus [22].
4 Emocijų požymiai šnekos signale
4.1 Požymių paskirtis
Emocinei šnekai atpažinti yra naudojami emocinės šnekos požymiai, atspindintys konkrečias
emocijas.
Tinkamų požymių pasirinkimas kuriant šnekos sistemas yra esminis sprendimas. Skirtingi šnekos
požymiai pateikia skirtingą šnekos informaciją (kalbantysis, šneka, emocijos ir kt.). Tyrinėjant šneką
požymiai labai dažnai yra pasirenkami eksperimentiniu pagrindu, kartais yra naudojami matematiniai
metodai, pvz., pagrindinių komponentų analizė (PCA).
4.2 Požymių rūšys
Emocijos buvimas šnekoje yra aiškiai užkoduotas šnekos signale, bet klausimas, kaip tiksliai
nustatyti specifinius požymius, kurie padėtų perteikti emociją, lieka neatsakytas. Pvz., džiaugsminga šneka
yra susieta su pagrindinio tono dažnio vidurkio padidėjimu, balso intensyvumo vidurkio padidėjimu ir
didesniu pagrindinio tono dažnio (F0) kintamumu, o nuobodžiaujanti šneka visada yra susijusi su
pagrindinio tono dažnio (F0) vidurkio mažėjimu ir pirmos formantės dažnio vidurkio (F1) padidėjimu.
Daugumoje darbų, kurie nagrinėja automatinį emocijų atpažinimą šnekoje yra įvardijami prozodiniai
ir spektro požymiai.
Prozodiniai požymiai
Prozodiniai požymiai yra dažniausiai naudojami emocinės šnekos atpažinimo eksperimentuose ir yra
gaunami iš pagrindinio tono dažnio (F0), formančių dažnių reikšmių, balso intensyvumo, energijos, pauzių,
šnekos trukmės ir greičio, balso kokybės aprašų (profiles). Emocijos analizei šnekoje yra naudojama įvairi
jų statistika: F0 vidutinė reikšmė, standartinis nuokrypis, minimumas ir maksimumas, pirmoji išvestinė,
balso intensyvumas ir jo išvestinė ir t. t. Požymiai yra gaunami atsižvelgiant į laiko atkarpą (time segment).
Spektro požymiai
Spektro požymiai remiasi trumpalaikiu garso galios spektru, kaip antai tiesinės prognozės
koeficientai (linear prediction coefficients (LPC)) ir melų skalės kepstro koeficientai (mel-frequency
cepstral coefficients (MFCC)) bei jų statistika. Šiems požymiams emocijų atpažinime skiriama mažiau
dėmesio. Spektriniai požymiai yra sunkiau intuityviai susieti su emocine būsena, jie suteikia labiau detalų
šnekos signalo aprašymą ir tai gali pagerinti emocijos atpažinimo tikslumą lyginant su prozodiniais
požymiais.
Reikėtų paminėti tai, jog šie požymiai turi savyje nemažai informacijos apie lingvistinį šnekos turinį
(tai kas sakoma), kas daro šiuos požymius priklausomus nuo šnekos turinio. Jie labiau atspindi tai, kas
sakoma, o ne kaip sakoma.
Epochų požymiai
Šnekos signalo generavimo metu balso stygos vibruoja užtverdamos ir atverdamos kelią oro srautui
iš plaučių. Uždarasis balso stygų (balsaskylės) periodas yra vadinamas epocha. Požymiai, išskirti iš signalo
atkarpos, atitinkančios uždarumo laikotarpį, yra vadinami epochų parametrais ir yra naudojami kaip
požymiai emocijų klasifikavime. Literatūroje yra pateikiami tokie epochų parametrai kaip epochos
stiprumas (angl. strength of epoch), momentinis dažnis, epochos raiškumas/ryškumas (angl. sharpness of
epoch), epochos nuolydžio stiprumas.
Fonemų informacija
Emocinės šnekos požymiai keičiasi ir pagal fonemų (kalbos garsinės sistemos vienetas, neskaidomas
į mažesnius elementus ir skiriantis tos kalbos žodžius ar morfemas) informaciją, todėl išgaunant požymius
emocijų atpažinimui šnekoje reikėtų išnagrinėti ir fonemų informaciją. Tačiau tokia informacija įmanoma
tik atpažinus fonemas, t.y. atsiranda šnekos atpažinimo poreikis. O teisingas ir patikimas šnekos atpažinimas
yra dar vienas didelis uždavinys.
Balso kokybės požymiai apibūdina balsaskylės pradžios (angl. glottal source) savybes ir yra
įtakojami kalbos sužadinimo signalo. Taigi, skirtingos emocinės būsenos gali įtakoti balso kokybę. Kartu su
pagrindinio tono dažniu ir trukme balso kokybė priskiriama prie kalbos prozodijos. Emocijoms analizuoti
kalboje yra naudojami tokie balso kokybės požymiai, kaip sužadinimo signalo savybės, artikuliacijos būdas,
balso tembras, pagrindinio tono dažnio svyravimas ir garsumo svyravimas.
Kitas svarbus požymis emocijų atpažinime yra harmonikų skaičius, susidarančių dėl netiesinių
balso trakto savybių. Pagrindinio tono dažnis daro įtaką harmonikų skaičiui spektre. Kuo tono dažnis yra
aukštesnis, tuo mažiau harmonikų susidaro ir atvirkščiai, kuo tono dažnis yra žemesnis, tuo daugiau
harmonikų susidaro. Geresniam emocinės kalbos apibūdinimui kartu su populiariais pagrindinio tono dažnio
ir energijos požymių statistika siūloma naudoti naujus harmonikų ir Zipf grindžiamus (angl. Zipf based)
požymius. Harmonikų požymiai apibūdina signalo spektrą pagrindinio tono ir formančių struktūra. Zipf
požymiai charakterizuoja vidinę signalo struktūrą, ypač ritminius ir prozodinius balso išraiškos aspektus.
4.3 Požymių rinkinio optimizavimas
Atliekant emocijų analizę kalbos signale požymiai labai dažnai yra pasirenkami eksperimentiniu
pagrindu [22]. Išskiriamų požymių kiekis yra neapibrėžtas ir jų skaičius kartais siekia keletą tūkstančių
požymių [7]. Tokius didelius požymių rinkinius neišvengiamai tenka mažinti dėl dviejų priežasčių. Pirma,
norint tinkamai apmokyti klasifikatorių, didelis požymių rinkinys reikalauja milžiniškų apmokymui skirtų
duomenų kiekių (emocingos kalbos įrašų). Antra, didelės apimties požymių rinkiniai reiškia ilgą apmokymą
ir klasifikavimo procesą. Todėl požymių rinkinius tenka mažinti [2; 27]. Mažinant požymių rinkinius yra
rizika prarasti emocijų klasifikavimui reikšmingus požymius, todėl tenka naudoti požymių rinkinio
optimizavimo metodus [31].
Požymių rinkinio formavimo metodus galima suskirstyti į dvi grupes: požymių atrankos ir požymių
transformavimo [32]. Požymių atrankos metodai leidžia atrinkti rinkinių poaibius atmetant mažiau
reikšmingus požymius arba apjungiant požymius, lemiančius didžiausią emocijų atpažinimo tikslumą.
Dažniausiai yra naudojami tokie požymių atrankos metodai, kaip nuoseklus aibės didinimas, nuoseklus aibės
mažinimas, geriausiojo pirmo pasirinkimo metodas, įvairūs genetiniai algoritmai ir kt.
Taikant nuoseklaus aibės didinimo (angl. Sequential forward selection) metodą požymių rinkinys
formuojamas nuo pradžių, kiekvienoje iteracijoje pasirenkant požymį, duodantį didžiausią emocijos teisingos
klasifikacijos padidėjimą [6; 31; 41]. Nuoseklaus aibės mažinimo (angl. Sequential backward selection)
metodo esmė yra mažinti pradinį požymių rinkinį nuosekliai pašalinant tą požymį, be kurio požymių rinkinys
duoda geresnį rezultatą [6]. Naudojant geriausiojo pirmojo pasirinkimo (angl. Promising first selection)
metodą kiekvienam požymiui nustatoma klasifikacijos klaida. Požymiai surikiuojami klaidos didėjimo
tvarka, o požymių rinkinys formuojamas nuosekliai pasirenkant geriausią pirmąjį. Galutiniu paskelbiama
požymių rinkinio versija, lemianti mažiausią atpažinimo klaidą [8]. Optimalus požymių rinkinys gali būti
formuojamas genetiniais algoritmais generuojant naujus požymių darinius ir optimizuojant juos [6; 36].
Taikant
požymių
transformavimo
metodiką
sudarytieji
požymių
rinkiniai
optimizuojami
transformuojant požymių reikšmes ir mažinant rinkinio eilę (požymių kiekį rinkinyje). Taip bandoma spręsti
„daugiamatiškumo prakeiksmo“ problema, kuomet dėl aukštos požymių rinkinio eilės ir nepakankamo
duomenų kiekio nepavyksta tinkamai apmokyti klasifikatoriaus (ir tuo pačiu tikėtis aukšto klasifikavimo
tikslumo). Kalbos emocijų požymių optimizavimui yra naudojami tokie duomenų transformavimo metodai
kaip pagrindinių komponenčių analizė [7], tiesinė diskriminantinė analizė [19], daugiamačių skalių metodas
(angl. Multidimensional scaling) [32], Lipšitzo erdvės metodas (angl. Lipsitz spacing method) [20], Fišerio
diskriminantinė analizė [49], neuronų tinklai [15], sprendimų medžiai [32] ir kt.
Visgi nėra bendro sutarimo dėl fiksuoto požymių rinkinio emocijų atpažinimui kalboje [4; 31; 45]. Į
rinkinį dažnai yra įtraukiami įvairių rūšių požymiai, taip tikintis pagerinti klasifikavimo kokybę. Labai
dažnai, sudarant požymių rinkinį, papildomai yra naudojama įvairi požymių statistika.
4.4 Požymių atrankos kriterijai
Naudojant požymių atrankos metodus būtina apsispręsti dėl požymių atrankos kriterijaus.
Daugeliu atveju požymių atranka remiasi jų klasifikavimo efektyvumu – yra įvertinamas atskirų
požymių klasifikavimo tikslumas kuris yra naudojamas atliekant pasirinkimo (eliminavimo) žingsnį [51].
Kitas naudojamas požymių atrankos kriterijus yra požymių arba požymių vektorių kryžminės koreliacijos
koeficientas [52, 53]. Minimalus kryžminės koreliacijos koeficientas leidžia atrinkti efektyviausius
požymius klasifikavimui. Taip pat požymių atrankai yra naudojamas tiesine diskriminantine analize
pagrįstas Fisher rates [54]. Fisher rates leidžia atrinkti požymius, turinčius didžiausią diskriminantinę
jėgą tarp emocijų.
Daugiau informacijos apie požymių atrankos kriterijus galima rasti 1 ir 2 prieduose pateiktuose
straipsniuose.
5 Emocionalios šnekos klasifikavimo schemos
Emocijų atpažinimo tikslumas gali būti padidintas naudojant įvairias klasifikavimo schemas. Įprastas
(vieno etapo klasifikavimas naudojant vieną požymių rinkinį visoms emocijos klasifikuoti) tradicinių
klasifikatorių naudojimas daro emocijų atpažinimo procesą priklausoma nuo požymių rinkinio. Unikalus
klasifikavimo proceso organizavimas gali pagerinti emocijų atpažinimo tikslumą netgi naudojant tą patį
požymių rinkinį. Žemiau yra pristatyti keli netradiciniai klasifikavimo metodai.
Sustiprintas bendro mokymo algoritmas (Enhanced co-training algorithm) buvo pasiūlytas
siekiant pagerinti emocijų atpažinimo tikslumą [55]. Du skirtingi požymių rinkiniai buvo naudojami dviem
skirtingiem klasifikatoriams klasifikuojant šešias emocijas. Pirmą požymių vektorių sudarė 20 požymių,
kurie buvo naudojami apmokant SVM klasifikatorių. Antrą požymių rinkinį sudarė 12 požymių, kurie buvo
naudojami apmokant HMM klasifikatorių. Apmokymas buvo kartojamas iki 18 kartų abiems
klasifikatoriams apmokymui naudojant vienodus paženklintus (labelled) duomenis. Toliau, kiekvienam
klasifikatoriui buvo paduodami neženklinti (unlabeled) apmokymo duomenys (įrašai). Abiejų klasifikatorių
vienodai pažymėti įrašai buvo priskiriami laikinam rinkiniui. Toliau laikinojo rinkinio įrašai buvo
nagrinėjami ir pridedami prie paženklintų apmokymo įrašų rinkinio. Abu apmokyti klasifikatoriai buvo
atstatyti ir apmokymo procesas buvo vėl pakartotas 18 kartų kiekvienam klasifikatoriui naudojant
atnaujintus apmokymo duomenis. Šis procesas yra kartojamas tol, kol neženklintų apmokymo įrašų rinkinys
netaps tuščias. Šiam tyrime taip pat buvo atsižvelgta į lyčių informaciją ir vyrų bei moterų įrašai buvo
klasifikuojami atskirai. Naudojant šią klasifikavimo schemą emocijų atpažinimo tikslumas pasiekė 75,9 %
moterims ir 80,9 % vyrams.
Skirtinų klasifikatorių sintezė taip pat buvo pasiūlyta siekiant pagerinti emocijų atpažinimo
tikslumą [56]. Sintezės principas buvo realizuotas naudojant Queuing voting algoritmą. Buvo naudojami trys
skirtingi klasifikatoriai su skirtingais požymių rinkiniais (gautais naudojant Promising first selection požymių
atrankos metodą). Daugumos balsavimo principas (Majority voting principle) buvo išplėstas naudojant svorio
koeficientus ir galutinis sprendimas dėl emocijos klasifikavimo buvo gaunamas atsižvelgiant į šios svorius.
Sintezės metodas reikalauja individualiai efektyvių klasifikatorių bei požymių rinkinių parinkimo, nes
galutinis emocijų klasifikavimo tikslumo rezultatas naudojant šią schemą priklauso nuo atskirų klasifikatorių
efektyvumo.
Dviejų stadijų hierarchinė klasifikavimo schema remiasi lyčių skirtumu [57]. Pirmoje stadijoje visi
emocionalios šnekos įrašai yra klasifikuojami naudojant tono požymius (pitch) į tris emocijų grupes: vyrai
arba neutrali (male/neutral), moterys arba pyktis (female/anger) ir neidentifikuota grupė. Grupių skaičius ir
tipas yra nulemiamas tono požymių reikšmių diapazono. Antros stadijos tikslas yra klasifikuoti
neidentifikuotų emocijų grupę į dvi emocijų grupes: pyktis arba vyrai (anger/male) ir neutrali arba moterys
(neutral/female). Šioje klasifikavimo stadijoje buvo naudojami energijos, kepstro ir delta požymiai. Bendrą
požymių skaičių naudojama šioje klasifikavimo schemoje sudaro 56 požymiai. Emocijų atpažinimo vidurkis
naudojant šį metodą yra 80,7 %.
Yra pasiūlyta dar viena hierarchinė dviejų stadijų klasifikavimo schema [58]. Pirmame žingsnyje
visi emocionalios šnekos įrašai yra klasifikuojami pagal susijaudinimo lygį (arousal dimension) į aktyvias
(active) ir neaktyvias (not-active) emocijas (paskutinės grupės įrašai dar yra klasifikuojami į vidutines
(median) ir pasyvias (passive) emocijas). Antrame žingsnyje kiekviena emocijų grupė yra klasifikuojama į
dvi specifines emocijas. Aktyvių emocijų grupė yra klasifikuojama į pyktį ir džiaugsmą, vidutinių emocijų
grupė yra klasifikuojama į baimę ir neutralią būseną, pasyvių emocijų grupė yra klasifikuojama į liūdesį ir
nuobodulį. Kiekviename klasifikavimo etape yra naudojami skirtingi požymiai ir binariniai klasifikatoriai.
Požymių rinkiniai gaunami naudojant SFS požymių atrankos metodą (SFS feature selection scheme).
Bendrą eksperimente naudojama požymių rinkinį sudaro 68 požymiai. Ši schema leido pasiekti 76,4 %
emocijų atpažinimo tikslumą.
Trečios hierarchinės klasifikavimo schemos idėja yra atskirų posistemių apmokymas [59].
Kiekviena posistemė naudoja vis kitokį požymių rinkinį, skirta vienai iš dviejų emocijų atpažinti. Šešios
emocijos yra analizuojamos: pyktis, džiaugsmas, liūdesys, baimė, nuobodulys ir neutrali būsena. Visos šios
emocijos yra grupuojamos į 15 emocijų porų (vadinamus posistemius). Kiekvienas posistemis yra
analizuojamas naudojant konkretų požymių rinkinį šių emocijų atpažinimui. Šie požymių rinkiniai yra
gaunami iš bendro požymių rinkinio (kurį sudaro 112 požymių) taikant Sequential backward selection ir
Maximum relevance – minimum redundancy požymių atrankos metodus. Bendras emocijų atpažinimo tikslumas
sudaro 85,2 % atsižvelgiant į lyčių skirtumo informaciją ir 80,1 % neatsižvelgiant į lyčių skirtumo informaciją.
Genetiniai algoritmai yra naudojami sudarant požymių vektorius Daugiarūšiam klasifikavimui
(Multistyle classification) [6]. Penki požymių rinkiniai buvo naudojami poriniam ir daugiarūšiam
klasifikavimui. Požymių rinkinius sudaro 16-48 požymių. Buvo nagrinėjami keturi emocionalios šnekos
stiliai: neutralus, piktas, stiprus ir Lombard. Aukščiausias klasifikavimo tikslumas siekė 82,74 % ir buvo
gautas naudojant daugiarūšį klasifikavimą su 48 požymiais.
Detalesnį klasifikavimo schemų aprašymą galima rasti 1 priede pateiktame straipsnyje.
6 Daugiapakopio klasifikavimo schema
Emocijų klasifikavimui pasiūlyta daugiapakopę schemą (2 pav.).
2 pav. Daugiapakopio klasifikavimo schema
Visos nagrinėjamos emocijos yra klasifikuojamos etapais. Kiekviename etape yra nagrinėjama tam
tikra emocijų klasė. Nagrinėjamų emocijų klases lemia naudojami požymiai. Pavyzdžiui, nagrinėjant
energiją kaip požymius, pirmajame lygyje būtų vykdomas klasifikavimas į žemos ir aukštos energijos klases
(žemos energijos emocijų pavyzdžiai – nuobodulys, neutrali, aukštos energijos – džiaugsmas, pyktis).
Antrajame lygyje žemos ir aukštos energijos klasės yra klasifikuojamos į žemesnio lygio klases arba į
atskiras emocijas, kurias apibrėžtų naudojami požymiai (visiškai kitokie, nei naudoti I lygio klasifikavimo
metu). Toks emocijų klasifikavimas lygiais leidžia kiekviename lygyje nagrinėjamiems duomenims
(emocijoms arba jų klasėms) pritaikyti efektyviausius požymius. Tai reiškia jog kiekvienam klasifikavimo
(𝑙)
lygiui ir emocijų klasei reikia parinkti individualų požymių rinkinį 𝐹𝑚 , o visas daugiapakopis klasifikavimo
(𝑙)
procesas būtų apibūdinamas bendru visų klasių ir emocijų požymių junginiu {𝐹𝑚 }. Detalesnį pasiūlytos
emocijų klasifikavimo schemos aprašymą galimą rasti 1 priede pateiktame straipsnyje.
6.1 Maksimalaus efektyvumo kriterijus daugiapakopių šnekos emocijų
atpažinimo požymių atrankai
Buvo atliktas emocionalios šnekos klasifikavimo tyrimas pagal 2 pav. pateiktą daugiapakopio
klasifikavimo schemą. Daugiapakopių šnekos emocijų atpažinimo požymių atrankai buvo pasiūlytas
maksimalaus požymių efektyvumo kriterijus.
Atliktame tyrime požymių atrankai buvo naudojamas maksimalaus efektyvumo kriterijus. Šis
kriterijus leido atrinkti mažiausią klasifikavimo klaidą turinčius požymius
(𝑙)
(𝑙)
𝐹𝑚 = {𝑎𝑟𝑔 min 𝐸(𝐹𝑗 ) } ,
𝑗
𝑗 = 1, … , 𝐽.
(𝑙)
(𝑙)
čia 𝐸(𝐹𝑗 ) – yra klasifikavimo klaida lygyje 𝑙 naudojant 𝑗 požymių vektorių 𝐹𝑗 . 𝐽 žymi galutinį požymių
skaičių naudojama 𝑙 klasifikavimo lygyje.
(𝑙)
Efektyviausi požymiai 𝐹𝑗
(𝑙)
buvo pakartotinai pridedami į požymių rinkinį 𝐹𝑚 . Požymių rinkinio
didinimas sustabdomas kai gautas požymių rinkinys nustoja gerinti klasifikavimo rezultatus.
Daugiau informacijos apie atliktą tyrimą bei tyrimo rezultatus galima rasti 1 priede pateiktame
straipsnyje.
6.2 Minimalios koreliacijos kriterijus daugiapakopių šnekos emocijų atpažinimo
požymių atrankai
Buvo atliktas emocionalios šnekos klasifikavimo tyrimas pagal 2 pav. pateiktą daugiapakopio
klasifikavimo schemą. Minimalios požymių tarpusavio koreliacijos koeficientas buvo pasiūlytas kaip
požymių atrankos kriterijus.
Atliktame tyrime požymių vektorių buvo sudaromas remiantis dvejopu kriterijumi:

Siekiant sudaryti maksimalaus efektyvumo požymių vektorių, jis buvo inicijuojamas požymiu,
lemiančiu mažiausią klasifikavimo klaidą nagrinėjamosioms klasėms
𝐹0𝑙 = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝐸(𝐹𝑖𝑙 ) , 𝑖 = 1, … , 𝑃,
𝑖
čia

𝐸(𝐹𝑖𝑙 )
- 𝑙-ojo lygio klasifikavimo klaida naudojant vieną iš 𝑃 požymį 𝐹𝑖𝑙 .
Požymių vektorius buvo didinamas pridedant nuo pradinio tiesiškai nepriklausomus požymius 𝐹𝑘𝑙 .
Tiesinis požymių nepriklausomumas leidžia tikėtis, jog tokie požymiai turės maksimalią
diskriminantinę galią. Paprasčiausias tiesinės priklausomybės įvertinimo būdas – požymių
tarpusavio koreliacijos skaičiavimas
𝐹𝑘𝑙 = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝑅(𝐹0𝑙 , 𝐹𝑗𝑙 ) , 𝑗 = 1, … 𝑃,
𝑗
čia 𝑅(𝐹0𝑙 , 𝐹𝑗𝑙 ) pradinio 𝐹0𝑙 ir 𝑙-ojo lygmens 𝑗-ojo požymio tarpusavio koreliacija.
Kiekvienąkart pridėjus požymį 𝐹𝑘𝑙 , gaunamas požymių vektorius buvo vertinamas klasifikuojant
emocijas.
Požymių vektorius 𝐹𝑚𝑙 didinimas buvo sustabdomas kai gaunamas klasifikavimo
efektyvumas pradėdavo mažėti.
Daugiau informacijos apie atliktą tyrimą bei tyrimo rezultatus galima rasti 2 priede pateiktame
straipsnyje.
7 Literatūra
[1] ABRILIAN, S., DEVILLERS, L., BUISINE, S., MARTIN, J-C, (2005) “EmoTV1: Annotation of
Real-life Emotions for the Specification of Multimodal Affective Interfaces”, HCI International.
[2] ANAGNOSTOPOULOS C. N., ILIOU T., AND I. GIANNOUKOS, “Features and classifiers for
emotion recognition from speech: a survey from 2000 to 2011”, Artificial Intelligence Review, 2012.
[3] BATLINER, A. STEIDL, S.; NÖTH, E.
Releasing a thoroughly annotated and processed
spontaneous emotional database: the FAU Aibo Emotion Corpus. 2008.
[4] BITOUK D., VERMA R., AND NENKOVA A., “Class-level spectral features for emotion
recognition”, Speech Communication, Vol. 52, Issues 7-8, pp. 613-625, July-August 2010.
[5] BURKHARDT, F., PAESCHKE, A., ROLFES, M., SENDLMEIER, W., WEISS, B. A database of
German emotional speech.
[6] CASALE S., RUSSO A., AND SERANO S., “Multistyle classification of speech under stress using
feature subset selection based on genetic algorithms”, Speech Communication, Vol. 49, Issues 1011, pp. 801-810, October-November 2007.
[7] CHIOU B.-C. AND CHEN C.-P., “Feature Space Dimension Reduction in speech emotion
recognition using Support Vector Machine”, Signal and Information Processing Association Annual
Summit and Conference 2013, pp. 1-6, October-November 2013.
[8] DELLAERT F., POLZIN T., AND WAIBEL A., “Recognizing emotion in speech”, Fourth
International Conference on Spoken Language 1996, Vol. 3, pp. 1970-1973, October 1996.
[9] DEVILLERS, L., COWIE, R., MARTIN, J.-C., DOUGLAS-COWIE, E., ABRILIAN, S.,
MCRORIE, M.: Real life emotions in French and English TV video clips: an integrated annotation
protocol combining continuous and discrete approaches. 5th international conference on Language
Resources and Evaluation (LREC 2006), Genoa, Italy (2006).
[10] DOUGLAS-COWIE E., COWIE R., SNEDDON I., COX C., LOWRY O., MCRORIE M.,
MARTIN J.-C., DEVILLERS L., ABRILAN S., BATLINER A., AMIR N., AND KARPOUSIS K.,
“The HUMAINE Database: Addressing the Collection and Annotation of Naturalistic and Induced
Emotional Data,” in Affective Computing and Intelligent Interaction, A. Paiva, R. Prada, and R. W.
Picard, Eds. Berlin-Heidelberg: Springer, 2007, pp. 488–500.
[11] DOUGLAS-COWIE ELLEN, COX CATE,
MARTIN JEAN-CLAUDE,
DEVILLERS
LAURENCE, COWIE RODDY, SNEDDON IAN, MCRORIE MARGARET, PELACHAUD
CATHERINE, PETERS CHRISTOPHER, LOWRY ORLA, BATLINER ANTON, HÖNIG
FLORIAN. The HUMAINE database. 2011.
[12] DOUGLAS-COWIE, E., COWIE, R., SCHRODER, M. A new database: consideration, sources and
scope.
[13] DROPULJIC, B., CHMURA, M.T.; KOLAK, A.; PETRINOVIC, D. Emotional Speech Corpus of
Croatian Language.
[14] ENGBERG, I., S., HANSEN, A., V., ANDERSEN, O., DALSGAARD, P. Design, recording and
verification of a Danish emotional speech database.
[15] GHARAVIAN D., SHEIKHAN M., NAZERIEH A., AND GAROUCY S., “Speech emotion
recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural
network”, Neural Computing and Applications, Vol. 21, Issue 8, pp. 2115-2126, November 2012.
[16] GRIMM, MICHAEL; KROSCHEL, KRISTIAN; NARAYANAN, SHRIKANTH S. The Vera am
Mittag German audio-visual emotional speech database, 2008.
[17] HANSEN J. AND BOU-GHAZALE S., “Getting started with susas: A speech under simulated and
actual stress database,” in Proc. EUROSPEECH-97, vol. 4, Rhodes, Greece, 1997, pp. 1743–1746.
[18] HANSEN, J., H., L., PATIL, S. Speech under stress: analysis, moseling and recognition. Speaker
Classification I. 2007. 108-137.
[19] YOU M., CHEN C., BU J., LIU J., AND TAO J., “Emotion Recognition from Noisy Speech”, IEEE
International Conference on Multimedia and Expo 2006, pp. 1653-1656, July 2006.
[20] YOU M., CHEN CH., BU J., LIU J., AND TAO J., “Manifolds based emotion recognition in
speech”, Computational Linguistics and Chinese Language Processing, Vol. 12, pp. 49-64, March
2007.
[21] KEIHREN ROLAND. The Prosody of Authentic Emotions.
[22] KOOLAGUDI S. G. AND RAO K. S., “Emotion recognition from speech: a review”, International
Journal of Speech Technology, Vol. 15, Issue 2, pp. 99-117, June 2012.
[23] KOOLAGUDI, S., G., REDDY, R., YADAV, J., RAO, K., S. IITKGP-SEHSC: Hindi speech corpus
for emotion analysis.
[24] KOOLAGUDI, S., G., REDDY, R., RAO, K., S. Emotion recognition from speech signal using
epoch parameters. 2010.
[25] KOSTOULAS THEODOROS, GANCHEV TODOR, MPORAS IOSIF, FAKOTAKIS NIKOS. A
Real-World Emotional Speech Corpus for Modern Greek, 2008.
[27] LUGGER M. AND YANG B., “The relevance of voice quality features in speaker independent
emotion recognition”, IEEE International Conference on Acoustics, Speech and Signal Processing
2007, Vol. 4, pp. 17-20, April 2007.
[28] MAKAROVA VERONIKA, PETRUSHIN VALERY A.. Ruslana: A Database of Russian Emotion
Utterances. ICSLP-2002. 01/2002; In proceeding of: 7th International Conference on Spoken
Language Processing, ICSLP2002 - INTERSPEECH 2002, Denver, Colorado, USA, September 1620, 2002.
[29] MARTIN O., KOTSIA I., MACQ B., PITAS I.; The eNTERFACE’05 Audio-Visual Emotion
Database.
[30] OFLAZOGLU C, YILDIRIM S: Turkish emotional speech database. In Proc. IEEE 19th Conf.
Signal Processing and Communications Applications (SIU) 2011:1153–1156.
[31] ORIGLIA A., GALATA V., AND LUDUSAN B., “Automatic classification of emotions via global
and local prosodic features on a multilingual emotional database”, in Proc. of Speech Prosody 2010,
Chicago, 2010.
[32] RONG J., LI G., AND CHEN Y.-P. P., “Acoustic feature selection for automatic emotion
recognition from speech”, Information Processing and Management, Vol. 45, Issue 3, pp. 315-328,
May 2009.
[33] SCHULLER B., MULLER R., EYBEN F., GAST J., HORNLER B., WOLLMER M., RIGOLL G.,
HOTHKER A., KONOSU H., “Being Bored? Recognizing Natural Interest by Extensive
Audiovisual Integration for Real-Life Application,” Image and Vision Computing Journal
(IMAVIS), Special Issue on Visual and Multimodal Analysis of Human Spontaneous Behavior,
2009, 17 pages.
[34] SCHULLER BJORN, ARSIC DEJAN, RIGOLL GERHARD. Audiovisual Behavior Modeling by
Combined Feature Spaces.
[35] SCHULLER, B.; VLASENKO, B.; EYBEN, F.; RIGOLL, G. Acoustic Emotion Recognition: A
Benchmark Comparison of Performances.
[36] SCHULLER, S. REITER, AND G. RIGOLL, “Evolutionary feature generation in speech emotion
recognition”, IEEE International Conference on Multimedia and Expo 2006, pp. 5-8, July 2006.
[37] SEPPÄNEN T., TOIVANEN J., VÄYRYNEN E. Media Team Speech Corpus: a first large Finnish
emotional speech database.
[38] SLOBODAN T. JOVIČIĆ, ZORKA KAŠIĆ, MIODRAG ĐORĐEVIĆ, MIRJANA RAJKOVIĆ,
Serbian emotional speech database: Design, processing and Evaluation, Specom‘2004.
[39] STEININGER S., SCHIEL F., DIOUBINA O., AND RAUBOLD S., “Development of user-state
conventions for the multimodal corpus in smartKom,” in Proc. Workshop on Multimodal Resources
and Multimodal Systems Evaluation, Las Palmas, 2002, pp. 33–37.
[41] VERVERIDIS D., KOTROPOULOS C., AND PITAS I., “Automatic emotional speech
classification”, IEEE International Conference on Acoustics, Speech, and Signal Processing 2004,
Vol. 1, pp. 593-596, May 2004.
[42] VERVERIDIS, D., KOTROPOULOS C. A state of the art review on emotional speech databases.
[43] VERVERIDIS, D., KOTROPOULOS C. Emotional speech recognition: Resources, features, and
methods. Speech Communication, 2006, 1162-1181.
[44] VERVERIDIS, D., KOTROPOULOS C., PITAS, I. Automatic emotional speech classification.
2004, I, 593-596.
[45] VOGT T. AND ANDRE E., “Comparing feature sets for acted and spontaneous speech in view of
automatic emotion recognition”, IEEE International Conference on Multimedia and Expo 2005, pp.
474-477, July 2005.
[46] VOGT, T., ANDRE, E., WAGNER, J. Automatic recognition of emotions from speech: a review of
literature and recommendation for practical realization. 2008.
[47] WOLLMER M., EYBEN F., REITER S., SCHULLER B., COX C., DOUGLAS-COWIE E., AND
COWIE R., “Abandoning emotion classes - towards continuous emotion recognition with modelling
of long-range dependencies,” in Proc. 9th Interspeech 2008. Brisbane, Australia: ISCA, 2008, pp.
597–600.
[48] XIAO, Z., DELLANDREA, E., CHEN L. Recognition of emotions in speech by a hierarchical
approach.
[49] ZHANG S., LEI B., CHEN A., CHEN C., AND CHEN Y., “Spoken emotion recognition using local
Fisher discriminant analysis”, IEEE 10th International Conference on Signal Processing 2010, pp.
538-540, October 2010.
[50] ZOTTER, F. Emotional speech. 2003.
[51] XIAO, Z., CENTRALE E., CHEN L. and DOU W., “Recognition of emotions in speech by a
hierarchical approach,“ 3rd International Conference on Affective Computing and Intelligent
Interaction and Workshops, pp. 1-8, September 2009.
[52] MENCATTINI A., MARTINELLI E., COSTANTINI G., TODISCO M., BASILE B., BOZZALI M.
and CORRADO Di N., “Speech emotion recognition using amplitude modulation parameters and a
combined feature selection procedure,“ Knowledge-Based Systems, pp. 68-81, June 2014.
[53] OFLAZOGLU C. and YILDIRIM S., “Recognizing emotion from Turkish speech using acoustic
features,“ EURASIP Journal on Audio, Speech, and Music Processing, December 2013.
[54] CHEN L., MAO X., WEI P., XUE Y. and ISHIZUKA M., “Mandarin emotion recognition
combining acoustic and emotional point information,“ Applied Intelligence, pp. 602-612, December
2012.
[55] LIU, J., CHEN, C., BU, J., YOU, M., TAO, J. (2007 m. July 2-5 d.). Speech Emotion
Recognition using an Enhanced Co-Training Algorithm. 2007 IEEE International
Conference on Multimedia and Expo, p. 999 - 1002.
[56] ZHANG, Y., WANG, C., FU, L. (2010, October 29-31). Classifier fusion for speech emotion
recognition. Intelligent Computing and Intelligent Systems (ICIS), 2010 IEEE International
Conference on, 3 , pp. 407 - 410.
[57] YOON, W.-J., PARK, K.-S. (2011). Building Robust Emotion Recognition System on
Heterogeneous Speech Databases. 2011 IEEE International Conference on Consumer Electronics,
pp. 825-826.
[58] ZHONGZHE, X., CENTRALE, E., CHEN, L., DOU, W. (2009, September 10-12). Recognition of
emotions in speech by a hierarchical approach. 3rd International Conference on Affective
Computing and Intelligent Interaction and Workshops, pp. 1 - 8.
[59] GIANNOULIS, P., POTAMIANOS, G. (2012, May). A hierarchical approach with feature selection
for emotion recognition from speech. In: Proceedings of the Eighth International Conference on
Language Resources and Evaluation, pp. 1203-1206.
1 priedas
Low-Order Multi-Level Features for Speech Emotions Recognition
Gintautas TAMULEVIČIUS, Tatjana LIOGIENĖ
Institute of Mathematics and Informatics, Vilnius University, Akademijos 4, Vilnius, Lithuania
[email protected]; [email protected]
Abstract. Various feature selection and classification schemes were proposed to improve efficiency of speech emotion classification and
recognition. In this paper we propose multi-level organization of classification process and features. The main idea is to perform classification of
speech emotions in step-by-step manner using different feature subsets for every step. We applied the maximal efficiency feature selection
criterion for composition of feature subsets in different classification levels. The proposed multi-level organization of classification and features
was tested experimentally in two emotions, three emotions, and four emotions recognition tasks and was compared with conventional feature
combination techniques. Using the maximal efficiency feature selection criterion 2nd and 16th order multi-level feature sets were composed for
three and four emotions recognition tasks respectively. Experimental results show the superiority of proposed multi-level classification scheme
by 6,3–25,6 % against straightforward classification and conventional feature combination schemes.
Keywords: speech emotion recognition, features, feature selection, classification.
1. Introduction
The main aim of speech emotion recognition task is to identify the emotion state of the speaking person analyzing his speech.
Speech emotion recognition emerged as separate area of research in the 9th decade of the last century. Despite the intensive
research there is no definitive solution giving accurate and reliable speech emotion identification. Still, the accuracy is not very
high, no efficient methods have been proposed for acoustical analysis of the speech signal and classification of the emotional
features. Accurate and reliable speech emotion recognition would find its application in criminalistics, call centers, robotics, and
enhancement of human-computer interaction (Dellaert et al., 1996; Casale and Russo, 2007; Zhongzhe et al., 2009).
Speech emotion recognition task is a typical classification task. In general, the recognition process can be separated into three
stages: acoustical signal analysis, training of classifier and classification based decision process. During the speech signal analysis
stage the emotional features of the speech are extracted. Hundreds of various acoustical features are proposed for evaluation
speech emotion. Often this variety gives sets of a few thousands features. Unfortunately, high order features cannot guarantee
efficient speech emotion recognition. Thus, efficient speech emotion recognition requires some more decisions regarding feature
extraction, training and classification processes.
In this paper a novel multi-stage classification of speech emotions using multi-level features is proposed. The idea of the
multi-level features is to use separate particular emotion groups and classify them into particular emotions using their specific
feature sets. This allows us to reduce the feature sets and to improve recognition rate of speech emotions.
2. Speech emotion features
There is no general consensus in selection of feature set for speech emotion recognition (Origlia et al., 2010). The researchers use
wide variety of features expecting to improve efficiency of the recognition process.
The most popular and frequently used speech emotion features can be grouped into prosodic and spectral features (Rong et al.,
2009; Koolagudi et al., 2010). Prosodic features are obtained from pitch frequency, formant frequency values, vocal intensity,
energy, pauses, speech duration and rate, voice quality characteristics (Koolagudi et al., 2012; Koolagudi and Rao, 2012).
Spectral features are based on short-time signal spectrum properties like linear prediction coefficients, one-sided autocorrelation
linear prediction, mel scale cepstral coefficients (Ayadi et al., 2011; Koolagudi and Rao, 2012).
The extracted features are supplemented with derivative statistics. Statistical data of prosodic and spectral feature values such
as average, median, standard deviation, dispersion, minimum and maximum values, quantiles and other are used very often as
extension of extracted feature sets. Epoch (instant of glottal closure) parameters like strength of epoch, instantaneous frequency,
sharpness of epoch, epoch slope strength are also used together with statistical data for speech emotion recognition (Koolagudi et
al., 2010). Besides, voice quality features such as excitation signal properties, articulation method, and voice timbre are used also
as emotional features of speech (Ayadi et al., 2011).Another important feature proposed is the number of harmonics, caused by
nonlinear voice tract properties (Origlia et al., 2010).
Vast majority of speech emotion recognition researches tend to explore huge feature sets up to a few thousand different
features. This causes the “curse of dimensionality” problem, when the dimension of feature set is too high to train classifiers
properly (because of the insufficient amount of training data). This problem can be solved by enlarging speech data amount or
reducing predefined feature sets (Origlia et al., 2010). Feature set reduction methods can be classified into two groups: feature
selection methods and feature transform methods (Rong et al., 2009).
Feature selection methods allow to select feature subsets by choosing most effective features or rejecting less significant ones.
The most popular approaches are sequential forward selection (Casale and Russo, 2007), sequential backward selection (Casale
and Russo, 2007), promising first selection (Dellaert et al., 1996), genetic algorithms (Origlia et al., 2010), maximum relevance –
minimum redundancy approach (Peng et al., 2005), and others.
Using sequential forward selection procedure feature set is initialized with the most efficient feature and is cyclically
appended with a new one making more efficient feature set. Sequential backward selection, on the contrary, reduces the
dimension of initial set by rejecting features to make the set more efficient. Considering the variety of proposed features these
procedures can cause a time consuming feature selection process as every possible variant of feature set should be evaluated in
speech emotion identification separately.
Promising first selection approach is based on individual efficiency of every feature. Features are sorted in descending order
by their efficiency and the feature set is formed by choosing best features sequentially. The final feature set version is the one
giving the lowest classification error.
Maximum relevance – minimum redundancy approach selects features with maximum relevance to analysed emotion class.
Relevance is characterized by mutual information between features (Peng et al., 2005; Giannoulis and Potamianos, 2012). Genetic
algorithms were proposed for generation and optimization of feature sets also (Casale and Russo, 2007).
The main idea of feature transform methods is optimization of feature sets by transforming dimensionality of feature sets.
Various standard mathematical techniques are used for feature transform – principal components analysis (Chiou and Chen,
2013), linear discriminant analysis (You et al., 2006), multidimensional scaling (Rong et al., 2009), Lipschitz spacing method
(You et al., 2007), Fisher discriminant analysis (Zhang et al., 2010), neural networks (Gharavian et al., 2012), decision trees
(Rong et al., 2009). The main weakness of feature transform approach is pure mathematical operation and defiance of acoustical
content of the features.
3. Classification schemes
Additional efficiency of speech emotion recognition can be obtained using different classification schemes. Straightforward usage
of conventional classifiers makes speech emotion recognition process dependent on feature set. Unique organization of the
classification process can improve emotion recognition even for same feature sets. The examples of such classification scheme
can be parallel classification, various hierarchical and multi-stage classification schemes. We will introduce a few proposed
classification schemes.
Enhanced co-training algorithm was proposed in order to increase emotions recognitions accuracy during classification step
(Liu et al., 2007). Two different feature sets for two different classifiers were used for classification of the six emotions. First 20dimensional feature set included means, standard deviations, maximums and minimums of fundamental frequency (F0), delta F0,
log energy, first and second linear prediction cepstral coefficients features and was used for SVM classifier training. Second
feature set included 12 mel-frequency cepstral coefficients and was used for HMM classifier training. Training was repeated up to
18 times for both classifiers using the same labelled data. Each classifier was fed with unlabeled training utterances. Utterances
which both classifiers labeled identically were assigned to temporal collection. Further the temporal collection utterances were
examined and added into labelled training utterances set. Both trained classifiers were rebuilt and training was repeated up to
18 times again with both classifiers using the updated labelled training utterances. The process is repeated until unlabeled training
utterance set will become empty. Gender information in this research was used too and female and male utterances were classified
separately. The obtained emotion recognition accuracy was 75,9 % for females and 80,9 % for males.
Fusion among different classifiers was also proposed for recognition improvement (Zhang et al., 2010). Fusion principle was
implemented by using queuing voting algorithm. Three kinds of classifiers with different feature set (obtained by using promising
first selection method) were used. Majority voting principle was extended with confidence weights and the final decision on
emotion is obtained considering these weights.
Fusion approach requires individually efficient classifiers and feature sets as the performance of a separate classifier affects
efficiency of the whole scheme. Thus, this fusion classification scheme also requires careful selection of classifiers and features.
Two-stage hierarchical classification scheme based on gender separation was proposed in (Yoon and Park, 2011). During the
first step all emotional speech utterances are classified using gender specific pitch feature into three emotion groups: male (or
neutral), female (or anger), and unknown group (Fig. 1). The number and type of classes is determined by range of pitch feature
values. The goal of the second step is to classify utterances of unknown group into two more classes: anger or male and neutral
state or female. The second step classification is performed using additional energy, cepstral, and delta features. The total order of
features in this scheme was 56 and was fairly low in comparison with a few hundreds or even thousands in straightforward
classification. The average emotion recognition rate was 80,7 %.
Fig. 1. Two-step hierarchical classification of two emotions (Yoon and Park, 2011).
Another proposed hierarchical two-stage classification scheme (Zhongzhe et al., 2009) is given in Figure 2. During the first
step all utterances are classified by arousal dimension into active and not-active emotions (the last ones are classified into median
and passive emotions additionally). During the next stage every emotion group is classified into two specific emotions. The active
emotion group is classified into anger and gladness (joy), median emotion group is classified into fear and neutral state, and
passive group is classified into sadness and boredom. Different feature sets and classifiers were used in each classification stage.
Overall feature set consisted of 68 features obtained using sequential forward selection method. This scheme gave average
recognition accuracy of 76,4 %.
Fig. 2. Two-stage hierarchical classification scheme driven by dimensional emotion model (Zhongzhe et al., 2009).
The main idea of sub-system based hierarchical classification scheme (Giannoulis and Potamianos, 2012) is emotion specific
training (Fig. 3). Six emotions were analyzed: anger, joy, sadness, fair, boredom and neutral. All these emotions were grouped
into 15 emotion pairs (called sub-systems). Every sub-system is analyzed using particular feature set for the emotion recognition.
These feature sets were obtained from general feature set of 112 different features applying sequential backward selection and
maximum relevance – minimum redundancy approaches. The overall emotion recognition accuracy was 85,2 % in gender
dependent experiment and 80,1 % in gender independent case.
Fig. 3. Five sub-systems for recognizing “happiness”, denoted by the five lines connecting the ovals (Giannoulis and Potamianos, 2012).
The genetic algorithms were used for feature subset selection for multistyle classification of emotional speech (Casale and
Russo, 2007). Five feature subsets were used for pairwise and multistyle classification. Feature subsets of 16 to 48 features were
analyzed for classification of four speaking styles: neutral, angry, loud and Lombard. The highest classification performance of
82,74 % was obtained using multistyle classification with 48 features.
4. Multi-level approach
In this paper we present multi-stage speech emotion classification scheme using multi-level features. The main idea of this
scheme is to perform classification of speech emotions in step-by-step manner using different feature sets in every step.
Let us formulate three main presumptions on multi-stage classification of speech emotions:
 Recognition of all emotions in one step is still a complicated process because of overlapping acoustic, prosodic and other
features of the emotions. Classification problem can be simplified by reducing the number of analysed emotions at a
time. This could be done by organizing emotion classification process in stages with limited number of analysed
emotions in every stage.
 Each emotion is characterized by its own acoustic and prosodic features. These features for various emotions can be
different or the same. Composing a feature set by maximizing average classification rate for the entire set of the speech
emotions we cannot ensure the maximal classification accuracy for individual emotion. This can be achieved by
analysing every emotion (or a group of emotions characterized by the same feature) separately.
 Emotions, depending on the selected feature or features set, can be classified into various classes. The classes themselves
can be decomposed to the lower level classes and etc., until the single emotion class is obtained. For example,
classification by pitch frequency can give us high-pitch (happiness, anger) and low-tone (neutral, sadness, boredom)
emotions. Each of these classes can be decomposed to separate emotion using duration, energy and other features as
classification feature.
In accordance with these assumptions the new multi-stage speech emotion classification scheme was proposed. The visual
generalization of the proposed scheme is given in Figure 4.
Fig. 4. The generalized scheme of emotion classification using multi-level features
First of all we perform the first stage (we will call them classification level or level simply) classification. The whole set of
(1)
(1)
(1)
unknown speech emotion patterns are classified into 𝑁 classes {𝐶1 , … , 𝐶N } using first level feature set 𝐹1 . This feature set
(1)
(1)
should be selected to maximize the accuracy of classification into {𝐶1 , … , 𝐶N }. On the second level every class of the
(1)
(1)
(2)
(2)
(2)
{𝐶1 , … , 𝐶N } is classified into lower level classes {𝐶1 , … , 𝐶K } using its specific second level feature set 𝐹𝑘 , 𝑘 = 1, … , K. The
classification process is repeated as long as we get separated particular emotions. The main idea of multi-level classification is to
use specific and most powerful feature set in every level for every class. Thus we can guarantee the appropriate feature set for
every classification level i.e. every emotion.
(𝑙)
The proposed classification uses so called multi-level feature set. Every partial feature set 𝐹𝑚 is applied for particular emotion
or emotion group classification thus organizing emotion classification into separate levels. The main principles of classification
using multi-level features are following:
 The classification is organized in separate levels. In order to identify emotions or emotion groups, the particular feature
or a set of these features is used in every level. These features sets can be composed using aforementioned sequential
forward selection, sequential floating forward selection, sequential backward selection, maximum relevance –
minimum redundancy based selection or any other feature selection technique.
In this paper we applied the maximal efficiency feature selection criterion enabling us to employ features with the lowest
classification error
(𝑙)
(𝑙)
𝐹𝑚 = {𝑎𝑟𝑔 min 𝐸(𝐹𝑗 ) } ,
(𝑙)
𝐸(𝐹𝑗 )

𝑗
𝑗 = 1, … , 𝐽.
(𝑙)
here
– classification error in the 𝑙-th level using 𝑗-th feature subset 𝐹𝑗 . 𝐽 denotes the total number of features in
the 𝑙-th classification level.
(𝑙)
(𝑙)
(𝑙)
Most efficient features 𝐹𝑗 are added to the feature set 𝐹𝑚 repeatedly. The expansion of feature set 𝐹𝑚 is stopped when
the extended feature set does not show any improvement in classification rate.
(𝑙)
The set of features of the speech emotion recognition problem is formed as combination of all the employed subsets 𝐹𝑚 .
(𝑙)
𝐹 = {𝐹𝑚 },
𝑚 = 1, … , 𝑀; 𝑙 = 1, … 𝐿.
Here 𝑀 is the number of emotions classes in particular classification level, 𝐿 is the number of classification levels.
In general, the set of emotions (or the set of classes derived from higher level class) can be classified to any number of classes.
The number of analysed classes (in one level) and the number of classification levels are defined by the overall number of
emotions and the selected feature subsets. The simplest case of multi-level classification is the classification into two classes
(emotions).
The main advantage of our proposed multi-level feature organization is as follows. Different level classification processes are
independent from the feature viewpoint. Thus we can optimize classification process of any selected emotion group without
affecting others.
5. Experimental research
The proposed multi-level classification scheme was experimentally tested in different speech emotion recognition tasks. In this
study we analysed 2 emotions (joy and anger), 3 emotions (joy, anger, and neutral states), and 4 emotions (joy, anger, neutral
state, and sadness) recognition cases.
Recordings of the freely accessible Berlin emotional speech database (Burkhardt et al., 2005) were used for recognition
experiments. To ensure homogenous experimental conditions the equal number of each emotion patterns was selected for
classification. As the number 60 is quite low for reliable classification estimation 3-fold testing methodology was applied in this
study. All the results in this paper are averaged results of the 3-fold testing.
Considering the data amount we have chosen non-parametric k-Nearest neighbours (kNN) classifier. As the classifier is not
the goal of our investigation we will use the same kNN classifier (𝑘 = 7) for all classification levels of our scheme. In general
case any type of classifier can be implemented in different levels.
We have decided to restrict our recognition experiment to a fundamental frequency (F0) based features. Six groups of F0
features were analysed in our experiment (Eyben et al., 2009):
 Smoothed static low-level and functional F0 features;
 1st order low-level and functional F0 delta features;
 2nd order low-level and functional F0 delta features;
 Envelope features of the smoothed F0 contour;
 1st order delta envelope features;
 2nd order delta envelope features.
Each group contained 39 distinct features: the absolute and the arithmetic means of the F0 contour, positions of the minimal
and maximal F0 values, various order statistical moments and quartiles, and others. We understand, the set of these features is not
sufficient for reliable speech emotion recognition and they should be appended with more various acoustical features. Even so, we
think F0 based feature set will be competent to illustrate the principle of the multi-level features and multi-level classification of
speech emotions.
For deeper understanding of multi-level classification and features let us elaborate the case of 4 emotions recognition. Using
fundamental frequency based features these emotions can be divided into low-pitch (sadness, neutral state) and high-pitch (anger
and joy) classes. Thus the first level of classification will be based on highness of fundamental frequency and will result in two
emotion classes: low-pitch and high-pitch. On the next level these two classes can be classified into 4 above mentioned emotions.
Thus, we will have two-level classification and two-level features (Fig. 5).
In case of 3 emotions (joy, anger, and neutral state) task we will have two-level classification also. The low-pitch class should
(2)
contain neutral state patterns only so the second level will contain only one classification process using feature set 𝐹2 (Fig. 5).
In case of 2 emotions (joy and anger) multi-level classification scheme becomes a simple classification of 2 emotions and the
principle of multi-level features disappears.
Fig. 5. Organization of 4 emotion recognition process
In order to define the most efficient features for separate classification levels we carried out experimental testing of separate
F0 features firstly. Each of 234 features was individually tested in 2 emotions, 3 emotions, and 4 emotions classification tasks –
(𝑙)
702 classification tests were carried out totally. The feature set 𝐹𝑚 was initialized with the most efficient feature and expanded
recurrently using next most efficient features. The expansion of the feature set is stopped when the classification error using this
set achieves minimal value. Table 1 presents all the formed feature subsets.
Table 1. Selected feature sets
Classification
task
2 emotions
Level
1st level
2nd level
1st level
3 emotions
2nd level
1st level
Feature
subset
(1)
𝐹1
−
(1)
𝐹1
(2)
𝐹1 *
(2)
𝐹2 **
(1)
𝐹1
4 emotions
(2)
2nd level
𝐹1 *
(2)
𝐹2 **
* for classification of neutral state and sadness;
** for classification of joy and anger.
Features
F0env_sma_iqr1-3
−
F0env_sma_variance
−
F0env_sma_iqr1-3
F0_sma_de_de_iqr1-3, F0_sma_iqr2-3,
F0_sma_quartile3, F0_sma_iqr1-3, F0_sma_qregc2,
F0env_sma_de_de_quartile1,
F0env_sma_de_de_iqr1-2, F0_sma_de_nzabsmean.
F0_sma_peakMeanMeanDist,
F0_sma_de_de_meanPeakDist, F0_sma_qregc1,
F0_sma_de_nzgmean, F0_sma_meanPeakDist,
F0_sma_de_nzabsmean, F0env_sma_de_de_qregc2,
F0_sma_peakMean, F0env_sma_maxPos.
F0env_sma_iqr1-3
We can see that most efficient feature subsets are different for high-pitch and low-pitch emotions. Besides, feature sets for
different tasks differ too (for example, 1st level feature subsets for three emotions and four emotions tasks differ significantly).
Hence our presumption about specific acoustic features for the particular emotion group was correct.
(2)
In case of two emotions task there is only one classification level, thus the 2nd level and the 2nd level feature subset 𝐹2 are
absent. In this case the goal of classification is to separate joy and anger.
Separate results of the first and the second classifications levels are given in Tables 2 and 3.
Table 2. First level classification results
Classification rate
Classification task
Low-pitch
emotions
High-pitch
emotions
Average
2 emotions
−
−
−
3 emotions
81,7 %
87,5 %
84,6 %
4 emotions
74,2 %
85,8 %
80 %
In case of two emotions task the average classification rate was 65,8 % (60 % rate for anger and 71,7 % rate for joy). The rate
is quite satisfactory considering the 1st order feature set (see Table 1, please) and complexity of the task (acoustical properties of
joy and anger overlap in fundamental frequency domain heavily). In general, classification rate decreases with the growing
number of analysed emotions.
Table 3. Second level classification results
Classification
task
Classification rate
Neutral
Sadness
Anger
Joy
Average
3 emotions
100 %
−
55,2 %
73,1 %
76,1 %
4 emotions
86,9 %
81 %
56,9 %
73,2 %
74,5 %
Table 3 shows 100 % classification rate in case of 3 emotions task. This value should be interpreted as absence of
classification. The entire low-pitch emotion group was labelled as neutral state. Again, in all cases separation of anger and joy
was the most complicated part of the task.
Analysing classification results (Tables 1, 2, and 3) we can notice that most efficient feature sets include static, first (the
feature title includes suffix de) and second (the feature title include suffix de_de) order delta features. For example, delta features
dominate in sets for 4 emotions classification task. Thus delta features are very important for accurate speech emotion
classification.
Having first and second level feature subsets we can implement multi-level recognition of speech emotions. Table 4 gives
averaged results of the entire speech emotion recognition process.
As we can see average speech emotion recognition rates vary from 65,8 % (for two emotions) to 59,6 % (in four emotions
case). Results are satisfactory considering the feature set order. We obtained 1st, 2nd, and 16th order features for two, three, and
four emotions recognition tasks respectively. These values are extremely low in comparison with widely published speech
emotion recognition results therefore we can denote our proposed multi-level features as low-order.
Table 4. Speech emotion recognition results
Recognition task
Recognition rate
Neutral
Sadness
Anger
Joy
Average
2 emotions
−
3 emotions
80 %
−
60 %
71,7 %
65,8 %
−
48,3 %
66,7 %
65 %
4 emotions
55 %
68,3 %
50 %
65 %
59,6 %
Obtained average recognition results are lower in comparison with above given alternative classification scheme results (75,9–
85,2 %). This could be explained with lower order of multi-level feature sets, different number of emotions and with restricted
feature space in our experiment. In aim to increase obtained recognition rate the used F0 feature sets should be extended with
more various features. This would give order feature sets and definitely higher classification.
For comparison purposes the proposed multi-level features were compared with various feature sets. Usually feature sets are
composed by joining various features. Often these features are chosen without any selection procedure thus giving high order sets.
These feature sets as the rule are used for straight classification schemes, where all utterances are classified into emotions in one
step. To imitate this feature set composition and classification techniques in this study we tested the feature set 𝐹234 including all
234 features (used in above experiments) and the set 𝐹B including all the features used in multi-level scheme. Recognition was
performed under the same circumstances: the same speech data partition and the same kNN classifier were used. Averaged
recognition results using these feature sets are presented in Figure 6.
Fig. 6. Averaged speech emotion results for different feature sets
We can see that multi-level organization of classification (feature set 𝐹) gave higher speech emotion recognition rate in
comparison with straight classification scheme using conventional feature sets (𝐹B and 𝐹234 ). Superiority of multi-level feature
organization ran from 6,3 % (in 4 emotions classification task) up to 25,6 % (3 emotion case). The main reason for this is
application of specific acoustic features for particular emotion (or emotion group) classification in multi-level scheme. Results of
feature sets F and FB for two emotions recognition coincided because multi-level classification becomes identical to straight
classification scheme in this case.
Superiority of feature set 𝐹 against 𝐹B by 6,3–11,7 % shows the superiority of multi-level classification scheme against
straightforward classification as the features in these sets were the same. Superiority of feature set 𝐹 against 𝐹234 by 23,8–25,6 %
proves the superiority of multi-level features. Low-order multi-level features enable us to recognize speech emotions more
accurately than 234th order feature set. Besides, in case of feature set 𝐹234 we have got the lowest recognition rate. This proves
the necessity of feature selection process as the full set of features cannot give high classification accuracy.
6. Conclusions
The multi-level organization of features was proposed for speech emotion recognition. The main idea is to organize speech
emotion recognition in levels, where every level of classification uses specific features for particular emotion group. The
advantage of multi-level organization is independent feature subsets for emotion groups. This enables us to maximize
classification rate of any selected emotion group without affecting another.
The proposed classification scheme and feature sets were applied for two emotions, three emotions, and four emotions
recognition tasks and were compared with conventional feature combination techniques. Multi-level classification scheme
enabled us to increase speech emotion recognition rate by 6,3–25,6 % in comparison with straightforward classification and
conventional feature combination schemes. We obtained low-level 1st, 2nd, and 16th order features for two, three, and four
emotions recognition tasks respectively.
With reference to obtained experimental results we state:
 Multi-level feature organization enables us to apply specific features for particular emotion thus improving recognition
rate of separate emotions without affecting other ones.


Multi-level organization of classification and features improves speech emotion recognition rate in comparison with
straight organization of recognition process.
Multi-level organization of features gives lower order feature sets in comparison with conventional feature combination
techniques without selection. The combination of feature sets without selection is inexpedient.
References
Ayadi, M., Kamel, M., & Karray, F. (2011, March). Survey on speech emotion recognition: Features, classification schemes, and databases.
Pattern Recognition, pp. 572–587.
Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W., & Weiss, B. (2005). A Database of German Emotional Speech. In: Proceedings of
Interspeech, pp. 1517-1520.
Casale, S., & Russo, A. (2007). Multistyle classification of speech under stress using feature subset selection based on genetic algorithms.
Speech Communication, pp. 801-810.
Chiou, B.-C., Chen, C.-P. (2013). Feature Space Dimension Reduction in speech emotion recognition using Support Vector Machine. Signal
and Information Processing Association Annual Summit and Conference, pp. 1 - 6.
Dellaert, F., Polzin, T., Waibel, A. (1996, October). Recognizing emotion in speech. Fourth International Conference on Spoken Language, 3,
pp. 1970-1973.
Eyben, F., Wollmer, M., Schuller, B. (2009, September 10-12). openEAR - Introducing the Munich Open-Source Emotion and Affect
Recognition Toolkit. Affective Computing and Intelligent Interaction and Workshops, pp. 1-6.
Gharavian, D., Sheikhan, M., Nazerieh, A., Garoucy, S. (2012, November). Speech emotion recognition using FCBF feature selection method
and GA-optimized fuzzy ARTMAP neural network. Neural Computing and Applications, pp. 2115-2126.
Giannoulis, P., Potamianos, G. (2012, May). A hierarchical approach with feature selection for emotion recognition from speech. In:
Proceedings of the Eighth International Conference on Language Resources and Evaluation, pp. 1203-1206.
Koolagudi, S., Rao, K. (2012, June). Emotion recognition from speech: a review. International Journal of Speech Technology, pp. 99-117.
Koolagudi, S., Reddy, R., Rao, K. (2010, July 18-21). Emotion recognition from speech signal using epoch parameters. International
Conference on Signal Processing and Communications, pp. 1 - 5.
Liu, J., Chen, C., Bu, J., You, M., Tao, J. (2007 m. July 2-5 d.). Speech Emotion Recognition using an Enhanced Co-Training Algorithm. 2007
IEEE International Conference on Multimedia and Expo, p. 999 - 1002.
Origlia, A., Galata, V., Ludusan, B. (2010). Automatic classification of emotions via global and local prosodic features on a multilingual
emotional database. In: Proceedings of Speech Prosody.
Peng, H., Long, F., Ding, C. (2005, August). Feature selection based on mutual information: criteria of max-dependency, max-relevance, and
min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 1226-1238.
Rong, J., Li, G., Chen, Y.-P. P. (2009, May). Acoustic feature selection for automatic emotion recognition from speech. Information Processing
and Managemen, pp. 315–328.
Yoon, W.-J., Park, K.-S. (2011). Building Robust Emotion Recognition System on Heterogeneous Speech Databases. 2011 IEEE International
Conference on Consumer Electronics, pp. 825-826.
You, M., Chen, C., Bu, J., Liu, J., Tao, J. (2006, July 9-12). Emotion Recognition from Noisy Speech. IEEE International Conference on
Multimedia and Expo, pp. 1653-1656.
You, M., Chen, C., Bu, J., Liu, J., Tao, J. (2007, March). Manifolds based emotion recognition in speech. International Journal of
Computational Linguistics and Chinese Language Processing, pp. 49-64.
Zhang, S., Lei, B., Chen, A., Chen, C., Chen, Y. (2010, October 24-28). Spoken emotion recognition using local Fisher discriminant analysis.
IEEE 10th International Conference on Signal Processing, pp. 538 - 540.
Zhang, Y., Wang, C., Fu, L. (2010, October 29-31). Classifier fusion for speech emotion recognition. Intelligent Computing and Intelligent
Systems (ICIS), 2010 IEEE International Conference on, 3 , pp. 407 - 410.
Zhongzhe, X., Centrale, E., Chen, L., Dou, W. (2009, September 10-12). Recognition of emotions in speech by a hierarchical approach. 3rd
International Conference on Affective Computing and Intelligent Interaction and Workshops, pp. 1 - 8.
2 priedas
Minimal Cross-correlation Criterion for Speech Emotion
Multi-level Feature Selection
Tatjana Liogienė, Gintautas Tamulevičius
Recognition Processes Department
Vilnius University Institute of Mathematics and Informatics
Vilnius, Lithuania
[email protected], [email protected]
Abstract— The problem of speech emotion recognition
commonly is dealt with by delivering a huge feature set
containing up to a few thousands different features. This can
raise the “curse of dimensionality” problem and downgrade
speech emotion classification process. In this paper we present
minimal cross-correlation based formation of multi-level features
for speech emotion classification. The feature set is initialized
with most accurate feature and is expanded by selecting linearly
independent features. This feature set formation technique was
tested experimentally and compared with straightforward
classification using predefined feature set. Results show
superiority of our proposed technique by 5–25 % for various
emotion sets and classification settings.
Keywords—feature selection; cross-correlation; classification;
speech emotion;
I. INTRODUCTION
Reliable and robust speech emotion recognition would take
a significant place in the process of the human–computer
interaction. Speech emotion recognition can be applied for
assessment of caller’s emotional state in call centers, evaluation
of listener’s emotional reaction, automated analysis of audio
content in dialogue systems, tutoring / e-learning process,
entertainment and serious games [1]. Regardless of intensive
researches and numerous experimental results the main
problem of the speech emotion recognition task is still
unsolved. There is no established feature set (or feature group)
giving reliable classification of the speech emotions. For this
reason, vast majority of current researches are directed towards
the search of feature sets, formation of feature sets, and
formulation of feature selection criteria. Answers to these
questions would be a significant step towards reliable speech
emotion recognition.
In this paper we propose a minimal cross-correlation
feature selection technique for multi-stage speech emotion
classification. To introduce the problem of feature
dimensionality we present the various feature dimensionality
reduction and feature selection techniques in Section II. On the
next section we will present the multi-stage classification of
speech emotions and introduce the minimal cross-correlation
criterion for multi-level feature selection. Experimental study
and discussions of its results are given in Section IV. Section V
will conclude this paper.
II. SPEECH EMOTION CLASSIFICATION TASK
Speech emotion recognition is a typical classification task.
Some predefined speech emotion feature sets are extracted
during speech analysis step. These sets can include various
temporal, spectral, cepstral features, their mathematical
derivatives, statistical estimates and should represent the
emotion state of the speaker. During the classification step the
extracted feature sets are classified trying to define the
emotional class of the analyzed speech patterns.
As there is no proposed one and single feature set for
reliable speech emotion classification, the researchers are
exploring various feature sets trying to establish the most
effective feature set (or a group of features at least), effective
classification schemes. As the rule these experiments often
result in huge feature sets with order of a several hundred or
even thousand features. Considering the amount of analyzed
speech data (the number of explored emotional speech
collections is limited and they are well known) sets of a few
thousand features can cause the “curse of multidimensionality”
problem. Various decisions are made trying to avoid this
problem. They include different classification schemes, feature
dimensionality reduction, feature selection techniques [2].
Hereafter we shortly introduce these techniques.
A. Classification schemes
Straightforward classification of speech emotions is
complicated task because of overlapping acoustic, prosodic and
other features of the speech emotions. For example distinction
between anger and joy is intangible by means of estimating the
speaking rate, voice arousal, dynamics of the speech signal
spectral and energy properties. Thus various classification
schemes are proposed trying to overcome the problem of
overlapping speech emotion features.
The main purpose of modified (not straightforward)
classification schemes is the organization of classification
process is stages with limited feature set or additional
information on speech patterns in every stage. Example of this
is the use of gender information [10]. In this case all emotional
speech utterances are classified by gender firstly. This allows
separating overlapped male and female speech emotion
patterns (higher pitch of female speech can be assessed as the
changed emotional state of the male speaker). Afterward
obtained male and female speech utterances are classified into
emotional states.
Some researchers propose to perform emotion classification
in hierarchical manner. During the first step all speech
utterances are classified into emotional groups. These groups
are formed considering the dimensional model of the emotions
where emotions are divided into active, median and passive
ones. During the last step each emotion group is classified into
particular emotion [9].
Another way to simplify emotion classification task is to
organize the process of emotion analysis in pairs [5]. This
organization of analysis gives sub-leveled classification
process with a joint decision of all level classification results.
B. Feature selection
Another way to limit the dimensionality of feature set is to
apply some feature selection technique thus obtaining lower
dimensionality sets with defined discriminating power. Two
groups of feature set formation approaches can be denoted:
feature selection and feature reduction methods [2].
III. MINIMAL CROSS-CORRELATION FEATURE
SELECTION
A. Multi-level Features
We will analyze multi-stage classification scheme of
speech emotions using multi-level features [15]. The main idea
of multi-level features is the organization of classification
process into stages with particular classification goals and
different sets of features. During the first stage all unknown
emotional speech patterns are classified into certain emotion
classes. These classes are determined by employed first-level
feature set F11. For example, signal energy features would
define low energy and high energy emotion classes. During the
second stage every of these classes are classified into lower
level classes (or particular emotions) using different secondlevel feature sets Fm2.
In general case there can be
L classification stages with different feature sets FML. Entire
multi-stage classification process will be defined by joint
multi-level feature set {FML}.
Feature selection methods allow form sets by selecting
more significant features (or on the contrary, by eliminating
less significant features from the initial full size set) thus
obtaining higher efficiency feature sets. Most frequently used
selection methods are sequential forward selection (the feature
set is expanded step-by-step by adding feature), sequential
backward selection (the size of the initial set is reduced by
eliminating features). Using promising first selection technique
classification efficiency of every feature is evaluated and the
feature set is formed sequentially choosing the first best
feature. The final feature set version is the one with the lowest
classification error [4]. The feature set can be formed using
genetic algorithms in generation of new feature sets and in
optimization of existing ones [3]. Maximum relevance –
minimum redundancy technique tries to select features with
maximum relevance to analysed emotion group [5].
Such classification scheme enables us to use particular (we
believe, most relevant) feature sets for every stage (for every
emotion class or particular emotion) thus obtaining multi-level
feature set.
In most cases feature selection is based on its classification
efficiency – classification accuracy of separate features is
assessed and used for selection (elimination) step [9]. Another
exploited feature selection criterion is the cross-correlation
coefficient of features or feature vectors [11, 12]. Minimal
cross-correlation coefficient giving features are supposed as
most effective for classification. Linear discriminant analysis
based Fischer rates are proposed for feature selection too [13].
Fischer rate empowers selection of features with maximal
discriminating power among emotions. The information gain of
each feature and the ratio between information gain and
intrinsic information is evaluated in the feature information
gain criterion [14]. Using this criterion the feature set is formed
by choosing features with higher information gain ranks.
The simplest way to evaluate linear dependence of data is
the use of cross-correlation. In general case maximal absolute
value of cross-correlation will show full linear dependence of
data, zero value will confirm linear independence. With
reference to this and before-mentioned assumption we
formulated the minimal cross-correlation criterion for multilevel feature selection. The selection procedure is as follows:
Feature set reduction techniques reduce the dimensionality
of feature sets by applying various transformations of features:
principal components analysis [6], linear discriminant
analysis [7],
multidimensional
scalining [2],
Fisher
discriminant analysis [8]. Such transformation is purely
mathematical and is performed regardless of emotional
content of the features. Thus these techniques can give lower
efficiency feature sets in comparison with feature selection
based sets.
In our previous work [15] we applied maximal efficiency
feature selection criterion for multi-level feature set. According
to this criterion feature set was composed of features giving the
highest classification accuracy of particular emotion classes.
B. Minimal Cross-correlation Criterion
The main assumption for the new feature selection criterion
was the linear independence of the features. Linearly
independent features contains more discriminating power than
linearly-dependent ones. Thus composing set of linearly
independent features we can expect of higher classification
power.
 The feature set is initialized by selecting feature with
highest classification accuracy for analyzed emotion
class
F0l = arg min E(Fil), i = 1, …, P,
(1)
here E(Fil) – classification error during the l-th stage
using the feature Fil.
We believe that minimal classification error based
initialization will help to obtain an efficient feature set
for particular emotion class.
 The feature set is expanded by adding linearly
independent features

Fkl = arg min R(F0l, Fjl), j = 1, …, P,
(2)
The second step of the procedure is performed recurrently.
The efficiency of newly obtained feature set is assessed by
classifying selected emotion classes. The expansion of feature
set is stopped when the classification error using assessed
feature set diminishes.
The defined feature selection procedure should be repeated
for every classification stage and emotion class.
The main reason of Spearman correlation selection was the
assumption on non-Gaussian distribution of speech emotion
feature values. Spearman correlation does not make any
assumptions on underlying data distribution. Besides it is
supposed as more robust to outliers than Pearson correlation
coefficient as it deals with data ranks rather than data itself.
IV. EXPERIMENTAL STUDY
The formulated minimal cross-correlation feature selection
criterion was experimentally tested in speech emotion
classification task. 2 emotions (joy and anger), 3 emotions (joy,
anger, and neutral state), and 4 emotions (joy, anger, neutral
state, and sadness) classification cases were analyzed in this
study.
Berlin emotional speech database was selected for this
study [16]. 60 patterns of each emotion (pronounced by
10 speakers) were selected for testing. The testing of feature
sets was performed using 3-fold cross validation on K-Nearest
Neighbor classifier (with K = 7). The selection of the classifier
was not the subject of the study, in general case any type of
classifier can be used for multi-stage classification scheme.
We restricted ourselves to analysis of fundamental
frequency features understanding that this feature set is not
sufficient for proper speech emotion recognition. Despite this
we assume fundamental frequency as one the main speech
emotion feature and suitable for experimental testing of our
proposed feature selection criterion.
6 types of fundamental frequency based features were
extracted in this study [17]:
 Smoothed static low-level and functional F0 features;
 1st order low-level and functional F0 delta features;
 2nd order low-level and functional F0 delta features;
 Envelope features of the smoothed F0 contour;
 1st order delta envelope features;
 2nd order delta envelope features.
Every group included 39 different features thus giving
overall number of 234 features.
The aim of the first experiment was evaluation of minimal
cross-correlation feature sets. Three different tests for different
number of emotions were performed. The averaged results of
this testing are given in Table 1.
TABLE I.
SPEECH EMOTION CLASSIFICATION RESULTS
Classification accuracy, %
Task
2 emotions
3 emotions
4 emotions
Average
Here di – the difference of feature ranks, n – the number
of analyzed feature pairs.
Sadness
(3)
Neutral
R = 1 – 6Σdi2/(n3 – n),
Anger
The Spearman cross-correlation coefficient was selected
for linear dependence evaluation
The chosen emotion set can be divided into low pitch and
high pitch emotion groups by applying fundamental frequency
parameter. The first group will include joy and anger, the later
one – the neutral state and sadness. Therefore, during the first
classification stage emotions will be divided into 2 classes.
During the second stage every obtained emotion group will be
classified into particular emotions. Thus we get two-stage
classification scheme and two-level features.
Joy
here R(F0l, Fjl) is the cross-correlation of the initial
feature F0l and the new feature Fjl.
71,7 %
66,7 %
56,7 %
60 %
48,3 %
43,3 %
–
80 %
53,3 %
–
–
71,7 %
65,8 %
65 %
56,3 %
As we can see average classification accuracy is not high, it
varies from 56,3 % up to 65,8 %. As the reason the usage of
one-type (fundamental frequency based) features could be
named. Extension of feature set with different type features
may improve classification accuracy additionally. However, we
would like highlight the main advantage of the multi-stage
classification using minimal cross-correlation criterion.
Aforementioned accuracy is achieved using low order feature
sets: the 2nd order for 2 emotions task, the 4th order for
3 emotions task and the 8th order for 4 emotions classification
task. In comparison with commonly obtained feature set order
of several hundred at least our obtained order is extremely low.
The multi-stage classification scheme using minimal crosscorrelation feature set was compared with commonly used
emotion classification techniques. One of the mostly used is the
selection of huge sets (containing various features like
temporal, spectral, cepstral, their mathematical derivatives) and
direct classification using particular classifier. Following this
technique two different feature sets were composed for
comparison:
 The set FB, containing separately best features. This set
was formed using promising first selection technique.
The feature order was chosen the same as the minimalcorrelation feature set was.
 The set F234, containing all the 234 analyzed features.
This set will represent huge sets of features used for
emotion classification.
The feature sets were compared in 4 emotions classification
task. Averaged results are given in Fig. 1.
 Minimal cross-correlation based multi-level feature sets
give higher emotion classification accuracy in
comparison with best feature sets.
REFERENCES
[1]
[2]
[3]
[4]
Fig. 1. Comparison results of various feature sets
Results show superiority of multi-stage classification using
minimal correlation feature set FMC against common
techniques. In case of 4 emotions minimal correlation feature
set FMC caused 4.6 % higher classification accuracy than
feature set FB. In case of 3 emotions this difference increased
up to 13.2 %. The full feature set F234 in all cases caused the
least accuracy and was 20–25 % behind the feature set FMC.
According to these results selection of maximal size feature set
is meaningless.
In case of 2 emotions classification accuracy difference
between feature sets FMC and FB was not vivid and confidential
(the set FMC was more accurate by 1,6 %) as multi-stage
classification scheme for 2 emotions task becomes one-stage
scheme and the main distinction was the used feature set. To
extend this result minimal correlation feature selection criterion
was applied for one-stage classification scheme and compared
with best feature set FB. Results of 3 emotions classification
were identical for both sets, in case of 4 emotions the feature
set FB gave 2,5 % higher classification accuracy. Thus
application of minimal correlation feature selection criteria for
one-stage classification scheme does not guarantee higher
accuracy.
CONCLUSIONS
Minimal cross-correlation criterion for multi-level speech
emotion recognition feature selection was proposed in this
paper. The feature set is initialized with the highest efficiency
feature and is extended with features giving minimal crosscorrelation with the initial feature. The superiority of proposed
selection criterion was approved experimentally in emotion
classification task. Multi-stage classification using minimal
cross-correlation feature sets outperformed one-stage
classification using best feature sets by 4,6–12,2 %.
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
With reference to these results we state:
 The proposed minimal cross-correlation criterion
enables us to compose low order sets of linearly
independent features for speech emotion classification
and recognition.
 Minimal cross-correlation based feature sets do not
guarantee higher accuracy in one-stage emotion
classification.
[17]
S. Planet and I. Iriondo, “Comparative study on feature selection and
fusion schemes for emotion recognition from speech,“ International
Journal of Interactive Multimedia and Artificial Intelligence, pp. 44-51,
September 2012.
J. Rong, G. Li and Y.-P. P. Chen, “Acoustic feature selection for
automatic emotion recognition from speech,“ Information Processing
and Managemen, pp. 315-328, May 2009.
S. Casale and A. Russo, “Multistyle classification of speech under stress
using feature subset selection based on genetic algorithms,“ Speech
Communication, pp. 801-810, 2007.
F. Dellaert, T. Polzin and A. Waibel, “Recognizing emotion in speech,“
Fourth International Conference on Spoken Language, t. 3, pp. 19701973, October 1996.
P. Giannoulis and G. Potamianos, “A hierarchical approach with feature
selection for emotion recognition from speech,“ In: Proceedings of the
Eighth International Conference on Language Resources and Evaluation,
pp. 1203-1206, May 2012.
B.-C. Chiou and C.-P. Chen, “Feature space dimension reduction in
speech emotion recognition using support vector machine,“ Signal and
Information Processing Association Annual Summit and Conference, pp.
1-6, 2013.
M. You, C. Chen, J. Bu, J. Liu and J. Tao, “Emotion recognition from
noisy speech,“ IEEE International Conference on Multimedia and Expo,
pp. 1653-1656, July 2006.
S. Zhang, B. Lei, A. Chen, C. Chen and Y. Chen, “Spoken emotion
recognition using local Fisher discriminant analysis,“ IEEE 10th
International Conference on Signal Processing, pp. 538-540, October
2010.
Z. Xiao, E. Centrale, L. Chen and W. Dou, “Recognition of emotions in
speech by a hierarchical approach,“ 3rd International Conference on
Affective Computing and Intelligent Interaction and Workshops, pp. 1-8,
September 2009.
W.-J. Yoon and K.-S. Park, “Building robust emotion recognition
system on heterogeneous speech databases,“ 2011 IEEE International
Conference on Consumer Electronics, pp. 825-826, 2011.
A. Mencattini, E. Martinelli, G. Costantini, M. Todisco, B. Basile, M.
Bozzali and N. Corrado Di, “Speech emotion recognition using
amplitude modulation parameters and a combined feature selection
procedure,“ Knowledge-Based Systems, pp. 68-81, June 2014.
C. Oflazoglu and S. Yildirim, “Recognizing emotion from Turkish
speech using acoustic features,“ EURASIP Journal on Audio, Speech,
and Music Processing, December 2013.
L. Chen, X. Mao, P. Wei, Y. Xue and M. Ishizuka, “Mandarin emotion
recognition combining acoustic and emotional point information,“
Applied Intelligence, pp. 602-612, December 2012.
M. Bhargava and T. Polzehl, “Improving automatic emotion recognition
from speech using rhythm and temporal feature,“ In: ICECIT, pp. 139147, 2012.
G. Tamulevicius and T. Liogiene, “Low-order multi-level features for
speech emotions recognition,“ Baltic Journal of Modern Computing,
unpublished.
F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier and B. Weiss, “A
database of German emotional speech,“ In: Proceedings of Interspeech,
pp. 1517-1520, 2005.
F. Eyben, M. Wollmer and B. Schuller, “OpenEAR - Introducing the
Munich open-source emotion and affect recognition toolkit,“ 3rd
International Conference on Affective Computing and Intelligent
Interaction and Workshops, pp. 1-6, September 2009.