žmogaus šnekos emocijų analizė ir atpažinimas
Transcription
žmogaus šnekos emocijų analizė ir atpažinimas
Vilniaus universitetas Matematikos ir informatikos institutas LIETUVA INFORMATIKA (09 P) ŽMOGAUS ŠNEKOS EMOCIJŲ ANALIZĖ IR ATPAŽINIMAS Tatjana Liogienė 2015 m. spalis Mokslinė ataskaita MII-DS-09P-15-1 VU Matematikos ir informatikos institutas, Akademijos g. 4, Vilnius LT-08663 www.mii.lt Santrauka Emocijų atpažinimas šnekoje yra klasikinis atpažinimo uždavinys, kurio tikslumą nulemia emocionalios šnekos bazės, bazės tipo, požymių rinkinio, klasifikatoriaus, emocionalios šnekos klasifikavimo schemos bei kitų faktorių pasirinkimas. Šioje mokslinėje ataskaitoje yra pateikti šių, emocijų atpažinimui šnekoje, svarbių faktorių apžvalgos bei analizės rezultatai. Pirmiausia yra supažindinama su šnekos signalo generavimo procesų bei išsiaiškinama, kokią įtaką šnekos signalo generavimo procesui daro kalbančiojo emocinė būsena. Toliau yra atliekama emocionalios šnekos duomenų bazių apžvalga, nurodant bazės tipą, emocijas, apimtį, kalbą. Vėliau pateikiama emocijų atpažinime šnekoje naudojamų šnekos signalo požymių bei požymių atrankos kriterijų apžvalgą. Taip pat yra pateikta emocionalios šnekos klasifikavimo schemų apžvalga bei pasiūlyta nauja daugiapakopė emocijų klasifikavimo schema su požymių atrankos kriterijais. Reikšminiai žodžiai: kalbos emocijų atpažinimas, emocionalios šnekos duomenų bazė, šnekos signalo požymis, klasifikatorius. Turinys 1 Įvadas .........................................................................................................................................................4 2 Emocijos šnekos signale ............................................................................................................................5 3 4 2.1 Šnekos signalo generavimo procesas ..................................................................................................5 2.2 Emocinės būsenos įtaka šnekos generavimo procesui ........................................................................6 2.3 Nagrinėjamų emocijų skaičius ............................................................................................................9 2.4 Automatizuotas emocijų atpažinimas ...............................................................................................10 Emocionalios šnekos duomenų bazės ......................................................................................................11 3.1 Emocionalios šnekos duomenų bazių tipai .......................................................................................11 3.2 Dabartinės duomenų bazės................................................................................................................12 Emocijų požymiai šnekos signale ............................................................................................................23 4.1 Požymių paskirtis ..............................................................................................................................23 4.2 Požymių rūšys ...................................................................................................................................23 4.3 Požymių rinkinio optimizavimas ......................................................................................................24 4.4 Požymių atrankos kriterijai ...............................................................................................................26 5 Emocionalios šnekos klasifikavimo schemos ..........................................................................................27 6 Daugiapakopio klasifikavimo schema .....................................................................................................29 7 6.1 Maksimalaus efektyvumo kriterijus daugiapakopių šnekos emocijų atpažinimo požymių atrankai 30 6.2 Minimalios koreliacijos kriterijus daugiapakopių šnekos emocijų atpažinimo požymių atrankai ...30 Literatūra..................................................................................................................................................32 1 priedas ...........................................................................................................................................................37 2 priedas ...........................................................................................................................................................46 1 Įvadas Emocijų atpažinimas šnekoje kaip svarbi mokslinių tyrimų sritis atsirado neseniai – praeito amžiaus devinto dešimtmečio viduryje, bet nepaisant to emocinės būsenos šnekoje atpažinimas turi platų pritaikymą ir gali būti naudojamas kriminalistikoje, skambučių centruose, robotų kūrime ir kitose srityse, kuriant vis efektyvesnę žmogaus ir kompiuterio sąveiką. Emocijų atpažinimas šnekoje yra sudėtingas procesas, kurio rezultatas priklauso nuo emocionalios šnekos duomenų bazės bei jos tipo, požymių rinkinio, klasifikatoriaus, emocionalios šnekos klasifikavimo schemos ir daugelio kitų faktorių pasirinkimo. Todėl šio darbo tikslas yra išskirti šnekos požymius šnekos signale, leidžiančius įvertinti ar atpažinti kalbančiojo emocinę būklę, suformuluoti požymių išskyrimo metodikas, įvertinti požymių kokybę. Darbo tikslui pasiekti yra iškelti tokie uždaviniai: 1. Žmogaus emocinės būklės įtakos šnekos generavimo procesui bei šnekos signalui analizė; 2. Emocijų atpažinimo šnekos signale tyrimų rezultatų apžvalga ir analizė; 3. Bazinio nagrinėjamų emocijų rinkinio suformulavimas; 4. Požymių, atsispindinčių pasirinktąsias emocijas, bei jų išskyrimo metodikų suformulavimas; 5. Emocijų klasifikavimo schemų, požymių atrankos sudarymas ir įgyvendinimas. 6. Emocijų klasifikavimo tyrimas. 7. Eksperimentinis suformuluotųjų požymių tyrimas. 2 Emocijos šnekos signale 2.1 Šnekos signalo generavimo procesas Bendravimas mūsų gyvenime yra labai svarbus. Bendraudami mes apsikeičiame informacija. Verbalinio bendravimo metu informacija yra perduodama šnekos signalu. Šnekos signalas – konkrečią žinią pernešantis akustinis signalas, generuojamas sąmoningais šnekos organų veiksmais. Savo prigimtimi šnekos signalas yra akustinis signalas − atmosferos aplinkoje jis sklinda kaip oro tankio svyravimas [41]. Pakaitomis einančios sutankėjimų ir praretėjimų sritys sklinda ore kaip garso banga. Žmogaus šnekos organai atlieka pagrindinius akustinio šnekos signalo formavimo veiksmus. Svarbiausi šnekos signalo generavimo organai yra plaučiai, trachėja, gerklos su jų svarbiausia dalimi – balso stygomis, nosies ertmė, minkštasis ir kietasis gomurys, liežuvis, dantys bei lūpos. Visi šie organai dar yra vadinami artikuliatoriais. Jie juda keisdami savo padėtį, taip sukurdami skirtingus garsus. Akustinio šnekos signalo generavimo procesą sudaro trys etapai [41]: 1. Šaltinio generavimas; 2. Artikuliacija; 3. Signalo išspinduliavimas. Panagrinėsime kiekvieną etapą detaliau. Šaltinio generavimas prasideda plaučiuose. Oras patenka į plaučius. Plaučiai išstumdami orą sukelia oro srautą. Oro srautas eina per balso stygas ir veikia jas. Balso stygos reaguodamos į oro srauto poveikį pradeda virpėti. Dėl suspaustų balso stygų susidaro slėgio padidėjimas (sutankėjimas) ir balso stygos prasiveria. Oro slėgiui staiga sumažėjus (praretėjus) balso stygos vėl užsidaro ir sustabdo oro srautą taip sukeldamos slėgio padidėjimą. Balso stygų prasivėrimo ir užsidarymo procesas yra kvaziperiodiškas, vieno periodo trukmė siekia nuo 4-7 ms (vaikų ir moterų kalbėtojų atveju) iki 6-20 ms (vyrų kalbėtojų atveju). Sekantis etapas po šaltinio generavimo yra artikuliacija. Sugeneruotasis signalas patenka į balso traktą (ryklės, burnos ir nosies ertmė). Balso traktas pasižymi rezonansinėmis savybėmis ir priklausomai nuo jo konfigūracijos (liežuvio, lūpų padėties, burnos ertmės tūrio, praeinamumo tarp ryklės ir nosies bei burnos ertmių, dantų sukandimo ir t. t.) tos savybės kinta. Toks balso trakto spektrinių savybių kitimas laike formuoja šaltinio signalo spektrą, taip gaunant skirtingus garsus bei jų sekas – šnekos signalą. Balso trakto konfigūracijos kitimas siekiant išgauti garsus yra vadinamas artikuliacija, o balso trakto organų judesiai – artikuliaciniais. Rezonansiniai balso trakto dažniai dar vadinami formantėmis. Paskutinis šnekos signalo generavimo etapas – išspinduliavimas. Šneka išspinduliuojama daugiausia per burną, skruostus ir kartais per nosį (tik konkretiems garsams). 2.2 Emocinės būsenos įtaka šnekos generavimo procesui Šnekos signalą gali paveikti šnekančiojo emocijos ir kontekstas. Stresas yra psichologinė būsena, atsakanti už grėsmės suvokimą ir įprastai lydima specifinėmis emocijomis (pvz., baimė, pyktis, nerimas ir kt.) [18]. Streso sukelti pokyčiai gali paveikti šneką net prieš asmens valią. Stresą sukelia per didelis darbo krūvis, miego trūkumas, prieštaringos informacijos gavimas, psichologinė įtampa ir kitos sąlygos, būdingos šiandieniniam pasauliui. Emocijų analizei šnekos signale yra svarbu suprasti kaip stresas ir emocijos įtakoja šnekos signalo generavimą. Verbaliniai streso rodikliai gali būti nustatomi iš šnekos ženklų streso metu (pvz., mikčiojimas, kartojimas ir pan.). Kvėpavimas dažnai yra tikslus rodiklis tam tikrose emocinėse situacijose. Kai asmuo patiria stresinę situaciją, jo kvėpavimo dažnis padidėja, o tai šnekos metu padidina slėgį balsaskylės pradžioje, kuris padidina pagrindinio tono dažnį. Padidėjus kvėpavimo dažniui seka trumpesnės trukmės šneka tarp įkvėpimų ir tai paveikia tarimo/artikuliacijos greitį. Burnos sausumas pasireiškia tokiose situacijose kaip susijaudinimas, baimė, pyktis ir pan. Tai gali įtakoti šnekos generavimą (pvz., gerklų raumenų aktyvumas ir balso stygų būsena). Gerklų raumenų veikla ir balso stygų virpėjimas tiesiogiai veikia garso greitį per balsaskylę, o tai įtakoja pagrindinio tono dažnį. Yra daugiau fizinių savybių, kurios yra būdingos skirtingoms emocinėms būsenoms [50]: Baimė/pyktis: padidėjęs širdies susitraukimų dažnis ir kraujospūdis; kvėpavimo organų judesių sekos ir intensyvumo pokyčiai; padidėjęs kvėpavimo dažnis sukeliantis slėgio padidėjimą balsaskylės pradžioje; sausumas burnoje; raumenų drebulys. Atsipalaidavimas/liūdesys: sumažėjęs širdies susitraukimų dažnis ir kraujospūdis; padidėjęs seilėtekis; sumažėjęs kvėpavimo dažnis, žemas slėgis balsaskylės pradžioje; ramus kvėpavimas. Triukšmingoje aplinkoje šnekantieji keičia savo šnekėseną – šneka garsiau, intensyviau. Tai vadinama Lombardo efektu, kurio metu šnekos signalo savybės stipriai pakinta [18]. Šnekos generavimo sistemą gali įtakoti skirtingi stresoriai, kurie vaidina skirtingus vaidmenis šnekos generavimo metu [18]: Fiziniai stresoriai – balso trakto formos pokyčiai, sukelti vibracijos ar judėjimo, kurie tiesiogiai paveikia artikuliatorius. Nesąmoningi fiziologiniai stresoriai – streso sukeliami kvėpavimo dažnio ar raumenų įsitempimo pokyčiai, kuriuos gali sukelti miego trūkumas, nuovargis ir pan.. Sąmoningi fiziologiniai stresoriai – streso sukeliamas vokalinių pastangų padidėjimas. Pvz., balso pakėlimas, kad šnekantysis galėtų išgirsti save triukšmingoje aplinkoje. Taip gali nutikti dėl triukšmingos aplinkos, įvykus kokiam nors atsitikimui, patiriant kažkokią emocinę būseną. Analizuojant emocijas šnekoje, pagrindinis dėmesys yra sutelkiamas į tokius požymius, kaip pagrindinio tono dažnis, intensyvumas, trukmė, formančių vieta spektre, formančių reikšmė, spektrinis nuolydis [18, 50]. Literatūroje pateikiami tyrimo rezultatai, kurio metu buvo nagrinėjami 8 šnekėjimo stiliai: neutralus (su juo lygino kitų šnekėjimo stilių rezultatus), lėtas, greitas, švelnus, garsus, piktas, aiškus bei Lombardo efektas [18]. Žemiau yra pateiktos tyrimo išvados, kurios parodo emocinės šnekos įtaką tam tikroms šnekos signalo charakteristikoms. Pagrindinis dažnis Pagrindinio tono dažnio vidurkis yra geras streso būsenos rodiklis. Garsios, piktos ir Lombardo efekto šnekų stilių pagrindinio tono dažnio vidurkiai, palyginus su kitomis streso būsenomis, labai skiriasi (yra aukštesni) nuo neutralios šnekos pagrindinio tono dažnio vidurkio. Pagrindinio tono dažnio reikšmių dispersija (variance) garsios, piktos ir Lombardo efekto šnekų stilių taip pat labai skiriasi (yra didesnė) nuo neutralios šnekos pagrindinio tono dažnio dispersijos, palyginus su kitomis streso būsenomis, todėl tai irgi yra geras streso parametras. Bet, pagrindinio tono dažnio dispersija nėra patikimas rodiklis lėtai ir greitai šnekai nustatyti, nes nuo neutralios šnekos skiriasi nežymiai (šiek tiek mažesnė). Taigi, pagrindinio tono dažnio vidurkis ir sklaida yra efektyvūs rodikliai streso būsenų klasifikavime. Tačiau reikėtų turėti omenyje, jog pagrindinio tono dažnis yra šnekančiajam individuali charakteristika, taigi šiuo parametru perduodama ir informacija apie šnekantįjį, t.y. jis priklauso nuo šnekančiojo. Trukmė Vidutinė žodžio trukmė didėja lėtai šnekant ir mažėja greitai šnekant. Priebalsių, pusbalsių ir dvibalsių trukmė yra vienoda, esant tiek švelniai, tiek garsiai, tiek neutraliai šnekai. Balsių trukmė, lyginant su neutralia šneka, nežymiai mažėja švelniai šnekant ir nežymiai didėja garsiai šnekant. Intensyvumas Intensyvumas, lyginant su neutralia šneka, didesnis garsioje ir piktoje šnekoje, o švelnioje ir aiškioje – mažesnis. Balsių intensyvumas lieka pastovus, esant lėtai, aiškiai ir Lombardo efekto šnekėsenoms, o priebalsių intensyvumas padidėja, esant švelniai ir piktai šnekėsenoms. Taigi, žodžio intensyvumas gali būti naudojamas, klasifikuojant streso būsenas. Spektrinis nuolydis Visų šnekėjimo stilių spektrinis nuolydis (spektro dedamųjų amplitudės sumažėjimas) ženkliai skiriasi nuo neutralios šnekos. Statesnis spektrinis nuolydis (-9 dB/oktavą) yra būdingas greitai, garsiai, piktai ir Lombardo efekto šnekėsenoms, staigus (-15 dB/oktavą) - lėtai ir švelniai. Taigi, spektrinis nuolydis yra svarbus perduodant stresą ir geras identifikatorius, išskiriant šnekos stilius. Formantės Lėtos, garsios, piktos ir aiškios šnekos stiliai rodo plačiausi F1 formantės vietos spektre pakeitimą. F2 formantės dažniai padidėja daugeliui šnekėsenų. Nežymūs F3 ir F4 formančių reikšmių pokyčiai įvyksta visiems stiliams. F1 formantės reikšmės dispersija ženkliai pasikeičia garsiai, piktai ir aiškiai šnekėsenoms. F1, F2 ir F3 formančių vidutinių reikšmių poslinkiai garsiai, piktai ir aiškiai šnekėsenoms yra didesni nei neutralios šnekos atveju. Apibendrinus, galima pastebėti tokį emocijų poveikį šnekai [18, 50]: Baimė/pyktis: Didesnis šnekos greitis ir garsumas; Aukštesnis tono vidurkis; Platesnis pagrindinio tono dažnio reikšmių diapazonas; Aukštesnio dažnio dedamųjų energijos padidėjimas (increased higher frequency energy); Sutrikęs šnekos ritmas dėl trumpo kvėpavimo ciklo; Padidėjęs artikuliacijos tikslumas (increased precision of articulation). Atsipalaidavimas/ liūdesys: Žemas šnekos greitis ir garsumas; Aukštesnio dažnio dedamųjų energijos sumažėjimas (decreased higher frequency energy); Žemesnis tono vidurkis; Mažesnės tono ribos (smaller pitch range); Sklandi/laisva šneka; Sumažintos tono ribos (reduced pitch range); Sumažėjęs artikuliacijos tikslumas (decreased precision of articulation, in general); Formantės pozicijos pokyčiai (F1, F2, F3), dėl artikuliatoriaus judesių sumažėjimo. Tyrimas parodė, kad sunku nustatyti emocijas tik pagal šneką. Informaciją apie žmogaus emocinę būseną suteikia veido išraiška ir kūno kalba. Kūno kalbą sudaro gestai ir laikysena. Pvz., piktas žmogus suspaudžia kumščius ir nuleidžia galvą žemyn, liūdnas - žiūri žemyn, rankos laisvai kabo. Veido išraiška yra labai svarbi nustatant emocinę būseną. Laimingas žmogus šypsosi, piktas – suspaudžia lupas ir nuleidžia antakius [50]. 2.3 Nagrinėjamų emocijų skaičius Emocijų atpažinimui šnekoje (emocinės šnekos analizei) yra naudojami emocinės šnekos duomenų bazių įrašai. Tokiose bazėse yra tik tam tikras emocijas atspindintys šnekos įrašai. Dauguma emocionalios šnekos duomenų bazių rinkinių apima 5-6 emocijas, kurios yra vadinamos pagrindinėmis emocijomis (basic emotions) [43]. Realiame gyvenime emocijų kategorijų yra daugiau. Dažniausiai pasitaikančių emocijų, kurias galima rasti duomenų bazėse sąrašas yra pateiktas žemiau [22, 42]. 1 lentelė. Emocijos, nagrinėjamos duomenų bazėse. Nr. 1. 2. 3. 4. 5. 6. 7. 8. Emocija Pyktis (anger) Liūdesys (sadness) Baimė (fear) Laimė (happiness) Džiaugsmas (joy) Šlykštumas (disgust) Nuostaba (surprise) Nuobodulys (boredom) Duomenų bazių skaičius 35 30 19 17 16 14 11 7 Nr. 9. 10. 11. 12. Emocija Stresas (stress) Panieka (contempt) Nepasitenkinimas (dissatisfaction) Gėda, išdidumas, nerimas, išgąstis, pakili nuotaika, neviltis, humoras, ... Duomenų bazių skaičius 6 2 2 1 Taigi, labiausiai paplitusios emocijos yra pyktis, liūdesys, laimė, baimė, pasišlykštėjimas, nuostaba, nuobodulys ir džiaugsmas. Neutrali šneka taip pat yra dažnai nagrinėjama. 2.4 Automatizuotas emocijų atpažinimas Emocijų analizei bei atpažinimui šnekoje yra sukurta nemažai automatizuotų sistemų (WEKA ir kt.). Automatizuotą šnekos emocijų atpažinimą sudaro signalo apdorojimas, požymių išskirimas ir pasirinkimas, klasifikavimas [46] (1 pav.). 1 pav. Automatizuotas šnekos emocijų atpažinimas [42]. Apdorojant šnekos signalą vyksta jo segmentavimas (suskaidymas į dalis). Šnekos signalas suskaidomas į trumpas atkarpas – kadrus, kurių trukmė yra 20–30 ms, daroma prielaida, kad šnekos savybės esančios trumpoje atkarpoje nekinta laike (yra stacionarios). Kadrai persikloja taip, kad gretimas kadras prasideda nuo tam tikros prieš jį einančios kadro dalies. Siekiant nuglodinti kadro kraštus, kiekvienam kadrui yra taikoma lango funkcija. Naudojamos įvairios lango funkcijos, tokios kaip Hamingo, Haningo. Išskiriant požymius dėmesys yra koncentruojamas ties aktualių šnekos signalo požymių identifikavimo atsižvelgiant į nagrinėjamas emocines būsenas. Visi atrinkti požymiai sudaro požymių vektorių. Klasifikuojant pavyzdžius požymių vektoriai yra nukreipiami į emocijų klases per savaiminio mokymosi pavyzdžius [46]. 3 Emocionalios šnekos duomenų bazės Emocionalios šnekos duomenų bazės yra būtinos emocijų atpažinimui šnekos signale [22]. Jos neabejotinai yra naudingos emocijų šnekos signale tyrėjams [43]. Emocinės šnekos duomenų bazės yra kuriamos įvairiems tikslams, bet dauguma jų yra naudojamos automatiniam šnekos atpažinimui ir šnekos sintezei [42]. 3.1 Emocionalios šnekos duomenų bazių tipai Emocinės šnekos duomenų bazės yra suskirstytos į tris tipus [22]: 1. Suvaidintos emocijos (actor/acted, simulated); 2. Sukeltos emocijos (elicited, induced); 3. Natūralios emocijos (natural). Suvaidintose emocinės šnekos garsynuose (corpora) yra surenkami patyrusių ir apmokytų aktorių bei diktorių pasisakymai [22]. Aktoriai yra prašomi šneka išreikšti skirtingas emocijas neutraliuose sakiniuose. Įrašai yra daromi skirtingų sesijų metu. Tai yra vienas iš paprasčiausių ir patikimiausių emocinės šnekos duomenų bazių rinkimo metodų. Tokios duomenų bazės turi platų emocijų pasirinkimą. Daugiau nei 60% duomenų bazių, naudojamų emocionalios šnekos tyrimams yra suvaidintos. Suvaidintos emocijos yra išraiškingesnės nei natūralios. Suvaidinta emocionali šneka yra patikimiausia emocinei šnekai atpažinti, nes turi aukštą susijaudinimo lygį (high arousal), t. y. emocijos su didele amplitude arba stiprumu [43]. Sukeltos emocinės šnekos garsynai yra surenkami simuliuojant dirbtines emocines situacijas kalbančiajam to nežinant [22, 43]. Kalbantysis yra įtraukiamas į emocionalų pokalbį su aktoriumi, kur skirtingos situacijos yra sukuriamos aktoriaus, taip sukeliant įvairias kalbančiojo emocijas be jo žinios. Šios duomenų bazės yra natūralesnės, palyginus su vaidintos emocinės šnekos bazėmis. Bet kalbantysis gali nebūti pakankamai išraiškingas, jeigu žinos, kad jo šneka yra įrašoma. Kartais tokio tipo duomenų bazės yra įrašomos paprašius kalbantįjį įsitraukti į verbalinę sąveiką su kompiuteriu, jo atsakymai savo ruožtu paeiliui yra kontroliuojami žmogaus be kalbančiojo žinios. Tokios emocijos yra sukeltos. Sukelta šneka nėra nei natūrali nei suvaidinta. Natūralios emocijos yra mažiau išraiškingos. Kartais yra sunku aiškiai atpažinti tokias emocijas. Tokios duomenų bazės yra įrašomos panaudojus prieinamus realaus pasaulio duomenis, pvz., gali būti įrašomi skambučių centro dialogai, pokalbis piloto kabinoje ekstremalioje situacijoje, dialogas tarp gydytojo ir paciento, emocionalus pokalbis viešoje vietoje ir pan. Šio tipo duomenų bazėse emocijų pasirinkimas nėra platus. Tokių emocijų aiškinimas gali būti labai subjektyvus ir jų suskirstymas į kategorijas visada yra ginčytinas. Taip pat yra keli teisiniai klausimai, pvz., natūralios šnekos duomenų bazių privatumas ir kopijavimas. Tai trukdo duomenų rinkmenų platinimui [22, 42, 43]. Natūrali šneka yra tiesiog spontaniška šneka, kur visos emocijos yra tikros. Natūralios emocijos yra sunkiau klasifikuojamos nei vaidintos [42]. Įvairių tipų duomenų bazių privalumai ir trūkumai pateikti 2 lentelėje [22]. 2 lentelė. Duomenų bazių privalumai ir trūkumai. Duomenų bazės tipas Suvaidintos Privalumai Trūkumai Standartizuotos. Rezultatai gali būti lengvai palyginami. Gausus emocijų pasirinkimas ir prieinamumas. Gausi duomenų bazių įvairovė įvairiomis kalbomis. Suvaidinta kalba nusako kaip emocijos turėtų būti vaizduojamos, bet ne taip, kaip jos vaizduojamos realybėje. Nėra informacijos, priklausančios nuo konteksto, tikslo. Dažniausiai tai yra skaitoma šneka, o ne sakoma. Sukeltos Arčiau natūralios šnekos Visos emocijos gali nebūti duomenų bazėms. prieinamos. Kontekstinė informacija Jeigu kalbantieji žino, kad jų pateikta, bet ji yra dirbtinė. šneka yra įrašoma, tai sukeltos šnekos kokybė bus dirbtina. Natūralios Visiškai natūraliai išreikštos. Visos emocijos gali nebūti Naudinga realaus pasaulio prieinamos. emocijų modeliavimui. Kopijavimo ir privatumo klausimai. Pasakymų dubliavimasis/sutapimas. Triukšmo buvimas. Yra sudėtinių ir lygiagrečių emocijų. Sunku modeliuoti. Emocionalios šnekos duomenų bazių projektavimas ir rinkimas priklauso nuo tyrimo tikslų. Pvz., vieno kalbančiojo emocionalios šnekos rinkinys (corpus) yra pakankamas, jeigu tyrimo tikslas yra emocionalios šnekos sintezė, o emocijų atpažinimui šnekoje reikalinga kelių kalbančiųjų duomenų bazė su įvairaus stiliaus emocijų išreiškimu [22]. 3.2 Dabartinės duomenų bazės Esamos emocinės šnekos duomenų bazės yra labai skirtingos. Jos yra įrašytos įvairiomis kalbomis (anglų, vokiečių, kinų, ispanų, japonų, rusų, švedų, italų, indų ir kt.). Skiriasi jų apimtys emocijos bei jų skaičius, kalbančiųjų skaičius, kūrimo tikslas (atpažinimui, sintezei) [22]. 1. Berlyno emocionalios šnekos duomenų bazė (Berlin Database of Emotional Speech, EMO-DB) Kalba: vokiečių. Tipas: suvaidintos emocijos. Kalbantieji: 10 aktorių (5 vyrai ir 5 moterys). Emocijos: pyktis, baimė, džiaugsmas, liūdesys, išgąstis, nuobodulys, neutrali šneka. Įrašai: 10 sakinių (5 trumpi ir 5 ilgi), kurie gali būti naudojami kasdieniniame bendravime. Emocijų atpažinimo tikslumas: 75%. Įrašant Berlyno emocionalios šnekos duomenų bazę buvo nuspręsta ieškoti kalbančiųjų pagal skelbimą laikraštyje, nes aktoriai emocijas perteikia perdėtai. Tik vienas iš atrinktų kalbančiųjų buvo baigęs aktorystės kursus. 10 sakinių yra sukonstruoti taip, kad juos būtų galima perteikti visomis pasirinktomis emocijomis. Duomenų bazės sakiniai yra sudaryti taip, kad juose būtų kiek įmanoma daugiau balsių, tam, kad būtų galima atlikti formančių analizę. Norint pasiekti aukštą įrašų kokybę, įrašinėjimas buvo atliekamas beaidėje kameroje su aukštos kokybės įrašymo įranga. Kalbantieji stovėjo priešais mikrofoną maždaug 30 cm atstumu ir esant poreikiui galėjo naudoti kūno kalbą. Tai sukėlė problemą: aktoriai judėjo, atstumas tarp burnos ir mikrofono nebuvo pastovus, todėl, atlikus signalo energijos analizę būtų gauti nepatikimi rezultatai. Duomenų bazės apimtis yra apie 500 pasisakymų. Tyrimas parodė, kad klausytojai atpažįsta 80% emocijų, o 60% duomenų bazės emocijų yra arti natūralioms emocijoms. Ši duomenų bazė yra plačiausiai naudojama ir yra nemokama (http://www.expressive-speech.net) [4; 5; 24; 35; 45; 48]. 2. Belfasto duomenų bazė (Belfast Database) Kalba: anglų. Tipas: natūralios emocijos. Kalbantieji: 40 savanorių ir 125 televizijos laidų dalyviai. Emocijos: pyktis, laimė, liūdesys, baimė, neutrali šneka ir kitos natūralios emocijos. Įrašai: įrašyti studijoje įrašai ir televizijos laidų ištraukos. Pagrindinis duomenų bazės vienetas yra klipas (audiovizualinis įrašas) (clip). Klipo trukmė 10-60 sekundžių, jie įrašyti MPEG formatu. Duomenų bazės įrašymui buvo naudojami du pagrindiniai šaltiniai. Pirmasis - studijoje įrašyta šneka. Emocionali kalbančiųjų šneka buvo įrašoma diskutuojant emocionaliomis temomis tarpusavyje arba su tyrinėtojų komanda. Antrasis - pasirinktų televizijos laidų ištraukos. Atliekant įrašus studijoje dalyvavo 40 savanorių. Buvo įrašoma tarpusavyje pažįstamų pašnekovų šneka emocionaliomis temomis. Televizijos laidų ištraukose yra 125 kalbančiųjų pasisakymai. Televizija buvo pagrindinis stiprių emocijų šaltinis. Visose televizijos laidose buvo realus bendravimas. Televizijos laidų tipai: pokalbių šou, religinės laidos ir pan. Duomenų bazės apimtis yra 239 klipai (209 klipai yra televizijos laidų ištraukos ir 30 – pokalbio įrašai) [12; 22; 42]. 3. Danų emocionalios šnekos duomenų bazė (Danish Emotional Speech Database, DES) Kalba: danų. Tipas: suvaidintos emocijos. Kalbantieji: 4 aktoriai (2 vyrai ir 2 moterys). Emocijos: nuostaba, laimė, liūdesys, pyktis ir neutrali šneka. Įrašai: 2 žodžiai, 9 sakiniai ir 2 ištraukos. Emocijų atpažinimo tikslumas: 67%. Duomenų bazę sudaro maždaug 30 minučių trukmės 419 emocionalios šnekos įrašai. Su kiekvienu aktoriumi buvo įrašomi 2 atskiri žodžiai (yes ir no), 9 sakiniai (4 iš jų klausimai) ir 2 ištraukos (laisvos šnekos (fluent speech)). Kiekvienas pasisakymas buvo atliekamas 5 skirtingomis emocijomis. DES buvo įrašyta pašalinius garsus slopinančioje garso studijoje. Kiekvieno aktoriaus šneka buvo įrašoma skirtingu laiku, kad jie negalėtų pamėgdžioti vienas kito šnekėjimo stiliaus. Dvidešimt teisėjų (18-58 metų) įvertino emocijas su 67% tikslumu [22; 35; 44; 48]. 4. Hindi emocionalios šnekos rinkinys (Hindi Speech Corpus for Emotional Analysis, IITKGPSEHSC) Kalba: hindi (viena iš Indijos kalbų). Tipas: suvaidintos emocijos. Kalbantieji: 10 profesionalių aktorių (5 vyrai ir 5 moterys). Emocijos: pyktis, pasišlykštėjimas, baimė, laimė, liūdesys, nuostaba, sarkazmas ir neutrali šneka. Įrašai: 15 sakinių. Ši bazė sukurta emocijų šnekos signale analizei. 15 sakinių turinys neutralus. Kiekvienas aktorius atskiros sesijos metu turėjo ištarti 15 sakinių panaudojęs 8 skirtingas emocijas. Tokių sesijų buvo 10. Pasakymų skaičius duomenų bazėje yra 12000 (15 sakinių * 8 emocijos * 10 kalbančiųjų * 10 sesijų). Kiekviena emocija turi 1500 pasakymų. Žodžių ir skiemenų skaičius sakiniuose atitinkamai yra 4-7 ir 9-17. Duomenų bazės trukmė yra maždaug 9 valandos. Įrašinėjimo metu buvo naudojamas mikrofonas. Įrašai atlikti patalpoje be pašalinių garsų [23]. 5. Vokiečių emocionalios šnekos duomenų bazė (The Vera am Mittag German audio-visual emotional speech database, VAM Corpus) Kalba: vokiečių. Tipas: natūralios emocijos. Kalbantieji: televizijos pokalbių šou laidos dalyviai. Emocijos: valentingumas, aktyvacija ir dominavimas (valence, activation and dominance). Įrašai: 12 laidų. Duomenų bazę sudaro trys dalys: VAM-Video, VAM-Audio ir VAM-Faces. Emocijų apibudinimui yra naudojama trimatės emocijų erdvės koncepcija, kurioje emocinė būklė yra apibūdinama pagal valentingumą (emocinę būklę sukelia teigiamas arba neigiamas išgyvenimas, teigiamas - neigiamas (negatyve – positive)), aktyvaciją (kai stimulai padidina ar sumažina organizmo aktyvumo būseną, ramus susijaudinęs (calm – excited)) ir dominavimą (ar individas manąs sugebantis išspęsti konkrečią situaciją, silpnas - stiprus (weak - strong)) [21]. Duomenų bazę sudaro 12 valandų trukmės televizijos pokalbių šou „Vera am Mittag“ diskusijų tarp dalyvių garso ir vaizdo įrašai. Kiekvieną iš 12 įrašytų laidų sudaro keli dialogai tarp 2-5 kalbančiųjų. Duomenų bazę sudaro 45 laidos dialogai suskirstyti į pasisakymus. VAMAudio sudaro 47 kalbančiųjų (11 vyrų ir 36 moterų) 1018 pasisakymų. Kalbančiųjų amžius yra 16-69 metai [16; 35]. http://emotion-research.net/download/vam 6. Kroatų emocionalios šnekos duomenų bazė (Emotional Speech Corpus of Croatian Language, KEG) Kalba: kroatų. Tipas: natūralios ir suvaidintos emocijos. Kalbantieji: apie 200. Emocijos: pyktis, baimė, laimė, liūdesys ir neutrali šneka. Įrašai: 496 pasisakymai, bendra trukmė 41 minutė 16 sekundžių. Tai antra kroatų kalba įrašyta duomenų bazė. Jos paskirtis yra nustatyti ryšį tarp natūralios ir suvaidintos emocionalios šnekos. Medžiaga duomenų bazės įrašams buvo renkama internete ir kituose viešosios žiniasklaidos šaltiniuose. Natūralioms emocijoms rinkti buvo naudojami kroatų realybės šou ir dokumentinių filmų įrašai. Suvaidintoms emocijoms rinkti buvo naudojami kroatų filmų, televizijos šou ir įgarsintų knygų programos (Books-Aloud programs) įrašai. Buvo atrinkti 674 pasisakymai, kurių bendra trukmė yra 46 minutės ir 55 sekundės. Įdomu tai, kad laimę ir pyktį išreiškiantys pasisakymai yra patys trumpiausi – 3 sekundės, o neutralus pasisakymas yra pats ilgiausias – 10 minučių 39sekundės. Kalbėtojų skaičius yra 204 (104 vyrai ir 100 moterų). Pasisakymai ir kalbantieji yra suskirstyti į tris amžiaus kategorijas: vaikai, paaugliai ir suaugusieji. Dauguma pasisakymų yra priskiriama suaugusiųjų kategorijai. Duomenų bazės įrašus vertino Zagrebo universiteto psichologijos studijų programos diplomantai, kurių amžius 22-24 metai. Po atrankos liko 496 pasisakymai, o bazės trukmė sumažėjo 5 minutėmis [13]. 7. Serbų emocionalios šnekos duomenų bazė (Serbian emotional speech database, GEES) Kalba: serbų. Tipas: suvaidintos emocijos. Kalbantieji: 6 aktoriai (3 vyrai ir 3 moterys). Emocijos: pyktis, baimė, laimė, liūdesys ir neutrali šneka. Įrašai: 32 žodžiai, 30 trumpų semantiškai neutralių sakinių, 30 ilgų semantiškai neutralių sakinių, viena 79 žodžių ištrauka. Tai pirmoji serbų emocionalios šnekos duomenų bazė. Ją sudaro 2790 įrašų, kurių bendra trukmė yra 3 valandos. Įrašai buvo atliekami Belgrado universiteto Dramos meno fakulteto pašalinius garsus slopinančioje garso studijoje. Kiekvieno aktoriaus šneka buvo įrašoma skirtingu laiku, kad jie negalėtų pamėgdžioti vienas kito šnekėjimo stiliaus [38]. 8. Rusų emocionalios šnekos duomenų bazė (Russlana: A Database of Russian Emotion Utterances) Kalba: rusų. Tipas: suvaidintos emocijos. Kalbantieji: 61 kalbantysis (12 vyrų ir 49 moterys). Emocijos: pyktis, baimė, laimė, liūdesys, nuostaba. Įrašai: 10 sakinių. Duomenų bazę sudaro 3660 įrašų, kurie buvo įrašyti pašalinius garsus slopinančioje garso studijoje. Kalbantieji atvyko iš visos šalies, o jų amžius nuo 16 iki 28 metų. Buvo parinkti sakiniai, apimantys visas rusų kalbos fonemas ir priebalses [28]. 9. Graikų emocionalios šnekos duomenų bazė (Modern Greek real-world emotional speech corpus) Kalba: graikų. Tipas: natūralios emocijos. Kalbantieji: 43 asmenys (23 vyrai ir 20 moterų). Emocijos: malonumas, džiaugsmas, sąmyšis, pyktis (piktas, labai piktas) ir neutrali šneka. Įrašai: 4413 įrašų. Emocijų atpažinimo tikslumas: 75,4%. Duomenų bazę sudaro protingo namo dialogo sistemos patyrusių ir pradedančiųjų naudotojų pasisakymo įrašai. Kalbančiųjų amžius varijuoja nuo 12 iki 56 metų, o amžiaus vidurkis yra 22 metai. Kalbantieji turėjo duoti 10 nurodymų protingam namui naudodami natūralią šneką. Dialogas su protingo namo sistema buvo įrašomas ir filmuojamas, vėliau buvo panaikinti nekokybiški įrašai, o likusieji buvo suskirstyti į 6 kategorijas, kurios atitinka emocines būkles. Duomenų bazės įrašų skaičius yra 4413, o trukmė yra 3,5 valandos [25]. 10. eNTERFACE'05 emocionalios šnekos duomenų bazė (eNTERFACE'05 emotion Database) Kalba: anglų. Tipas: suvaidintos ir sukeltos emocijos. Kalbantieji: 42 asmenys. Emocijos: pyktis, pasišlykštėjimas, baimė, džiaugsmas, liūdesys, nuostaba. Įrašai: 5 sakiniai * 6 emocinės būklės. Tai garso ir vaizdo emocionalios šnekos duomenų bazė skirta emocijų atpažinimo algoritmų testavimui. Dalyvavo 14 tautybių (Belgija, Turkija, Prancūzija, Ispanija, Graikija, Italija, Austrija, Kuba, Slovakija, Brazilija, USA, Kroatija, Kanada, Rusija) 42 kalbantieji (34 vyrai, 8 moterys). Duomenų bazę sudaro 1277 anglų kalbos įrašai. Kiekvienas kalbantysis išklausydavo 6 trumpas istorijas, kurios sukeldavo 6 emocines būkles. Kiekvienas kalbantysis turėjo ištarti po 5 sakinius išreikšdamas kiekvieną emociją. Du ekspertai sprendė, ar emocijos yra išreiškiamos nedviprasmiškai. Duomenų bazė yra nemokama (http://www.enterface.net/enterface05/main.php?frame=emotion) [29; 35]. 11. Lėktuvo erdvės emocionalios šnekos duomenų bazė (Airplane Behaviour Corpus, ABC) Kalba: vokiečių. Tipas: natūralios emocijos. Kalbantieji: 8 asmenys. Emocijos: agresyvus, linksmas, apsvaigęs/neblaivus (intoxicated), nervingas, pavargęs ir neutralus elgesys. Įrašai: 431 įrašas. Tai dar viena garso ir vaizdo emocionalios šnekos duomenų bazė sukurta viešojo transporto erdvės stebėjimui. Siekiant sukelti tam tikrą nuotaiką buvo naudojamas scenarijus, kuris skatino kalbėtojus juo vadovautis: iš anksto įrašyti pranešimai buvo automatiškai paleidžiami. Buvo pasirinktas poilsinis skrydis pirmyn ir atgal, kurį sudaro (atitinkamai) 13 ir 10 tokių siužetų kaip netinkamų maisto produktų pateikimas, įvairūs nemalonumai, užmigimas, pokalbis su kaimynu ir kt. Prieš kalbėtojo lėktuvo sėdinę buvo pastatytas mėlynas ekranas. 8 kalbėtojai 25-48 metų dalyvavo įrašyme. Duomenų bazę sudaro 431 įrašas, kiekvieno vidutinė trukmė yra 8,4 sekundės [34; 35]. 12. SUSAS emocionalios šnekos duomenų bazė (Speech Under Simulated and Actual Stress, SUSAS) Kalba: anglų (amerikonų). Tipas: natūralios ir suvaidintos emocijos. Kalbantieji: 36 kalbėtojai (23 vyrai, 13 moterų). Emocijos: baimė ir neutrali šneka (vidutinis stresas, aukštas stresas, riksmai). Įrašai: 35 izoliuoti žodžiai. Pradinę duomenų bazę sudarė 32 kalbėtojų (13 moterų, 19 vyrų), kurių amžius yra 22-76 metai, 16000 izoliuotų žodžių įrašų. Vėliau duomenų bazę papildė dar 4 kareivių vyrų kariniame sraigtasparnyje šnekos įrašai skrydžio metu. Duomenų bazės žodyną sudaro 35 skrydžio orlaiviu metu bendravimui naudojami žodžiai [17; 35]. 13. AVIC emocionalios šnekos duomenų bazė (Audiovisual Interest Corpus, AVIC) Kalba: anglų. Tipas: natūralios emocijos. Kalbantieji: 21 kalbėtojas (10 moterų, 11 vyrų) . Emocijos: nuobodulis, džiaugsmas ir neutrali būklė. Įrašai: 3002 frazės. AVIC yra garso ir vaizdo emocionalios šnekos įrašų duomenų bazė. Įrašant ją produkto pristatytojas lydi vieną (iš 21) asmenį anglų komerciniame pristatyme. Yra apibudintas kiekvieno dalyvio susidomėjimo lygis: nuobodulis (dalyviui nuobodu klausyti ir šnekėti ta tema, jis pasyvus, neseka pokalbio, susidomėjimo lygis yra 1), neutralus (dalyvis seka ir dalyvauja pokalbyje, bet yra sunku nustatyti ar pokalbio tema jį tikrai domina, susidomėjimo lygis yra 2 ) ir džiaugsmas (dalyvio noras šnekėti ir sužinoti daugiau ta tema, susidomėjimo lygis yra 3) [33; 35]. 14. SAL emocionalios šnekos duomenų bazė (Sensitive Artificial Listener, SAL) Kalba: anglų. Tipas: sukeltos emocijos. Kalbantieji: 4 kalbėtojai (2 moterys, 2 vyrai). Emocijos: emocijų daug, bet jos nėra intensyvios. Įrašai: 20 min. kiekvienam kalbėtojui. Audiovizualizuotą duomenų bazę sudaro žmogaus ir kompiuterio dialogo įrašai. Jautraus dirbtinio klausytojo (Sensitive Artificial Listener, SAL) grafinė vartotojo sąsaja suprojektuota taip, kad leistų naudotojams darbo metu patirti kuo daugiau emocijų. Sąsaja sukurta keturioms asmenybėms: Popy (laimingas), Obadiah (niūrus), Spike (piktas) ir Prudence (pragmatiškas). Naudotojai pasirenka asmenybę, su kuria norėtų šnekėti. Kiekvienas herojus turi atsakymų rinkinį, kuris provokuoja atitinkama naudotojo emocinę būklę. Taip herojai sukelia emocijas kalbėtojams. Duomenų bazę sudaro 25 įrašai 4 kalbėtojams. Kiekvienam kalbėtojui skirta apie 20 minučių [10; 35; 47]. 15. SmartKom emocionalios šnekos duomenų bazė (Multimodal Corpus in SmartKom) Kalba: anglų ir vokiečių. Tipas: natūralios emocijos. Kalbantieji: 224 kalbėtojai. Emocijos: pyktis, džiaugsmas, nuostaba, bejėgiškumas, susimąstymas ir neutrali šneka. Įrašai: 4,5 minučių trukmės. Duomenų bazės įrašai sudaryti stebint žmogaus ir kompiuterio sąveiką atliekant skirtingas užduotis ir technines konfigūracijas. SmartKom yra garso ir vaizdo emocionalios šnekos įrašų duomenų bazė įrašyta anglų ir vokiečių kalbomis taikant Wizard-Of-Oz techniką. Subjektai buvo paprašyti sudalyvauti sistemos prototipo testavime ir manė, kad jie sąveikauja su egzistuojančia sistema, bet realiai sistemos elgesį modeliavo du kitame kambaryje esantys žmonės. Kiekvienos sesijos metu (reikėjo atlikti dvi 4,5 min. trukmės užduotis) buvo įrašoma kalbančiojo spontaniška šneka, veido išraiška ir gestai. Kalbantieji mane, kad sistema turi suprasti šneką, gestus, mimiką ir turėtų bendrauti kaip žmogus. Įrašai suskirstyti į 448 sesijas, kurių kiekvieną sudaro vienas 4,5 minučių trukmės vieno asmens įrašas [35; 39]. 16. FAU Aibo emocionalios šnekos duomenų bazė (FAU Aibo Emotion Corpus) Kalba: vokiečių. Tipas: natūralios emocijos. Kalbantieji: 51 vaikas (10-13 metų, 21 mergaitė, 30 berniukų). Emocijos: pyktis, džiaugsmas, nuostaba, nuobodulis, bejėgiškumas, susierzinimas, neutrali būklė ir kt. Įrašai: 48401 žodis, 13642 įrašai, 9,2 valandos. Duomenų bazės įrašai sudaryti stebint žmogaus (vaiko) ir roboto sąveiką. FAU Aibo įrašyta naudojant Wizard-Of-Oz techniką. Vaikai šnekėjo su šunimi-robotu Aibo kaip su draugu. Jie buvo tikri, kad Aibo reaguos į jų komandas, bet roboto veiksmus kontroliavo žmogus naudodamas specialią programinę įrangą. Duomenų bazės trukmė yra 9,2 val. įrašai yra suskirstyti į 11 kategorijų, atitinkančių emocines būkles [3]. 17. Turkų emocionalios šnekos duomenų bazė (Turkish emotional speech database, TURES) Kalba: turkų. Tipas: suvaidintos emocijos. Kalbantieji: 582 kalbantieji (394 vyrai, 188 moterys). Emocijos: pyktis, baimė, liūdesys, laimė, nuostaba, neutrali šneka ir kt. Įrašai: 5100 įrašų. Duomenų bazę sudaro 5100 įrašų iš 55 turkų filmų. Vidutinė kiekvieno įrašo trukmė yra 2,34 sekundės. Kiekvienas duomenų bazės įrašas yra priskirtas tam tikrai emocinei būklei ir atvaizduotas trimatėje emocijų erdvėje (valence, activation and dominance) (http://www.turesdatabase.com/page/home) [30]. 18. Suomių emocionalios šnekos duomenų bazė (Media Team Speech Corpus) Kalba: suomių. Tipas: suvaidintos emocijos. Kalbantieji: 14 aktorių (6 moterys, 8 vyrai). Emocijos: pyktis, džiaugsmas, liūdesys, baimė, pasišlykštėjimas, nuobodulis ir neutrali šneka. Įrašai: 490 įrašų. 14 profesionalių aktorių dalyvavo įrašant duomenų bazę. Kalbančiųjų amžius 25-50 metų. Kiekvienas kalbėtojas turėjo perskaityti 100 žodžių ištrauką neutralia šneka ir emocionaliai. Duomenų bazę sudaro 490 įrašų [37]. 19. EmoTV emocionalios šnekos duomenų bazė (EmoTV Emotional Speech Database, 2005) Kalba: prancūzų. Tipas: natūralios emocijos. Kalbantieji: 48 kalbėtojai. Emocijos: daug pozityvių ir negatyvių įvairaus intensyvumo emocijų. Įrašai: 51 įrašas. EmoTV emocionalios šnekos duomenų bazę sudaro 51 įrašas. Kiekvieno įrašo trukmė yra 4-43 sekundės. Įrašų šaltinis yra televizijos laidų emocionalūs pokalbiai. Duomenų bazės trukmė yra 12 minučių. EmoTV yra HUMAINE duomenų bazės dalis [1; 9]. 20. Castaway emocionalios šnekos duomenų bazė (Castaway Reality Television Database, 2006) Kalba: anglų. Tipas: natūralios emocijos. Kalbantieji: 10 kalbėtojai. Emocijos: daug pozityvių ir negatyvių įvairaus intensyvumo emocijų. Įrašai: 10 įrašų. Castaway duomenų bazę sudaro grupės žmonių pokalbių ištraukų garso ir vaizdo įrašai. 10 žmonių atokioje saloje konkuruoja tarpusavyje atlikdami tam tikras užduotis. Ši duomenų bazė įdomi tuo, kad leidžia analizuoti emocijas veikloje, t. y. dalyviai atlieka kažkokią sudėtingą užduoti poromis arba grupėje ir rezultate laimi arba pralaimi. Duomenų bazę sudaro 10 įrašų. Kiekvieno įrašo trukmė yra 30 minučių. Castaway yra HUMAINE duomenų bazės dalis [10]. 21. Daugiakalbė emocionalios šnekos duomenų bazė (Multilingual Emotional Database, 2010) Kalbos: anglų, italų, vokiečių ir prancūzų. Tipas: suvaidintos emocijos. Kalbantieji: 39 kalbėtojai. Emocijos: pyktis, pasišlykštėjimas, baimė, laimė, liūdesys, nuostaba ir neutrali šneka. Įrašai: vienas neutralaus turinio sakinis ištariamas visomis kalbomis keturiais būdais išreiškiant visas emocijas. Italų sukurta Daugiakalbė emocionalios šnekos duomenų bazė yra įrašyta italų, prancūzų, anglų ir vokiečių kalbomis. Duomenų bazė buvo įrašyta pašalinius garsus slopinančioje garso studijoje. Kalbantieji (27 vyrai ir 12 vyrų aktorių) vieną neutralų sakinį turėjo ištarti savo gimtąja kalba (keturias būdais) išreikšdami pyktį, pasišlykštėjimą, baimę, laimę, liūdesį, nuostabą ir neutralia emocinę būklę. Buvo gauti 1560 suvaidintų emocijų įrašai, iš kurių testavimui buvo atrinktas 721 įrašas. Vienas iš duomenų bazės kūrimo tikslų buvo palyginti kaip skirtingai emocijas išreiškia aktoriai ir ne aktoriai, kitas – tarpkultūriniai skirtumai. Automatizuoto emocijų atpažinimo rezultato vidurkis yra 62,3% [31]. 22. HUMAINE emocionalios šnekos duomenų bazė (HUMAINE Database, 2007) Kalbos: anglų, prancūzų, hebrajų. Tipas: natūralios, sukeltos ir suvaidintos emocijos. Kalbantieji: įvairaus amžiaus vyrai ir moterys. Emocijos: platus emocijų (išreiškiamu veikloje, bendravime) diapazonas. Įrašai: 50 įrašų. HUMAINE duomenų bazę sudaro dvi dalys: Pirminiai įrašai ir Struktūrizuotas paženklintas rinkinys. Beveik visi pirminiai įrašai yra audiovizualizuoti ir apima įvairias emocijas išreiškiančius scenarijus. Struktūrizuotą paženklintą įrašų rinkinį sudaro emocijų epizodai, išrinkti iš pirminių įrašų. Pirminiai įrašai apima tris natūralios emocionalios šnekos duomenų bazes (Belfast Naturalistic Database, EmoTV database, Castaway Reality Television Database), šešias sukeltų emocijų duomenų bazes (Sensitive Artificial Listener, Activity Data/Spaghetti Data, Belfast Driving simulator Data, EmoTABOO, Green Persuasive Dataset, DRIVAWORK ) ir vieną suvaidintų emocijų duomenų bazę (GEMEP Corpus). Struktūrizuotą paženklintą rinkinį sudaro 48 iš pirminių įrašų atrinkti įrašai. Įrašų trukmė nuo 3 sekundžių iki 2 minučių. Parinkti įrašai demonstruoja emocijas veikloje ir bendravime (monologas, dialogas). Du įrašai yra laisvai prieinami svetainėje http://emotion-research.net/download/pilot-db/ [10; 11; 35; 47]. Kalbant apie emocionalios šnekos duomenų bazes reikėtų pabrėžti, kad dominuoja duomenų bazės įrašytos anglų kalba, po jų seka vokiečių ir kinų kalbomis įrašytos bazės. Rusų, olandų, slovėnų, švedų, japonų, ispanų ir kitomis kalbomis yra įrašytos tik kelios duomenų bazės. Daugumą duomenų bazių sudaro 4-5 pagrindinės emocijos ir tik kelias duomenų bazes sudaro 7-8 emocijos. Suvaidintos emocionalios šnekos duomenų bazės yra dominuojančios [22; 42]. Emocionalios šnekos duomenų bazės yra labai skirtingos. Skiriasi jų apimtys, emocijos bei jų skaičius, kalbančiųjų skaičius. Todėl palyginti emocijų analizės bei atpažinimo rezultatus naudojant skirtingas bazes (skirtingas kalbas) yra neįmanoma. Siekiant analizuoti emocijų atpažinimą skirtingose kalbose yra sukuriamos daugiakalbės emocionalios šnekos duomenų bazės (Multilingual Emotional Database) [31]. Sukurtų duomenų bazių įrašai yra testuojami. Dažniausiai testuoja 20-30 asmenų grupė. Jiems leidžiama vieną kartą paklausyti emocionalios šnekos įrašo ir nustatyti emocijos tipą. Tokio emocijų atpažinimo tikslumas neviršija 80%. Automatizuoto emocijų atpažinimo rezultatai taip pat yra arti 80% [22]. Dauguma emocionalios šnekos duomenų bazių yra mokamos. Viena populiariausių ir nemokamų yra Berlyno emocionalios šnekos duomenų bazė. Apibendrinant galima pasakyti, kad yra būtinybė sukurti tinkamai suprojektuotą, fonetiškai subalansuotą natūralios emocionalios šnekos duomenų bazę apimančią įvairias emocijas. Ši duomenų bazė galėtų būti standartizuota tarptautiniu mastu bei įrašyta pagrindinėmis kalbomis, kas leistų atlikti emocijų analizę skirtingose kalbose bei palyginti rezultatus [22]. 4 Emocijų požymiai šnekos signale 4.1 Požymių paskirtis Emocinei šnekai atpažinti yra naudojami emocinės šnekos požymiai, atspindintys konkrečias emocijas. Tinkamų požymių pasirinkimas kuriant šnekos sistemas yra esminis sprendimas. Skirtingi šnekos požymiai pateikia skirtingą šnekos informaciją (kalbantysis, šneka, emocijos ir kt.). Tyrinėjant šneką požymiai labai dažnai yra pasirenkami eksperimentiniu pagrindu, kartais yra naudojami matematiniai metodai, pvz., pagrindinių komponentų analizė (PCA). 4.2 Požymių rūšys Emocijos buvimas šnekoje yra aiškiai užkoduotas šnekos signale, bet klausimas, kaip tiksliai nustatyti specifinius požymius, kurie padėtų perteikti emociją, lieka neatsakytas. Pvz., džiaugsminga šneka yra susieta su pagrindinio tono dažnio vidurkio padidėjimu, balso intensyvumo vidurkio padidėjimu ir didesniu pagrindinio tono dažnio (F0) kintamumu, o nuobodžiaujanti šneka visada yra susijusi su pagrindinio tono dažnio (F0) vidurkio mažėjimu ir pirmos formantės dažnio vidurkio (F1) padidėjimu. Daugumoje darbų, kurie nagrinėja automatinį emocijų atpažinimą šnekoje yra įvardijami prozodiniai ir spektro požymiai. Prozodiniai požymiai Prozodiniai požymiai yra dažniausiai naudojami emocinės šnekos atpažinimo eksperimentuose ir yra gaunami iš pagrindinio tono dažnio (F0), formančių dažnių reikšmių, balso intensyvumo, energijos, pauzių, šnekos trukmės ir greičio, balso kokybės aprašų (profiles). Emocijos analizei šnekoje yra naudojama įvairi jų statistika: F0 vidutinė reikšmė, standartinis nuokrypis, minimumas ir maksimumas, pirmoji išvestinė, balso intensyvumas ir jo išvestinė ir t. t. Požymiai yra gaunami atsižvelgiant į laiko atkarpą (time segment). Spektro požymiai Spektro požymiai remiasi trumpalaikiu garso galios spektru, kaip antai tiesinės prognozės koeficientai (linear prediction coefficients (LPC)) ir melų skalės kepstro koeficientai (mel-frequency cepstral coefficients (MFCC)) bei jų statistika. Šiems požymiams emocijų atpažinime skiriama mažiau dėmesio. Spektriniai požymiai yra sunkiau intuityviai susieti su emocine būsena, jie suteikia labiau detalų šnekos signalo aprašymą ir tai gali pagerinti emocijos atpažinimo tikslumą lyginant su prozodiniais požymiais. Reikėtų paminėti tai, jog šie požymiai turi savyje nemažai informacijos apie lingvistinį šnekos turinį (tai kas sakoma), kas daro šiuos požymius priklausomus nuo šnekos turinio. Jie labiau atspindi tai, kas sakoma, o ne kaip sakoma. Epochų požymiai Šnekos signalo generavimo metu balso stygos vibruoja užtverdamos ir atverdamos kelią oro srautui iš plaučių. Uždarasis balso stygų (balsaskylės) periodas yra vadinamas epocha. Požymiai, išskirti iš signalo atkarpos, atitinkančios uždarumo laikotarpį, yra vadinami epochų parametrais ir yra naudojami kaip požymiai emocijų klasifikavime. Literatūroje yra pateikiami tokie epochų parametrai kaip epochos stiprumas (angl. strength of epoch), momentinis dažnis, epochos raiškumas/ryškumas (angl. sharpness of epoch), epochos nuolydžio stiprumas. Fonemų informacija Emocinės šnekos požymiai keičiasi ir pagal fonemų (kalbos garsinės sistemos vienetas, neskaidomas į mažesnius elementus ir skiriantis tos kalbos žodžius ar morfemas) informaciją, todėl išgaunant požymius emocijų atpažinimui šnekoje reikėtų išnagrinėti ir fonemų informaciją. Tačiau tokia informacija įmanoma tik atpažinus fonemas, t.y. atsiranda šnekos atpažinimo poreikis. O teisingas ir patikimas šnekos atpažinimas yra dar vienas didelis uždavinys. Balso kokybės požymiai apibūdina balsaskylės pradžios (angl. glottal source) savybes ir yra įtakojami kalbos sužadinimo signalo. Taigi, skirtingos emocinės būsenos gali įtakoti balso kokybę. Kartu su pagrindinio tono dažniu ir trukme balso kokybė priskiriama prie kalbos prozodijos. Emocijoms analizuoti kalboje yra naudojami tokie balso kokybės požymiai, kaip sužadinimo signalo savybės, artikuliacijos būdas, balso tembras, pagrindinio tono dažnio svyravimas ir garsumo svyravimas. Kitas svarbus požymis emocijų atpažinime yra harmonikų skaičius, susidarančių dėl netiesinių balso trakto savybių. Pagrindinio tono dažnis daro įtaką harmonikų skaičiui spektre. Kuo tono dažnis yra aukštesnis, tuo mažiau harmonikų susidaro ir atvirkščiai, kuo tono dažnis yra žemesnis, tuo daugiau harmonikų susidaro. Geresniam emocinės kalbos apibūdinimui kartu su populiariais pagrindinio tono dažnio ir energijos požymių statistika siūloma naudoti naujus harmonikų ir Zipf grindžiamus (angl. Zipf based) požymius. Harmonikų požymiai apibūdina signalo spektrą pagrindinio tono ir formančių struktūra. Zipf požymiai charakterizuoja vidinę signalo struktūrą, ypač ritminius ir prozodinius balso išraiškos aspektus. 4.3 Požymių rinkinio optimizavimas Atliekant emocijų analizę kalbos signale požymiai labai dažnai yra pasirenkami eksperimentiniu pagrindu [22]. Išskiriamų požymių kiekis yra neapibrėžtas ir jų skaičius kartais siekia keletą tūkstančių požymių [7]. Tokius didelius požymių rinkinius neišvengiamai tenka mažinti dėl dviejų priežasčių. Pirma, norint tinkamai apmokyti klasifikatorių, didelis požymių rinkinys reikalauja milžiniškų apmokymui skirtų duomenų kiekių (emocingos kalbos įrašų). Antra, didelės apimties požymių rinkiniai reiškia ilgą apmokymą ir klasifikavimo procesą. Todėl požymių rinkinius tenka mažinti [2; 27]. Mažinant požymių rinkinius yra rizika prarasti emocijų klasifikavimui reikšmingus požymius, todėl tenka naudoti požymių rinkinio optimizavimo metodus [31]. Požymių rinkinio formavimo metodus galima suskirstyti į dvi grupes: požymių atrankos ir požymių transformavimo [32]. Požymių atrankos metodai leidžia atrinkti rinkinių poaibius atmetant mažiau reikšmingus požymius arba apjungiant požymius, lemiančius didžiausią emocijų atpažinimo tikslumą. Dažniausiai yra naudojami tokie požymių atrankos metodai, kaip nuoseklus aibės didinimas, nuoseklus aibės mažinimas, geriausiojo pirmo pasirinkimo metodas, įvairūs genetiniai algoritmai ir kt. Taikant nuoseklaus aibės didinimo (angl. Sequential forward selection) metodą požymių rinkinys formuojamas nuo pradžių, kiekvienoje iteracijoje pasirenkant požymį, duodantį didžiausią emocijos teisingos klasifikacijos padidėjimą [6; 31; 41]. Nuoseklaus aibės mažinimo (angl. Sequential backward selection) metodo esmė yra mažinti pradinį požymių rinkinį nuosekliai pašalinant tą požymį, be kurio požymių rinkinys duoda geresnį rezultatą [6]. Naudojant geriausiojo pirmojo pasirinkimo (angl. Promising first selection) metodą kiekvienam požymiui nustatoma klasifikacijos klaida. Požymiai surikiuojami klaidos didėjimo tvarka, o požymių rinkinys formuojamas nuosekliai pasirenkant geriausią pirmąjį. Galutiniu paskelbiama požymių rinkinio versija, lemianti mažiausią atpažinimo klaidą [8]. Optimalus požymių rinkinys gali būti formuojamas genetiniais algoritmais generuojant naujus požymių darinius ir optimizuojant juos [6; 36]. Taikant požymių transformavimo metodiką sudarytieji požymių rinkiniai optimizuojami transformuojant požymių reikšmes ir mažinant rinkinio eilę (požymių kiekį rinkinyje). Taip bandoma spręsti „daugiamatiškumo prakeiksmo“ problema, kuomet dėl aukštos požymių rinkinio eilės ir nepakankamo duomenų kiekio nepavyksta tinkamai apmokyti klasifikatoriaus (ir tuo pačiu tikėtis aukšto klasifikavimo tikslumo). Kalbos emocijų požymių optimizavimui yra naudojami tokie duomenų transformavimo metodai kaip pagrindinių komponenčių analizė [7], tiesinė diskriminantinė analizė [19], daugiamačių skalių metodas (angl. Multidimensional scaling) [32], Lipšitzo erdvės metodas (angl. Lipsitz spacing method) [20], Fišerio diskriminantinė analizė [49], neuronų tinklai [15], sprendimų medžiai [32] ir kt. Visgi nėra bendro sutarimo dėl fiksuoto požymių rinkinio emocijų atpažinimui kalboje [4; 31; 45]. Į rinkinį dažnai yra įtraukiami įvairių rūšių požymiai, taip tikintis pagerinti klasifikavimo kokybę. Labai dažnai, sudarant požymių rinkinį, papildomai yra naudojama įvairi požymių statistika. 4.4 Požymių atrankos kriterijai Naudojant požymių atrankos metodus būtina apsispręsti dėl požymių atrankos kriterijaus. Daugeliu atveju požymių atranka remiasi jų klasifikavimo efektyvumu – yra įvertinamas atskirų požymių klasifikavimo tikslumas kuris yra naudojamas atliekant pasirinkimo (eliminavimo) žingsnį [51]. Kitas naudojamas požymių atrankos kriterijus yra požymių arba požymių vektorių kryžminės koreliacijos koeficientas [52, 53]. Minimalus kryžminės koreliacijos koeficientas leidžia atrinkti efektyviausius požymius klasifikavimui. Taip pat požymių atrankai yra naudojamas tiesine diskriminantine analize pagrįstas Fisher rates [54]. Fisher rates leidžia atrinkti požymius, turinčius didžiausią diskriminantinę jėgą tarp emocijų. Daugiau informacijos apie požymių atrankos kriterijus galima rasti 1 ir 2 prieduose pateiktuose straipsniuose. 5 Emocionalios šnekos klasifikavimo schemos Emocijų atpažinimo tikslumas gali būti padidintas naudojant įvairias klasifikavimo schemas. Įprastas (vieno etapo klasifikavimas naudojant vieną požymių rinkinį visoms emocijos klasifikuoti) tradicinių klasifikatorių naudojimas daro emocijų atpažinimo procesą priklausoma nuo požymių rinkinio. Unikalus klasifikavimo proceso organizavimas gali pagerinti emocijų atpažinimo tikslumą netgi naudojant tą patį požymių rinkinį. Žemiau yra pristatyti keli netradiciniai klasifikavimo metodai. Sustiprintas bendro mokymo algoritmas (Enhanced co-training algorithm) buvo pasiūlytas siekiant pagerinti emocijų atpažinimo tikslumą [55]. Du skirtingi požymių rinkiniai buvo naudojami dviem skirtingiem klasifikatoriams klasifikuojant šešias emocijas. Pirmą požymių vektorių sudarė 20 požymių, kurie buvo naudojami apmokant SVM klasifikatorių. Antrą požymių rinkinį sudarė 12 požymių, kurie buvo naudojami apmokant HMM klasifikatorių. Apmokymas buvo kartojamas iki 18 kartų abiems klasifikatoriams apmokymui naudojant vienodus paženklintus (labelled) duomenis. Toliau, kiekvienam klasifikatoriui buvo paduodami neženklinti (unlabeled) apmokymo duomenys (įrašai). Abiejų klasifikatorių vienodai pažymėti įrašai buvo priskiriami laikinam rinkiniui. Toliau laikinojo rinkinio įrašai buvo nagrinėjami ir pridedami prie paženklintų apmokymo įrašų rinkinio. Abu apmokyti klasifikatoriai buvo atstatyti ir apmokymo procesas buvo vėl pakartotas 18 kartų kiekvienam klasifikatoriui naudojant atnaujintus apmokymo duomenis. Šis procesas yra kartojamas tol, kol neženklintų apmokymo įrašų rinkinys netaps tuščias. Šiam tyrime taip pat buvo atsižvelgta į lyčių informaciją ir vyrų bei moterų įrašai buvo klasifikuojami atskirai. Naudojant šią klasifikavimo schemą emocijų atpažinimo tikslumas pasiekė 75,9 % moterims ir 80,9 % vyrams. Skirtinų klasifikatorių sintezė taip pat buvo pasiūlyta siekiant pagerinti emocijų atpažinimo tikslumą [56]. Sintezės principas buvo realizuotas naudojant Queuing voting algoritmą. Buvo naudojami trys skirtingi klasifikatoriai su skirtingais požymių rinkiniais (gautais naudojant Promising first selection požymių atrankos metodą). Daugumos balsavimo principas (Majority voting principle) buvo išplėstas naudojant svorio koeficientus ir galutinis sprendimas dėl emocijos klasifikavimo buvo gaunamas atsižvelgiant į šios svorius. Sintezės metodas reikalauja individualiai efektyvių klasifikatorių bei požymių rinkinių parinkimo, nes galutinis emocijų klasifikavimo tikslumo rezultatas naudojant šią schemą priklauso nuo atskirų klasifikatorių efektyvumo. Dviejų stadijų hierarchinė klasifikavimo schema remiasi lyčių skirtumu [57]. Pirmoje stadijoje visi emocionalios šnekos įrašai yra klasifikuojami naudojant tono požymius (pitch) į tris emocijų grupes: vyrai arba neutrali (male/neutral), moterys arba pyktis (female/anger) ir neidentifikuota grupė. Grupių skaičius ir tipas yra nulemiamas tono požymių reikšmių diapazono. Antros stadijos tikslas yra klasifikuoti neidentifikuotų emocijų grupę į dvi emocijų grupes: pyktis arba vyrai (anger/male) ir neutrali arba moterys (neutral/female). Šioje klasifikavimo stadijoje buvo naudojami energijos, kepstro ir delta požymiai. Bendrą požymių skaičių naudojama šioje klasifikavimo schemoje sudaro 56 požymiai. Emocijų atpažinimo vidurkis naudojant šį metodą yra 80,7 %. Yra pasiūlyta dar viena hierarchinė dviejų stadijų klasifikavimo schema [58]. Pirmame žingsnyje visi emocionalios šnekos įrašai yra klasifikuojami pagal susijaudinimo lygį (arousal dimension) į aktyvias (active) ir neaktyvias (not-active) emocijas (paskutinės grupės įrašai dar yra klasifikuojami į vidutines (median) ir pasyvias (passive) emocijas). Antrame žingsnyje kiekviena emocijų grupė yra klasifikuojama į dvi specifines emocijas. Aktyvių emocijų grupė yra klasifikuojama į pyktį ir džiaugsmą, vidutinių emocijų grupė yra klasifikuojama į baimę ir neutralią būseną, pasyvių emocijų grupė yra klasifikuojama į liūdesį ir nuobodulį. Kiekviename klasifikavimo etape yra naudojami skirtingi požymiai ir binariniai klasifikatoriai. Požymių rinkiniai gaunami naudojant SFS požymių atrankos metodą (SFS feature selection scheme). Bendrą eksperimente naudojama požymių rinkinį sudaro 68 požymiai. Ši schema leido pasiekti 76,4 % emocijų atpažinimo tikslumą. Trečios hierarchinės klasifikavimo schemos idėja yra atskirų posistemių apmokymas [59]. Kiekviena posistemė naudoja vis kitokį požymių rinkinį, skirta vienai iš dviejų emocijų atpažinti. Šešios emocijos yra analizuojamos: pyktis, džiaugsmas, liūdesys, baimė, nuobodulys ir neutrali būsena. Visos šios emocijos yra grupuojamos į 15 emocijų porų (vadinamus posistemius). Kiekvienas posistemis yra analizuojamas naudojant konkretų požymių rinkinį šių emocijų atpažinimui. Šie požymių rinkiniai yra gaunami iš bendro požymių rinkinio (kurį sudaro 112 požymių) taikant Sequential backward selection ir Maximum relevance – minimum redundancy požymių atrankos metodus. Bendras emocijų atpažinimo tikslumas sudaro 85,2 % atsižvelgiant į lyčių skirtumo informaciją ir 80,1 % neatsižvelgiant į lyčių skirtumo informaciją. Genetiniai algoritmai yra naudojami sudarant požymių vektorius Daugiarūšiam klasifikavimui (Multistyle classification) [6]. Penki požymių rinkiniai buvo naudojami poriniam ir daugiarūšiam klasifikavimui. Požymių rinkinius sudaro 16-48 požymių. Buvo nagrinėjami keturi emocionalios šnekos stiliai: neutralus, piktas, stiprus ir Lombard. Aukščiausias klasifikavimo tikslumas siekė 82,74 % ir buvo gautas naudojant daugiarūšį klasifikavimą su 48 požymiais. Detalesnį klasifikavimo schemų aprašymą galima rasti 1 priede pateiktame straipsnyje. 6 Daugiapakopio klasifikavimo schema Emocijų klasifikavimui pasiūlyta daugiapakopę schemą (2 pav.). 2 pav. Daugiapakopio klasifikavimo schema Visos nagrinėjamos emocijos yra klasifikuojamos etapais. Kiekviename etape yra nagrinėjama tam tikra emocijų klasė. Nagrinėjamų emocijų klases lemia naudojami požymiai. Pavyzdžiui, nagrinėjant energiją kaip požymius, pirmajame lygyje būtų vykdomas klasifikavimas į žemos ir aukštos energijos klases (žemos energijos emocijų pavyzdžiai – nuobodulys, neutrali, aukštos energijos – džiaugsmas, pyktis). Antrajame lygyje žemos ir aukštos energijos klasės yra klasifikuojamos į žemesnio lygio klases arba į atskiras emocijas, kurias apibrėžtų naudojami požymiai (visiškai kitokie, nei naudoti I lygio klasifikavimo metu). Toks emocijų klasifikavimas lygiais leidžia kiekviename lygyje nagrinėjamiems duomenims (emocijoms arba jų klasėms) pritaikyti efektyviausius požymius. Tai reiškia jog kiekvienam klasifikavimo (𝑙) lygiui ir emocijų klasei reikia parinkti individualų požymių rinkinį 𝐹𝑚 , o visas daugiapakopis klasifikavimo (𝑙) procesas būtų apibūdinamas bendru visų klasių ir emocijų požymių junginiu {𝐹𝑚 }. Detalesnį pasiūlytos emocijų klasifikavimo schemos aprašymą galimą rasti 1 priede pateiktame straipsnyje. 6.1 Maksimalaus efektyvumo kriterijus daugiapakopių šnekos emocijų atpažinimo požymių atrankai Buvo atliktas emocionalios šnekos klasifikavimo tyrimas pagal 2 pav. pateiktą daugiapakopio klasifikavimo schemą. Daugiapakopių šnekos emocijų atpažinimo požymių atrankai buvo pasiūlytas maksimalaus požymių efektyvumo kriterijus. Atliktame tyrime požymių atrankai buvo naudojamas maksimalaus efektyvumo kriterijus. Šis kriterijus leido atrinkti mažiausią klasifikavimo klaidą turinčius požymius (𝑙) (𝑙) 𝐹𝑚 = {𝑎𝑟𝑔 min 𝐸(𝐹𝑗 ) } , 𝑗 𝑗 = 1, … , 𝐽. (𝑙) (𝑙) čia 𝐸(𝐹𝑗 ) – yra klasifikavimo klaida lygyje 𝑙 naudojant 𝑗 požymių vektorių 𝐹𝑗 . 𝐽 žymi galutinį požymių skaičių naudojama 𝑙 klasifikavimo lygyje. (𝑙) Efektyviausi požymiai 𝐹𝑗 (𝑙) buvo pakartotinai pridedami į požymių rinkinį 𝐹𝑚 . Požymių rinkinio didinimas sustabdomas kai gautas požymių rinkinys nustoja gerinti klasifikavimo rezultatus. Daugiau informacijos apie atliktą tyrimą bei tyrimo rezultatus galima rasti 1 priede pateiktame straipsnyje. 6.2 Minimalios koreliacijos kriterijus daugiapakopių šnekos emocijų atpažinimo požymių atrankai Buvo atliktas emocionalios šnekos klasifikavimo tyrimas pagal 2 pav. pateiktą daugiapakopio klasifikavimo schemą. Minimalios požymių tarpusavio koreliacijos koeficientas buvo pasiūlytas kaip požymių atrankos kriterijus. Atliktame tyrime požymių vektorių buvo sudaromas remiantis dvejopu kriterijumi: Siekiant sudaryti maksimalaus efektyvumo požymių vektorių, jis buvo inicijuojamas požymiu, lemiančiu mažiausią klasifikavimo klaidą nagrinėjamosioms klasėms 𝐹0𝑙 = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝐸(𝐹𝑖𝑙 ) , 𝑖 = 1, … , 𝑃, 𝑖 čia 𝐸(𝐹𝑖𝑙 ) - 𝑙-ojo lygio klasifikavimo klaida naudojant vieną iš 𝑃 požymį 𝐹𝑖𝑙 . Požymių vektorius buvo didinamas pridedant nuo pradinio tiesiškai nepriklausomus požymius 𝐹𝑘𝑙 . Tiesinis požymių nepriklausomumas leidžia tikėtis, jog tokie požymiai turės maksimalią diskriminantinę galią. Paprasčiausias tiesinės priklausomybės įvertinimo būdas – požymių tarpusavio koreliacijos skaičiavimas 𝐹𝑘𝑙 = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝑅(𝐹0𝑙 , 𝐹𝑗𝑙 ) , 𝑗 = 1, … 𝑃, 𝑗 čia 𝑅(𝐹0𝑙 , 𝐹𝑗𝑙 ) pradinio 𝐹0𝑙 ir 𝑙-ojo lygmens 𝑗-ojo požymio tarpusavio koreliacija. Kiekvienąkart pridėjus požymį 𝐹𝑘𝑙 , gaunamas požymių vektorius buvo vertinamas klasifikuojant emocijas. Požymių vektorius 𝐹𝑚𝑙 didinimas buvo sustabdomas kai gaunamas klasifikavimo efektyvumas pradėdavo mažėti. Daugiau informacijos apie atliktą tyrimą bei tyrimo rezultatus galima rasti 2 priede pateiktame straipsnyje. 7 Literatūra [1] ABRILIAN, S., DEVILLERS, L., BUISINE, S., MARTIN, J-C, (2005) “EmoTV1: Annotation of Real-life Emotions for the Specification of Multimodal Affective Interfaces”, HCI International. [2] ANAGNOSTOPOULOS C. N., ILIOU T., AND I. GIANNOUKOS, “Features and classifiers for emotion recognition from speech: a survey from 2000 to 2011”, Artificial Intelligence Review, 2012. [3] BATLINER, A. STEIDL, S.; NÖTH, E. Releasing a thoroughly annotated and processed spontaneous emotional database: the FAU Aibo Emotion Corpus. 2008. [4] BITOUK D., VERMA R., AND NENKOVA A., “Class-level spectral features for emotion recognition”, Speech Communication, Vol. 52, Issues 7-8, pp. 613-625, July-August 2010. [5] BURKHARDT, F., PAESCHKE, A., ROLFES, M., SENDLMEIER, W., WEISS, B. A database of German emotional speech. [6] CASALE S., RUSSO A., AND SERANO S., “Multistyle classification of speech under stress using feature subset selection based on genetic algorithms”, Speech Communication, Vol. 49, Issues 1011, pp. 801-810, October-November 2007. [7] CHIOU B.-C. AND CHEN C.-P., “Feature Space Dimension Reduction in speech emotion recognition using Support Vector Machine”, Signal and Information Processing Association Annual Summit and Conference 2013, pp. 1-6, October-November 2013. [8] DELLAERT F., POLZIN T., AND WAIBEL A., “Recognizing emotion in speech”, Fourth International Conference on Spoken Language 1996, Vol. 3, pp. 1970-1973, October 1996. [9] DEVILLERS, L., COWIE, R., MARTIN, J.-C., DOUGLAS-COWIE, E., ABRILIAN, S., MCRORIE, M.: Real life emotions in French and English TV video clips: an integrated annotation protocol combining continuous and discrete approaches. 5th international conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy (2006). [10] DOUGLAS-COWIE E., COWIE R., SNEDDON I., COX C., LOWRY O., MCRORIE M., MARTIN J.-C., DEVILLERS L., ABRILAN S., BATLINER A., AMIR N., AND KARPOUSIS K., “The HUMAINE Database: Addressing the Collection and Annotation of Naturalistic and Induced Emotional Data,” in Affective Computing and Intelligent Interaction, A. Paiva, R. Prada, and R. W. Picard, Eds. Berlin-Heidelberg: Springer, 2007, pp. 488–500. [11] DOUGLAS-COWIE ELLEN, COX CATE, MARTIN JEAN-CLAUDE, DEVILLERS LAURENCE, COWIE RODDY, SNEDDON IAN, MCRORIE MARGARET, PELACHAUD CATHERINE, PETERS CHRISTOPHER, LOWRY ORLA, BATLINER ANTON, HÖNIG FLORIAN. The HUMAINE database. 2011. [12] DOUGLAS-COWIE, E., COWIE, R., SCHRODER, M. A new database: consideration, sources and scope. [13] DROPULJIC, B., CHMURA, M.T.; KOLAK, A.; PETRINOVIC, D. Emotional Speech Corpus of Croatian Language. [14] ENGBERG, I., S., HANSEN, A., V., ANDERSEN, O., DALSGAARD, P. Design, recording and verification of a Danish emotional speech database. [15] GHARAVIAN D., SHEIKHAN M., NAZERIEH A., AND GAROUCY S., “Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network”, Neural Computing and Applications, Vol. 21, Issue 8, pp. 2115-2126, November 2012. [16] GRIMM, MICHAEL; KROSCHEL, KRISTIAN; NARAYANAN, SHRIKANTH S. The Vera am Mittag German audio-visual emotional speech database, 2008. [17] HANSEN J. AND BOU-GHAZALE S., “Getting started with susas: A speech under simulated and actual stress database,” in Proc. EUROSPEECH-97, vol. 4, Rhodes, Greece, 1997, pp. 1743–1746. [18] HANSEN, J., H., L., PATIL, S. Speech under stress: analysis, moseling and recognition. Speaker Classification I. 2007. 108-137. [19] YOU M., CHEN C., BU J., LIU J., AND TAO J., “Emotion Recognition from Noisy Speech”, IEEE International Conference on Multimedia and Expo 2006, pp. 1653-1656, July 2006. [20] YOU M., CHEN CH., BU J., LIU J., AND TAO J., “Manifolds based emotion recognition in speech”, Computational Linguistics and Chinese Language Processing, Vol. 12, pp. 49-64, March 2007. [21] KEIHREN ROLAND. The Prosody of Authentic Emotions. [22] KOOLAGUDI S. G. AND RAO K. S., “Emotion recognition from speech: a review”, International Journal of Speech Technology, Vol. 15, Issue 2, pp. 99-117, June 2012. [23] KOOLAGUDI, S., G., REDDY, R., YADAV, J., RAO, K., S. IITKGP-SEHSC: Hindi speech corpus for emotion analysis. [24] KOOLAGUDI, S., G., REDDY, R., RAO, K., S. Emotion recognition from speech signal using epoch parameters. 2010. [25] KOSTOULAS THEODOROS, GANCHEV TODOR, MPORAS IOSIF, FAKOTAKIS NIKOS. A Real-World Emotional Speech Corpus for Modern Greek, 2008. [27] LUGGER M. AND YANG B., “The relevance of voice quality features in speaker independent emotion recognition”, IEEE International Conference on Acoustics, Speech and Signal Processing 2007, Vol. 4, pp. 17-20, April 2007. [28] MAKAROVA VERONIKA, PETRUSHIN VALERY A.. Ruslana: A Database of Russian Emotion Utterances. ICSLP-2002. 01/2002; In proceeding of: 7th International Conference on Spoken Language Processing, ICSLP2002 - INTERSPEECH 2002, Denver, Colorado, USA, September 1620, 2002. [29] MARTIN O., KOTSIA I., MACQ B., PITAS I.; The eNTERFACE’05 Audio-Visual Emotion Database. [30] OFLAZOGLU C, YILDIRIM S: Turkish emotional speech database. In Proc. IEEE 19th Conf. Signal Processing and Communications Applications (SIU) 2011:1153–1156. [31] ORIGLIA A., GALATA V., AND LUDUSAN B., “Automatic classification of emotions via global and local prosodic features on a multilingual emotional database”, in Proc. of Speech Prosody 2010, Chicago, 2010. [32] RONG J., LI G., AND CHEN Y.-P. P., “Acoustic feature selection for automatic emotion recognition from speech”, Information Processing and Management, Vol. 45, Issue 3, pp. 315-328, May 2009. [33] SCHULLER B., MULLER R., EYBEN F., GAST J., HORNLER B., WOLLMER M., RIGOLL G., HOTHKER A., KONOSU H., “Being Bored? Recognizing Natural Interest by Extensive Audiovisual Integration for Real-Life Application,” Image and Vision Computing Journal (IMAVIS), Special Issue on Visual and Multimodal Analysis of Human Spontaneous Behavior, 2009, 17 pages. [34] SCHULLER BJORN, ARSIC DEJAN, RIGOLL GERHARD. Audiovisual Behavior Modeling by Combined Feature Spaces. [35] SCHULLER, B.; VLASENKO, B.; EYBEN, F.; RIGOLL, G. Acoustic Emotion Recognition: A Benchmark Comparison of Performances. [36] SCHULLER, S. REITER, AND G. RIGOLL, “Evolutionary feature generation in speech emotion recognition”, IEEE International Conference on Multimedia and Expo 2006, pp. 5-8, July 2006. [37] SEPPÄNEN T., TOIVANEN J., VÄYRYNEN E. Media Team Speech Corpus: a first large Finnish emotional speech database. [38] SLOBODAN T. JOVIČIĆ, ZORKA KAŠIĆ, MIODRAG ĐORĐEVIĆ, MIRJANA RAJKOVIĆ, Serbian emotional speech database: Design, processing and Evaluation, Specom‘2004. [39] STEININGER S., SCHIEL F., DIOUBINA O., AND RAUBOLD S., “Development of user-state conventions for the multimodal corpus in smartKom,” in Proc. Workshop on Multimodal Resources and Multimodal Systems Evaluation, Las Palmas, 2002, pp. 33–37. [41] VERVERIDIS D., KOTROPOULOS C., AND PITAS I., “Automatic emotional speech classification”, IEEE International Conference on Acoustics, Speech, and Signal Processing 2004, Vol. 1, pp. 593-596, May 2004. [42] VERVERIDIS, D., KOTROPOULOS C. A state of the art review on emotional speech databases. [43] VERVERIDIS, D., KOTROPOULOS C. Emotional speech recognition: Resources, features, and methods. Speech Communication, 2006, 1162-1181. [44] VERVERIDIS, D., KOTROPOULOS C., PITAS, I. Automatic emotional speech classification. 2004, I, 593-596. [45] VOGT T. AND ANDRE E., “Comparing feature sets for acted and spontaneous speech in view of automatic emotion recognition”, IEEE International Conference on Multimedia and Expo 2005, pp. 474-477, July 2005. [46] VOGT, T., ANDRE, E., WAGNER, J. Automatic recognition of emotions from speech: a review of literature and recommendation for practical realization. 2008. [47] WOLLMER M., EYBEN F., REITER S., SCHULLER B., COX C., DOUGLAS-COWIE E., AND COWIE R., “Abandoning emotion classes - towards continuous emotion recognition with modelling of long-range dependencies,” in Proc. 9th Interspeech 2008. Brisbane, Australia: ISCA, 2008, pp. 597–600. [48] XIAO, Z., DELLANDREA, E., CHEN L. Recognition of emotions in speech by a hierarchical approach. [49] ZHANG S., LEI B., CHEN A., CHEN C., AND CHEN Y., “Spoken emotion recognition using local Fisher discriminant analysis”, IEEE 10th International Conference on Signal Processing 2010, pp. 538-540, October 2010. [50] ZOTTER, F. Emotional speech. 2003. [51] XIAO, Z., CENTRALE E., CHEN L. and DOU W., “Recognition of emotions in speech by a hierarchical approach,“ 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, pp. 1-8, September 2009. [52] MENCATTINI A., MARTINELLI E., COSTANTINI G., TODISCO M., BASILE B., BOZZALI M. and CORRADO Di N., “Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure,“ Knowledge-Based Systems, pp. 68-81, June 2014. [53] OFLAZOGLU C. and YILDIRIM S., “Recognizing emotion from Turkish speech using acoustic features,“ EURASIP Journal on Audio, Speech, and Music Processing, December 2013. [54] CHEN L., MAO X., WEI P., XUE Y. and ISHIZUKA M., “Mandarin emotion recognition combining acoustic and emotional point information,“ Applied Intelligence, pp. 602-612, December 2012. [55] LIU, J., CHEN, C., BU, J., YOU, M., TAO, J. (2007 m. July 2-5 d.). Speech Emotion Recognition using an Enhanced Co-Training Algorithm. 2007 IEEE International Conference on Multimedia and Expo, p. 999 - 1002. [56] ZHANG, Y., WANG, C., FU, L. (2010, October 29-31). Classifier fusion for speech emotion recognition. Intelligent Computing and Intelligent Systems (ICIS), 2010 IEEE International Conference on, 3 , pp. 407 - 410. [57] YOON, W.-J., PARK, K.-S. (2011). Building Robust Emotion Recognition System on Heterogeneous Speech Databases. 2011 IEEE International Conference on Consumer Electronics, pp. 825-826. [58] ZHONGZHE, X., CENTRALE, E., CHEN, L., DOU, W. (2009, September 10-12). Recognition of emotions in speech by a hierarchical approach. 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, pp. 1 - 8. [59] GIANNOULIS, P., POTAMIANOS, G. (2012, May). A hierarchical approach with feature selection for emotion recognition from speech. In: Proceedings of the Eighth International Conference on Language Resources and Evaluation, pp. 1203-1206. 1 priedas Low-Order Multi-Level Features for Speech Emotions Recognition Gintautas TAMULEVIČIUS, Tatjana LIOGIENĖ Institute of Mathematics and Informatics, Vilnius University, Akademijos 4, Vilnius, Lithuania [email protected]; [email protected] Abstract. Various feature selection and classification schemes were proposed to improve efficiency of speech emotion classification and recognition. In this paper we propose multi-level organization of classification process and features. The main idea is to perform classification of speech emotions in step-by-step manner using different feature subsets for every step. We applied the maximal efficiency feature selection criterion for composition of feature subsets in different classification levels. The proposed multi-level organization of classification and features was tested experimentally in two emotions, three emotions, and four emotions recognition tasks and was compared with conventional feature combination techniques. Using the maximal efficiency feature selection criterion 2nd and 16th order multi-level feature sets were composed for three and four emotions recognition tasks respectively. Experimental results show the superiority of proposed multi-level classification scheme by 6,3–25,6 % against straightforward classification and conventional feature combination schemes. Keywords: speech emotion recognition, features, feature selection, classification. 1. Introduction The main aim of speech emotion recognition task is to identify the emotion state of the speaking person analyzing his speech. Speech emotion recognition emerged as separate area of research in the 9th decade of the last century. Despite the intensive research there is no definitive solution giving accurate and reliable speech emotion identification. Still, the accuracy is not very high, no efficient methods have been proposed for acoustical analysis of the speech signal and classification of the emotional features. Accurate and reliable speech emotion recognition would find its application in criminalistics, call centers, robotics, and enhancement of human-computer interaction (Dellaert et al., 1996; Casale and Russo, 2007; Zhongzhe et al., 2009). Speech emotion recognition task is a typical classification task. In general, the recognition process can be separated into three stages: acoustical signal analysis, training of classifier and classification based decision process. During the speech signal analysis stage the emotional features of the speech are extracted. Hundreds of various acoustical features are proposed for evaluation speech emotion. Often this variety gives sets of a few thousands features. Unfortunately, high order features cannot guarantee efficient speech emotion recognition. Thus, efficient speech emotion recognition requires some more decisions regarding feature extraction, training and classification processes. In this paper a novel multi-stage classification of speech emotions using multi-level features is proposed. The idea of the multi-level features is to use separate particular emotion groups and classify them into particular emotions using their specific feature sets. This allows us to reduce the feature sets and to improve recognition rate of speech emotions. 2. Speech emotion features There is no general consensus in selection of feature set for speech emotion recognition (Origlia et al., 2010). The researchers use wide variety of features expecting to improve efficiency of the recognition process. The most popular and frequently used speech emotion features can be grouped into prosodic and spectral features (Rong et al., 2009; Koolagudi et al., 2010). Prosodic features are obtained from pitch frequency, formant frequency values, vocal intensity, energy, pauses, speech duration and rate, voice quality characteristics (Koolagudi et al., 2012; Koolagudi and Rao, 2012). Spectral features are based on short-time signal spectrum properties like linear prediction coefficients, one-sided autocorrelation linear prediction, mel scale cepstral coefficients (Ayadi et al., 2011; Koolagudi and Rao, 2012). The extracted features are supplemented with derivative statistics. Statistical data of prosodic and spectral feature values such as average, median, standard deviation, dispersion, minimum and maximum values, quantiles and other are used very often as extension of extracted feature sets. Epoch (instant of glottal closure) parameters like strength of epoch, instantaneous frequency, sharpness of epoch, epoch slope strength are also used together with statistical data for speech emotion recognition (Koolagudi et al., 2010). Besides, voice quality features such as excitation signal properties, articulation method, and voice timbre are used also as emotional features of speech (Ayadi et al., 2011).Another important feature proposed is the number of harmonics, caused by nonlinear voice tract properties (Origlia et al., 2010). Vast majority of speech emotion recognition researches tend to explore huge feature sets up to a few thousand different features. This causes the “curse of dimensionality” problem, when the dimension of feature set is too high to train classifiers properly (because of the insufficient amount of training data). This problem can be solved by enlarging speech data amount or reducing predefined feature sets (Origlia et al., 2010). Feature set reduction methods can be classified into two groups: feature selection methods and feature transform methods (Rong et al., 2009). Feature selection methods allow to select feature subsets by choosing most effective features or rejecting less significant ones. The most popular approaches are sequential forward selection (Casale and Russo, 2007), sequential backward selection (Casale and Russo, 2007), promising first selection (Dellaert et al., 1996), genetic algorithms (Origlia et al., 2010), maximum relevance – minimum redundancy approach (Peng et al., 2005), and others. Using sequential forward selection procedure feature set is initialized with the most efficient feature and is cyclically appended with a new one making more efficient feature set. Sequential backward selection, on the contrary, reduces the dimension of initial set by rejecting features to make the set more efficient. Considering the variety of proposed features these procedures can cause a time consuming feature selection process as every possible variant of feature set should be evaluated in speech emotion identification separately. Promising first selection approach is based on individual efficiency of every feature. Features are sorted in descending order by their efficiency and the feature set is formed by choosing best features sequentially. The final feature set version is the one giving the lowest classification error. Maximum relevance – minimum redundancy approach selects features with maximum relevance to analysed emotion class. Relevance is characterized by mutual information between features (Peng et al., 2005; Giannoulis and Potamianos, 2012). Genetic algorithms were proposed for generation and optimization of feature sets also (Casale and Russo, 2007). The main idea of feature transform methods is optimization of feature sets by transforming dimensionality of feature sets. Various standard mathematical techniques are used for feature transform – principal components analysis (Chiou and Chen, 2013), linear discriminant analysis (You et al., 2006), multidimensional scaling (Rong et al., 2009), Lipschitz spacing method (You et al., 2007), Fisher discriminant analysis (Zhang et al., 2010), neural networks (Gharavian et al., 2012), decision trees (Rong et al., 2009). The main weakness of feature transform approach is pure mathematical operation and defiance of acoustical content of the features. 3. Classification schemes Additional efficiency of speech emotion recognition can be obtained using different classification schemes. Straightforward usage of conventional classifiers makes speech emotion recognition process dependent on feature set. Unique organization of the classification process can improve emotion recognition even for same feature sets. The examples of such classification scheme can be parallel classification, various hierarchical and multi-stage classification schemes. We will introduce a few proposed classification schemes. Enhanced co-training algorithm was proposed in order to increase emotions recognitions accuracy during classification step (Liu et al., 2007). Two different feature sets for two different classifiers were used for classification of the six emotions. First 20dimensional feature set included means, standard deviations, maximums and minimums of fundamental frequency (F0), delta F0, log energy, first and second linear prediction cepstral coefficients features and was used for SVM classifier training. Second feature set included 12 mel-frequency cepstral coefficients and was used for HMM classifier training. Training was repeated up to 18 times for both classifiers using the same labelled data. Each classifier was fed with unlabeled training utterances. Utterances which both classifiers labeled identically were assigned to temporal collection. Further the temporal collection utterances were examined and added into labelled training utterances set. Both trained classifiers were rebuilt and training was repeated up to 18 times again with both classifiers using the updated labelled training utterances. The process is repeated until unlabeled training utterance set will become empty. Gender information in this research was used too and female and male utterances were classified separately. The obtained emotion recognition accuracy was 75,9 % for females and 80,9 % for males. Fusion among different classifiers was also proposed for recognition improvement (Zhang et al., 2010). Fusion principle was implemented by using queuing voting algorithm. Three kinds of classifiers with different feature set (obtained by using promising first selection method) were used. Majority voting principle was extended with confidence weights and the final decision on emotion is obtained considering these weights. Fusion approach requires individually efficient classifiers and feature sets as the performance of a separate classifier affects efficiency of the whole scheme. Thus, this fusion classification scheme also requires careful selection of classifiers and features. Two-stage hierarchical classification scheme based on gender separation was proposed in (Yoon and Park, 2011). During the first step all emotional speech utterances are classified using gender specific pitch feature into three emotion groups: male (or neutral), female (or anger), and unknown group (Fig. 1). The number and type of classes is determined by range of pitch feature values. The goal of the second step is to classify utterances of unknown group into two more classes: anger or male and neutral state or female. The second step classification is performed using additional energy, cepstral, and delta features. The total order of features in this scheme was 56 and was fairly low in comparison with a few hundreds or even thousands in straightforward classification. The average emotion recognition rate was 80,7 %. Fig. 1. Two-step hierarchical classification of two emotions (Yoon and Park, 2011). Another proposed hierarchical two-stage classification scheme (Zhongzhe et al., 2009) is given in Figure 2. During the first step all utterances are classified by arousal dimension into active and not-active emotions (the last ones are classified into median and passive emotions additionally). During the next stage every emotion group is classified into two specific emotions. The active emotion group is classified into anger and gladness (joy), median emotion group is classified into fear and neutral state, and passive group is classified into sadness and boredom. Different feature sets and classifiers were used in each classification stage. Overall feature set consisted of 68 features obtained using sequential forward selection method. This scheme gave average recognition accuracy of 76,4 %. Fig. 2. Two-stage hierarchical classification scheme driven by dimensional emotion model (Zhongzhe et al., 2009). The main idea of sub-system based hierarchical classification scheme (Giannoulis and Potamianos, 2012) is emotion specific training (Fig. 3). Six emotions were analyzed: anger, joy, sadness, fair, boredom and neutral. All these emotions were grouped into 15 emotion pairs (called sub-systems). Every sub-system is analyzed using particular feature set for the emotion recognition. These feature sets were obtained from general feature set of 112 different features applying sequential backward selection and maximum relevance – minimum redundancy approaches. The overall emotion recognition accuracy was 85,2 % in gender dependent experiment and 80,1 % in gender independent case. Fig. 3. Five sub-systems for recognizing “happiness”, denoted by the five lines connecting the ovals (Giannoulis and Potamianos, 2012). The genetic algorithms were used for feature subset selection for multistyle classification of emotional speech (Casale and Russo, 2007). Five feature subsets were used for pairwise and multistyle classification. Feature subsets of 16 to 48 features were analyzed for classification of four speaking styles: neutral, angry, loud and Lombard. The highest classification performance of 82,74 % was obtained using multistyle classification with 48 features. 4. Multi-level approach In this paper we present multi-stage speech emotion classification scheme using multi-level features. The main idea of this scheme is to perform classification of speech emotions in step-by-step manner using different feature sets in every step. Let us formulate three main presumptions on multi-stage classification of speech emotions: Recognition of all emotions in one step is still a complicated process because of overlapping acoustic, prosodic and other features of the emotions. Classification problem can be simplified by reducing the number of analysed emotions at a time. This could be done by organizing emotion classification process in stages with limited number of analysed emotions in every stage. Each emotion is characterized by its own acoustic and prosodic features. These features for various emotions can be different or the same. Composing a feature set by maximizing average classification rate for the entire set of the speech emotions we cannot ensure the maximal classification accuracy for individual emotion. This can be achieved by analysing every emotion (or a group of emotions characterized by the same feature) separately. Emotions, depending on the selected feature or features set, can be classified into various classes. The classes themselves can be decomposed to the lower level classes and etc., until the single emotion class is obtained. For example, classification by pitch frequency can give us high-pitch (happiness, anger) and low-tone (neutral, sadness, boredom) emotions. Each of these classes can be decomposed to separate emotion using duration, energy and other features as classification feature. In accordance with these assumptions the new multi-stage speech emotion classification scheme was proposed. The visual generalization of the proposed scheme is given in Figure 4. Fig. 4. The generalized scheme of emotion classification using multi-level features First of all we perform the first stage (we will call them classification level or level simply) classification. The whole set of (1) (1) (1) unknown speech emotion patterns are classified into 𝑁 classes {𝐶1 , … , 𝐶N } using first level feature set 𝐹1 . This feature set (1) (1) should be selected to maximize the accuracy of classification into {𝐶1 , … , 𝐶N }. On the second level every class of the (1) (1) (2) (2) (2) {𝐶1 , … , 𝐶N } is classified into lower level classes {𝐶1 , … , 𝐶K } using its specific second level feature set 𝐹𝑘 , 𝑘 = 1, … , K. The classification process is repeated as long as we get separated particular emotions. The main idea of multi-level classification is to use specific and most powerful feature set in every level for every class. Thus we can guarantee the appropriate feature set for every classification level i.e. every emotion. (𝑙) The proposed classification uses so called multi-level feature set. Every partial feature set 𝐹𝑚 is applied for particular emotion or emotion group classification thus organizing emotion classification into separate levels. The main principles of classification using multi-level features are following: The classification is organized in separate levels. In order to identify emotions or emotion groups, the particular feature or a set of these features is used in every level. These features sets can be composed using aforementioned sequential forward selection, sequential floating forward selection, sequential backward selection, maximum relevance – minimum redundancy based selection or any other feature selection technique. In this paper we applied the maximal efficiency feature selection criterion enabling us to employ features with the lowest classification error (𝑙) (𝑙) 𝐹𝑚 = {𝑎𝑟𝑔 min 𝐸(𝐹𝑗 ) } , (𝑙) 𝐸(𝐹𝑗 ) 𝑗 𝑗 = 1, … , 𝐽. (𝑙) here – classification error in the 𝑙-th level using 𝑗-th feature subset 𝐹𝑗 . 𝐽 denotes the total number of features in the 𝑙-th classification level. (𝑙) (𝑙) (𝑙) Most efficient features 𝐹𝑗 are added to the feature set 𝐹𝑚 repeatedly. The expansion of feature set 𝐹𝑚 is stopped when the extended feature set does not show any improvement in classification rate. (𝑙) The set of features of the speech emotion recognition problem is formed as combination of all the employed subsets 𝐹𝑚 . (𝑙) 𝐹 = {𝐹𝑚 }, 𝑚 = 1, … , 𝑀; 𝑙 = 1, … 𝐿. Here 𝑀 is the number of emotions classes in particular classification level, 𝐿 is the number of classification levels. In general, the set of emotions (or the set of classes derived from higher level class) can be classified to any number of classes. The number of analysed classes (in one level) and the number of classification levels are defined by the overall number of emotions and the selected feature subsets. The simplest case of multi-level classification is the classification into two classes (emotions). The main advantage of our proposed multi-level feature organization is as follows. Different level classification processes are independent from the feature viewpoint. Thus we can optimize classification process of any selected emotion group without affecting others. 5. Experimental research The proposed multi-level classification scheme was experimentally tested in different speech emotion recognition tasks. In this study we analysed 2 emotions (joy and anger), 3 emotions (joy, anger, and neutral states), and 4 emotions (joy, anger, neutral state, and sadness) recognition cases. Recordings of the freely accessible Berlin emotional speech database (Burkhardt et al., 2005) were used for recognition experiments. To ensure homogenous experimental conditions the equal number of each emotion patterns was selected for classification. As the number 60 is quite low for reliable classification estimation 3-fold testing methodology was applied in this study. All the results in this paper are averaged results of the 3-fold testing. Considering the data amount we have chosen non-parametric k-Nearest neighbours (kNN) classifier. As the classifier is not the goal of our investigation we will use the same kNN classifier (𝑘 = 7) for all classification levels of our scheme. In general case any type of classifier can be implemented in different levels. We have decided to restrict our recognition experiment to a fundamental frequency (F0) based features. Six groups of F0 features were analysed in our experiment (Eyben et al., 2009): Smoothed static low-level and functional F0 features; 1st order low-level and functional F0 delta features; 2nd order low-level and functional F0 delta features; Envelope features of the smoothed F0 contour; 1st order delta envelope features; 2nd order delta envelope features. Each group contained 39 distinct features: the absolute and the arithmetic means of the F0 contour, positions of the minimal and maximal F0 values, various order statistical moments and quartiles, and others. We understand, the set of these features is not sufficient for reliable speech emotion recognition and they should be appended with more various acoustical features. Even so, we think F0 based feature set will be competent to illustrate the principle of the multi-level features and multi-level classification of speech emotions. For deeper understanding of multi-level classification and features let us elaborate the case of 4 emotions recognition. Using fundamental frequency based features these emotions can be divided into low-pitch (sadness, neutral state) and high-pitch (anger and joy) classes. Thus the first level of classification will be based on highness of fundamental frequency and will result in two emotion classes: low-pitch and high-pitch. On the next level these two classes can be classified into 4 above mentioned emotions. Thus, we will have two-level classification and two-level features (Fig. 5). In case of 3 emotions (joy, anger, and neutral state) task we will have two-level classification also. The low-pitch class should (2) contain neutral state patterns only so the second level will contain only one classification process using feature set 𝐹2 (Fig. 5). In case of 2 emotions (joy and anger) multi-level classification scheme becomes a simple classification of 2 emotions and the principle of multi-level features disappears. Fig. 5. Organization of 4 emotion recognition process In order to define the most efficient features for separate classification levels we carried out experimental testing of separate F0 features firstly. Each of 234 features was individually tested in 2 emotions, 3 emotions, and 4 emotions classification tasks – (𝑙) 702 classification tests were carried out totally. The feature set 𝐹𝑚 was initialized with the most efficient feature and expanded recurrently using next most efficient features. The expansion of the feature set is stopped when the classification error using this set achieves minimal value. Table 1 presents all the formed feature subsets. Table 1. Selected feature sets Classification task 2 emotions Level 1st level 2nd level 1st level 3 emotions 2nd level 1st level Feature subset (1) 𝐹1 − (1) 𝐹1 (2) 𝐹1 * (2) 𝐹2 ** (1) 𝐹1 4 emotions (2) 2nd level 𝐹1 * (2) 𝐹2 ** * for classification of neutral state and sadness; ** for classification of joy and anger. Features F0env_sma_iqr1-3 − F0env_sma_variance − F0env_sma_iqr1-3 F0_sma_de_de_iqr1-3, F0_sma_iqr2-3, F0_sma_quartile3, F0_sma_iqr1-3, F0_sma_qregc2, F0env_sma_de_de_quartile1, F0env_sma_de_de_iqr1-2, F0_sma_de_nzabsmean. F0_sma_peakMeanMeanDist, F0_sma_de_de_meanPeakDist, F0_sma_qregc1, F0_sma_de_nzgmean, F0_sma_meanPeakDist, F0_sma_de_nzabsmean, F0env_sma_de_de_qregc2, F0_sma_peakMean, F0env_sma_maxPos. F0env_sma_iqr1-3 We can see that most efficient feature subsets are different for high-pitch and low-pitch emotions. Besides, feature sets for different tasks differ too (for example, 1st level feature subsets for three emotions and four emotions tasks differ significantly). Hence our presumption about specific acoustic features for the particular emotion group was correct. (2) In case of two emotions task there is only one classification level, thus the 2nd level and the 2nd level feature subset 𝐹2 are absent. In this case the goal of classification is to separate joy and anger. Separate results of the first and the second classifications levels are given in Tables 2 and 3. Table 2. First level classification results Classification rate Classification task Low-pitch emotions High-pitch emotions Average 2 emotions − − − 3 emotions 81,7 % 87,5 % 84,6 % 4 emotions 74,2 % 85,8 % 80 % In case of two emotions task the average classification rate was 65,8 % (60 % rate for anger and 71,7 % rate for joy). The rate is quite satisfactory considering the 1st order feature set (see Table 1, please) and complexity of the task (acoustical properties of joy and anger overlap in fundamental frequency domain heavily). In general, classification rate decreases with the growing number of analysed emotions. Table 3. Second level classification results Classification task Classification rate Neutral Sadness Anger Joy Average 3 emotions 100 % − 55,2 % 73,1 % 76,1 % 4 emotions 86,9 % 81 % 56,9 % 73,2 % 74,5 % Table 3 shows 100 % classification rate in case of 3 emotions task. This value should be interpreted as absence of classification. The entire low-pitch emotion group was labelled as neutral state. Again, in all cases separation of anger and joy was the most complicated part of the task. Analysing classification results (Tables 1, 2, and 3) we can notice that most efficient feature sets include static, first (the feature title includes suffix de) and second (the feature title include suffix de_de) order delta features. For example, delta features dominate in sets for 4 emotions classification task. Thus delta features are very important for accurate speech emotion classification. Having first and second level feature subsets we can implement multi-level recognition of speech emotions. Table 4 gives averaged results of the entire speech emotion recognition process. As we can see average speech emotion recognition rates vary from 65,8 % (for two emotions) to 59,6 % (in four emotions case). Results are satisfactory considering the feature set order. We obtained 1st, 2nd, and 16th order features for two, three, and four emotions recognition tasks respectively. These values are extremely low in comparison with widely published speech emotion recognition results therefore we can denote our proposed multi-level features as low-order. Table 4. Speech emotion recognition results Recognition task Recognition rate Neutral Sadness Anger Joy Average 2 emotions − 3 emotions 80 % − 60 % 71,7 % 65,8 % − 48,3 % 66,7 % 65 % 4 emotions 55 % 68,3 % 50 % 65 % 59,6 % Obtained average recognition results are lower in comparison with above given alternative classification scheme results (75,9– 85,2 %). This could be explained with lower order of multi-level feature sets, different number of emotions and with restricted feature space in our experiment. In aim to increase obtained recognition rate the used F0 feature sets should be extended with more various features. This would give order feature sets and definitely higher classification. For comparison purposes the proposed multi-level features were compared with various feature sets. Usually feature sets are composed by joining various features. Often these features are chosen without any selection procedure thus giving high order sets. These feature sets as the rule are used for straight classification schemes, where all utterances are classified into emotions in one step. To imitate this feature set composition and classification techniques in this study we tested the feature set 𝐹234 including all 234 features (used in above experiments) and the set 𝐹B including all the features used in multi-level scheme. Recognition was performed under the same circumstances: the same speech data partition and the same kNN classifier were used. Averaged recognition results using these feature sets are presented in Figure 6. Fig. 6. Averaged speech emotion results for different feature sets We can see that multi-level organization of classification (feature set 𝐹) gave higher speech emotion recognition rate in comparison with straight classification scheme using conventional feature sets (𝐹B and 𝐹234 ). Superiority of multi-level feature organization ran from 6,3 % (in 4 emotions classification task) up to 25,6 % (3 emotion case). The main reason for this is application of specific acoustic features for particular emotion (or emotion group) classification in multi-level scheme. Results of feature sets F and FB for two emotions recognition coincided because multi-level classification becomes identical to straight classification scheme in this case. Superiority of feature set 𝐹 against 𝐹B by 6,3–11,7 % shows the superiority of multi-level classification scheme against straightforward classification as the features in these sets were the same. Superiority of feature set 𝐹 against 𝐹234 by 23,8–25,6 % proves the superiority of multi-level features. Low-order multi-level features enable us to recognize speech emotions more accurately than 234th order feature set. Besides, in case of feature set 𝐹234 we have got the lowest recognition rate. This proves the necessity of feature selection process as the full set of features cannot give high classification accuracy. 6. Conclusions The multi-level organization of features was proposed for speech emotion recognition. The main idea is to organize speech emotion recognition in levels, where every level of classification uses specific features for particular emotion group. The advantage of multi-level organization is independent feature subsets for emotion groups. This enables us to maximize classification rate of any selected emotion group without affecting another. The proposed classification scheme and feature sets were applied for two emotions, three emotions, and four emotions recognition tasks and were compared with conventional feature combination techniques. Multi-level classification scheme enabled us to increase speech emotion recognition rate by 6,3–25,6 % in comparison with straightforward classification and conventional feature combination schemes. We obtained low-level 1st, 2nd, and 16th order features for two, three, and four emotions recognition tasks respectively. With reference to obtained experimental results we state: Multi-level feature organization enables us to apply specific features for particular emotion thus improving recognition rate of separate emotions without affecting other ones. Multi-level organization of classification and features improves speech emotion recognition rate in comparison with straight organization of recognition process. Multi-level organization of features gives lower order feature sets in comparison with conventional feature combination techniques without selection. The combination of feature sets without selection is inexpedient. References Ayadi, M., Kamel, M., & Karray, F. (2011, March). Survey on speech emotion recognition: Features, classification schemes, and databases. Pattern Recognition, pp. 572–587. Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W., & Weiss, B. (2005). A Database of German Emotional Speech. In: Proceedings of Interspeech, pp. 1517-1520. Casale, S., & Russo, A. (2007). Multistyle classification of speech under stress using feature subset selection based on genetic algorithms. Speech Communication, pp. 801-810. Chiou, B.-C., Chen, C.-P. (2013). Feature Space Dimension Reduction in speech emotion recognition using Support Vector Machine. Signal and Information Processing Association Annual Summit and Conference, pp. 1 - 6. Dellaert, F., Polzin, T., Waibel, A. (1996, October). Recognizing emotion in speech. Fourth International Conference on Spoken Language, 3, pp. 1970-1973. Eyben, F., Wollmer, M., Schuller, B. (2009, September 10-12). openEAR - Introducing the Munich Open-Source Emotion and Affect Recognition Toolkit. Affective Computing and Intelligent Interaction and Workshops, pp. 1-6. Gharavian, D., Sheikhan, M., Nazerieh, A., Garoucy, S. (2012, November). Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network. Neural Computing and Applications, pp. 2115-2126. Giannoulis, P., Potamianos, G. (2012, May). A hierarchical approach with feature selection for emotion recognition from speech. In: Proceedings of the Eighth International Conference on Language Resources and Evaluation, pp. 1203-1206. Koolagudi, S., Rao, K. (2012, June). Emotion recognition from speech: a review. International Journal of Speech Technology, pp. 99-117. Koolagudi, S., Reddy, R., Rao, K. (2010, July 18-21). Emotion recognition from speech signal using epoch parameters. International Conference on Signal Processing and Communications, pp. 1 - 5. Liu, J., Chen, C., Bu, J., You, M., Tao, J. (2007 m. July 2-5 d.). Speech Emotion Recognition using an Enhanced Co-Training Algorithm. 2007 IEEE International Conference on Multimedia and Expo, p. 999 - 1002. Origlia, A., Galata, V., Ludusan, B. (2010). Automatic classification of emotions via global and local prosodic features on a multilingual emotional database. In: Proceedings of Speech Prosody. Peng, H., Long, F., Ding, C. (2005, August). Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 1226-1238. Rong, J., Li, G., Chen, Y.-P. P. (2009, May). Acoustic feature selection for automatic emotion recognition from speech. Information Processing and Managemen, pp. 315–328. Yoon, W.-J., Park, K.-S. (2011). Building Robust Emotion Recognition System on Heterogeneous Speech Databases. 2011 IEEE International Conference on Consumer Electronics, pp. 825-826. You, M., Chen, C., Bu, J., Liu, J., Tao, J. (2006, July 9-12). Emotion Recognition from Noisy Speech. IEEE International Conference on Multimedia and Expo, pp. 1653-1656. You, M., Chen, C., Bu, J., Liu, J., Tao, J. (2007, March). Manifolds based emotion recognition in speech. International Journal of Computational Linguistics and Chinese Language Processing, pp. 49-64. Zhang, S., Lei, B., Chen, A., Chen, C., Chen, Y. (2010, October 24-28). Spoken emotion recognition using local Fisher discriminant analysis. IEEE 10th International Conference on Signal Processing, pp. 538 - 540. Zhang, Y., Wang, C., Fu, L. (2010, October 29-31). Classifier fusion for speech emotion recognition. Intelligent Computing and Intelligent Systems (ICIS), 2010 IEEE International Conference on, 3 , pp. 407 - 410. Zhongzhe, X., Centrale, E., Chen, L., Dou, W. (2009, September 10-12). Recognition of emotions in speech by a hierarchical approach. 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, pp. 1 - 8. 2 priedas Minimal Cross-correlation Criterion for Speech Emotion Multi-level Feature Selection Tatjana Liogienė, Gintautas Tamulevičius Recognition Processes Department Vilnius University Institute of Mathematics and Informatics Vilnius, Lithuania [email protected], [email protected] Abstract— The problem of speech emotion recognition commonly is dealt with by delivering a huge feature set containing up to a few thousands different features. This can raise the “curse of dimensionality” problem and downgrade speech emotion classification process. In this paper we present minimal cross-correlation based formation of multi-level features for speech emotion classification. The feature set is initialized with most accurate feature and is expanded by selecting linearly independent features. This feature set formation technique was tested experimentally and compared with straightforward classification using predefined feature set. Results show superiority of our proposed technique by 5–25 % for various emotion sets and classification settings. Keywords—feature selection; cross-correlation; classification; speech emotion; I. INTRODUCTION Reliable and robust speech emotion recognition would take a significant place in the process of the human–computer interaction. Speech emotion recognition can be applied for assessment of caller’s emotional state in call centers, evaluation of listener’s emotional reaction, automated analysis of audio content in dialogue systems, tutoring / e-learning process, entertainment and serious games [1]. Regardless of intensive researches and numerous experimental results the main problem of the speech emotion recognition task is still unsolved. There is no established feature set (or feature group) giving reliable classification of the speech emotions. For this reason, vast majority of current researches are directed towards the search of feature sets, formation of feature sets, and formulation of feature selection criteria. Answers to these questions would be a significant step towards reliable speech emotion recognition. In this paper we propose a minimal cross-correlation feature selection technique for multi-stage speech emotion classification. To introduce the problem of feature dimensionality we present the various feature dimensionality reduction and feature selection techniques in Section II. On the next section we will present the multi-stage classification of speech emotions and introduce the minimal cross-correlation criterion for multi-level feature selection. Experimental study and discussions of its results are given in Section IV. Section V will conclude this paper. II. SPEECH EMOTION CLASSIFICATION TASK Speech emotion recognition is a typical classification task. Some predefined speech emotion feature sets are extracted during speech analysis step. These sets can include various temporal, spectral, cepstral features, their mathematical derivatives, statistical estimates and should represent the emotion state of the speaker. During the classification step the extracted feature sets are classified trying to define the emotional class of the analyzed speech patterns. As there is no proposed one and single feature set for reliable speech emotion classification, the researchers are exploring various feature sets trying to establish the most effective feature set (or a group of features at least), effective classification schemes. As the rule these experiments often result in huge feature sets with order of a several hundred or even thousand features. Considering the amount of analyzed speech data (the number of explored emotional speech collections is limited and they are well known) sets of a few thousand features can cause the “curse of multidimensionality” problem. Various decisions are made trying to avoid this problem. They include different classification schemes, feature dimensionality reduction, feature selection techniques [2]. Hereafter we shortly introduce these techniques. A. Classification schemes Straightforward classification of speech emotions is complicated task because of overlapping acoustic, prosodic and other features of the speech emotions. For example distinction between anger and joy is intangible by means of estimating the speaking rate, voice arousal, dynamics of the speech signal spectral and energy properties. Thus various classification schemes are proposed trying to overcome the problem of overlapping speech emotion features. The main purpose of modified (not straightforward) classification schemes is the organization of classification process is stages with limited feature set or additional information on speech patterns in every stage. Example of this is the use of gender information [10]. In this case all emotional speech utterances are classified by gender firstly. This allows separating overlapped male and female speech emotion patterns (higher pitch of female speech can be assessed as the changed emotional state of the male speaker). Afterward obtained male and female speech utterances are classified into emotional states. Some researchers propose to perform emotion classification in hierarchical manner. During the first step all speech utterances are classified into emotional groups. These groups are formed considering the dimensional model of the emotions where emotions are divided into active, median and passive ones. During the last step each emotion group is classified into particular emotion [9]. Another way to simplify emotion classification task is to organize the process of emotion analysis in pairs [5]. This organization of analysis gives sub-leveled classification process with a joint decision of all level classification results. B. Feature selection Another way to limit the dimensionality of feature set is to apply some feature selection technique thus obtaining lower dimensionality sets with defined discriminating power. Two groups of feature set formation approaches can be denoted: feature selection and feature reduction methods [2]. III. MINIMAL CROSS-CORRELATION FEATURE SELECTION A. Multi-level Features We will analyze multi-stage classification scheme of speech emotions using multi-level features [15]. The main idea of multi-level features is the organization of classification process into stages with particular classification goals and different sets of features. During the first stage all unknown emotional speech patterns are classified into certain emotion classes. These classes are determined by employed first-level feature set F11. For example, signal energy features would define low energy and high energy emotion classes. During the second stage every of these classes are classified into lower level classes (or particular emotions) using different secondlevel feature sets Fm2. In general case there can be L classification stages with different feature sets FML. Entire multi-stage classification process will be defined by joint multi-level feature set {FML}. Feature selection methods allow form sets by selecting more significant features (or on the contrary, by eliminating less significant features from the initial full size set) thus obtaining higher efficiency feature sets. Most frequently used selection methods are sequential forward selection (the feature set is expanded step-by-step by adding feature), sequential backward selection (the size of the initial set is reduced by eliminating features). Using promising first selection technique classification efficiency of every feature is evaluated and the feature set is formed sequentially choosing the first best feature. The final feature set version is the one with the lowest classification error [4]. The feature set can be formed using genetic algorithms in generation of new feature sets and in optimization of existing ones [3]. Maximum relevance – minimum redundancy technique tries to select features with maximum relevance to analysed emotion group [5]. Such classification scheme enables us to use particular (we believe, most relevant) feature sets for every stage (for every emotion class or particular emotion) thus obtaining multi-level feature set. In most cases feature selection is based on its classification efficiency – classification accuracy of separate features is assessed and used for selection (elimination) step [9]. Another exploited feature selection criterion is the cross-correlation coefficient of features or feature vectors [11, 12]. Minimal cross-correlation coefficient giving features are supposed as most effective for classification. Linear discriminant analysis based Fischer rates are proposed for feature selection too [13]. Fischer rate empowers selection of features with maximal discriminating power among emotions. The information gain of each feature and the ratio between information gain and intrinsic information is evaluated in the feature information gain criterion [14]. Using this criterion the feature set is formed by choosing features with higher information gain ranks. The simplest way to evaluate linear dependence of data is the use of cross-correlation. In general case maximal absolute value of cross-correlation will show full linear dependence of data, zero value will confirm linear independence. With reference to this and before-mentioned assumption we formulated the minimal cross-correlation criterion for multilevel feature selection. The selection procedure is as follows: Feature set reduction techniques reduce the dimensionality of feature sets by applying various transformations of features: principal components analysis [6], linear discriminant analysis [7], multidimensional scalining [2], Fisher discriminant analysis [8]. Such transformation is purely mathematical and is performed regardless of emotional content of the features. Thus these techniques can give lower efficiency feature sets in comparison with feature selection based sets. In our previous work [15] we applied maximal efficiency feature selection criterion for multi-level feature set. According to this criterion feature set was composed of features giving the highest classification accuracy of particular emotion classes. B. Minimal Cross-correlation Criterion The main assumption for the new feature selection criterion was the linear independence of the features. Linearly independent features contains more discriminating power than linearly-dependent ones. Thus composing set of linearly independent features we can expect of higher classification power. The feature set is initialized by selecting feature with highest classification accuracy for analyzed emotion class F0l = arg min E(Fil), i = 1, …, P, (1) here E(Fil) – classification error during the l-th stage using the feature Fil. We believe that minimal classification error based initialization will help to obtain an efficient feature set for particular emotion class. The feature set is expanded by adding linearly independent features Fkl = arg min R(F0l, Fjl), j = 1, …, P, (2) The second step of the procedure is performed recurrently. The efficiency of newly obtained feature set is assessed by classifying selected emotion classes. The expansion of feature set is stopped when the classification error using assessed feature set diminishes. The defined feature selection procedure should be repeated for every classification stage and emotion class. The main reason of Spearman correlation selection was the assumption on non-Gaussian distribution of speech emotion feature values. Spearman correlation does not make any assumptions on underlying data distribution. Besides it is supposed as more robust to outliers than Pearson correlation coefficient as it deals with data ranks rather than data itself. IV. EXPERIMENTAL STUDY The formulated minimal cross-correlation feature selection criterion was experimentally tested in speech emotion classification task. 2 emotions (joy and anger), 3 emotions (joy, anger, and neutral state), and 4 emotions (joy, anger, neutral state, and sadness) classification cases were analyzed in this study. Berlin emotional speech database was selected for this study [16]. 60 patterns of each emotion (pronounced by 10 speakers) were selected for testing. The testing of feature sets was performed using 3-fold cross validation on K-Nearest Neighbor classifier (with K = 7). The selection of the classifier was not the subject of the study, in general case any type of classifier can be used for multi-stage classification scheme. We restricted ourselves to analysis of fundamental frequency features understanding that this feature set is not sufficient for proper speech emotion recognition. Despite this we assume fundamental frequency as one the main speech emotion feature and suitable for experimental testing of our proposed feature selection criterion. 6 types of fundamental frequency based features were extracted in this study [17]: Smoothed static low-level and functional F0 features; 1st order low-level and functional F0 delta features; 2nd order low-level and functional F0 delta features; Envelope features of the smoothed F0 contour; 1st order delta envelope features; 2nd order delta envelope features. Every group included 39 different features thus giving overall number of 234 features. The aim of the first experiment was evaluation of minimal cross-correlation feature sets. Three different tests for different number of emotions were performed. The averaged results of this testing are given in Table 1. TABLE I. SPEECH EMOTION CLASSIFICATION RESULTS Classification accuracy, % Task 2 emotions 3 emotions 4 emotions Average Here di – the difference of feature ranks, n – the number of analyzed feature pairs. Sadness (3) Neutral R = 1 – 6Σdi2/(n3 – n), Anger The Spearman cross-correlation coefficient was selected for linear dependence evaluation The chosen emotion set can be divided into low pitch and high pitch emotion groups by applying fundamental frequency parameter. The first group will include joy and anger, the later one – the neutral state and sadness. Therefore, during the first classification stage emotions will be divided into 2 classes. During the second stage every obtained emotion group will be classified into particular emotions. Thus we get two-stage classification scheme and two-level features. Joy here R(F0l, Fjl) is the cross-correlation of the initial feature F0l and the new feature Fjl. 71,7 % 66,7 % 56,7 % 60 % 48,3 % 43,3 % – 80 % 53,3 % – – 71,7 % 65,8 % 65 % 56,3 % As we can see average classification accuracy is not high, it varies from 56,3 % up to 65,8 %. As the reason the usage of one-type (fundamental frequency based) features could be named. Extension of feature set with different type features may improve classification accuracy additionally. However, we would like highlight the main advantage of the multi-stage classification using minimal cross-correlation criterion. Aforementioned accuracy is achieved using low order feature sets: the 2nd order for 2 emotions task, the 4th order for 3 emotions task and the 8th order for 4 emotions classification task. In comparison with commonly obtained feature set order of several hundred at least our obtained order is extremely low. The multi-stage classification scheme using minimal crosscorrelation feature set was compared with commonly used emotion classification techniques. One of the mostly used is the selection of huge sets (containing various features like temporal, spectral, cepstral, their mathematical derivatives) and direct classification using particular classifier. Following this technique two different feature sets were composed for comparison: The set FB, containing separately best features. This set was formed using promising first selection technique. The feature order was chosen the same as the minimalcorrelation feature set was. The set F234, containing all the 234 analyzed features. This set will represent huge sets of features used for emotion classification. The feature sets were compared in 4 emotions classification task. Averaged results are given in Fig. 1. Minimal cross-correlation based multi-level feature sets give higher emotion classification accuracy in comparison with best feature sets. REFERENCES [1] [2] [3] [4] Fig. 1. Comparison results of various feature sets Results show superiority of multi-stage classification using minimal correlation feature set FMC against common techniques. In case of 4 emotions minimal correlation feature set FMC caused 4.6 % higher classification accuracy than feature set FB. In case of 3 emotions this difference increased up to 13.2 %. The full feature set F234 in all cases caused the least accuracy and was 20–25 % behind the feature set FMC. According to these results selection of maximal size feature set is meaningless. In case of 2 emotions classification accuracy difference between feature sets FMC and FB was not vivid and confidential (the set FMC was more accurate by 1,6 %) as multi-stage classification scheme for 2 emotions task becomes one-stage scheme and the main distinction was the used feature set. To extend this result minimal correlation feature selection criterion was applied for one-stage classification scheme and compared with best feature set FB. Results of 3 emotions classification were identical for both sets, in case of 4 emotions the feature set FB gave 2,5 % higher classification accuracy. Thus application of minimal correlation feature selection criteria for one-stage classification scheme does not guarantee higher accuracy. CONCLUSIONS Minimal cross-correlation criterion for multi-level speech emotion recognition feature selection was proposed in this paper. The feature set is initialized with the highest efficiency feature and is extended with features giving minimal crosscorrelation with the initial feature. The superiority of proposed selection criterion was approved experimentally in emotion classification task. Multi-stage classification using minimal cross-correlation feature sets outperformed one-stage classification using best feature sets by 4,6–12,2 %. [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] With reference to these results we state: The proposed minimal cross-correlation criterion enables us to compose low order sets of linearly independent features for speech emotion classification and recognition. Minimal cross-correlation based feature sets do not guarantee higher accuracy in one-stage emotion classification. [17] S. Planet and I. Iriondo, “Comparative study on feature selection and fusion schemes for emotion recognition from speech,“ International Journal of Interactive Multimedia and Artificial Intelligence, pp. 44-51, September 2012. J. Rong, G. Li and Y.-P. P. Chen, “Acoustic feature selection for automatic emotion recognition from speech,“ Information Processing and Managemen, pp. 315-328, May 2009. S. Casale and A. Russo, “Multistyle classification of speech under stress using feature subset selection based on genetic algorithms,“ Speech Communication, pp. 801-810, 2007. F. Dellaert, T. Polzin and A. Waibel, “Recognizing emotion in speech,“ Fourth International Conference on Spoken Language, t. 3, pp. 19701973, October 1996. P. Giannoulis and G. Potamianos, “A hierarchical approach with feature selection for emotion recognition from speech,“ In: Proceedings of the Eighth International Conference on Language Resources and Evaluation, pp. 1203-1206, May 2012. B.-C. Chiou and C.-P. Chen, “Feature space dimension reduction in speech emotion recognition using support vector machine,“ Signal and Information Processing Association Annual Summit and Conference, pp. 1-6, 2013. M. You, C. Chen, J. Bu, J. Liu and J. Tao, “Emotion recognition from noisy speech,“ IEEE International Conference on Multimedia and Expo, pp. 1653-1656, July 2006. S. Zhang, B. Lei, A. Chen, C. Chen and Y. Chen, “Spoken emotion recognition using local Fisher discriminant analysis,“ IEEE 10th International Conference on Signal Processing, pp. 538-540, October 2010. Z. Xiao, E. Centrale, L. Chen and W. Dou, “Recognition of emotions in speech by a hierarchical approach,“ 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, pp. 1-8, September 2009. W.-J. Yoon and K.-S. Park, “Building robust emotion recognition system on heterogeneous speech databases,“ 2011 IEEE International Conference on Consumer Electronics, pp. 825-826, 2011. A. Mencattini, E. Martinelli, G. Costantini, M. Todisco, B. Basile, M. Bozzali and N. Corrado Di, “Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure,“ Knowledge-Based Systems, pp. 68-81, June 2014. C. Oflazoglu and S. Yildirim, “Recognizing emotion from Turkish speech using acoustic features,“ EURASIP Journal on Audio, Speech, and Music Processing, December 2013. L. Chen, X. Mao, P. Wei, Y. Xue and M. Ishizuka, “Mandarin emotion recognition combining acoustic and emotional point information,“ Applied Intelligence, pp. 602-612, December 2012. M. Bhargava and T. Polzehl, “Improving automatic emotion recognition from speech using rhythm and temporal feature,“ In: ICECIT, pp. 139147, 2012. G. Tamulevicius and T. Liogiene, “Low-order multi-level features for speech emotions recognition,“ Baltic Journal of Modern Computing, unpublished. F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier and B. Weiss, “A database of German emotional speech,“ In: Proceedings of Interspeech, pp. 1517-1520, 2005. F. Eyben, M. Wollmer and B. Schuller, “OpenEAR - Introducing the Munich open-source emotion and affect recognition toolkit,“ 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, pp. 1-6, September 2009.