Reconocimiento afectivo automático mediante el análisis

Transcription

Reconocimiento afectivo automático mediante el análisis
C.I.F. G: 59069740 Universitat Ramon Lull Fundació Privada. Rgtre. Fund. Generalitat de Catalunya núm. 472 (28-02-90)
TESIS DOCTORAL
Título
Reconocimiento afectivo automático mediante el análisis
de parámetros acústicos y lingüísticos del habla espontánea
Realizada por
Santiago Planet García
en el Centro
Escola Tècnica Superior d’Enginyeria Electrònica i
Informàtica La Salle
y en el Departamento Comunicacions i Teoria del Senyal
Dirigida por
C. Claravall, 1-3
08022 Barcelona
Tel. 936 022 200
Fax 936 022 249
E-mail: [email protected]
www.url.es
Dr. Ignasi Iriondo Sanz
A mis padres
Resumen
Esta tesis aborda el reconocimiento automático de emociones espontáneas basado
en el análisis de la señal de voz. Se realiza dentro del Grup de recerca de Tecnologies Mèdia
(GTM) de Enginyeria i Arquitectura La Salle, teniendo su origen en un momento en el que
existen abiertas varias líneas de investigación relacionadas con la síntesis afectiva pero
ninguna relacionada con su análisis. La motivación es mejorar la interacción personamáquina aportando un módulo de análisis en la entrada de los sistemas que permita,
posteriormente, generar una respuesta adecuada a través de los módulos de síntesis en la
salida de los mismos. El centro de atención se sitúa en la expresividad afectiva, intentando
dotar de habilidades de inteligencia emocional a sistemas de inteligencia artificial con el
objetivo de lograr que la interacción persona-máquina se asemeje, en la mayor medida
posible, a la comunicación humana.
En primer lugar se realiza un análisis preliminar basado en locuciones grabadas
en condiciones ideales. La expresividad vocal en este caso es actuada y las grabaciones
responden a un guion previo que determina a priori la etiqueta que describe el contenido
afectivo de las mismas. Si bien este no es el paradigma de la interacción en un entorno realista, este primer paso sirve para probar las primeras aproximaciones a la parametrización
de los corpus, los métodos de selección de parámetros y su utilidad en la optimización
de los procedimientos, así como la viabilidad de considerar el sistema de reconocimiento
afectivo como un ejercicio de clasificación categórica. Asimismo, permite comparar los
resultados obtenidos en este escenario con los que se obtengan posteriormente en el escenario realista. Si bien pudiera considerarse que la utilidad de un marco de trabajo como el
aquí propuesto carece de interés más allá del mero ejercicio de comprobación citado, en
esta tesis se propone un sistema basado en este planteamiento cuya finalidad es la validación automática de un corpus de voz expresiva destinado a síntesis, ya que en síntesis sí
es necesario que el corpus esté grabado en condiciones óptimas puesto que será empleado
para la generación de nuevas locuciones.
En segundo lugar la tesis profundiza en el análisis del corpus FAU Aibo, un corpus
multilocutor de voz expresiva espontánea grabado en alemán a partir de interacciones naturales de un grupo de niños y niñas con un robot dotado de un micrófono. En este caso el
planteamiento es completamente distinto al anterior partiendo de la definición del propio
corpus, en el que las locuciones no responden a un guion previo y las etiquetas afectivas
iii
se asignan posteriormente a partir de la evaluación subjetiva de las mismas. Asimismo,
el grado de expresividad emocional de estas locuciones es inferior al de las grabadas por
un actor o una actriz en tanto que son espontáneas y las emociones, dado que se generan
de forma natural, no responden necesariamente a una definición prototípica. Todo ello
sin considerar que las condiciones de grabación no son las mismas que las que se obtendrían en un estudio de grabación profesional. En este escenario los resultados son muy
diferentes a los obtenidos en el escenario anterior por lo que se requiere un estudio más
detallado. En este sentido se plantean dos parametrizaciones, una a nivel acústico y otra
a nivel lingüístico, ya que la segunda podría no verse tan afectada por los elementos que
pueden degradar la primera, tales como ruido u otros artefactos. Se proponen distintos
sistemas de clasificación de complejidad variable a pesar de que, a menudo, los sistemas
más sencillos producen resultados buenos. También se proponen distintas agrupaciones
de parámetros intentando conseguir un conjunto de datos lo más pequeño posible que
sea capaz de llevar a cabo un reconocimiento afectivo automático de forma eficaz.
Los resultados obtenidos en el análisis de las expresiones espontáneas ponen de
manifiesto la complejidad del problema tratado y se corresponden con valores inferiores
a los obtenidos a partir de corpus grabados en condiciones ideales. Sin embargo, los esquemas propuestos logran obtener resultados que superan los publicados hasta la fecha
en estudios realizados en condiciones análogas y abren, por lo tanto, la puerta a investigaciones futuras en este ámbito.
PALABRAS CLAVE: Análisis del habla expresiva, reconocimiento de emociones,
habla espontánea, tecnologías del habla, interacción persona-máquina
Resum
Aquesta tesi tracta el reconeixement automàtic d’emocions espontànies basat en
l’anàlisi del senyal de veu. Es duu a terme dins del Grup de recerca de Tecnologies Mèdia (GTM) d’Enginyeria i Arquitectura La Salle, i té el seu origen en un moment en què
existeixen obertes diverses línies d’investigació relacionades amb la síntesi afectiva però
cap d’elles relacionada amb el seu anàlisi. La motivació és, doncs, millorar la interacció
persona-màquina aportant un mòdul d’anàlisi a l’entrada dels sistemes que permeti, posteriorment, generar una resposta adequada mitjançant els mòduls de síntesi a la sortida dels mateixos. El centre d’atenció se situa en l’expressivitat afectiva, intentant dotar
d’habilitats d’intel·ligència emocional a sistemes d’intel·ligència artificial, amb l’objectiu
de què la interacció persona-màquina sigui el més similar possible a la comunicació humana.
En primer lloc es duu a terme un anàlisi preliminar basat en locucions enregistrades en condicions ideals. L’expressivitat vocal en aquest cas és actuada i les gravacions
responen a un guió previ que estableix a priori l’etiqueta que descriu el contingut afectiu
de les mateixes. Tot i què aquest no és el paradigma de la interacció en un entorn natural,
aquest primer pas serveix per provar les primeres aproximacions a la parametrització dels
corpus, els mètodes de selecció de paràmetres i la seva utilitat en l’optimització dels procediments, així com la viabilitat de considerar el sistema de reconeixement afectiu com un
exercici de classificació categòrica. Tanmateix, permet comparar els resultats obtinguts en
aquest escenari amb els que s’obtinguin posteriorment a l’escenari natural. Si bé es podria
considerar que la utilitat d’un marc de treball com el que aquí es proposa no interès més
enllà de l’exercici de comprovació abans explicat, a aquesta tesi es proposa un sistema
basat en aquest plantejament la finalitat del qual és la validació automàtica d’un corpus
de veu expressiva destinat a síntesi. En síntesi sí és necessari que el corpus estigui gravat
en condicions òptimes perquè serà emprat per a la generació de noves locucions.
En segon lloc la tesi aprofundeix en l’anàlisi del corpus FAU Aibo, un corpus multilocutor de veu expressiva espontània enregistrat en alemany que recull un conjunt de
gravacions d’interaccions naturals d’un grup de nens i nenes amb un robot que té instal·lat un micròfon. En aquest cas el plantejament és completament diferent a l’anterior
començant per la definició del mateix corpus, en el que les locucions no responen a un
guió previ i les etiquetes afectives són assignades posteriorment considerant l’avaluació
v
subjectiva de les mateixes. Tanmateix, el grau d’expressivitat emocional d’aquestes locucions és inferior al de les enregistrades per un actor o una actriu en tant que són espontànies i les emocions, donat que es generen de forma natural i no es treballa en base a
un guió, no responen necessàriament a una definició prototípica. Tot això sense tenir en
consideració que les condicions de gravació no són les mateixes que les que es tindrien
en un estudi de gravació professional. En aquest escenari els resultats són molt diferents
als que s’obtenen a l’escenari anterior i, per tant, es fa necessari un estudi més acurat. En
aquest sentit es plantegen dues parametritzacions, una a nivell acústic i una altra a nivell
lingüístic, en tant que la segona podria no resultar tan afectada pels elements que poden
degradar la primera, tals com soroll o d’altres artefactes. Es proposen diferents esquemes
de classificació de complexitat variable malgrat que, molt sovint, els sistemes més senzills
proporcionen resultats bons. També es proposen diferents conjunts de paràmetres intentant aconseguir una selecció de dades tan petita com sigui possible que pugui realitzar
un reconeixement afectiu automàtic de manera eficaç.
Els resultats obtinguts de l’anàlisi de les expressions espontànies posen de manifest
la complexitat del problema plantejat i suposen valors inferiors als obtinguts a partir de
corpus enregistrats en condicions ideals. Malgrat tot, els esquemes proposats aconsegueixen resultats que superen els publicats fins la data actual a estudis realitzats en condicions
anàlogues i obren, per tant, la porta a investigacions futures dins d’aquest àmbit.
PARAULES CLAU: Anàlisi de la parla expressiva, reconeixement d’emocions, parla espontània, tecnologies de la parla, interacció persona-màquina
Summary
The topic of this thesis is the automatic spontaneous emotion recognition from the
analysis of the speech signal. It is carried out in the Grup de recerca de Tecnologies Mèdia
(GTM) of Enginyeria i Arquitectura La Salle, and was started when several research lines
related to the synthesis of emotions were in progress but none of them were related to
its analysis. The motivation is to improve human-machine interaction by developing an
analysis module to be adapted as an input to the devices able to generate an appropriate
answer at the output through their synthesis modules. The highlight is the expression of
emotion, trying to give emotional intelligence skills to artificial intelligence systems. The
main goal is to make human-machine interaction more similar to human communication.
First, we carried out a preliminary analysis of utterances recorded under ideal conditions. Vocal expression was, in this case, acted and the recordings followed a script
which determined the descriptive label of their emotional content. Although this was not
the paradigm of interaction in a realistic scenario, this previous step was useful in testing the first approaches to parameterisation of corpora, feature selection methods and
their utility optimizing the proposed procedures, and in determining whether the consideration of the emotion recognition problem as a categorical classification exercise is
viable. Moreover, it allowed the comparison of the results in this scenario with the results obtained in the realistic environment. This framework can be useful in some other
contexts, additionally to this comparison utility. In this thesis we propose a system based
on it with the goal of validating automatically an expressive speech corpus for synthesis.
In the synthesis field, corpora must be recorded under optimal conditions to create new
speech utterances.
Second, we present an analysis of the FAU Aibo corpus, a multi-speaker corpus of
emotional spontaneous speech recorded in German from the interaction of a group of children with a robot which had an incorporated microphone. In this case, the approach was
different because of the definition of the corpus. The recordings of the FAU Aibo corpus
did not follow a script and the emotion category labels were assigned after a subjective
evaluation process. Moreover, the emotional content of these recordings was lower than
in those recorded by actors, because of their spontaneity; emotions were not prototypical because they were generated naturally, not following a script. Furthermore, recording
conditions were not the same as in a professional recording studio. In this scenario, results
vii
were very different to those obtained in the previous one. For this reason a more accurate analysis was required. In this sense we used two parameterisations, adding linguistic
parameters to the acoustic information since the first one could be more robust to noise
or some other artefacts than the second one. We considered several classifiers of different
complexity although, frequently, simple systems get the better results. Moreover, we defined several sets of features trying to get a reduced set of data able to work efficiently in
the automatic emotion recognition task.
Results related to the analysis of the spontaneous emotions confirmed the complexity of the problem and revealed lower values than those associated to the corpus recorded
under ideal conditions. However, the schemas got better results than those published so
far in works carried out under similar conditions. This opens a door to future research in
this area.
KEYWORDS: Expressive speech analysis, emotion recognition, spontaneous speech,
speech technologies, human-computer interaction
Agradecimientos
Esta tesis es fruto del esfuerzo llevado a cabo durante mucho tiempo. A lo largo de
los años han sido muchas las personas que en mayor o menor medida han ayudado a que
esta tesis sea hoy una realidad y hasta la contribución más pequeña, realizada siempre de
forma constructiva, ha supuesto para mí un importante impulso para seguir adelante en
este recorrido.
Quiero agradecer a mis padres su esfuerzo por lograr que hoy haya podido llegar
al final de este trayecto. Quiero agradecerles de corazón su apoyo y su comprensión a lo
largo de todo el tiempo invertido para llevar a cabo mis estudios y, en esta última etapa,
para la realización de esta tesis. Quiero agradecerles el amor y el cariño incondicional que
me han dado a lo largo de toda mi vida y la educación que me han ofrecido. Porque este
también es el resultado de su gran esfuerzo y de su trabajo duro y sin ellos nunca hubiera
podido llegar hasta aquí.
A mi familia. A los que están y a los que se fueron sin poder ver este trabajo terminado y siempre me apoyaron.
A Ignasi Iriondo, director de esta tesis doctoral, por sus indicaciones, su apoyo,
su amistad y su insistencia, por haberse involucrado plenamente en este trabajo y haber
conseguido que saliera adelante a pesar de los escollos del camino.
A Joan Claudi Socoró, profesor, compañero y amigo, por toda la ayuda, comprensión y soporte prestados a lo largo de este tiempo en tantas y tan diversas situaciones y
circunstancias y por haber podido contar con él en todo momento.
A Jose Antonio Morán por la motivación, por haber creído en mí y por introducirme en el mundo de la investigación. Y junto con Elisa Martínez por su dedicación en las
fases iniciales de este trabajo.
A todos y cada uno de los compañeros que me han acompañado durante mi trayectoria en La Salle y, en especial, a aquellos con los que compartí mi estancia en el que
fuera el Departamento de Comunicaciones y Teoría de la Señal, en el GPMM y, posteriormente, en el GTM. Entre ellos hay personas con las que he compartido muchas horas
de estudio y trabajo a las que les agradezco su dedicación y compañerismo, como Jordi
Adell, Francesc Alías, Rosa Maria Alsina, Àngel Calzada, Germán Cobo, Lluís Formiga,
ix
David García, Xavier Gonzalvo, José Antonio Montero, Carlos Monzo, Xavier Sevillano
y Alexandre Trilla. La trayectoria ha sido larga y han sido muchas las personas a las que
quiero agradecer los momentos compartidos. Sin embargo, resulta imposible citarlas a todas sin que me deje nombres en el tintero: Simó, David M., Carles, Marc, Mireia, David
B., Gemma, Borja, Oriol, Pere, Lluís, Diego, Berta, Ester, ...
A Gabriel. A Alberto, Ana, Cristina, Gemma, Íñigo, Isa, Jaume, Laura, Lluís, Luisa,
Marta y Mónica, por haber estado cerca siempre y, especialmente, en estos últimos años. Y
también a todos los amigos que no he citado pero que no por ello son menos importantes
para mí, con los que he compartido tantos momentos y me han mostrado su afecto en
muchas ocasiones y aún siguen haciéndolo.
A los organismos públicos y privados que han financiado parcialmente el trabajo
de investigación presentado en esta tesis.
Y a todas aquellas personas a las que no he nombrado pero con las que he estudiado, trabajado o compartido vivencias en todo este tiempo y han contribuido a mi
formación humana y profesional.
A todos vosotros, muchas gracias.
Índice general
Índice de figuras
xix
Índice de tablas
xxvii
Índice de algoritmos
xxix
Siglas, acrónimos y símbolos
xxxi
1. Introducción
1
1.1. Presentación del contexto de la investigación realizada . . . . . . . . . . .
1
1.2. Definición de los objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . .
4
1.3. Organización de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2. Fundamentos
9
2.1. Teoría de las emociones . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.1.1. El concepto de emoción . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.1.2. Teorías sobre las emociones plenas . . . . . . . . . . . . . . . . . . .
11
2.1.2.1.
La Perspectiva Darwiniana . . . . . . . . . . . . . . . . . .
11
2.1.2.2.
La Perspectiva Jamesiana . . . . . . . . . . . . . . . . . . .
12
2.1.2.3.
La Perspectiva Cognitiva . . . . . . . . . . . . . . . . . . .
13
2.1.2.4.
La Perspectiva Constructivista Social . . . . . . . . . . . .
13
2.1.3. La descripción de las emociones . . . . . . . . . . . . . . . . . . . .
14
xi
xii
Índice general
2.1.3.1.
Listados de emociones básicas . . . . . . . . . . . . . . . .
14
2.1.3.2.
Modelos circumplex . . . . . . . . . . . . . . . . . . . . . .
15
2.1.3.3.
Espacio multidimensional . . . . . . . . . . . . . . . . . .
17
2.2. Etiquetado subjetivo de estímulos . . . . . . . . . . . . . . . . . . . . . . . .
21
2.2.1. Etiquetado categórico . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.2.2. Etiquetado dimensional . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.2.2.1.
Feeltrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.2.2.2.
La rueda de emociones Geneva . . . . . . . . . . . . . . . .
24
2.2.2.3.
Self-Assessment Manikin . . . . . . . . . . . . . . . . . . . .
25
2.3. Expresión y percepción de emociones . . . . . . . . . . . . . . . . . . . . .
26
2.3.1. Reacciones fisiológicas relacionadas con la emoción . . . . . . . . .
27
2.3.2. Elementos multimodales de la comunicación . . . . . . . . . . . . .
28
2.3.3. Parámetros del habla relacionados con la emoción . . . . . . . . . .
30
2.3.4. La percepción musical . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
3. Corpus y parametrización
39
3.1. Consideraciones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
3.2. Métodos para la generación de habla emocional . . . . . . . . . . . . . . .
41
3.2.1. Expresión vocal natural . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.2.2. Expresión vocal inducida . . . . . . . . . . . . . . . . . . . . . . . .
42
3.2.3. Expresión vocal estimulada . . . . . . . . . . . . . . . . . . . . . . .
43
3.2.4. Expresión vocal actuada . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.3. Parametrización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.3.1. Parametrización acústica . . . . . . . . . . . . . . . . . . . . . . . . .
45
3.3.1.1.
Descriptores de bajo nivel . . . . . . . . . . . . . . . . . . .
47
3.3.2. Parametrización lingüística . . . . . . . . . . . . . . . . . . . . . . .
51
Índice general
xiii
3.3.2.1.
Prominencia emocional y activación
. . . . . . . . . . . .
51
3.3.2.2.
Afinidad prototípica . . . . . . . . . . . . . . . . . . . . . .
53
3.3.2.3.
Dimensiones emocionales . . . . . . . . . . . . . . . . . .
53
3.3.2.4.
Modelo de espacio vectorial . . . . . . . . . . . . . . . . .
54
3.4. Corpus empleados en esta tesis . . . . . . . . . . . . . . . . . . . . . . . . .
54
3.4.1. Corpus ESDLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
3.4.1.1.
Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.4.1.2.
Parametrización . . . . . . . . . . . . . . . . . . . . . . . .
56
3.4.2. Corpus BDP-UAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.4.2.1.
Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.4.2.2.
Parametrización . . . . . . . . . . . . . . . . . . . . . . . .
61
3.4.3. Corpus FAU Aibo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
3.4.3.1.
Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
3.4.3.2.
Parametrización . . . . . . . . . . . . . . . . . . . . . . . .
66
3.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
4. Estado de la cuestión
69
4.1. Antecedentes del reconocimiento emocional . . . . . . . . . . . . . . . . .
69
4.2. Aplicaciones del reconocimiento emocional automático . . . . . . . . . . .
71
4.3. Conceptos previos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.3.1. Principales modalidades analizadas en el reconocimiento afectivo
automático y procedimientos para su fusión . . . . . . . . . . . . .
74
4.3.2. Selección de parámetros . . . . . . . . . . . . . . . . . . . . . . . . .
76
4.3.3. Algoritmos de clasificación . . . . . . . . . . . . . . . . . . . . . . .
77
4.3.3.1.
Árboles, reglas y tablas de decisión . . . . . . . . . . . . .
78
4.3.3.2.
Aprendizaje basado en casos . . . . . . . . . . . . . . . . .
79
4.3.3.3.
Clasificadores probabilísticos y basados en funciones . . .
79
xiv
Índice general
4.3.3.4.
Metamétodos . . . . . . . . . . . . . . . . . . . . . . . . . .
81
4.3.4. Medidas del rendimiento de los algoritmos de reconocimiento . . .
82
4.3.4.1.
Métricas por categoría . . . . . . . . . . . . . . . . . . . . .
82
4.3.4.2.
Métricas globales . . . . . . . . . . . . . . . . . . . . . . .
83
4.3.5. Métodos de evaluación de los algoritmos de reconocimiento . . . .
85
4.4. Estudios de reconocimiento emocional basados en la señal de voz . . . . .
86
4.4.1. Reconocimiento emocional de emociones actuadas . . . . . . . . .
86
4.4.2. Reconocimiento emocional de emociones espontáneas . . . . . . .
89
4.5. Otras aproximaciones al reconocimiento emocional . . . . . . . . . . . . .
93
4.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
97
5.1. Reconocimiento afectivo básico . . . . . . . . . . . . . . . . . . . . . . . . .
98
5.1.1. Corpus de voz actuada . . . . . . . . . . . . . . . . . . . . . . . . . .
98
5.1.1.1.
Metodología . . . . . . . . . . . . . . . . . . . . . . . . . .
99
5.1.1.2.
Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.1.2. Corpus de voz estimulada . . . . . . . . . . . . . . . . . . . . . . . . 103
5.1.2.1.
Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.1.2.2.
Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.1.3. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.2. Reconocimiento afectivo de mapeo subjetivo . . . . . . . . . . . . . . . . . 107
5.2.1. Planteamiento general del sistema . . . . . . . . . . . . . . . . . . . 108
5.2.2. Diseño del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.2.3. Resultados preliminares . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2.4. Inclusión de parámetros de VoQ . . . . . . . . . . . . . . . . . . . . 110
5.2.5. Selección de parámetros ampliada . . . . . . . . . . . . . . . . . . . 111
5.2.6. Fusión de clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . 112
Índice general
xv
5.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6. Reconocimiento afectivo en corpus de voz espontánea
117
6.1. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.1.1. Esquema general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.1.2. Métrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.1.3. Métodos de evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos . . 121
6.2.1. Propuesta para el Emotion Challenge 2009 . . . . . . . . . . . . . . . 121
6.2.1.1.
Desafío de clasificación . . . . . . . . . . . . . . . . . . . . 122
6.2.1.2.
Desafío de parámetros . . . . . . . . . . . . . . . . . . . . 128
6.2.1.3.
Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.2.2. Sistema de clasificación acústica mejorado . . . . . . . . . . . . . . 130
6.2.2.1.
Clasificación categórica . . . . . . . . . . . . . . . . . . . . 131
6.2.2.2.
Clasificación dimensional . . . . . . . . . . . . . . . . . . . 134
6.2.2.3.
Reducción del conjunto de parámetros . . . . . . . . . . . 139
6.2.2.4.
Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
6.3. Reconocimiento afectivo basado en el análisis de parámetros lingüísticos . 142
6.3.1. Clasificación de los subconjuntos de parámetros . . . . . . . . . . . 142
6.3.2. Fusión y selección de parámetros lingüísticos . . . . . . . . . . . . . 143
6.3.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos 145
6.4.1. Análisis preliminar de selección de parámetros y técnicas de fusión 145
6.4.2. Fusión de parámetros seleccionados acústicos y lingüísticos . . . . 149
6.4.2.1.
Definición de los conjuntos de datos . . . . . . . . . . . . 149
6.4.2.2.
Fusión de parámetros acústicos y parámetros lingüísticos
seleccionados manualmente . . . . . . . . . . . . . . . . . 150
xvi
Índice general
6.4.2.3.
Fusión de parámetros acústicos y parámetros lingüísticos
seleccionados automáticamente . . . . . . . . . . . . . . . 153
6.4.2.4.
Comparación global de resultados . . . . . . . . . . . . . . 155
6.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7. Conclusiones y futuras líneas de investigación
161
7.1. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7.2. Reconocimiento afectivo en corpus actuados . . . . . . . . . . . . . . . . . 164
7.3. Reconocimiento afectivo en corpus espontáneos . . . . . . . . . . . . . . . 165
7.4. Líneas de futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Bibliografía
169
A. Aportaciones
191
A.1. Publicaciones científicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
A.2. Otras publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
A.3. Comités técnicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
A.4. Proyectos de investigación y desarrollo . . . . . . . . . . . . . . . . . . . . . 196
A.5. Participación en eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
B. Plataforma en línea de tests para la evaluación de estímulos multimedia
199
B.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
B.1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
B.1.2. Esquema básico de funcionamiento . . . . . . . . . . . . . . . . . . 201
B.1.3. Características generales . . . . . . . . . . . . . . . . . . . . . . . . . 203
B.1.4. Tipos de test implementados . . . . . . . . . . . . . . . . . . . . . . 206
B.1.5. Diferencias con otras plataformas existentes . . . . . . . . . . . . . 207
B.2. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
B.3. Trabajos relacionados con TRUE . . . . . . . . . . . . . . . . . . . . . . . . 209
Índice general
xvii
C. Aplicaciones de reconocimiento afectivo automático
211
C.1. Aplicación de análisis afectivo basado en aprendizaje interactivo incremental212
C.1.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
C.1.2. Funcionamiento de la aplicación . . . . . . . . . . . . . . . . . . . . 213
C.1.3. Implementación del módulo de reconocimiento afectivo . . . . . . 214
C.1.4. Implementación de la aplicación . . . . . . . . . . . . . . . . . . . . 215
C.2. Módulo de reconocimiento afectivo audiovisual . . . . . . . . . . . . . . . 217
C.2.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
C.2.2. Características generales . . . . . . . . . . . . . . . . . . . . . . . . . 218
C.2.3. Funcionamiento del MRAA . . . . . . . . . . . . . . . . . . . . . . . 220
C.2.3.1. Funcionamiento general del MRAA . . . . . . . . . . . . . 220
C.2.3.2. Ejecución del MRAA como aplicación independiente . . . 221
C.2.3.3. Ejecución de las funciones del MRAA desde el código de
una aplicación Java . . . . . . . . . . . . . . . . . . . . . . 223
C.2.4. Implementación del módulo de reconocimiento afectivo . . . . . . 224
C.2.4.1. Componente de parametrización del audio . . . . . . . . 224
C.2.4.2. Componente de parametrización del vídeo . . . . . . . . . 224
C.2.4.3. Componentes de entrenamiento y clasificación de las modalidades de audio y vídeo . . . . . . . . . . . . . . . . . . 225
C.2.4.4. Componente de clasificación audiovisual . . . . . . . . . . 225
C.2.5. Implementación del MRAA . . . . . . . . . . . . . . . . . . . . . . . 225
xviii
Índice general
Índice de figuras
1.1. Esquema de interacción persona-máquina a través de la voz con reconocimiento y síntesis de emociones. . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.1. Modelo circumplex tridimensional de Plutchik y su traducción al español.
Adaptado de (Plutchik, 2001) (en inglés). . . . . . . . . . . . . . . . . . . .
18
2.2. Mapeo de 80 etiquetas emocionales en el espacio bidimensional de activación (eje vertical: activo-pasivo) y evaluación (eje horizontal: positivonegativo) y su traducción al español. Adaptado de (Scherer, 2000) según la
reproducción de Steidl (2009) (en inglés). . . . . . . . . . . . . . . . . . . .
20
2.3. Herramienta Feeltrace (Cowie et al., 2000) utilizada para anotar la emoción
de un estímulo audiovisual en un espacio bidimensional. Adaptado de (Cowie et al., 2001) (en inglés). . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.4. Rueda de emociones Geneva (Scherer, 2005). Adaptado de (Steidl, 2009) (en
inglés). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.5. Self-Assessment Manikin (SAM). Figura adaptada de su implementación en
la herramienta TRUE (Planet et al., 2008) según la descripción gráfica de
Bradley y Lang (1994). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.6. Componentes a nivel vocal y no vocal de la comunicación humana. Adaptado de (Payrató, 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.7. Modalidades del proceso comunicativo humano. Adaptado de (Payrató,
2005), según el original de Heinemann (1980). . . . . . . . . . . . . . . . . .
30
2.8. Modelo esquemático del tracto vocal. . . . . . . . . . . . . . . . . . . . . . .
32
2.9. Formas de onda y escpectrogramas de cuatro locuciones habladas procedentes del corpus BDP-UAB. Cada locución se corresponde con un estilo
neutro, agresivo, alegre y triste (en el sentido de las agujas del reloj). . . .
35
xix
xx
Índice de figuras
3.1. Clasificación de los estudios sobre habla y emoción según el foco de interés.
Adaptado de (Iriondo, 2008). . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.2. Esquema de la parametrización acústica de un archivo de audio de un corpus calculando n descriptores de bajo nivel, su primera derivada y m funcionales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.3. Esquema de la parametrización lingüística de una frase calculando k parámetros de activación, uno para categoría emocional. Se han marcado en
rojo aquellos elementos de la frase cuya prominencia emocional supera un
umbral preestablecido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
3.4. Matriz de confusión de la clasificación subjetiva del corpus ESDLA. . . . .
56
3.5. Matriz de confusión de la clasificación subjetiva del corpus BDP-UAB. Adaptado de (Iriondo et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
3.6. Histogramas que reflejan la evaluación de las 480 locuciones de la prueba
subjetiva. El eje vertical muestra el número de locuciones que: (a) son correctamente clasificadas en el porcentaje indicado en el eje horizontal, (b)
reciben la etiqueta “NS/NC” en el porcentaje indicado en el eje horizontal.
Adaptado de (Iriondo et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . .
61
3.7. Distribución de clases del corpus FAU Aibo. . . . . . . . . . . . . . . . . . .
65
3.8. Índice de ocurrencia, en porcentaje, de cada etiqueta categórica dentro de
cada intérvalo de afinidad prototípica. El margen de afinidad prototípica de
0 a 1 del eje horizontal aparece dividido en 10 intervalos equiespaciados.
Dado que los valores de afinidad prototípica inferiores a 0,25 se asumen
como 0, no hay ocurrencias en el intérvalo de 0,1 a 0,2 ya que se desplazan
al intervalo anterior. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
3.9. Histograma de la longitud de las locuciones y su distribución, en porcentaje, en el conjunto de entrenamiento. . . . . . . . . . . . . . . . . . . . . .
67
3.10. Proceso de creación de los bigramas y trigramas para los elementos de las
locuciones del corpus. En esta figura se muestra, como ejemplo, una locución de 3 elementos (palabras o etiquetas POS, según corresponda). Nótese
la adición de las etiquetas delimitadoras al inicio y al final de la locución. .
68
4.1. Esquema de interacción persona-máquina bimodal. Adaptado de (Sebe et
al., 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
5.1. Esquema de un experimento genérico de reconocimiento afectivo básico. .
99
Índice de figuras
xxi
5.2. Definición de los conjuntos de datos creados para el experimento de reconocimiento afectivo básico sobre el corpus ESDLA. Entre paréntesis se
indica el número de parámetros que contiene cada conjunto de datos. ENE
hace referencia a los parámetros de energía y SIL a los de silencio. . . . . . 100
5.3. Resultados WAR del experimento de reconocimiento afectivo básico en el
corpus ESDLA considerando los 4 estados emocionales. El resultado del
algoritmo de referencia ZeroR es 25 %. . . . . . . . . . . . . . . . . . . . . . 102
5.4. Matriz de confusión de los resultados de clasificación del algoritmo SVM
y el conjunto de datos data7 en el experimento de reconocimiento afectivo
básico con el corpus ESDLA considerando los 4 estados emocionales. . . . 103
5.5. Definición de los conjuntos de datos creados para el experimento de reconocimiento afectivo básico sobre el corpus BDP-UAB. Entre paréntesis se
indica el número de parámetros que contiene cada conjunto de datos. ENE
hace referencia a los parámetros de energía. El campo Completo hace referencia a que se consideran todos los segmentos de la locución, sin excepción.104
5.6. Resultados WAR del experimento de reconocimiento afectivo básico en el
corpus BDP-UAB. La figura (a) muestra los resultados obtenidos por los
subconjuntos de datos derivados del conjunto de datos original completo. La figura (b) muestra los resultados obtenidos por los subconjuntos de
datos derivados del conjunto de datos original omitiendo la segunda derivada. El resultado del algoritmo de referencia ZeroR es 22,60 %. . . . . . . 106
5.7. Matriz de confusión de los resultados de clasificación del algoritmo SVM y
el conjunto de datos data2G en el experimento de reconocimiento afectivo
básico con el corpus BDP-UAB. . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.8. Esquema de un experimento genérico de reconocimiento afectivo de mapeo
subjetivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.9. Ajuste del sistema objetivo de reconocimiento afectivo guiado por los resultados de una prueba subjetiva. Adaptado de (Iriondo et al., 2009). . . . 110
5.10. Descripción gráfica del corpus data2LCVQ5. ENE y DUR hacen referencia a los parámetros de energía y duración, respectivamente. Adaptado de
(Iriondo et al., 2007b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.11. Valores máximos de F1 para los algoritmos SVM, J4.8 y Naïve-Bayes (NB)
considerando la ausencia y presencia de parámetros de VoQ (conjuntos de
datos data2LC y data2LCVQ5, respectivamente). Se incluyen las estrategias
de búsqueda hacia delante (FW), 3FW-1B y 4FW-1BW. . . . . . . . . . . . . 112
xxii
Índice de figuras
5.12. Valores máximos de F1 por iteración considerando el conjunto de datos
data2LCVQ5 con las estrategias de selección de parámetros: (a) 3FW-1BW
y (b) 4FW-1BW. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.13. F1, cobertura y precisión de la fusión de clasificadores por votación en función del mínimo número de votos necesario para considerar las locuciones
como incorrectas. Se incluye el resultado de la F1 conseguida por la fusión
mediante el algoritmo PART. . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.1. Esquema de un experimento genérico de reconocimiento afectivo en corpus
de voz espontánea. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.2. Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los clasificadores según su evaluación mediante una validación
cruzada de 10 iteraciones (10-FCV) y mediante los dos conjuntos independientes (Test set). Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . 123
6.3. Matriz de confusión del algoritmo Naïve-Bayes evaluado mediante los dos
conjuntos independientes de entrenamiento y de prueba. Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.4. Esquema del clasificador jerárquico de dos niveles basado en un clasificador binario de primer nivel y un clasificador general de segundo nivel. Los
elementos coloreados en azul indican relación con la fase de entrenamiento
y los coloreados en rojo indican relación con la fase de prueba. Las líneas
punteadas indican flujos de datos que sirven para entrenar un clasificador
mientras que las líneas sólidas indican flujos de datos que son evaluados
en un clasificador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
6.5. Esquema del clasificador jerárquico de dos niveles basado en un clasificador binario de primer nivel (1C) y dos clasificadores generales de segundo
nivel (2C-1 y 2C-2). Los elementos coloreados en azul indican relación con
la fase de entrenamiento y los coloreados en rojo indican relación con la
fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de
datos que son evaluados en un clasificador, independientemente de si se
estos flujos intervienen en la fase de entrenamiento o la de prueba. . . . . 126
Índice de figuras
xxiii
6.6. Esquema del clasificador en cascada basado en 5 niveles de clasificación
ordenados según la población de cada una de las clases del corpus FAU
Aibo. Los elementos coloreados de azul indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la fase de prueba.
Las líneas punteadas indican flujos de datos que sirven para entrenar un
clasificador mientras que las líneas sólidas indican flujos de datos que son
evaluados en un clasificador, independientemente de si se estos flujos intervienen en la fase de entrenamiento o la de prueba. . . . . . . . . . . . . 127
6.7. Tasas de clasificación ponderada (WAR, en negro) y no ponderada (UAR,
en rojo), del algoritmo Support-Vector Machine (SVM) evaluado mediante
una validación cruzada de 10 iteraciones, considerando un conjunto de
datos de entre 1 y 200 parámetros previamente escogidos por el criterio
mRMR. Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . . . . . . 129
6.8. Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los clasificadores según su evaluación mediante una estrategia
LOSO y mediante los dos conjuntos independientes (Test set). . . . . . . . 132
6.9. Matriz de confusión del esquema de fusión NB+SVM-B evaluado mediante
los dos conjuntos independientes de entrenamiento y de prueba. Adaptado
de (Planet et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.10. Mapeo en el modelo de activación-evaluación de Scherer (1984) de las etiquetas afectivas del corpus FAU Aibo, según las definiciones de Steidl (2009)
y Schuller et al. (2009) de cada una de ellas. Las etiquetas afectivas son neutro (N), enfado (A), enfático (E), positivo (P) (compuesto por maternal (Pm )
y alegre (Pj )) y resto (R) (compuesto por sorpresa (Rs ), impotencia (Rh ) y
aburrimiento (Rb )). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.11. Clasificación de las etiquetas afectivas del corpus FAU Aibo basada en la
dimensión de evaluación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
6.12. Diseño del clasificador jerárquico basado en la dimensión de evaluación. . 136
6.13. Clasificación de las etiquetas afectivas del corpus FAU Aibo basada en la
dimensión de activación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
6.14. Diseño del clasificador jerárquico basado en la dimensión de activación. . 138
6.15. Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los esquemas jerárquicos basados en las dimensiones de evaluación
y activación, así como la fusión de ambos mediante una estrategia de stacking, según su evaluación mediante una validación LOSO y mediante los
dos conjuntos independientes (Test set). . . . . . . . . . . . . . . . . . . . . 138
xxiv
Índice de figuras
6.16. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto completo de 384 parámetros acústicos y los
conjuntos reducidos de 28 y 305 parámetros seleccionados mediante una
búsqueda voraz incremental y decremental, respectivamente. Adaptado de
(Planet e Iriondo, 2012b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
6.17. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando 3 conjuntos de datos lingüísticos: los formados por los
unigramas y bigramas a nivel de palabra y el formado por trigramas a nivel POS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
6.18. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando dos conjuntos de datos lingüísticos: el que fusiona por
concatenación los tres conjuntos anteriores (15 parámetros) y la selección
automática realizada por una búsqueda voraz incremental (6 parámetros). 144
6.19. Representación esquemática de los esquemas de fusión de las modalidades
acústica y lingüística (a) a nivel de parámetros mediante concatenación y
(b) a nivel de decisión mediante un esquema de stacking. . . . . . . . . . . 146
6.20. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto de datos acústicos (28 parámetros seleccionados
por la búsqueda voraz incremental (FW, arriba) y 305 parámetros seleccionados por la búsqueda voraz decremental (BW, abajo)), el conjunto de datos
lingüísticos basados en los unigramas a nivel de palabra y los esquemas de
fusión a nivel de decisión y de parámetros. Adaptado de (Planet e Iriondo,
2012b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.21. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto completo de parámetros lingüísticos (Data3)
en combinación con el conjunto reducido de parámetros acústicos (Data1)
y el conjunto acústico completo (Data2). . . . . . . . . . . . . . . . . . . . . 151
6.22. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores al fusionar el conjunto reducido de parámetros acústicos (Data1) con los
3 subconjuntos de parámetros lingüísticos (Data4, Data5 y Data6) de forma
independiente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6.23. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores fusionando el conjunto reducido de parámetros acústicos (Data1) con
tres combinaciones dos a dos de los subconjuntos lingüísticos. . . . . . . . 153
Índice de figuras
xxv
6.24. Comparación de las tasas de clasificación no ponderadas (UAR) de los clasificadores al analizar el conjunto reducido de parámetros acústicos (Data1)
de forma independiente y al añadir, de forma incremental, los parámetros
de activación de los bigramas a nivel de palabra (Data5) y los parámetros de
activación de los trigramas a nivel POS, así como su fusión con la totalidad
de parámetros lingüísticos (Data3). . . . . . . . . . . . . . . . . . . . . . . . 154
6.25. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores considerando la fusión del conjunto reducido de parámetros acústicos
(Data1) con los conjuntos de datos Data5 y Data6, con el conjunto reducido de parámetros lingüísticos (Data7) y el subconjunto seleccionado por
un algoritmo genético a partir del conjunto completo acústico y lingüístico
(Data8). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
6.26. Comparación entre los resultados de varios experimentos del estado de la
cuestión y los resultados más relevantes presentados en este capítulo al
emplear dos conjuntos independientes para entrenamiento y prueba. Se
muestra la tasa de clasificación no ponderada (UAR, en negro) y el número
de parámetros del conjunto de datos con el que se consigue ese resultado
(en azul). En el caso de (Schuller et al., 2011) el número de parámetros mostrado es orientativo ya que es superior al indicado al provenir de la fusión
de 7 esquemas de clasificación. . . . . . . . . . . . . . . . . . . . . . . . . . 156
B.1. Esquema básico de funcionamiento de la plataforma TRUE. . . . . . . . . 202
B.2. Menú principal de la plataforma TRUE para un administrador general del
sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
B.3. Cuatro test de muestra creados con la plataforma TRUE. En sentido horario,
desde la esquina superior izquierda: un test gráfico de dos estímulos, un
test de un estímulo de audio, un test de vídeo y un test de estímulo textual. 204
B.4. Ejemplo de demostración inicial completa en un test gráfico en inglés. . . 205
B.5. Ejemplo de encuesta al final de un test. . . . . . . . . . . . . . . . . . . . . . 206
B.6. Esquema de configuración de un test. La plantilla general permite ser adaptada para mostrar los estímulos y las entradas de evaluación en distintas
disposiciones. Se muestran algunos ejemplos de entradas de evaluación (interfaz SAM, entrada de elección múltiple, entrada de texto libre y botones
configurables de uso general). . . . . . . . . . . . . . . . . . . . . . . . . . . 207
C.1. Diagrama de flujo de la aplicación de análisis afectivo automático basado
en aprendizaje interactivo incremental. . . . . . . . . . . . . . . . . . . . . . 214
xxvi
Índice de figuras
C.2. Interfaz gráfica de la aplicación de análisis afectivo automático basado en
aprendizaje interactivo incremental. . . . . . . . . . . . . . . . . . . . . . . 216
C.3. Diagrama de bloques del MRAA. . . . . . . . . . . . . . . . . . . . . . . . . 221
Índice de tablas
2.1. Emociones básicas según el listado de Cowie y Cornelius (2003) (en inglés)
y su traducción al español, reproducidas de (Iriondo, 2008). . . . . . . . .
16
2.2. Resumen de los efectos de las emociones en el habla, según la traducción
de Iriondo (2008) del original de Murray y Arnott (1993) (en inglés). . . . .
34
2.3. Resumen de las propiedades acústicas de la expresión vocal y la interpretación musical de cuatro emociones según la traducción de Iriondo (2008)
del original de Juslin y Laukka (2003). . . . . . . . . . . . . . . . . . . . . .
36
3.1. Detalles, en porcentaje, de la clasificación subjetiva del corpus ESDLA especificados por clases. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.2. Detalle de la parametrización del corpus ESDLA. . . . . . . . . . . . . . . .
58
3.3. Detalle de la parametrización del corpus BDP-UAB. . . . . . . . . . . . . .
62
3.4. Detalle de la parametrización del corpus FAU Aibo. . . . . . . . . . . . . .
66
6.1. Resultados para la evaluación mediante dos conjuntos independientes de
la estructura jerárquica basada en dos niveles: un primer nivel binario y un
segundo nivel con un único clasificador general. Se incorpora en la primera fila el resultado obtenido por un clasificador SVM como referencia, tal
y como se especifica en el experimento anterior (figura 6.2). Adaptado de
(Planet et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.2. Resultados para la evaluación mediante dos conjuntos independientes de
la estructura jerárquica basada en dos niveles: un primer nivel binario y un
segundo nivel con dos clasificadores generales. 1C indica el algoritmo de
clasificación empleado en el primer nivel. 2C-1 y 2C-2 indican los algoritmos empleados en el primer y segundo clasificador, respectivamente, del
segundo nivel. Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . . 126
xxvii
xxviii
Índice de tablas
6.3. Descripción de los conjuntos de datos creados a partir de los conjuntos
completos de 384 parámetros acústicos y 15 lingüísticos extraídos del corpus FAU Aibo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Índice de algoritmos
1.
Algoritmo PART para la fusión de clasificadores en el proceso de reconocimiento afectivo de mapeo subjetivo. . . . . . . . . . . . . . . . . . . . . . . 113
xxix
xxx
Índice de algoritmos
Siglas, acrónimos y símbolos
AJAX Asynchronous JavaScript And XML
ANEW Affective Norms for English Words
ASR
Automatic Speech Recogniser
ASSESS Automatic Statistical Summary of Elementary Speech Structures
CMOS Comparison Mean Opinion Score
CSV
Comma-Separated Values
DAL
Dictionary of Affect in Language
DMOS Degradation Mean Opinion Score
do1000 Drop-off of spectral energy above 1000Hz
EMODB Berlin Database of Emotional Speech
evMIC entornos virtuales Multimodales, Inmersivos y Colaborativos
F0
Frecuencia fundamental
GMM
Gaussian-Mixture Models
GNE
Glottal-to-Noise Excitation Ratio
GPMM Grupo de Investigación en Procesado Multimodal
GTM
Grup de recerca de Tecnologies Mèdia
HammI Hammamberg Index
HMM Hidden Markov Models
HNM
Harmonic plus Noise Model
HNR
Harmonic-to-Noise Ratio
INREDIS INterfaces de RElación entre el entorno y las personas con DIScapacidad
xxxi
JSP
Java Server Pages
KNN
k-Nearest Neighbour
LAICOM-UAB Laboratorio de Análisis Instrumental de la Comunicación de la
Universidad Autónoma de Barcelona
LFPC
Log-Frequency Power Coefficients
LOSO Leave One Speaker Out
MAP
Maximum A Posteriori
MFCC Mel Frequency Cepstral Coefficients
MOS
Mean Opinion Score
MRAA Módulo de Reconocimiento Afectivo Audiovisual
mRMR Minimal-Redundancy Maximal-Relevance
pe1000 Relative Amount of Energy above 1000 Hz
PF-STAR Preparing Future Multisensorial Interaction Research
POS
Part-Of-Speech
SAM
Self-Assessment Manikin
SAVE
Síntesis Audiovisual Expresiva
SES
Spanish Emotional Speech
SFM
Spectral Flatness Measure
SL
Simple Logistic
SVM
Support-Vector Machine
TRUE Testing platfoRm for mUltimedia Evaluation
UAR
Unweighted Average Recall
VoQ
Voice Quality
WAR
Weighted Average Recall
ZCR
Zero-Crossing Rate
Capítulo 1
Introducción
Esta tesis se enmarca dentro del programa de doctorado Las Tecnologías de la Información y la Comunicación y su gestión. Se ha llevado a cabo dentro del Grup de recerca de
Tecnologies Mèdia (GTM)1 de Enginyeria i Arquitectura La Salle, perteneciente a la Universitat
Ramon Llull, bajo la dirección del Dr. Ignasi Iriondo Sanz.
En este primer capítulo se lleva a cabo una introducción a la tesis a través de las
siguientes secciones:
Presentación del contexto de la investigación realizada (sección 1.1).
Definición de los objetivos de la tesis (sección 1.2).
Organización de la tesis (sección 1.3).
1.1. Presentación del contexto de la investigación realizada
Sirva un famoso escenario de la ciencia ficción como ilustrador, y sólo como tal,
del contexto de esta tesis. ¿Sueñan los androides con ovejas eléctricas? (Do androids dream of
electric sheep?) (Dick, 1968) es una novela corta que dio origen al clásico del cine de ciencia
ficción Blade Runner, dirigido en 1982 por Ridley Scott. En la escena inicial de la película,
ambientada en una futurista ciudad de Los Ángeles y tras presentar a los androides2 del
modelo Nexus 6 como “más humanos que los humanos”, un policía interroga a un sujeto
con la ayuda de la máquina de Voigt-Kampff para detectar si es un humano o un androide
y, en este caso, retirarlo. Dicha máquina mide las respuestas emocionales de los individuos
realizando un test de empatía (Prieto, 2008), algo de lo que carecen los androides y que, a
pesar de su aparente similitud con los humanos, los diferencia de ellos. Este androide no
1
2
Grupo de investigación en Tecnologías Media.
Androide es el término empleado en la novela. En su adaptación al cine el término empleado es replicante.
1
2
1. Introducción
supera la prueba. Pero, ¿existe algún androide capaz de superarla? ¿Son la empatía y las
reacciones emocionales, pues, los claros indicadores de que un ser humano realmente lo
es?
No es este el único caso en el que la literatura y el cine recurren a las emociones para
plantear la inquietante pregunta de si esa persona que hay enfrente y parece tan humana
realmente lo es o no. Así, por ejemplo, la novela de Jack Finney, Los ladrones de cuerpos (The
body snatchers), escrita en 1955 y adaptada al cine en múltiples ocasiones (la primera en
1956 por Don Siegel y recientemente en la cuarta y, hasta la fecha, última versión de 2007
por Oliver Hirschbiegel) plantea una invasión extraterrestre en la que unos seres alienígenas suplantan a personas normales sin que aparentemente se perciba ningún cambio. Tan
sólo en apariencia pues la ausencia de emociones es el rasgo característico de los que han
sido suplantados. En la adaptación al cine de 2007, titulada Invasión (The invasion), un personaje aconseja a la protagonista, cuando camina por una calle en la que corre el riesgo de
ser descubierta: “No muestre ninguna emoción, así no podrán reconocerla.” Algo similar
a lo que se plantea en la película El pueblo de los malditos (Village of the damned), adaptación
de la novela publicada en 1957 The Midwich Cuckoos, de John Wyndham, dirigida en 1960
por Wolf Rilla y en una segunda versión de 1995 por John Carpenter.
No es de extrañar que la vinculación de la expresividad emocional al comportamiento humano sea empleada de forma recurrente en estas obras, así como que se emplee
la ausencia de emociones en una persona como elemento para causar terror entre el público. La comunicación humana consta de una importante parte afectiva que forma parte del
mensaje que se transmite, si bien de forma implícita, y muestra un carácter empático que
se desarrolla desde edad temprana y que se fundamenta en la interpretación de las señales transmitidas de forma inconsciente y que no siempre son verbales (Goleman, 1995).
La empatía supone un mínimo reconocimiento y comprensión del estado emocional de
una persona por parte de su interlocutor (Decety y Jackson, 2004), y su ausencia dificulta
el proceso comunicativo.
Sin embargo, la comunicación persona-máquina, propiciada cada vez más por los
avances tecnológicos y el acceso mayoritario de la población a las nuevas tecnologías, a
menudo es carente de dicha componente afectiva. Así, suele asociarse la comunicación sin
emociones a la comunicación con un robot (Iriondo, 2008), ejemplo popular para ilustrar
un discurso no emocional. Uno de los objetivos recientes de la comunicación personamáquina es la mejora de la experiencia de usuario3 , intentando conseguir que esta interacción sea más similar a la comunicación entre humanos. La inclusión de módulos
de reconocimiento de voz fue uno de los puntos clave en el pasado reciente para añadir
capacidades perceptivas a los dispositivos multimedia, lo que mejoró notablemente sus
interfaces de usuario (Canny, 2006).
Sin embargo, el análisis de estados afectivos a través del estudio del canal implícito
3
Mejora que supone una acceso más cómodo a la tecnología y que, en consecuencia, puede ayudar también
a evitar que ciertos sectores sociales queden excluidos del acceso a la misma.
1.1. Presentación del contexto de la investigación realizada
3
de la comunicación4 puede mejorar las aplicaciones que requieren de una comunicación
con el usuario haciéndolas más usables y amigables. Esto es así porque, en general, añadir capacidades de inteligencia emocional a la inteligencia artificial de los dispositivos y
aplicaciones puede hacer posible que la interacción persona-máquina sea más similar a la
comunicación humana (Picard et al., 2001). Existe un amplio abanico de contextos en los
que el análisis del habla y de la emoción en la entrada de los sistemas (y también la síntesis de voz emocionada en la salida de los mismos) puede ser aplicado, incluyendo entre
ellos la generación automática de contenido audiovisual, reuniones virtuales, sistemas de
diálogo automáticos, sistemas de tutoría en ámbitos docentes, entretenimiento o “juegos
serios”5 .
La figura 1.1 muestra un esquema genérico de interacción persona-máquina a través de la voz con reconocimiento y síntesis de emociones. No obstante este esquema podría ser fácilmente ampliado para representar un sistema que incluyera la modalidad visual e introdujera el análisis de la expresividad facial, y aún podría incluir otras modalidades para sustentar la interacción. Sin embargo, esta tesis se centra en el análisis de la
señal de voz y, por lo tanto, este esquema incide en la modalidad del habla. Nótese que el
sistema automático recibe la transcripción del mensaje dictado por el usuario y también
un indicador del estado afectivo del mismo. A partir de ambas informaciones el sistema
puede generar una respuesta a ambos niveles, tanto a nivel de mensaje (originalmente un
mensaje de texto que se convertirá en voz en el módulo correspondiente) como a nivel expresivo emocional (que modulará la señal de voz generada para colorearla afectivamente).
Texto
Emoción
Reconocedor
afectivo
automático
Reconocedor
automático
de voz
Conversor
de texto
a voz
Síntesis
afectiva
Voz natural
Texto
Emoción
Voz sintética
Figura 1.1: Esquema de interacción persona-máquina a través de la voz con reconocimiento y síntesis de emociones.
En el momento previo al inicio de la presente tesis doctoral, en el GTM se habían
iniciado cuatro tesis doctorales en el ámbito de la síntesis de voz expresiva (la rama inferior
del esquema de la figura 1.1), las desarrolladas por Iriondo (2008), Gonzalvo (2010), Monzo (2010) y Formiga (2010). Nace, entonces, la necesidad de avanzar en el campo del análisis afectivo para poder completar el esquema de interacción y aprovechar dichos avances,
en la medida de lo posible, en los estudios de síntesis ya iniciados. Así pues, se inicia
una investigación en el estado de la cuestión que muestra los estudios realizados por di4
5
Es decir, el análisis de cómo algo ha sido dicho y no sólo de qué es lo que se ha dicho.
Del inglés, Serious games.
4
1. Introducción
ferentes investigadores y pone de manifiesto la existencia de estudios basados en voces
de naturaleza diversa (grabaciones actuadas y espontáneas, condiciones de laboratorio y
naturales, diversos ámbitos de estudio, etc.), así como la diversidad de resultados obtenidos en función de los planteamientos adoptados. Tras el análisis inicial de los corpus
grabados por actores, se escoge el ámbito de las emociones espontáneas dada su mayor
adecuación a los procesos de interacción reales, siendo además un ámbito menos abordado por la comunidad científica dada su complejidad y los resultados de identificación
habitualmente bajos que se obtienen. Todo ello será detallado en los capítulos siguientes.
1.2. Definición de los objetivos de la tesis
El interés de esta tesis doctoral se centra en el análisis de la expresividad afectiva
dentro del proceso comunicativo y, en concreto, la que se refiere a la señal de voz. La voz,
en sí misma, transmite información paralingüística referida a la emoción del hablante y,
en un sentido más amplio, a su estado de ánimo, sus intenciones u otros aspectos que lo
relacionan con el entorno y/o con su interlocutor6 . Por este motivo, y dada la existencia de
las líneas de investigación en el ámbito de la síntesis ya abiertas en el GTM en el momento
del planteamiento de la presente tesis, la motivación de este trabajo es el análisis de los
factores que confieren al habla sus rasgos afectivos.
Expuesta la motivación de la tesis, se formulan dos preguntas que dan pie a la
investigación llevada a cabo:
1. ¿Qué información oral es la más relevante en la identficación de las emociones?
2. ¿Cómo debe transferirse esta información a un sistema automático y cuáles deben
ser sus procedimientos para conseguir identificar las emociones en un entorno de
interacción natural?
Para dar respuesta a estas preguntas se plantean las siguientes hipótesis de trabajo:
1. Dado que a nivel oral un hablante transmite información acústica y lingüística, el
análisis de ambas permitirá conseguir una mejor identificación afectiva que el análisis individual de cada una de las mismas.
2. En un entorno de interacción natural las locuciones de los hablantes son espontáneas y no siempre se producen en condiciones óptimas para su grabación. Además,
6
Además de la información paralingüística, con las funciones referidas en el texto, la voz transmite información lingüística que permite, por ejemplo, distinguir entre una afirmación o una pregunta, e información
extralingüística, relativa a características del locutor tales como su edad, su sexo o su estatus socioeconómico
(Escudero, 2003). Estos dos últimos tipos de información, sin embargo, no se relacionan directamente con el
estado afectivo del locutor. Véase la sección 2.3.3 para más información.
1.2. Definición de los objetivos de la tesis
5
una aplicación de reconocimiento debe admitir varios locutores. Esto dificultará su
análisis a nivel acústico. En tanto que la información acústica podría no ser suficiente
para tareas de reconocimiento afectivo en un escenario realista (Batliner et al., 2003)
y considerando que la información lingüística podría verse afectada en menor medida por las condiciones de grabación7 , el análisis de esta última podría contribuir
a mejorar los resultados obtenidos a partir de la primera.
3. El reconocimiento afectivo automático puede considerarse como un ejercicio de clasificación categórica en el que las locuciones deben recibir una etiqueta que identifique la emoción que representan. Algoritmos de clasificación del estado de la cuestión pueden ser útiles para llevar a cabo esta tarea, de forma individual o combinada
mediante técnicas de fusión.
4. La parametrización de las locuciones como paso previo a su clasificación dará lugar a un gran volumen de datos. Técnicas de selección de parámetros reducirán ese
volumen para optimizar los resultados de los algoritmos de clasificación.
A partir de las hipótesis de trabajo anteriores se define el objetivo general de esta
tesis:
Determinar los esquemas de clasificación más adecuados y los parámetros necesarios para clasificar fragmentos de voz espontánea según su contenido afectivo.
Para lograr el objetivo general se define una serie de objetivos específicos:
1. Realizar un ejercicio previo de reconocimiento afectivo automático en corpus grabados en condiciones de laboratorio para observar los resultados obtenidos y sentar la
base para los experimentos posteriores en corpus de voz espontánea. Este ejercicio
servirá para comparar los procedimientos empleados en ambos casos así como los
resultados obtenidos y poner de manifiesto las problemáticas específicas.
2. Parametrizar a nivel acústico y lingüístico el corpus de voz espontánea, creando un
conjunto de datos completo que será dividido en subconjuntos de parámetros relevantes mediante técnicas automáticas y manuales. Esto permitirá optimizar los
algoritmos de clasificación determinando, al mismo tiempo, cuáles son los parámetros más importantes para llevar a cabo la tarea de clasificación de forma eficaz.
3. Definir un entorno de trabajo que permita evaluar y comparar los métodos propuestos en un escenario multilocutor de análisis de emociones espontáneas. Dicho
entorno de trabajo debe considerar las características propias del corpus para definir
unas métricas adecuadas y debe ofrecer también unos resultados que sean comparables con los trabajos realizados por otros investigadores en este ámbito.
7
La información lingüística en sí no se vería afectada pero, si el sistema cuenta con un módulo de reconocimiento de voz, unas condiciones no óptimas de grabación pueden influir negativamente en la extracción del
contenido lingüístico de las locuciones. Esto sí afectaría, indirectamente, al procesado de dicha información.
6
1. Introducción
4. Seleccionar los esquemas de clasificación más adecuados, ya sean clasificadores individuales o estructuras de clasificación complejas, así como los parámetros más
convenientes para las mismas. Esto incluye la consideración de los esquemas de fusión más eficaces y eficientes, tanto a nivel de parámetros como de decisión, para
optimizar los resultados.
1.3. Organización de la tesis
Esta tesis consta de siete capítulos, los cuales se describen a continuación.
El capítulo 1 contiene la introducción de la tesis, considerando el contexto de la
investigación realizada, los objetivos planteados y el detalle de los capítulos de esta tesis
y su organización.
El capitulo 2, en primer lugar, hace un repaso de las teorías más aceptadas acerca
de las emociones. El concepto de emoción es complicado de definir por lo que se recogen
los planteamientos que distintas perspectivas realizan, a lo largo de la historia, alrededor
del mismo. Asimismo se presentan tres métodos para describir las emociones, incluyendo
los listados de emociones, sujetos a la definición creada por los autores de cada uno de
ellos, los modelos circumplex y los espacios multidimensionales. Cada uno de estos métodos presenta sus propias características y todos ellos suponen visiones diferentes de las
emociones en sí, lo que vuelve a mostrar la ambigüedad a menudo vinculada al concepto de emoción. En segundo lugar, este capítulo hace un recorrido por distintos métodos
creados para el etiquetado de corpus afectivos dado el estrecho vínculo que se establece
entre estos métodos y la definición que se adopta del concepto emoción. Estos métodos
permiten asignar, de forma subjetiva, una etiqueta afectiva a cada elemento del corpus e
incluyen, entre los más extendidos, los etiquetados categóricos y los dimensionales. Finalmente, se tratan temas relacionados con la expresión y la percepción de las emociones,
tales como las reacciones fisiológicas asociadas, los elementos multimodales de su expresión y, finalmente, detalles relativos a la expresividad afectiva a través del habla.
El capítulo 3 describe las condiciones generales para la creación de un corpus de
voz emocionada. El contenido del capítulo incide en los diferentes métodos para la generación del habla emocional dada la importancia que tienen los corpus en estudios como
los presentados en esta tesis, ya que son la base fundamental de los mismos. De su elección depende en gran medida la estrategia a seguir y el escoger un corpus u otro puede
suponer una importante dificultad añadida, dependiendo de las condiciones de su grabación. Asimismo, la expresión vocal empleada8 define si el estudio de reconocimiento
se centra en condiciones propias de un entorno realista o, por el contrario, se enmarca en
un contexto propio de laboratorio. El capítulo detalla también el proceso de extracción de
parámetros para que estos corpus puedan ser procesados posteriormente por diferentes
8
En esta tesis se consideran cuatro tipos de expresión vocal: natural, inducida, estimulada o actuada, tal
y como señala Schröder (2004)
1.3. Organización de la tesis
7
algoritmos de aprendizaje. En esta tesis se emplean dos tipos de parámetros: acústicos y
lingüísticos. Finalmente se describen los tres corpus que se analizarán a lo largo de esta
tesis detallando la parametrización de los mismos.
En el capítulo 4 se recogen y analizan algunos de los trabajos más relevantes realizados en el campo del reconocimiento afectivo basado en la señal de voz, diferenciando
los trabajos realizados sobre corpus de voz actuada y sobre corpus de voz espontánea. Se
incluye también el análisis de algunos estudios importantes realizados a partir de otras
modalidades así como su análisis conjunto empleando técnicas de fusión. Dicho análisis
se plantea como un recorrido desde los estudios de las primeras aproximaciones hasta llegar a las tendencias más recientes, incluyendo las aplicaciones de estos trabajos en
ámbitos que son, a menudo, muy distintos entre sí. Para poder sentar la base de experimentación, el capítulo recoge también la definición de aquellos conceptos y métodos que
posteriormente serán empleados. Así, se definen las principales modalidades que muchos
autores analizan en los trabajos más relevantes, se introducen las técnicas de selección de
parámetros que se emplean con mayor frecuencia en este ámbito, se explican las métricas
empleadas para comparar los resultados entre diferentes trabajos y cuáles son los métodos
de evaluación de los procedimientos de reconocimiento automático que se proponen.
El capítulo 5 centra su atención en los experimentos que se llevan a cabo sobre
corpus grabados por actores bajo condiciones ideales propias de laboratorio. Se realizan
dos planteamientos diferenciados. El primero de ellos pretende maximizar el número de
coincidencias entre el estilo afectivo de cada elemento del corpus y la etiqueta asignada automáticamente por el reconocedor. El segundo pretende maximizar el número de
coincidencias para aquellas locuciones que también serían correctamente identificadas
de forma subjetiva. Este segundo planteamiento supone un mapeo de criterios subjetivos
puesto que no persigue el valor máximo de clasificación sino realizar la misma clasificación que un evaluador humano realizaría. Ambos planteamientos se corresponden con
una fase preliminar del estudio del tema principal de esta tesis, el cual se aborda en el
siguiente capítulo.
El capítulo 6 recoge los experimentos realizados sobre un corpus de expresión vocal
espontánea. El planteamiento de estos experimentos es muy diferente al de los mostrados
en el capítulo 5 dadas las características de este tipo de expresión vocal. El capítulo se inicia con la descripción de la metodología empleada a lo largo de toda la experimentación,
detallando los experimentos de reconocimiento afectivo automático que se llevan a cabo
agrupándolos en tres bloques, según su objeto de análisis: el estudio de parámetros acústicos y lingüísticos de forma independiente por una parte y de forma conjunta mediante
su fusión por otra. Los experimentos de clasificación se realizan desde distintas perspectivas, empleando esquemas de clasificación de forma individual y también agrupados en
estructuras más complejas creando estructuras jerárquicas, en cascada o de fusión a nivel
de decisión. Ambas modalidades, la acústica y la lingüística, se estudian por separado pero también de forma conjunta mediante esquemas de fusión a nivel de decisión y a nivel
de parámetros. Asimismo, y dado que el volumen de datos es muy elevado, se realiza un
proceso de selección de parámetros tanto de forma automática como de forma manual. El
8
1. Introducción
objetivo de dicha reducción es doble: por una parte optimizar el proceso de clasificación y,
por otra, determinar los parámetros más relevantes para el proceso de clasificación. Finalmente se realiza una comparación global entre los resultados obtenidos y los observados
en estudios relacionados en el estado de la cuestión.
Finalmente, el capítulo 7 expone las principales conclusiones y las líneas futuras
de trabajo que se abren y dan continuidad a las aportaciones de esta tesis.
Capítulo 2
Fundamentos
En este capítulo se hace un recorrido por las principales teorías emocionales para
poder definir el concepto de emoción y poder llegar a dar una descripción de las mismas
en base a distintos modelos, incluyendo los listados de emociones, los modelos circumplex
y los espacios multidimensionales. A continuación se explican las principales formas de
representar y evaluar las emociones, lo que será de utilidad posteriormente para el correcto etiquetado de los corpus de voz que se emplearán en los experimentos de reconocimiento emocional. Finalmente, se describen la expresión y la percepción de las emociones
de forma general y, en concreto, a través del habla, relacionando los parámetros propios
de esta modalidad con la modalidad musical, a la cual va estrechamente ligada en tanto
que ambas inciden, directamente, en el sentido auditivo del receptor.
2.1. Teoría de las emociones
Describir una emoción no es una tarea sencilla. Desde las teorías aristotélicas hasta
las propuestas contemporáneas, muchos pensadores, filósofos y científicos han intentado
dotar al término emoción una definición que le proporcione un significado completo, que
realice una descripción, que proponga una clasificación de sus diferentes variantes y que
lo dote de una funcionalidad para los seres vivos en general y para el ser humano en
particular. Sin embargo, y a pesar de ser uno de los pilares básicos para la interacción, son
muchas y variadas las teorías que existen al respecto. Sin pretender abarcarlas todas, esta
sección describe las principales definiciones que serán de utilidad para el desarrollo de la
presente tesis.
9
10
2. Fundamentos
2.1.1. El concepto de emoción
En los procesos de interacción humana pueden distinguirse dos canales diferenciados (Cowie et al., 2001): el primero es el encargado de la transmisión de mensajes explícitos mientras que el segundo se encarga de la transmisión de los mensajes implícitos.
Mientras los primeros hacen referencia al contenido del propio mensaje, los segundos se
refieren a los locutores en sí. Se han invertido más esfuerzos, a nivel lingüístico y a nivel
tecnológico, tratando el primer canal en detrimento del segundo si bien actualmente la
tendencia se está invirtiendo. El reconocimiento emocional se enmarca en el análisis del
canal implícito1 .
La propia definición de la palabra emoción es un tema complejo. Goleman (1995)
se refiere a la definición “agitación o perturbación de la mente; sentimiento; pasión; cualquier estado mental vehemente o agitado”. Para este autor, el término emoción “hace referencia a un sentimiento y a los pensamientos, los estados biológicos, los estados psicológicos y el tipo de tendencias a la acción que lo caracterizan. Existen centenares de emociones
y muchísimas mezclas, variaciones, mutaciones y matices diferentes entre todas ellas. En
realidad existen más sutilezas en la emoción que palabras para describirlas”. Es importante señalar el concepto de “tendencia a la acción” vinculado a la propia raíz etimológica
de la palabra “emoción”: del latín movere y el prefijo -e, indicando movimiento hacia. Según
la Real Academia Española, la primera acepción de esta palabra es “Alteración del ánimo
intensa y pasajera, agradable o penosa, que va acompañada de cierta conmoción somática”. Cowie y Cornelius (2003) hacen un profundo análisis de los términos y conceptos
que se relacionan con la emoción y el habla. Define, entre otros, los siguientes conceptos
emocionales:
Emoción plena (Scherer, 1999): también referenciada como emoción primaria (Plutchik, 2001) o emoción básica (Ekman, 1999). Describe la emoción en su forma más
intensa.
Emoción subyacente: denota el colorido emocional que está presente en todos los
estados mentales. Su descripción es más compleja que la de las emociones plenas
aunque las subyacentes están presentes en la comunicación humana en mayor medida que las plenas, las cuales se dan en pocas ocasiones.
Estados emocionales: recogen todas las emociones, desde las subyacentes hasta las
plenas, incluyendo todos los estados intermedios significativos en la comunicación
humana.
Al mismo tiempo, Cowie y Cornelius (2003) introducen el concepto de estados relacionados con la emoción en los cuales las personas no sienten propiamente una emoción
aunque sí presentan ciertos aspectos propios de las emociones, tales como humor, excitación, cierta actitud, etc.
1
La descripción de estos canales y su función en el proceso comunicativo se detallan en la sección 2.3
2.1. Teoría de las emociones
11
De la misma forma que los conceptos anteriores están relacionados con la intensidad de la emoción, diferentes conceptos emocionales se pueden asociar a una escala temporal concreta. En este sentido, mientras que las expresiones, las actitudes o los estados
emocionales (como por ejemplo estar contento o triste) suelen durar algunos segundos
o varios minutos, un estado de humor (como por ejemplo irascible o melancólico) puede
durar horas o extenderse hasta algunos meses, un desorden emocional (como por ejemplo
un estado depresivo) se puede prolongar de semanas a años y un rasgo emocional (como
taciturno o nervioso) puede durar años o definirse durante toda la vida de una persona
como su propio carácter (Cowie et al., 2001).
2.1.2. Teorías sobre las emociones plenas
Scherer (1986) describió la emoción como “la interfaz del organismo hacia el mundo exterior” y destacó tres funciones principales:
Reflejar la evaluación de la relevancia y el significado del estímulo particular en
términos de las necesidades del organismo, planes y preferencias. Es decir, valorar
la situación a la que se enfrenta un individuo.
Preparar fisiológica y psicológicamente el organismo para una acción apropiada, lo
cual se refleja en cambios fisiológicos y proporciona al individuo una tendencia a la
acción.
Comunicar el estado del organismo y las intenciones de comportamiento hacia otros
seres próximos a través de la expresividad facial, corporal y oral.
Las teorías psicológicas contemporáneas sobre la emoción se enmarcan en diferentes perspectivas, de las cuales podemos destacar cuatro como básicas. Estas perspectivas
comprenden desde las primeras aproximaciones realizadas por Charles Darwin hasta las
teorías de finales del siglo XX y tratan acerca de cómo definir, estudiar y explicar las emociones. Estas cuatro perspectivas, según la descripción dada por Cornelius (2000), son:
Darwiniana, Jamesiana, Cognitiva y Constructivista Social. Aunque cada una de ellas establece sus propias bases referentes a cómo construir teorías sobre la emoción, su naturaleza y sobre cómo dirigir la investigación en este ámbito, hay coincidencias destacables
entre ellas —sobre todo entre la Darwiniana y la Jamesiana— como puede comprobarse
a continuación.
2.1.2.1.
La Perspectiva Darwiniana
Desde la perspectiva Darwiniana las emociones son fenómenos desarrollados como funciones importantes de supervivencia y han sido seleccionadas como tal para solucionar ciertos problemas a los que la especie humana ha tenido que hacer frente. Por este
12
2. Fundamentos
motivo los comportamientos emocionales son similares en todos los seres humanos y se
asemejan, incluso, a los de aquellos mamíferos con los que el hombre ha compartido un
pasado a lo largo de la evolución. Para Charles Darwin, la expresión de las emociones está
inscrita en la memoria genética de los individuos y por eso se da de forma innata desde la
infancia. Los inicios de esta perspectiva se remontan al año 1872, cuando Darwin publica
La expresión de las emociones en los animales y en el hombre (The expression of emotion in man
and animals) (Darwin, 1872)2 . Sus ideas han sido muy influyentes y su legado en el estudio
de la emoción en la psicología y la biología se basa en:
Aplicar las teorías de la evolución por selección natural con el fin de entender las
expresiones emocionales y las propias emociones en sí.
Remarcar que las expresiones emocionales deben entenderse en términos de sus
funciones y, por lo tanto, como un valor de supervivencia.
Trabajos posteriores remarcan el factor de herencia genética en los comportamientos emocionales como, por ejemplo, el de Peleg et al. (2006) en el cual se comprueba cómo
dos individuos de una misma familia manifiestan emociones a través de las mismas expresiones faciales a pesar de que uno de ellos es invidente. Dado que no ha podido aprender
la expresión facial de su familia a partir de la observación de la misma se corrobora la
herencia genética antes comentada. Matsumoto y Willingham (2009) obtienen resultados
equiparables al realizar un estudio similar observando atletas invidentes y sus expresiones faciales.
2.1.2.2.
La Perspectiva Jamesiana
La perspectiva Jamesiana sigue el postulado de William James que define las emociones como cambios corporales producidos inmediatamente después a la percepción de
un estímulo, según publicaba en 1884 en el artículo What is an emotion? (James, 1884)3 . Así
pues, James afirma que los cambios corporales se producen tan pronto como se percibe
una excitación y la emoción es el sentimiento que se experimenta cuando estos cambios
se manifiestan. No es posible la existencia de emociones sin que se produzcan estos cambios y estos siempre son previos a la emoción en sí. La coincidencia de esta perspectiva
con la Darwiniana se produce en la consideración de que las emociones son adaptaciones al entorno basadas en la supervivencia del individuo, pero difieren en el hecho de
que Darwin se centra en sus manifestaciones mientras que James lo hace en su propia
naturaleza. Así es importante remarcar que, para James, el cuerpo responde primero y la
experiencia adquirida por los humanos constituye la emoción, que es la respuesta a esos
cambios. A William James se debe la popular frase “nos sentimos tristes porque lloramos,
2
Esta obra así como otras de Charles Darwin pueden ser consultadas en la siguiente página web de libre
acceso: http://darwin-online.org.uk
3
Esta obra puede ser consultada en la página web http://psychclassics.yorku.ca
2.1. Teoría de las emociones
13
enfadados porque golpeamos, asustados porque temblamos, y no lloramos, golpeamos ni
temblamos porque estemos tristes, enfadados o asustados”4. Sin embargo, las investigaciones realizadas en este campo aún no han revelado cómo los cambios corporales serían
iniciados por la percepción de los estímulos del entorno.
2.1.2.3.
La Perspectiva Cognitiva
La perspectiva cognitiva es la más dominante de las cuatro gracias a que esta perspectiva ha sido minuciosamente incorporada dentro de las otras tres. La perspectiva cognitiva moderna se basa en los estudios de las emociones realizados por Magda Arnold
(1903–2002), aunque los orígenes de la misma se remontan a más allá de los filósofos helenísticos. Esta perspectiva centra su eje indicando que la emoción y el pensamiento son
inseparables. Concretamente, indica que todas las emociones son enjuiciadas mediante
una evaluación de los estímulos que las desencadenan. El proceso de evaluación consiste
en determinar qué estímulos del entorno son considerados por el individuo como buenos
o malos. Esta evaluación conlleva una tendencia a la acción que desemboca, finalmente,
en una respuesta emocional.
Esta perspectiva discrepa de la Jamesiana en que aquella no especifica mediante qué mecanismo se desencadena el cambio corporal al que hace referencia, que era la
gran crítica de Arnold a James, y la complementa indicando que ese desencadenante es
el proceso evaluador que introduce. Si James no podía concebir una emoción sin un cuerpo, Arnold no lo puede hacer sin una evaluación. Cada emoción se considera sujeta a
un patrón diferente de evaluación y depende de cada uno de los individuos considerando variables tales como las características particulares de la persona, su aprendizaje, su
temperamento, su personalidad, su estado psicológico y las condiciones específicas de la
situación en la que se encuentra. De esta manera, el proceso de evaluación se encarga de
informar al organismo de las características del entorno y proporciona el modo de actuar
frente a ellas.
2.1.2.4.
La Perspectiva Constructivista Social
Esta perspectiva es la más reciente y también la más controvertida. Rehúsa asumir
que las emociones son fruto de una adaptación al medio y afirma que son productos definidos por las reglas sociales del entorno. Son, por lo tanto, construcciones sociales y es
la cultura la que juega un papel crucial en su estipulación. A diferencia de la perspectiva
cognitiva en la que el proceso de evaluación, que depende de factores personales, es el
desencadenante de la emoción, para la perspectiva constructivista es la cultura, en forma
de reglas sociales, la que las define. Según Averill (1980) citado por Cornelius (2000), las
emociones no se pueden considerar remanentes de un pasado psicogenético así como tam4
La cita original, en inglés, es: “(...) the more rational statement is that we feel sorry because we cry, angry because
we strike, afraid because we tremble, and not that we cry, strike, or tremble, because we are sorry, angry, or fearful (...)”
14
2. Fundamentos
poco pueden ser explicadas de forma estrictamente psicológica. Dado que las emociones
son consideradas por esta teoría como construcciones sociales sólo pueden ser entendidas
a partir de un análisis social.
2.1.3. La descripción de las emociones
Existen diversas formas de definir y representar las distintas emociones. Podría parecer que la más sencilla fuera la de un modelo categórico consistente en crear un conjunto
limitado de etiquetas que las describan creando un listado de emociones. Sin embargo,
determinar el número de emociones de ese listado así como determinar cuáles son las fundamentales y cuáles no no es una tarea tan simple como puede parecer a simple vista. Esto
da pie a la creación de otras representaciones alternativas como podrían ser los modelos
circumplex o las representaciones multidimensionales. Tal y como ya se ha comprobado
en el apartado anterior, no existe un consenso para determinar cuál es la definición de
emoción más adecuada, y la elección del modelo de representación más conveniente dependerá tanto de la aplicación en la que se requiera el análisis emocional como de la teoría
que se tome como base.
2.1.3.1.
Listados de emociones básicas
El concepto de emociones básicas (también conocidas como emociones plenas o
primarias) es utilizado por muchas de las teorías sobre la emoción, especialmente aquellas que siguen las tradiciones Darwiniana y Jamesiana. Se consideran básicas por estar
directamente ligadas a la supervivencia de los individuos en base a patrones evolutivos
y, también, porque a partir de ellas se generan todas las demás mediante variaciones o
combinaciones de las mismas. Al mismo tiempo, se pueden definir las emociones secundarias como emociones más complejas que se formarían como combinación de las básicas, de igual manera que los colores primarios se mezclan en una rueda de color para
formar otros colores. Ahora bien, definir cuáles son estas emociones básicas no es tarea
fácil, más cuando ni tan sólo los investigadores coinciden en su existencia real. No hay un
criterio único para definir qué emociones forman este conjunto básico. Las cuatro emociones básicas más aceptadas generalmente son: alegría, tristeza, enfado y miedo, dado
que se considera que están directamente ligadas a procesos biológicos. La mayor parte de
las teorías emocionales coinciden en que hay un número inferior a diez emociones básicas, a pesar de que estudios más recientes (Cowie y Cornelius, 2003) definen un conjunto
de entre diez y veinte emociones. Otros estudios, como los de Whissell (1989) o Plutchik
(1980), amplían estos conjuntos incluyendo emociones básicas y secundarias llegando a
crear listados que incluyen de 107 a 142 etiquetas emocionales, respectivamente. La tabla
2.1 contiene un listado de estas emociones según varios autores y su traducción al español. Aparecen remarcadas las cuatro emociones básicas anteriormente citadas, las cuales
son comunes en los estudios referenciados. Cabe destacar el término The Big Six utilizado
en Cornelius (2000), una ampliación de las cuatro emociones anteriores a un total de seis
2.1. Teoría de las emociones
15
definiendo un conjunto formado por: felicidad (happiness), tristeza (sadness), miedo (fear),
asco (disgust), enfado (anger) y sorpresa (surprise).
Uno de los principales problemas en la investigación intercultural es la traducción
precisa de los términos emocionales. Las connotaciones particulares de cada término conllevan que no haya una solución satisfactoria para este problema. La traducción de los
términos de la tabla 2.1 está realizada por Iriondo (2008) con la ayuda del estudio presentado por Scherer (1988), que recoge una lista de descriptores de la emoción en cinco
lenguas indoeuropeas que es el resultado de la actividad de investigación de un equipo
de psicólogos de diferentes países. La traducción mostrada en la última columna viene a
representar, bajo una única etiqueta emocional, la fusión de los conceptos emocionales de
los seis trabajos analizados por Cowie y Cornelius (2003). Como se puede comprobar, crea
una nueva lista de 34 emociones básicas lo que muestra la complejidad que supone intentar discretizar el espacio emocional para representarlo mediante un conjunto limitado de
etiquetas emocionales.
Ekman (1999) propone el concepto de familias de emociones en lugar de definir
una etiqueta para describir una emoción concreta, ya que considera que cada emoción
no es un único estado afectivo sino una familia de estados relacionados. Cada familia se
caracteriza por un tema que es fruto de la evolución y unas variaciones que son reflejo
del aprendizaje. Ekman propone una lista con 15 familias de emociones mostradas en la
segunda columna de la tabla 2.1. Así, por ejemplo, la familia Anger abarcaría emociones
como enojo, enfado y rabia, todas con un tema común pero con diferentes matices fruto
de elementos aprendidos previamente por los individuos.
En la lista anterior hay muchos términos que describen estados relacionados con
la emoción más que emociones en sí como, por ejemplo, los estados confiado, aburrido
o relajado. Así pues, las teorías de las emociones se refieren, en su gran mayoría, a las
emociones básicas mientras que las demás etiquetas emocionales describen combinaciones o variaciones de estas emociones básicas. Sin embargo, no existe un consenso acerca
de cuáles deben ser consideradas emociones básicas.
Las etiquetas mencionadas en esta sección son a menudo también referenciadas
como categorías, etiquetas categóricas, etiquetas emocionales o clases. En la presente tesis
todos estos términos se emplean como sinónimos.
2.1.3.2.
Modelos circumplex
Dada la dificultad de crear un listado único de emociones, es decir, de trabajar
con una representación completamente discreta del universo emocional, se han creado
otras representaciones alternativas que, aún y pudiendo ser discretizadas, se basan en
una representación continua de ese universo. Así, algunos investigadores optan por representar las emociones mediante una estructura circular continua en la que pueden ubicarse las etiquetas emocionales principales. La proximidad de dos categorías representa
2. Fundamentos
16
Lazarus
(Lazarus, 1999)
Anger
Fear
Sadness/distress
Ekman
(Ekman, 1999)
Anger
Fear
Sadness
Buck
(Buck, 1999)
Anger
Anxiety
Happiness
Fear
Sadness
Lewis-Haviland
(Lewis y Haviland, 1993)
Anger/hostility
Disgust
Pride
Shame
Guilt
Embarrassment
Love
Banse-Scherer
(Banse y Scherer, 1996)
Rage/hot anger
Irritation/cold anger
Fear/terror
Sadness/dejection
Grief/desperation
Worry/anxiety
Happiness
Elation (joy)
Boredom/indifference
Disgust
Contempt/scorn
Shame/guilty
Amused
Pleased
Content
Interested
Worried
Happy
Afraid
Sad
Cowie et al.
(Cowie et al., 1999)
Angry
Inquietud/preocupado
Alegría/Felicidad/feliz
Miedo/atemorizado
Tristeza/triste
Traducción española
(Iriondo, 2008)
Enfado/enfadado
Confident
Loving
Affectionate
Disappointed
Excited
Bored
Relaxed
Diversión/divertido
Satisfacción/satisfecho
Contento
Interesado
Curioso
Sorprendido
Ilusión/excitado
Aburrido
Relajado
Quemado/estresado
Asco
Desprecio/desdén
Orgullo
Arrogancia
Celos
Envidia
Vergüenza
Culpabilidad
Desconcierto
Desilusionado
Alivio
Esperanza
Confiado
Amor/cariñoso
Afectuoso
Compasión
Entusiasmo
Indignación
Estético
Tabla 2.1: Emociones básicas según el listado de Cowie y Cornelius (2003) (en inglés) y su traducción al español, reproducidas de (Iriondo,
2008).
Fright
Sadness
Anxiety
Happiness
Bored
Burnt out
Disgust
Scorn
Pride
Arrogance
Jealousy
Envy
Shame
Guilt
Pity
Moral rapture
Moral indignation
Humour
Sensory pleasure
Amusement
Satisfaction
Contentment
Excitement
Disgust
Contempt
Pride
Shame
Guilt
Embarrassment
Relief
Interested
Curious
Surprised
Anxiety
Happiness
Disgust
Pride
Jealousy
Envy
Shame
Guilt
Relief
Hope
Love
Compassion
Aesthetic
2.1. Teoría de las emociones
17
emociones conceptualmente similares mientras que las emociones contrarias están ubicadas en posiciones diametralmente opuestas. En las posiciones intermedias aparecerían
las combinaciones en diverso grado de las emociones adyacentes. Estos modelos reciben
el nombre de modelos circumplex y se pueden equiparar a una rueda de color donde los
colores primarios ocuparían posiciones maximalmente distanciadas y, entre ellos, aparecerían las combinaciones de los mismos. El primer modelo circumplex data de 1941, obra
de Harold Schlosberg, obtenido al observar que los errores de reconocimiento de la expresión facial se correspondían a la confusión entre categorías adyacentes situadas sobre
una circunferencia (Schröder, 2004). En 1958, Robert Plutchik propuso un modelo con
ocho emociones básicas bipolares: alegría-aburrimiento, enfado-miedo, aceptación-asco
y sorpresa-expectación. Una evolución de esta teoría lleva al modelo circumplex tridimensional de (Plutchik, 2001) representado en la figura 2.1, el cual se define por los siguientes
aspectos:
La distancia desde el centro de la figura hasta la etiqueta emocional representa la
intensidad de la emoción.
En los círculos concéntricos se representan las emociones según su grado de similitud de forma que las emociones similares están próximas y las opuestas están separadas diametralmente.
Los ocho sectores representan las emociones básicas bipolares del modelo de Plutchik de 1958.
En los espacios en blanco tienen cabida las emociones que son combinaciones de
dos emociones primarias como, por ejemplo, el asco y la rabia para producir odio.
En la figura 2.1 se puede observar que las emociones secundarias se definen mediante la combinación de las emociones primarias que ocupan posiciones adyacentes. Así,
por ejemplo, el remordimiento se concibe como una mezcla de tristeza y aversión hacia
la propia conducta. Además, variando la intensidad de las emociones se pueden obtener
nuevos estados emocionales. De esta forma el temor puede ir desde una simple aprensión hasta un enorme terror. En la misma gráfica también se observa que hay emociones
opuestas, como la tristeza y la alegría por ejemplo, que por el hecho de ocupar posiciones
distantes no se pueden combinar.
2.1.3.3.
Espacio multidimensional
La creación de una lista de etiquetas para definir estados emocionales supone trabajar en un universo discreto y limitado al número de etiquetas creado. Por otra parte,
los modelos circumplex muestran una relación entre los estados emocionales según su posición geométrica dentro de una representación continua pero no definen las emociones
en sí. Una alternativa que pretende tratar con un universo continuo pero, al mismo tiempo, dar una interpretación tanto a las emociones como a la relación que existe entre ellas,
2. Fundamentos
ism o
tim
op imism
t
op
annoyance
fastidio
t
mp
nte io
co prec
s
de
anticipation
expectación
ecstasy
éxtasis
vigilance
vigilancia
anger
enfado
acceptance
aprobación
joy
alegría
interest
i
interés
ag
gr
ag essiv
res en
ivid ess
ad
serenity
serenidad
lov
am e
or
18
disgust
asco
boredom
tedio
amazement
asombro
grief
aflicción
aw
tem e
or
surprise
sorpresa
distraction
confusión
l
va
pro ción
a
ap
dis prob
sa
de
pensiveness
melancolía
apprehension
aprensión
fear
miedo
terror
terror
sadness
tristeza
rem rem
ord orse
im
ien
to
ion
ss
mi ión
b
su mis
su
admiration
admiración
rage
ira
loathing
odio
trust
confianza
Figura 2.1: Modelo circumplex tridimensional de Plutchik y su traducción al español. Adaptado de
(Plutchik, 2001) (en inglés).
se puede encontrar en las representaciones basadas en espacios multidimensionales. En
este tipo de modelos, los estados emocionales se representan como coordenadas de un espacio de dimensionalidad reducida. Existen numerosas investigaciones relacionadas con
este tipo de representación y, tal y como ocurre con los modelos anteriores, la definición
de este espacio no es sencilla y existen diversas alternativas. El principal punto clave es
determinar cuántas y definir cuáles deben ser las dimensiones que definen ese espacio. La
primera referencia a los modelos de espacios multidimensionales data de 1896 gracias al
psicólogo alemán Wilhelm Wundt, y fueron empleados por vez primera en el ámbito del
análisis emotivo facial por Schlosberg (1954). Cowie y Cornelius (2003) llevan a cabo una
revisión histórica de las diferentes dimensiones que han considerado diversos autores.
Schröder (2004), por su parte, lleva a cabo un estudio más amplio centrado en la descripción de los estados emocionales mediante espacios multidimensionales, presentando una
perspectiva histórica y una descripción del significado de estas emociones y especificando
2.1. Teoría de las emociones
19
qué relación tienen con el comportamiento emotivo humano.
En general, considerando diversos estudios, el número de dimensiones del espacio
emocional se limita a dos o incluso tres. Sin embargo, la definición de cada una de estas
dimensiones difiere de unos estudios a otros. No obstante, a pesar de las variaciones,
muy a menudo estos ejes se refieren al mismo concepto pero empleando nomenclatura
diferente para su definición. Los ejes pueden ubicarse en cualquier orientación del espacio
pero siempre de forma ortogonal entre sí. Las tres dimensiones comúnmente empleadas
son:
Evaluación (también referenciada como agrado, valoración o valencia). Define un eje
positivo-negativo clasificando las emociones según lo placentero o desagradable de
las mismas. Por ejemplo: la alegría es una emoción positiva mientras que el enfado
es una emoción negativa.
Activación (o actividad). Define un eje activo-pasivo que indica la presencia o ausencia de energía o tensión. Por ejemplo, el enfado se ubica en la posición más activa
del eje mientras que el aburrimiento se ubica en la posición más pasiva.
Potencia (también referenciada como control o fuerza). Define una escala dominantesumiso o alta-baja la cual distingue emociones iniciadas por el sujeto de aquellas que
son provocadas por el entorno. Por ejemplo, el desprecio se ubica en la posición más
dominante, o alta, de la escala mientras que la sorpresa se ubica en la más sumisa,
o baja.
La dimensión de potencia no se estudia de manera tan habitual como las dos anteriores de forma que muy a menudo el espacio emocional se representa como una circunferencia en la que se definen los ejes vertical y horizontal como activación (activo-pasivo) y
evaluación (positivo-negativo), respectivamente. Este modelo bidimensional se identifica
como, simplemente, modelo de activación-evaluación.
Dado que tanto las listas de etiquetas emocionales como los modelos dimensionales permiten la descripción de emociones, se puede realizar un mapeo entre ambos
métodos de representación (Steidl, 2009). La figura 2.2 muestra la disposición de 80 estados afectivos en el espacio bidimensional de activación-evaluación según la reproducción
que Steidl (2009) hace del trabajo de Scherer (2000). En la figura se antepone el concepto en
inglés (en cursiva) a la traducción en español dado que, tal y como se ha comentado en la
sección 2.1.3.1, en la traducción se pueden perder algunas sutilezas del término original.
La disposición de los elementos en esta gráfica se obtiene de un escalado multidimensional basado en la matriz de similitud creada a partir de los juicios subjetivos de un conjunto
de evaluadores humanos. Dado que estos evaluadores miden las similitudes de las 80 etiquetas emocionales dadas, la posición exacta de las mismas variaría si cambiara tanto su
número como su especificación (Steidl, 2009).
Existen otros modelos que, básicamente, consisten en el mapeo de otras etiquetas
20
2. Fundamentos
ACTIVO
adventurous / intrépido ●
● bellicose / belicoso
hostile / hostil ●
● hateful / odioso
● envious /
envidioso
● enraged / enfurecido ● defiant / desafiante
● lusting /
lujurioso
● triumphant / victorioso
● self-confident / seguro
● courageous / bravo
● contemptuous /
despreciativo
● ambitious / ● conceited /
ambicioso
envanecido
feeling superior /
crecido ●
● jealous / celoso
disgusted /
asqueado ●
● angry /
enfadado
● indignant /
● convinced /
loathing / repugnado ●
indignado
enthusiastic /
convencido
● discontented /
entusiasmado ●
descontento
suspicious /
● impatient /
● elated / exaltado
● light-hearted /
● determined /
bitter / amargado ●
● receloso
impaciente
desenfadado
resuelto
● insulted /
● amused /
● excited /
ofendido
divertido
excitado
● passionate /
● joyous / jubiloso
●
distrustful
/
apasionado
desconfiado
interested /
● expectant /
startled / asustado ●
● interesado
expectante
● bored / aburrido
POSITIVO
NEGATIVO
disappointed / defraudado ●
impressed /
● feel well / cómodo
● impresionado
dissatisfied /
● apathetic /
astonished /
● amorous /
● insatisfecho
apático
confident /
asombrado ●
cariñoso
● seguro
● taken back / retractado
● hopeful / esperanzado
longing /
● relaxed / relajado
● anhelante
●
attentive
/
● solemn /
cortés
solemne
● content / satisfecho
● friendly /
amable
● contemplative /
pensive ●
contemplativo
/ meditabundo
polite ●
/ correcto
peaceful / tranquilo ●
● serious /
formal
worried /
● intranquilo
uncomfortable /
incómodo ●
● despondent /
feel guilty / culpable ●
descorazonado
languid ●
● ashamed /
● desperate /
/ lánguido
avergonzado
desesperado
● embarrassed /
desconcertado
● melancholic /
melancólico
● conscientious /
concienzudo
● emphatic / enfático
● hesitant /
vacilante
sad / triste ●
● wavering /
indeciso
● dejected /
abatido
● lonely /
aislado
anxious /
● preocupado
● insecure /
inseguro
● doubtful / dubitativo
reverent / reverente ●
PASIVO
Figura 2.2: Mapeo de 80 etiquetas emocionales en el espacio bidimensional de activación (eje vertical: activo-pasivo) y evaluación (eje horizontal: positivo-negativo) y su traducción al español.
Adaptado de (Scherer, 2000) según la reproducción de Steidl (2009) (en inglés).
emocionales sobre este mismo espacio bidimensional. Tal y como se ha pretendido señalar
a lo largo de estas líneas, no son mejores ni peores, tan solo consisten en alternativas o
diferentes puntos de vista alrededor de un mismo asunto. Así, por ejemplo, también son
representativos los modelos propuestos por Russell (1980), con el mapeo de 28 etiquetas
emocionales, o el basado en la lista de 142 etiquetas de Plutchik (1980) cuyas coordenadas
en el espacio de activación-evaluación se pueden consultar en (Cowie et al., 2001).
A pesar de la importancia de las dimensiones anteriormente citadas, la especificidad de algunos trabajos determina, en ocasiones, definiciones alternativas más adecuadas
que otras al problema estudiado. Así, por ejemplo, Batliner et al. (2008) propone el cambio
de la dimensión de activación por la de interacción para abordar el análisis de emociones
2.2. Etiquetado subjetivo de estímulos
21
espontáneas5 . Este eje ubica las emociones dependiendo de si se dirigen a uno mismo
(como por ejemplo en el caso de la alegría) o hacia los demás (como en el caso de la irascibilidad).
Los modelos multidimensionales parecen solucionar los inconvenientes de los categóricos. Sin embargo, y tal como indican Cowie y Schröder (2005), ambos presentan ventajas e inconvenientes. Es cierto que trabajar con un listado de emociones puede resultar
muy complejo cuando se consideran muchas etiquetas y que el modelo multidimensional
permite solventar ese problema. Sin embargo, este último presenta dificultades para hacer
distinciones significativas entre estados emocionales. Así, al reducir la dimensionalidad
del espacio, se produce una pérdida de información y emociones dispares como miedo e
ira quedan ubicadas en posiciones próximas (dado que ambas son de evaluación negativa
y activación pasiva), mientras que en el modelo circumplex de Plutchik ocupan posiciones
diametralmente opuestas.
2.2. Etiquetado subjetivo de estímulos
Esta tesis está orientada al reconocimiento afectivo automático. Sin embargo, para
poder realizar esta tarea es necesario disponer de un conjunto de datos convenientemente
etiquetado. De esta forma, un conjunto de datos etiquetado se convierte en una fuente de
información para que los algoritmos encargados de llevar a cabo la tarea de reconocimiento automático puedan aprender a identificar los distintos estados afectivos. Además, gracias al etiquetado de cada uno de los elementos de ese conjunto de datos, se puede realizar
la comprobación de si la tarea automática realiza correctamente su cometido comparando
la etiqueta asignada por el sistema y la que cada elemento lleva ya asignada.
Sin embargo, realizar el etiquetado de los elementos de un conjunto de datos no
es tan fácil como puede parecer a simple vista. Dejando a un lado los estímulos no procedentes de una reacción humana (como podrían ser, por ejemplo, fotografías o fragmentos
de texto) y centrando el estudio dentro del ámbito de esta tesis (fragmentos de locuciones
pronunciados por un individuo), el etiquetado de estos elementos depende a menudo de
cómo se han realizado las grabaciones. Así, por ejemplo, si las grabaciones proceden de
actores y son, por lo tanto, simuladas siguiendo un guion, entonces no hay inconveniente
en afirmar, directamente, que cada locución se corresponde con la emoción que se le ha
pedido al actor que represente. Aún en el caso de que se dudara de la capacidad interpretativa del actor encargado de la grabación, se podría realizar una limpieza del conjunto
de datos eliminando aquellas locuciones que, de forma subjetiva, no lograran expresar la
emoción que se requería6 . En el caso de que las grabaciones procedan de individuos a los
cuales se les ha provocado de alguna forma una emoción a menudo es necesario recurrir
5
La mayor parte de los estudios de los que derivan las dimensiones anteriores se basan en corpus actuados,
no espontáneos.
6
Este procedimiento se correspondería con un proceso de validación del corpus y supondría una evaluación subjetiva de cada locución del mismo. En la sección 5.2 se propone un esquema para automatizarlo.
22
2. Fundamentos
al autoetiquetado (es decir, consultar al propio individuo la emoción que ha experimentado) o a la evaluación que un grupo representativo de personas hagan de la emoción que
han observado. Esto es así porque, a pesar de haber pretendido provocar una determinada emoción, es posible que el individuo haya experimentado otra en un grado distinto al
esperado. En este caso, el análisis de centra en el efecto y no en la causa que provoca la
reacción del individuo, tal y como señalan Cowie et al. (2001).
Recurrir a la evaluación subjetiva de un determinado estímulo, ya sea un fragmento
de voz, una secuencia audiovisual, una fotografía, un texto o un estímulo de cualquier otra
naturaleza, supone plantear cómo representar los estados afectivos para después identificarlos. Así, por ejemplo, se pueden emplear etiquetas categóricas para identificar las emociones, tal y como se planteaba en la sección 2.1.3.1 y en la sección 2.1.3.2. Por otra parte, se
puede recurrir al empleo de los modelos dimensionales descritos en la sección 2.1.3.3. El
empleo de etiquetas emocionales para describir las emociones supone una simplificación
de la tarea dado que los evaluadores tan sólo deben seleccionar la etiqueta emocional que
consideran que mejor describe el estado afectivo que se desprende del estímulo analizado.
Sin embargo, una lista demasiado extensa de etiquetas puede complicar mucho esta tarea.
Por otra parte, el empleo de modelos basados en espacios multidimensionales supone un
mayor grado de conocimiento de las teorías emocionales por parte del evaluador. A pesar
de todo, confiere una mayor libertad en comparación con el empleo de las etiquetas categóricas en tanto que, habitualmente7 , proporciona una forma de evaluar los estímulos en
un universo continuo en lugar de discreto y, por lo tanto, también más limitado.
2.2.1. Etiquetado categórico
La asignación de etiquetas a los estímulos sometidos a evaluación es, tal vez, el mecanismo más sencillo de implementar. No hace falta recurrir a herramientas informáticas
para realizar un test a un grupo de evaluadores subjetivos dado que se puede llevar a cabo fácilmente en papel. Sin embargo, para gestionar las respuestas de muchos usuarios y,
asimismo, permitir que una serie de estímulos pueda ser evaluada de forma no presencial
por usuarios de diversas procedencias y/o en momentos de tiempo diferentes, se puede
recurrir a herramientas que permitan la realización de test a través de Internet8 .
No obstante, a menudo existe ambigüedad en el estado emocional asociado al estímulo evaluado y los test que limitan las respuestas a una serie de etiquetas predefinidas y
exclusivas (conocidas como decisiones duras9 ) pueden confundir al evaluador y forzarlo a
dar una respuesta inadecuada. Por ese motivo se pueden crear test en los que los evaluadores deban marcar valores numéricos, expresados en forma de porcentajes, para cada
etiqueta emocional (conocidos como decisiones blandas10 ). Estos valores reflejarían el gra7
Habitualmente porque aunque los ejes dimensionales son naturalmente continuos estos se pueden discretizar para facilitar la tarea de los evaluadores.
8
Véase el apéndice B.
9
Del inglés, hard decisions.
10
Del inglés, soft decisions.
2.2. Etiquetado subjetivo de estímulos
23
do de seguridad en la respuesta ofrecida. La herramienta eTool (Steidl, 2009), por ejemplo,
implementada para el etiquetado del corpus FAU Aibo (Steidl, 2009), permite que el evaluador pueda indicar este porcentaje para las diferentes etiquetas de las que dispone para
realizar su tarea.
2.2.2. Etiquetado dimensional
Existen varias herramientas que se basan en modelos multidimensionales para permitir la evaluación subjetiva de estímulos. Aunque no necesariamente, muchas de ellas
están creadas con la idea de ser implementadas como herramientas informáticas aunque
algunas se pueden adaptar para ser utilizadas en papel. En esta sección se destacan tres de
estas herramientas: Feeltrace, la rueda de emociones Geneva y los Self-Assessment Manikins.
2.2.2.1.
Feeltrace
Feeltrace (Cowie et al., 2000) es una herramienta informática que permite la anotación del estado emocional de un individuo en tiempo real mientras percibe un estimulo
audiovisual. Durante la reproducción del estímulo el usuario puede ir marcando puntos
en la circunferencia del espacio de activación-evaluación mediante un cursor para su posterior análisis por lo que, de forma implícita, se almacena también una referencia temporal
durante el etiquetado. Tal y como describen Cowie et al. (2001), para indicar al evaluador
lo que significa cada posición del cursor en el espacio se incluyen varios indicadores. En
primer lugar, los ejes se describen según las dimensiones de activación y evaluación por
lo que, en los extremos de los mismos constan las leyendas “Muy activo” y “Muy pasivo”,
y “Muy negativo” y “Muy positivo”, respectivamente. Por otra parte, el cursor toma un
color diferente según su posición dentro de los ejes anteriores, según la escala rojo, amarillo, verde y azul para cada uno de los cuatro puntos de corte de la circunferencia con los
ejes y la gradación de color correspondiente para posiciones intermedias. Asimismo, alrededor de la circunferencia del espacio de activación-evaluación aparecen etiquetas que
describen las emociones asociadas a esa región del espacio. Por último, en el interior de
dicha circunferencia, se incluye un conjunto de etiquetas seleccionadas de una lista procedente de un vocabulario básico de emociones en inglés (Cowie et al., 1999) ubicadas en
sus coordenadas correspondientes. Según sus autores, esta herramienta tiene la misma
potencia que un vocabulario de veinte palabras, con la ventaja de permitir estados intermedios y de hacer el registro de la evolución temporal de un estado emocional a otro. La
figura 2.3 muestra esta herramienta incluyendo la traducción al español de las etiquetas
emocionales.
24
2. Fundamentos
MUY ACTIVO
fear
miedo
surprise
sorpresa
irritated / irritado
panicky / alarmado
pleased / alegre
cheerful / animado
eager / ilusionado
amused / divertido
content / satisfecho
antagonistic / contrario
anger
enfado
resentful / ofendido
critical / crítico
possesive / posesivo
suspicious / receloso
MUY NEGATIVO
joy
alegría
hopeful / esperanzado
serene / sereno
agreeable / amable
depressed / decaído
despairing / desesperado
MUY POSITIVO
delighted / encantado
contemptous / despreciativo
disgust
asco
anticipation
expectación
trusting / confiado
pensive / meditabundo
obedient / sumiso
bored / aburrido
sadness
tristeza
calm / tranquilo
gloomy / mustio
acceptance
aprobación
MUY PASIVO
Figura 2.3: Herramienta Feeltrace (Cowie et al., 2000) utilizada para anotar la emoción de un estímulo audiovisual en un espacio bidimensional. Adaptado de (Cowie et al., 2001) (en inglés).
2.2.2.2.
La rueda de emociones Geneva
La rueda de emociones Geneva11 (Scherer, 2005) es una herramienta bastante similar
a Feeltrace aunque presenta algunas diferencias notables. Esta herramienta no está orientada únicamente a su uso como herramienta informática, si bien es como principalmente
se concibió. Las dimensiones representadas son control (alto-bajo) y valencia o evaluación
(positivo-negativo, agradable-desagradable). Tal y como se muestra en la figura 2.4, en un
círculo definido por los ejes anteriormente citados se distribuyen 16 familias emocionales
creando 16 sectores circulares. En cada sector se ubican, desde el centro hasta los límites
del sector, cuatro elementos en forma de círculos de color. Estos elementos muestran diferentes tonalidades cromáticas para cada familia emocional, así como distintos tamaños y
saturaciones de color según la intensidad emocional representada. El tamaño de los círculos y la saturación del color decrece según disminuye su distancia al centro de la rueda
representando una menor intensidad de emoción.
11
Geneva Emotion Wheel, del original, en inglés.
2.2. Etiquetado subjetivo de estímulos
25
ALTO CONTROL
pride / orgullo
anger / enfado
contempt / desprecio
elation / exaltación
disgust / asco
joy / alegría
envy / envidia
satisfaction / satisfacción
DESAGRADABLE
AGRADABLE
relief / alivio
guilt / culpa
hope / esperanza
shame / vergüenza
fear / miedo
interest / interés
sadness / tristeza
surprise / sorpresa
BAJO CONTROL
Figura 2.4: Rueda de emociones Geneva (Scherer, 2005). Adaptado de (Steidl, 2009) (en inglés).
2.2.2.3.
Self-Assessment Manikin
La técnica del Self-Assessment Manikin (SAM) (Lang, 1980) también está relacionada con los modelos dimensionales. SAM es una técnica de evaluación pictórica no verbal
para medir las dimensiones de valencia, activación y control de un determinado estímulo
en las escalas negativo-positivo, calmado-excitado y dominado-dominante, respectivamente. Mientras que Feeltrace es una herramienta orientada a su uso como software, SAM
puede emplearse además como un test en papel. En este caso, la herramienta no permite el
registro directo de la evolución temporal de los estados emocionales de los individuos pero su uso resulta más sencillo que Feeltrace. Con esta herramienta el usuario ha de marcar
en tres escalas distintas, una para cada dimensión evaluada, la respuesta emocional que
crea oportuna. Para simplificar la tarea se le proporcionan unos dibujos representativos
de cada una de las escalas a evaluar. La figura 2.5 muestra la implementación de la técnica
SAM, según la descripción gráfica que realizan Bradley y Lang (1994), en la herramienta
de evaluación en línea de estímulos multimedia Testing platfoRm for mUltimedia Evaluation (TRUE) (Planet et al., 2008)12 . SAM, en tanto que tiene un fundamento gráfico, viene
a solventar los problemas que se derivan de la escala diferencial semántica13 propuesta
12
13
Para una explicación detallada de la herramienta TRUE, consúltese el apéndice B.
Semantic Differential Scale, del original, en inglés.
26
2. Fundamentos
por Mehrabian y Russell (1974), en la que las tres dimensiones se evalúan a partir de las
puntuaciones de 18 parejas de adjetivos en una escala de 9 posibles valores. A la incomodidad vinculada a la necesidad de tener que evaluar tantos elementos para un estímulo
dado se añade la de emplear un sistema verbal, desarrollado originalmente en inglés, en
individuos no angloparlantes o con un desarrollo lingüístico limitado (por ejemplo, niños
y niñas o personas afásicas) (Bradley y Lang, 1994).
Valencia (negativo - positivo)
1
2
3
4
5
6
7
8
9
8
9
8
9
Activación (calmado - excitado)
1
2
3
4
5
6
7
Control (dominado - dominante)
1
2
3
4
5
6
7
Figura 2.5: Self-Assessment Manikin (SAM). Figura adaptada de su implementación en la herramienta TRUE (Planet et al., 2008) según la descripción gráfica de Bradley y Lang (1994).
2.3. Expresión y percepción de emociones
No cabe duda de la importancia de la expresividad emocional —y en consecuencia, también del reconocimiento emocional— en la comunicación humana. Son muchos
los estudios que han investigado cómo la emoción afecta a diferentes aspectos del comportamiento humano, tal y como se refleja en el resumen realizado por Bartneck (2000),
el cual recoge experimentos y resultados relacionados con las emociones a nivel facial,
vocal, musical y de gestualidad corporal. Un ejemplo de la importancia de las emociones en la comunicación puede detectarse en la convergencia que se produce, de manera
prácticamente involuntaria, entre dos interlocutores que sostienen una comunicación. Dos
individuos que están en sintonía y quieren expresarlo convergen en una serie de parámetros vocales (Giles y Smith, 1979) mientras que, por el contrario, si esa convergencia no se
produce, los agentes de la comunicación muestran indiferencia o distanciamiento (Cowie
et al., 2001).
2.3. Expresión y percepción de emociones
27
En el proceso comunicativo humano se pueden distinguir dos canales diferenciados (Cowie et al., 2001):
Canal explícito: destinado a la comunicación del mensaje en sí mismo.
Canal implícito: destinado a la comunicación de información acerca de los agentes
involucrados en el proceso.
Si bien es cierto que el contenido explícito de un mensaje puede transmitir información del estado emocional del individuo muchas veces es necesario recurrir al canal
implícito para obtener dicha información. En cierto modo, podemos afirmar que ambos
canales interactúan de forma que el canal implícito indica a los receptores cómo deben
interpretar el mensaje que se transmite a través del canal explícito (Cowie et al., 2001). Un
ejemplo para ilustrar esta afirmación se puede encontrar en los chistes o en los diálogos
sarcásticos, en los que la información del canal implícito confiere un significado completamente distinto al que se derivaría de la interpretación exclusiva del mensaje del canal
explícito.
Tal y como se ha explicado en la sección 2.1.2, las emociones desencadenan una serie de cambios fisiológicos que predisponen a la acción. La siguiente sección explica algunos de estos cambios a nivel fisiológico general. A continuación se detallarán los distintos
elementos que componen la comunicación humana para dar paso, en las dos secciones
posteriores, a la explicación de los efectos de la expresión emocional en la voz y cómo
estos se reflejan también en la interpretación musical.
2.3.1. Reacciones fisiológicas relacionadas con la emoción
Goleman (1995) hace hincapié en la consideración de las emociones como impulsos
para la acción y señala una serie de cambios fisiológicos relacionados con ellas descritos
como predisposiciones biológicas que afectan, directa o indirectamente, a diversas funciones del organismo. La siguiente lista resume estas predisposiciones para emociones
básicas que, como se puede comprobar, está muy ligada a los postulados de Darwin y su
teoría evolutiva basada en la supervivencia:
Enfado: aumenta el flujo sanguíneo en las manos, el flujo cardíaco y la cantidad
de adrenalina en la sangre. Ello facilita la agresión manual al oponente así como
la acometida de acciones enérgicas. Al igual que en el caso del miedo, se activa el
sistema nervioso simpático14 preparando el organismo para la acción.
14
Parte del sistema nervioso autónomo que mantiene los mecanismos homeostáticos del organismo y lo
prepara, en caso de necesidad, para emprender una acción de forma inmediata aumentando la frecuencia
cardíaca o estimulando las glándulas suprarrenales, por ejemplo.
28
2. Fundamentos
Miedo: aumenta el flujo sanguíneo en la musculatura esquelética larga (y lo disminuye, en consecuencia, en el rostro ocasionando palidez) y la tasa hormonal en
sangre, lo que facilita la huida e induce inquietud y un estado de alerta. La atención
se fija en el estímulo que sirve de amenaza y se percibe cierta rigidez y parálisis inicial y temporal que facilita la evaluación de la situación. Se produce la activación
del sistema nervioso simpático.
Felicidad: se estimula el centro cerebral encargado de inhibir sentimientos negativos y estados de preocupación, aumentando la energía. Esto favorece un estado de
tranquilidad, reposo y entusiasmo para emprender acciones.
Amor: se activa el sistema nervioso parasimpático15 que induce un estado de relajación y de disminución del estrés que afecta de forma generalizada a todo el cuerpo.
La sensación de calma y satisfacción favorece la convivencia.
Sorpresa: los ojos se abren (produciendo un característico arqueo de cejas) para permitir una mayor entrada de luz en la retina y un aumento del campo visual.
Asco: en la expresión facial asociada al asco se frunce la nariz para cerrarla y evitar
un olor desagradable y se ladea, al mismo tiempo, el labio superior para favorecer
la expulsión de un alimento tóxico del aparato digestivo.
Tristeza: disminuye la energía y el entusiasmo por actividades vitales, sobre todo
las relacionadas con la diversión y el placer, y el metabolismo corporal se ralentiza.
Esta respuesta facilita la evaluación de la situación que ha provocado este estado
emocional y la planificación de la actividad una vez superada.
Estas reacciones fisiológicas repercuten también en la musculatura y en los órganos
relacionados con el aparato fonador provocando cambios en la voz del individuo que está
experimentando un estado emocional concreto. Sin embargo, también conllevan cambios
en otros componentes de la comunicación. La siguiente sección detalla cuáles son los componentes de la comunicación antes de profundizar, en las secciones subsiguientes, en el
efecto de la emoción en la voz y su expresión musical.
2.3.2. Elementos multimodales de la comunicación
Dado que la emoción va ligada a una serie de cambios fisiológicos, estos cambios
influyen de forma directa e indirecta en la comunicación. Ahora bien, el proceso comunicativo se establece a varios niveles y, por lo tanto, la expresión emocional se manifiesta de
distintas formas. La figura 2.6, según Payrató (2005) a partir de Hinde (1972), muestra los
componentes del proceso comunicativo a nivel vocal y no vocal.
15
El sistema nervioso parasimpático es parte del sistema nervioso autónomo cuya funcionalidad es complementaria a la del sistema nervioso simpático. Su tiempo de respuesta es inferior a la de su complementario
dado que su función no es la de dar una respuesta inmediata a un estímulo. Se encarga del restablecimiento
de la energía corporal.
2.3. Expresión y percepción de emociones
29
Reflejos
Comunicación vocal
Verbal
Cualidad de la voz
Lingüística
Prosódica
Locutiva
No segmental
Paralingüística
Comunicación no vocal
Gestos
Figura 2.6: Componentes a nivel vocal y no vocal de la comunicación humana. Adaptado de (Payrató, 2005).
En la figura 2.6 el concepto reflejos hace referencia a actividades como, por ejemplo, toser y cualidad de voz se refiere a características propias del individuo. Asimismo,
la prosodia agrupa el tono, la intensidad y la cantidad, tal y como se detallará en la sección 2.3.3. Finalmente, la paralingüística incluye los componentes tanto vocales como no
vocales que completan la modalidad verbal.
Por otra parte, y considerando los aspectos expresivos y receptivos de la comunicación, podemos distinguir distintas modalidades básicas en el proceso comunicativo
humano. Estas modalidades aparecen reflejadas en la figura 2.7, según la adaptación de
Payrató (2005) del original de Heinemann (1980).
En la figura 2.7 se destaca la proxemia como la gestión del espacio que rodea a los
interlocutores y su entorno en lo que se refiere a sus características físicas, tales como su
apariencia o su vestuario. Los sentidos auditivo y visual se consideran “sentidos a distancia” en tanto que proporcionan información de los objetos desde lejos, y tradicionalmente
se han conocido como “sentidos nobles”. Como “sentidos de proximidad” se consideran
el tacto y el gusto. El olfato se situaría en un punto intermedio entre ambas categorías y,
junto con los dos anteriores, formaría parte del conjunto conocido tradicionalmente como
“sentidos inferiores”. Debe considerarse, sin embargo, que los conceptos que se están presentando a lo largo de esta sección no siempre pueden distinguirse claramente los unos
de los otros pues, a menudo, comparten ciertas características definitorias o se corresponden con fenómenos que se dan de forma combinada e incluso, en ocasiones, de forma
inseparable. Por ejemplo, el gesto realizado con el dedo índice señalando un objeto mientras se pronuncia la frase “Acércame eso, por favor” sería un ejemplo de submodalidad no
verbal sincronizada con una submodalidad verbal. En cuanto a la gestualidad, se pueden
distinguir como principales fuentes de producción de señales la gesticulación manual, la
gesticulación facial, los movimientos de la cabeza, los movimientos oculares y la postura
corporal. La clasificación de los gestos más extendida se debe al trabajo publicado por
Ekman y Friesen (1969), en el cual se distinguen cinco categorías de actos no verbales:
30
2. Fundamentos
Vocal
Verbal
No vocal
No verbal
Sentido
auditivo
Gestualidad
Contacto
corporal
Proxemia
Sentido
visual
Aspectos
del entorno
Sentidos
de proximidad
Figura 2.7: Modalidades del proceso comunicativo humano. Adaptado de (Payrató, 2005), según
el original de Heinemann (1980).
Emblemas: gestos que pueden ser traducidos directamente al lenguaje verbal puesto
que tienen un significado inequívoco y muy ligado al ámbito cultural.
Ilustradores: complementan el mensaje verbal, del cual dependen.
Reguladores: destinados a la gestión de la comunicación, facilitando el intercambio
de turnos entre los diferentes interlocutores.
Adaptadores: gestos de contacto con uno mismo, objetos u otros interlocutores.
Manifestadores de estados anímicos: expresión de emociones.
Dado que el proceso comunicativo se establece en varios niveles, tal y como se ha
constatado en las líneas anteriores, la expresión emocional se muestra también en aspectos
diversos. De las diferentes modalidades en las que puede manifestarse la emoción, en la
siguiente sección se hace hincapié en las relacionadas con el habla.
2.3.3. Parámetros del habla relacionados con la emoción
A pesar de que como se ha explicado en la sección 2.3.2 la comunicación es un proceso multimodal y, por lo tanto, la expresión emocional puede hallarse en estas múltiples
modalidades, el habla por sí sola también es capaz de transmitir estados afectivos. Así,
por ejemplo, los agentes de una conversación telefónica son capaces de diferenciar sus
2.3. Expresión y percepción de emociones
31
emociones a pesar no ver sus expresiones faciales o sus gesticulaciones corporales. Cabe
destacar, sin embargo, que aunque el componente afectivo del habla es principalmente de
naturaleza no-léxica, hay otros factores en ella, tales como el contexto o el contenido del
mensaje, que son también importantes en lo que a contenido emocional se refiere.
Para entender cómo la emoción puede afectar al habla se ha de comprender cómo
esta se produce. La figura 2.8 muestra, de forma esquemática, el tracto vocal. De forma
muy básica, la voz se genera cuando el aire es expulsado de los pulmones y llega a la
laringe tras atravesar la tráquea. En la laringe se encuentran cuatro pliegues vocales16 a
pesar de que sólo dos de ellos, los inferiores, son los relacionados con la producción de la
voz. Cuando estos pliegues están abiertos el aire fluye libremente a través del orificio que
crean. Sin embargo, cuando se contraen y se juntan, el aire choca contra ellos y la fricción
los hace vibrar. La frecuencia de esta vibración determina la frecuencia fundamental de
la señal de voz y es, por lo tanto, de la flexibilidad de estos pliegues que depende el rango
vocal. Al mismo tiempo, esta vibración también genera un espectro de armónicos17 que
se filtra en el tracto vocal creándose los diferentes sonidos. Además se produce una amplificación de la señal de voz dado que el sonido producido por los pliegues vocales es
de baja intensidad. Asimismo, la fricción del aire a su paso por el tracto vocal crea otras
componentes aperiódicas según la morfología que presente. Esto crea, por ejemplo, los
sonidos sordos o los sonidos consonánticos, debidos a interrupciones totales o parciales
del flujo de aire. De esta forma, los sonidos oclusivos, por ejemplo, se deben a un cierre
del flujo del aire seguido de una explosión18 . La evolución temporal de este proceso genera una onda acústica que se conoce como la señal de voz. Las múltiples variaciones y
combinaciones de los sonidos generados son las que permiten la formación de palabras y
la transmisión de un mensaje definido.
La prosodia es la rama de la lingüística que trata los elementos de la expresión oral
y la formación de las palabras. En este sentido, los principales rasgos prosódicos del habla son: las variaciones en la intensidad y en la frecuencia fundamental, la duración de
los sonidos y la posición y la duración de las pausas (Llisterri et al., 2004). La función de la
prosodia es, principalmente, lingüística. Así, por ejemplo, es la que permite la distinción
entre una frase enunciativa y una frase interrogativa, sin ser necesaria la interpretación
del contenido de la frase. Sin embargo, el habla también muestra variaciones prosódicas
y de timbre con funciones que no pueden considerarse estrictamente lingüísticas. Se distinguen dos funciones de la prosodia, además de la lingüística anteriormente comentada
(Escudero, 2003):
Paralingüística: complementa el mensaje con una intención determinada, reflejando
una actitud o un estado afectivo del hablante.
Extralingüística: aporta información acerca de las características del hablante, tal
como su edad, su sexo, su estatus social, etc.
16
Pliegues vocales es el nombre anatómico que reciben las comúnmente conocidas como cuerdas vocales.
El espectro de armónicos está formado por señales a frecuencias múltiples de la frecuencia fundamental.
18
Por ejemplo, al unir y separar bruscamente los labios.
17
32
2. Fundamentos
Paladar duro
Lengua
Paladar blando
Cavidad nasal
Cavidad oral
Faringe
Labios
Epiglotis
Abertura de la
laringe hacia
la faringe
Laringe
Mandíbula
Hueso hioides
Pliegues vocales
Tráquea
Esófago
Figura 2.8: Modelo esquemático del tracto vocal.
Las principales propiedades acústicas (tanto prosódicas como no prosódicas) de los
sonidos del habla que se relacionan con la expresividad vocal se detallan en el siguiente listado (Iriondo, 2008), según su relación con la melodía19 , la intensidad, los aspectos
temporales del habla o el timbre:
Propiedades relacionadas con la melodía:
• Frecuencia fundamental (F0): resultado de la vibración de los pliegues vocales.
Se define como el ciclo periódico de la señal de voz. Su unidad de medida
habitual es el hercio (Hz), que mide el número de ciclos por segundo.
• Curva de F0 o curva melódica: es la secuencia de valores de F0 para un fragmento de voz y se relaciona con la percepción de la entonación del habla.
• Jitter: ligera perturbación en la F0 debida a fluctuaciones en los tiempos de apertura y cierre de los pliegues vocales entre dos ciclos consecutivos.
Propiedades relacionadas con la intensidad:
• Intensidad: medida de la energía de la señal acústica. Su unidad de medida
habitual es el decibelio (dB), que se corresponde con una transformación logarítmica de la amplitud de la señal para representar mejor la percepción humana
del sonido.
19
La melodía (pitch, en inglés) es el fenómeno que se relaciona con la curva de Frecuencia fundamental (F0)
de un grupo fónico (entendiendo por grupo fónico la porción del discurso comprendida entre dos pausas)
(Garrido, 1991). No debe confundirse con la entonación, dado que esta es un fenómeno lingüístico relacionado
con la sensación perceptiva producida por la variación de la F0, la amplitud y la duración.
2.3. Expresión y percepción de emociones
33
• Shimmer: ligera perturbación en la intensidad debida a fluctuaciones en la amplitud entre dos ciclos consecutivos.
Propiedades relacionadas con los aspectos temporales del habla:
• Velocidad del habla: se puede medir a partir de la duración de los segmentos
del habla o como el número de unidades lingüísticas por unidad temporal (por
ejemplo, número de palabras por minuto o número de sílabas por segundo).
• Pausas: representan el número y la duración de los silencios que se producen
en la señal de voz20 .
Propiedades relacionadas con el timbre:
• Energía de alta frecuencia: proporción relativa de la energía de la señal acústica
que sobrepasa una frecuencia de corte respecto a la energía total de la señal.
• Frecuencias de los formantes: regiones de frecuencia que presentan una alta
concentración de energía espectral y que reflejan las resonancias naturales del
tracto vocal. Habitualmente se representan por la frecuencia central de la región y su ancho de banda.
• Precisión en la articulación: mide la desviación de las frecuencias de los formantes en las vocales desde las frecuencias formantes neutras (Juslin y Laukka,
2003).
Tanto el jitter como el shimmer no se asocian a propiedades prosódicas, a pesar de
estar estrechamente relacionadas con la F0 y la intensidad, respectivamente, sino que se
suelen asociar con las propiedades del timbre. El grupo formado por las propiedades del
timbre, el jitter y el shimmer recibe el nombre de Voice Quality (VoQ)21 (véase la sección
3.3.1.1).
Murray y Arnott (1993) presentan un resumen de diversos estudios para investigar la correlación existente entre habla y emoción, concluyendo que existen claros efectos
vocales en algunas emociones. La tabla 2.2 muestra un resumen de estos efectos según
la traducción al español de Iriondo (2008). La descripción de los efectos está referida a
un estilo neutro. Sin embargo, la cuantificación que se realiza de los efectos es bastante
imprecisa.
La figura 2.9 ilustra a través de cuatro ejemplos, y sin pretender extraer conclusiones cuantitativas, cómo la emoción influye en el habla. En la figura se muestra la forma
de onda y el espectrograma de cuatro fragmentos de voz extraídos del corpus BDP-UAB
20
Hace referencia a las pausas vacías (empty pauses, en inglés) que se realizan para respirar. Las pausas vacías difieren de las pausas llenas (filled pauses, en inglés) en que en estas últimas sí existe sonido y se relacionan
con la planificación del discurso (Puigví et al., 1994).
21
Cualidad de la voz, en inglés.
34
2. Fundamentos
Tabla 2.2: Resumen de los efectos de las emociones en el habla, según la traducción de Iriondo
(2008) del original de Murray y Arnott (1993) (en inglés).
Velocidad
del habla
Promedio
de F0
Rango
de F0
Cualidad
de la voz
Cambios
de F0
Articulación
Miedo
Ligeramente
más rápida
Mucho más
alto
Más
amplio
Jadeante
Alegría
Más rápida
o más lenta
Más
alto
Más
amplio
Estrepitosa
Tristeza
Ligeramente
más lenta
Ligeramente
más bajo
Ligeramente
más estrecho
Resonante
Abruptos en
sílabas
tónicas
Suaves
inflexiones
ascendentes
Inflexiones
descendentes
Tensa
Normal
Arrastrada
Enfado
Mucho más
rápida
Mucho
más alto
Más
amplio
Sonoridad
irregular
Normal
Precisa
Asco
Mucho más
lenta
Mucho
más bajo
Ligeramente
más amplio
Ruidosa
Amplios,
inflexiones
descendentes
finales
Normal
(Iriondo et al., 2009)22 correspondientes a los estilos neutro (carente de emoción), agresivo, alegre y triste. Tal y como se ha expuesto hasta ahora, se puede comprobar como, con
respecto a los demás estados emocionales, el habla triste presenta silencios más prolongados y, en general, un nivel de energía bajo. Además, la energía se acumula en la parte baja
del espectrograma lo que indica un tono menor. El estilo agresivo presenta una forma de
onda más escarpada, en comparación con los estados neutro y alegre, y también variaciones más bruscas en el espectrograma. El estilo alegre, en este caso, se asemeja bastante al
agresivo, y difiere del neutro, entre otros rasgos, en una duración bastante inferior de los
silencios entre palabras.
A diferencia de Murray y Arnott (1993), existen otros trabajos que presentan descripciones más específicas como los desarrollados por Mozziconacci (1998), que cuantifica parámetros de melodía y velocidad en forma de porcentaje respecto al estado neutro;
Rodríguez et al. (1999), que presentan un modelo para la expresión emocional del habla
en castellano con el objetivo de mejorar la naturalidad del habla sintética en sistemas de
conversión de texto a voz con requerimientos emocionales específicos, siendo validado
posteriormente por Iriondo et al. (2000); Cowie et al. (2001), que incluyen un análisis de 14
estados emocionales caracterizados por una descripción cualitativa de las características
del habla organizadas en cinco categorías: acústica, contorno melódico, tono, VoQ y otros,
recopilando las conclusiones de diversos autores; o Juslin y Laukka (2003), que presentan
un análisis de 104 estudios relacionados con la expresión vocal y 41 estudios acerca de
la interpretación musical para comprobar si ambas modalidades transmiten emociones
de forma similar, estudiando cinco categorías emocionales y comprobando que las emociones de tristeza y enfado son las mejor decodificadas (también a nivel transcultural)
mientras que, a diferencia de lo que sucede en estudios de expresividad facial, la alegría
es la menos identificada entre distintas culturas.
22
Véase la sección 3.4.2 para una descripción detallada de este corpus.
2.3. Expresión y percepción de emociones
35
NEUTRO
AGRESIVO
Amplitud
0.5
0
0
-0.5
-0.5
8000
8000
6000
6000
Frecuencia
Frecuencia
Amplitud
0.5
4000
2000
0
0.5
1
1.5
2
Tiempo
2.5
4000
2000
0
3
0.5
1
1.5
Tiempo
TRISTE
ALEGRE
Amplitud
0.5
0
0
-0.5
-0.5
8000
8000
6000
6000
Frecuencia
Frecuencia
Amplitud
0.5
4000
2000
0
2.5
2
0.5
1
1.5
2
2.5
Tiempo
3
3.5
4
4.5
4000
2000
0
0.5
1
1.5
Tiempo
2
2.5
Figura 2.9: Formas de onda y escpectrogramas de cuatro locuciones habladas procedentes del
corpus BDP-UAB. Cada locución se corresponde con un estilo neutro, agresivo, alegre y triste (en
el sentido de las agujas del reloj).
2.3.4. La percepción musical
A pesar de que la música conlleva un potente contenido emocional, expresar emociones a través de ella no es sencillo dado que su percepción depende de la cultura, las
habilidades del intérprete y de la edad del oyente (Bartneck, 2000). Scherer y Oshinsky
(1977) argumentan que la mayor parte de las variaciones emotivas de la música se pueden crear por modificaciones de amplitud, melodía (nivel, variación y contorno), tempo,
curva y filtrado, y afirman, además, que existe un paralelismo entre esta afirmación y
lo que sucede en la expresión emocional en el habla. Juslin (1997) recopila una serie de
parámetros musicales relacionados con cinco emociones y, posteriormente, analiza la similitud entre las propiedades acústicas de la expresión vocal y las de la interpretación
musical (Juslin y Laukka, 2003). Sus conclusiones se resumen en la tabla 2.3.
36
2. Fundamentos
Tabla 2.3: Resumen de las propiedades acústicas de la expresión vocal y la interpretación musical
de cuatro emociones según la traducción de Iriondo (2008) del original de Juslin y Laukka (2003).
Emoción
Enfado
Miedo
Alegría
Tristeza
Propiedades acústicas (expresión vocal/interpretación musical)
Velocidad/tempo rápida/o, intensidad/nivel de sonido fuerte,
alta variabilidad de intensidad/nivel de sonido, alta energía de alta frecuencia,
alto nivel de F0/tono, alta variabilidad de F0/tono, contorno ascendente de F0/tono,
rápido inicio de voz/ataque
Velocidad/tempo rápida/o, intensidad/nivel de sonido baja/o (excepto en pánico),
alta variabilidad de intensidad/nivel de sonido, baja energía de alta frecuencia,
alto nivel de F0/tono, poca variabilidad de F0/tono, contorno ascendente de F0/tono
Velocidad/tempo rápida/o, intensidad/nivel de sonido media/o a fuerte,
energía media de alta frecuencia, alto nivel de F0/tono, alta variabilidad de F0/tono,
contorno ascendente de F0/tono, rápido inicio de voz/ataque
Velocidad/tempo lenta/o, intensidad/nivel de sonido baja/o,
poca variabilidad de intensidad/nivel de sonido, pequeña energía de alta frecuencia,
bajo nivel de F0/tono, poca variabilidad de F0/tono,
contorno descendente de F0/tono, lento inicio de voz/ataque
2.4. Resumen
En este capítulo se han explicado las principales teorías de la emoción haciendo
hincapié en la función de las mismas en el proceso comunicativo humano. Comparando
las teorías de diversos autores se aprecia un elemento común que muestra la “tendencia a
la acción” vinculada al concepto “emoción”. Sin embargo, y a pesar de que la emoción es
un pilar fundamental de la comunicación, es difícil conseguir una única descripción para
este concepto y, mucho menos, determinar un conjunto específico de emociones básicas.
A grandes rasgos, existen los listados de emociones que crean conjuntos de etiquetas categóricas para describir cada una de las emociones que consideran; también existen los
modelos circumplex que describen las relaciones entre las emociones de manera análoga a
los colores de una rueda cromática; y los modelos multidimensionales que establecen un
espacio de dimensionalidad reducida para definir las emociones humanas.
Una tarea importante cuando se trabaja con elementos que deben ser descritos en
base a conceptos emocionales es el etiquetado previo de los mismos. En función del modelo escogido para representar las emociones estudiadas se puede realizar un etiquetado
categórico o un etiquetado dimensional. Si bien el primero puede ser muy sencillo, al
aumentar el número de categorías emocionales el proceso puede resultar complicado. El
etiquetado dimensional pretende solventar ese inconveniente trabajando en un espacio
continuo pero, a su vez, requiere de un conocimiento previo por parte del evaluador de
ciertos fundamentos teóricos relacionados con las emociones. Sin embargo, algunas herramientas como SAM pretenden paliar ese inconveniente.
Más allá de los modelos escogidos para la definición, descripción y representación
de las emociones lo cierto, y resulta claramente observable, es que van ligadas a reaccio-
2.4. Resumen
37
nes fisiológicas en el organismo. Sea cual sea la función que desempeñen —lo cual, tal y
como se ha visto en este capítulo, varía según el autor consultado—, estas reacciones fisiológicas inciden en los diversos aspectos de la comunicación, entendiéndola como una
actividad multimodal que involucra diversos componentes y sentidos. El habla es uno de
estos componentes y, además, es uno de los que por sí solos pueden transmitir emociones
en un oyente. De manera similar a la música, el habla presenta una serie de variaciones
en sus parámetros que evolucionan en función del estado emocional del hablante.
38
2. Fundamentos
Capítulo 3
Corpus y parametrización
A lo largo de este capítulo se describen cuáles son las consideraciones generales
para crear un corpus de voz con colorido emocional y qué tipos de expresiones vocales
pueden considerarse para su diseño, desde la voz natural (la más realista) a la actuada
(la que presenta más facilidades para el control de la grabación). También se explican los
distintos parámetros que pueden ser extraídos de las locuciones de los corpus para su
posterior análisis mediante algoritmos de aprendizaje automático, tanto a nivel acústico
como a nivel lingüístico. Finalmente, en la última sección del capítulo, se describen los
tres corpus que serán analizados en esta tesis y se detallan los parámetros que se extraen
de los mismos.
3.1. Consideraciones generales
Grabar un corpus de voz no es una tarea sencilla. Más allá de una simple recopilación de grabaciones de voz, la creación de un corpus de voz con contenido emocional
está sujeta a diferentes consideraciones. Douglas-Cowie et al. (2003) destacan, según cita
Iriondo (2008), cuatro aspectos importantes que se deben tener en cuenta:
Ámbito. Se trata de considerar qué cubre el conjunto de grabaciones en cuanto a
número de locutores, edad, sexo, idioma, estados emocionales, etc. Este aspecto es
de crucial relevancia para la generalización de los estudios posteriores y depende,
en parte, de la aplicación a la que va orientada el corpus. Así, por ejemplo, en un
corpus de síntesis de voz puede ser suficiente un único locutor mientras que para
uno de reconocimiento se necesita una mayor variedad de grabaciones. En cuanto
a las emociones consideradas, escoger emociones plenas o estados emocionales de
diversa intensidad (véase la sección 2.1.1) depende del autor de cada estudio y no
existe un claro consenso al respecto.
Naturalidad. La naturalidad de las grabaciones depende de cómo se realicen. Se
39
40
3. Corpus y parametrización
puede optar por escoger un actor o una actriz que representen estados emocionales
concretos o bien recopilar grabaciones de emociones espontáneas. Por supuesto, la
grabación de emociones actuadas supone un mayor control de las condiciones de
grabación pero su autenticidad puede quedar en entredicho (véase la sección 3.2).
Contexto. Complementa el estado emocional que el receptor percibe. Se diferencian
cuatro formas básicas de contexto:
• Semántico: el contenido emocional se halla en determinadas palabras.
• Estructural: las emociones las determinan patrones específicos de pronunciación.
• Intermodal: la expresión emocional se sustenta en la expresión facial, los gestos
y la postura.
• Temporal: las emociones se reconocen en los cambios acústicos que se producen en determinados instantes de tiempo.
Descriptores. Deben representar el contenido lingüístico y el emocional, cubriendo
todas las características que se relacionan con la expresión vocal de los estados emocionales. En función de la naturaleza de cada una de estas características se puede
optar por una representación cualitativa o cuantitativa.
Además, existe una estrecha relación entre los estudios de habla y emoción y las
aplicaciones en las que se pretenden utilizar. Así pues, los cuatro factores antes detallados
deberán ser los adecuados para la aplicación a la que se destine el corpus. Schröder (2004)
ilustra el proceso de inferencia de emociones entre los dos agentes de una comunicación,
tal y como se muestra en la figura 3.1, diferenciando dos tipos de estudios según se centren
en la expresión emocional por parte del hablante o en la percepción de las emociones por
parte del oyente:
Estudios que se centran en el hablante: se refieren, en general, al reconocimiento de
emociones del locutor a partir del análisis de la señal de voz en base a un conjunto
de parámetros cuantificables del habla. El gran reto, según Devillers et al. (2005), es
discernir cuáles son los parámetros realmente atribuibles a la emoción y no a las
propias características de la conversación.
Estudios que se centran en el oyente: se refieren al modelado de los parámetros del
habla para que transmita un determinado estado emocional. Por supuesto, resulta
fundamental la descripción que se haga de cada uno de estos estados emocionales
y es crucial determinar cuáles son estos parámetros antes de proceder a su estudio.
Así, los corpus destinados a síntesis de voz y, por lo tanto, centrados en el oyente,
acostumbran a ser corpus extensos, de varias horas de duración, para cuya grabación se
recurre a un actor o actriz profesional que leen un conjunto de textos. Estos textos pueden
3.2. Métodos para la generación de habla emocional
41
Habla
Emoción
expresada
Estudios
centrados en el
hablante
Expresión facial
Gestualidad corporal
Estudios
centrados en el
oyente
Emoción
percibida
Estudios de
codificación
Figura 3.1: Clasificación de los estudios sobre habla y emoción según el foco de interés. Adaptado
de (Iriondo, 2008).
ser neutros (carentes de contenido emocional en su semántica), repetidos para cada emoción, o bien pueden ser textos con contenido emocional. Los primeros hacen más fácil la
comparación dado que la única diferencia es la componente emocional en la señal de voz,
que es precisamente la que se está analizando. Por el contrario, los segundos facilitan la
tarea de locución de los actores en el momento de la grabación Iriondo (2008).
Sin embargo, los corpus destinados a reconocimiento emocional y, por lo tanto,
centrados en el hablante, acostumbran a ser de una naturaleza más diversa, como puede
comprobarse en la variedad de estudios de reconocimiento afectivo existentes (véase el
capítulo 4).
3.2. Métodos para la generación de habla emocional
Existen diversos métodos para registrar fragmentos de habla emocionada. Evidentemente, recurrir a actores para que simulen un estilo específico de habla parece lo más
sencillo pero diversas cuestiones pueden poner en entredicho la naturalidad conseguida mediante este sistema. Aunque el uso de actores es un escenario ideal en cuanto a
que ofrece el máximo control del contenido del corpus y de las condiciones de grabación, Douglas-Cowie et al. (2005) señalan que se pierde información relevante que sí está
presente en escenarios reales y cotidianos. Esto puede ocasionar una degradación en los
resultados de sistemas de reconocimiento automático en el momento de aplicar los modelos extraídos en un escenario real (Grimm et al., 2007). Es por ello que existen diversos
métodos para generar voz emocionada teniendo en cuenta siempre los factores de naturalidad y control de la grabación. Campbell (2000) propone cuatro estrategias para generar
habla con una determinada coloración emocional, las cuales también se citan por Schröder
(2004) y Steidl (2009), y se describen en las secciones siguientes.
3.2.1. Expresión vocal natural
Las locuciones naturales son, en principio, las ideales para recopilar un corpus de
voz emocionada. Estas locuciones pueden proceder de fuentes diversas como, por ejem-
42
3. Corpus y parametrización
plo, situaciones de riesgo para pilotos de aviación, entrevistas de radio y televisión o crónicas periodísticas (Scherer, 2003). No obstante, el empleo de este material muchas veces
se ve obstaculizado por motivos de derechos de autor y otros aspectos legales. Además,
surgen otros problemas como son la escasa calidad de estas grabaciones debido a las distancias variables del locutor al micrófono o las reverberaciones, al reducido número de
locutores, al escaso control del contenido y a la dificultad del etiquetado. A todo este escenario desfavorable se añade la Paradoja del Observador (Steidl, 2009) enunciada por William
Labov, la cual indica que “el propósito de la investigación lingüística debe ser descubrir
cómo se expresa la gente cuando no está siendo observada sistemáticamente, a pesar de
que la única manera de obtener esta información es mediante la observación sistemática”
(Labov, 1972). Así pues, se debería proporcionar mayor libertad a los locutores para realizar estas grabaciones, tal vez incluso dejando fuera de su conocimiento el hecho de estar
siendo grabados, lo cual resultaría en una pérdida aún mayor del control de la grabación.
Además, tal y como expresa Steidl (2009), este tipo de grabación es altamente cuestionable
desde un punto de vista ético e incluso conflictivo a nivel legal.
Algunos corpus de esta categoría son: The Reading/Leeds Emotional Speech Corpus
(Arnfield et al., 1995); The Belfast Naturalistic Emotion Database, descrito y analizado por
Schröder (2004); la base de datos JST/CREST (Campbell, 2002) y el corpus VAM (Grimm
et al., 2007).
3.2.2. Expresión vocal inducida
Las técnicas de inducción de emociones tratan de alterar el estado emocional del
locutor. Gerrards-Hesse et al. (1994) analizan 250 estudios relacionados con procedimientos para la inducción de estados de humor1 y propone una clasificación de los mismos en
cinco categorías:
Procedimientos basados en la generación libre de estados emocionales. No se presentan estímulos a los individuos sino que ellos mismos activan los estados afectivos
mediante técnicas hipnóticas, por ejemplo, o mediante el recuerdo de determinadas
experiencias anteriores.
Procedimientos basados en la generación guiada de estados emocionales. Se presentan determinados estímulos a los individuos y se les indica qué estado emocional
deben alcanzar, por ejemplo a través de fragmentos de películas o piezas musicales.
Procedimientos basados en la presentación de material para la inducción de emociones. Se presentan determinados estímulos a los individuos pero sin indicarles el
estado emocional que deben alcanzar.
Procedimientos basados en la presentación de situaciones de necesidad emocional.
Los individuos se exponen a situaciones que generan necesidad de logro o afiliación,
1
En inglés, MIPs, acrónimo de Mood Induction Procedures.
3.2. Métodos para la generación de habla emocional
43
como por ejemplo actividades cognitivas evaluadas o determinadas interacciones
sociales.
Procedimientos para generar estados psicológicos con emociones relevantes. Los
individuos se someten a tratamientos que varían sus niveles fisiológicos como, por
ejemplo, recibiendo alguna substancia tal como adrenalina o un placebo, o bien forzando, a indicación del investigador, algunos de sus músculos faciales2 para provocar una emoción.
Sin embargo, muchos de estos procedimientos no se han diseñado específicamente
para provocar emociones que afecten a la señal de voz, aunque pueden ser adaptados
para tal efecto. Para grabar voz existen métodos específicos tales como realizar una tarea
complicada de deletreo para provocar un estado negativo, una tarea de cálculo mental
para crear una situación de estrés o un escenario Mago de Oz3 con la simulación de un
dispositivo defectuoso para provocar una sensación de enfado (Steidl, 2009).
Los principales inconvenientes son que a menudo no resulta sencillo evocar emociones concretas ya que la respuesta individual de cada sujeto a un mismo estímulo puede
ser distinta y, además, las emociones inducidas suelen ser de baja intensidad y no emociones plenas. Sin dejar de lado que el contenido de las locuciones, por su naturaleza
espontánea, no puede ser controlado. Finalmente, inducir ciertas emociones con la finalidad de recopilar información científica puede provocar controversias éticas y morales
(Campbell, 2000).
Algunos corpus de esta categoría son los desarrollados por Bachorowski y Owren
(1995); por Fernández y Picard (2003); el corpus FAU Aibo, descrito por Steidl (2009) y el
corpus EmoTaboo de Zara et al. (2007).
3.2.3. Expresión vocal estimulada
En este caso, los actores reciben una serie de textos con contenido adecuado para
la emoción que se les pide expresar con el objetivo de estimular emociones en su voz.
Pretende ser un sistema de compromiso entre la rigidez de un sistema basado en actores
(explicado en la siguiente sección) y los métodos anteriores, que poseían un menor control del contenido de las locuciones y de las condiciones de grabación. Sin embargo, para
según qué aplicaciones, puede ser contraproducente contar con locuciones de distinto
contenido semántico para cada emoción, sobre todo en el momento de hacer determinadas comparaciones entre los estilos emocionales.
2
La hipótesis de retroalimentación facial (Leventhal, 1980) indica que las expresiones faciales influyen en
el estado de humor.
3
Llevar a cabo un determinado ejercicio en un escenario Mago de Oz quiere decir que los sujetos sometidos
a estudio creen interactuar con un sistema completamente automático aunque, en realidad, las respuestas del
sistema están controladas por un operador humano que permanece oculto durante el mismo.
44
3. Corpus y parametrización
Dos ejemplos de corpus de esta categoría son la Belfast Structured Emotion Database
(Douglas-Cowie et al., 2003) y el corpus BDP-UAB (Iriondo et al., 2009).
3.2.4. Expresión vocal actuada
El sistema que permite el mayor control del contenido fonético y semántico de las
locuciones así como de las condiciones de grabación es el consistente en grabar con actores
en base a un guion preestablecido. Permite la grabación de emociones plenas, prototípicas
y de máxima intensidad. Las condiciones de grabación pueden ser exactas a las especificaciones del experimento dado que se trabaja en estudio, en un entorno completamente
controlado. Los textos pueden ser exactamente los mismos para cada estilo emotivo favoreciendo su posterior comparación, a pesar de que ello pueda dificultar la expresión
a locutores no especialmente entrenados. Posteriormente, y al igual que en los procedimientos anteriores, un test subjetivo puede permitir eliminar las grabaciones que no se
correspondan con el estilo especificado al inicio.
Sin embargo, este sistema vuelve a plantear algunos inconvenientes. Steidl (2009)
recoge algunos de los problemas que citan varios autores. El principal es la falta de naturalidad dado que los actores pueden caer en la exageración de ciertos aspectos de la
expresión emocional que, en la vida real, tenderían a disimularse o pasarían desapercibidos. Por otra parte, en las interacciones sociales se tiende a disimular algunos aspectos
emocionales personales mediante el control de los parámetros expresivos, aspecto que
difícilmente se reflejará en una locución actuada. Al mismo tiempo, a pesar de que un
oyente pueda percibir la emoción pretendida, es posible que la emoción, al no ser sentida, se perciba como falsa, lo que le provocará una reacción desagradable. Finalmente, las
emociones actuadas no provienen de reacciones fisiológicas y, por lo tanto, difícilmente
las grabaciones mostrarán los matices reales del estado emocional pretendido.
A pesar de lo antes comentado, Busso y Narayanan (2008) señalan que el problema
no siempre radica en el empleo de actores para realizar las grabaciones sino en el método
empleado y el entorno de grabación. Así, unas pautas bien definidas y una metodología explícita pueden permitir reducir las diferencias observadas entre las condiciones de
laboratorio y las aplicaciones de la vida real.
Algunos ejemplos de corpus de esta categoría son: el corpus Talkapillar (Beller y
Marty, 2006), la Berlin Database of Emotional Speech (Burkhardt et al., 2005) y la base de
datos desarrollada por Liberman et al. (2002).
3.3. Parametrización
Para que los algoritmos de aprendizaje puedan trabajar con los archivos de audio
de un corpus es necesario que estos sean parametrizados. Mediante el proceso de parame-
3.3. Parametrización
45
trización cada archivo de audio pasa a estar descrito por una serie de valores numéricos y
etiquetas adicionales que forman, en conjunto, un único vector. Estas etiquetas adicionales
son descriptivas de cada locución y su definición varía en función del corpus. Su funcionalidad, en general, es la de identificar cada una de las locuciones mediante un código y
describirlas emocionalmente. Esta descripción puede ser una única etiqueta categórica o
las coordenadas que la emoción representa en un espacio multidimensional, por ejemplo.
Estas etiquetas adicionales se asignan manualmente durante el diseño del corpus. El resto proviene de un proceso automático o semiautomático mediante el cual se extraen una
serie de parámetros numéricos que describen diferentes características de cada uno de los
archivos que componen el corpus.
Es importante señalar que la parametrización se realiza de forma que cada locución, independientemente de su duración, resulte en un vector de parámetros de longitud
constante. Es decir, se pretende uniformizar la descripción paramétrica de las locuciones
sin importar la duración de las mismas. El vector resultante de la parametrización de cada archivo del corpus recibe el nombre indistinto de instancia, ejemplo o caso. Cada uno
de los elementos de estos vectores recibe el nombre de parámetro o atributo. El conjunto
de vectores que recoge la parametrización de todos y cada uno de los archivos de audio
y, por lo tanto, la parametrización completa del corpus, recibe el nombre de conjunto de
datos o, según su nomenclatura en inglés, dataset. Así pues, el conjunto de datos resultante de la parametrización de un corpus contendrá tantas instancias como archivos de
audio compongan el corpus y tantos atributos como parámetros se hayan calculado más
las etiquetas adicionales que se incluyan posteriormente.
La definición del vector de atributos responde al tipo de parametrización que se
lleve a cabo. En esta tesis la parametrización se realiza a dos niveles: a nivel acústico y a
nivel lingüístico, los cuales se describen a continuación.
3.3.1. Parametrización acústica
En el pasado, el foco de estudio de los parámetros acústicos extraídos de un corpus se centraba en su análisis exclusivamente prosódico, empleándose conjuntos de datos
relativamente pequeños y, a menudo, incompletos (Cowie et al., 2001). Sin embargo, a medida que los estudios en reconocimiento emocional automático han ido avanzando y la
capacidad de cálculo de los dispositivos ha aumentado, esta parametrización ha ido haciéndose más extensa (Schuller et al., 2009).
De forma general, el proceso de parametrización acústica de un archivo de audio
consiste en dividir la señal acústica en una serie de segmentos que posteriormente son
analizados de manera individual. Esta división puede realizarse a dos niveles distintos
que no son excluyentes:
46
3. Corpus y parametrización
División a nivel segmental. Consiste en dividir cada archivo de audio en segmentos4
de longitud constante (Oudeyer, 2003; Planet et al., 2006; Steidl, 2009) mediante la
aplicación de una ventana. Habitualmente estos fragmentos tienen una duración de
entre 10 y 20 ms, tiempo durante el cual se puede considerar que la señal de voz no
presenta grandes variaciones.
División a nivel fonético. Consiste en crear segmentos de la señal de voz que delimiten los fonemas5 de la locución (Monzo et al., 2007; Ringeval y Chetouani, 2007;
Iriondo et al., 2009). Habitualmente se emplean métodos semiautomáticos para realizar esta tarea: un sistema automático realiza una primera segmentación que posteriormente es revisada y ajustada manualmente. Este método suele ser útil para
estudiar fragmentos concretos de la locución de forma aislada del resto, como por
ejemplo las vocales o las consonantes.
Cada fragmento se procesa para extraer una serie de descriptores que reciben el
nombre de descriptores de bajo nivel6 en tanto que están directamente relacionados con
la señal acústica en sí misma. La sección 3.3.1.1 contiene una relación de los descriptores
más comúnmente empleados en trabajos de reconocimiento emocional y que han sido
utilizados en distintos experimentos de esta tesis. Para hacer más exhaustiva la parametrización (Oudeyer, 2003) y para obtener una visión de la dinámica de estos descriptores
más allá de sus valores instantáneos (Steidl, 2009; Bozkurt et al., 2011), se realiza el cálculo
la primera y segunda derivada discreta de los mismos. La derivada discreta de la función
f (n) se representa por el símbolo Δn f (n) y se expresa matemáticamente como indica la
ecuación 3.1.
Δn f (n) = f (n + 1) − f (n)
(3.1)
A continuación cada archivo de audio es procesado para extraer una serie de funcionales7 a partir de los descriptores de bajo nivel que se han calculado en el paso anterior.
Busso et al. (2009) señalan que, a nivel de frecuencia, estos funcionales son más idóneos
que los parámetros descriptores de la curva de F0, así como también lo es el análisis a nivel
de frase en lugar de segmentos más breves (como, por ejemplo, únicamente fragmentos
sonoros). Al igual que en otros trabajos, el cálculo de funcionales a nivel de frase se hará
extensivo al resto de los parámetros analizados (Litman y Forbes-Riley, 2003; Oudeyer,
2003; Vlasenko et al., 2007; Iriondo et al., 2009; Schuller et al., 2009; Steidl, 2009; Sezgin
et al., 2012). Los funcionales más comúnmente empleados en tareas de reconocimiento
emocional son: media (primer momento estándar), desviación estándar (relacionado con
4
También es común referirse a estos segmentos como tramas. En esta tesis ambos términos se emplean de
forma indistinta.
5
Unidades fonológicas mínimas con función distintiva.
6
Del inglés, Low Level Descriptors.
7
Funciones que transforman un vector en un valor escalar.
3.3. Parametrización
47
el segundo momento estándar), asimetría8 (tercer momento estándar), curtosis9 (cuarto
momento estándar), mediana, extremos (valores máximo y mínimo), posición de los extremos, diferencia entre los extremos, cuartiles, rango intercuartílico10 y coeficientes de
regresión lineal. Esta no es una lista exhaustiva y la elección de los funcionales depende
del autor. Eyben et al. (2009) recogen una lista extensa de funcionales orientados a reconocimiento emocional que, además, pueden ser calculados con la herramienta OpenEAR11 ,
de libre distribución.
...
Finalmente, los funcionales que describen cada archivo de audio se concatenan
con las etiquetas adicionales. Cada uno de los vectores resultantes forma una instancia
del conjunto de datos correspondiente a la parametrización acústica del corpus. La figura
3.2 ilustra el proceso de creación del conjunto de datos de un corpus a nivel acústico tal
y como se ha descrito en esta sección, considerando el cálculo de n descriptores de bajo
nivel, su primera derivada y m funcionales, incluyendo un código de identificación de la
locución y una etiqueta descriptiva de la emoción a nivel categórico.
Cálculo de n
descriptores acústicos
Cálculo de la primera
derivada
...
n
n
Cálculo de m funcionales
Archivo i
...
ID i
ETIQUETA i
2×n×m
Figura 3.2: Esquema de la parametrización acústica de un archivo de audio de un corpus calculando n descriptores de bajo nivel, su primera derivada y m funcionales.
3.3.1.1.
Descriptores de bajo nivel
Los parámetros de bajo nivel que a menudo se consideran relacionados con la expresividad emocional y que han sido estudiados en varios experimentos de la presente
tesis se pueden agrupar en distintas categorías, según se relacionen con la prosodia, la
VoQ o el espectro amplio de la señal. Algunos de estos parámetros se hallan explicados
desde una perspectiva centrada en la expresión y la percepción emocional en la sección
2.3.3.
8
Es habitual su nomenclatura en inglés, skewness. Representa la asimetría de una distribución considerando como eje de simetría una recta vertical que cruza el valor medio de la misma.
9
Es habitual su nomenclatura en inglés, kurtosis. Es una medida de la forma de la distribución e indica su
apuntamiento.
10
El rango intercuartílico se define como la diferencia entre el tercer y primer cuartil.
11
http://openart.sourceforge.net
48
3. Corpus y parametrización
Parámetros relacionados con la prosodia. La prosodia caracteriza los rasgos suprasegmentales percibidos en el habla y por lo tanto se refiere a sílabas, palabras, frases o locuciones enteras en lugar de únicamente a fonemas. La prosodia se refiere a la percepción
acústica de los sonidos, a los que define por su tono, sonía y duración. Según Gil (2007), el
tono es la impresión perceptiva que produce en el oyente la F0 de la onda sonora; la sonía
es la fuerza percibida en los sonidos influida tanto por la intensidad de la onda sonora
como por la F0, las características espectrales y la duración del sonido; y la duración es
la longitud percibida de un sonido, influenciada por cambios en la sonía. A pesar de que
estas características perceptivas no tienen equivalentes únicos en la señal de voz existen
equivalentes acústicos que se adaptan muy adecuadamente como la F0, que se asemeja
al tono percibido, y la energía de la señal, que se asemeja a la sonía. Se agrupan en tres
categorías según se relacionen con la F0, la energía o la duración:
Parámetros relacionados con la F0. Pueden calcularse en todos los segmentos en los
que se ha fragmentado el archivo de voz aunque realmente tiene sentido en aquellas
zonas que presentan una periodicidad clara, es decir, en los sonidos sonoros como,
por ejemplo, las vocales. Los fragmentos que no presentan periodicidad pueden ser
omitidos o bien procesados de manera especial. Así, por ejemplo, el marcador desarrollado por Alías et al. (2006) asigna marcas interpoladas a partir de las zonas sonoras vecinas. Si no se realiza una segmentación fonética, Navas et al. (2006) proponen
el uso de un detector de actividad vocal y un detector de sonoridad para realizar el
cálculo de forma adecuada.
Parámetros relacionados con la energía. Como su propio nombre indica, miden la
energía del fragmento acústico analizado. Se puede medir en decibelios o por su
valor cuadrático medio12 .
Parámetros relacionados con el ritmo. Tienen sentido en la segmentación fonética
del habla y miden la duración de los fonemas de la locución. A pesar de ser relevantes en la expresión de las emociones (Cowie et al., 2001), a menudo no se consideran
en algunos estudios por la complejidad que supone obtener esta información de manera automática (Navas et al., 2006). Habitualmente se emplea la medida estadística
z-score para analizar la estructura temporal del habla, como en (Schweitzer y Möbius, 2003), según la ecuación 3.2 donde μ y σ son la media y la desviación estándar,
respectivamente, del segmento analizado y d la duración, en milisegundos, del fonema (Iriondo, 2008). Asimismo, en (Iriondo, 2008) también se calcula el número de
pausas por unidad de tiempo y el porcentaje de tiempo de silencio respecto a la duración total de la locución con el objetivo de representar la frecuencia y la duración
de las mismas.
z-score =
12
Medido como rms, del inglés root mean square.
d−μ
σ
(3.2)
3.3. Parametrización
49
Parámetros relacionados con la VoQ. La VoQ se basa en las perturbaciones en la F0 y
la energía de la señal que se representan por distintos parámetros. Según la definición de
Laver (1980) recogida en (Monzo, 2010), “La VoQ se concibe en un sentido amplio como
la característica auditiva de la voz individual de un interlocutor, y no en el sentido más
reducido de la cualidad derivada únicamente de la actividad laríngea. Tanto las características laríngeas y supralaríngeas serán vistas como contribuciones a la VoQ.” En base a
los parámetros propuestos por Drioli et al. (2003), los resultados obtenidos por Monzo et
al. (2007) y los propuestos por Iriondo (2008), se pueden destacar los siguientes:
Jitter. Mide las variaciones a corto plazo del periodo fundamental debidas a fluctuaciones en los tiempos de apertura y cierre de los pliegues vocales de un ciclo al
siguiente, describiendo un ruido que aparece en forma de modulación en frecuencia. A pesar de que existen diversas variantes en el cálculo de este parámetro, la más
sencilla y acorde con la definición de este parámetro se describe en la ecuación 3.3.
jitter(i) =
|F0 (i + 1) − F0 (i)|
F0 (i)
(3.3)
Shimmer. Mide las variaciones a corto plazo de la amplitud de la forma de onda
entre ciclos, describiendo un ruido que aparece como una modulación en amplitud.
Aunque, como para el jitter, existen diversas variantes para su cálculo, el shimmer se
puede describir de forma sencilla mediante la ecuación 3.4 en función de la energía
(E) entre ciclos consecutivos.
shimmer(i) =
|E(i + 1) − E(i)|
E(i)
(3.4)
Harmonic-to-Noise Ratio (HNR). Se define como la relación entre la energía de la parte
armónica y la energía del resto de la señal de voz y viene a medir la periodicidad
de la señal sonora. Esta medida puede verse afectada por el jitter y el shimmer. Steidl
(2009) describe el cálculo de este parámetro según la función de autocorrelación.
Glottal-to-Noise Excitation Ratio (GNE). Cuantifica la relación entre la excitación debida a oscilaciones de los pliegues vocales respecto la excitación producida por ruido
turbulento (Michaelis et al., 1997). Similar a HNR en cuanto que mide el ruido aditivo pero difiere de este parámetro en que GNE se puede considerar prácticamente
independiente de jitter y shimmer.
Hammamberg Index (HammI). Es la diferencia entre los máximos de energía de las
bandas frecuenciales de 0 a 2000 Hz y de 2000 a 5000 Hz. La ecuación 3.5 define el
cálculo de este parámetro en dB donde E0...2000 es la energía de la banda frecuencial
de 0 a 2000 Hz y E2000...5000 es la energía de la banda frecuencial de 2000 a 5000 Hz.
HammI = 10 · log
máx(E0...2000 )
máx(E2000...5000 )
(3.5)
50
3. Corpus y parametrización
Spectral Flatness Measure (SFM). Es la relación entre la media geométrica y la media
aritmética de la distribución espectral de energía. La ecuación 3.6 define el cálculo
de este parámetro en dB, donde N es el número de muestras espectrales tomadas
en consideración para frecuencias situadas entre 0 Hz y la mitad de la frecuencia de
muestreo del archivo de audio y Ei es la energía de cada una de estas frecuencias.
N
N
SFM = 10 · log
1
N
i=1 Ei
N
i=1 Ei
(3.6)
Drop-off of spectral energy above 1000Hz (do1000). Es una aproximación lineal de la
pendiente espectral por encima de 1000 Hz calculada por medio del método de los
mínimos cuadrados. La ecuación 3.7 define el cálculo de este parámetro donde N
es el número de muestras espectrales tomadas en consideración para frecuencias
situadas en el margen de 1000 Hz hasta la mitad de la frecuencia de muestreo del
archivo de audio, Ei es la energía de cada una de estas frecuencias, E es la media
de energía calculada considerando todas las frecuencias, f 1000i son las frecuencias
superiores a 1000 Hz y f 1000 es el valor medio las frecuencias superiores a 1000 Hz.
N
do1000 =
i=1 (Ei − E)(f 1000i − f 1000)
N
2
i=1 (f 1000i − f 1000)
(3.7)
Relative Amount of Energy above 1000 Hz (pe1000). Mide la cantidad de energía relativa en el margen de las frecuencias superiores a 1000 Hz respecto a las inferiores.
La ecuación 3.8 define el cálculo de este parámetro en dB donde Eh es la energía
de cada una de las frecuencias comprendidas entre 1000 Hz y la mitad del valor de
la frecuencia de muestreo del archivo de audio y El es la energía de las frecuencias
inferiores a 1000 Hz.
H
pe1000 = 10 · log h=1
L
Eh
l=1 El
(3.8)
Parámetros espectrales. Según Steidl (2009), si los parámetros prosódicos se refieren a
la F0, la energía y la duración, los parámetros espectrales describen las características de
la señal de voz en el dominio de la frecuencia estudiando también los armónicos y los
formantes. Los armónicos son múltiplos de la frecuencia fundamental y se caracterizan
por su frecuencia y su amplitud. Por su parte, los formantes son amplificaciones de determinadas frecuencias como resultado de las resonancias del tracto vocal, y se caracterizan
por su frecuencia, su amplitud y su ancho de banda. Los sonidos sonoros tienen cuatro
formantes como mínimo y, en general, bastan los dos inferiores para discernir las vocales.
Otros parámetros calculan la energía espectral en varias bandas de frecuencia. Los parámetros espectrales más empleados en el ámbito de reconocimiento emocional son los
3.3. Parametrización
51
Mel Frequency Cepstral Coefficients (MFCC)13 , que se consideran un estándar en la síntesis
de voz y en el reconocimiento automático del habla. Sin embargo, también han mostrado utilidad, por sí solos, en el ámbito del reconocimiento afectivo automático a pesar de
suponer un volumen de datos reducido (Steidl, 2009).
3.3.2. Parametrización lingüística
La parametrización lingüística hace referencia a la extracción de información a partir del contenido léxico de las frases de los corpus. En este sentido, este tipo de parametrización hace énfasis en lo que se dice y no en cómo se dice, es decir, se centra en el canal
explícito de la comunicación (véase la sección 2.3). Esta parametrización se aprovecha del
hecho de que las personas tendemos a emplear palabras específicas para expresar nuestras emociones en base a las asociaciones que hemos aprendido entre ciertas palabras y
las emociones correspondientes (Lee y Narayanan, 2005). Sin embargo, a pesar de que hay
intentos de identificar el vocabulario de las emociones a través de descripciones subjetivas
de emociones específicas (Plutchik, 1994), estos sólo son útiles para determinar palabras
clave de forma genérica y no en un entorno de comunicación natural (Lee y Narayanan,
2005). Para conseguir esto último existen parámetros como los descritos en esta sección.
A continuación se describen los parámetros lingüísticos analizados en esta tesis.
Las descripciones se refieren en todo momento a los elementos lingüísticos del corpus.
Estos elementos lingüísticos son, si se trabaja a nivel de unigramas, las palabras que forman cada una de las frases del corpus. En el caso de trabajar a nivel de bigramas, los
elementos lingüísticos se refieren a las agrupaciones de dos palabras consecutivas en forma de pares ordenados. Esta descripción puede generalizarse para el caso de n-gramas.
Originariamente, los n-gramas mostraron su utilidad en tareas de reconocimiento de voz
(Nöth et al., 2001) y más tarde se hicieron extensivos a los estudios de reconocimiento emocional mostrándose útiles en este ámbito (Schuller et al., 2005; Polzehl et al., 2009; Steidl,
2009).
3.3.2.1.
Prominencia emocional y activación
Lee y Narayanan (2005) proponen el concepto de prominencia emocional14 para
convertir cada una de los elementos lingüísticos de un corpus en parámetros relacionados
con las etiquetas emocionales. Asumiendo que cada elemento es independiente del resto
en una misma frase, la prominencia de un elemento se define como la información mutua
entre un elemento específico y una categoría emocional. En este sentido, un elemento
13
Los cuales, realmente, hacen referencia a la transformada inversa del logaritmo del espectro, enfatizando
cambios o periodicidad en el mismo
14
Del inglés, emotional salience. En esta tesis se emplea el término prominencia emocional por considerarlo
más descriptivo y adecuado en este ámbito aunque en psicología es habitual referirse a este concepto como
saliencia, definido como la destacabilidad de un estímulo o la capacidad para llamar la atención de un sujeto.
52
3. Corpus y parametrización
prominentemente emocional es un elemento que aparece más a menudo relacionado con
esa categoría emocional que con el resto de categorías.
Sea W = {v1 , v2 , ..., vn } el conjunto de los n elementos de una frase y sea E =
{e1 , e2 , ..., ek } el universo emocional definido por el conjunto de k categorías emocionales.
La información mutua entre el elemento vm y la emoción ej se define tal y como indica la
ecuación 3.9.
i(vm , ej ) = log
P (ej |vm )
P (ej )
(3.9)
donde P (ej |vm ) es la probabilidad a posteriori de que una frase conteniendo el
elemento vm implique la emoción ej y P (ej ) es la probabilidad a priori de esa emoción.
La prominencia emocional de un elemento vm en relación con el universo emocional E (ecuación 3.10) se denota por sal(vm ) y se define como la distancia Kullback-Leibler
entre la probabilidad a posteriori P (ej |vm ) de una emoción ej dado el elemento vm y la
probabilidad a priori de esa emoción P (ej ) (Yildirim et al., 2011).
sal(vm ) =
k
P (ej |vm ) log
j=1
P (ej |vm )
P (ej )
(3.10)
De todos los elementos analizados sólo se seleccionan aquellos cuya prominencia emocional supera un determinado umbral, el cual se escogerá según se estipule en el
experimento en cuestión. A continuación se calculan k parámetros lingüísticos por cada
frase del corpus. Estos parámetros, llamados activaciones y denotados por aj , se definen
según la ecuación 3.11 (Lee y Narayanan, 2005). Así pues, cada frase contará con tantos
parámetros de activación como etiquetas emocionales se consideren.
aj =
n
Im wmj + wj
(3.11)
m=1
donde Im es 1 si el elemento aparece en la lista de elementos que superan el valor umbral de prominencia emocional o 0 en caso contrario, wmj es el peso de conexión
definido por la ecuación 3.12 y wj es el sesgo definido por la ecuación 3.13.
wmj = i(vm , ej ) = log
P (ej |vm )
P (ej )
wj = log P (ej )
(3.12)
(3.13)
3.3. Parametrización
53
La figura 3.3 muestra el esquema del cálculo de los parámetros de activación para
cada categoría emocional a partir de los elementos de análisis de cada frase del corpus
los cuales pueden ser, tal y como se comentaba con anterioridad, palabras individuales
(unigramas) o agrupaciones de las mismas (n-gramas, en general).
Elementos de una frase
...
Cálculo de
activaciones
Activaciones para
e1 e2 e3 ... ek
Prominencia emocional
...
Figura 3.3: Esquema de la parametrización lingüística de una frase calculando k parámetros de
activación, uno para categoría emocional. Se han marcado en rojo aquellos elementos de la frase
cuya prominencia emocional supera un umbral preestablecido.
3.3.2.2.
Afinidad prototípica
La afinidad prototípica es una medida propuesta por Steidl (2009) durante la validación del corpus FAU Aibo. En este corpus, además de la categoría emocional, cada
locución lleva asociado un parámetro, la afinidad prototípica, representando la homogeneidad del etiquetado llevado a cabo por los anotadores del corpus. La afinidad prototípica de un segmento se define como la relación entre el número de etiquetas categóricas (a
nivel de cada una de las palabras que conforman el segmento en cuestión) que coinciden
con la etiqueta asignada finalmente a ese fragmento y el número total de etiquetas que ha
recibido por parte de los anotadores, es decir, la proporción de etiquetas categóricas que
coinciden (a nivel de palabra) con la categoría final del fragmento.
Para poder crear una lista de palabras emocionales con esta información, se calcula
la afinidad prototípica media de cada palabra w del corpus referenciada a esa emoción e,
tal y como se indica en la ecuación 3.14.
N
avg_prot(w, e) =
i=1 proti (w, e)
N
(3.14)
donde proti (w, e) es la afinidad prototípica de la palabra w respecto a la emoción e
y N es el número de frases con esa etiqueta emocional asignada.
3.3.2.3.
Dimensiones emocionales
El modelo bidimensional de activación y valencia (véase la sección 2.1.3.3) para mapear palabras en el universo emocional ha sido empleado con éxito en múltiples estudios
54
3. Corpus y parametrización
(Stevenson et al., 2007). Para ello es necesario un diccionario afectivo como, por ejemplo,
los diccionarios Affective Norms for English Words (ANEW) (Bradley y Lang, 1999; Trilla
y Alías, 2009), Dictionary of Affect in Language (DAL) (Hofer et al., 2005; Whissell, 2008) o
una lista autocompilada de palabras emocionales (Francisco y Gervás, 2006; Osherenko,
2008). Sin embargo, existen discrepancias respecto al uso de estos modelos atribuibles a
que su diseño puede verse influido por la personalidad, el carácter y el contexto social de
los evaluadores que los diseñan (Russell et al., 1989). Al mismo tiempo, el estudio aislado
de las palabras podría mejorarse con un estudio de las palabras contiguas que puedan
modificar sus significados. Así, por ejemplo, si un adverbio de negación acompaña a una
palabra, los coeficientes dimensionales pueden rotarse alrededor del estado neutro en un
modelo circumplex, como en (Trilla y Alías, 2009).
3.3.2.4.
Modelo de espacio vectorial
En este modelo, los elementos que aparecen en el corpus definen un espacio de alta
dimensionalidad en el que se representan las transcripciones de las frases. Por ejemplo,
Steidl (2009) crea un espacio con la frecuencia de aparición de todas las palabras del corpus. Sin embargo, la alta dimensionalidad de este espacio puede ocasionar problemas de
dispersión. No obstante, Alías et al. (2008) indican que estos problemas se pueden subsanar analizando unicamente las palabras evaluadas y no el corpus completo.
3.4. Corpus empleados en esta tesis
En los experimentos de reconocimiento automático de emociones explicados a lo
largo de esta tesis se trabaja, fundamentalmente, con tres corpus de voz emocionada. En
esta sección se describe cada uno de estos corpus y se detalla la parametrización que se ha
realizado de los mismos. Dichas parametrizaciones pretenden recoger de forma amplia
los parámetros explicados en la sección 3.3.
3.4.1. Corpus ESDLA
El corpus ESDLA se concibe originalmente como un corpus no demasiado extenso
y con una parametrización sencilla destinado a experimentos preliminares en el ámbito
del reconocimiento afectivo automático. A este efecto, su parametrización se concibe en
base al trabajo de Oudeyer (2003), cuyos experimentos son adaptados a este corpus en una
fase inicial de esta tesis, sin que supongan el eje vertebrador de la misma. Tal y como se detalla a continuación, a pesar de ser un corpus sencillo cuenta con un análisis subjetivo que
ofrece una referencia para el análisis de los resultados de los estudios de reconocimiento
automático, así como una parametrización tanto a nivel fonético como a nivel segmental.
3.4. Corpus empleados en esta tesis
3.4.1.1.
55
Descripción
El corpus ESDLA es un corpus de expresión vocal actuada (véase la sección 3.2.4)
consistente en la recopilación de las lecturas, por parte de un locutor no profesional masculino, de un conjunto de 200 frases en español. Para intentar conseguir frases semánticamente neutras estas frases se corresponden con 50 fragmentos breves, de carácter mayoritariamente descriptivo, de la obra El Señor de los Anillos (Tolkien, 1954). Cada uno de
estos 50 fragmentos son interpretados para simular tres estados emocionales diferentes:
alegría, enfado y tristeza. También se incluye una interpretación neutra, carente de estado emocional. Las grabaciones están almacenadas en formato WAV con una frecuencia de
muestreo de 16 KHz y una cuantificación de 16 bits/muestra. Las condiciones de grabación estaban controladas pero la grabación no se realizó en un estudio profesional.
Una evaluación subjetiva permite la validación de la expresividad del habla actuada desde un punto de vista de usuario (Montero et al., 1998a; Hozjan et al., 2002; Navas
et al., 2006; Morrison et al., 2007). Así pues, las 200 frases del corpus se someten a un test
subjetivo con la finalidad de observar los resultados de clasificación obtenidos por evaluadores humanos. El test se realiza sobre 35 personas de perfil heterogéneo. Entre los
evaluadores existen personas expertas en procesado de la señal de voz (dentro del campo
de la ingeniería) y también relacionadas con el estudio de las emociones (pertenecientes
al campo de la psicología), así como no vinculadas a ninguno de estos ámbitos. El test se
lleva a cabo mediante la herramienta TRUE. El test consiste en mostrar a cada uno de los
evaluadores, a través de la interfaz web, cada uno de los archivos de forma secuencial y
en orden aleatorio, mediante un test de respuesta forzada al planteamiento de la cuestión:
“¿Qué emoción crees que expresa el locutor en esta frase?” y ofreciendo las cuatro posibles opciones de clasificación (“Alegría”, “Tristeza’’, “Enfado” y “Neutro”) más una adicional para
seleccionar en caso de duda (“NS/NC”). En una fase previa al inicio del test, a cada usuario se le permite escuchar algunos de los archivos de audio como muestra de cada una de
las emociones sin que esta sea indicada en ningún caso. La finalidad de este paso previo
es familiarizar al evaluador con la voz del locutor ofreciéndole una referencia inicial e intentando, de este modo, minimizar los errores de clasificación que puedan cometerse al
inicio de la prueba.
La figura 3.4 muestra la matriz de confusión de los resultados del test subjetivo realizado. La figura representa, en porcentaje, la clasificación en cada una de las categorías
emocionales de los archivos pertenecientes a una misma emoción según las respuestas
de los evaluadores, es decir, la clasificación subjetiva de las frases de cada categoría emocional. Así, por ejemplo, se puede constatar que la emoción de enfado es la reconocida
con mayor exactitud, en tanto que el 96,22 % de las frases etiquetadas con esta categoría emocional se reconocen como tales y tan sólo un 3,78 % de las frases de las frases de
esta emoción reciben un etiquetado distinto (o no es identificado como ninguna de las
etiquetas emocionales consideradas). La tabla 3.1 muestra un análisis pormenorizado de
la clasificación subjetiva detallada por clases, recogiendo los detalles de la clasificación
del corpus según el test subjetivo descrito mostrando los valores de las medidas de preci-
56
3. Corpus y parametrización
Porcentaje de clasificación subjetiva
100
90
80
70
60
50
40
30
20
10
0
Alegría
Tristeza
Enfado
Alegría
84,72
0,50
1,44
Neutro
2,22
Tristeza
0,78
89,83
0,28
12,78
Enfado
1,00
0,28
96,22
0,28
Neutro
12,78
8,94
1,50
83,94
NS/NC
0,72
0,44
0,56
0,78
Clasificación real
Figura 3.4: Matriz de confusión de la clasificación subjetiva del corpus ESDLA.
sión, cobertura y medida F1 para cada una de las emociones estudiadas (véase la sección
4.3.4.1). En promedio, el porcentaje de casos correctamente clasificados considerando la
totalidad de evaluadores asciende al 88,68 %.
Tabla 3.1: Detalles, en porcentaje, de la clasificación subjetiva del corpus ESDLA especificados por
clases.
Precisión
Cobertura
F1
3.4.1.2.
Alegría
95,31
84,72
89,71
Tristeza
86,66
89,83
88,22
Enfado
98,41
96,22
97,30
Neutro
78,33
83,94
81,04
Parametrización
El corpus ESDLA se ha parametrizado acústicamente a nivel fonético y a nivel segmental (Planet et al., 2006). Contando con la transcripción fonética de cada una de las
locuciones del corpus, la segmentación de los archivos en fonemas y el análisis de los
mismos para calcular los descriptores de bajo nivel se ha llevado a cabo con el software
ITP15 (Alías e Iriondo, 2002). Este software también ha servido para la extracción de los
15
Interfície per al Tractament de la Parla (Interfaz para el Procesado del Habla, en catalán).
3.4. Corpus empleados en esta tesis
57
descriptores de bajo nivel en el caso de la división segmental, para la cual se han empleado ventanas de 20 ms. La segmentación en fonemas se lleva a cabo mediante la aplicación
de Hidden Markov Models (HMM)16 . El proceso de segmentación sitúa una serie de marcas temporales en un archivo de audio las cuales delimitan cada uno de los fonemas que
componen la grabación. Esta segmentación se obtiene de forma automática a partir de
la transcripción fonética de las frases, los archivos de audio y unos archivos de entrenamiento previos. No obstante, el proceso requiere de una supervisión manual posterior
para corregir la posición de algunas de las marcas de segmentación que pudieran no estar correctamente situadas. La transcripción fonética de las frases se obtiene a partir de
las transcripciones de las locuciones mediante un proceso automático gracias al software
específicamente diseñado para tal fin.
La medida de los silencios no supone una complicación especial en el caso de la
segmentación en fonemas, puesto que quedan identificados por la propia transcripción de
la frase y basta con observar la duración de los fonemas correspondientes a los silencios.
Sin embargo, si la frase ha sido dividida en segmentos de duración constante, cabe realizar un estudio de los mismos para intentar discernir los que se corresponden con silencios
de los que no lo son. El procedimiento para realizar esta distinción de forma automática
consiste en analizar las primeras tramas calculando el valor medio de energía puesto que
se sabe a priori que esta parte de la señal se corresponde con silencio. De forma heurística, se escoge un valor un 25 % superior al valor medio antes calculado como umbral para
determinar que aquellas tramas que estén por debajo del mismo son silencios. Adicionalmente, para hacer más robusto el sistema, se corrigen aquellos fragmentos únicos que son
considerados como silencios si están precedidos y seguidos por fragmentos no considerados así. De igual manera se corrigen aquellos fragmentos únicos que no son considerados
silencios y están precedidos y seguidos por fragmentos así considerados.
En el caso de la segmentación en fonemas se consideran 5 parámetros adicionales:
valores medio, máximo, mínimo y desviación estándar de las duraciones de los fonemas
y una medida relativa a la velocidad del habla en base a la relación entre la duración de
cada fonema y la duración media de ese fonema a lo largo de todo el corpus.
Siguiendo el trabajo de Oudeyer (2003), también se consideran dos versiones adicionales de los archivos de audio procesados mediante un filtrado paso-altas y otro pasobajas. Esto permite realizar un análisis más detallado en diferentes bandas espectrales
pudiendo observar el comportamiento de la señal en esas zonas. Los descriptores de bajo
nivel analizados son la F0 y la energía además de las duraciones de los silencios. Para la
F0 y la energía, además, se analiza la primera derivada para obtener también una medida
de la variación temporal de estos parámetros.
Los 12 funcionales estudiados en este corpus son el valor medio, extremos (valor
máximo y valor mínimo), diferencia entre los extremos, desviación estándar, mediana,
cuartiles, rango intercuartílico, asimetría y curtosis. Para el caso de los silencios se considera un parámetro adicional: la duración total de silencios en una locución.
16
Modelos Ocultos de Markov, en inglés.
58
3. Corpus y parametrización
Según las consideraciones anteriores, cada elemento del corpus se identifica por
188 parámetros tal y como se desglosa en la tabla 3.2. Por ejemplo, para la F0 se consideran
3 secuencias (original, filtrado paso-bajas y filtrado paso-altas), 2 funciones (original y
primera derivada) y los 12 funcionales antes detallados.
Tabla 3.2: Detalle de la parametrización del corpus ESDLA.
F0
Energía
Silencio
Duración
Total
Secuencias
3
3
3
1
Funciones
2
2
1
Funcionales
12
12
13
5
Total
72
72
39
5
188
3.4.2. Corpus BDP-UAB
El corpus BDP-UAB está orientado a la síntesis de voz en español y se ha desarrollado con un doble propósito: en primer lugar para ser empleado en el modelado acústico,
tanto a nivel prosódico como de VoQ, de la voz emocionada y, en segundo lugar, para ser
la base de datos de unidades para un sintetizador vocal. Este corpus se desarrolló por el
Grupo de Investigación en Procesado Multimodal (GPMM) de Enginyeria i Arquitectura
La Salle y el Laboratorio de Análisis Instrumental de la Comunicación de la Universidad
Autónoma de Barcelona (LAICOM-UAB). Para una explicación exhaustiva de este corpus
puede consultarse el trabajo de Iriondo et al. (2009) y su desarrollo completo detallado en
(Iriondo, 2008).
3.4.2.1.
Descripción
El corpus BDP-UAB es un corpus de expresión vocal estimulada (véase la sección
3.2.3) consistente en la lectura de textos por parte de una locutora femenina profesional y
cuyo contenido semántico está diseñado para facilitar su expresión emocional. Los textos
fueron seleccionados a partir de una base de datos de anuncios extraídos de medios de
prensa escrita, incluyendo diarios y revistas. Previamente, esta base de datos fue clasificada en varias categorías temáticas las cuales, en base al estudio previo llevado a cabo por
Montoya (1998), se consideran relacionadas con diferentes estilos expresivos. La locutora
fue previamente entrenada para adecuar su estilo expresivo a las emociones requeridas.
Las características fonéticas fueron definidas por los expertos del LAICOM-UAB. La grabación se llevó a cabo contando con supervisión experta para evitar posibles desviaciones
del estilo emocional definido para cada locución. En total, cuatro personas estaban involucradas en el proceso de grabación: la locutora profesional, un ingeniero de sonido, un
experto en comunicación audiovisual y un técnico de control para la supervisión. Los estilos emocionales recogidos en el corpus y sus categorías asociadas a los tipos de publicidad
que facilitan su interpretación son:
3.4. Corpus empleados en esta tesis
59
Neutro: asociado a la categoría de nuevas tecnologías, transmitiendo madurez y
seriedad.
Alegre: asociado a la categoría de educación, transmitiendo extroversión.
Sensual: asociado a la categoría de cosméticos, basado en una voz dulce, suave y
pausada.
Agresivo: asociado a la categoría de automóviles, basado en un estilo duro.
Triste: asociado a la categoría de viajes, transmitiendo una sensación de melancolía.
Para conseguir una selección fonéticamente equilibrada de las frases que forman
el corpus, dado su origen orientado a la síntesis de voz emocionada, su elección se lleva
a cabo mediante un algoritmo greedy (François y Boëffard, 2002), omitiendo frases con
excepciones (palabras extranjeras y con abreviaturas) y evitando frases similares entre sí.
Puede consultarse el detalle de la distribución fonética del corpus en (Iriondo et al., 2009)
La grabación de este corpus se lleva a cabo en un estudio de grabación profesional
acondicionado acústicamente para ofrecer condiciones óptimas de grabación y un alto
nivel de aislamiento. La sala de grabación de 20 m2 se distribuye en la superficie no cuadrada de una habitación de 3,5 metros de altura. A pesar de que la habitación cuenta con
un tiempo de respuesta de 0,8 segundos la posición del micrófono garantiza la ausencia
de ecos audibles en la grabación. Este micrófono es un micrófono de condensador de alta
calidad (AKG C-414), con una respuesta plana (2 dB en el margen de 20 Hz a 20 KHz) y
con una relación señal-ruido de 80 dBA SPL. La grabación digital de los archivos en formato WAV de 48 KHz y 24 bits se almacena en un disco duro empleando el software Pro
Tools 5.1 sobre una plataforma Mac G5 empleando una consola digital Yamaha 02R.
Tras un proceso semiautomático de segmentación del corpus y eliminación de las
frases grabadas incorrectamente o no adecuadas al estilo requerido, el volumen de información del mismo asciende a 4.638 locuciones sumando un total de 5 horas y 27 minutos
de grabación. 833 locuciones (50 minutos) se corresponden al estilo neutro, 916 locuciones
(56 minutos) al estilo feliz, 841 locuciones (51 minutos) al estilo sensual, 1.000 locuciones
(86 minutos) al estilo triste y 1.048 locuciones (84 minutos) al estilo agresivo.
Como en el corpus ESDLA (véase la sección 3.4.1.1), el corpus BDP-UAB también
es sometido a un proceso de evaluación subjetiva. Sin embargo, en este caso, dado el gran
tamaño del corpus, una evaluación subjetiva exhaustiva podría ser extremadamente costosa tanto a nivel temporal como de recursos humanos para llevarla a cabo. En ese sentido, Iriondo et al. (2009) proponen una evaluación subjetiva parcial que permite obtener
una representación de la percepción subjetiva (cuyos resultados se presentan a continuación) que puede ser empleada, posteriormente, para una validación automática del corpus
completo. Para el test subjetivo parcial se escogen un total de 480 locuciones (aproximadamente un 10 % del total, 96 locuciones por cada estilo emocional) y 25 voluntarios de
Enginyeria i Arquitectura La Salle como evaluadores subjetivos. Para evitar que cada sujeto
60
3. Corpus y parametrización
deba evalúar el total de 480 locuciones se crean 4 subconjuntos de 120 locuciones cada
uno. Un par ordenado de subconjuntos es asignado a cada evaluador creando 12 combinaciones diferentes. La creación de pares ordenados pretende evitar que los subconjuntos
que se evalúen en segundo lugar puedan recibir una mejor clasificación gracias al entrenamiento recibido al evaluar los que se hallan en primer lugar. La evaluación se lleva a
cabo en la plataforma TRUE mediante un test de respuesta forzada con la cuestión “¿Qué
emoción reconoces en la voz de la locutora en esta frase?”. Las posibles respuestas son los 5
posibles estados emocionales y uno adicional a seleccionar en caso de duda (“NS/NC”).
La figura 3.5 muestra la matriz de confusión de la clasificación subjetiva parcial del
corpus BDP-UAB. Se puede afirmar que, en general, todos los estilos expresivos muestran
un alto porcentaje de identificación (87,1 % en promedio). El estilo triste es el mejor identificado seguido por el sensual y el neutro. Los principales errores de identificación se
producen en el estilo agresivo (el 14,2 % de las locuciones agresivas se identifican como
alegres). Además, el estilo neutro se confunde ligeramente con el resto de estilos y también hay un cierto nivel de confusión entre los estilos sensual y triste (5,7 %). La opción
“NS/NC” se empleó en muy pocas ocasiones, aunque es más frecuente en los estilos neutro
y sensual que en el resto.
Porcentaje de clasificación subjetiva
100
90
80
70
60
50
40
30
20
10
0
Agresivo
Alegre
Triste
Neutro
Sensual
Agresivo
82,70
15,60
0,00
5,30
0,00
Alegre
14,20
81,00
0,00
1,30
0,10
Triste
0,10
0,10
98,80
0,70
5,70
Neutro
1,80
1,90
0,50
86,40
4,70
Sensual
0,10
0,20
0,60
3,60
86,80
NS/NC
1,10
1,20
0,10
2,70
2,60
Clasificación real
Figura 3.5: Matriz de confusión de la clasificación subjetiva del corpus BDP-UAB. Adaptado de
(Iriondo et al., 2009).
La figura 3.6 muestra dos histogramas que detallan la clasificación subjetiva de
las locuciones del corpus. El histograma (a) determina el número de locuciones que son
correctamente clasificadas en los porcentajes indicados. El histograma (b) determina el
3.4. Corpus empleados en esta tesis
61
número de locuciones que reciben la etiqueta “NS/NC” en los porcentajes también señalados.
400
140
350
120
300
100
250
80
60
<20%
30%
45%
60%
75%
% Identificación
(a)
90%
Frecuencia
160
200
150
40
100
20
50
0
0
2%
4%
6%
8% 10% 12% 14% 16% >16%
% "NS/NC"
(b)
Figura 3.6: Histogramas que reflejan la evaluación de las 480 locuciones de la prueba subjetiva. El
eje vertical muestra el número de locuciones que: (a) son correctamente clasificadas en el porcentaje
indicado en el eje horizontal, (b) reciben la etiqueta “NS/NC” en el porcentaje indicado en el eje
horizontal. Adaptado de (Iriondo et al., 2009).
3.4.2.2.
Parametrización
El corpus BDP-UAB está parametrizado acústicamente a nivel fonético. La segmentación en fonemas se llevó a cabo mediante el software ITP. El análisis acústico del corpus
proporciona, en este caso, dos tipos de parámetros: prosódicos y de VoQ. A nivel prosódico la parametrización incluye información relativa a la F0, energía y ritmo, tanto de la
función original como de las derivadas primera y segunda.
El análisis de F0 se basa en el marcador fonético descrito por Alías et al. (2006),
considerando tres versiones diferentes de cada locución: completa, excluyendo silencios
y sonidos sordos, y considerando únicamente vocales tónicas. La información relativa a la
sonoridad de los segmentos así como de los silencios y de las vocales tónicas se obtiene a
partir del etiquetado fonético de las locuciones. Esta medida se realiza siguiendo escalas
lineal y logarítmica.
El análisis de energía se realiza mediante ventanas rectangulares de 20 ms a intérvalos de 10 ms, calculando la energía media en escala lineal y en escala logarítmica (dB).
Al igual que en el caso de la F0, se consideran las tres secuencias antes descritas.
El análisis del ritmo se focaliza en la duración de los fonemas y el análisis de los
silencios. Para modelizar la duración de los fonemas se emplea la medida z-score descrita
en la sección 3.3.1.1. Tanto la media como la desviación estándar se estiman para cada
fonema a partir del corpus completo. Adicionalmente se calcula otra versión de las dura-
62
3. Corpus y parametrización
ciones considerando únicamente las vocales tónicas. Para analizar los silencios se calculan
el número de pausas por segundo y el porcentaje de tiempo de silencio con respecto a la
duración total de la locución. Ambos parámetros representan la frecuencia y la duración
de las pausas.
Los parámetros relativos a la VoQ han sido calculados mediante el software de
análisis Praat17 a partir de las grabaciones de audio realizadas y sin necesidad de emplear
dispositivos transductores invasivos o hardware adicional de acuerdo con la propuesta de
Drioli et al. (2003) y la implementación descrita por Monzo et al. (2007). Estos parámetros
incluyen las medidas de jitter, shimmer, GNE, HammI y do1000. Estos 5 parámetros son los
empleados por Monzo et al. (2007) para discriminar los 5 estilos de habla del corpus BDPUAB con unos resultados aceptables, si bien el estudio concluye indicando la necesidad
de incluir la información prosódica para mejorar los resultados.
El número de funcionales analizados en este corpus asciende a 11, incluyendo el
valor medio, la varianza, los extremos (valor máximo y valor mínimo), diferencia entre
los extremos, asimetría, curtosis, cuartiles y rango intercuartílico.
Según las consideraciones anteriores, cada elemento del corpus se identifica por
519 parámetros tal y como se desglosa en la tabla 3.3. Por ejemplo, para la F0 se consideran
2 unidades (lineal y logarítmica), 3 secuencias (completa18 , excluyendo silencios y sonidos
sordos, y considerando únicamente vocales tónicas), 3 funciones (original y primera y
segunda derivadas) y los 11 funcionales antes detallados.
Tabla 3.3: Detalle de la parametrización del corpus BDP-UAB.
F0
Energía
Duración
Pausas
VoQ
Total
Unidades
2
2
1
2
5
Secuencias
3
3
2
-
Funciones
3
3
3
-
Funcionales
11
11
11
11
Total
198
198
66
2
55
519
3.4.3. Corpus FAU Aibo
Para llevar a cabo un estudio de reconocimiento de emociones espontáneas en un
entorno realista es necesario trabajar con un corpus adecuado. Sin embargo, muchos de
los corpus existentes presentan inconvenientes como, entre otros, su escaso tamaño o el
reducido número de locutores presentes en la grabación que impide un análisis independiente del locutor (Steidl, 2009). El corpus FAU Aibo se crea con la intención de adecuarse
al escenario estudiado intentando evitar los inconvenientes anteriores y resulta en un cor17
18
http://www.praat.org
Por secuencia completa se entiende aquella que considera todos los segmentos.
3.4. Corpus empleados en esta tesis
63
pus no equilibrado, que incluye datos no prototípicos y locuciones de una baja intensidad
emocional.
La grabación del corpus FAU Aibo se financió por la Comunidad Europea en el
marco del proyecto Preparing Future Multisensorial Interaction Research (PF-STAR). Existen
dos versiones (Batliner et al., 2004), una en inglés (llevada a cabo por la Escuela de Ingeniería de la Universidad de Birmingham) y otra en alemán (llevada a cabo por la Universidad
Erlangen-Nürnberg). La última es la usada en esta tesis ya que fue distribuida por el comité organizador del Interspeech Emotion Challenge 2009 (Schuller et al., 2009).
3.4.3.1.
Descripción
El corpus FAU Aibo es un corpus de expresión vocal natural (véase la sección 3.2.1)
consistente en la recopilación de 9,2 horas de grabaciones en alemán correspondientes a
la interacción de 51 niños (30 niñas y 21 niños) con el robot Aibo, de Sony, en un escenario de Mago de Oz. Los niños y niñas, de edades comprendidas entre los 10 y los 13 años
de edad, pertenecían a dos escuelas distintas de Erlangen (Alemania), la Ohm-Gymnasium
y la Montessori-Schule. Las sesiones de grabación se llevaron a cabo en aulas separadas
asistidas por tres personas. Se empleó el equipo inalámbrico Shure UT 14/20 UHF con el
micrófono WH20TQG en combinación con el equipo de grabación DAT Tascam DA-P1, a
una frecuencia de muestreo de 48 KHz y cuantificación de 16 bits. De acuerdo con el estándar de reconocimiento automático de voz, las grabaciones se remuestrearon a 16 KHz.
Adicionalmente, aunque sin interés para el presente trabajo, se realizaron grabaciones en
vídeo de las sesiones con lente gran angular, a 25 fotogramas por segundo, en sistema
PAL. Estas grabaciones de vídeo contienen también una pista de audio con las mismas
locuciones almacenadas a través del micrófono inalámbrico pero con un mayor nivel de
ruido y reverberación.
Los experimentos llevados a cabo bajo el entorno de Mago de Oz consistían en pedir
a los niños y niñas que manejaran el robot mediante órdenes de voz para realizar diversas tareas en el menor tiempo posible (consúltese el trabajo de Steidl (2009) para mayor
información). A pesar de las instrucciones, el robot respondía a una secuencia programada de acciones con lo que no siempre realizaba las tareas dictadas. A diferencia de otros
experimentos llevados a cabo en entornos de Mago de Oz, en este caso los participantes
no tuvieron que pretender estar interesados en la tarea llevada a cabo sino que realmente disfrutaron realizándola (según los investigadores que llevaron a cabo el experimento
(Steidl, 2009)) y no supieron, en ningún momento, que el robot estaba siendo controlado
remotamente.
Las grabaciones se dividen en 18.216 fragmentos19 . Para permitir un análisis posterior independiente del locutor los fragmentos de ambas escuelas se agrupan por separa19
Los fragmentos en los que se divide el corpus FAU Aibo son segmentos de audio con significado completo
a nivel sintáctico y semántico. Se definen manualmente en base a criterios sintácticos y prosódicos (Schuller
et al., 2009).
64
3. Corpus y parametrización
do para crear dos conjuntos distintos e independientes, con grabaciones de niños y niñas
distintos. Así pues, las grabaciones de la escuela Ohm-Gymnasium (Ohm) conforman un
grupo de 9.959 locuciones correspondientes a 13 niños y 13 niñas, mientras que las grabaciones de la escuela Montessori-Schule (Mont) conforman un grupo de 8.257 locuciones
correspondientes a 8 niños y 17 niñas. Schuller et al. (2009) escoge el conjunto de locuciones (Ohm) como conjunto de entrenamiento de los algoritmos de reconocimiento afectivo
y el conjunto (Mont) como conjunto de prueba.
El corpus se divide originalmente en 11 categorías si bien la versión empleada en
este trabajo, acorde con la distribución de Schuller et al. (2009), reduce la división original
a 5 categorías afectivas en base al etiquetado recibido por un grupo de 5 anotadores según
el procedimiento detallado por Steidl (2009):
Enfado (etiquetado por la letra A, del inglés Anger), que incluye los estados de enfado (en el sentido de molesto), quisquilloso (irritado, como paso previo al enfado)
y reprensor.
Enfático (etiquetado por la letra E), estado caracterizado por un estilo de habla muy
articulado pero carente de emoción.
Neutro (etiquetado por la letra N).
Positivo (etiquetado por la letra P), incluyendo un estilo maternal (similar al habla
dirigida a los niños y niñas pero, en este caso, del niño o la niña dirigidos al robot)
y alegre (dado cuando el niño o la niña disfrutan de una situación concreta).
Resto (etiquetado por la letra R), una clase que incluye otros estados como los de
sorpresa (en un sentido positivo), aburrimiento (falto de interés por la interacción
con el robot) e impotencia (dubitativo, una locución llena de disfluencias y pausas).
La figura 3.7 muestra cómo se distribuyen los fragmentos del corpus FAU Aibo en
las 5 categorías anteriores. Como se puede apreciar, la distribución es poco equilibrada.
Así, por ejemplo, la clase mayoritaria (N) consiste en 10.967 locuciones (60,21 % del total)
mientras que la clase minoritaria (P) consiste en sólo 889 locuciones (4,88 % del total).
El corpus FAU Aibo cuenta un parámetro de afinidad prototípica (véase la sección
3.3.2.2) calculado en base a 5 anotadores involucrados en el proceso de validación. Este
parámetro puede tomar valores entre 0 y 1 y, para el caso de este corpus, los valores inferiores a 0,25 se asumen a 0, según se desprende de la observación del mismo. Dado que la
clase R se compone de varias emociones dispares la mayor parte de sus locuciones se asocian a un valor de afinidad prototípica igual a 0 (concretamente el 90 % de los fragmentos
que reciben esta etiqueta). El resto de casos de esta misma categoría tienen un valor de
afinidad prototípica muy bajo. Esto puede observarse en la figura 3.8, la cual muestra el
índice de ocurrencia, en porcentaje, de cada etiqueta categórica dentro de 10 intérvalos
3.4. Corpus empleados en esta tesis
65
Número de locuciones
6.000
5.000
4.000
3.000
2.000
1.000
0
Ohm
Mont
E
2.093
1.508
A
881
611
N
5.590
5.377
R
721
546
P
674
215
Etiqueta emocional
Figura 3.7: Distribución de clases del corpus FAU Aibo.
equiespaciados de prototipicalidad. Las otras 4 clases se distribuyen a lo largo de los diferentes valores de este parámetro pero sólo unos pocos casos (correspondientes a la clase
N en la mayor parte de las ocasiones) alcanzan un valor de afinidad prototípica igual a 1.
100
E
A
N
Índice de ocurrencia (%)
80
R
P
60
40
20
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
Intérvalos de afinidad prototípica
0,8
0,9
1
Figura 3.8: Índice de ocurrencia, en porcentaje, de cada etiqueta categórica dentro de cada intérvalo de afinidad prototípica. El margen de afinidad prototípica de 0 a 1 del eje horizontal aparece
dividido en 10 intervalos equiespaciados. Dado que los valores de afinidad prototípica inferiores
a 0,25 se asumen como 0, no hay ocurrencias en el intérvalo de 0,1 a 0,2 ya que se desplazan al
intervalo anterior.
66
3. Corpus y parametrización
3.4.3.2.
Parametrización
El corpus FAU Aibo está parametrizado a nivel acústico y a nivel lingüístico.
La parametrización acústica del corpus FAU Aibo está realizada a nivel segmental.
Dicha parametrización se realizó mediante el software openSmile incluido en el paquete
openEAR (Eyben et al., 2009).
A nivel acústico se extraen 16 descriptores de bajo nivel. Estos descriptores son: la
ratio de cruces por cero20 analizada en el dominio temporal de la señal de voz, la energía
cuadrática media de la ventana, la F0 normalizada a 500 Hz, HNR y 12 coeficientes MFCC.
Además de los parámetros originales se calcula la primera derivada de los mismos.
De estos descriptores se calculan 12 funcionales: valor medio, desviación estándar,
asimetría, curtosis, extremos, diferencia entre los extremos, posición de los extremos y dos
coeficientes de regresión lineal (offset y pendiente) y el error cuadrático medio asociado.
Según las consideraciones anteriores, cada elemento del corpus se identifica por
384 parámetros acústicos tal y como se desglosa en la tabla 3.4. Por ejemplo, para la F0 se
consideran 2 funciones (original y primera derivada) y los 12 funcionales antes detallados.
Tabla 3.4: Detalle de la parametrización del corpus FAU Aibo.
F0
Energía
ZCR
HNR
MFCC
Total
Unidades
1
1
1
1
12
Funciones
2
2
2
2
2
Funcionales
12
12
12
12
12
Total
24
24
24
24
288
384
La parametrización lingüística se basa en la transcripción de las locuciones del corpus proporcionada por sus desarrolladores y se fundamenta en el concepto de prominencia emocional y el cálculo de parámetros de activación detallado en la sección 3.3.2.1. El
análisis se realiza a nivel de palabra y a nivel morfológico tal y como se detalla a continuación. Cabe destacar la reducida longitud de las frases del corpus tal y como se ilustra en la
figura 3.9, la cual muestra un histograma de la longitud de las locuciones y su distribución,
en porcentaje, en el conjunto de entrenamiento.
A nivel de palabra, en este trabajo se ha realizado un análisis considerándolas individualmente (unigramas) y en agrupaciones de pares ordenados (bigramas). No se ha
considerado el análisis a nivel de palabra en forma de trigramas ya que los modelos podrían no estimarse adecuadamente (Steidl, 2009).
Asimismo, la parametrización lingüística también tiene en consideración la cate20
Del inglés, Zero-Crossing Rate (ZCR).
3.4. Corpus empleados en esta tesis
67
30
Porcentaje de casos
25
20
15
10
5
0
1
2
3
4
5
6
7
8
Número de palabras por locución
9
10
Figura 3.9: Histograma de la longitud de las locuciones y su distribución, en porcentaje, en el
conjunto de entrenamiento.
goría morfológica de cada palabra dentro de la locución en la que aparece mediante el
etiquetado POS21 de las locuciones del corpus. Este etiquetado se lleva a cabo mediante la
plataforma MARY TTS (Pammi et al., 2010). Posteriormente se realizan agrupaciones en
trigramas de estas etiquetas POS, creando grupos ordenados de tres etiquetas tal y como
proponen, de forma similar, Zhang et al. (2006).
En los casos de bigramas y trigramas se consideran delimitadores al inicio y al final
de las locuciones que permiten determinar la posición de las palabras iniciales y finales.
El proceso de creación de estas agrupaciones puede verse ilustrado en la figura 3.10.
En todos los casos (unigramas, bigramas y trigramas) la parametrización consiste
en la extracción de los 5 parámetros de activación descritos en la sección 3.3.2.1, uno para
cada una de las 5 categorías emocionales de este corpus. Para mantener la independencia
entre los conjuntos de entrenamiento (Ohm) y de prueba (Mont), la lista de elementos
emocionales empleada para su cálculo (aquellos que sobrepasan un determinado valor
umbral) se calcula considerando únicamente el conjunto de entrenamiento. Asimismo,
los parámetros de activación se calculan en ambos conjuntos pero considerando sólo los
valores de prominencia emocional y probabilidades a priori del conjunto de entrenamiento. Para determinar el umbral anterior se analizan las palabras más frecuentes, es decir, las
que más aparecen el conjunto de entrenamiento. Para ello se analiza el índice de ocurrencia de cada palabra definiendo como frecuentes aquellas cuyo índice se sitúa por encima
del tercer cuartil. La media de los valores de prominencia emocional de esas palabras
definen el valor umbral que, para este corpus es de 0,3.
21
Del inglés, Part-Of-Speech (POS) tagging.
68
3. Corpus y parametrización
Creación de bigramas
(a nivel de palabra)
INICIO
A
A
A
INICIO
C
B
B
Creación de trigramas
(a nivel de etiquetado POS)
B
C
FIN
C
FIN
A
INICIO
INICIO
A
B
C
B
A
B
C
FIN
B
C
FIN
Figura 3.10: Proceso de creación de los bigramas y trigramas para los elementos de las locuciones
del corpus. En esta figura se muestra, como ejemplo, una locución de 3 elementos (palabras o
etiquetas POS, según corresponda). Nótese la adición de las etiquetas delimitadoras al inicio y al
final de la locución.
El total de parámetros lingüísticos según la parametrización aquí detallada asciende a 15 parámetros (5 parámetros de activación para cada uno de los conjuntos de unigramas y bigramas a nivel de palabra y de trigramas a nivel POS).
3.5. Resumen
En este capítulo se han tratado las consideraciones generales para la creación de
corpus de voz emocionalmente coloreada, detallando cuatro tipos de expresión vocal:
natural, inducida, estimulada y actuada. Si bien la natural es la más realista, la actuada
permite un mayor control de las condiciones de grabación y del contenido del corpus,
siendo la inducida y la estimulada alternativas a medio camino entre las anteriores.
Asimismo, se han descrito diferentes parámetros que pueden ser extraídos de forma automática o semiautomática de los corpus de voz a dos niveles: acústico y lingüístico,
según se considere la señal de voz de forma aislada o bien se analice el contenido semántico de las locuciones grabadas.
Finalmente se han detallado los tres corpus estudiados en esta tesis, presentando
una descripción de los mismos y explicando los parámetros que, de cada uno, se han
extraído para su análisis en los experimentos desarrollados en los siguientes capítulos.
Capítulo 4
Estado de la cuestión
Las últimas décadas han sido testigo del crecimiento de los estudios de reconocimiento afectivo automático. El aumento de la potencia de cálculo de los ordenadores han
permitido analizar corpus más extensos y realizar análisis basados en conjuntos de parámetros cada vez mayores. Los principales objetos de análisis han sido la señal de voz,
la expresividad facial y las señales fisiológicas, si bien las dos primeras son modalidades
más fáciles de captar mediante sensores no invasivos.
En este capítulo se analizan algunos de los trabajos más relevantes en el ámbito del
reconocimiento afectivo basado en la señal de voz, objeto de esta tesis, sin dejar de observar algunos estudios importantes realizados en base a otras modalidades y su análisis
conjunto mediante técnicas de fusión. Se hace un recorrido por las primeras aproximaciones al reconocimiento automático hasta llegar a las tendencias en las que se basan estudios
más recientes, señalando también cuáles son las principales aplicaciones de estas investigaciones en ámbitos, a menudo, muy distintos entre sí.
4.1. Antecedentes del reconocimiento emocional
El reconocimiento afectivo automático ha llamado la atención de numerosos investigadores en las últimas décadas (Zeng et al., 2009). El trabajo de Suwa et al. (1978),
basado en el análisis de la expresividad facial, es uno de los primeros referentes en el
reconocimiento automático de emociones. De hecho, la emotividad facial ha sido siempre un referente en los análisis de emociones dada la claridad de su expresión tanto en
animales como en humanos, mostrándose además como un rasgo intercultural (Darwin,
1872). Sin embargo, no sólo la expresividad facial ha sido objeto de análisis en el pasado.
Trabajos como los de Williams y Stevens (1972) y Scherer (1979) son precursores en el establecimiento de unas referencias acerca de cómo las emociones se expresan a través del
habla.
69
70
4. Estado de la cuestión
En 1989, la herramienta The Affect Editor (Cahn, 1989) se convierte en una muestra
de cómo se puede realizar un análisis emocional a partir de la síntesis de voz con coloración afectiva. La herramienta es una aplicación de síntesis de voz que implementa un
modelo acústico del habla y genera las instrucciones para producir el efecto indicado mediante la modificación de cuatro categorías de parámetros. Las categorías se refieren al
tono, el ritmo, la VoQ y la articulación. El modelo acústico considera todos estos parámetros independientes entre sí. En los test perceptivos llevados a cabo sobre las locuciones
creadas mediante esta herramienta se documentó una tasa de reconocimiento de emociones básicas del 78,7 %. Sin embargo, el sintetizador de voz (al cual se adapta la parametrización del modelo acústico), y la incompleta descripción de los fenómenos acústicos y
perceptivos limitan la autenticidad de las emociones sintetizadas.
Intentado evitar los inconvenientes del sistema anterior, Rodríguez et al. (1999) presentan un modelo de la expresión emocional en español, posteriormente validado por
Iriondo et al. (2000). El estudio parte de la hipótesis que considera que la voz es susceptible
a las alteraciones fisiológicas producidas en el organismo al experimentarse una emoción.
Estudia siete emociones básicas: alegría, deseo, enfado, miedo, sorpresa, tristeza y asco.
En un análisis acústico posterior se observan los parámetros referentes a la F0, presión
sonora y ritmo y se estudia la representación gráfica de las locuciones en forma de oscilograma, curva de F0 y curva de presión sonora. De este estudio acústico se presentan
modelos válidos para seis de las siete emociones consideradas, siendo asco la que queda
fuera de la modelización propuesta. La validación de este modelo por Iriondo et al. (2000)
consiste en su aplicación a un conversor texto-voz capaz de modificar los parámetros antes
citados.
Sin embargo, aunque el trabajo de Iriondo et al. (2000) supone un avance importante respecto al considerado inicialmente por Cahn (1989)1 , el análisis afectivo es realizado
manualmente y no de forma automática. En el planteamiento de un modelo de reconocimiento adaptado a un sujeto de manera individual es inviable considerar la repetición de
un estudio como el antes indicado. Aún en el caso de pretender un reconocimiento genérico, readaptar el modelo anterior resultaría muy costoso. Es por esto que el planteamiento
lógico consiste en automatizar el proceso mediante técnicas de aprendizaje artificial como
las propuestas por Litman y Forbes-Riley (2003) y Oudeyer (2003).
El proyecto PHYSTA (Kollias y Piat, 1999), desarrollado entre los años 1998 y 2001,
es una muestra del interés por el desarrollo de un sistema artificial de descodificación
emocional mediante el empleo de técnicas de inteligencia artificial y redes neuronales.
Algunos de los trabajos desarrollados en el marco de este proyecto introducen la consideración de las emociones como elementos multidimensionales. Actualmente el campo del
análisis emocional basado en la señal de voz sigue siendo ampliamente investigado como
lo demuestra la red de excelencia financiada por la Unión Europea HUMAINE2.
1
En tanto que parte de un modelo acústico preciso partiendo del exhaustivo análisis realizado por Rodríguez et al. (1999).
2
http://emotion-research.net
4.2. Aplicaciones del reconocimiento emocional automático
71
Dadas las facilidades para el procesado de señales audiovisuales, tanto para la extracción de parámetros como para su posterior análisis mediante técnicas de aprendizaje
artificial, en la última década han aumentado los trabajos vinculados al reconocimiento
afectivo automático. El trabajo de Oudeyer (2003) es el primer trabajo a gran escala que
emplea técnicas de minería de datos para analizar un conjunto extenso de parámetros
vocales según diversos algoritmos de aprendizaje. Existen varios estudios que realizan
una recopilación y un análisis de trabajos llevados a cabo dentro de este ámbito como los
realizados por Cowie et al. (2001) y Pantic y Rothkrantz (2003), centrados en el análisis
de la expresión facial y vocal, y los más recientes realizados por Ververidis y Kotropoulos (2006) y Zeng et al. (2009), analizando también la expresión facial y vocal a excepción
del último que se centra en la expresión vocal unicamente. Existen, sin embargo, grandes
diferencias entre los estudios de reconocimiento que emplean corpus actuados y los que
emplean corpus espontáneos, así como también dificultades a la hora de comparar los diversos tipos de trabajos realizados dada la multitud de métricas, entornos y aplicaciones
en las que se fundamentan los diversos investigadores (Schuller et al., 2011).
4.2. Aplicaciones del reconocimiento emocional automático
Por lo general, la inclusión de inteligencia emocional en herramientas de inteligencia artificial puede mejorar los procesos de interacción persona-máquina (Picard et al.,
2001; Cowie et al., 2001). Sin embargo, esta afirmación es demasiado general. Se pueden
encontrar casos concretos en los que los estudios de reconocimiento afectivo automático
(o, en general, los intentos de reproducir el canal implícito de la comunicación humana en
sistemas automáticos) tienen un objetivo específico muy bien definido. Cowie et al. (2001)
describen varios campos de aplicación enumerándolos de los de ámbito más general a
los de ámbito más concreto: convergencia, interacción entre los canales de comunicación,
asistencia a la evaluación, desambiguación, producción, tutorías, desvío, alerta y entretenimiento. Si bien muchos estudios se llevan a cabo de forma general, una parte de los
mismos puede ubicarse dentro de los campos anteriores.
Convergencia e interacción entre los canales de comunicación. La detección del estado afectivo del usuario permite a una aplicación converger en una serie de parámetros
vocales, aspecto que en una comunicación entre humanos muestra simpatía y que, de no
producirse, denota indiferencia o falta de empatía. Por otra parte, el canal implícito indica
cómo debe considerarse el mensaje del canal explícito, dado que unas mismas palabras,
por ejemplo, pueden considerarse en serio o como un chiste según la manera en la que
se pronuncian. Una aplicación debe interpretar el canal implícito para poder gestionar
correctamente una conversación.
En este ámbito, cuyo objetivo es favorecer la comunicación fluida entre la persona
y la máquina, se circunscriben trabajos como los de Cañamero y Fredslund (2001); Lee
y Narayanan (2005); Maria y Zitar (2007); de Melo et al. (2010) o el descrito por Pous y
72
4. Estado de la cuestión
Ceccaroni (2010) en el marco del proyecto INterfaces de RElación entre el entorno y las
personas con DIScapacidad (INREDIS)3 .
Asistencia a la evaluación humana. Una de las aplicaciones del reconocimiento afectivo
automático es la valoración o el enjuiciamiento de una persona, por ejemplo en la asistencia médica en la detección de la esquizofrenia (McGilloway et al., 2003; Rapcan et al., 2010)
o en la detección de mentiras (Gadallah et al., 1999; Enos, 2009; Mihalcea y Strapparava,
2009). Sin embargo, existe controversia acerca de los sistemas comerciales destinados a
esta última aplicación (Eriksson y Lacerda, 2007).
Desambiguación. Dado que el estado afectivo modifica los rasgos prosódicos de la voz
y que estos también se ven afectados por el momento específico en el que se halla una
conversación (por ejemplo, en una fase inicial, de negociación o de acuerdo final), una
aplicación debe interpretar adecuadamente estas señales para reconocer el mensaje subyacente de la conversación. En el ámbito de una negociación, por ejemplo, no es lo mismo
negociar con un agente enfadado que con uno alegre y este comportamiento puede reflejarse también en la interacción persona-máquina (Broekens et al., 2010; Ochs y Prendinger,
2010; de Melo et al., 2011).
Producción. El reconocimiento afectivo puede emplearse para detectar y aprender las
sutilezas del habla emocionalmente coloreada para, posteriormente, aplicarlas en sistemas de síntesis de voz expresiva (Schröder et al., 2001; Přibil y Přibilová, 2009; Barra, 2011),
o bien para dotar de la expresividad adecuada a las locuciones generadas por sistemas de
conversión de texto a voz (Bhutekar y Chandak, 2012).
Tutores automáticos. En aplicaciones de formación y educación (sobre todo en las no
presenciales) puede resultar interesante disponer de tutores automáticos que guíen a los
alumnos a lo largo de su aprendizaje. En este tipo de aplicaciones, la identificación de su
estado afectivo permitiría determinar el nivel de comprensión de las materias y detectar si
los ejemplos propuestos son bien recibidos o, por el contrario, resultan confusos, aburridos o repetitivos (Litman y Forbes-Riley, 2003, 2006; Hollingsed y Ward, 2007; Litman et
al., 2012). De esta forma el sistema podría adaptar los contenidos de manera personalizada
a cada alumno en función de su estado.
Desvío. En aplicaciones que realizan tareas de funcionariado (asistentes personales,
proveedores de información, etc.) el reconocimiento afectivo puede derivar las peticiones
de los usuarios que escapan al dominio de la aplicación a otras aplicaciones o empleados
humanos preparados para manejarlas, o proporcionar nuevas respuestas adecuadas a la
3
Proyecto CEN-20072011 enmarcado en la iniciativa INGENIO 2010 del gobierno español.
4.3. Conceptos previos
73
situación detectada. Estas aplicaciones son de interés, por ejemplo, en centros de llamadas
(Morrison et al., 2007; Gupta y Rajput, 2007), o como un módulo adicional a los sistemas
de tutoría automática (Kapoor et al., 2007).
Alerta. En ocasiones es necesario alertar del estado afectivo de un individuo cuya atención está puesta en otras circunstancias, como por ejemplo un usuario de un servicio de
información que está en apuros (como el servicio desarrollado en el marco del proyecto
INREDIS), o bien es interesante detectar el estado afectivo de un individuo como medida
de seguridad (Bullington, 2005; Clavel et al., 2008; Wang y Fang, 2008).
Entretenimiento. El sector del entretenimiento sería, probablemente, la principal aplicación comercial del reconocimiento afectivo automático, pudiéndose emplear en videojuegos que reconozcan el estado emocional del jugador (Yildirim et al., 2011), que detecten
si el jugador se está aburriendo (Giakoumis et al., 2011), en “juegos serios” con aplicación,
por ejemplo, en tratamientos psicológicos (Kostoulas et al., 2012), personajes de mundos
virtuales (Gratch y Marsella, 2001), mascotas virtuales que adapten su actividad al estado
anímico de su dueño mostrando comportamientos más complejos y emulando empatía
(Picard, 2000) o robots que interpreten el estado emocional de su propietario (Oudeyer,
2003).
4.3. Conceptos previos
Como se ha visto en la sección 4.1 y como se verá a continuación con más detalle,
el reconocimiento afectivo automático puede ser abordado desde diferentes perspectivas.
Ello favorece múltiples planteamientos para un mismo tema que, a menudo, dificultan la
comparativa entre los distintos trabajos llevados a cabo en este ámbito de investigación.
Las dos arquitecturas predominantes en el reconocimiento afectivo automático son
el procesado dinámico de los descriptores de bajo nivel y el procesado estático usando información suprasegmental a través de la extracción de descriptores estadísticos de esos
mismos descriptores de bajo nivel (Schuller et al., 2009). Esta tesis se centra en el procesado estático, lo que supone el empleo de diversos algoritmos de aprendizaje (técnicas de
clasificación para estudios categóricos o de regresión para estudios dimensionales, habitualmente) los cuales deben ser analizados de forma adecuada. A continuación se detallan
algunos aspectos comunes en la mayor parte de los estudios de este ámbito.
74
4. Estado de la cuestión
4.3.1. Principales modalidades analizadas en el reconocimiento afectivo automático y procedimientos para su fusión
Existen estudios de reconocimiento afectivo automático basados en diversas modalidades si bien las tres principales son la señal de voz, la expresión facial y las señales
fisiológicas. Tal y como se ha detallado, a nivel vocal se pueden considerar análisis prosódicos, de VoQ e, incluso, a nivel léxico, extrayendo información del contenido del mensaje
expresado mediante el habla. Estas son modalidades propias del habla y su estudio, a pesar de estar centrado únicamente en la señal de voz, puede considerarse multimodal y
emplear técnicas de fusión propias de este ámbito.
De forma general, la multimodalidad entendida a nivel de expresión a través de señales distintas es una forma natural de comunicación (Oviatt, 2002; Sebe et al., 2005). Así
pues, un sistema podría reconocer el habla y los gestos del usuario para poder interactuar
con él a través de avatares virtuales capaces de sintetizar voz emocionada y expresar, de
forma visual, estados afectivos concretos. Oviatt (2002) define una serie de conceptos básicos relacionados con la multimodalidad entre los que destacan la diferenciación entre
modos de entrada activos (aquellos que son empleados intencionadamente por el usuario para dirigir una orden explícita a la interfaz) y los pasivos (los relacionados con la
conducta y las acciones que el usuario desarrolla de forma natural y que son reconocidos —idealmente mediante sensores no invasivos— por la interfaz, como por ejemplo la
expresión facial o la gesticulación manual), el concepto de interfaces multimodales mixtas (que incorporan al menos un modo de entrada activo y otro pasivo), las interfaces en
cascada (que procesan dos o más modos del usuario de forma secuencial en el tiempo),
y el concepto de desambiguación mutua (la que permite discriminar la información en
sistemas que cuentan con una modalidad propensa al error haciendo uso de otras modalidades más robustas). La figura 4.1 muestra el esquema de un sistema bimodal (Sebe et
al., 2005), si bien podría completarse añadiéndole otras modalidades como la táctil o la
relacionada con señales fisiológicas.
El análisis de las diversas señales de entrada es lo que se entiende por fusión multimodal4 . Ya sea el análisis de señales procedentes de diversos sensores o bien de aspectos
derivados de un mismo sensor, existen varias formas de realizar esta fusión. Zeng et al.
(2009) describen los tres tipos de fusión más representativos en estos trabajos:
Fusión a nivel de parámetros. También conocida como fusión temprana5 . Consiste
en fusionar los parámetros antes de que estos sean procesados por los algoritmos
de aprendizaje en una etapa posterior.
Fusión a nivel de decisión. También conocida como fusión tardía6 o a nivel de clasificadores. Consiste en procesar independientemente cada modalidad y luego fusio4
Por el contrario, la fisión multimodal hace referencia a la unión de diversos elementos a la salida del
sistema (voz sintética, gráficos, etc.).
5
Del inglés, early fusion.
6
Del inglés, late fusion.
4.3. Conceptos previos
75
Reconocimiento
del habla
Micrófono
...
Reconocimiento
afectivo
Posición de la
cabeza
Cámara
Expresión
facial
Dispositivo
Reconocimiento
gestual
...
Postura
corporal
Agente
animado
Voz sintética
Figura 4.1: Esquema de interacción persona-máquina bimodal. Adaptado de (Sebe et al., 2005).
nar los resultados en la etapa final. Lo más común es emplear una estrategia de stacking (véase también la sección 4.3.3.4). El método de stacking más simple es una votación que puede ser ponderada o no. Otras técnicas más complejas intentan aprender
una serie de reglas por parte de un clasificador específico (que recibe el nombre de
clasificador de nivel 1), que mejoren la clasificación de cada clasificador individual
(clasificadores de nivel 0) (Witten y Frank, 2005).
Fusión híbrida. Intenta combinar los beneficios de los dos tipos previos de fusión si
bien es un modelo menos explorado que los anteriores.
Tal y como se ha explicado, estas técnicas de fusión no son exclusivas para datos
procedentes de distintos sensores y pueden emplearse para fusionar información procedente de distintos análisis de una misma modalidad amplia como, por ejemplo, el habla,
tal y como se verá en las siguientes secciones. Además, técnicas como el stacking permiten también fusionar resultados de varios clasificadores que analizan un mismo conjunto
de datos pero en base a distintos planteamientos o mediante técnicas diferentes. En un
caso como este no se pretende fusionar la información de varios conjuntos de datos sino
76
4. Estado de la cuestión
aprovechar la redundancia de los clasificadores independientes para conseguir mayor robustez en el resultado a partir de su combinación (Bezdek et al., 1999).
4.3.2. Selección de parámetros
Los corpus, a menudo, cuentan con parametrizaciones exhaustivas que suponen
un gran volumen de datos. Este volumen se ve incrementado, además, si se incorpora el
estudio de diversas modalidades. Por otra parte, a un algoritmo de clasificación le puede
resultar difícil procesar un volumen muy grande de datos de forma eficiente y más si existe redundancia entre ellos. En muchas ocasiones, un número elevado de parámetros lleva
asociado un subconjunto de datos que podrían considerarse irrelevantes y ser eliminados sin que se degradara la tasa de clasificación o llegando, incluso, a mejorarla (Witten y
Frank, 2005). Existen técnicas que, de forma automática, pueden reducir la dimensionalidad de un conjunto de datos seleccionando los parámetros más relevantes. Estas técnicas,
de forma general, pueden seguir dos enfoques (Langley, 1994; Guyon y Elisseeff, 2003):
métodos de filtro7 y métodos de envoltura (o envolventes)8 .
Métodos de filtro. Se basan únicamente en las características de los datos. Los parámetros se seleccionan antes de iniciarse el proceso de aprendizaje mediante un
algoritmo específico. Esta selección es independiente del clasificador posterior. Un
ejemplo de método de filtro es el que sigue el criterio de mínima redundancia y
máxima relevancia (Minimal-Redundancy Maximal-Relevance (mRMR)) (Peng et al.,
2005), cuyo objetivo es seleccionar parámetros mutuamente excluyentes cuya relevancia sea lo mayor posible hacia la etiqueta categórica de cada caso.
Métodos de envoltura. Se crean subconjuntos de parámetros mediante un proceso
de búsqueda que después son evaluados mediante un clasificador específico. En este
caso la complejidad computacional es más elevada que en los métodos de filtro. Un
ejemplo de método de envoltura son los algoritmos de búsqueda voraz9 .
Muchos métodos de selección de parámetros en general y los de envoltura en particular llevan asociados una fase de búsqueda en el espacio de parámetros. Esta fase crea
subconjuntos de parámetros candidatos a ser los que mejor predicen la clase final. Es por
ello que se hace necesaria otra fase, la de evaluación, para medir la capacidad predictiva de estos subconjuntos. Esta fase de evaluación puede emplear el mismo clasificador
que se empleará posteriormente durante la explotación del sistema o bien un algoritmo
específico (Witten y Frank, 2005).
Uno de los métodos de búsqueda más habituales es el método de búsqueda voraz.
Estos métodos son iterativos y pueden ser incrementales o decrementales, dependiendo
7
Del inglés, filter methods.
Del inglés, wrapper methods.
9
Del inglés, greedy search.
8
4.3. Conceptos previos
77
de la dirección que se tome para recorrer el espacio de parámetros. Así pues, en cada
iteración se realiza un cambio local en el subconjunto actual añadiendo o eliminando un
parámetro. En la búsqueda incremental el proceso se inicia sin parámetros y se añade uno
en cada paso mientras que en la búsqueda decremental el proceso se inicia con el conjunto
de datos completo y se elimina uno en cada iteración. La fase de evaluación tiene lugar
en cada paso en el que se añade o se elimina, tentativamente, un parámetro, analizando
los subconjuntos resultantes. La fase de evaluación genera una medida del rendimiento
previsto de los subconjuntos. En cada paso se escoge el mejor y el proceso continúa. El
proceso se detiene cuando la adición o la eliminación de un parámetro, en los casos de
búsqueda incremental y decremental, respectivamente, no mejoran el rendimiento de los
subconjuntos. También puede considerarse una estrategia mixta que combine ambos métodos de búsqueda creando una de tipo bidireccional como la propuesta por Iriondo et al.
(2007b), en la que se define una estrategia de selección de atributos basada en una búsqueda voraz de p pasos hacia delante (fase de proceso incremental) y q pasos hacia detrás
(fase de proceso decremental). Esta estrategia se representa por el acrónimo pFW-qBW10 ,
siendo p y q dos números enteros positivos que verifican que p > q.
Otro método de búsqueda empleado habitualmente, y que proporciona buenos resultados en experimentos de reconocimiento afectivo (Oudeyer, 2003; Planet et al., 2006),
es el algoritmo genético que sigue el esquema clásico descrito por Goldberg (1989). En la
fase de evaluación vinculada a este método de búsqueda se puede emplear, nuevamente,
cualquier algoritmo de clasificación si bien puede resultar conveniente usar un algoritmo
que no sea el que finalmente se emplee como clasificador en el sistema de reconocimiento.
Empleando un clasificador distinto se puede crear un conjunto de datos óptimo en base a
alguna propiedad determinada y que sea, por lo tanto, más genérico, intentando así evitar que se cree un vínculo demasiado estrecho al clasificador escogido. En este sentido, el
algoritmo descrito por Hall (1998) permite evaluar los diferentes individuos de las poblaciones generadas por el algoritmo genético11 favoreciendo a aquellos cuyos parámetros
están altamente correlados con la clase y presentan, a la vez, una baja correlación cruzada. Este es el método escogido en los experimentos de la presente tesis en los que se aplica
este algoritmo genético.
4.3.3. Algoritmos de clasificación
Como se ha comentado al inicio de esta sección, en esta tesis se adopta el procesado
estático de los descriptores de bajo nivel. En los próximos capítulos se proponen algunas
estructuras de clasificación complejas basadas en algoritmos más sencillos los cuales también se analizan de forma independiente. A continuación se introducen algunos de estos
10
FW hace referencia a la fase de proceso incremental (del inglés, forward) y BW hace referencia a la fase de
proceso decremental (del inglés, backward).
11
En la terminología de la computación evolutiva una población es un conjunto de individuos que evoluciona según reglas similares a la evolución biológica. Aplicada en el ámbito de la selección de parámetros,
un individuo es un subconjunto concreto del conjunto de parámetros original.
78
4. Estado de la cuestión
algoritmos de clasificación, considerando aquellos que muestran una mayor adecuación
al estudio del reconocimiento afectivo automático según los trabajos realizados por diversos investigadores en el estado de la cuestión tal y como se recoge en la sección 4.4.
Las explicaciones aquí presentadas no pretenden ser exhaustivas sino que su intención
es servir como referencia y se remite al lector a las citas bibliográficas para obtener una
visión completa de estos algoritmos de clasificación.
4.3.3.1.
Árboles, reglas y tablas de decisión
Un árbol de decisión funciona evaluando los parámetros por los que se define un
caso a clasificar en cada uno de los nodos que forman el modelo. Los casos que, partiendo
de la raíz, llegan a una determinada hoja reciben la clasificación que esta indica. El algoritmo se puede expresar recursivamente y consiste en seleccionar un parámetro a partir del
cual hacer una subdivisión de los datos obteniendo tantos subconjuntos como valores posibles pueda tomar este. El proceso se repite iterativamente para cada división hasta que
todos los casos de una misma rama reciben la misma clasificación o se alcanza un umbral
predefinido. El algoritmo J4.8 (Witten y Frank, 2005) es un algoritmo de creación de árboles de decisión basado en entropía que adapta el algoritmo C4.5 (Quinlan, 1993). C4.5
es, a su vez, el resultado de una serie de mejoras del algoritmo ID3 (Quinlan, 1986) que,
para determinar los parámetros que definen cada uno de los nodos, utiliza los conceptos
de información y ganancia de información tal como se describe a continuación.
Sea S un conjunto de casos en el que se definen dos clases, P y N , sean p y n los respectivos números de casos de las clases anteriores, A el parámetro propuesto para definir
un nodo del árbol, v el número de subconjuntos de S que se forman en el nodo definido
por este parámetro, y pi y ni el número de casos del subconjunto Si (∀i ∈ [1, v]). La ganancia de información del parámetro A se denota por G(A) y se define por la ecuación
4.1. El parámetro que maximiza la expresión de G(A) definirá el nodo12 .
G(A) = I(p, n) − E(A)
(4.1)
n
p
n
p
log2
−
log2
p+n
p+n p+n
p+n
(4.2)
Donde:
I(p, n) = −
E(A) =
v
pi + n i
i=1
12
p+n
I(pi , ni )
(4.3)
Para que el algoritmo J4.8 pueda tratar parámetros numéricos se adopta una solución que permite divisiones binarias en los nodos (Witten y Frank, 2005).
4.3. Conceptos previos
79
Las reglas de decisión pueden considerarse, en parte, similares a los árboles antes
descritos (Witten y Frank, 2005) y, a menudo, se crean a partir de ellos. Un algoritmo
comúnmente empleado es el algoritmo PART (Frank y Witten, 1998) el cual crea reglas a
partir de árboles de decisión podados. Mediante esta poda se consigue reducir el número
de reglas creadas, por lo que presenta un buen rendimiento aún si el número de casos de
entrenamiento es elevado. Consiste en la creación de una regla que considera la hoja de
un árbol de decisión que cubre el máximo número de casos. A continuación se eliminan
todos aquellos que ya son abarcados por esta regla y se repite el proceso con los casos
restantes hasta que se ha iterado con todos los disponibles.
Por su parte, las tablas de decisión suelen ser un método rudimentario para representar la información de un algoritmo de aprendizaje y lo hacen representándola tal como
son los datos de entrada. No es trivial, sin embargo, determinar qué parámetros son irrelevantes para poder resumir dichas tablas. Así, por ejemplo, Kohavi (1995) describe un
algoritmo de creación de tablas de decisión que emplea un método de envoltura (véase
la sección 4.3.2) para determinar el mejor conjunto de parámetros que define la tabla de
decisión.
4.3.3.2.
Aprendizaje basado en casos
Los clasificadores basados en casos13 almacenan los casos del conjunto de datos de
entrenamiento convenientemente procesados (Aha et al., 1991). Para clasificar una nueva
muestra se emplea una función de distancia que evalúa qué caso o casos del conjunto de
entrenamiento son los más próximos a ella. Por eso suele referirse a ellos como algoritmos
k-Nearest Neighbour (KNN) o de los k vecinos más próximos. De forma general, la nueva
muestra se clasifica con la etiqueta mayoritaria de los k casos más próximos, aunque también es habitual considerar el valor concreto de k = 1 asignando a la nueva muestra la
etiqueta del caso más cercano.
La principal diferencia entre los algoritmos de este tipo es la función de distancia
escogida. Así, por ejemplo, es habitual el empleo de la distancia euclídea o de la distancia
Manhattan para medir la proximidad entre los casos, aunque pueden considerarse otras
como en el caso del algoritmo K* (Cleary y Trigg, 1995), que usa una función de distancia
basada en entropía.
4.3.3.3.
Clasificadores probabilísticos y basados en funciones
Naïve-Bayes es un clasificador probabilístico que parte de la premisa de que cada
par parámetro-valor de un mismo caso es independiente del resto14 . A cada par parámetrovalor se le asigna una probabilidad de pertenencia a una clase. Para ello se divide el nú13
14
Del inglés, instance based.
De ahí el nombre del clasificador: naïve (del inglés, ingenuo).
80
4. Estado de la cuestión
mero de casos de cada clase en los que aparece ese par entre el número de casos que
pertenecen a esa clase. Para clasificar un caso nuevo se calcula la probabilidad de pertenencia de ese caso a cada clase, clasificándolo en la clase donde dicha probabilidad sea
mayor adoptando un criterio de estimación Maximum A Posteriori (MAP). Esta probabilidad de pertenencia se calcula como el producto de la probabilidad de pertenencia a cada
clase de cada uno de los pares parámetro-valor que definen el caso a clasificar.
El algoritmo Naïve-Bayes se basa en la regla de Bayes de probabilidad condicional
expresada en la ecuación 4.4, la cual relaciona la probabilidad de la hipótesis H dada la
evidencia E a través de la expresión p(H|E) —en la que la hipótesis H es la clasificación
de un caso en una clase concreta y la evidencia E es la descripción de este caso definido
por E = (E1 , E2 , . . . , En ), donde Ei es cada uno de los pares parámetro-valor— con la
probabilidad de la evidencia dada la hipótesis p(E|H) y la probabilidad a priori de la
hipótesis p(H), siendo estas dos últimas probabilidades fácilmente calculables a partir la
observación de los casos ya conocidos y etiquetados tal como se ha descrito en el párrafo
anterior y como se describe en la ecuación 4.515 .
p(H|E) =
p(E|H)p(H)
p(E)
p(E|H) = p(E1 |H)p(E2 |H) . . . p(En |H)
(4.4)
(4.5)
En el caso de que algún parámetro sea numérico se le asume una distribución de
probabilidad normal, tal como se expresa en la ecuación 4.6, considerando que el parámetro Pi adopte el valor x, donde μ y σ son la media y la desviación estándar de la
distribución, respectivamente16 .
p(Pi = x|H) = √
−(x−μ)2
1
e 2σ2
2πσ
(4.6)
Otro método comúnmente empleado en experimentos de clasificación afectiva son
los clasificadores SVM. De forma resumida, se pueden describir como esquemas de clasificación que extienden las características de los modelos lineales permitiendo realizar
la distinción entre clases que presentan límites de decisión no lineales. Para ello se transforman los datos originales mapeándolos de forma no lineal en un nuevo espacio de dimensión superior. En este nuevo espacio se construye un modelo lineal que sea capaz
de representar un límite de decisión no lineal en el espacio original. Este modelo lineal
recibe el nombre de hiperplano de margen máximo y permite realizar la separación máxima entre los datos pertenecientes a dos clases diferentes. Las muestras más próximas al
hiperplano reciben el nombre de vectores de soporte.
El valor de p(E) no es relevante dado que se podrá ignorar al normalizar los resultados.
Sin embargo, esta asunción no es correcta en la mayoría de los casos y se comprueba una sustancial mejora
en los resultados de clasificación si los parámetros numéricos se discretizan previamente.
15
16
4.3. Conceptos previos
81
Asumiendo que la clase pueda tomar únicamente los valores {−1, 1} la expresión
del hiperplano de margen máximo es la descrita por la ecuación 4.7, donde yi es la clasificación de la muestra de entrenamiento ai y a es la muestra a clasificar. Ambas muestras
están expresadas como vectores y multiplicadas según el producto escalar. Los vectores ai
son los vectores de soporte. Los términos αi y b son parámetros a determinar por el algoritmo de entrenamiento abordando un problema de optimización cuadrática con restricciones, el cual puede ser realizado de forma eficiente si se adoptan algoritmos específicos
para este tipo de esquemas de aprendizaje como, por ejemplo, el de optimización secuencial mínima (Platt, 1998). K(x, y) es la función de transformación y recibe el nombre de
kernel. Su finalidad es transformar los datos para facilitar su separación por el hiperplano
de margen máximo. Puede ser de varios tipos siendo los polinómicos los más habituales.
x=b+
n
i=1 αi yi K(ai
· a)
(4.7)
Otros sistemas de clasificación habituales son las redes neuronales, y en menor
medida, los sistemas de regresión logística.
4.3.3.4.
Metamétodos
Los metamétodos son esquemas de clasificación que combinan las decisiones de
distintos modelos para asignar una única clase a cada caso clasificado. Los técnicas generales son bagging, boosting y stacking.
La técnica bagging17 intenta neutralizar la inestabilidad de un algoritmo de clasificación y consiste en crear, de forma aleatoria a partir del conjunto de datos de entrenamiento, subconjuntos con los que se crean diferentes modelos mediante su evaluación
con un clasificador específico. Cada modelo se valora igual que los demás y la clasificación final para una muestra consiste en escoger la más frecuente de las predichas por cada
modelo.
La técnica boosting intenta mejorar la precisión de un modelo de aprendizaje. El algoritmo descrito por Freund y Schapire (1996) es también iterativo pero en esta ocasión se
analiza el conjunto de datos completo y cada modelo construido tiene en cuenta el error de
los modelos anteriores. Para ello se asignan pesos iguales a todos los casos del conjunto de
entrenamiento y, en cada iteración, los pesos se actualizan según el error de clasificación
del modelo en función de si el caso se clasifica correcta o incorrectamente. Finalmente,
para realizar la predicción, los modelos son combinados usando un voto ponderado. El
peso de la predicción de cada modelo para una muestra se calcula en función del error de
clasificación e según la ecuación 4.8.
e = − log
17
Abreviatura de bootstrap aggregating.
e
1−e
(4.8)
82
4. Estado de la cuestión
La técnica stacking18 difiere de las dos anteriores en que, por lo general, no combina modelos creados con el mismo algoritmo de clasificación sino que se aplica a modelos
construidos a partir de clasificadores de nivel 0 distintos. Existen diversos métodos para
realizar esta combinación. Los dos más empleados son la técnica de voto mayoritario, en
la que la clase asignada a cada caso se corresponde con la que la mayor parte de los clasificadores asigna de manera individual, o empleando un clasificador adicional de nivel 1
que actúa de árbitro. Este clasificador se entrena de forma supervisada con los resultados
de clasificación individuales de los otros clasificadores para, posteriormente, asignar una
clase a cada nuevo caso.
4.3.4. Medidas del rendimiento de los algoritmos de reconocimiento
Los resultados de los algoritmos de aprendizaje responsables de realizar la clasificación de un conjunto de casos, lo que supone la asignación una etiqueta categórica
concreta a partir de un conjunto de casos previamente analizados, pueden ser medidos
conforme a diversas métricas. Las más habituales en estudios de reconocimiento afectivo
son las que se detallan a continuación.
4.3.4.1.
Métricas por categoría
Hay tres métricas principales para medir el rendimiento de un clasificador estudiando por separado cada categoría emocional: precisión, cobertura y medida F1. Estas
métricas a menudo suelen ser un dato informativo adicional a otras medidas como las tasas de clasificación globales, como sucede en los trabajos de Litman y Forbes-Riley (2003),
Grimm et al. (2007) y Busso et al. (2009).
Precisión. La precisión mide qué cantidad de información de la que devuelve el clasificador es correcta, expresada como el porcentaje de casos de una categoría concreta que
son correctamente clasificados respecto al total de casos que reciben (correctamente o no)
esa misma etiqueta categórica. La ecuación 4.9 muestra el cálculo de la precisión de la
categoría c donde V Pc representan los casos de esa categoría correctamente clasificados
(verdaderos positivos) y F Pc representan los casos de otras categorías que, incorrectamente, reciben esa etiqueta categórica (falsos positivos).
precisiónc =
V Pc
V Pc + F Pc
(4.9)
Cobertura. La cobertura mide cuánta información relevante ha extraído el clasificador,
expresada como el porcentaje de casos correctamente clasificados en una categoría res18
Abreviatura de stacked generalization.
4.3. Conceptos previos
83
pecto al total de casos que realmente pertenecen a esa categoría. La ecuación 4.10 muestra
el cálculo de la cobertura de la categoría c donde, en este caso, F Nc representa el número
de casos de esta categoría que reciben, incorrectamente, una etiqueta categórica distinta
(falsos negativos).
coberturac =
V Pc
V Pc + F Nc
(4.10)
Medida F1. La medida F1 intenta caracterizar el rendimiento de un clasificador mediante un único valor. Para ello se promedian de forma armónica los parámetros anteriores
según la ecuación 4.11. La ecuación 4.12 muestra la expresión genérica de la ecuación
anterior, según se desee otorgar un mayor peso a la medida de la precisión o a la de la
cobertura, para valores del parámetro β dentro de los números reales positivos. Así, un
valor de β = 2 supone que la cobertura se pondera con el doble de peso que la precisión
mientras que un valor de β = 0, 5 supone que la precisión se pondera con el doble de peso
que la cobertura.
2 × precisiónc × coberturac
precisiónc + coberturac
(4.11)
(1 + β 2 ) × (precisiónc × coberturac )
β 2 × precisiónc + coberturac
(4.12)
F1c =
Fβc =
4.3.4.2.
Métricas globales
Las métricas globales consideradas en esta tesis son la tasa de clasificación ponderada y la tasa de clasificación no ponderada. Ambas valoran, de forma general, el rendimiento de un clasificador en base al número de casos correctamente clasificados, si bien
presentan definiciones diferentes.
Tasa de clasificación ponderada — Weighted Average Recall (WAR). La tasa de clasificación ponderada, conocida por su acrónimo en inglés como WAR, se calcula como la
proporción de casos correctamente clasificados con respecto al número de casos totales,
tal y como se muestra en la ecuación 4.13. Determina, básicamente, el porcentaje de casos
que se clasifican correctamente. En este caso no se tiene en cuenta el análisis detallado por
clase ya que los verdaderos positivos (V P ) y los falsos negativos (F N ) hacen referencia a
la totalidad de los casos del conjunto de datos a clasificar.
WAR =
número de casos correctamente clasif icados
VP
=
V P + FN
número total de casos
(4.13)
84
4. Estado de la cuestión
En esta métrica prima el volumen de casos correctamente clasificados sin considerar si proceden de clases mayoritarias o minoritarias en el caso de conjuntos de datos no
equilibrados. Es la métrica más comúnmente empleada en los trabajos de reconocimiento
afectivo, como los de Polzin y Waibel (2000), Oudeyer (2003), Litman y Forbes-Riley (2003),
Hassan y Damper (2009) y, en general, de todos aquellos que analizan corpus equilibrados.
Tasa de clasificación no ponderada — Unweighted Average Recall (UAR). La tasa de
clasificación no ponderada, conocida por su acrónimo en inglés como UAR, a diferencia de
la WAR sí tiene en consideración el número de casos que componen cada clase de manera
que puede resultar más útil para medir el rendimiento de un clasificador que maneja un
conjunto de datos poco equilibrado. La ecuación 4.14 muestra el cálculo de esta medida,
donde |C| es el número de clases.
|C|
UAR =
c=1 coberturac
|C|
(4.14)
Cabe señalar que para el caso de un conjunto de datos equilibrado, es decir, con
el mismo o muy similar número de casos para cada clase, las medidas WAR y UAR son
idénticas. Esto no es así si el conjunto de datos no está equilibrado. La medida UAR, en
ese caso, calcula el rendimiento del clasificador valorando por igual todas las clases, ya
sean mayoritarias o minoritarias.
Los trabajos que emplean la medida UAR están asociados habitualmente a estudios
de corpus no equilibrados como, por ejemplo, los de Lee et al. (2009), Kockmann et al.
(2009) y Vogt y André (2009), todos ellos asociados al corpus FAU Aibo.
Diferenciación entre ambas tasas de clasificación. De forma general, un valor elevado
de WAR indica que un clasificador es capaz de clasificar correctamente un gran número
de casos, sin importar la clase a la que pertenezcan. Por otra parte, un valor elevado de
UAR indica que un clasificador es capaz de clasificar correctamente un gran número de
casos de cada clase. Un valor elevado para ambas medidas indica que un clasificador es
capaz de clasificar un gran número de casos y que, al mismo tiempo, lo hace de forma
óptima para cada clase. Si el valor de UAR es elevado pero no lo es el valor de WAR, es
señal de que el clasificador clasifica de forma óptima las clases minoritarias pero no las
mayoritarias. Por contra, si el valor de WAR es elevado pero no lo es el valor de UAR, es
señal de que el clasificador clasifica de forma óptima las clases mayoritarias pero no las
minoritarias.
La elección de una u otra métrica para comparar los rendimientos de los clasificadores dependerá de la aplicación y de la valoración que se haga de cada clase, no pudiéndose
considerar una mejor que otra de forma general.
4.3. Conceptos previos
85
4.3.5. Métodos de evaluación de los algoritmos de reconocimiento
La evaluación de los sistemas de clasificación es un punto delicado pues un diseño
incorrecto puede implicar un resultado demasiado alejado del rendimiento que el sistema
realmente presentaría en su entorno de explotación. Así, por ejemplo, un sistema evaluado con los mismos datos que se han empleado para su entrenamiento resultará en una
tasa de clasificación posiblemente superior a la que se hubiera obtenido empleando datos
distintos. Existen varias técnicas estadísticas destinadas a evaluar de forma adecuada los
sistemas de clasificación, de las cuales a continuación se detallan las más empleadas en
los trabajos de reconocimiento afectivo automático.
La validación cruzada de varias iteraciones19 consiste en dividir el conjunto de datos en k subconjuntos. En un proceso iterativo, cada uno de estos subconjuntos se reserva
para probar el sistema de clasificación que se entrena con los k − 1 subconjuntos restantes. El proceso se repite k veces y el rendimiento final se obtiene como el promedio de
los rendimientos intermedios. Esta técnica se emplea en estudios como los de Litman y
Forbes-Riley (2003) y Oudeyer (2003). Un caso extremo de esta técnica, la validación cruzada dejando uno fuera20 , consiste en considerar el valor de k igual al número de elementos
del conjunto de datos de manera que en cada iteración sólo un dato se emplea para probar
el clasificador entrenado con el conjunto completo excepto el dato reservado para prueba.
Por ejemplo, Chen et al. (1998) y Luengo et al. (2005) emplean esta técnica. En el extremo
opuesto se halla el caso de considerar el valor de k = 2, el cual crea sólo dos subconjuntos
de datos empleando uno de ellos para entrenamiento y el otro para prueba. En este caso,
la división no necesariamente crea dos subconjuntos homogéneos, como por ejemplo los
trabajos derivados a partir del de Schuller et al. (2009).
En sistemas de reconocimiento en los que se consideran datos de distintos locutores a menudo se emplea una variante del método de validación cruzada en el que se
crean tantas subdivisiones como locutores, creando un sistema de validación cruzada independiente del locutor21 . De esta forma se garantiza que el conjunto de datos de prueba
no contiene información de los locutores del conjunto de datos de entrenamiento. Así,
si un conjunto de datos contiene información de x locutores, los casos de uno de ellos
se usa para probar el sistema de clasificación y los casos de los x − 1 locutores restantes
se emplean para entrenarlo previamente. Este proceso se repite para todos los locutores.
Esta es la técnica empleada, por ejemplo, por Ruvolo et al. (2008), Lee et al. (2009) y Kotti
et al. (2010). En estudios de reconocimiento afectivo este sistema se puede llevar un paso más lejos y crear subconjuntos considerando también las categorías emocionales, lo
que supondría un esquema de validación cruzada independiente de los sujetos y de las
emociones (Truong y van Leeuwen, 2007).
19
Del inglés, k-fold cross-validation
Del inglés, leave-one-out cross-validation
21
Del inglés, Leave One Speaker Out (LOSO).
20
86
4. Estado de la cuestión
4.4. Estudios de reconocimiento emocional basados en la señal
de voz
La voz es una modalidad importante en la comunicación humana y lleva asociada
información afectiva tanto en el canal explícito (referente al ámbito lingüístico) como en
el implícito (referente al ámbito paralingüístico) (Zeng et al., 2009). A nivel lingüístico,
la información emocional puede detectarse en las propias palabras, por lo que se pueden
crear diccionarios afectivos (Plutchik, 1980; Whissell, 1989). Sin embargo algunos estudios
determinan que la información lingüística no es siempre un medio fiable para determinar
los estados afectivos (Ambady y Rosenthal, 1992) siendo, además, altamente dependiente
del idioma y dado el empleo subjetivo que puede hacerse del vocabulario (Furnas et al.,
1987). En cuanto al nivel paralingüístico, no existe un conjunto concreto de parámetros
que permita realizar una discriminación efectiva entre diversos estados afectivos (Zeng
et al., 2009), si bien algunas emociones básicas pueden discernirse en base a parámetros
prosódicos (Juslin y Scherer, 2005) y algunas no básicas pueden interpretarse a partir de
elementos no lingüísticos (como, por ejemplo, risas o bostezos) (Russell et al., 2003). Sin
embargo, en un entorno realista, la información acústica por sí sola podría no ser suficiente
para realizar un reconocimiento afectivo automático de forma eficaz (Batliner et al., 2003).
Muchos de los estudios de reconocimiento afectivo automático se basan en grabaciones realizadas por actores lo que, a menudo, no favorece el análisis de la correlación
existente entre los elementos paralingüísticos y el contenido lingüístico (Zeng et al., 2009).
Es por ello que se realizan cada vez más estudios basados en grabaciones naturales (como
centros de llamadas, escenarios de Mago de Oz y sistemas de diálogo en general) mediante
el uso de diversos algoritmos de clasificación (Koolagudi y Rao, 2012). Las dos secciones
siguientes profundizan en el estado de la cuestión de ambas perspectivas.
4.4.1. Reconocimiento emocional de emociones actuadas
En la mayor parte de los estudios de reconocimiento afectivo automático basados
en corpus actuados, las tasas de reconocimiento acostumbran a ser muy elevadas, de alrededor del 90 % de WAR en los estudios más recientes, si bien se trata de estudios dependientes del locutor y con grabaciones de emociones plenas en la mayoría de las ocasiones.
A continuación se detallan algunos trabajos en los que se aprecia la evolución en el planteamiento de los experimentos de reconocimiento afectivo así como también de los resultados que se obtienen, obsérvandose, como principal elemento diferenciador de los más
recientes respecto a los más antiguos, que se consideran conjuntos de parámetros mucho
más extensos y se realizan pruebas con un abanico mayor de algoritmos de aprendizaje.
El trabajo de Banse y Scherer (1996) pretende mostrar cómo los humanos pueden
determinar estados emocionales a partir, únicamente, de la expresión vocal, sin pretender realizar un experimento de reconocimiento afectivo automático tal y como se entiende
en la actualidad. Su experimento parte del análisis de un corpus de expresión vocal ac-
4.4. Estudios de reconocimiento emocional basados en la señal de voz
87
tuada grabado por 12 actores alemanes pronunciando textos carentes de significado y
representando un total de 14 estados afectivos. Considerando su diseño, el corpus está
formado por 1.344 locuciones (agrupadas posteriormente en 280 conjuntos) parametrizadas mediante 29 parámetros acústicos. En el estudio se presenta una comparación entre
el reconocimiento emocional realizado por un grupo de evaluadores humanos y dos procedimientos de clasificación estadística. La tasa de reconocimiento por parte de los jueces
humanos se sitúa alrededor del 50 %, así como de manera similar también lo hacen los
procedimientos estadísticos, si bien no existe un mapeo entre el reconocimiento humano
y el estadístico cuando se analizan las clases emocionales por separado.
Polzin y Waibel (2000) realizan un experimento de reconocimiento afectivo automático basado en un corpus creado a partir de frases extraídas de películas en inglés
relativas a 3 estados emocionales: tristeza, enfado y estado neutro. La parametrización
se realiza a nivel verbal (calculando la probabilidad de una palabra dadas las palabras
anteriores) y a nivel oral (8 parámetros relativos a la prosodia y a la VoQ y 32 coeficientes cepstrales seleccionados automáticamente de un conjunto mayor). El experimento se
configura en base a dos subconjuntos de datos, uno de entrenamiento y otro de prueba.
El estudio compara una clasificación subjetiva (70 % de tasa de reconocimiento) y la realizada automáticamente según los tipos de parámetros de forma independiente (60,4 %
según la información prosódica y de VoQ, 63,9 % según la información cepstral y 46,7 %
según la información verbal).
McGilloway et al. (2000) presentan un estudio de reconocimiento afectivo automático en el que se extraen descriptores de bajo nivel y funcionales que van más allá de los
conjuntos estándar (incluyendo, por ejemplo, distribuciones de intensidad y longitudes de
segmentos silábicos). Estos descriptores son mayoritariamente prosódicos y son extraídos
mediante el sistema Automatic Statistical Summary of Elementary Speech Structures (ASSESS).
También, a diferencia de otros estudios, es de los primeros en emplear técnicas de minería de datos para analizar los conjuntos de datos. El conjunto de técnicas empleadas se
reduce a 3 algoritmos analizados mediante una validación cruzada de 10 iteraciones y la
parametrización es de 32 parámetros. El corpus utilizado es de expresión vocal estimulada recogiendo locuciones de 40 voluntarios leyendo textos emocionalmente coloreados y
procedentes de recortes de prensa para representar 5 emociones básicas: enfado, alegría,
miedo, tristeza y estado neutro, con un total de 197 frases. La tasa de clasificación oscila
entre el 21 % y el 55 %.
Breazeal (2002) emplea un clasificador de varias etapas basado en Gaussian-Mixture
Models (GMM). El corpus son locuciones grabadas por dos locutoras representando 5 estados afectivos relacionados con la interacción con un robot (aprobación, demanda de
atención, prohibición, confort y estado neutro), con un total de 726 locuciones (145 por
clase, aproximadamente) de las que se extraen 12 parámetros prosódicos. El experimento
se plantea mediante una validación cruzada de 100 iteraciones aunque para la evaluación
final del sistema se crea un nuevo conjunto de datos de 371 locuciones que se emplea únicamente como conjunto de prueba tras el entrenamiento del modelo de reconocimiento.
La tasa de reconocimiento asciende a un 81,9 %.
88
4. Estado de la cuestión
Oudeyer (2003) realiza un experimento pionero, a gran escala, de reconocimiento automático empleando un corpus grabado por 6 actores profesionales pronunciando
frases de uso diario, tales como “Hola” y “¿Cómo estás?” (lo que supone un planteamiento más natural que el del trabajo presentado por McGilloway et al. (2000)), en 4 estados
emocionales distintos: alegría, tristeza, enfado y estado neutro. En total se consideran 200
frases por locutor y por emoción, lo que resulta en un corpus de 4.800 frases que, parametrizadas acústicamente, crean un conjunto de datos de 200 parámetros por frase, siendo
uno de los primeros estudios en contar con un corpus de tales dimensiones y que emplea,
posteriormente, una amplia diversidad de técnicas de minería de datos para su análisis
mediante la herramienta WEKA (Witten y Frank, 2005)22 . El experimento se configura
mediante una validación cruzada de 10 iteraciones y analiza un total de 19 algoritmos de
aprendizaje. Los resultados, considerando la totalidad de los parámetros, oscilan entre
un 81 % y un 95,7 % de tasa de reconocimiento. Al mismo tiempo, el estudio propone una
reducción de parámetros mediante un algoritmo genético como el descrito en la sección
4.3.2. Con el conjunto de datos reducido a 15 parámetros los resultados son similares si
bien el conjunto de datos empleado es más de 10 veces menor que el original. Asimismo, el
trabajo plantea un sencillo algoritmo que permite el entrenamiento del sistema de forma
interactiva e incremental implantándolo en un robot de tipo Aibo, de Sony, o Papero, de
NEC. Gracias a este algoritmo, el robot está continuamente a la escucha de las indicaciones de un usuario las cuales clasifica de forma automática y muestra el resultado de esta
clasificación mediante un sistema de LEDs. El usuario debe entonces señalar mediante
indicaciones de voz si la clasificación ha sido realizada con éxito o no, lo que proporciona
una realimentación al robot que realiza un nuevo entrenamiento con la nueva locución.
Luengo et al. (2005) proponen un estudio basado en un corpus en euskera grabado
por una actriz de doblaje representando 6 emociones básicas: enfado, miedo, sorpresa, asco, alegría y tristeza. Una evaluación subjetiva previa muestra una tasa de reconocimiento
superior al 70 % para las distintas emociones excepto la de asco, que también es difícil de
reconocer en otros idiomas (Rodríguez et al., 1999; Burkhardt y Sendlmeier, 2000). Del
corpus se extraen 86 parámetros prosódicos y de VoQ. El experimento consiste en tres
sistemas de clasificación, dos de ellos basados en GMM y otro basado en SVM. Para evaluar estos modelos se emplea una validación cruzada de 5 modelos dejando uno fuera.
La tasa de reconocimiento alcanza el 98,4 %, siendo del 92,3 % estudiando únicamente
parámetros prosódicos.
Barra et al. (2007) realizan un estudio sobre dos corpus actuados, uno en español: el
corpus Spanish Emotional Speech (SES) (Montero et al., 1998b) consistente en 30 palabras, 15
frases cortas y 4 párrafos, y otro en alemán: la Berlin Database of Emotional Speech (EMODB)
(Burkhardt et al., 2005) consistente en 800 frases cortas. El primero representa 3 emociones
básicas (tristeza, alegría y enfado) y el segundo 7. La parametrización de ambos corpus
consiste en la extracción de coeficientes MFCC. El modelo de clasificación se basa en GMM
22
WEKA es una librería que recoge implementaciones en Java de un gran número de algoritmos de aprendizaje desarrollada por la Universidad de Waikato, Nueva Zelanda. Su nombre es el acrónimo de Waikato
Environment for Knowledge Analysis.
4.4. Estudios de reconocimiento emocional basados en la señal de voz
89
con un bajo número de distribuciones. El corpus SES obtiene una tasa de reconocimiento del 89,98 % (en un test subjetivo esta tasa es del 90,20 %), empleando parte del corpus
para entrenamiento y otra parte para prueba, mientras que el corpus EMODB se evalúa
mediante una validación cruzada independiente del locutor obteniendo una tasa de reconocimiento (incorporando técnicas de normalización de los datos) del 51,33 % (en un test
subjetivo esta tasa es del 86,08 %).
Hassan y Damper (2009), analizando el corpus EMODB, obtienen una tasa de reconocimiento de hasta el 90 % considerando 4 emociones básicas de las 7 de las que consta el
corpus y de hasta el 70,8 % considerando las 7 emociones del corpus completo, empleando una validación cruzada de 10 iteraciones, un algoritmo de tipo KNN y la selección
automática previa de los parámetros acústicos más relevantes mediante un algoritmo de
búsqueda voraz incremental. Empleando diferentes configuraciones y corpus, otros estudios obtienen resultados elevados como (Shami y Verhelst, 2007), con una tasa del 80,7 %
sobre el corpus EMODB, y (Shaukat y Chen, 2008), con una tasa del 89,7 % sobre el corpus
Serbian emotional speech database (Jovičić et al., 2004).
Como se puede observar, la disparidad de los corpus empleados (varios tamaños
y distintas emociones consideradas), la variedad de parametrizaciones, los diferentes métodos de clasificación y los distintos métodos de evaluación de los mismos, hacen complicada la comparativa entre los resultados obtenidos. Este hecho también se verá reflejado
en los estudios relacionados con emociones espontáneas.
4.4.2. Reconocimiento emocional de emociones espontáneas
Tal y como indican Zeng et al. (2009), cada vez es más frecuente realizar estudios
basados en grabaciones naturales de voz. Sin embargo, en los datos recopilados de una
interacción natural los estados afectivos son, a menudo, más sutiles y las emociones plenas
raramente se manifiestan. Por este motivo, es habitual que los estudios se centren en el
reconocimiento de estados afectivos más amplios como, por ejemplo, positivos y negativos
(Litman y Forbes-Riley, 2004; Lee y Narayanan, 2005; Neiberg et al., 2006), para simplificar
el problema. Por ejemplo, Ang et al. (2002) recogen 6 estados afectivos pero finalmente sólo
trabajan con 2: negativo y otros. A continuación se detallan algunos trabajos enmarcados
en esta línea de investigación de los que se desprende que el reconocimiento de emociones
espontáneas es más complejo dada la propia naturaleza de los datos y, por lo tanto, las
tasas de reconocimiento son bastante inferiores a las de estudios de emociones actuadas,
incluso en los trabajos más recientes. Cabe señalar que, salvo en las ocasiones señaladas,
las tasas de reconocimiento se corresponden con la media ponderada (WAR).
Slaney y McRoberts (1998) llevan a cabo uno de los primeros estudios que analiza
emociones no actuadas en un contexto natural, si no el primero en hacerlo (Batliner et al.,
2011). En este trabajo se estudia un corpus de voz formado por grabaciones de 12 padres (6
madres y 6 padres) dirigiéndose a sus hijos de entre 10 y 18 meses de edad en un entorno
lúdico. Las locuciones se agrupan en 3 categorías: aprobación (212 locuciones), atención
90
4. Estado de la cuestión
(149 locuciones) y prohibición (148 locuciones). Asimismo, las locuciones se evalúan subjetivamente para determinar el grado de pertenencia a cada categoría. Las locuciones se
analizan en su totalidad y fragmentándolas en tres tercios, extrayendo descriptores de bajo nivel relativos a F0, información cepstral y energía. Los funcionales calculados varían
tanto en número como en tipo. La parametrización final es de sólo 8 parámetros. El algoritmo de clasificación se basa en GMM evaluado mediante una validación cruzada de
100 iteraciones y se emplea un algoritmo de búsqueda voraz incremental para determinar el número óptimo de parámetros. La tasa de reconocimiento se sitúa alrededor del
65 %, siendo mejor la identificación de las categorías en el caso de las mujeres que la de
los hombres.
Batliner et al. (2000) realizan un estudio a partir de 20 diálogos recopilados a través de un sistema de Mago de Oz simulando un sistema de funcionamiento erróneo para
estimular enfado en los usuarios. Las categorías en las que se agrupan las locuciones son:
emocional y no emocional. La parametrización recoge 27 parámetros acústicos y se incluye información lingüística a efectos de comparación. Se estudian tres tipos algoritmos de
clasificación: análisis de discriminante lineal, árboles de regresión y un perceptrón multicapa. Los dos primeros algoritmos se evalúan mediante validación cruzada y el tercero
mediante dos subconjuntos diferentes para entrenamiento y prueba. La tasa de clasificación oscila entre el 63 % y el 71 %.
El trabajo de Lee et al. (2001) se centra en el reconocimiento afectivo automático
basado en el análisis acústico de un corpus que recoge locuciones de usuarios reales de
un centro de llamadas. El número total de locuciones asciende a 7.200. Las categorías en
las que se agrupan son negativas (incluyendo enfado y frustración) y no negativas (incluyendo felicidad y deleite, a pesar de que la mayoría son neutras según una evaluación
subjetiva). La parametrización recoge parámetros relativos a F0 y energía, reducidos posteriormente mediante un análisis de componentes principales y un algoritmo de búsqueda voraz incremental. La clasificación analiza clasificadores de discriminante lineal y de
tipo KNN evaluados mediante un proceso de validación cruzada dejando uno fuera. En
el mejor de los casos, el error de clasificación se sitúa entre el 20 % y el 25 %, siendo mejor
el reconocimiento en el caso de las mujeres que de los hombres. Posteriormente, Lee y
Narayanan (2005) presentan uno de los primeros trabajos en los que no sólo se estudia el
contenido acústico de las locuciones de un corpus (derivado del corpus del estudio anterior) sino que combina 3 tipos de información: acústica, léxica y referente al discurso. El
conjunto de parámetros acústicos se optimiza mediante el análisis de diversos subconjuntos y el análisis de componentes principales, y procede de la información de 21 parámetros
relativos a F0, energía, duración y frecuencias de los formantes. La información léxica se
extrae a partir del concepto de prominencia emocional (véase la sección 3.3.2.1). La información de discurso procede de la categorización del tipo de respuesta de los usuarios (por
ejemplo, reformulación o repetición, entre otras). La fusión se realiza a nivel de clasificadores, después de clasificar independientemente cada conjunto de parámetros, mediante
un sencillo promedio. El estudio vuelve a analizar clasificadores de discriminante lineal y
de tipo KNN. En esta ocasión, sin embargo, los algoritmos se evalúan mediante una vali-
4.4. Estudios de reconocimiento emocional basados en la señal de voz
91
dación cruzada de 10 iteraciones, distinguiendo entre locutores masculinos y femeninos.
El estudio marca el error de clasificación que, en el mejor de los casos, es del 7,95 % para
el caso las locutoras y del 10,55 % para el caso de los locutores.
Litman y Forbes-Riley (2003) realizan un estudio centrado en sistemas de tutoría
en el mundo docente. Se analiza un corpus de 202 locuciones de 2 hombres y 2 mujeres
interactuando, a través de una interfaz web, con un tutor humano. El análisis se lleva a
cabo a nivel acústico (33 parámetros) y se incorporan 3 identificadores de contexto a cada
locución (incluyendo un identificador del usuario y su sexo). Se consideran 3 categorías
emocionales: positivo (15 locuciones), neutro (145 locuciones) y negativo (42 locuciones).
Se estudian distintas agrupaciones de parámetros con 4 algoritmos de clasificación: un
árbol de decisión J4.8, uno de tipo KNN, uno de máxima verosimilitud (ZeroR) como
referencia y un algoritmo de boosting con el árbol J4.8 como algoritmo débil. La evaluación
se realiza mediante una validación cruzada de 10 iteraciones. El mejor resultado obtenido
considera los 3 identificadores de contexto además de los parámetros acústicos y ofrece
una tasa de reconocimiento del 80,53 %.
Truong y Raaijmakers (2008) emplean un algoritmo de boosting para crear dos clasificadores, uno acústico y otro lingüístico, evaluando la tarea de clasificación en las dimensiones emocionales de activación y valencia, y también a nivel categórico. El corpus
recoge locuciones de 17 hombres y 11 mujeres jugando a un videojuego de tipo first-person
shooter. Los parámetros acústicos hacen referencia a la F0 y la intensidad mientras que los
lingüísticos se refieren a n-gramas a nivel de palabra y a la velocidad del habla. Distinguen dos categorías afectivas: positivo y negativo, y trabajan a nivel individual y mediante
la fusión de ambos parámetros a nivel de parámetros. En la dimensión de activación los
clasificadores acústicos funcionan mejor, mientras que en la de evaluación obtienen mejores resultados los lingüísticos. La fusión a nivel de parámetros mejora ligeramente los
resultados, aunque no en todos los casos. A nivel categórico la tasa de clasificación está
entre el 60 % y el 70 %. A nivel dimensional se sitúa entre el 40 % y el 55 %. La clasificación lingüística realizada a partir del etiquetado manual funciona mejor que la realizada
de forma automática a partir de un sistema Automatic Speech Recogniser (ASR), aunque
la diferencia no es notable a nivel dimensional. Posteriormente, Osherenko et al. (2009)
también realizan un estudio de fusión acústica y lingüística, en esta ocasión a nivel de
parámetros y también a nivel de decisión sin encontrar que un esquema sea mejor que el
otro ni conseguir mejorar, mediante la fusión, los resultados individuales de clasificación.
Dada la misma disparidad que ya se producía en el caso de los estudios de emociones actuadas en cuanto a los corpus, las emociones consideradas (tanto en número como
en tipo), los métodos de evaluación y la, frecuentemente, escasa documentación relativa
a los medios empleados para llevar a cabo reducciones de dimensionalidad, Schuller et
al. (2009), a través del Emotion Challenge dentro de la conferencia INTERSPEECH del año
2009, proponen un entorno de trabajo con un corpus específico y un método de evaluación
concreto para que los trabajos que lo sigan puedan ser comparados, y lo hacen en forma
de “desafío”. El Emotion Challenge 2009 plantea tres desafíos diferentes: un desafío abierto,
en el que se pueden emplear cualesquier parámetros y algoritmos; uno de clasificación,
92
4. Estado de la cuestión
empleando unos parámetros predeterminados; y uno de parametrización, en el que los
autores deben proporcionar los parámetros que consideren más relevantes. El corpus propuesto es el corpus FAU Aibo (véase la sección 3.4.3 para una descripción del corpus y los
detalles de su parametrización). Cuenta con más locutores que los estudios previos, así
como más locuciones. Considera 2 categorías emocionales pero también un etiquetado
de 5. La medida de rendimiento de los clasificadores se establece como la media no ponderada de reconocimiento (UAR) dada la distribución no uniforme de las categorías del
corpus. Asimismo, establece una división de los datos del corpus definiendo un subconjunto específico para entrenamiento y otro para prueba, forzando la total independencia
entre los datos de ambos conjuntos a nivel, incluso, de locutores, aspecto no contemplado
en los estudios anteriormente citados. A continuación se detallan algunos de los trabajos enmarcados en este contexto cuyos resultados se recogen en el sumario del Emotion
Challenge 2009 publicado en (Schuller et al., 2011).
Schuller et al. (2009) presentan unos resultados de referencia al mismo tiempo que
definen el Emotion Challenge 2009 y especifican las bases de participación. Empleando un
clasificador SVM y el procesado previo de los parámetros originales del corpus, estos resultados ofrecen un valor de UAR del 67,7 % para el problema de 2 categorías y 38,2 %
para el problema de 5 categorías23 . Nótese cómo se reduce la tasa de clasificación en el
caso de trabajar con 5 categorías respecto al resto de estudios. La disminución de la tasa
de reconocimiento en estudios independientes del locutor con un número de clases relativamente elevado es un efecto observable a menudo en los trabajos de reconocimiento
afectivo (Kwon et al., 2003; Austermann et al., 2005).
El trabajo de Lee et al. (2009) se basa en la teoría de evaluación (Lazarus, 2001) que
determina que el reconocimiento emocional se fundamenta en procesos conscientes e inconscientes de varias etapas en la que el sujeto, en cada una de ellas, evalúa la situación,
reacciona y la vuelve a evaluar. Por ello propone una estructura jerárquica para el problema de 5 categorías afectivas en la que la tarea de clasificación más sencilla se sitúa
en la parte superior mientras que la decisión entre las clases más ambiguas se deja para
el final. Cada clasificador es binario y emplea regresión logística bayesiana. La tasa de
clasificación asciende a 41,6 %.
Vogt y André (2009) analizan el entorno de reconocimiento emocional a tiempo
real EmoVoice (Vogt et al., 2008) con el corpus FAU Aibo. Para el problema de 2 categorías
no superan el resultado de referencia y la tasa de reconocimiento llega al 66,4 % mientras
que para el problema de 5 categorías la tasa es del 39,4 %. Barra et al. (2009) mejoran la tasa
de reconocimiento en el caso del problema de 2 categorías pero sin superar tampoco el resultado de referencia, llegando al 67,1 %, si bien para el problema de 5 categorías lo iguala
con un resultado del 38,2 %, empleando el análisis de parámetros MFCC, el logaritmo de
la energía y la F0 y la primera y segunda derivadas con una red bayesiana dinámica. Luengo et al. (2009) también emplean parámetros cepstrales (en este caso Log-Frequency Power
23
Este último resultado se empleará como valor de referencia para los experimentos detallados en el capítulo 6.
4.5. Otras aproximaciones al reconocimiento emocional
93
Coefficients (LFPC)), considerando la primera y segunda derivadas, que son clasificados
mediante GMM. Un nuevo conjunto de 10 parámetros prosódicos se clasifican mediante
SVM. Las tasas de reconocimiento son del 67,2 % para el problema de 2 categorías y 41,4 %
para el de 5.
Polzehl et al. (2009) realiza un análisis centrado en el problema de 2 categorías y
clasifica de forma independiente un conjunto de parámetros acústicos y otro de parámetros lingüísticos fusionando los resultados posteriormente. La tasa de reconocimiento es
muy próxima a los resultados de referencia y asciende al 67,6 %.
Los mejores resultados del Emotion Challenge 2009 fueron los obtenidos por Dumouchel et al. (2009) y Kockmann et al. (2009). Dumouchel et al. (2009) obtienen una tasa
del 70,29 % en el problema de 2 categorías mediante el uso de tres clasificadores GMM
fusionados a nivel de decisión, empleando parámetros MFCC y prosódicos. La tasa de
Kockmann et al. (2009) para el problema de 5 categorías es del 41,65 % mediante el análisis de parámetros MFCC y clasificación GMM.
Schuller et al. (2011) realizan una fusión a partir de los resultados de los mejores esquemas de clasificación presentados en el Emotion Challenge 2009 mediante un método de
voto mayoritario. Para el problema de 2 categorías la mejor tasa de clasificación se obtiene
fusionando los 5 mejores clasificadores (Dumouchel et al., 2009; Vlasenko y Wendemuth,
2009; Kockmann et al., 2009; Bozkurt et al., 2009; Polzehl et al., 2009) obteniendo un resultado del 71,16 % mientras que para el problema de 5 categorías el mejor resultado se
obtiene mediante la fusión de los 7 mejores clasificadores (Kockmann et al., 2009; Bozkurt
et al., 2009; Lee et al., 2009; Vlasenko y Wendemuth, 2009; Luengo et al., 2009; Planet et al.,
2009; Dumouchel et al., 2009) ascendiendo al 44,01 %. En ambos casos, el mejor esquema
individual de clasificación siempre se ve mejorado al fusionarlo, por lo menos, con otros
dos clasificadores.
4.5. Otras aproximaciones al reconocimiento emocional
Existen otras aproximaciones al reconocimiento afectivo automático que estudian
modalidades diferentes al habla o bien realizan un procesado multimodal en el que el
habla es sólo una parte del proceso de reconocimiento. No obstante, no es el objetivo de
esta tesis el profundizar en estos estudios dado que el presente trabajo se centra en el
reconocimiento afectivo automático a partir de la señal de voz.
Existen estudios basados en la expresión facial de los estados afectivos como por
ejemplo los trabajos de Bartlett et al. (2003), Cohn et al. (2004), Ioannou et al. (2005) y Valstar et al. (2007), centrados en la expresión facial de emociones espontáneas. Las tasas de
reconocimiento para esta modalidad se suelen situar alrededor del 80 % (Zeng et al., 2009),
si bien existen diferencias notables entre los trabajos que analizan imágenes estáticas y los
que estudian secuencias de vídeo. También existen aproximaciones multimodales como
94
4. Estado de la cuestión
la de Busso et al. (2004), que fusionan a nivel de parámetros y de decisión las modalidades acústica y de expresión facial, la de Fragopanagos y Taylor (2005), que combinan el
análisis facial, prosódico y léxico o la de Zeng et al. (2007) a nivel facial y acústico.
Otros estudios analizan las señales fisiológicas captadas mediante métodos invasivos y no invasivos para detectar la emoción de los usuarios, como Picard et al. (2001),
Nasoz et al. (2004), Li y Chen (2006), Lin et al. (2010) y Gouizi et al. (2011). Las tasas de reconocimiento a partir de señales fisiológicas varían de un trabajo a otro pero habitualmente
se sitúan alrededor del 70 %. El trabajo de Kim y André (2006) no se basa exclusivamente
en las señales fisiológicas sino que incluye, además, su fusión con el análisis acústico del
discurso mediante un esquema a nivel de parámetros y otro híbrido, en el que la salida
anterior sirve de entrada a un esquema de fusión a nivel de decisión.
El análisis de los resultados de algunas de las aproximaciones multimodales muestra valores elevados de tasas de reconocimiento, del 75 % hasta el 98 % (Zeng et al., 2009).
Sin embargo, las aproximaciones al reconocimiento afectivo automático multimodal no
son ajenas a los inconvenientes citados para los estudios de reconocimiento basados en la
señal de voz, tales como la variedad de corpus, emociones y medidas de evaluación que
dificultan la comparativa entre los diversos trabajos.
4.6. Resumen
En este capítulo se han recopilado algunos de los estudios relacionados con el reconocimiento afectivo automático, sobre todo los relacionados con la señal de voz dado
que es el objeto de la presente tesis. Tras recorrer los antecedentes a partir de los primeros
trabajos realizados en este ámbito se han tratado las distintas aplicaciones del reconocimiento afectivo para poner de manifiesto el interés del objeto de estudio. A continuación,
se han mostrado cuáles son las tendencias más representativas en los trabajos de reconocimiento a partir de la señal de voz más recientes a través del análisis de algunos de los
estudios más relevantes. Así, se comprueba el auge de los trabajos que realizan procesos
de parametrización cada vez más exhaustivos de los corpus empleando, posteriormente, diversas técnicas de aprendizaje artificial para su análisis. Asimismo, se han puesto
de manifiesto las diferencias existentes entre los trabajos basados en emociones actuadas
y emociones espontáneas, así como la dificultad de estudiar un conjunto relativamente
grande de emociones concretas frente a analizar un conjunto más pequeño que considere
etiquetas emocionales más amplias. También se aprecia la evolución que, a lo largo del
tiempo, ha experimentado el proceso de parametrización, incorporando a los parámetros
prosódicos iniciales, parámetros relativos a la VoQ o al contenido léxico de las locuciones
de los corpus.
El análisis de estos trabajos previos ponen de manifiesto la dificultad en la comparativa entre los mismos, dada la diversidad de corpus, categorías emocionales, procesos
de parametrización y métodos de evaluación empleados por todos ellos.
4.6. Resumen
95
También se ha hecho un breve inciso en los análisis de otras modalidades y se han
introducido los tres tipos principales de fusión multimodal, útiles para intentar mejorar
las tasas de reconocimiento a partir del análisis de datos heterogéneos, procedentes de
diversos sensores, o bien para fusionar los datos extraídos de los análisis de una misma
modalidad pero realizados desde distintas perspectivas.
96
4. Estado de la cuestión
Capítulo 5
Primeras aproximaciones al
reconocimiento afectivo en corpus
actuados
Este capítulo se centra en el reconocimiento afectivo automático realizado sobre
corpus grabados por actores, incluyendo tanto los corpus de expresión vocal actuada como los de expresión vocal estimulada. En todos los casos se hace referencia a corpus que
han sido grabados en condiciones ideales y con el máximo control tanto de las condiciones
de grabación como de contenido.
Los contenidos de este capítulo no son el núcleo de la tesis en sí y se refieren a
los experimentos realizados como paso previo a los que se realizarán en torno a la línea
principal de investigación, los cuales se abordan en el capítulo siguiente. Su objetivo es
sentar una base de experimentación y poder obtener unos resultados que sirvan para
compararlos posteriormente, observando las diferencias entre ambos escenarios.
El capítulo se divide en dos secciones. Ambas hacen referencia al reconocimiento
afectivo automático en corpus de voz emocionada grabada por actores pero difieren en el
objetivo final. La primera sección plantea un reconocimiento afectivo básico cuya finalidad
es maximizar el número de coincidencias entre el estilo afectivo asignado a cada locución
y el estilo determinado por el sistema automático. Sin embargo, este procedimiento da
por hecho que el estilo afectivo asignado a las locuciones es el correcto, sin considerar
que tal vez el actor no acertó a dotar a la locución del estilo pretendido. Determinar qué
locuciones son correctas o incorrectas, desde el punto de vista de corresponderse, o no,
con el estilo pretendido, supone un proceso de validación posterior a la grabación realizado por un conjunto de evaluadores humanos, es decir, subjetivos. La segunda sección
de este capítulo expone la manera de automatizar este proceso realizando un reconocimiento afectivo automático cuyo objetivo es maximizar el número de coincidencias para
aquellas locuciones que también serían correctamente identificadas de forma subjetiva.
97
98
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
De igual manera, las locuciones que de forma subjetiva serían rechazadas, el sistema automático debería poder identificarlas como incorrectas rechazándolas también dado que
no se ajustan al estilo pretendido.
5.1. Reconocimiento afectivo básico
Esta sección recoge una serie de experimentos denominados básicos en tanto que
plantean un reconocimiento sencillo y directo. El entorno de trabajo se centra alrededor
de corpus actuados, convenientemente etiquetados y abarcando emociones claramente
definidas. El objetivo de los experimentos es maximizar la WAR, es decir, clasificar correctamente el mayor número de casos del total existente ya que los corpus se han diseñado de
forma equilibrada. Así pues, se considera reconocimiento afectivo básico dado que sigue
las pautas de la mayoría de los trabajos previos realizados dentro del marco del reconocimiento emocional, tales como los citados en la sección 4.4.1. Estos experimentos previos
y el análisis de sus resultados marcarán la base de los trabajos posteriores detallados en
las secciones siguientes.
La estructura genérica de los experimentos de reconocimiento afectivo básico se
puede observar en la figura 5.1. Los experimentos se dividen en dos partes independientes. La primera de ellas consiste en analizar el corpus de forma subjetiva, recopilando las
evaluaciones realizadas por un grupo de personas al escuchar los distintos elementos del
corpus. La segunda parte consiste en realizar una clasificación automática de estos mismos elementos empleando técnicas de aprendizaje artificial. Finalmente, se comparan los
resultados de ambas partes del experimento. Esta estructura básica es la que se sigue en
las siguientes secciones.
A continuación se presentan dos estudios de reconocimiento básico, recogidos en
(Planet et al., 2006) e (Iriondo et al., 2007c). El primero de ellos es un estudio preliminar basado en el corpus de voz actuada ESDLA. El segundo presenta un análisis más detallado,
basado en el corpus voz estimulada BDP-UAB, grabado en mejores condiciones técnicas
que el anterior y contando con un mayor volumen de datos.
5.1.1. Corpus de voz actuada
Para realizar el experimento de reconocimiento afectivo básico sobre un corpus de
voz actuada se emplea el corpus ESDLA, estudiando únicamente los parámetros analizados a nivel segmental mediante la aplicación de ventanas de duración constante, es decir,
183 parámetros relativos a F0, energía y silencios, según se detalla en la sección 3.4.1.2. En
(Planet et al., 2006) se recogen los pormenores del experimento aquí explicado.
5.1. Reconocimiento afectivo básico
99
Corpus de voz
parametrizado
Corpus de voz
etiquetado
Parametrización
Evaluación
subjetiva
Selección
de atributos
Clasificación
automática
100
90
80
70
60
50
40
30
20
10
0
1
2
3
4
Resultado subjetivo
Evaluación objetiva
100
90
80
70
60
50
40
30
20
10
0
1
2
3
4
Resultado objetivo
Figura 5.1: Esquema de un experimento genérico de reconocimiento afectivo básico.
5.1.1.1.
Metodología
En el estudio se tienen en consideración conjuntos de datos que incluyen la información referente a los cuatro estados emocionales del corpus y también conjuntos de los
que se elimina toda referencia al estado neutro, para comprobar el impacto de un estado
carente de contenido afectivo en el sistema automático de clasificación. En lo referente al
número de parámetros analizados, los algoritmos de aprendizaje se entrenan tanto con la
totalidad de los parámetros como con subconjuntos de los mismos para intentar acotar el
problema y evitar los efectos del sobreentrenamiento. Estos subconjuntos se crean en base al conocimiento previo de los parámetros que son considerados más relevantes por la
bibliografía en general y también seleccionando manualmente los que se supone, a priori,
que pueden ser los más relevantes a nivel subjetivo. La figura 5.2 muestra la definición de
estos subconjuntos. Así pues, data2 se crea tras eliminar la primera derivada del conjunto
completo data1. data3 no considera las versiones filtradas del conjunto completo, y data4
tampoco lo hace a partir del subconjunto data2. data5 incorpora, a diferencia de data4, los
parámetros relativos a la energía de esas versiones filtradas. data6 reduce el número de
funcionales a 5 (media, desviación estándar, asimetría, curtosis y mediana) excepto para
los parámetros relativos a los silencios que incorporan, además, la duración total de los
mismos. Por otra parte, se crea de forma automática otro subconjunto (data7) formado por
los parámetros que un algoritmo genético como el descrito en la sección 4.3.2 identifica
como los más relevantes. Mediante este proceso automático de selección de atributos, para el conjunto de todos los estados emocionales el número de parámetros se reduce a 37
(reducción del 79,78 % del total), mientras que para el conjunto que omite el estado neutro
se obtienen 19 parámetros (reducción del 89,62 % del total).
100
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
data1
(183)
Sin la 1ª
derivada
data2
(111)
Sin versiones
filtradas
data3
(61)
Algoritmo
genético
data7
(37)
Sin versiones
filtradas
data4
(37)
Sin versiones
filtradas,
excepto ENE
data5
(61)
Sólo 5
funcionales,
excepto SIL
data6
(26)
Figura 5.2: Definición de los conjuntos de datos creados para el experimento de reconocimiento
afectivo básico sobre el corpus ESDLA. Entre paréntesis se indica el número de parámetros que
contiene cada conjunto de datos. ENE hace referencia a los parámetros de energía y SIL a los de
silencio.
El experimento evalúa 8 algoritmos de clasificación y 2 metaclasificadores. Los algoritmos de clasificación, según implementaciones de la librería WEKA, son: el árbol de
decisión basado en entropía J4.8 (Witten y Frank, 2005), el algoritmo de creación de listas
de decisión PART (Frank y Witten, 1998), dos algoritmos KNN (Aha et al., 1991), basados
en distancia euclídea y seleccionando un único vecino de forma predeterminada (IB1) y
una versión en la que el número de vecinos próximos (k) se determina automáticamente
de forma óptima1 (IBk), el algoritmo Naïve-Bayes (John y Langley, 1995), con discretización supervisada basada en el algoritmo de Fayyad e Irani (1993), un algoritmo de tablas
de decisión (DT) (Kohavi, 1995), un algoritmo SVM de kernel polinómico de segundo
grado, con un entrenamiento mediante el algoritmo de optimización secuencial mínima
(Platt, 1998) y utilizando discriminación por parejas (Hastie y Tibshirani, 1998) para poder afrontar un experimento de clasificación con un número de clases superior a dos. El
algoritmo de máxima verosimilitud ZeroR2 se escoge como línea de base para este experimento tal y como también hace Litman y Forbes-Riley (2003) en un experimento de similares características3 . Los dos metaclasificadores son de tipo boosting (algoritmo AdaBoost
(Freund y Schapire, 1996)) y bagging (Breiman, 1996) en combinación con los algoritmos
J4.8, PART y DT (AB/J4.8, AB/PART, AB/DT y Bag/J4.8, respectivamente). En todos los
casos se mide la WAR4 evaluada mediante una validación cruzada de 10 iteraciones.
1
El proceso automático consiste en un proceso iterativo realizado mediante una validación cruzada dejando uno fuera.
2
El algoritmo ZeroR predice el valor medio si la etiqueta de clasificación es numérica, o la moda (el valor
más frecuente) si la etiqueta de clasificación es, como en este caso, categórica.
3
No obstante ZeroR es un algoritmo muy sencillo y, a pesar de ser empleado a menudo como referencia
en la experimentación con WEKA, tan sólo se empleará en los experimentos de este capítulo por su carácter
preliminar.
4
En tanto que el corpus ESDLA es un corpus equilibrado, con el mismo número de locuciones para cada
emoción, los valores de las medidas WAR y UAR son iguales.
5.1. Reconocimiento afectivo básico
5.1.1.2.
101
Resultados
La figura 5.3 muestra los valores de WAR alcanzados por cada algoritmo para cada uno de los conjuntos de datos evaluados considerando el corpus completo, con las 4
categorías emocionales. El algoritmo de referencia ZeroR, cuyo resultado no se incluye en
la gráfica para simplificar la visualización del resultado, asciende al 25 % dado que el corpus está formado por 4 clases con un número idéntico de casos. Se observa que el mejor
resultado (89,5 %) se obtiene mediante el algoritmo SVM en combinación con el conjunto
de datos data7, obteniendo una mejora absoluta del 64,5 % respecto al algoritmo de referencia. Este resultado es también superior en un 0,82 % a la tasa de clasificación obtenida
en el test subjetivo. Al mismo tiempo, supera en un 2 % los resultados obtenidos por los
dos siguientes mejores clasificadores que son el esquema de boosting en combinación con
el algoritmo PART y el algoritmo Naïve-Bayes con discretización supervisada previa y
considerando el mismo conjunto de datos.
En la figura 5.3 se puede observar también cómo mejoran los algoritmos J4.8, PART
y DT cuando son vinculados a un esquema de boosting y cómo se produce también esta
mejora en el esquema bagging observándose, además, mayor homogeneidad entre los resultados de los diferentes conjuntos de datos. Asimismo, la reducción de datos mejora los
resultados de clasificación. Esto puede observarse al comprobar que el conjunto de datos
data7 obtiene unas tasas de clasificación superiores en la mayoría de los casos. Si se toma
como referencia el conjunto data1, formado por la totalidad de parámetros, el conjunto
data7 consigue una mejora absoluta del 5,5 % (6,55 % relativa) en el algoritmo SVM aún
y trabajando con el 20,22 % del total de parámetros. Esta mejora es aún más destacable
en el caso del algoritmo IB1, donde alcanza un valor del 18,5 % de forma absoluta y del
29,13 % de forma relativa. Similar es el comportamiento del algoritmo IBk, el cual obtiene un resultado óptimo para un valor de k = 14, si bien su resultado mejora el obtenido
por el IB1. Ambos algoritmos proporcionan unos resultados buenos a pesar de no ser demasiado complejos ni computacionalmente costosos, lo cual también sucede en el caso
del algoritmo Naïve-Bayes que, a pesar de su sencillez, obtiene una mejora absoluta del
62,5 % respecto al algoritmo de referencia, situándose al nivel de los metaclasificadores
que suponen un coste computacional más elevado.
En referencia a los conjuntos de datos, en general la no consideración de las versiones filtradas por parte de data3 y data4 empeora los resultados obtenidos por data1 y
data2. El subconjunto data5 mejora los resultados obtenidos por data4 al incorporar los parámetros de energía extraídos de las versiones filtradas pero data7, obtenido a través de un
algoritmo genético a partir del conjunto completo, es el conjunto de menor tamaño que
optimiza las tasas de clasificación.
La figura 5.4 muestra la matriz de confusión correspondiente al algoritmo SVM y
el conjunto de datos data7. De la matriz de confusión se desprende que algunos de los
ejemplos de la clase alegría se clasifican como enfado y viceversa, la clase tristeza es, aunque en pocas ocasiones, clasificada como neutro mientras que la clase neutro se clasifica
102
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
95
90
WAR (%)
85
80
75
70
65
60
data1
data2
data3
data4
data5
data6
data7
J4.8
71,50
75,50
73,50
72,00
80,50
75,00
78,00
PART
72,00
78,00
75,50
72,50
79,00
77,50
78,00
DT
70,00
69,00
70,00
70,00
67,50
69,50
70,50
IB1
63,50
65,50
62,50
63,00
66,50
62,50
82,00
IBk
73,50
70,00
68,50
67,50
73,50
70,50
83,50
NB
85,00
84,00
76,50
78,50
80,00
74,00
87,50
SVM
84,00
84,50
79,50
80,00
81,50
84,00
89,50
AB/J4.8 AB/PART
81,00
82,00
83,50
85,50
82,00
83,50
79,50
79,50
85,50
82,00
76,50
80,50
85,00
87,50
AB/DT
77,50
79,00
72,50
82,00
76,50
74,00
84,50
Bag/J4.8
83,50
82,50
81,50
83,00
84,50
79,50
84,00
Figura 5.3: Resultados WAR del experimento de reconocimiento afectivo básico en el corpus ESDLA considerando los 4 estados emocionales. El resultado del algoritmo de referencia ZeroR es
25 %.
casi perfectamente. Este hecho, que es más patente aún en otros clasificadores, contrasta
con los resultados obtenidos en la evaluación subjetiva (véase la figura 3.4).
En (Planet et al., 2006) también se recogen los resultados del mismo experimento
cuando se eliminan las referencias al estado neutro. Efectivamente, y tal y como se recoge en otros estudios del estado de la cuestión, la disminución del número de clases
desemboca en una mejora de las tasas de clasificación. En este caso, sin embargo, el mejor
resultado se obtiene mediante el algoritmo AB/DT y un conjunto de datos procedente, al
igual que en el caso anterior, de un algoritmo genético. La tasa de reconocimiento asciende al 90,67 % (una mejora absoluta del 57,34 % respecto al algoritmo de referencia, cuyo
resultado es del 33,33 % en el caso de 3 clases). Nuevamente, el algoritmo Naïve-Bayes,
con un coste computacional muy inferior al del algoritmo AB/DT, obtiene un buen resultado (el segundo mejor, en este caso) con una tasa de clasificación del 89,33 % que supone
una mejora absoluta del 56 % respecto al algoritmo de referencia.
Las diferencias citadas entre los resultados de la clasificación subjetiva (véase la
sección 3.4.1.1) y la automática pueden atribuirse a diferencias entre los criterios de los
evaluadores subjetivos y los representados por los parámetros de los conjuntos de datos, según las observaciones realizadas por los propios evaluadores tal y como se recoge
en (Planet et al., 2006). Los participantes del test subjetivo coinciden en afirmar que la
emoción enfado ha sido la más fácil de identificar, señalando la mayor dificultad en di-
5.1. Reconocimiento afectivo básico
103
Porcentaje de clasificación automática
100
90
80
70
60
50
40
30
20
10
0
Alegría
Tristeza
Enfado
Neutro
Alegría
84,00
0,00
16,00
0,00
Tristeza
0,00
92,00
2,00
6,00
Enfado
16,00
0,00
84,00
0,00
Neutro
0,00
2,00
0,00
98,00
Clasificación real
Figura 5.4: Matriz de confusión de los resultados de clasificación del algoritmo SVM y el conjunto de datos data7 en el experimento de reconocimiento afectivo básico con el corpus ESDLA
considerando los 4 estados emocionales.
ferenciar neutro y tristeza en primer lugar, y alegría y neutro, en algunos casos, lo cual
aparece reflejado en la figura 3.4. Dado que el contexto no es de utilidad para tomar la decisión entre una clase u otra, los participantes señalan como aspectos diferenciadores el
tono de la voz y el volumen, así como sus variaciones respectivas, y la velocidad del habla.
Algunos participantes señalan también como decisivos los “golpes de voz”, término que
podría interpretarse como exageraciones en las sílabas acentuadas, ya sean relativas a su
volumen o a su duración en comparación con el resto de ellas, aspectos no contemplados
en la parametrización empleada.
5.1.2. Corpus de voz estimulada
A diferencia del trabajo expuesto en la sección anterior, el presentado en (Iriondo et al., 2007c) desarrolla un planteamiento similar pero basado en el corpus BDP-UAB
que, a diferencia del corpus ESDLA, es de voz estimulada. Asimismo, a pesar de ser un
corpus bastante equilibrado, no lo es en la misma medida que el corpus anterior y entre
las categorías emocionales se incluye el estado sensual, que no se corresponde con una
emoción básica. El trabajo recogido en (Iriondo et al., 2007c) sólo tiene en consideración
los parámetros prosódicos del corpus, los cuales ascienden a un total de 464 parámetros
por locución.
104
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
5.1.2.1.
Metodología
El conjunto de datos original, obtenido a partir de una segmentación fonética, se
divide en varios subconjuntos para reducir su dimensión. La figura 5.5 muestra las diferentes estrategias seguidas para conseguir ese objetivo. El primer criterio consiste en
omitir la segunda derivada (de data1 a data2) para valorar la relevancia de esa función.
Por otra parte, y dado que experimentos previos mostraron un mejor rendimiento de los
parámetros en formato logarítmico, dos conjuntos de datos se crean a partir de las versiones logarítmicas de energía y F0 (data1L y data2L). Cada uno de estos subconjuntos se
dividen nuevamente en dos considerando todos los fonemas o tan sólo las vocales tónicas.
Adicionalmente, se reduce la dimensión de los conjuntos de datos iniciales mediante el
algoritmo genético ya empleado en (Planet et al., 2006) (data1G y data2G). Finalmente, se
crean dos subconjuntos similares a los propuestos por Navas et al. (2006) para observar la
relevancia de los parámetros temporales (data1N y data1NG).
Algoritmo
genético
data1G
(214)
Sólo vocales
tónicas
data1LS
(101)
F0 = log
ENE = dB
data1L
(266)
Completo
data1LC
(101)
(Navas et al.,
2006)
data1N
(84)
Algoritmo
genético
data1NG
(39)
F0 = log
ENE = dB
data2L
(178)
Sólo vocales
tónicas
data2LS
(68)
Algoritmo
genético
data2G
(127)
Completo
data2LC
(68)
data1
(464)
Sin la 2ª
derivada
data2
(310)
Figura 5.5: Definición de los conjuntos de datos creados para el experimento de reconocimiento
afectivo básico sobre el corpus BDP-UAB. Entre paréntesis se indica el número de parámetros
que contiene cada conjunto de datos. ENE hace referencia a los parámetros de energía. El campo
Completo hace referencia a que se consideran todos los segmentos de la locución, sin excepción.
El experimento evalúa los mismos 8 clasificadores básicos de (Planet et al., 2006)
e incluye el mismo metaclasificador de boosting en combinación con los algoritmos J4.8,
PART y DT. En todos los casos se mide la WAR evaluada mediante una validación cruzada
de 10 iteraciones.
5.1.2.2.
Resultados
La figura 5.6 muestra los resultados del experimento. El algoritmo de referencia
ZeroR, cuyo resultado no se muestra en la gráfica por simplicidad, logra una tasa de reconocimiento del 22,60 % al asignar a todas las locuciones la etiqueta mayoritaria “agresivo”.
Desde un punto de vista de los algoritmos de clasificación, SVM obtiene la mejor tasa de
5.1. Reconocimiento afectivo básico
105
clasificación tanto en valor medio (97,34 % de media) como de forma puntual en combinación con el conjunto de datos data1G (99,03 %) (Iriondo et al., 2007c). Esta combinación
proporciona una mejora absoluta del 76,43 % respecto al algoritmo de referencia. Además,
y tal y como ya se notaba en el experimento de la sección 5.1.1, los metaclasificadores proporcionan mejores resultados que los algoritmos que emplean cuando se estudian forma
individual. Sin embargo, el coste computacional es más elevado.
Desde un punto de vista de los conjuntos de datos se aprecian diferentes resultados en función del algoritmo. Así, SVM obtiene el mejor resultado con el conjunto de
datos data1G. Sin embargo, otros algoritmos (J4.8, IB1 e IBk) obtienen mejores tasas de
clasificación con los subconjuntos que han sido generados a partir de la eliminación de la
segunda derivada y, posteriormente, se ha realizado una reducción mediante el algoritmo genético. Finalmente, un tercer grupo de algoritmos (DT y NB) proporciona mejores
resultados cuando se elimina la redundancia lineal/logarítmica de la F0 y la energía. Por
otra parte, los resultados obtenidos por los conjuntos de datos data1G y data1L son bastante similares, si bien data1LC cuenta con menos de la mitad de parámetros, efecto que
también se percibe en los conjuntos que omiten la segunda derivada. En lo referente a
los parámetros temporales, los resultados empeoran cuando estos se omiten (conjuntos
de datos data1N y data1NG). Y, finalmente, los resultados empeoran significativamente
cuando los parámetros se calculan únicamente en las vocales tónicas (conjuntos data1LS
y data2LS). En promedio, el conjunto de datos data2G obtiene el mejor resultado, con un
97,02 % de media (Iriondo et al., 2007c).
La figura 5.7 muestra la matriz de confusión del algoritmo SVM (que obtiene el
mejor resultado en promedio) y el conjunto de datos data2G (que obtiene, también en
promedio, el mejor rendimiento). La conclusión que de ella se desprende es que los algoritmos tienden a confundir, principalmente, los estados neutro y sensual a diferencia de
los evaluadores subjetivos, que tienden a confundir los estados agresivo y alegre (véase
la figura 3.5). Esta diferencia es debida a la ausencia de parámetros relativos a la VoQ en
este experimento ya que ambos estilos emotivos tienen una prosodia similar pero la voz
sensual es más susurrante que la neutra, diferencia que sí es percibida por los evaluadores
subjetivos (Iriondo et al., 2007c).
En (Monzo et al., 2007) se recoge un estudio posterior llevado a cabo considerando
únicamente los parámetros de VoQ del corpus BDP-UAB. Este estudio constata lo antes
explicado respecto a la distinción entre los estilos agresivo y alegre a través de parámetros
prosódicos, y neutro y sensual a través de parámetros relativos a la VoQ. El estudio muestra que los parámetros de VoQ son suficientes para discernir entre los diferentes estilos
emocionales excepto, precisamente, los dos primeros. Además se demuestra que el estilo
alegre sólo se caracteriza por un único parámetro de VoQ (SFM) mientras que el sensual
se caracteriza por hasta cinco de ellos (jitter, shimmer, HNR, GNE y do1000).
106
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
100
98
96
WAR (%)
94
92
90
88
86
84
82
80
data1G
data1L
data1LC
data1LS
data1N
data1NG
J4.8
95,67
95,69
95,52
87,60
91,42
92,11
PART
96,42
96,72
96,51
88,23
93,17
92,02
DT
91,05
92,35
91,79
81,65
86,37
86,70
IB1
95,75
95,26
96,83
83,87
91,63
92,26
IBk
95,45
95,30
97,22
86,27
92,56
93,12
NB
96,87
97,80
96,36
89,80
90,64
92,13
SVM
99,03
98,64
98,49
93,92
97,41
96,51
AB/J4.8 AB/PART
98,25
98,45
98,32
98,45
97,87
97,99
92,48
93,34
95,54
95,62
95,04
95,75
AB/DT
95,24
96,12
95,13
89,05
91,76
91,61
NB
96,94
97,59
96,74
91,01
SVM
98,86
98,47
98,47
93,57
AB/J4.8
98,23
98,17
97,84
92,37
AB/DT
95,49
95,45
95,19
89,28
(a)
100
98
96
WAR (%)
94
92
90
88
86
84
82
80
data2G
data2L
data2LC
data2LS
J4.8
96,36
95,97
95,47
87,82
PART
96,87
96,92
96,42
88,77
DT
91,63
92,35
91,79
81,65
IB1
97,54
96,10
96,94
86,46
IBk
97,93
96,53
97,20
88,42
AB/PART
98,38
98,40
98,08
92,67
(b)
Figura 5.6: Resultados WAR del experimento de reconocimiento afectivo básico en el corpus BDPUAB. La figura (a) muestra los resultados obtenidos por los subconjuntos de datos derivados del
conjunto de datos original completo. La figura (b) muestra los resultados obtenidos por los subconjuntos de datos derivados del conjunto de datos original omitiendo la segunda derivada. El
resultado del algoritmo de referencia ZeroR es 22,60 %.
5.1.3. Conclusión
Los dos experimentos anteriores muestran los resultados de clasificar un corpus
de voz actuada y un corpus de voz estimulada, es decir, corpus grabados en condiciones muy controladas tanto a nivel de contenido como de medios técnicos para garantizar
unos requisitos mínimos de calidad, y ambos con un único locutor. Así, a pesar de emplear
parametrizaciones diferentes (segmental y fonética), las tasas de clasificación obtienen valores elevados, por encima incluso de las obtenidas en los test subjetivos, lo cual es acorde
con los resultados obtenidos por diferentes investigaciones en condiciones similares tal y
Porcentaje de clasificación automática
5.2. Reconocimiento afectivo de mapeo subjetivo
107
100
90
80
70
60
50
40
30
20
10
0
Agresivo
Alegre
Triste
Neutro
Sensual
Agresivo
99,07
0,79
0,08
0,04
0,02
Alegre
1,57
97,08
0,02
1,17
0,16
Triste
0,17
0,08
99,25
0,40
0,09
Neutro
0,22
0,94
0,41
93,93
4,50
Sensual
0,04
0,08
0,22
4,89
94,78
Clasificación real
Figura 5.7: Matriz de confusión de los resultados de clasificación del algoritmo SVM y el conjunto
de datos data2G en el experimento de reconocimiento afectivo básico con el corpus BDP-UAB.
como se recoge en el estado de la cuestión. Sin embargo, sería incorrecto afirmar que esto
es el objetivo deseado. Podemos afirmar que el sistema está reconociendo estilos concretos
de habla de una voz determinada pero no que está reconociendo una emoción en general.
Además, si el corpus va a ser empleado en síntesis de voz, una validación automática de
los estilos expresivos del corpus que ofrezca mejor resultado (diferente, en general) que
una subjetiva no es interesante dado que el sistema estaría dando por buenas locuciones
en las que los evaluadores subjetivos no logran reconocer la emoción deseada.
Por este motivo, a continuación se expone un trabajo destinado a realizar un reconocimiento afectivo automático que logre un resultado igual o muy similar al subjetivo.
Por otra parte, en el siguiente capítulo se expondrán los experimentos realizados en un
entorno de varios locutores y, en general, más realista que el considerado en los trabajos
del presente capítulo.
5.2. Reconocimiento afectivo de mapeo subjetivo
A diferencia de los experimentos de reconocimiento afectivo básico, el reconocimiento afectivo de mapeo subjetivo no pretende alcanzar la máxima tasa de clasificación.
Tal y como se ha mostrado en la sección anterior, los algoritmos de clasificación y los conjuntos de datos presentados son capaces de lograr tasas muy elevadas, por encima incluso
de las alcanzadas en las pruebas subjetivas. En este caso, el reconocimiento de mapeo sub-
108
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
jetivo pretende alcanzar los mismos resultados que las pruebas subjetivas, clasificando de
forma automática cada uno de los estilos emocionales tal y como los clasifican los evaluadores subjetivos.
5.2.1. Planteamiento general del sistema
Tal y como se recoge en (Iriondo et al., 2009), un sistema de reconocimiento afectivo
de mapeo subjetivo consta de una primera fase en la que el sistema es entrenado con un
subconjunto pequeño procedente del corpus original, considerando al mismo tiempo la
evaluación subjetiva realizada sobre el mismo subconjunto. Una vez el sistema es entrenado, es capaz de analizar el corpus completo y eliminar todas aquellas locuciones que no se
corresponden con el estilo emocional pretendido y que, en consecuencia, también serían
descartadas en una prueba subjetiva. Las locuciones que mejor se corresponden con la
clasificación subjetiva permanecen en el corpus resultante. Este proceso es de utilidad en
la validación de corpus actuados, eliminando de forma automática aquellas grabaciones
en las que el locutor no ha sido capaz de expresar de forma convincente el estilo emocional requerido, sin necesidad de realizar una prueba subjetiva que suponga escuchar la
totalidad del corpus. Así pues, este sistema se centra en el oyente (véase la figura 3.1) y,
por lo tanto, considera más importantes los resultados de la evaluación subjetiva que los
del sistema automático.
La estructura genérica de los experimentos de reconocimiento afectivo de mapeo
subjetivo se puede observar en la figura 5.1. El esquema es muy similar a la de los experimentos de reconocimiento afectivo básico pero, en este caso, los resultados de la evaluación subjetiva ajustan el proceso de evaluación objetiva. En esta sección se propone un
proceso de ajuste tal y como se detalla a continuación.
5.2.2. Diseño del sistema
Para realizar el experimento de reconocimiento afectivo de mapeo subjetivo se emplea el corpus BDP-UAB considerando su parametrización completa, tanto a nivel de prosodia como de VoQ. La prueba subjetiva empleada para el entrenamiento del sistema es la
misma que la indicada en la sección 3.4.2.1. De forma heurística, y en base a los histogramas relacionados con la evaluación subjetiva (véase la figura 3.6), se determina que una
locución es incorrecta (en el sentido de no corresponderse de forma adecuada con el estilo
emocional pretendido) si su grado de identificación es inferior al 50 % o si el porcentaje
de etiquetas “NS/NC” (es decir, etiquetas asignadas por los evaluadores en caso de no
saber distinguir el estilo expresivo) que recibe es superior al 12 %, ya que pueden considerarse atípicos en los histogramas. En caso contrario, la locución se considera correcta.
Según estas dos reglas heurísticas, 33 locuciones son etiquetadas como incorrectas en base
a la evaluación subjetiva. Por su parte, el sistema de reconocimiento afectivo de mapeo
subjetivo asignará una etiqueta categórica a cada locución. Si la etiqueta asignada no se
5.2. Reconocimiento afectivo de mapeo subjetivo
109
Corpus de voz
parametrizado
Corpus de voz
etiquetado
Parametrización
Evaluación
subjetiva
Selección
de atributos
Clasificación
automática
100
90
80
70
60
50
40
30
20
10
0
1
2
3
4
Resultado subjetivo
Evaluación objetiva
100
90
80
70
60
50
40
30
20
10
0
1
2
3
4
Resultado objetivo
Figura 5.8: Esquema de un experimento genérico de reconocimiento afectivo de mapeo subjetivo.
corresponde con la que tenía en su etiquetado original, la locución se considerará incorrecta. Se considerará correcta en caso contrario. El objetivo de la fase de entrenamiento es
conseguir que el sistema automático y la evaluación subjetiva coincidan en el etiquetado
correcta/incorrecta de cada locución.
El funcionamiento global del sistema se muestra en la figura 5.9. Los algoritmos
de clasificación son probados con las 480 locuciones involucradas en la prueba subjetiva
y entrenados con las 4.158 locuciones restantes. A las locuciones incorrectamente clasificadas se les asigna la etiqueta de incorrectas. Esta asignación es luego comparada con
la de la prueba subjetiva. Para realizar la comparación se calcula la medida F1 que tiene
en consideración tanto la precisión como la cobertura de las locuciones incorrectamente
clasificadas en base a las 33 rechazadas por la prueba subjetiva, y es esta medida la que
guía el proceso de selección de parámetros. Este proceso de selección determina si el conjunto de datos debe ser ajustado para optimizar la medida F1. El ajuste puede realizarse
mediante una búsqueda voraz incremental, decremental o mixta, tal y como se describen
estos procesos en la sección 4.3.2.
5.2.3. Resultados preliminares
En (Iriondo et al., 2007a) se recoge un experimento preliminar basado en el esquema
propuesto. El conjunto de datos de trabajo es el data2LC dado que consigue un compromiso óptimo entre el número de parámetros (68 parámetros) y los resultados conseguidos
(96,58 % de tasa de reconocimiento media) (Iriondo et al., 2009). Siguiendo el esquema
propuesto en la figura 5.9, el proceso de selección de atributos consta de una búsqueda
110
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
Locuciones
para análisis
subjetivo
(480)
Resultados de
la prueba
subjetiva
Evaluadores
subjetivos
Datos de
prueba
Conjunto
de datos
Filtro de
instancias
Prueba
Filtro de
parámetros
Datos de
entrenamiento
Algoritmo de
clasificación
Entrenamiento
Parámetros
Algoritmo de
selección de
parámetros
Medida F1
sobre el conjunto
de locuciones
descartadas
F1
Figura 5.9: Ajuste del sistema objetivo de reconocimiento afectivo guiado por los resultados de
una prueba subjetiva. Adaptado de (Iriondo et al., 2009).
voraz en dos de sus variantes, incremental y decremental. Los algoritmos de clasificación
analizados son Naïve-Bayes, SVM y J4.8. El máximo valor de F1 (0,50) se obtiene por el
algoritmo SVM y la búsqueda voraz decremental. El mayor número de coincidencias (18)
entre las frases descartadas de forma objetiva y de forma subjetiva se obtiene con el algoritmo J4.8 y la búsqueda voraz hacia delante. Sin embargo, este esquema también obtiene
un elevado número de clasificaciones incorrectas (51), lo que se refleja en el valor de la
medida F1 (0,43).
No obstante, este trabajo presenta algunas limitaciones que se intentan subsanar a
continuación. En primer lugar, no se recoge información procedente de la VoQ sino que se
limita a analizar únicamente la prosodia de las locuciones. La incorporación de esta información puede ser útil para discernir entre determinados estilos del habla, tal y como se ha
comentado anteriormente. Por otra parte, la búsqueda voraz exclusivamente incremental
o decremental no es capaz de deshacer decisiones previas, mientras que una estrategia
combinada podría evitar alcanzar máximos locales asociados a resultados pobres. Y, por
último, dado que algunos clasificadores son más precisos que otros, la combinación de
varios algoritmos podría mejorar el resultado final.
5.2.4. Inclusión de parámetros de VoQ
La incorporación de los 55 parámetros de VoQ extraídos del corpus BDP-UAB (véase la sección 3.4.2.2) al conjunto de datos data2LC resulta en un conjunto de datos de 123
parámetros cuya definición se muestra, de forma gráfica, en la figura 5.10, tal y como
se recoge en (Iriondo et al., 2007b). El nuevo conjunto de datos recibe el nombre de data2LCVQ5.
5.2. Reconocimiento afectivo de mapeo subjetivo
111
F0 (log)
ENE (dB)
DUR (z-score)
Corpus
de voz
expresiva
Análisis de
prosodia
Análisis
estadístico
(11 funcionales)
Atributos de prosodia (66)
Derivada
Atributos de pausas (2)
data2LCVQ5
(123 + etiqueta)
Jitter
Análisis de
calidad de
la voz
Shimmer
GNE
do1000
Análisis
estadístico
Atributos de calidad de la voz (55)
(11 funcionales)
HammI
Etiqueta categórica afectiva
Figura 5.10: Descripción gráfica del corpus data2LCVQ5. ENE y DUR hacen referencia a los parámetros de energía y duración, respectivamente. Adaptado de (Iriondo et al., 2007b).
El efecto de la incorporación de los parámetros de VoQ a los parámetros prosódicos
puede observarse en las dos primeras columnas de la figura 5.11.
5.2.5. Selección de parámetros ampliada
En (Iriondo et al., 2007b) se propone una estrategia de selección de atributos basada en una búsqueda voraz bidireccional como la descrita en la sección 4.3.2. Si bien el
primer ajuste se realiza para un esquema 3FW-1BW, en (Iriondo et al., 2009) también se
considera un esquema 4FW-1BW. En cada iteración se escoge el subconjunto de parámetros que maximiza la medida F1, añadiendo 3 o 4 atributos en cada paso hacia delante,
respectivamente, y eliminando 1 en cada paso atrás.
La figura 5.11 muestra los resultados conseguidos por los clasificadores SVM, J4.8 y
Naïve-Bayes en combinación con los distintos métodos de selección de atributos 3FW-1BW
y 4FW-1BW. Para todos los casos, la presencia de parámetros de VoQ supone una mejora
de los resultados. Por otra parte, la estrategia 3FW-1BW también mejora los resultados
de la medida F1. Los resultados más significativos se obtienen para J4.8 y Naïve-Bayes.
Ambas modificaciones suponen una mejora relativa superior al 20 % para los tres clasificadores. Respecto a la estrategia de 3FW-1BW, la estrategia 4FW-1BW iguala los resultados
para SVM y J4.8, pero los empeora para Naïve-Bayes.
La figura 5.12 muestra la evolución del valor máximo de F1 de los tres algoritmos
anteriores con las estrategias de selección de atributos consideradas.
112
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
0,65
0,6
F1
0,55
0,5
0,45
0,4
Sin VoQ
FW
0,49
0,43
0,42
SVM
J4.8
NB
Con VoQ
3FW-1BW
0,61
0,56
0,58
FW
0,59
0,52
0,48
4FW-1BW
0,61
0,56
0,54
Figura 5.11: Valores máximos de F1 para los algoritmos SVM, J4.8 y Naïve-Bayes (NB) considerando la ausencia y presencia de parámetros de VoQ (conjuntos de datos data2LC y data2LCVQ5,
respectivamente). Se incluyen las estrategias de búsqueda hacia delante (FW), 3FW-1B y 4FW-1BW.
0,7
0,6
0,6
0,5
0,5
0,4
0,4
F1
0,7
0,3
0,3
SVM_3FW-1BW
0,2
SVM_4FW-1BW
0,2
J48_3FW-1BW
0,1
0
J48_4FW-1BW
NB_3FW-1BW
1
20
40
60
80
NB_4FW-1BW
0,1
100
120
140
Número de iteraciones
(a)
160
180
0
1
20
40
60
80
100
120
140
160
Número de iteraciones
(b)
Figura 5.12: Valores máximos de F1 por iteración considerando el conjunto de datos data2LCVQ5
con las estrategias de selección de parámetros: (a) 3FW-1BW y (b) 4FW-1BW.
5.2.6. Fusión de clasificadores
La fusión de clasificadores se realiza mediante dos estrategias de stacking (véase la
sección 4.3.1) diferentes: mediante un sistema de voto mayoritario ponderado y a través
de un algoritmo de reglas PART.
El sistema de voto mayoritario combina 7 de los 9 clasificadores que consideran los
parámetros prosódicos y de VoQ de la figura 5.11. Se descartan, por lo tanto, los algoritmos J4.8/FW y NB/FW por obtener los peores resultados. El sistema de votación tiene
en cuenta la asignación correcta/incorrecta (en referencia a si se corresponde con el estilo
5.3. Resumen
113
emocional pretendido o no, respectivamente) que cada clasificador realiza de una misma locución y se establece un número mínimo de votos para considerar como incorrectas
cada una de ellas. Dado que un análisis de cada estilo revela que las locuciones correspondientes al estilo agresivo son detectadas como incorrectas por pocos clasificadores, se
crea un sistema ponderado que multiplica por 2 el número de votos que reciben las locuciones de este estilo. La figura 5.13 muestra la evolución de precisión, cobertura y medida
F1 del sistema en función del número mínimo de votos que se consideren necesarios para determinar que una locución sea incorrecta. El valor máximo de F1 es 0,71, obtenido
con un mínimo de 4 votos, lo cual mejora el mejor resultado individual (0,61) de forma
significativa.
Una alternativa al sistema de votación es entrenar un clasificador de nivel 1 que
tome una decisión final a partir de los resultados de los clasificadores de la figura 5.11
(clasificadores de nivel 0). En este caso se escoge el algoritmo PART de creación de reglas
de decisión. El resultado de la medida F1 es 0,73, el cual es ligeramente superior al de
votación. El algoritmo 1 muestra las reglas creadas por PART, en el que los clasificadores
escogidos son C1=SVM(3FW-1BW), C2=J4.8(3FW-1BW), C3=J4.8(4FW-1B) y C4=NaïveBayes(3FW-1BW). Los resultados de cada clasificador se expresan como 0 o 1, donde 0
significa que la locución se clasifica de forma correcta y 1 significa que la locución no
se clasifica correctamente. El número de casos clasificados de forma correcta/incorrecta se
muestra entre paréntesis. Las reglas se aplican en el orden establecido y, en el caso de
que no se cumplan las condiciones de cada una de ellas, se asigna, por defecto, la clase
mayoritaria.
Algoritmo 1 Algoritmo PART para la fusión de clasificadores en el proceso de reconocimiento afectivo de mapeo subjetivo.
C1 = 0 y C2 = 0 y C3 = 0 y C4 = 0: Correcta (408/10)
C1 = 0 y Estilo = AGR y C2 = 1: Incorrecta (7/2)
C1 = 0: Correcta (25)
C3 = 1: Incorrecta (18/3)
C2 = 0 y C4 = 0: Correcta (4/1)
C2 = 0: Incorrecta (2)
: Correcta
5.3. Resumen
Este capítulo ha recogido diferentes experimentos de reconocimiento afectivo automático relacionados con corpus de voz actuada y estimulada grabados en condiciones
óptimas. Se han considerado dos perspectivas distintas.
En primer lugar, se ha planteado un reconocimiento afectivo automático a nivel
básico consistente en maximizar la WAR de dos corpus distintos mediante parámetros
acústicos a nivel prosódico y de VoQ. Comparando los resultados obtenidos por los cla-
114
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
1
Cobertura
Precisión
0,9
F1
F1 PART
0,8
0,7
0,6
0,5
0,4
0
1
2
3
4
5
Número de votos
6
7
Figura 5.13: F1, cobertura y precisión de la fusión de clasificadores por votación en función del
mínimo número de votos necesario para considerar las locuciones como incorrectas. Se incluye el
resultado de la F1 conseguida por la fusión mediante el algoritmo PART.
sificadores y las pruebas subjetivas realizadas por evaluadores humanos se comprueba
que la tasa de reconocimiento conseguida por los algoritmos objetivos es, en ocasiones,
incluso superior a la obtenida de forma subjetiva. Sin embargo se aprecian diferencias a
nivel de categorías concretas en función del esquema de aprendizaje analizado en cada
caso y de la parametrización escogida.
En segundo lugar se ha propuesto un sistema automático orientado a obtener unos
resultados de clasificación próximos a los obtenidos de forma subjetiva. Es decir, pretendiendo que la clasificación automática mapee el criterio subjetivo con la finalidad de poder
realizar una validación automática de un corpus extenso sin necesidad de invertir grandes
recursos humanos en esa tarea. A diferencia de la propuesta realizada en primer lugar,
en esta ocasión los resultados subjetivos obtenidos a partir de un fragmento del corpus
sirven para ajustar el sistema de reconocimiento automático permitiendo conseguir una
aproximación del mapeo deseado. Este ajuste se realiza mediante la selección adecuada
de los parámetros para maximizar la medida F1 computada en base a la clasificación subjetiva y la objetiva. Para ello se emplean algoritmos de búsqueda voraz hacia delante, atrás
y combinada. Asimismo, se aplica la fusión de varios clasificadores mediante dos técnicas
de stacking que permite mejorar la clasificación de aquellas clases que son clasificadas con
diferente precisión por distintos algoritmos.
Los resultados de los experimentos anteriores ponen de manifiesto que el análisis
de corpus de voz grabados por actores en condiciones óptimas es una tarea que proporciona, por lo general, buenos resultados. Sin embargo, estos experimentos trabajan dentro de
un escenario difícilmente reproducible en una aplicación real. Estos esquemas de aprendizaje reconocen emociones plenas concretas que proceden de un único locutor por lo que
5.3. Resumen
115
distan mucho de emular el comportamiento humano, el cual es capaz de reconocer una
amplia variedad de estilos afectivos (con sus diferentes grados de intensidad) de locutores
diferentes. Es por ello que en el siguiente capítulo se abordan experimentos destinados
a trabajar en un entorno más realista, en los que se pondrán de manifiesto diferencias
notables con los resultados aquí obtenidos.
116
5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados
Capítulo 6
Reconocimiento afectivo en corpus
de voz espontánea
Este capítulo se centra en el reconocimiento afectivo automático realizado en el
corpus FAU Aibo, un corpus de expresión vocal espontánea de varios locutores que presenta, por sus propias condiciones de grabación, unas condiciones muy distintas de las
estudiadas en los experimentos del capítulo 5 y que suponen, en consecuencia, un planteamiento distinto de los experimentos llevados a cabo. Este capítulo detalla este nuevo
planteamiento y las diferencias respecto a los experimentos presentados en el anterior,
tanto en su definición como en los resultados obtenidos.
En primer lugar, este capítulo se centra en la metodología que siguen los distintos
experimentos planteados. A continuación se detallan los experimentos de reconocimiento
afectivo agrupados en tres bloques según su objeto de análisis: parámetros acústicos y
parámetros lingüísticos de forma independiente, y la fusión de ambas modalidades para
un estudio conjunto.
En estos experimentos se trata el ejercicio de clasificación desde distintas perspectivas, considerando tanto esquemas de clasificación individuales como estructuras más
complejas, agrupando varios clasificadores mediante estructuras jerárquicas, estructuras
en cascada o mediante fusión a nivel de decisión. Las modalidades acústica y lingüística se fusionan a nivel de decisión y a nivel de parámetros. Por otra parte, se abordan
experimentos de selección de parámetros destinados a reducir el volumen de datos con
la finalidad de reducir la complejidad de los esquemas de reconocimiento propuestos y
optimizar las tasas de clasificación alcanzadas.
117
118
6. Reconocimiento afectivo en corpus de voz espontánea
6.1. Metodología
La metodología de los experimentos presentados en este capítulo difiere de la presentada en el capítulo anterior en varios aspectos que se detallan a continuación. Básicamente, estas diferencias hacen referencia al esquema general de los experimentos, a la
métrica que se emplea para medir y comparar sus resultados y los métodos de evaluación
de los esquemas de aprendizaje.
6.1.1. Esquema general
A diferencia de los experimentos propuestos para el reconocimiento afectivo automático en corpus grabados por actores, como los expuestos en el capítulo 5, los experimentos de reconocimiento afectivo en corpus espontáneos no pueden dividirse en los
dos grupos que se habían propuesto: experimentos de reconocimiento afectivo básico y
de mapeo subjetivo. En primer lugar porque, dada la propia naturaleza del corpus, no
tiene sentido plantear una validación del mismo. La grabación recoge locuciones con un
estilo afectivo natural que no se ciñe a ningún guion previo por lo que, dado que no hay
un estilo pretendido, no pueden descartarse locuciones por no expresar correctamente un
estilo afectivo concreto. En segundo lugar porque un corpus espontáneo siempre es etiquetado en una fase posterior a su grabación. Esto implica que el etiquetado del corpus ya
está realizado en base a un criterio subjetivo por lo que cualquier experimento de reconocimiento afectivo automático está realizando, de forma implícita, un mapeo subjetivo. Así
pues, un experimento de reconocimiento afectivo automático en un corpus espontáneo
es, en cuanto a estructura, muy similar a uno de reconocimiento afectivo básico, si bien
existe implícito un mapeo del criterio subjetivo.
La figura 6.1 muestra el esquema de un experimento de reconocimiento afectivo
automático basado en un corpus de voz espontánea. A diferencia del esquema propuesto
en la figura 5.1, el etiquetado del corpus es posterior a la grabación del mismo y se realiza
de forma subjetiva1 , proceso que sustituye a la fase de evaluación subjetiva. El resto de
módulos sí son iguales a los del esquema anterior. Los experimentos que se recogen en
este capítulo siguen esta estructura genérica.
6.1.2. Métrica
Además de la diferencia en el esquema genérico propuesto, los experimentos de
reconocimiento afectivo automático en el corpus de voz espontánea FAU Aibo recogidos
en este capítulo también se diferencian de los del capítulo anterior en la métrica empleada
1
En el caso del corpus FAU Aibo, este etiquetado subjetivo consiste en la asignación de una etiqueta categórica a cada palabra de cada una de las locuciones del corpus. Este proceso involucra a cinco evaluadores.
Posteriormente, un algoritmo heurístico asigna una etiqueta global a la locución a partir de la evaluación
individual de cada palabra (Steidl, 2009).
6.1. Metodología
119
Corpus de voz
parametrizado
Corpus de voz
Parametrización
Etiquetado
subjetivo
Selección
de atributos
Clasificación
automática
Evaluación objetiva
100
90
80
70
60
50
40
30
20
10
0
1
2
3
4
Resultado objetivo
Figura 6.1: Esquema de un experimento genérico de reconocimiento afectivo en corpus de voz
espontánea.
para medir el rendimiento de los esquemas de aprendizaje. En este caso se mide la UAR
en lugar de la WAR dado que el corpus FAU Aibo es un corpus no equilibrado, es decir,
existe una notable diferencia entre el número de casos de unos estados afectivos frente a
otros (véase la sección 3.4.3.1). Por ejemplo, la clase mayoritaria es la correspondiente al
estado neutro, lo cual es acorde con un escenario real, en el que las interacciones neutras
son las más abundantes ya que raramente se producen expresiones emocionales (Batliner
et al., 2003). Por ese motivo, en un escenario de estas características es tan importante detectar las locuciones con contenido emocional como las neutras y es por eso que la UAR es
de especial utilidad, ya que no mide únicamente el número de casos correctamente clasificados sino que tiene en consideración el número de casos de cada clase que se clasifican
de forma correcta (véase la sección 4.3.4).
Sin embargo, en los primeros experimentos de este capítulo también se incluirá
el resultado de la WAR con la finalidad de comparar resultados y analizar el comportamiento general de los clasificadores estudiados en un corpus de estas características.
No obstante, la medida que se considerará objetivo de maximización será la UAR por las
razones antes expuestas.
6.1.3. Métodos de evaluación
El corpus FAU Aibo ofrece dos subconjuntos diferentes que Schuller et al. (2009)
escogen como conjunto de datos de entrenamiento y conjunto de datos de prueba (véa-
120
6. Reconocimiento afectivo en corpus de voz espontánea
se la sección 3.4.3.1). Esta división permite que los esquemas de aprendizaje puedan ser
entrenados y probados de forma independiente. Esto permite destacar varios aspectos:
Se trabajará en un entorno de varios locutores en los que el sistema será probado
con voces diferentes a las que se emplearon para su entrenamiento. Esto permitirá
observar si el sistema es capaz de reconocer expresiones emocionales genéricas y no
voces concretas ni expresiones emocionales propias de usuarios específicos.
Dado que ambos conjuntos constan de locuciones grabadas por personas diferentes,
las expresiones emocionales serán ligeramente diferentes en la forma en la que son
expresadas. El análisis por separado permitirá comprobar si el sistema es capaz de
reconocer la emoción subyacente dentro de las particularidades de cada expresión
concreta.
Entrenar y probar con conjuntos diferentes permitirá emular el funcionamiento del
sistema de reconocimiento en un entorno real en el que el sistema debería ser capaz
de reconocer los estados afectivos sin necesidad de haber sido entrenado con los
mismos usuarios que después lo utilicen.
Este método de evaluación permite comparar los resultados de diferentes experimentos que siguen la misma metodología tal y como se detalla en la sección 4.4.2. Ello no
impide, sin embargo, que no se puedan aplicar otras metodologías utilizando, únicamente, el subconjunto de datos de entrenamiento como paso previo a la evaluación mediante
los dos subconjuntos, tales como una validación cruzada de varias iteraciones o independiente de los sujetos. Ello facilitaría la tarea de elección de parámetros y algoritmos
al trabajar con un conjunto de datos más reducido y, además, permitiría una posterior
validación mediante el subconjunto de prueba que, en todo momento excepto al final,
permanecería fuera del experimento.
Los experimentos que se recogen en este capítulo emplean diferentes métodos de
evaluación si bien todos ellos realizan, como paso final, una evaluación mediante los subconjuntos de entrenamiento y prueba para permitir la comparación de sus resultados,
tanto entre ellos como con el resto de experimentos que siguen la metodología aquí explicada, que es la empleada mayoritariamente por los trabajos realizados sobre el corpus
FAU Aibo.
Schuller et al. (2009) proponen un resultado de referencia para un entorno de estudio como el aquí descrito, dentro del marco del Emotion Challenge 2009 (véase la sección
6.2.1). Esta referencia se corresponde con un valor de UAR del 38,2 %, obtenido mediante
un algoritmo SVM de kernel lineal al analizar el conjunto de datos acústicos estandarizado
y remuestreado mediante la técnica SMOTE (Chawla et al., 2002), tal y como se introducía
en la sección 4.4.2. Este es el resultado que también se considerará como referencia a lo
largo de este capítulo.
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
121
6.2. Reconocimiento afectivo basado en el análisis de parámetros
acústicos
Esta sección recoge los experimentos realizados a nivel acústico sobre el corpus
FAU Aibo, siguiendo la línea expuesta en el capítulo anterior. Se detallan dos experimentos que analizan el corpus únicamente a nivel acústico empleando la parametrización descrita por Schuller et al. (2009). Ambos experimentos estudian, en primer lugar, el
subconjunto de entrenamiento mediante dos técnicas distintas: una validación cruzada
de 10 iteraciones (sección 6.2.1) y una estrategia LOSO (sección 6.2.2), respectivamente,
garantizando la independencia entre el subconjunto de entrenamiento y el de prueba durante la fase de elección del mejor esquema de clasificación. En segundo lugar se validan
los resultados obtenidos mediante un entrenamiento con el primer subconjunto completo y la clasificación de los elementos del segundo subconjunto. Por otra parte, la sección
6.2.1 presenta unos resultados preliminares tal y como se recogen en (Planet et al., 2009),
mostrando distintos esquemas de clasificación y una primera selección de parámetros. La
sección 6.2.2 emplea un conjunto de datos mejorado y presenta otros esquemas de clasificación, incluyendo una aproximación bidimensional, y una selección de parámetros más
precisa.
6.2.1. Propuesta para el Emotion Challenge 2009
El primer experimento de reconocimiento afectivo automático con voz espontánea
se realiza a partir de las reglas establecidas por Schuller et al. (2009) en el marco del Emotion Challenge de la X Conferencia INTERSPEECH 2009, analizando el corpus FAU Aibo.
Estas reglas determinan el corpus FAU Aibo como elemento de estudio para todos los
participantes, abriéndose por primera vez para la comunidad científica en general y definiendo los dos subconjuntos antes citados. Asimismo ofrece una parametrización acústica
realizada mediante una versión preliminar del software openSmile incluido en el paquete
openEAR (Eyben et al., 2009), tal y como se describe en la sección 3.4.3.2. Los parámetros
se proporcionan en el formato adecuado para ser procesados mediante la herramienta
WEKA.
Este experimento se enmarca en dos de las tres partes que componen el Emotion
Challenge 2009 (tal y como se señalaba en la sección 4.4.2). El objetivo general es maximizar
la UAR. Los detalles de las partes se describen a continuación:
Desafío de clasificación (Classifier Sub-Challenge). Consiste en el estudio de los parámetros acústicos suministrados por la organización del Emotion Challenge 2009 (véase la tabla 3.4), de forma exclusiva y sin añadir ningún otro parámetro extraído a
partir de los archivos de audio si bien se permite la modificación de los parámetros
originales. El análisis puede realizarse mediante un único clasificador o mediante la
combinación de varios de ellos. Los experimentos se detallan en la sección 6.2.1.1.
122
6. Reconocimiento afectivo en corpus de voz espontánea
Desafío de parámetros (Feature Sub-Challenge). Esta parte consiste en la búsqueda de
los parámetros más relevantes, hasta un máximo de 100, para la maximización de
los resultados de la UAR conseguida por los esquemas de clasificación. Se permite
la inclusión de nuevos parámetros a los ya proporcionados por los organizadores.
Este análisis se detalla en la sección 6.2.1.2.
Las propuestas y los resultados obtenidos en ambas partes del estudio se recogen
en (Planet et al., 2009). A continuación se explican los detalles de los mismos.
6.2.1.1.
Desafío de clasificación
La propuesta presentada en el desafío de clasificación del Emotion Challenge 2009
consta de cuatro estrategias de clasificación. En primer lugar se plantea una batería de
pruebas con distintos clasificadores, similar al planteamiento que se presentó en la sección 5.1.1. Después, con la finalidad de mejorar los resultados obtenidos, se diseñan dos
metaclasificadores jerárquicos y uno más con estructura en cascada. En todos los casos
la evaluación consiste en evaluar varios clasificadores mediante una validación cruzada
de 10 iteraciones considerando, únicamente, el subconjunto de entrenamiento. Después
se repite la evaluación mediante un entrenamiento con el primer subconjunto y la consiguiente evaluación con el segundo. Los resultados expuestos en esta sección recogen los
resultados de ambas evaluaciones.
Evaluación de algoritmos simples de clasificación. En el primer caso, en el que se evalúan distintos algoritmos de clasificación, los algoritmos escogidos son los determinados
como más relevantes en base a los resultados obtenidos en el experimento preliminar de
la sección 5.1.2: el árbol de decisión J4.8, dos algoritmos KNN con selección de un vecino
más próximo y basados en la distancia euclídea (IB-A) y en la distancia Manhattan (IB-B),
Naïve-Bayes con discretización supervisada previa del conjunto de datos, el algoritmo de
tablas de decisión DT y un algoritmo SVM de kernel lineal, entrenamiento mediante el
algoritmo de optimización secuencial mínima y empleando discriminación por parejas.
La figura 6.2 muestra los resultados de los clasificadores anteriores según los dos
métodos de evaluación antes descritos. Se pueden observar diferencias entre los resultados obtenidos por la validación cruzada y el entrenamiento y prueba con los dos conjuntos independientes. En general, los resultados procedentes de la evaluación de conjuntos independientes es peor, en términos de UAR, que los obtenidos por la validación
cruzada. Sin embargo, el algoritmo Naïve-Bayes no es particularmente susceptible a la
evaluación con un método u otro, aunque obtiene un resultado bajo en términos de WAR.
Naïve-Bayes, además, mejora el resultado de referencia al obtener un valor de UAR en la
evaluación con dos conjuntos independientes del 41,16 %, en un 2,96 % absoluto (7,75 %
relativo). La figura 6.3 muestra la matriz de confusión de este clasificador en su evaluación
mediante los dos conjuntos independientes. Nótese la dificultad para clasificar correcta-
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
123
mente los casos de la clase R, lo cual es acorde con la propia indefinición de esta categoría
afectiva. El mejor resultado en términos de WAR se obtiene mediante el algoritmo SVM
de kernel lineal, siendo su UAR la segunda mejor del experimento.
70
65
60
55
50
45
40
35
30
25
20
10-FCV WAR
10-FCV UAR
Test set WAR
Test set UAR
J4.8
48,26
33,31
48,23
26,82
IB-A
50,83
33,55
48,92
26,14
IB-B
54,82
39,37
50,05
27,35
NB
41,67
41,72
39,14
41,16
DT
59,89
28,33
64,71
24,53
SVM
63,71
37,54
65,62
28,94
Porcentaje de clasificación automática
Figura 6.2: Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los
clasificadores según su evaluación mediante una validación cruzada de 10 iteraciones (10-FCV) y
mediante los dos conjuntos independientes (Test set). Adaptado de (Planet et al., 2009).
70
60
50
40
30
20
10
0
E
A
N
R
P
E
47,21
23,81
21,02
3,05
4,91
A
21,11
50,74
13,75
4,58
9,82
N
19,16
22,88
37,7
4,26
16,01
R
12,27
22,34
32,6
9,71
23,08
P
3,26
6,51
24,19
5,58
60,47
Clasificación real
Figura 6.3: Matriz de confusión del algoritmo Naïve-Bayes evaluado mediante los dos conjuntos
independientes de entrenamiento y de prueba. Adaptado de (Planet et al., 2009).
124
6. Reconocimiento afectivo en corpus de voz espontánea
Estructura jerárquica de dos niveles basada en un clasificador binario y uno general.
La idea de este algoritmo jerárquico es clasificar las locuciones de la clase N en un primer
nivel de decisión mediante un clasificador especializado y, posteriormente, clasificar el
resto de locuciones mediante un clasificador de segundo nivel. La figura 6.4 representa
este clasificador jerárquico en el que se plantea un primer nivel de decisión en el que
las locuciones son clasificadas de forma binaria, según pertenezcan a la clase N o a otra
distinta (¬N). En el segundo nivel de decisión un clasificador es entrenado con el corpus
completo después de haber sido remuestreado para conseguir una distribución uniforme
de las clases2 . En esta figura, como en todas las de esta sección, los elementos coloreados
en azul indican relación con la fase de entrenamiento y los coloreados en rojo indican
relación con la fase de prueba. Las líneas punteadas indican flujos de datos que sirven
para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que
son evaluados en un clasificador, independientemente de si se estos flujos intervienen en
la fase de entrenamiento o la de prueba3 .
Conjunto de
entrenamiento
Conjunto de
prueba
Clasificador binario
N / ¬N
Remuestreo
¬N
Clasificador general
E/A/N/R/P
Resultados
N
Figura 6.4: Esquema del clasificador jerárquico de dos niveles basado en un clasificador binario
de primer nivel y un clasificador general de segundo nivel. Los elementos coloreados en azul
indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la fase
de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador
mientras que las líneas sólidas indican flujos de datos que son evaluados en un clasificador.
2
La técnica de remuestreo empleada es sencilla y consiste en eliminar algunos casos de las clases mayoritarias y repetir algunos casos de las minoritarias. Es, por lo tanto, un proceso de filtrado automático supervisado
y permite reducir, mantener o incrementar, según sea la configuración del experimento, el número de casos
del conjunto de datos final.
3
No es el caso de este esquema pero, en ocasiones (por ejemplo, en el esquema de la figura 6.5), es posible
que durante la fase de entrenamiento se evalúen algunos datos del conjunto de entrenamiento en un clasificador que ya ha sido entrenado con la finalidad de emplear el resultado de clasificación para entrenar un
segundo módulo. Estos datos aparecerían representados en color azul (por estar relacionados con la fase de
entrenamiento) y una línea sólida, ya que son evaluados por un clasificador.
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
125
Se escogen dos clasificadores de tipo SVM lineal como el descrito en el experimento
anterior4 . En este caso se trabaja con dos versiones diferentes del conjunto de datos: la
original y una versión estandarizada. La tabla 6.1 muestra los resultados obtenidos en
ambos casos, los cuales superan los del experimento anterior excepto los del algoritmo
Naïve-Bayes, que mantiene el mejor resultado en términos de UAR. En comparación con
el clasificador SVM de la sección anterior (cuyo resultado se muestra en la primera fila de
la tabla 6.1), el valor de WAR disminuye y aumenta el valor de UAR, lo cual es acorde con
el objetivo planteado. Dado que el conjunto de datos estandarizado mejora la UAR, esta
versión será la escogida para el resto de esquemas de aprendizaje de esta sección.
Tabla 6.1: Resultados para la evaluación mediante dos conjuntos independientes de la estructura
jerárquica basada en dos niveles: un primer nivel binario y un segundo nivel con un único clasificador general. Se incorpora en la primera fila el resultado obtenido por un clasificador SVM como
referencia, tal y como se especifica en el experimento anterior (figura 6.2). Adaptado de (Planet et
al., 2009).
Conjunto de datos
Original
Original
Estandarizado
Clasificador
SVM (1 nivel)
SVM (2 niveles)
SVM (2 niveles)
WAR
65,62
60,78
58,71
UAR
28,94
30,82
32,30
Estructura jerárquica de dos niveles basada en un clasificador binario y dos generales.
La estrategia de esta segunda estructura jerárquica de dos niveles es lograr conjuntos de
datos mejor equilibrados en un primer nivel con los que entrenar los clasificadores de segundo nivel mediante un método natural, sin emplear una técnica de remuestreo como
en el primer esquema propuesto. Esta estructura consiste, al igual que en el caso anterior y tal y como se muestra en la figura 6.5, en un clasificador de primer nivel (1C) en el
que las locuciones son clasificadas de forma binaria según su pertenencia a la clase N o a
otra distinta (¬N). A diferencia de la estructura anterior, dos clasificadores generales son
entrenados en el segundo nivel empleando el conjunto de datos de entrenamiento tras
haber sido clasificado por el clasificador binario de primer nivel. El primer clasificador
(2C-1) es entrenado con aquellos casos de la clase N que han sido correctamente clasificados por el clasificador de primer nivel (verdaderos positivos) y con los casos que, sin
pertenecer a la clase N, han sido clasificados por ese mismo clasificador como tales (falsos
positivos). El segundo clasificador (2C-2) es entrenado con aquellos casos de la clase N
clasificados incorrectamente como no pertenecientes a esa clase (¬N) (falsos negativos) y
con los casos no pertenecientes a la clase N que han sido correctamente clasificados como
tales (verdaderos negativos).
La tabla 6.2 muestra los resultados de esta segunda estructura jerárquica de dos niveles, considerando diferentes clasificadores en las etapas de las que consta la estructura.
Los clasificadores SVM son los mismos que los descritos en los experimentos anteriores si
4
Para simplificar, no se incluyen los resultados de otros algoritmos dado que obtienen resultados inferiores
en esta estructura.
126
6. Reconocimiento afectivo en corpus de voz espontánea
Conjunto de
prueba
Conjunto de
entrenamiento
Clasificador binario
N / ¬N
1C
Clasificado como N
Clasificado
como N
Clasificador general
E/A/N/R/P
Clasificado como ¬N
Clasificado
como ¬N
Clasificador general
E/A/N/R/P
2C-1
2C-2
Resultados
Figura 6.5: Esquema del clasificador jerárquico de dos niveles basado en un clasificador binario
de primer nivel (1C) y dos clasificadores generales de segundo nivel (2C-1 y 2C-2). Los elementos
coloreados en azul indican relación con la fase de entrenamiento y los coloreados en rojo indican
relación con la fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que son evaluados en un
clasificador, independientemente de si se estos flujos intervienen en la fase de entrenamiento o la
de prueba.
bien se introduce un clasificador SVM de kernel gaussiano, el cual mejora los resultados
en términos de WAR pero los empeora en términos de UAR. El mejor resultado se obtiene para la configuración de dos clasificadores SVM y un clasificador Naïve-Bayes, para
los casos clasificados como ¬N, que mejora el resultado del experimento anterior pero
se mantiene por detrás del obtenido por un único clasificador Naïve-Bayes en el primer
experimento.
Tabla 6.2: Resultados para la evaluación mediante dos conjuntos independientes de la estructura
jerárquica basada en dos niveles: un primer nivel binario y un segundo nivel con dos clasificadores
generales. 1C indica el algoritmo de clasificación empleado en el primer nivel. 2C-1 y 2C-2 indican
los algoritmos empleados en el primer y segundo clasificador, respectivamente, del segundo nivel.
Adaptado de (Planet et al., 2009).
1C
SVM lineal
SVM gaussiano
SVM lineal
2C-1
SVM lineal
SVM gaussiano
SVM lineal
2C-2
SVM lineal
SVM gaussiano
Naïve-Bayes
WAR
63,04
64,28
60,20
UAR
30,20
27,97
32,63
Estructura de clasificación en cascada La estructura de clasificación en cascada propuesta aparece representada en la figura 6.6. En cada uno de los 5 niveles de la estructura
se clasifican las locuciones según pertenezcan o no a una clase concreta. El orden de las
clases se establece en función de la población de las mismas (las mayoritarias primero y
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
127
las minoritarias al final) con la finalidad de descartar casos en cada nivel y crear conjuntos
de datos más equilibrados para entrenar el siguiente clasificador. Así pues, el primer clasificador es entrenado con el conjunto de datos de entrenamiento completo y su finalidad
es distinguir los casos de la clase N del resto. Es decir, el primer clasificador es binario
y separa las locuciones según pertenezcan a la clase N o al resto (¬N). El segundo clasificador, ubicado en un nivel inferior, es entrenado para llevar a cabo la misma función
pero, en este caso, analizando la segunda clase más poblada del corpus FAU Aibo, es decir, distinguiendo los casos de la clase E del resto. Sólo los casos clasificados como ¬N por
el primer clasificador son usados para entrenar este segundo clasificador. Esta estructura
es repetida hasta el quinto clasificador, el cual analiza la clase menos poblada del corpus,
es decir, la clase P. En este caso, y por ser el último, los casos identificados como ¬P son
asignados, por defecto, a la clase N dado que es la clase mayoritaria.
Conjunto de
entrenamiento
Conjunto de
prueba
N / ¬N
¬N
N
¬N
¬N
E / ¬E
¬E
E
¬E
¬E
A / ¬A
¬A
A
¬A
¬A
R / ¬R
¬R
R
¬R
¬R
P / ¬P
P
Resultados
¬P → N
Figura 6.6: Esquema del clasificador en cascada basado en 5 niveles de clasificación ordenados
según la población de cada una de las clases del corpus FAU Aibo. Los elementos coloreados de
azul indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la
fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que son evaluados en un clasificador,
independientemente de si se estos flujos intervienen en la fase de entrenamiento o la de prueba.
Empleando clasificadores SVM de kernel lineal en cada nivel, la WAR es de 65,53 %
y la UAR de 28,03 %. Dado que la clase R es la que presenta una definición más difusa y es,
por lo tanto, más difícil de caracterizar, se plantea el cambio de orden de los niveles R y P.
Con esta modificación la WAR es de 65,33 % y la UAR de 28,12 %. En comparación con los
experimentos anteriores, este planteamiento mejora la WAR pero empeora la UAR. Sin
128
6. Reconocimiento afectivo en corpus de voz espontánea
embargo la fase de entrenamiento es más rápida porque el tamaño de los conjuntos de
datos en cada nivel es inferior al de los otros experimentos.
6.2.1.2.
Desafío de parámetros
En cuanto a la selección de parámetros planteada al inicio de esta sección, en primer
lugar se completa la parametrización original del corpus. Para completar esta parametrización se añade una serie de parámetros relativos a la VoQ que han demostrado ser útiles
en estudios anteriores (Iriondo et al., 2007b, 2009). Estos parámetros, cuya descripción se
puede consultar en la sección 3.3.1.1, son los siguientes descriptores de bajo nivel: jitter,
shimmer, HammI, SFM, do1000 y pe1000. Esta parametrización se lleva a cabo únicamente
en las partes sonoras de las locuciones y los funcionales extraídos son los mismos que los
del resto de descriptores de bajo nivel originales del corpus FAU Aibo (véase la sección
3.4.3.2), con la excepción del segundo cuartil. Adicionalmente se añaden dos parámetros
relacionados con el ritmo: duración de los grupos acentuales y duración de las sílabas.
La duración de los grupos acentuales se estima mediante la distancia entre máximos locales del contorno frecuencial, tal y como se definen en (Planet et al., 2009). Este
contorno se obtiene restando un contorno de base al contorno original. El contorno de
base consiste en el contorno original filtrado paso-bajas con una frecuencia de corte de 5
Hz5 . La duración de las sílabas se estima mediante la distancia entre picos de intensidad
del contorno de energía de la señal (Planet et al., 2009). Ambos contornos se obtienen mediante la herramienta de análisis Praat. Para cada uno de estos parámetros se calculan dos
funcionales: media y desviación estándar. Considerando los parámetros de VoQ anteriores, en total se añaden 70 parámetros al conjunto de datos original. El conjunto resultante
final consta de 454 parámetros por locución, excluyendo la etiqueta emocional.
Para este experimento preliminar se opta por el método de filtro de selección de
parámetros mRMR (véase la sección 4.3.2) empleando la implementación en MATLAB de
Peng et al. (2005). El conjunto de datos de entrenamiento es previamente procesado en dos
etapas. En primer lugar, dado el gran volumen de datos, el conjunto de datos se reduce
a la mitad manteniendo la misma distribución de etiquetas afectivas. Seguidamente, los
parámetros son discretizados mediante un proceso descrito por (Peng et al., 2005) por
el cual primero son estandarizados, luego multiplicados por un factor k y, finalmente,
redondeados al entero más próximo, tal y como se muestra en la ecuación 6.1. En este
caso se escoge el valor de k = 10 de forma heurística.
parami = round(k × z-score(parami ))
5
(6.1)
Este método pretende ser independiente de la transcripción fonética al trabajar directamente con la curva
de F0. La eliminación de la variación lenta de F0 hace que los máximos de la curva resultante coincidan con
los acentos y que se pueda estimar, por lo tanto, el tiempo que transcurre entre los mismos. Este método se
validó verificando un conjunto reducido del corpus.
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
129
36
64
34
63
32
62
30
61
28
60
26
59
24
58
22
57
20
56
18
1
20
40
60
80
100
120
Número de parámetros
140
160
180
WAR (%)
UAR (%)
El algoritmo se configura para obtener 200 parámetros relevantes pero tan sólo se
escogen los 100 primeros de acuerdo con las especificaciones establecidas por Schuller et
al. (2009) para probar su rendimiento sobre el conjunto de prueba. La figura 6.7 muestra
una simulación del rendimiento de los conjuntos de entre 1 y 200 parámetros seleccionados por el algoritmo mRMR a través de la evaluación con un clasificador SVM de kernel
lineal mediante una validación cruzada de 10 iteraciones realizada sobre el conjunto de
datos de entrenamiento. El conjunto de datos de prueba no interviene en el proceso de
selección ni se emplea en esta simulación. Con 100 parámetros el conjunto de datos no
consigue el mejor rendimiento en la validación cruzada. Sin embargo, fuera del escenario
de la simulación representada en la figura anterior, un clasificador SVM de kernel lineal
entrenado con este subconjunto de 100 parámetros y evaluado con el conjunto de datos
de prueba alcanza una WAR de 64,95 % y una UAR de 21,32 %, lo cual supone una degradación absoluta del -0,67 % y del -7,62 %, respectivamente, respecto al resultado obtenido
por el mismo clasificador con el conjunto de datos original (véase la figura 6.2), siendo
este un 284 % más grande.
55
200
Figura 6.7: Tasas de clasificación ponderada (WAR, en negro) y no ponderada (UAR, en rojo),
del algoritmo SVM evaluado mediante una validación cruzada de 10 iteraciones, considerando
un conjunto de datos de entre 1 y 200 parámetros previamente escogidos por el criterio mRMR.
Adaptado de (Planet et al., 2009).
130
6.2.1.3.
6. Reconocimiento afectivo en corpus de voz espontánea
Discusión
Los resultados preliminares obtenidos tras el primer análisis del corpus FAU Aibo
muestran la mayor complejidad presente en el estudio de un corpus espontáneo frente a
la de un corpus actuado. Se comprueba la dificultad para obtener unas tasas de clasificación elevadas tanto ponderadas como no ponderadas y, generalmente, la mejora de una
medida supone la degradación de la otra. Además, se puede comprobar como el hecho
de trabajar en un entorno de varios locutores supone una dificultad añadida, lo cual se
observa en los resultados obtenidos al entrenar y probar los sistemas de clasificación empleando conjuntos de datos procedentes de locutores diferentes. Esta prueba proporciona
resultados por debajo de los obtenidos en la validación cruzada realizada en el conjunto de datos de entrenamiento, dado que en este último método se emplean datos de un
mismo usuario (además de los de otros) tanto para entrenar como para evaluar. Sin embargo, este efecto de degradación no es tan notable en el caso del algoritmo Naïve-Bayes,
el cual obtiene los mejores resultados, en términos de UAR, que en otros esquemas de
clasificación más complejos.
Por otra parte, el algoritmo mRMR empleado para realizar una selección automática de parámetros relevantes proporciona un conjunto heterogéneo y, en consecuencia,
de difícil interpretación. Por este motivo, al final de este capítulo (véase la sección 6.4.2.2)
se planteará un proceso de selección manual que permita interpretar adecuadamente los
parámetros escogidos.
6.2.2. Sistema de clasificación acústica mejorado
Tras comprobar que los algoritmos Naïve-Bayes y SVM son los que presentan un
mejor rendimiento en la tarea de clasificación del corpus FAU Aibo, en esta sección son
los clasificadores empleados para llevar a cabo un reconocimiento basado en parámetros
acústicos analizando un conjunto de datos actualizado. En este sentido, no se emplea la
parametrización utilizada en la sección anterior sino que se realiza una réplica de la misma mediante una versión más reciente del software openSmile. Si bien la definición del
corpus sigue siendo la misma en cuanto al número y la definición de los parámetros, el
cálculo de los mismos es más preciso en esta versión6 .
Se realizan dos tipos de clasificaciones: una categórica y otra dimensional, con el
objetivo de mejorar los resultados previos. La clasificación categórica no se basa en ningún
modelo emocional y plantea el ejercicio de reconocimiento afectivo como un caso de clasificación de las locuciones en clases concretas que, en este caso, son etiquetas afectivas. La
clasificación dimensional sí se basa en los modelos emocionales de activación-evaluación
para realizar una clasificación específica para estados afectivos.
6
La nueva versión del software openSmile corrige errores de la versión previa y modifica la representación
numérica al formato exponencial, lo que supone una mayor precisión.
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
131
Por otra parte, y para evitar que durante la fase de prueba los esquemas sean entrenados y probados con datos de un mismo locutor, se prescinde del método de evaluación
de validación cruzada por número de iteraciones y se sustituye por el método LOSO.
Por último, y de forma análoga a como se realizó en la sección anterior, se realiza
una selección de parámetros acústicos pero, en esta ocasión, sin las limitaciones establecidas en el desafío de parámetros antes expuesto.
6.2.2.1.
Clasificación categórica
En este experimento de clasificación acústica se analizan 4 esquemas de clasificación basados en los dos clasificadores Naïve-Bayes y SVM, antes mencionados. Estos
esquemas son los siguientes: un clasificador Naïve-Bayes discretizando de forma supervisada el conjunto de datos (esquema análogo al de la sección anterior), un clasificador
SVM de kernel lineal tras la normalización del conjunto de datos (SVM-A), un clasificador
SVM de kernel lineal tras la normalización y remuestreo del conjunto de datos creando
una distribución uniforme de las etiquetas emocionales7 (SVM-B) y, por último, un esquema que fusiona a nivel de decisión, mediante una estrategia de stacking empleando
un árbol de decisión J4.8 como clasificador de nivel 1 (véase la sección 4.3.1), los resultados de los dos esquemas que presentan un mejor rendimiento. Tal y como se observa en
la figura 6.8 estos son el primer y tercer esquema aquí descritos (NB+SVM-B). Estos dos
esquemas actúan como clasificadores de nivel 0. Este esquema de fusión se describe en
detalle a continuación.
A diferencia de la sección anterior, en este caso el método de evaluación empleado
en la primera fase del experimento sigue una estrategia LOSO sobre el subconjunto de
entrenamiento. En la segunda fase se analizan los subconjuntos de entrenamiento y de
prueba de forma independiente. En este caso, la estrategia LOSO consta de 26 iteraciones
ya que el subconjunto de datos de entrenamiento contiene información de 26 locutores.
Para la fusión de los clasificadores mediante el esquema de stacking antes introducido se emplean las decisiones categóricas8 de cada clasificador dado que el rendimiento
de este tipo de decisiones acostumbra a ser elevado y, al mismo tiempo, son decisiones
que aportan un volumen pequeño de datos al esquema de fusión (Gabrys y Ruta, 2006).
Este tipo de fusión muestra su buen rendimiento en trabajos previos de reconocimiento
afectivo (Morrison et al., 2007; Iriondo et al., 2009).
Un esquema de fusión stacking como el aquí planteado requiere de un diseño específico para su evaluación. En la fase de entrenamiento —tanto en la validación LOSO
7
Sólo de los datos empleados para entrenar el clasificador.
Las decisiones categóricas (o “duras”, del inglés hard decisions) son la respuesta de un clasificador en
forma de atributo discreto, en este caso en forma de la etiqueta afectiva que el clasificador asigna a cada caso
concreto. Las decisiones “blandas” (del inglés, soft decisions) hacen referencia a la respuesta de un clasificador
en forma de grado de pertenencia de cada caso concreto a cada clase afectiva.
8
132
6. Reconocimiento afectivo en corpus de voz espontánea
como en la evaluación mediante los dos conjuntos independientes—, los esquemas de
clasificación de nivel 0, Naïve-Bayes y SVM-B, son entrenados con los datos de entrenamiento correspondientes (convenientemente preprocesados de acuerdo a la definición de
cada esquema). A continuación, estos mismos datos de entrenamiento son evaluados por
estos dos algoritmos. A partir las decisiones categóricas obtenidas se crea un conjunto de
datos formado por las salidas de ambos clasificadores y la etiqueta afectiva real de cada
caso. Este conjunto de datos servirá para entrenar el algoritmo de clasificación de nivel
1, el árbol J4.8, pero antes es remuestreado para conseguir una distribución uniforme de
clases. El objetivo es intentar maximizar la UAR dado que el algoritmo J4.8 no está especialmente diseñado para obtener un rendimiento similar por clase sino para maximizar la
WAR. Nótese que el remuestreo sólo afecta a los datos de entrenamiento y nunca a los de
prueba. En la fase de prueba, los datos de prueba son evaluados por los dos clasificadores
de nivel 0. Las decisiones categóricas obtenidas son luego evaluadas por el clasificador
de nivel 1 que asigna una etiqueta afectiva final a cada locución. En el caso de la validación cruzada este proceso se realiza para cada iteración. En el caso del análisis de los dos
conjuntos independientes este proceso sólo se realiza una vez.
La figura 6.8 muestra los resultados de los esquemas de clasificación propuestos
en términos de tasas de clasificación ponderadas y no ponderadas.
70
65
60
55
50
45
40
35
30
25
LOSO WAR
LOSO UAR
Test set WAR
Test set UAR
NB
41,18
38,92
41,83
40,48
SVM-A
60,99
31,20
65,53
28,81
SVM-B
44,00
42,58
36,50
39,53
NB+SVM-B
43,80
41,92
32,74
40,67
Figura 6.8: Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los
clasificadores según su evaluación mediante una estrategia LOSO y mediante los dos conjuntos
independientes (Test set).
En cuanto los resultados obtenidos por el sistema LOSO, el clasificador SVM-B
obtiene el mejor resultado en términos de UAR. Frente al algoritmo Naïve-Bayes, que obtiene el segundo mejor resultado y era el mejor esquema de clasificación del experimento
anterior, obtiene una mejora absoluta del 3,66 % (9,40 % relativa).
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
133
En comparación con el esquema SVM-A, el cual no contempla el remuestreo de
los datos de entrenamiento, el algoritmo SVM-B obtiene una mejora absoluta del 11,38 %
(36,47 % relativa). Sin embargo, en términos de WAR, el resultado del esquema SVM-A
es un 16,99 % mejor que el resultado del esquema SVM-B. Esto ilustra que el algoritmo
SVM está orientado a maximizar el resultado global de clasificación, aunque en este caso
el interés se centre en obtener la mejor clasificación para todas y cada una de las etiquetas
emocionales, por lo que la creación de conjuntos de datos equilibrados favorece la clasificación de las clases individuales.
Los esquemas Naïve-Bayes y SVM-B se fusionan en el esquema NB+SVM-B, dado
que son los que mejores resultados obtienen. En términos de UAR, el esquema de fusión NB+SVM-B obtiene una mejora absoluta del 3 % (7,71 % relativa) frente al algoritmo
Naïve-Bayes por sí solo. Sin embargo, el resultado está ligeramente por debajo del obtenido por el algoritmo SVM-B.
En cuanto a los resultados obtenidos evaluando los conjuntos independientes de
entrenamiento y de prueba, el esquema de fusión NB+SVM-B es el que obtiene el mejor resultado en términos de UAR, mejorando los resultados obtenidos de forma independiente
por los dos esquemas que lo forman. Con respecto al esquema Naïve-Bayes la mejora es
0,19 % absoluta (0,47 % relativa) y con respecto al esquema SVM-B la mejora es del 1,14 %
absoluta (2,88 % relativa). Comparando el resultado de este algoritmo con el proporcionado por Schuller et al. (2009) como referencia (38,20 %), la mejora es 2,47 % absoluta (6,47 %
relativa).
El esquema Naïve-Bayes es el único que mejora su UAR en el caso de la evaluación
con los subconjuntos de datos independientes frente a la validación cruzada. El resto de
esquemas obtienen un resultado por debajo del obtenido en la validación cruzada. Esta
degradación es más notable en los esquemas SVM-A y SVM-B (-2,39 % y -3,05 %, respectivamente) que en el esquema de fusión NB+SVM-B (-1,25 %). Esto muestra que el esquema
Naïve-Bayes es más generalizable, pues soporta el cambio de datos en la fase de prueba
tras haber sido entrenado con otros diferentes.
Nuevamente, y tal y como sucedía en el experimento anterior, el esquema NaïveBayes es el que presenta una menor variación entre los resultados de WAR y UAR. Sin
embargo, el hecho de remuestrear los datos de entrenamiento a una distribución uniforme de clases permite que esta diferencia no sea muy elevada en otros esquemas. Así, es
notable la diferencia entre resultados WAR y UAR del esquema SVM-A mientras que esta
se ve reducida en el esquema SVM-B.
La figura 6.9 muestra la matriz de confusión del esquema de fusión NB+SVM-B
evaluado mediante los dos conjuntos de datos independientes. Se puede observar que los
casos de la clase R son los peor clasificados, si bien el resultado es mejor que la clasificación
del experimento anterior (véase la figura 6.2). Nuevamente se comprueba la dificultad de
clasificar esta clase, asociada a un valor bajo de afinidad prototípica, dada su poco exacta
definición.
6. Reconocimiento afectivo en corpus de voz espontánea
Porcentaje de clasificación automática
134
70
60
50
40
30
20
10
0
E
A
N
R
P
E
38,33
22,08
18,30
15,38
5,90
A
16,86
56,79
7,53
12,77
6,06
N
14,43
18,90
28,19
22,75
15,73
R
8,61
17,22
17,03
27,47
29,67
P
5,58
9,77
12,56
19,53
52,56
Clasificación real
Figura 6.9: Matriz de confusión del esquema de fusión NB+SVM-B evaluado mediante los dos
conjuntos independientes de entrenamiento y de prueba. Adaptado de (Planet et al., 2009).
6.2.2.2.
Clasificación dimensional
Los esquemas propuestos en los experimentos anteriores no se basan en ningún
modelo emocional. Para completar el análisis acústico del corpus FAU Aibo en esta sección
se expone un planteamiento basado en el modelo de activación-evaluación explicado en
la sección 2.1.3.3. La figura 6.10 muestra el mapeo de las etiquetas afectivas del corpus
FAU Aibo (véase la sección 3.4.3.1) en el espacio de activación-evaluación descrito por
Scherer (1984), según las definiciones de Steidl (2009) y Schuller et al. (2009) de cada una
de ellas. El mapeo en un espacio bidimensional permite la propuesta de dos clasificadores
jerárquicos, uno por cada dimensión.
A continuación se explica, en primer lugar, el diseño de estos dos clasificadores
jerárquicos por separado y, en segundo lugar, se explica el proceso de fusión y se detallan
los resultados obtenidos.
Clasificación en base a la dimensión de evaluación. La figura 6.11 muestra la división
teórica de las clases afectivas del corpus FAU Aibo en base a, en primer lugar, su prominencia emocional (emocional o no emocional)9 y, en segundo lugar, su evaluación (positiva o
negativa), según el mapeo ilustrado en la figura 6.10. De acuerdo con la definición de las
9
No debe confundirse el concepto de prominencia emocional aquí empleado con el explicado en la sección
3.3.2.1, que se refería a la parametrización lingüística de los elementos de las frases de un corpus. En este
caso se hace referencia a si la categoría afectiva es emocionalmente representativa de la dimensión afectiva
analizada.
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
135
activo
ACTIVACIÓN
Pj
no emocional
A
Rs
N
EVALUACIÓN
Rh
Rb
pasivo
Pm
E
positivo
no emocional
negativo
Figura 6.10: Mapeo en el modelo de activación-evaluación de Scherer (1984) de las etiquetas afectivas del corpus FAU Aibo, según las definiciones de Steidl (2009) y Schuller et al. (2009) de cada
una de ellas. Las etiquetas afectivas son neutro (N), enfado (A), enfático (E), positivo (P) (compuesto por maternal (Pm ) y alegre (Pj )) y resto (R) (compuesto por sorpresa (Rs ), impotencia (Rh )
y aburrimiento (Rb )).
etiquetas afectivas de Schuller et al. (2009), los estados maternal (Pm ) y alegre (Pj ) están cubiertos por la clase P, la cual se considera de evaluación positiva, la clase A se considera de
evaluación negativa y las clases E y N se consideran sin prominencia emocional. Por otra
parte, dado que la clase R está formada por 3 estados afectivos distintos (sorpresa (Rs ),
aburrimiento (Rb ) e impotencia (Rh )), se consideran 3 subclases para realizar el mapeo de
forma adecuada asignando 3 valores de evaluación distintos (evaluación positiva, negativa y sin prominencia emocional, respectivamente). No obstante, estas subclases deben ser
agrupadas en una etiqueta única (R) durante la fase de prueba de los clasificadores dado
que esta distinción no existe en el etiquetado original del corpus.
La figura 6.12 muestra el clasificador jerárquico propuesto en base a la división
de las etiquetas afectivas realizada arriba. La estructura consta de 5 clasificadores especializados, denominados microclasificadores y representados por el símbolo μCi donde
1 ≤ i ≤ 5. El microclasificador μC1 se entrena para distinguir las clases E, N y R (sin prominencia emocional) de las clases P, A y R (con prominencia emocional), de acuerdo con
la primera división del árbol de clasificación de la figura 6.11. El microclasificador μC2
se entrena para distinguir las 3 etiquetas sin prominencia emocional E, N y R, mientras
que el microclasificador μC3 se diseña para clasificar los casos de acuerdo a su valor de
evaluación: positiva (clases P y R) o negativa (clases A y R). Los microclasificadores μC4
y μC5 tienen el objetivo de realizar la última clasificación para separar las clases P, A y R.
Para implementar esta estructura se analizan los dos algoritmos que han obtenido mejores resultados en los experimentos anteriores: Naïve-Bayes y SVM. A partir de
136
6. Reconocimiento afectivo en corpus de voz espontánea
Con prominencia
emocional
Sin prominencia
emocional
Positivo
Alegre (Pj)
Negativo
Maternal (Pm)
Rs
Enfado
Reprensor
Rh
Quisquilloso
P
E
N
Rb
A
μC3
PR vs AR
P/R
E/N/R
μC4
P vs R
P/R
A/R
μC1
ENR vs PAR
μC2
E vs N vs R
PR / AR
ENR / PAR
E/N/R
Figura 6.11: Clasificación de las etiquetas afectivas del corpus FAU Aibo basada en la dimensión
de evaluación.
μC5
A vs R
A/R
Figura 6.12: Diseño del clasificador jerárquico basado en la dimensión de evaluación.
los resultados de UAR conseguidos por estos algoritmos en cada una de las partes de la
estructura jerárquica se escogen los mejores para implementar los distintos microclasificadores. Así, los algoritmos son: Naïve-Bayes para los microclasificadores μC1 y μC2 , y
SVM para los microclasificadores μC3 , μC4 y μC5 .
Clasificación en base a la dimensión de activación. La figura 6.13 muestra la división
teórica de las clases afectivas del corpus FAU Aibo en base a su prominencia emocional
en primer lugar y, en segundo lugar, en base a su activación (activas o pasivas). En este
caso, las clases Pm y Pj están en ramas diferentes del árbol de clasificación dado que su
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
137
dimensión de activación es distinta. Además, Rb , Rs y Rh aparecen otra vez en 3 grupos
distintos, tal y como ya sucedía en el análisis a través de la dimensión de evaluación.
Sin embargo, y tal y como se ha explicado antes, dado que no existe diferenciación en el
etiquetado original del corpus todas ellas se consideran agrupadas en una etiqueta única.
Con prominencia
emocional
Pasivo
Pm
E
Sin prominencia
emocional
Rh
Activo
Rb
Enfado
Reprensor
Quisquilloso
N
Pj
Rs
A
Figura 6.13: Clasificación de las etiquetas afectivas del corpus FAU Aibo basada en la dimensión
de activación.
La figura 6.14 muestra el clasificador jerárquico propuesto en base a la división
de las etiquetas afectivas realizada arriba. La estructura consta de 5 microclasificadores
(μCi , 1 ≤ i ≤ 5). El microclasificador μC1 se entrena para distinguir las clases N, P y R
(sin prominencia emocional) de las clases A, E, P y R (con prominencia emocional), de
acuerdo con la primera rama del árbol de la figura 6.13. El microclasificador μC2 tiene el
objetivo de clasificar las 3 clases sin prominencia emocional (N, P y R), mientras que el
microclasificador μC3 clasifica el resto de casos en base a su activación: activa (clases A y
R) o pasiva (E, P y R). Los microclasificadores μC4 y μC5 se encargan del último paso de
la clasificación en las clases A, E, P y R.
En este caso los algoritmos para implementar cada uno de los microclasificadores,
escogidos según el mismo procedimiento que en el caso anterior, son: Naïve-Bayes para
los microclasificadores μC2 y μC3 , y SVM para los microclasificadores μC1 , μC4 y μC5 .
Fusión. El esquema de fusión empleado para combinar los resultados de ambos clasificadores dimensionales es el mismo esquema de stacking propuesto en la sección 6.2.2.1,
mediante un árbol de decisión J4.8 como clasificador de nivel 1 y un remuestreo previo
de los datos de entrenamiento.
Los resultados de los clasificadores basados en cada dimensión y la fusión de ambos se recogen en la figura 6.15. Como se puede observar, una vez más los resultados
referentes a la medida WAR se sitúan por encima de los de la medida UAR, si bien la
fusión de los clasificadores dimensionales aproxima ambos valores. Además, a diferencia de los casos anteriores, no existen grandes diferencias entre los resultados obtenidos
por la validación LOSO y la evaluación mediante los dos conjuntos independientes de
6. Reconocimiento afectivo en corpus de voz espontánea
N/P/R
μC4
P vs E vs R
PER / AR
μC2
N vs P vs R
μC1
NPR vs AEPR
P/E/R
NPR / AEPR
N/P/R
138
A/R
μC3
PER vs AR
P/E/R
μC5
A vs R
A/R
Figura 6.14: Diseño del clasificador jerárquico basado en la dimensión de activación.
50
45
40
35
30
25
LOSO WAR
LOSO UAR
Test set WAR
Test set UAR
Evaluación
43,08
33,42
46,29
33,98
Activación
44,01
35,10
48,84
34,22
Fusión
41,75
39,10
35,06
28,69
Figura 6.15: Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los
esquemas jerárquicos basados en las dimensiones de evaluación y activación, así como la fusión de
ambos mediante una estrategia de stacking, según su evaluación mediante una validación LOSO y
mediante los dos conjuntos independientes (Test set).
datos, con la excepción del esquema de fusión donde esta diferencia es mayor. En cuanto
al análisis de los resultados obtenidos según la evaluación mediante los dos conjuntos
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
139
independientes de datos, el esquema de fusión obtiene unos resultados inferiores a los
obtenidos de forma individual por cada dimensión. Esto se debe, principalmente, a que
el esquema de fusión se basa únicamente en dos parámetros (los resultados de clasificación basados en cada una de las dos dimensiones emocionales), a que estos parámetros
provienen de clasificadores con bajas tasas de clasificación y a que, además, existe un bajo
consenso entre ambos clasificadores (lo cual se relaciona con el bajo rendimiento de cada
uno de ellos).
6.2.2.3.
Reducción del conjunto de parámetros
Para realizar una selección de los parámetros más representativos del conjunto de
datos acústico se realiza una búsqueda voraz de forma incremental y decremental (véase
la sección 4.3.2). El algoritmo de evaluación empleado es el Naïve-Bayes con discretización supervisada previa. Para agilizar el proceso, de forma previa al inicio de la selección
de parámetros el conjunto de datos de entrenamiento es remuestreado reduciendo el volumen de datos a la mitad y creando una distribución uniforme de clases. Asimismo,
para garantizar la independencia de locutores, se emplea sólo el conjunto de datos de
entrenamiento para seleccionar y evaluar los subconjuntos de parámetros en las fases de
búsqueda y evaluación.
En el caso de la búsqueda voraz incremental, el conjunto de datos acústico se reduce
de 384 a 28 parámetros: 21 relacionados con los parámetros MFCC, 3 relacionados con la
energía, 2 relacionados con la F0, 1 relacionado con la HNR y 1 relacionado con la ZCR.
La búsqueda voraz decremental supone una aproximación más conservadora y crea un
conjunto de 305 parámetros.
Para observar el rendimiento obtenido con estos conjuntos de datos se evalúan tres
clasificadores distintos. Los dos primeros se corresponden con los algoritmos Naïve-Bayes
y SVM de kernel lineal descritos en las secciones anteriores, a los que se añade un árbol
de decisión que emplea un modelo de regresión logística en la última etapa de clasificación, tal y como describen Landwehr et al. (2005). La implementación de WEKA de este
algoritmo, empleada en esta tesis, recibe el nombre de Simple Logistic (SL).
La evaluación de los algoritmos anteriores se realiza mediante una validación cruzada de dos iteraciones en la que los dos conjuntos de datos empleados son los de entrenamiento y prueba ya descritos, empleándolos para sus respectivas finalidades en la
primera iteración (Fold 1)10 e intercambiándolos en la segunda (Fold 2). El valor medio de
ambas evaluaciones también es calculado. Para simplificar el texto, el análisis de resultados ya no incluye los resultados de validaciones cruzadas realizadas sobre el conjunto de
datos de entrenamiento así como tampoco los valores de WAR. Como se ha podido observar en los resultados anteriores, existe una estrecha relación entre el comportamiento de
10
Esta primera iteración se corresponde, de hecho, con los experimentos Test set llevados a cabo con anterioridad, en los que el entrenamiento se realiza con el conjunto de datos Ohm y la prueba con el conjunto de
datos Mont (véase la sección 3.4.3.1).
140
6. Reconocimiento afectivo en corpus de voz espontánea
los resultados obtenidos mediante una evaluación LOSO llevada a cabo sobre el conjunto
de entrenamiento y los obtenidos mediante la evaluación de los conjuntos independientes
de entrenamiento y prueba. Así pues, se opta por la validación cruzada de dos iteraciones
antes descrita por los motivos anteriores, aprovechando asimismo todos los datos del corpus. Por otra parte, esto permite superar las limitaciones impuestas por el Emtion Challenge
2009 sin perder la capacidad de comparación de los resultados obtenidos.
La figura 6.16 muestra los resultados de la evaluación de los tres clasificadores anteriores usando el conjunto de datos acústicos completo y sus dos versiones reducidas.
Observando los valores medios de las dos iteraciones, los valores de UAR son ligeramente mejores en el caso de los conjuntos de datos reducidos que en el completo, exceptuando
el caso del algoritmo Naïve-Bayes. En el caso del algoritmo Naïve-Bayes, el conjunto de
datos creado mediante la búsqueda voraz incremental degrada notablemente el rendimiento del clasificador, reduciendo la tasa de clasificación en un -10,48 %. Esto es debido
a que una de las condiciones de este algoritmo es la independencia de los parámetros del
conjunto de datos a analizar (Rish, 2001). Sin embargo, este método de selección no tiene
por objetivo velar por esta condición por lo que el conjunto creado no es idóneo para este
algoritmo. Esta degradación no es apreciable en el caso de la búsqueda decremental dado que el conjunto seleccionado de datos es mucho mayor. Cabe señalar también el buen
rendimiento del algoritmo SL en la aplicación de reconocimiento afectivo.
41
39
UAR(%)
37
35
33
31
29
27
NB
SVM
SL
Fold 1
Fold 2
Media
Conjunto acústico completo (384)
40,46
37,96
39,21
39,56
37,18
38,37
39,42
37,86
38,64
Fold 1
Fold 2
Media
Selección acústica FW (28)
27,94
29,52
28,73
39,44
38,48
38,96
39,30
38,36
38,83
Fold 1
Fold 2
Media
Selección acústica BW (305)
40,56
38,08
39,32
39,90
37,16
38,53
39,84
38,66
39,25
Figura 6.16: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto completo de 384 parámetros acústicos y los conjuntos reducidos de 28 y 305
parámetros seleccionados mediante una búsqueda voraz incremental y decremental, respectivamente. Adaptado de (Planet e Iriondo, 2012b).
6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos
6.2.2.4.
141
Discusión
En cuanto al experimento de clasificación categórica, en este segundo experimento
de reconocimiento afectivo basado únicamente en parámetros acústicos se comprueba, en
contraste con el anterior, que la diferencia entre los métodos LOSO y la evaluación con dos
conjuntos independientes es menor que la existente entre la validación cruzada de varias
iteraciones y la de los dos conjuntos independientes. No obstante, el comportamiento de
las validaciones cruzadas sigue, en los dos casos, la tendencia observada en el análisis de
los conjuntos independientes.
En este caso, el esquema SVM-B obtiene el mejor valor de UAR, a través de un
conjunto de datos remuestreado hacia una distribución uniforme de clases, cuando se
analiza mediante una validación cruzada. Sin embargo el rendimiento decrece cuando
se emplean dos conjuntos independientes. Este efecto no es perceptible en el esquema
Naïve-Bayes, el cual funciona incluso mejor al analizar dos subconjuntos distintos.
La combinación de ambos esquemas mediante la estrategia de stacking proporciona
un valor de UAR ligeramente superior a los obtenidos por cada esquema de forma individual, siendo muy similar a la del esquema Naïve-Bayes. Sin embargo, observando la
clasificación por clase a través de la matriz de confusión se comprueba que la clasificación
de los casos de la clase R es mejor en el caso del esquema de fusión que en el esquema
Naïve-Bayes.
En cuanto al experimento de clasificación dimensional, en el que se analiza el corpus en base a las dimensiones de activación y evaluación a partir de la localización de
las etiquetas afectivas en un espacio emocional bidimensional, los resultados obtenidos
se sitúan por debajo de los experimentos anteriores, en términos de UAR. Las tasas de
clasificación de ambas dimensiones es similar, si bien es ligeramente superior en el caso
de la dimensión de activación. En cualquier caso ambas son bajas y la fusión de ambas
clasificaciones proporciona un resultado por debajo de los experimentos anteriores.
A pesar de que los esquemas propuestos no logran superar el valor de UAR de
la sección anterior, el proceso de selección de parámetros mediante una búsqueda voraz
incremental y decremental logra crear dos conjuntos de datos reducidos que mantienen
los resultados obtenidos por el conjunto de datos completo.
Sin embargo, el esquema Naïve-Bayes ve degradado su rendimiento con el conjunto de datos reducido debido a que el algoritmo de selección no garantiza la independencia
de los parámetros escogidos.
Para lograr mejorar los resultados de clasificación se propone el análisis de parámetros lingüísticos, dado que las estrategias basadas en información acústica planteadas
no suponen mejoras en los resultados ya obtenidos. La inclusión de la información lingüística se analiza en las siguientes secciones a partir de este punto.
142
6. Reconocimiento afectivo en corpus de voz espontánea
6.3. Reconocimiento afectivo basado en el análisis de parámetros
lingüísticos
Los resultados de la clasificación basada en parámetros acústicos ponen de manifiesto que en un escenario realista, como el planteado por el corpus FAU Aibo, el análisis
único de la información acústica puede no ser suficiente para llevar a cabo una tarea de
reconocimiento automático afectivo a partir de la señal de voz, tal y como señalan Batliner
et al. (2003). Por este motivo se introduce el análisis de la modalidad lingüística a partir de
la parametrización descrita en la sección 3.4.3.2, la cual se compone del análisis a nivel de
palabra de las transcripciones del corpus en base a unigramas y bigramas y del análisis
de categoría morfológica en base a trigramas a nivel POS.
La finalidad de este apartado es, de forma análoga a la del apartado anterior, comprobar el rendimiento de los parámetros lingüísticos de manera independiente para posteriormente, en la sección siguiente, realizar su fusión con los parámetros acústicos.
6.3.1. Clasificación de los subconjuntos de parámetros
La figura 6.17 muestra los resultados UAR de los clasificadores Naïve-Bayes, SVM
y SL descritos en las secciones anteriores, evaluados mediante la validación cruzada de
dos iteraciones antes expuesta. Los conjuntos de datos se corresponden con los tres tipos de parámetros extraídos a nivel de palabra y de categoría morfológica en forma de
unigramas y bigramas a nivel de palabra y trigramas a nivel POS, analizados de forma
independiente. Se puede comprobar que la tendencia de los tres clasificadores es prácticamente la misma, si bien el algoritmo Naïve-Bayes es el que presenta un rendimiento
inferior en todos los conjuntos de datos lingüísticos analizados. Por su parte, SVM y SL
presentan unos resultados bastante similares.
Atendiendo a los resultados del esquema SL y considerando el valor medio de las
dos iteraciones, el rendimiento UAR del conjunto de datos formado por los bigramas a
nivel de palabra (38,57 %) es superior al resto de conjuntos. Así, la mejora obtenida con
este conjunto de datos y el algoritmo SL es de 2,18 % absoluto (5,99 % relativo) con respecto
al conjunto de trigramas a nivel POS. En comparación con el conjunto de unigramas a nivel
de palabra esta mejora asciende a un 7,68 % absoluto (24,86 % relativo).
A efectos comparativos con el resto de experimentos, y siguiendo el marco de trabajo planteado por Schuller et al. (2009) y adoptado en esta tesis, se deben considerar los
resultados de la columna Fold 1 los cuales recogen el entrenamiento y la clasificación de
los conjuntos de datos definidos a tal efecto. El mejor resultado lo obtiene el análisis del
conjunto de datos formado por los trigramas a nivel POS mediante el algoritmo SL, con
un valor de UAR del 37,16 %. Sin embargo, este resultado se sitúa por debajo de la mayor parte de los resultados obtenidos mediante el análisis acústico realizado en la sección
anterior, así como también es inferior en un 1,04 % absoluto (2,72 % relativo) al resultado
6.3. Reconocimiento afectivo basado en el análisis de parámetros lingüísticos
143
45
UAR (%)
40
35
30
25
20
NB
SVM
SL
Fold 1
Fold 2 Media
Unigramas
25,76
31,92
28,84
27,54
33,48
30,51
28,00
33,78
30,89
Fold 1
Fold 2
Bigramas
28,54
35,04
34,90
40,44
35,22
41,92
Media
31,79
37,67
38,57
Fold 1 Fold 2 Media
Trigramas (POS)
26,42
27,38
26,90
35,46
34,82
35,14
37,16
35,62
36,39
Figura 6.17: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando 3 conjuntos de datos lingüísticos: los formados por los unigramas y bigramas a nivel de
palabra y el formado por trigramas a nivel POS.
de referencia presentado por Schuller et al. (2009), obtenido en las mismas condiciones a
partir de un análisis acústico.
6.3.2. Fusión y selección de parámetros lingüísticos
En la sección anterior se realizaba el análisis de cada conjunto de datos lingüísticos de forma independiente dada la diferente naturaleza de cada uno de estos conjuntos:
a pesar de referirse al ámbito lingüístico cada conjunto provenía del análisis de diferentes unidades (unigramas y bigramas a nivel de palabra y trigramas a nivel POS). En esta
sección se fusionan los tres conjuntos anteriores a nivel de parámetros mediante concatenación creando un conjunto de datos de 15 parámetros lingüísticos. El rendimiento de este
conjunto de datos puede observarse en los resultados recogidos en la figura 6.18. NaïveBayes obtiene mejores resultados que en el análisis individual si bien los algoritmos SVM
y SL, exceptuando el análisis de unigramas, tienen mejor rendimiento con los conjuntos
individuales.
Por otra parte, a pesar del reducido tamaño de este conjunto de datos, se realiza una
búsqueda voraz incremental para seleccionar los parámetros más relevantes. El resultado
es un conjunto de 6 parámetros formado por 4 elementos relativos a los bigramas a nivel
de palabra y 2 relativos a los trigramas a nivel POS. Como era de esperar, el conjunto de
datos seleccionados no incluye parámetros relativos a los unigramas a nivel de palabra
dado su bajo rendimiento (véase la figura 6.17). La figura 6.18 recoge el rendimiento de
este conjunto reducido de datos. Naïve-Bayes obtiene un rendimiento bajo por los mismos
144
6. Reconocimiento afectivo en corpus de voz espontánea
45
UAR (%)
40
35
30
25
20
NB
SVM
SL
Fold 1
Fold 2
Concatenación (15)
33,36
38,96
24,20
41,22
27,98
42,58
Media
Fold 1
36,16
32,71
35,28
29,28
34,90
35,76
Fold 2
Selección (6)
33,88
40,64
42,56
Media
31,58
37,77
39,16
Figura 6.18: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando dos conjuntos de datos lingüísticos: el que fusiona por concatenación los tres conjuntos
anteriores (15 parámetros) y la selección automática realizada por una búsqueda voraz incremental (6 parámetros).
motivos que ya se exponían en la sección anterior, relacionados con la independencia de
los parámetros seleccionados. Por contra, SVM y SL mejoran el valor medio de UAR del
conjunto completo, así como también la de la iteración Fold 1.
6.3.3. Discusión
El análisis lingüístico llevado a cabo en esta sección ha evaluado tres conjuntos de
datos desde distintos puntos de vista. En primer lugar se han analizado de forma independiente dada la diferente naturaleza de los mismos ya que estos provienen del análisis
de unigramas y bigramas a nivel de palabra y de trigramas a nivel POS. También se han
fusionado los tres conjuntos creando un único conjunto mediante la concatenación de los
mismos. Y finalmente, de forma análoga al proceso seguido en el estudio acústico, se ha
creado un conjunto reducido mediante una búsqueda voraz incremental.
Bigramas a nivel de palabra y trigramas a nivel POS se han revelado como los parámetros más relevantes para el experimento de reconocimiento afectivo automático aquí
planteado, tanto por su análisis individual como por el algoritmo de selección automática.
Sin embargo, el rendimiento de los parámetros lingüísticos no es lo bastante elevado como para superar el resultado de referencia de Schuller et al. (2009). Así pues, el
mejor resultado individual procedente del análisis de los subconjuntos de entrenamiento
y prueba de forma independiente es un 1,04 % absoluto (2,72 % relativo) inferior a dicha
6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos
145
referencia. Igual sucede con la concatenación de los parámetros y el conjunto reducido
de los mismos, cuyos mejores rendimientos son un 4,84 % absoluto (33,36 % relativo) y un
2,44 % absoluto (6,82 % relativo), respectivamente, inferiores al de referencia.
La siguiente sección muestra, sin embargo, el efecto constructivo de estos parámetros lingüísticos en combinación con los acústicos analizados en la sección anterior 11 .
6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos
El análisis independiente de las modalidades acústica y lingüística revela diferencias en sus rendimientos. Mientras que la modalidad acústica se muestra como válida para
llevar a cabo el reconocimiento afectivo automático del corpus FAU Aibo, con resultados
de clasificación superiores al de referencia, la modalidad lingüística propuesta en este trabajo no alcanza los mismos resultados y obtiene tasas de clasificación incluso inferiores a
este último.
En esta sección se aborda el experimento de reconocimiento afectivo combinando
ambas modalidades mediante técnicas de fusión a nivel de decisión y a nivel de parámetros. Sin embargo, la parametrización acústica completa supone un volumen mucho
mayor de datos (384 parámetros) que la parametrización lingüística (15 parámetros, en su
versión íntegra). A pesar de que en un esquema de fusión a nivel de decisión este hecho
no sería tan importante dado que la clasificación para cada modalidad se realiza de forma
independiente, la concatenación de ambos conjuntos de datos resultaría en vectores con
dos tipos de información en proporción poco equilibrada.
Por ese motivo en esta sección se plantea un análisis preliminar destinado a estudiar
la mejor técnica de reducción de parámetros y el mejor método de fusión a partir de los
dos conjuntos reducidos de datos acústicos y el conjunto de datos de unigramas a nivel de
palabra. A continuación se estudia el efecto de combinar la parametrización acústica y la
lingüística considerando el resto de parámetros con el objetivo de optimizar los resultados
de reconocimiento.
6.4.1. Análisis preliminar de selección de parámetros y técnicas de fusión
El análisis preliminar planteado en esta sección consiste en la fusión tanto a nivel de
decisión como de parámetros de las modalidades acústica y lingüística, tal y como se des11
Cabe señalar que, en el desarrollo de la línea de investigación de esta tesis, el proceso de fusión evolucionó
en paralelo con el proceso de selección y optimización de los parámetros de forma individual. Por este motivo,
la sección 6.4.1 emplea los unigramas a nivel de palabra para determinar qué esquema de fusión es el más
conveniente a pesar de que no son los parámetros lingüísticos óptimos para mejorar la tasa de clasificación.
Las subsiguientes secciones sí consideran la información lingüística al completo.
146
6. Reconocimiento afectivo en corpus de voz espontánea
cribe en (Planet e Iriondo, 2012b). La parametrización acústica considera los dos conjuntos
de datos reducidos mediante la búsqueda voraz incremental y decremental expuesta en
la sección 6.2.2.3. La parametrización lingüística considera el conjunto de datos de activación referente a los unigramas a nivel de palabra. El objetivo es determinar, mediante los
conjuntos de datos reducidos, cuál de los dos conjuntos acústicos es el óptimo así como
la mejor técnica de fusión para el experimento de reconocimiento afectivo automático.
Se consideran tres esquemas de clasificación: Naïve-Bayes, SVM y SL, siguiendo
las mismas configuraciones que las descritas en las secciones anteriores. En cuanto a los
esquemas de fusión, para la fusión a nivel de parámetros se emplea la técnica que une
los parámetros acústicos y lingüísticos de cada elemento del corpus en una única instancia mediante concatenación, y para la fusión a nivel de decisión se emplea la técnica de
stacking descrita en la sección 6.2.2.1 considerando un esquema J4.8 como clasificador de
nivel 1 y los tres esquemas antes citados como clasificadores de nivel 0. Dos clasificadores de nivel 0 del mismo tipo sirven para clasificar ambas modalidades y sus decisiones
categóricas son luego fusionadas por el clasificador de nivel 1. La figura 6.19 muestra de
forma esquemática la metodología de este experimento.
Parámetros
acústicos
Parámetros Parámetros
acústicos
lingüísticos
NB
SVM
SL
NB
SVM
J4.8
(a)
Parámetros
lingüísticos
SL
NB
J4.8
SVM
SL
J4.8
(b)
Figura 6.19: Representación esquemática de los esquemas de fusión de las modalidades acústica
y lingüística (a) a nivel de parámetros mediante concatenación y (b) a nivel de decisión mediante
un esquema de stacking.
La figura 6.20 recoge los resultados de este análisis preliminar. Los rendimientos
obtenidos por los conjuntos acústicos y lingüísticos reducidos analizados de forma independiente (tal y como ya se recogían en las figuras 6.16 y 6.17) se incluyen para facilitar la
comparación de los resultados.
Focalizando en el valor medio de los experimentos Fold 1 y Fold 2, se puede observar que el rendimiento de los clasificadores que analizan el conjunto de 28 parámetros
acústicos seleccionados por la búsqueda voraz incremental es mejor, en general, que el
rendimiento de los mismos clasificadores que emplean tan sólo los 5 parámetros lingüísticos. En el caso del esquema SVM, el uso de los parámetros acústicos mejora el valor de
6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos
147
47
UAR (%)
42
37
32
27
22
Fold 1 Fold 2 Media
Selección acústica FW
(28)
NB
27,94
29,52
28,73
SVM 39,44
38,48
38,96
SL
39,30
38,36
38,83
Fold 1 Fold 2 Media
Parámetros lingüísticos
(5)
25,76
31,92
28,84
27,54
33,48
30,51
28,00
33,78
30,89
Fold 1 Fold 2 Media
Fusión a nivel de
decisión (FW)
30,30
38,54
34,42
39,52
43,96
41,74
38,92
44,08
41,50
Fold 1 Fold 2 Media
Fusión a nivel de
parámetros (FW)
33,90
36,44
35,17
41,60
45,18
43,39
44,06
46,10
45,08
Fold 1 Fold 2 Media
Parámetros lingüísticos
(5)
25,76
31,92
28,84
27,54
33,48
30,51
28,00
33,78
30,89
Fold 1 Fold 2 Media
Fusión a nivel de
decisión (BW)
37,22
41,04
39,13
42,28
38,46
40,37
40,96
39,86
40,41
Fold 1 Fold 2 Media
Fusión a nivel de
parámetros (BW)
41,04
39,52
40,28
41,68
42,88
42,28
42,68
44,08
43,38
47
UAR (%)
42
37
32
27
22
Fold 1 Fold 2 Media
Selección acústica BW
(305)
NB
40,56
38,08
39,32
SVM 39,90
37,16
38,53
SL
39,84
38,66
39,25
Figura 6.20: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto de datos acústicos (28 parámetros seleccionados por la búsqueda voraz incremental (FW, arriba) y 305 parámetros seleccionados por la búsqueda voraz decremental (BW,
abajo)), el conjunto de datos lingüísticos basados en los unigramas a nivel de palabra y los esquemas de fusión a nivel de decisión y de parámetros. Adaptado de (Planet e Iriondo, 2012b).
148
6. Reconocimiento afectivo en corpus de voz espontánea
UAR en un 8,45 % absoluto (27,70 % relativo) respecto al uso de los parámetros lingüísticos. En el caso del esquema SL la mejora es 7,94 % absoluta (25,70 % relativa). Solamente
el esquema Naïve-Bayes obtiene una ligera mejora en su rendimiento al utilizar los parámetros lingüísticos en lugar de los acústicos (0,11 % absoluta, 0,38 % relativa).
En el caso de la selección realizada por la búsqueda voraz decremental, el rendimiento de los clasificadores empleando los 305 parámetros acústicos es mejor, en todos
los casos, que empleando los 5 parámetros lingüísticos. La mejora en el caso del esquema Naïve-Bayes, SVM y SL es 10,48 % absoluta (36,34 % relativa), 8,02 % absoluta (26,29 %
relativa) y 8,36 % absoluta (27,06 % relativa), respectivamente.
Sin embargo, la combinación de los parámetros acústicos y lingüísticos tanto a nivel de decisión como a nivel de parámetros mejora las tasas de clasificación de los clasificadores que consideran ambas modalidades de forma independiente. En el caso de la
selección acústica realizada por la búsqueda voraz incremental, la fusión a nivel de decisión obtiene una mejora en la media de las tasas de clasificación conseguidas por los
conjuntos acústicos y lingüísticos en los casos de los algoritmos Naïve-Bayes, SVM y SL
del 5,63 % absoluta (19,56 % relativa), 7,00 % absoluta (20,15 % relativa) y 6,64 % absoluta
(19,05 % relativa), respectivamente. En promedio esta mejora es del 3,71 %. En el caso de la
fusión a nivel de parámetros la mejora es 6,38 % absoluta (22,16 % relativa), 8,65 % absoluta (24,90 % relativa) y 10,22 % absoluta (29,32 % relativa), respectivamente. En promedio,
esta mejora es del 8,42 %.
En el caso de la selección acústica realizada por la búsqueda voraz decremental, la
fusión a nivel de decisión obtiene una mejora en la media de las tasas de clasificación conseguidas por los conjuntos acústicos y lingüísticos en los casos de los algoritmos NaïveBayes, SVM y SL del 5,85 % absoluta (16,95 % relativa) y 5,34 % absoluta (15,23 % relativa),
respectivamente. En el caso del clasificador Naïve-Bayes se produce una degradación del
rendimiento (-5,05 % absoluta). En promedio esta mejora es del 2,05 %. En el caso de la
fusión a nivel de parámetros la mejora es 6,20 % absoluta (18,19 % relativa) para el clasificador Naïve-Bayes, 7,76 % absoluta (22,48 % relativa) para el clasificador SVM y 8,31 %
absoluta (23,70 % relativa) para el clasificador SL. En promedio, esta mejora es del 7,42 %.
Como se puede observar, la mejora conseguida con la fusión de las modalidades
acústica y lingüística es más importante cuando se considera el conjunto acústico seleccionado por la búsqueda voraz incremental fusionado a nivel de parámetros con el conjunto
de datos lingüísticos (8,42 %).
Como en las secciones anteriores, tan sólo debe considerarse la columna Fold 1 de
la figura 6.20 para poder comparar estos resultados con los de otros autores en el mismo escenario. Tal y como se recoge en la sección 4.4.2, Schuller et al. (2011) fusionan 7
esquemas de clasificación y distintos conjuntos de datos para obtener un valor de UAR
del 44,01 %. El mejor resultado obtenido en esta sección mediante un clasificador SL y la
fusión a nivel de parámetros de los 28 parámetros acústicos seleccionados mediante la
búsqueda incremental y los 5 parámetros lingüísticos (es decir, un total de 33 parámetros
6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos
149
únicamente) mejora este resultado en un 0,06 % absoluto (0,14 % relativo). Aunque ambos
rendimientos son bastante similares cabe destacar que el número de parámetros es mucho menor en el esquema aquí planteado, así como también es menor la complejidad del
esquema de clasificación propuesto.
6.4.2. Fusión de parámetros seleccionados acústicos y lingüísticos
En esta sección se aborda el reconocimiento afectivo automático a través del análisis
conjunto de las modalidades acústica y lingüística a partir de los resultados anteriormente
obtenidos. El esquema de fusión considerado es el de fusión a nivel de parámetros mediante concatenación, tal y como se determina en la sección previa. La reducción acústica
se realiza mediante la búsqueda voraz incremental, si bien también se considera el conjunto de datos acústicos completo para realizar, al final de esta sección, una reducción de
forma conjunta con los parámetros lingüísticos. A nivel lingüístico se estudian los diversos
parámetros de activación que incluyen también los no analizados en la sección anterior.
La estructura básica de esta sección consta de tres partes. La primera define los
diferentes conjuntos de datos para simplificar la notación en el texto. La segunda combina la parametrización acústica con los diferentes conjuntos lingüísticos para determinar
cuáles optimizan el rendimiento del reconocimiento afectivo. Esta combinación trata cada
uno de estos conjuntos en su totalidad, considerándolos indivisibles e irreductibles, y se
considera, por lo tanto, manual. La tercera considera un proceso automático para reducir,
en primer lugar, la parametrización lingüística y, en segundo lugar, el conjunto completo
de parámetros acústicos y lingüísticos.
6.4.2.1.
Definición de los conjuntos de datos
Para simplificar la notación tanto en el texto como en las figuras, se ha asignado
un nombre específico a cada uno de los diferentes conjuntos de datos cuya definición
se recoge en la tabla 6.3. Data1 y Data2 son conjuntos de datos acústicos tal y como se
definen según se recoge en la sección 6.2.2.3: Data1 se refiere a los 28 parámetros acústicos seleccionados por una búsqueda voraz incremental mientras que Data2 es el conjunto
completo de parámetros acústicos. Los conjuntos de datos Data3, Data4, Data5, Data6 y
Data7 son lingüísticos y se refieren a los parámetros detallados en la sección 3.4.3.2. Data3
es el conjunto de datos lingüísticos completo. Los otros conjuntos de datos, excepto Data7,
son diferentes subconjuntos creados a partir de este conjunto completo. Así pues, Data4
y Data5 recogen, respectivamente, los 5 parámetros de activación calculados a partir de
los unigramas y bigramas a nivel de palabra, mientras que Data6 recoge los 5 parámetros
de activación calculados a partir de los trigramas a nivel POS. Data7 es el subconjunto
de parámetros lingüísticos seleccionado automáticamente mediante una búsqueda voraz
incremental (tal y como se detalla en la sección 6.3.2) a partir del conjunto lingüístico completo. Finalmente, Data8 es un conjunto de 159 parámetros acústicos y lingüísticos creado
150
6. Reconocimiento afectivo en corpus de voz espontánea
Tabla 6.3: Descripción de los conjuntos de datos creados a partir de los conjuntos completos de
384 parámetros acústicos y 15 lingüísticos extraídos del corpus FAU Aibo.
Tipo
Acústico
Nombre
Data1
Lingüístico
Data2
Data3
Data4
Data5
Data6
Data7
Acústico y
lingüístico
Data8
Descripción
28 parámetros acústicos seleccionados por una búsqueda
voraz incremental a partir de Data2
Conjunto original de 384 parámetros acústicos
Conjunto original de 15 parámetros lingüísticos (equivalente a la concatenación de Data4, Data5 y Data6)
5 parámetros lingüísticos de activación del análisis de los
unigramas a nivel de palabra
5 parámetros lingüísticos de activación del análisis de los
bigramas a nivel de palabra
5 parámetros lingüísticos de activación del análisis de los
trigramas a nivel POS
6 parámetros lingüísticos seleccionados por una búsqueda
voraz incremental a partir de Data3
159 parámetros seleccionados por un algoritmo genético a
partir de la concatenación de Data2 y Data3
mediante un proceso de selección de parámetros basado en el algoritmo genético referenciado en la sección 4.3.2 y a partir de la concatenación de los conjuntos Data2 y Data3.
Data8 contiene 149 parámetros relacionados con el análisis acústico y 10 con el análisis
lingüístico. Sólo 2 de esos 10 parámetros lingüísticos se refieren a la activación de los unigramas a nivel de palabra mientras que 4 se refieren a la activación de los bigramas a nivel
de palabra y los otros 4 a los trigramas a nivel POS.
6.4.2.2.
Fusión de parámetros acústicos y parámetros lingüísticos seleccionados manualmente
En primer lugar se estudia el rendimiento de los clasificadores al analizar el conjunto de datos lingüísticos completo en combinación con el conjunto de datos acústicos
completo y reducido. Este planteamiento es similar al de la sección anterior si bien en este
caso se emplea el conjunto de datos lingüísticos completo. La figura 6.21 muestra los resultados UAR de los clasificadores Naïve-Bayes, SVM y SL al ser evaluados, tal y como se
ha establecido, con el conjunto de datos Data3 en combinación, mediante concatenación,
con los conjuntos Data1 y Data2.
Tal y como sucedía en los casos anteriores, los rendimientos de los clasificadores
mejoran al utilizar el conjunto reducido de datos acústicos, excepto en el caso del algoritmo Naïve-Bayes. De acuerdo al valor medio de los experimentos recogidos en las columnas Fold1 y Fold2, el empleo del conjunto de datos Data1 supone una mejora frente al
6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos
151
55
50
UAR (%)
45
40
35
30
NB
SVM
SL
Fold1
39,94
44,92
46,78
Fold2
Data1 + Data3
41,16
49,70
51,12
Media
Fold1
40,55
47,31
48,95
42,92
44,96
48,14
Fold2
Data2 + Data3
42,50
43,84
46,66
Media
42,71
44,40
47,40
Figura 6.21: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto completo de parámetros lingüísticos (Data3) en combinación con el conjunto
reducido de parámetros acústicos (Data1) y el conjunto acústico completo (Data2).
empleo del conjunto Data2 de un 2,91 % absoluto (6,55 % relativo) en el caso del esquema
SVM y de un 1,55 % absoluto (3,27 % relativo) en el caso del esquema SL. Por este motivo,
Data1 es el conjunto de datos acústicos considerado a partir de este momento para el resto
de experimentos.
En la sección 6.3.2 se presentaba la selección lingüística realizada por una búsqueda
voraz incremental. Sin embargo, la naturaleza del conjunto de datos lingüísticos permite
un análisis pormenorizado de los mismos que observa, a diferencia del estudio realizado
de forma independiente en esa sección y en la sección 6.3.1, cómo afecta al rendimiento
de los clasificadores su fusión con los parámetros acústicos. La figura 6.22 muestra los
rendimientos obtenidos por los tres clasificadores anteriores a través del análisis del conjunto reducido de parámetros acústicos (Data1) en combinación con cada uno de los tres
grupos de parámetros lingüísticos: los parámetros de activación de los unigramas a nivel
de palabra (Data4), bigramas a nivel de palabra (Data5) y trigramas a nivel POS (Data6).
De acuerdo a la media de los dos experimentos, la combinación de Data1 y Data4 obtiene el peor resultado de este experimento. Por el contrario, la concatenación de
los conjuntos Data1 y Data5 obtiene el mejor rendimiento mejorando en un 2,29 % absoluto (6,51 % relativo) el del esquema Naïve-Bayes usando la combinación anterior de
conjuntos de datos y mejorando, también, los algoritmos SVM y SL en un 2,79 % absoluto
(6,43 % relativo) y en un 2,59 % absoluto (5,75 % relativo), respectivamente, con esa misma
combinación. La combinación de Data1 y Data6 obtiene los segundos mejores resultados,
152
6. Reconocimiento afectivo en corpus de voz espontánea
55
50
UAR (%)
45
40
35
30
NB
SVM
SL
Fold1
Fold2
Data1 + Data4
33,90
36,44
41,60
45,18
44,06
46,10
Media
35,17
43,39
45,08
Fold1
Fold2
Data1 + Data5
35,28
39,64
44,22
48,14
46,10
49,24
Media
37,46
46,18
47,67
Fold1
Fold2
Data1 + Data6
37,16
35,82
43,04
45,16
45,68
47,40
Media
36,49
44,10
46,54
Figura 6.22: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores al fusionar el conjunto reducido de parámetros acústicos (Data1) con los 3 subconjuntos de parámetros
lingüísticos (Data4, Data5 y Data6) de forma independiente.
mejorando los esquemas Naïve-Bayes, SVM y SL en un 1,30 % absoluto (3,69 % relativo),
0,71 % absoluto (1,64 % relativo) y 1,46 % absoluto (3,24 % relativo), respectivamente, los
resultados obtenidos con la primera combinación de conjuntos de datos.
Para determinar si la combinación de dos subconjuntos lingüísticos es capaz de
mejorar el rendimiento obtenido en el experimento anterior mediante uno sólo de esos
subconjuntos se crean tres combinaciones de los mismos dos a dos (Data4 y Data5, Data4
y Data6, Data5 y Data6) fusionándolas con la parametrización acústica de Data1. Los resultados aparecen representados en la figura 6.23. Como cabía esperar, la combinación de
los conjuntos Data5 y Data6 (los dos mejores conjuntos de datos hallados en los resultados expuestos en la figura 6.22) mejora las otras dos combinaciones. En comparación con
la segunda mejor combinación (Data4 y Data6), el rendimiento de los algoritmos NaïveBayes, SVM y SL es mejor en un 1,20 % absoluto (3,04 % relativo), 1,57 % absoluto (3,41 %
relativo) y 1,20 % absoluto (2,51 % relativo), respectivamente.
Finalmente, para determinar los parámetros lingüísticos más relevantes, los mejores conjuntos de datos antes hallados (Data1, Data5 y Data6) se comparan en la figura 6.24,
en la que los rendimientos de Data1 y la combinación de Data1 y Data3 se incluyen como
referencia. Como se puede observar, la inclusión de los parámetros lingüísticos mejora el
rendimiento de los clasificadores que sólo analizan parámetros acústicos. Los mejores resultados se obtienen mediante la combinación de Data5 y Data6 concatenados con Data1.
De acuerdo con el valor medio de las dos iteraciones, este conjunto de datos procedente
6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos
153
55
50
UAR (%)
45
40
35
30
NB
SVM
SL
Fold1
Fold2
Media
Data1 + Data4 + Data5
36,76
40,06
38,41
44,18
47,50
45,84
45,70
47,90
46,80
Fold1
Fold2
Media
Data1 + Data4 + Data6
38,74
40,20
39,47
43,98
48,22
46,10
46,46
49,18
47,82
Fold1
Fold2
Media
Data1 + Data5 + Data6
39,74
41,60
40,67
44,80
50,54
47,67
46,82
51,22
49,02
Figura 6.23: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores fusionando el conjunto reducido de parámetros acústicos (Data1) con tres combinaciones dos a dos de
los subconjuntos lingüísticos.
de la concatenación de los tres conjuntos citados (el valor de UAR para el esquema SL
asciende al 49,02 %) mejora los resultados obtenidos por la combinación de Data1 y Data5
(véase la figura 6.22), para los algoritmos Naïve-Bayes, SVM y SL, en un 3,21 % absoluto (8,57 % relativo), 1,49 % absoluto (3,23 % relativo) y 1,35 % absoluto (2,83 % relativo),
respectivamente. Los resultados obtenidos por la combinación de los 3 datasets también
mejoran los resultados obtenidos por la combinación de Data1 y Data3, es decir, empleando la totalidad de los parámetros lingüísticos.
6.4.2.3.
Fusión de parámetros acústicos y parámetros lingüísticos seleccionados automáticamente
El análisis conjunto de los parámetros acústicos y cada uno de los grupos que componen el conjunto de datos lingüísticos revela que la mejor combinación es la resultante de
la concatenación de los conjuntos de datos Data1, Data5 y Data6 (acústicos y lingüísticos
de bigramas a nivel de palabra y trigramas a nivel POS, respectivamente). Este conjunto
de datos parte de la selección acústica realizada de forma automática y la parametrización lingüística seleccionada mediante un análisis manual y es coherente con la selección
realizada de forma automática en la sección 6.3.2 (la cual se recoge en el conjunto de datos Data7), en cuanto a que los parámetros proceden de los dos mismos grupos si bien la
selección automática no los selecciona todos.
154
6. Reconocimiento afectivo en corpus de voz espontánea
55
50
UAR (%)
45
40
35
30
25
NB
SVM
SL
Fold1
27,94
39,44
39,30
Fold2
Data1
29,52
38,48
38,36
Media
28,73
38,96
38,83
Fold1
Fold2 Media
Data1 + Data5
35,28
39,64
37,46
44,22
48,14
46,18
46,10
49,24
47,67
Fold1
Fold2 Media
Data1 + Data5 + Data6
39,74
41,60
40,67
44,80
50,54
47,67
46,82
51,22
49,02
Fold1
Fold2 Media
Data1 + Data3
39,94
41,16
40,55
44,92
49,70
47,31
46,78
51,12
48,95
Figura 6.24: Comparación de las tasas de clasificación no ponderadas (UAR) de los clasificadores al
analizar el conjunto reducido de parámetros acústicos (Data1) de forma independiente y al añadir,
de forma incremental, los parámetros de activación de los bigramas a nivel de palabra (Data5) y
los parámetros de activación de los trigramas a nivel POS, así como su fusión con la totalidad de
parámetros lingüísticos (Data3).
La figura 6.25 muestra los resultados UAR de los clasificadores al analizar tres conjuntos de datos distintos: la combinación de Data1, Data5 y Data6, que es la combinación
de los parámetros acústicos seleccionados por una búsqueda voraz incremental y los parámetros lingüísticos más relevantes hallados manualmente; la combinación de Data1 y
Data7, similar a la anterior pero usando los parámetros lingüísticos seleccionados por una
búsqueda voraz incremental (véase la sección 6.3.2); y Data8, el conjunto de datos reducido creado a partir de la parametrización acústica y lingüística completa mediante un
algoritmo genético (véase la sección 6.4.2.1).
Los resultados muestran que la combinación de Data1 y Data7 obtiene el rendimiento más bajo de los conjuntos de datos analizados en esta parte aunque es bastante
similar al obtenido por la combinación de Data1, Data5 y Data6. Data8 obtiene, en general (excepto para el caso del algoritmo SVM), el mejor resultado de clasificación (valor
de UAR, como promedio de las iteraciones, del 49,66 % para el algoritmo SL). Comparado con la combinación de Data1, Data5 y Data6, obtiene una mejora en el rendimiento
para los algoritmos Naïve-Bayes y SL del 3,07 % absoluto (7,55 % relativo) y del 0,64 %
absoluto (1,31 % relativo), respectivamente. Considerando los algoritmos de clasificación,
la mejora más significativa se produce en el caso del algoritmo Naïve-Bayes. A pesar de
que los conjuntos reducidos degradaban el rendimiento de este clasificador en los expe-
6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos
155
55
50
UAR (%)
45
40
35
30
NB
SVM
SL
Fold1
Fold2
Media
Data1 + Data5 + Data6
39,74
41,60
40,67
44,80
50,54
47,67
46,82
51,22
49,02
Fold1
Fold2
Data1 + Data7
36,10
38,90
44,76
48,32
46,86
49,56
Media
Fold1
37,50
46,54
48,21
43,82
45,16
48,68
Fold2
Data8
43,66
47,30
50,64
Media
43,74
46,23
49,66
Figura 6.25: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores considerando la fusión del conjunto reducido de parámetros acústicos (Data1) con los conjuntos de
datos Data5 y Data6, con el conjunto reducido de parámetros lingüísticos (Data7) y el subconjunto seleccionado por un algoritmo genético a partir del conjunto completo acústico y lingüístico
(Data8).
rimentos anteriores, Data8 es un conjunto creado mediante un proceso que favorece una
correlación cruzada mínima entre los parámetros escogidos, condición requerida por el
algoritmo Naïve-Bayes para un funcionamiento óptimo (Rish, 2001).
6.4.2.4.
Comparación global de resultados
Tal y como se ha explicado en las secciones anteriores, para comparar estos resultados con los obtenidos por otros autores en el mismo escenario hay que considerar, únicamente, la columna Fold 1 de cada figura ya que equivale al resultado de la evaluación
con los dos conjuntos independientes de entrenamiento y prueba. La figura 6.26 recoge,
de forma resumida, algunos de los resultados citados en esta tesis comparándolos con los
más representativos hallados en esta sección.
Kockmann et al. (2009) alcanzan un valor de UAR del 41,65 % mediante 4 clasificadores GMM y 13 parámetros MFCC y sus derivadas. Por otra parte, la fusión de 7
esquemas de clasificación realizada por Schuller et al. (2011) alcanza una tasa de clasificación del 44,01 %. El número de parámetros empleado por cada uno de estos 7 esquemas
es distinto y entre ellos figura la parametrización de 384 elementos de Schuller et al. (2009)
156
6. Reconocimiento afectivo en corpus de voz espontánea
51
450
384
48,68
>384
46,82
400
350
47
300
UAR (%)
45
44,06
44,01
250
43
41,65
41,16
200
159
41
150
38,20
39
100
39
37
38
33
50
0
a8
at
+D
a5
D
at
a4
+D
at
+D
at
D
a1
at
D
Sc
hu
lle
a1
ta
re
et
n
an
m
ck
Ko
at
20
l.,
.,
2
al
.,
2
al
et
et
an
Pl
11
9
00
9
00
09
20
l.,
ta
re
lle
hu
a6
35
Sc
Número de parámetros
384
49
Figura 6.26: Comparación entre los resultados de varios experimentos del estado de la cuestión
y los resultados más relevantes presentados en este capítulo al emplear dos conjuntos independientes para entrenamiento y prueba. Se muestra la tasa de clasificación no ponderada (UAR, en
negro) y el número de parámetros del conjunto de datos con el que se consigue ese resultado (en
azul). En el caso de (Schuller et al., 2011) el número de parámetros mostrado es orientativo ya que
es superior al indicado al provenir de la fusión de 7 esquemas de clasificación.
por lo que el número total asciende a un valor superior12 . Por otra parte, el esquema SL
(que alcanza el mejor rendimiento para las tres combinaciones de conjuntos de datos presentadas, tal y como se comprueba en la figura 6.25) obtiene el mejor valor de UAR al
analizar el conjunto de datos Data8 (48,68 %). Este resultado mejora el de Kockmann et al.
(2009) en un 7,03 % absoluto (16,88 % relativo) y el de Schuller et al. (2011) en un 4,68 % absoluto (10,64 % relativo). Cabe destacar que, además de la mejora respecto al resultado de
Schuller et al. (2011), el volumen de datos es de 159 parámetros y empleando un único esquema de clasificación. Este resultado también mejora el obtenido por la combinación de
los conjuntos de datos Data1 y Data4, que asciende a un 44,06 % de UAR (véase la sección
6.4.1). La mejora es de un 4,62 % absoluto (10,49 % relativo). En este caso, sin embargo, se
emplea un volumen de datos mayor ya que la combinación de Data1 y Data4 asciende a
un total de 33 parámetros frente a los 159 de Data8. En una posición intermedia se halla la
selección lingüística manual en combinación con la acústica (Data1, Data5 y Data6). Con
38 parámetros, su rendimiento se sitúa casi al mismo nivel que la combinación de Data1
y Data4 pero por debajo de Data8.
12
Algunos de los estudios fusionados a nivel de decisión en (Schuller et al., 2011) comparten parte o la
totalidad de la parametrización original de Schuller et al. (2009) e incorporan otros parámetros adicionales.
Por eso puede considerarse que, indirectamente, se analiza un corpus de tamaño superior al especificado.
6.5. Resumen
157
Tanto Data8 como la fusión de Data1 y Data4 superan el valor de UAR de referencia
establecido por Schuller et al. (2009) y el resultado preliminar mostrado en la sección 6.2.1
tal y como se recoge en (Planet et al., 2009). En el caso de Data8 frente a Schuller et al.
(2009), la mejora absoluta es de un 10,48 % (27,43 % relativa), empleando 159 parámetros
acústicos y lingüísticos frente a los 384 parámetros acústicos del corpus analizado por
Schuller et al. (2009), es decir, un 41,41 % del total. La mejora de la fusión entre Data1 y
Data4 con respecto al resultado de referencia es inferior (5,86 % absoluta, 15,34 % relativa),
aunque también es muy inferior el volumen de datos empleado: 33 parámetros frente a
384, es decir, un 8,59 % del total. En lo referente a la combinación de Data1, Data5 y Data6,
la cual obtiene un resultado intermedio, esta mejora es 8,62 % absoluta (22,57 % relativa)
empleando 38 parámetros, un 9,90 % del total.
6.5. Resumen
En esta sección se ha abordado el reconocimiento afectivo automático basado en
un corpus de voz espontánea, lo cual supone trabajar con unas condiciones específicas y
muy diferentes a los corpus de voz actuada destacando, entre otras, la presencia de emociones no prototípicas y con una baja expresividad afectiva. A su vez, el planteamiento de
los experimentos es distinto dado que, en el caso de corpus actuados, se trata con locuciones cuyo contenido afectivo debe ser validado posteriormente ya que el locutor podría no
haber expresado correctamente el estado afectivo pretendido. De esta forma, el reconocimiento puede plantearse como un ejercicio de mapeo de un criterio subjetivo que acepte
o rechace ciertas locuciones en base a su estilo afectivo. Es decir, que se adapte al usuario
que escucha e interpreta, en lugar de al locutor que actúa la emoción. De no ser así, el
sistema de reconocimiento automático podría superar el propio reconocimiento humano,
lo que supondría que se está produciendo el reconocimiento del estilo actuado en lugar
del reconocimiento de la propia emoción. En cambio, en corpus de voz espontánea no cabe dicha validación ya que las locuciones no pretenden un estilo afectivo sino que dicho
estilo se asigna posteriormente en forma de etiqueta, tras una escucha de las mismas, ya
que estas se han obtenido de una interacción espontánea. El ejercicio de reconocimiento
ya estaría adaptado al usuario que escucha e interpreta las emociones. Además, en este
caso, se ha trabajado en un entorno de varios locutores, más acorde con un escenario de
propósito general y, por lo tanto, menos específico.
El corpus en el que se basa este análisis es el FAU Aibo el cual presenta una distribución de categorías afectivas no equilibrada. Por este motivo la medida empleada es la
UAR, a efecto de tener en cuenta la correcta clasificación de las categorías afectivas mayoritarias y minoritarias por igual. Por otra parte, y para mantener la total independencia
entre los datos empleados para entrenar y probar el sistema así como poder comparar los
resultados con otros estudios del estado de la cuestión, se emplean dos subconjuntos distintos e independientes del corpus, consistente en locuciones que provienen de locutores
diferentes.
158
6. Reconocimiento afectivo en corpus de voz espontánea
El estudio se estructura en tres partes diferenciando el análisis a nivel acústico y a
nivel lingüístico, ambos de forma independiente, y a nivel de la fusión de los parámetros
acústicos y lingüísticos.
A nivel acústico se han realizado dos experimentos. El primero de ellos, preliminar,
se enmarca dentro del escenario propuesto por Schuller et al. (2009), a nivel de clasificación y de selección de parámetros. A nivel de clasificación se estudian diversos clasificadores simples, dos estructuras jerárquicas y una estructura en cascada. De todos ellos, el
esquema Naïve-Bayes es el que presenta un mejor rendimiento. A nivel de selección de
parámetros se presenta una selección de 100 elementos realizada mediante el algoritmo
mRMR, la cual muestra una ligera degradación en la tasa de reconocimiento de referencia
a pesar de suponer una reducción importante en el volumen de datos.
El segundo experimento a nivel acústico cuenta con una parametrización más precisa del corpus FAU Aibo y también realiza una tarea de clasificación y una de selección
de parámetros. A nivel de clasificación se realiza, en primer lugar, un experimento categórico que analiza diversos algoritmos de clasificación e introduce la fusión a nivel de
clasificación de dos de ellos y, en segundo lugar, un experimento de clasificación dimensional basado en el mapeo de las categorías afectivas en un espacio bidimensional de
activación-evaluación, cuyo resultado es inferior a los obtenidos anteriormente. A nivel
de selección de parámetros, en este caso se ha empleado un algoritmo de búsqueda voraz
en sus variantes incremental y decremental, el cual presenta un mejor rendimiento que el
algoritmo mRMR anteriormente estudiado.
A nivel lingüístico el corpus se analiza a nivel de palabra en base a unigramas y
bigramas y a nivel de la categoría morfológica de las palabras en base a trigramas POS.
En primer lugar se estudian los tres conjuntos de forma independiente, siendo los últimos
conjuntos los que ofrecen un mejor rendimiento. Por otra parte, se presenta el rendimiento
de la fusión a nivel de parámetros de los tres conjuntos mediante concatenación. Además,
a pesar de que la modalidad lingüística cuenta con un volumen reducido de datos, también se presenta la reducción de los mismos mediante una búsqueda voraz incremental.
En todos los casos los resultados de esta modalidad son inferiores a los de referencia, si
bien se observa posteriormente que el análisis lingüístico aporta un efecto constructivo a
la clasificación realizada a nivel acústico.
La fusión acústica y lingüística se realiza, de forma preliminar, a nivel de decisión
y a nivel de parámetros, analizando las selecciones de parámetros acústicos realizadas de
forma incremental y decremental. De este primer estudio se comprueba que la selección
de parámetros acústicos incremental es la que presenta un mejor rendimiento, considerando su menor volumen de datos y su tasa de clasificación. Por otra parte, se determina
que el esquema de fusión a nivel de parámetros es, dada su sencillez y los buenos resultados proporcionados, la más adecuada para este trabajo.
Determinado el mejor esquema de fusión y la selección incremental de parámetros
acústicos como la más adecuada, se realizan distintas combinaciones con los parámetros
6.5. Resumen
159
lingüísticos. En primer lugar se llevan a cabo combinaciones considerando los tres conjuntos lingüísticos detallados. En segundo lugar se considera la fusión de los parámetros
acústicos con la reducción lingüística realizada con anterioridad así como una reducción
mediante un algoritmo genético aplicado a la totalidad de los parámetros acústicos y lingüísticos, siendo este último conjunto de datos el que consigue un rendimiento óptimo.
En combinación con el algoritmo SL, su resultado mejora notablemente los resultados
obtenidos por esquemas más complejos del estado de la cuestión.
160
6. Reconocimiento afectivo en corpus de voz espontánea
Capítulo 7
Conclusiones y futuras líneas de
investigación
Este último capítulo recoge las principales conclusiones y las líneas futuras de investigación. Dichas conclusiones aparecen agrupadas en tres bloques. En primer lugar, en
la sección 7.1, se recogen las conclusiones generales de la tesis, las cuales derivan directamente de los objetivos específicos detallados en la sección 1.2. La sección 7.2 recoge las
conclusiones de la experimentación realizada con corpus de voz actuada. El tercer bloque,
correspondiente a la sección 7.3, detalla las conclusiones de la experimentación relacionada con el corpus de voz espontánea FAU Aibo. Finalmente, la sección 7.4 propone algunas
líneas de investigación que podrían abordarse en el futuro.
7.1. Conclusiones generales
La motivación que da origen a esta tesis es cubrir la rama del análisis afectivo en la
comunicación oral persona-máquina. El GTM contaba con experiencia en el campo de la
síntesis audiovisual y, en el momento de iniciarse este trabajo de investigación, existían varios trabajos en curso relacionados con la síntesis expresiva. Sin embargo, existía también
la necesidad de plantear un estudio en la vertiente analítica para completar el proceso
comunicativo, permitiendo avanzar en el campo de la interacción persona-máquina de
forma completa.
Asimismo, en general y tal y como se aprecia en los estudios analizados en el estado
de la cuestión, hasta hace unos años el análisis de las señales de entrada de las interfaces
de usuario no había sido tan estudiado como sí lo había sido la generación de contenido en
la salida de las mismas. Así, mientras comenzaban a desarrollarse avatares virtuales con
síntesis audiovisual expresiva o motores de diálogo capaces de procesar lenguaje natural,
la interacción por parte del usuario quedaba reducida, en la mayoría de las ocasiones, a la
161
162
7. Conclusiones y futuras líneas de investigación
introducción de texto a través del teclado o, en el mejor de los casos, al dictado de frases
a través de un micrófono. Sin embargo, las mejoras en los módulos de reconocimiento de
voz permitieron crear aplicaciones más amigables y con ellas, y gracias al aumento de
las capacidades computacionales de los dispositivos, se produjo un auge en los estudios
relacionados con el reconocimiento afectivo automático.
No obstante, gran parte de estos estudios se centraban en el análisis de grabaciones
realizadas en condiciones muy controladas, a menudo actuadas en estudios de grabación
profesionales, con una gran supervisión del contenido y de las condiciones del entorno.
Ello desembocaba en sistemas con tasas de reconocimiento muy elevadas que, cuando
eran probados en condiciones realistas de interacción natural, producían resultados muy
por debajo de los iniciales. Es por eso que a raíz de esas pruebas se originaron cada vez
más estudios focalizados en el análisis de locuciones con expresiones emocionales espontáneas lo que suponía trabajar, a menudo, con corpus poco equilibrados, que incluían
datos no prototípicos y locuciones de una baja intensidad emocional y, frecuentemente,
poco definida, como es el caso del corpus FAU Aibo estudiado en esta tesis.
Por ese motivo, esta tesis plantea como objetivo general la creación de un sistema de reconocimiento afectivo automático basado en expresión oral espontánea, lo que
conllevaba en la sección 1.2 a plantear cuatro objetivos específicos, las conclusiones sobre
los cuales se desarrollan a continuación. Las secciones siguientes detallarán estos puntos
enmarcándolos en su contexto de experimentación, a partir de los trabajos realizados en
corpus de voz actuada y en corpus de voz espontánea.
Realización del ejercicio de reconocimiento afectivo en condiciones de laboratorio para
su comparación con los realizados en corpus de voz espontánea. Siguiendo la línea de
los trabajos realizados por diversos investigadores en el ámbito del reconocimiento afectivo automático y, en concreto, el completo trabajo desarrollado por Oudeyer (2003), en
esta tesis se ha planteado el análisis de dos corpus de voz actuada y estimulada, el corpus
ESDLA y el corpus BDP-UAB, respectivamente, mediante un banco de algoritmos de clasificación individuales y parametrizaciones basadas en parámetros prosódicos y de VoQ.
El estudio de los resultados pone de manifiesto que el sistema automático obtiene una
tasa de clasificación incluso superior al reconocimiento que, de forma subjetiva a través
de la escucha de las locuciones, realiza un conjunto de personas. En el estudio llevado
a cabo con el corpus de voz espontánea FAU Aibo no cabe considerar el reconocimiento
subjetivo dado que las locuciones se etiquetan tras su grabación, es decir, la etiqueta afectiva asociada se asigna después de que la grabación se haya realizado mientras que en la
grabación actuada el locutor debe expresar la emoción que se le solicita. Sin embargo la
tasa de reconocimiento es muy inferior en el caso de la voz espontánea, más aún cuando
sólo se consideran parámetros acústicos para el análisis.
Parametrización a nivel acústico y lingüístico y posterior selección de los parámetros
más relevantes. El corpus FAU Aibo no está grabado en condiciones óptimas de estudio
7.1. Conclusiones generales
163
sino que, a pesar de haberse controlado diferentes condiciones ambientales, se ha realizado en un entorno de interacción realista. Además, las locuciones no pertenecen a actores
y se corresponden con voces de diferentes personas. Todas estas diferencias con respecto
a corpus como el ESDLA o el BDP-UAB hacen que el cálculo de los parámetros acústicos sea menos robusto. Por este motivo, además de la parametrización acústica propuesta
en el capítulo 3, se incorpora una serie de parámetros lingüísticos extraídos a partir de
las transcripciones de las locuciones del corpus, los cuales no se ven afectados por los
inconvenientes que introducen las condiciones de grabación. Cabe señalar que en esta tesis se ha trabajado con las transcripciones exactas y no las procedentes de un sistema de
reconocimiento automático de voz, que sería lo deseable en un sistema completamente
automático. Así pues, los resultados expresados a este respecto deben considerarse como
una cota máxima, partiendo de la premisa de que el reconocedor funcionaría sin error.
A pesar de la baja tasa de reconocimiento conseguida por los parámetros lingüísticos de
forma individual, su fusión con los parámetros acústicos mejora notablemente los resultados que estos obtienen por sí solos. Por otra parte, la reducción de parámetros conseguida mediante su selección consigue mantener o incluso mejorar las tasas de identificación
conseguidas con los conjuntos de datos completos.
Definición de un entorno de trabajo que permita evaluar adecuadamente los métodos
propuestos y comparar los resultados con otros estudios. Una de las dificultades que
se plantea con frecuencia en los estudios de reconocimiento afectivo automático es la variedad de métodos de evaluación y métricas empleadas, lo que a menudo impide realizar
una comparación correcta de los resultados. Schuller et al. (2009) proponen un entorno de
trabajo basado en la métrica UAR, conveniente para el estudio de un corpus poco equilibrado como el FAU Aibo, así como un método de evaluación basado en dos conjuntos
independientes. Ambos conjuntos contienen información de locutores distintos por lo que
no existe el riesgo de entrenar y probar el sistema de reconocimiento con la información
de los mismos locutores. Los estudios realizados sobre este corpus por diferentes grupos de investigación a raíz de la propuesta inicial han seguido estos postulados, así como
la presente tesis, por lo que la comparación de resultados puede realizarse de forma correcta. Para completar los análisis realizados en esta tesis, el método de evaluación se ha
extendido a una validación cruzada de dos iteraciones, intercambiando los conjuntos de
entrenamiento y prueba en la segunda iteración y calculando el valor medio de los resultados obtenidos en ambos pasos. Sin embargo, la comparación final siempre se realiza en
base al resultado obtenido en la primera iteración.
Selección de los esquemas de clasificación y fusión más adecuados. En esta tesis se
ha abordado el reconocimiento afectivo automático como un problema de clasificación
categórica en el que los elementos a clasificar son locuciones parametrizadas de voz y
la clase es la etiqueta descriptiva de la emoción asociada. Como tal se han estudiado algoritmos de clasificación individuales y también formando estructuras más complejas,
considerando incluso más de una clase para cada locución en el caso de la clasificación
164
7. Conclusiones y futuras líneas de investigación
basada en el modelo bidimensional propuesto en la sección 6.2.2.2. Sin embargo, los esquemas que han proporcionado los mejores resultados no han sido algoritmos complejos
sino algoritmos más sencillos empleando conjuntos de datos convenientemente seleccionados. En este sentido, la fusión de los mismos ha resultado un punto clave, llegándose a
determinar que la fusión a nivel de parámetros por concatenación es más adecuada que
la fusión a nivel de decisión a pesar de la sencillez de su planteamiento. Asimismo, la
selección de parámetros realizada mediante un algoritmo genético a partir de los parámetros previamente fusionados por concatenación es la que proporciona la mejor tasa de
reconocimiento, lo que pone de manifiesto la importancia de la correcta selección de los
parámetros comentada más arriba.
7.2. Reconocimiento afectivo en corpus actuados
El reconocimiento afectivo basado en corpus actuados supone trabajar en un escenario bastante alejado del paradigma de las aplicaciones reales ya que, en el marco de
una interacción natural, la comunicación persona-máquina se realizará de forma espontánea, en condiciones de entorno variables y no controladas, en las que la expresividad
emocional no siempre se producirá con la máxima intensidad ni de forma prototípica y
en la que, además, estas emociones probablemente distarán de pertenecer al conjunto de
las emociones básicas. Además, los resultados obtenidos en un escenario de este tipo son
excesivamente buenos, incluso por encima de la clasificación que se realizaría de forma
subjetiva. Efectivamente, reconocer emociones de forma muy precisa cuando se corresponden con emociones plenas, grabadas en condiciones excelentes y de forma muy controlada, carece de poco sentido en un escenario de interacción natural. Es por este motivo
que, además del estudio de reconocimiento basado en los corpus ESDLA y BDP-UAB, se
ha planteado un segundo escenario en el que este tipo de reconocimiento sí puede ser de
utilidad: la validación automática de un corpus destinado a síntesis de voz expresiva.
El proceso de validación automática de corpus consiste en la clasificación de un
corpus actuado (y por lo tanto previamente etiquetado) que mapee el criterio subjetivo
de las personas que lo escuchan y, por lo tanto, deciden si la locución se corresponde
adecuadamente con la emoción que se supone que el actor debía transmitir en el momento de su grabación. Para lograrlo se realiza una evaluación subjetiva de un fragmento
del corpus, cuyo resultado sirve para ajustar el sistema de reconocimiento automático. El
ajuste se realiza mediante un proceso iterativo que selecciona los parámetros que maximizan la medida F1 computada en base a la clasificación subjetiva y la objetiva. Finalmente,
mediante la combinación de clasificadores gracias a una técnica de stacking se consigue
refinar el resultado final.
El análisis de resultados demuestra que existe un grado elevado de correspondencia entre las decisiones del sistema de validación automática y la percepción subjetiva de
los participantes en la prueba de escucha. A pesar de que este sistema aún podría incluir
mejoras, su desarrollo y presentación en esta tesis queda como ilustrador de la aplicación
7.3. Reconocimiento afectivo en corpus espontáneos
165
real que un reconocimiento afectivo de estas características podría tener. Sin embargo el
foco de atención se sitúa en un escenario de emociones espontáneas, las conclusiones de
cuya experimentación se abordan en la sección siguiente.
7.3. Reconocimiento afectivo en corpus espontáneos
El reconocimiento afectivo basado en corpus de voz espontánea es muy diferente
al que se realiza en base a corpus de voz actuada dadas las propias características de
los corpus. La presencia de emociones no prototípicas y locuciones de baja expresividad
afectiva hace que las condiciones sean muy específicas, como por ejemplo la clase R del
corpus FAU Aibo empleado en esta tesis, la cual aglutina una serie de locuciones bajo una
misma etiqueta a pesar de que no se corresponden con un estado afectivo bien definido.
Además, se ha trabajado en un entorno de varios locutores lo que es más acorde con un
escenario de propósito general.
Siguiendo la metodología más adecuada para poder comparar resultados con otras
investigaciones que emplean el corpus FAU Aibo se ha adoptado la métrica UAR y un
sistema de evaluación basado en dos conjuntos independientes. La medida UAR permite ponderar las clases mayoritarias y minoritarias por igual dado que este corpus es altamente no equilibrado. Los conjuntos independientes permiten mantener aislados los
conjuntos de entrenamiento y prueba durante todo el experimento.
En primer lugar, el corpus se ha analizado a nivel acústico y a nivel lingüístico de
forma independiente. Las principales conclusiones a este respecto se detallan a continuación:
Un primer experimento preliminar revela que el algoritmo Naïve-Bayes, con el procesado previo del conjunto de datos acústicos mediante una discretización supervisada de los mismos, es el que obtiene el mejor valor de UAR, por encima incluso de
otros esquemas más complejos.
El clasificador SVM de kernel lineal es también adecuado cuando se entrena con el
conjunto de datos acústicos de entrenamiento previamente normalizado y remuestrado para conseguir una distribución uniforme de clases. Una fusión mediante una
estrategia de stacking de este clasificador con el esquema Naïve-Bayes antes descrito mejora mínimamente este último en términos de UAR pero consigue una mejor
clasificación de los elementos de la clase R.
Abordar la clasificación del corpus FAU Aibo desde una perspectiva acústica mediante un planteamiento bidimensional en términos de activación y evaluación no
ofrece resultados superiores a los anteriores. La propia definición de las clases del
corpus hace complicado el mapeo de las mismas en dicho espacio bidimensional,
especialmente por la definición de la clase R.
166
7. Conclusiones y futuras líneas de investigación
Las reducciones automáticas de parámetros basadas en búsquedas voraces de tipo incremental y decremental consiguen reducir eficazmente el volumen de datos,
especialmente en el caso de la búsqueda incremental. Para este último conjunto reducido de datos se mantienen las tasas de clasificación en algoritmos como SVM y
SL pero se reduce drásticamente en el caso del esquema Naïve-Bayes, ya que este
método de selección no garantiza la independencia de los parámetros escogidos,
requisito de este clasificador.
La modalidad lingüística analizada de forma individual proporciona resultados inferiores a los de la modalidad acústica e incluso por debajo de los valores escogidos
como referencia durante la experimentación. Sin embargo, bigramas a nivel de palabra y trigramas a nivel POS se revelan como los más relevantes, por encima del
análisis lingüístico de las palabras consideradas individualmente. No obstante, no
pueden considerarse suficientes para abordar por sí mismos un problema de reconocimiento afectivo automático.
En segundo lugar, las modalidades acústica y lingüística son fusionadas a varios
niveles en una fase posterior, lo cual revela las siguientes conclusiones principales:
En general, la fusión tanto a nivel de decisión como a nivel de parámetros de la información acústica y lingüística mejora los resultados de UAR obtenidos por ambas
modalidades de forma individual.
En el análisis conjunto de las modalidades acústica y lingüística se comprueba que el
mejor esquema de fusión es el de concatenación a nivel de parámetros, a pesar de su
sencillez, y que la reducción acústica realizada mediante una búsqueda voraz incremental es la más conveniente para su fusión con la información lingüística, a pesar
de proporcionar un conjunto de datos muy reducido, de tan solo 28 parámetros.
Tal y como se desprendía del análisis individual de la modalidad lingüística, bigramas a nivel de palabra y trigramas a nivel POS son los parámetros lingüísticos más
relevantes. Fusionados por concatenación con el conjunto reducido de 28 parámetros acústicos maximizan el valor de UAR del algoritmo SL.
El mejor esquema de clasificación es el que emplea un clasificador SL y el conjunto
de datos Data8, consistente en una selección realizada por un algoritmo genético a
partir del conjunto completo de datos acústicos y lingüísticos. De los 159 parámetros
que lo forman, 149 son acústicos (frente a los 28 seleccionados por el algoritmo de
búsqueda voraz incremental en la selección previa) y 10 son lingüísticos, 8 de los
cuales hacen referencia a los bigramas a nivel de palabra y a los trigramas a nivel
POS. Su resultado es el mejor obtenido con este corpus publicado hasta la fecha en
las condiciones de trabajo planteadas en esta tesis.
Con el conjunto de datos Data8 el algoritmo Naïve-Bayes obtiene un mejor valor de
UAR que con otros conjuntos de datos reducidos. Esto es así porque el esquema de
7.4. Líneas de futuro
167
reducción basado en el algoritmo genético sí está orientado a conseguir una baja
correlación cruzada entre los parámetros escogidos.
7.4. Líneas de futuro
A pesar de que los resultados obtenidos al analizar el corpus FAU Aibo mediante
los esquemas aquí propuestos superan los de trabajos realizados en el mismo contexto,
cabe señalar que aún hay un largo camino por recorrer en el análisis de este corpus para
mejorarlos notablemente. No en vano, el valor máximo de UAR conseguido se sitúa por
debajo del 50 % considerando el análisis del corpus según se define en (Schuller et al.,
2009) para un escenario de cinco etiquetas afectivas.
En este sentido de mejora cabría la ampliación de la parametrización lingüística la
cual, actualmente, presenta un volumen de datos muy inferior al de la parametrización
acústica. Tal y como se ha comprobado, los parámetros lingüísticos actuales no son capaces de realizar por sí solos una adecuada clasificación pero sí mejoran notablemente los
resultados de clasificación obtenidos por los parámetros acústicos analizados de forma
individual.
En referencia también a los parámetros lingüísticos, la parametrización realizada
se ha hecho en base a la transcripción manual de las locuciones. Esto supone que dicha
transcripción está libre de errores. Sin embargo, dicha suposición podría no ser realista
en un contexto de interacción natural en el que el sistema de análisis afectivo contara con
un reconocedor automático de voz. Las limitaciones de dicho reconocedor conllevarían
la introducción de errores en las transcripciones lo que podría suponer una degradación
del rendimiento aquí señalado. En cualquier caso, los resultados aquí expuestos a este
respecto deben considerarse como una cota máxima suponiendo un reconocedor ideal de
voz y, por lo tanto, carente de errores.
Asimismo, sería conveniente realizar un análisis en otros idiomas. El corpus FAU
Aibo empleado en esta tesis está grabado en alemán. Sin embargo, podría resultar interesante probar estas mismas técnicas en corpus similares grabados en otros idiomas para
comprobar la validez de los métodos propuestos y su robustez frente a las variaciones de
la expresión de las emociones en diferentes lenguajes y culturas.
Por último, la definición empleada del corpus FAU Aibo presenta detalles que deberían ser tenidos en cuenta en el momento de diseñar una aplicación para un escenario
real. El principal sería la reconsideración de la clase R. Dicha clase no está bien definida
y supone una fuente importante de errores de clasificación. En este sentido tal vez debería ser ignorada como tal y agrupar sus locuciones en diversas clases bien de entre las ya
existentes o bien creando otras nuevas.
168
7. Conclusiones y futuras líneas de investigación
Bibliografía
Aha, D. W., Kibler, D., y Albert, M. K. (1991). Instance-based learning algorithms. Machine
Learning, 6(1):37–66.
Alías, F. e Iriondo, I. (2002). La evolución de la síntesis del habla en Ingeniería y Arquitectura La Salle. En Actas de las II Jornadas en Tecnología del Habla, Granada, Spain.
Alías, F., Monzo, C., y Socoró, J. C. (2006). A pitch marks filtering algorithm based on
restricted dynamic programming. En Proceedings of the 9th International Conference on
Spoken Language Processing (INTERSPEECH 2006 ICSLP), pp. 1698–1701, Pittsburgh, PA,
USA.
Alías, F., Sevillano, X., Socoró, J. C., y Gonzalvo, X. (2008). Towards high-quality nextgeneration text-to-speech synthesis: A multidomain approach by automatic domain
classification. IEEE Transactions on Audio, Speech, and Language Processing, 16(7):1340–
1354.
Ambady, N. y Rosenthal, R. (1992). Thin slices of expressive behavior as predictors of
interpersonal consequences: a meta-analysis. Psychological Bulletin, 111(2):256–274.
Ang, J., Dhillon, R., Krupski, A., Shriberg, E., y Stolcke, A. (2002). Prosody-based automatic detection of annoyance and frustration in human-computer dialog. En Hansen,
J. H. L. y Pellom, B. L., editores, Proceedings of the 7th International Conference on Spoken
Language Processing (ICSLP 2002), pp. 2037–2040, Denver, Colorado, USA. ISCA.
Arnfield, S., Roach, P., Setter, J., Greasley, P., y Horton, D. (1995). Emotional stress and
speech tempo variation. En Proceedings of the ESCA-NATO Workshop on Speech Under
Stress, pp. 13–15, Lisbon, Portugal.
Austermann, A., Esau, N., Kleinjohann, L., y Kleinjohann, B. (2005). Prosody based emotion recognition for MEXI. En Proceedings of the IEEE/RSJ International Conference on
Intelligent Robots and Systems (IROS 2005), pp. 1138–1144, Alberta, Canada.
Averill, J. R. (1980). A constructivist view of emotion. Emotion: Theory, research and experience, 1:305–339.
169
170
Bibliografía
Bachorowski, J. A. y Owren, M. J. (1995). Vocal expression of emotion: Acoustic properties
of speech are associated with emotional intensity and context. Psychological Science,
6(4):219–224.
Banse, R. y Scherer, K. R. (1996). Acoustic profiles in vocal emotion expression. Journal of
Personality and Social Psychology, 70(3):614–636.
Barra, R. (2011). Contributions to the analysis, design and evaluation of strategies for corpusbased emotional speech synthesis. Tesis doctoral, Universidad Politécnica de Madrid.
Barra, R., Fernández, F., Lutfi, S., Lucas-Cuesta, J. M., Macías-Guarasa, J., Montero, J. M.,
San Segundo, R., y Pardo, J. M. (2009). Acoustic emotion recognition usin dynamic
bayesian networks and multi-space distributions. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp.
336–339, Brighton, UK.
Barra, R., Macías-Guarasa, J., Montero, J. M., Rincón, C., Fernández, F., y Córdoba, R.
(2007). In search of primary rubrics for language independent emotional speech identification. En Proceedings of the IEEE International Symposium on Intelligent Signal Processing
(WISP 2007), Madrid, Spain.
Bartlett, M. S., Littlewort, G., Braathen, B., Sejnowski, T. J., y Movellan, J. R. (2003). A
prototype for automatic recognition of spontaneous facial actions. En Becker, S., Thrun,
S., y Obermayer, K., editores, Advances in Neural Information Processing Systems, volumen
15, pp. 1271–1278. MIT Press.
Bartneck, C. (2000). Affective expressions of machines. Tesis de máster, Stan Ackerman
Institute, Eindhoven.
Batliner, A., Fischer, K., Huber, R., Spilker, J., y Nöth, E. (2000). Desperately seeking emotions: Actors, wizards and human beings. En Proceedings of the ISCA Workshop on Speech
and Emotion, pp. 195–200, Newcastle, Northern Ireland, UK.
Batliner, A., Fischer, K., Huber, R., Spilker, J., y Nöth, E. (2003). How to find trouble in
communication. Speech Communication, 40(1-2):117–143.
Batliner, A., Hacker, C., Steidl, S., Nöth, E., D’Arcy, S., Russell, M. J., y Wong, M. (2004).
”You stupid tin box”— Children interacting with the AIBO robot: A cross-linguistic
emotional speech corpus. En Proceedings of the 4th International Conference on Language
Resources and Evaluation (LREC 2004), Lisbon, Portugal. European Language Resources
Association.
Batliner, A., Schuller, B., Seppi, D., Steidl, S., Devillers, L., Vidrascu, L., Vogt, T., Aharonson, V., y Amir, N. (2011). The automatic recognition of emotions in speech. En Cowie,
R., Pelachaud, C., y Petta, P., editores, Emotion-Oriented Systems, Cognitive Technologies,
pp. 71–99. Springer Berlin Heidelberg.
Bibliografía
171
Batliner, A., Steidl, S., Hacker, C., y Nöth, E. (2008). Private emotions versus social interaction: a data-driven approach towards analysing emotion in speech. User Modeling and
User-Adapted Interaction, 18:175–206.
Beller, G. y Marty, A. (2006). Talkapillar: outil d’analyse de corpus oraux. En Rencontres
Jeunes Chercheurs de l’Ecole Doctorale 268, Paris, France.
Bezdek, J. C., Pal, M. R., Keller, J., y Krisnapuram, R. (1999). Fuzzy Models and Algorithms
for Pattern Recognition and Image Processing. Kluwer Academic Publishers, Norwell, MA,
USA.
Bhutekar, S. y Chandak, M. (2012). Corpus based emotion extraction to implement prosody feature in speech synthesis systems. International Journal of Computer and Electronics
Research, 1(2).
Bozkurt, E., Erzin, E., Erdem, C. E., y Erdem, A. T. (2009). Improving automatic emotion
recognition from speech signals. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 324–327, Brighton,
UK.
Bozkurt, E., Erzin, E., Erdem, C. E., y Erdem, A. T. (2011). Formant position based weighted spectral features for emotion recognition. Speech Communication, 53(9-10):1186–1197.
Bradley, M. M. y Lang, P. J. (1994). Measuring emotion: The self-assessment manikin and
the semantic differential. Journal of Behavior Therapy & Experimental Psychiatry, 25(1):49–
59.
Bradley, M. M. y Lang, P. J. (1999). Affective Norms for English Words (ANEW): Stimuli, instruction manual, and affective ratings. Technical report, Center for Research in
Psychophysiology, University of Florida, Gainesville, Florida, USA.
Breazeal, C. L. (2002). Designing Sociable Robots. Intelligent Robotics and Autonomous
Agents Series. MIT Press, Cambridge, MA, USA.
Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2):123–140.
Broekens, J., Jonker, C. M., y Meyer, J.-J. C. (2010). Affective negotiation support systems.
Journal of Ambient Intelligence and Smart Environments, 2(2):121–144.
Buck, R. (1999). The biological affects: a typology. Psychological Review, 106(2):301–336.
Bullington, J. (2005). ’Affective’ computing and emotion recognition systems: the future
of biometric surveillance? En Proceedings of the 2nd Annual Conference on Information
Security Curriculum Development (InfoSecCD 2005), InfoSecCD ’05, pp. 95–99, New York,
NY, USA. ACM.
Burkhardt, F., Paeschke, A., Rolfes, M., y Sendlmeier, W. (2005). A database of german
emotional speech. En Proceedings of the 9th European Conference on Speech Communication
and Technology (INTERSPEECH 2005), pp. 1517–1520, Lisbon, Portugal. ISCA.
172
Bibliografía
Burkhardt, F. y Sendlmeier, W. (2000). Verification of acoustical correlates of emotional
speech using fromant-synthesis. En Proceedings of the ISCA Workshop on Speech and Emotion, pp. 151–156, Belfast, North Ireland.
Busso, C., Deng, Z., Yildirim, S., Bulut, M., Lee, C. M., Kazemzadeh, A., Lee, S., Neumann,
U., y Narayanan, S. (2004). Analysis of emotion recognition using facial expressions,
speech and multimodal information. En Proceedings of the 6th International Conference on
Multimodal Interfaces (ICMI 2004), pp. 205–211, New York, NY, USA. ACM.
Busso, C., Lee, S., y Narayanan, S. (2009). Analysis of emotionally salient aspects of fundamental frequency for emotion detection. IEEE Transactions on Audio, Speech and Language
Processing, 17(4):582–596.
Busso, C. y Narayanan, S. (2008). Recording audio-visual emotional databases from actors:
A closer look. En Proceedings of the 6th International Conference on Language Resources and
Evaluation (LREC 2008), pp. 17–22, Marrakech, Morocco.
Cañamero, L. y Fredslund, J. (2001). I show you how I like you — Can you read it in my
face? IEEE Transactions on Systems, Man, and Cybernetics, Part A, 31:454–459.
Cahn, J. (1989). Generating expression in synthesized speech. Tesis de máster, Massachusetts Institute of Technology.
Calzada, À. y Socoró, J. C. (2012). Voice quality modification using a harmonics plus noise
model. Cognitive Computation.
Campbell, N. (2000). Databases of emotional speech. En Proceedings of the ISCA Workshop
on Speech and Emotion, pp. 34–38, Newcastle, Northern Ireland, UK.
Campbell, N. (2002). Recording techniques for capturing natural every-day speech. En
Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC
2002), Las Palmas, Canary Islands, Spain.
Canny, J. (2006). The future of human-computer interaction. Queue, 4(6):24–32.
Chawla, N. V., Bowyer, K. W., Hall, L. O., y Kegelmeyer, W. P. (2002). SMOTE: Synthetic
Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16(1):321–
357.
Chen, L., Tao, H., Huang, T., Miyasato, T., y Nakatsu, R. (1998). Emotion recognition from
audiovisual information. En Proceedings of the IEEE 2nd Workshop on Multimedia Signal
Processing, pp. 83 –88, California, USA.
Clavel, C., Vasilescu, I., Devillers, L., Richard, G., y Ehrette, T. (2008). Fear-type emotion recognition for future audio-based surveillance systems. Speech Communication,
50(6):487–503.
Cleary, J. G. y Trigg, L. E. (1995). K*: An instance-based learner using an entropic distance
measure. En 12th International Conference on Machine Learning, pp. 108–114.
Bibliografía
173
Cohn, J., Reed, L., Ambadar, Z., Xiao, J., y Moriyama, T. (2004). Automatic analysis and
recognition of brow actions and head motion in spontaneous facial behavior. En Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics (SMC 2004),
volumen 1, pp. 610–616, The Hague, The Netherlands.
Cornelius, R. R. (2000). Theoretical approaches to emotion. En Proceedings of the ISCA
Workshop on Speech and Emotion: A Conceptual Framework for Research, pp. 3–10, Belfast,
Northern Ireland, UK.
Cowie, R. y Cornelius, R. R. (2003). Describing the emotional states that are expressed in
speech. Speech Communication, 40(1-2):5–32.
Cowie, R., Douglas-Cowie, E., Apolloni, B., Taylor, J., Romano, A., y Fellenz, W. (1999).
What a neural net needs to know about emotion words. Journal Computational Intelligence
and Applications, pp. 109–114.
Cowie, R., Douglas-Cowie, E., Savvidou, S., McMahon, E., Sawey, M., y Schröder, M.
(2000). FEELTRACE: An instrument for recording perceived emotion in real time. En
Proceedings of the ISCA Workshop on Speech and Emotion: A Conceptual Framework for Research, pp. 19–24, Newcastle, Northern Ireland, UK.
Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N., Votsis, G., Kollias, S., Fellenz, W., y Taylor,
J. G. (2001). Emotion recognition in human-computer interaction. IEEE Signal Processing
Magazine, 18(1):32–80.
Cowie, R. y Schröder, M. (2005). Piecing together the emotion jigsaw. En Bengio, S. y Bourlard, H., editores, Machine Learning for Multimodal Interaction, volumen 3361 de Lecture
Notes in Computer Science, pp. 305–317. Springer Berlin Heidelberg.
Darwin, C. R. (1872). La expresión de las emociones en los animales y en el hombre. Alianza
Editorial. Traducido por Eusebio Heras.
de Melo, C. M., Carnevale, P., y Gratch, J. (2010). The influence of emotions in embodied
agents on human decision-making. En Proceedings of the 10th International Conference on
Intelligent Virtual Agents (IVA 2010), pp. 357–370, Philadelphia, PA.
de Melo, C. M., Carnevale, P., y Gratch, J. (2011). The effect of expression of anger and happiness in computer agents on negotiations with humans. En Proceedings of the 10th International Conference on Autonomous Agents and Multiagent Systems (ICAAMS 2011), volumen 3, pp. 937–944, Richland, SC. International Foundation for Autonomous Agents
and Multiagent Systems.
Decety, J. y Jackson, P. L. (2004). The functional architecture of human empathy. Behavioral
and cognitive neuroscience reviews, 3(2):71–100.
Devillers, L., Vidrascu, L., y Lamel, L. (2005). Challenges in real-life emotion annotation
and machine learning based detection. Neural Networks, 18(4):407–422.
174
Bibliografía
Dick, P. K. (1968). ¿Sueñan los androides con ovejas eléctricas? Planeta DeAgostini. Traducido
por César Terrón.
Douglas-Cowie, E., Campbell, N., Cowie, R., y Roach, P. (2003). Emotional speech: Towards a new generation of databases. Speech Communication, 40:33–60.
Douglas-Cowie, E., Devillers, L., Martin, J. C., Cowie, R., Savvidou, S., Abrilian, S., y Cox,
C. (2005). Multimodal databases of everyday emotion: Facing up to complexity. En Proceedings of the 9th Annual Conference of the International Speech Communication Association
(INTERSPEECH 2005), pp. 813–816, Lisbon, Portugal.
Drioli, C., Tisato, G., Cosi, P., y Tesser, F. (2003). Emotions and voice quality: experiments
with sinusoidal modeling. En Proceedings of Voice Quality: Functions, Analysis and Synthesis (VOQUAL 2003), ISCA Tutorial and Research Workshop, pp. 127–132, Geneva, Switzerland.
Dumouchel, P., Dehak, N., Attabi, Y., Dehak, R., y Boufaden, N. (2009). Cepstral and longterm features for emotion recognition. En Proceedings of the 10th Annual Conference of
the International Speech Communication Association (INTERSPEECH 2009), pp. 344–347,
Brighton, UK.
Ekman, P. (1999). Basic emotions. En Dalgleish, T. y Power, T., editores, Handbook of Cognition and Emotion, pp. 45–60. John Wiley & Sons Ltd., Sussex, UK.
Ekman, P. y Friesen, W. V. (1969). The repertoire of nonverbal behaviour: Categories,
origins, usage and coding. Semiotica, 1(1):49–97.
Empirisoft (2011). Medialab research software. En línea. Última visita el 4 de junio de
2013. Disponible en <http://www.empirisoft.com/medialab.aspx>.
Enos, F. (2009). Detecting deception in speech. Tesis doctoral, Columbia University, New
York, USA.
Eriksson, A. y Lacerda, F. (2007). Charlatanry in forensic speech science: A problem to be
taken seriously. International Journal of Speech, Language and the Law, 14(2):169–193.
Escudero, D. (2003). Modelado Estadístico de Entonación con Funciones de Bézier: Aplicaciones
a la Conversion Texto-Voz en Español. Tesis doctoral, Universidad de Valladolid.
Eyben, F., Wöllmer, M., y Schuller, B. (2009). openEAR - Introducing the Munich OpenSource Emotion and Affect Recognition Toolkit. En Proceedings of the 4th International
HUMAINE Association Conference on Affective Computing and Intelligent Interaction (ACII
2009), pp. 576–581, Amsterdam, The Netherlands.
Fayyad, U. M. e Irani, K. B. (1993). Multi-interval discretization of continuous-valued attributes for classification learning. En Proceedings of the 13th International Joint Conference
on Artificial Intelligence (IJCAI 1993), pp. 1022–1029, Chambéry, France.
Bibliografía
175
Fernández, R. y Picard, R. W. (2003). Modeling drivers’ speech under stress. Speech Communication, 40:145–159.
Formiga, L. (2010). Optimització perceptiva dels sistemes de síntesi de la parla basats en selecció
d’unitats mitjançant algorismes genètics interactius actius. Tesis doctoral, La Salle, Universitat Ramon Llull.
Formiga, L., Trilla, A., Alías, F., Iriondo, I., y Socoró, J. C. (2010). Adaptation of the URLTTS system to the 2010 Albayzín Evaluation Campaign. En Proceedings of the VI Jornadas
en Tecnología del Habla and II Iberian SLTech Workshop, pp. 363–370, Vigo, Spain.
Fragopanagos, N. y Taylor, J. (2005). Emotion recognition in human-computer interaction.
Neural Networks, 18(4):389–405.
Francisco, V. (2008). Identificación automática del contenido afectivo de un texto y su papel
en la presentación de información. Tesis doctoral, Universidad Complutense de Madrid,
Madrid, Spain.
Francisco, V. y Gervás, P. (2006). Exploring the compositionality of emotions in text: Word
emotions, sentence emotions and automated tagging. En Proceedings of 21st National
Conference on Artificial Intelligence (AAAI 2006). Workshop on Computational Aesthetics: AI
Approaches to Beauty and Happiness, Boston, MA, USA.
Francisco, V., Hervás, R., Peinado, F., y Gervás, P. (2012). EmoTales: creating a corpus of
folk tales with emotional annotations. Language Resources and Evaluation, 46(3):341–381.
Frank, E. y Witten, I. H. (1998). Generating accurate rule sets without global optimization.
En Proceedings of the 15th International Conference on Machine Learning (ICML 1998), pp.
144–151, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc.
François, H. y Boëffard, O. (2002). The greedy algorithm and its application to the construction of a continuous speech database. En Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC 2002), volumen 5, pp. 1420–1426, Las
Palmas de Gran Canaria, España.
Freund, Y. y Schapire, R. E. (1996). Experiments with a new boosting algorithm. En
Proceedings of the 13th International Conference on Machine Learning (ICML 1996), pp. 148–
156, Bari, Italy.
Furnas, G. W., Landauer, T. K., Gómez, L. M., y Dumais, S. T. (1987). The vocabulary
problem in human-system communication. Communications of the ACM, 30(11):964–971.
Gabrys, B. y Ruta, D. (2006). Genetic algorithms in classifier fusion. Applied Soft Computing,
6(4):337–347.
Gadallah, M. E., Matar, M. A., y Algezawi, A. F. (1999). Speech based automatic lie detection. En Proceedings of the 16th National Radio Science Conference (NRSC 1999), pp. C33/1
–C33/8, Cairo, Egypt.
176
Bibliografía
Garrido, J. M. (1991). Modelización de patrones melódicos del español para la síntesis y el reconocimiento del habla. Universitat Autònoma de Barcelona, Bellaterra, España.
Gerrards-Hesse, A., Spies, K., y Hesse, F. W. (1994). Experimental inductions of emotional
states and their effectiveness: a review. British Journal of Psychology, 85:55–78.
Giakoumis, D., Tzovaras, D., Moustakas, K., y Hassapis, G. (2011). Automatic recognition of boredom in video games using novel biosignal moment-based features. IEEE
Transactions on Affective Computing, 2:119–133.
Gil, J. (2007). Fonética para Profesores de Español: De la Teoría a la Práctica. Manuales de
formación de profesores de español 2/L. Arco Libros.
Giles, H. y Smith, P. (1979). Accommodation theory: Optimal levels of convergence. En
Giles, H. y St. Clair, R. N., editores, Language and Social Psychology, pp. 45–65. Blackwell,
Oxford, UK.
Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine Learning.
Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 1a edición.
Goleman, D. (1995). Inteligencia Emocional. Editorial Kairós, Barcelona, Spain, 44a edición.
Traducido por David González y Fernando Mora.
Gonzalvo, J. (2010). Síntesi basada en models ocults de Markov aplicada a l’espanyol i a l’anglès,
les seves aplicacions i una proposta híbrida. Tesis doctoral, La Salle, Universitat Ramon
Llull.
Gonzalvo, X., Iriondo, I., Socoró, J. C., Alías, F., y Monzo, C. (2007a). Mixing HMM-based
spanish speech synthesis with a CBR for prosody estimation. En Chetouani, M., Hussain, A., Gas, B., Milgram, M., y Zarader, J.-L., editores, Advances in Nonlinear Speech
Processing, volumen 4885 de Lecture Notes in Computer Science, pp. 78–85. Springer Berlin Heidelberg.
Gonzalvo, X., Morán, J. A., Monzo, C., y Planet, S. (2005). Entorno para el aprendizaje
automático de las estrategias de diálogo. En Actas del XX Simposium Nacional de la Unión
Científica Internacional de Radio (URSI 2005), Gandia, Spain.
Gonzalvo, X., Socoró, J. C., Iriondo, I., C.Monzo, y Martinez, E. (2007b). Linguistic and mixed excitation improvements on a HMM-based speech synthesis for Castilian Spanish.
En Proceedings of the 6th ISCA Workshop on Speech Synthesis, Bonn, Germany.
Gouizi, K., Bereksi, R. F., y Maaoui, C. (2011). Emotion recognition from physiological
signals. Journal of Medical Engineering and Technology, 35(6-7):300–307.
Gratch, J. y Marsella, S. (2001). Tears and fears: modeling emotions and emotional behaviors in synthetic agents. En Müller, J. P., Andre, E., Sen, S., y Frasson, C., editores,
Proceedings of the 5th International Conference on Autonomous Agents (ICAA 2001), pp. 278–
285, Montreal, Canada. ACM Press.
Bibliografía
177
Grimm, M., Kroschel, K., Mower, E., y Narayanan, S. (2007). Primitives-based evaluation
and estimation of emotions in speech. Speech Communication, 49(10-11):787–800.
Gupta, P. y Rajput, N. (2007). Two-stream emotion recognition for call center monitoring.
En Proceedings of the 8th Annual Conference of the International Speech Communication Association (INTERSPEECH 2007), pp. 2241–2244, Antwerp, Belgium. ISCA.
Guyon, I. y Elisseeff, A. (2003). An introduction to variable and feature selection. Journal
of Machine Learning Research, 3:1157–1182.
Hall, M. A. (1998). Correlation-based Feature Subset Selection for Machine Learning. Tesis
doctoral, University of Waikato, Hamilton, New Zealand.
Hassan, A. y Damper, R. I. (2009). Emotion recognition from speech using extended feature selection and a simple classifier. En Proceedings of the 10th Annual Conference of
the International Speech Communication Association (INTERSPEECH 2009), pp. 2043–2046,
Brighton, UK.
Hastie, T. y Tibshirani, R. (1998). Classification by pairwise coupling. Annals of Statistics,
26(2):451–471.
Heinemann, P. (1980). Pedagogía de la comunicación no verbal. Herder, Barcelona, Spain.
Hinde, R. A., editor (1972). Non-verbal communication. Cambridge University Press.
Hofer, G., Richmond, K., y Clark, R. (2005). Informed blending of databases for emotional
speech synthesis. En Proceedings of the 9th European Conference on Speech Communication
and Technology (INTERSPEECH 2005), Lisbon, Portugal.
Hollingsed, T. K. y Ward, N. G. (2007). A combined method for discovering short-term
affect-based response rules for spoken tutorial dialog. En Proceedings of the ISCA ITRW
Speech and Language Technology in Education (SLaTE 2007), pp. 61–64, Pennsylvania, USA.
Hozjan, V., Kacic, Z., Moreno, A., Bonafonte, A., y Nogueiras, A. (2002). Interface databases: Design and collection of a multilingual emotional speech database. En Proceedings
of the 3rd International Conference on Language Resources and Evaluation (LREC 2002), Las
Palmas de Gran Canaria, España.
Ioannou, S., Raouzaiou, A., Tzouvaras, V., Mailis, T. P., Karpouzis, K., y Kollias, S. D.
(2005). Emotion recognition through facial expression analysis based on a neurofuzzy
network. Neural Networks, 18:423–435.
Iriondo, I. (2008). Producción de un corpus oral y modelado prosódico para la síntesis del habla
expresiva. Tesis doctoral, La Salle, Universitat Ramon Llull.
Iriondo, I., Guaus, R., Rodríguez, A., Lázaro, P., Montoya, N., Blanco, J., Bernadas, D., Oliver, J., Tena, D., y Longhi, L. (2000). Validation of an acoustical modelling of emotional
expression in spanish using speech synthesis techniques. En Proceedings of the ISCA
Workshop on Speech and Emotion, pp. 161–166, Newcastle, Northern Ireland, UK.
178
Bibliografía
Iriondo, I., Planet, S., Alías, F., Socoró, J. C., y Martínez, E. (2007a). Validation of an expressive speech corpus by mapping automatic classification to subjective evaluation. En
Sandoval, F., Prieto, A., Cabestany, J., y Graña, M., editores, Computational and Ambient
Intelligence, 9th International Work-Conference on Artificial Neural Networks, IWANN 2007,
San Sebastián, Spain, June 2007, Proceedings, volumen 4507 de Lecture Notes in Computer
Science, pp. 646–653. Springer.
Iriondo, I., Planet, S., Alías, F., Socoró, J. C., y Martínez, E. (2008). Emulating subjective
criteria in corpus validation. En Rabuñal, J. R., Dorado, J., y Pazos, A., editores, Encyclopedia of Artificial Intelligence, pp. 541–546. Information Science Reference.
Iriondo, I., Planet, S., Alías, F., Socoró, J. C., Monzo, C., y Martínez, E. (2007b). Expressive
speech corpus validation by mapping subjective perception to automatic classification
based on prosody and voice quality. En Proceedings of the 16th International Congress of
Phonetic Sciences (ICPhS 2007), pp. 2125–2128, Saarbrücken, Germany.
Iriondo, I., Planet, S., Socoró, J. C., y Alías, F. (2007c). Objective and subjective evaluation
of an expressive speech corpus. En Chetouani, M., Hussain, A., Gas, B., Milgram, M., y
Zarader, J. L., editores, Advances in Nonlinear Speech Processing, International Conference
on Nonlinear Speech Processing, NOLISP 2007, Paris, France, May 2007, Revised Selected
Papers, volumen 4885 de Lecture Notes in Artificial Intelligence, pp. 86–94. Springer.
Iriondo, I., Planet, S., Socoró, J. C., Martínez, E., Alías, F., y Monzo, C. (2009). Automatic
refinement of an expressive speech corpus assembling subjective perception and automatic classification. Speech Communication, 51(9):744–758. Special issue on non-linear
and conventional speech processing - NOLISP 2007.
Iriondo, I., Socoró, J. C., y Alías, F. (2007d). Prosody modelling of spanish for expressive
speech synthesis. En Proceedings of the 32nd IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP 2007), volumen 4, pp. 821–824, Honolulu, HI, USA.
Irtel, H. (2007). PXLab: The psychological experiments laboratory. En línea. Última visita
el 4 de junio de 2013. Disponible en <http://www.pxlab.de>.
ITU-T (1996). Methods for Subjective Determination of Transmission Quality. ITU-T Recommendation P.800. ITU-T recommendation: Series P. International Telecommunication Union.
Previously CCITT Recommendation.
James, W. (1884). What is an emotion? Mind, 9(34):188–205.
John, G. H. y Langley, P. (1995). Estimating continuous distributions in bayesian classifiers.
En Proceedings of the 11th Conference on Uncertainty in Artificial Intelligence (CUAI 1995),
pp. 338–345, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc.
Jovičić, S. T., Kašić, Z., Ðorđević, M., y Rajković, M. (2004). Serbian emotional speech database: design, processing and evaluation. En Proceedings of the 9th Conference on Speech
and Computer (SPECOM 2004), pp. 77–81, St. Petersburg, Russia.
Bibliografía
179
Juslin, P. N. (1997). Perceived emotional expression in synthesized performances of a short
melody: Capturing the listener’s judgment policy. Musicae Scientiae, 1(2):225–256.
Juslin, P. N. y Laukka, P. (2003). Communication of emotions in vocal expression and
music performance: Different channels, same code? Psychological Bulletin, 129(5):770–
814.
Juslin, P. N. y Scherer, K. R. (2005). The New Handbook of Methods in Nonverbal Behavior
Research, capítulo Vocal expression of affect, pp. 65–135. Oxford University Press.
Kapoor, A., Burleson, W., y Picard, R. W. (2007). Automatic prediction of frustration. International Journal of Human-Computer Studies, 65(8):724–736.
Kim, J. y André, E. (2006). Emotion recognition using physiological and speech signal in
short-term observation. En André, E., Dybkjær, L., Minker, W., Neumann, H., y Weber, M., editores, Perception and Interactive Technologies, volumen 4021 de Lecture Notes in
Computer Science, pp. 53–64. Springer Berlin Heidelberg.
Kockmann, M., Burget, L., y Černocký, J. (2009). Brno University of Technology system
for Interspeech 2009 Emotion Challenge. En Proceedings of the 10th Annual Conference of
the International Speech Communication Association (INTERSPEECH 2009), pp. 348–351,
Brighton, UK.
Kohavi, R. (1995). The power of decision tables. En Proceedings of the 8th European Conference on Machine Learning (ECML 1995), pp. 174–189, Heraclion, Crete, Greece. Springer
Verlag.
Kollias, S. y Piat, F. (1999). Principled hybrid systems: theory and applications (Physta).
En Proceedings of the IEEE International Conference on Multimedia Computing and Systems
(ICMCS 1999), volumen 2, pp. 1089–1091, Florence, Italy.
Koolagudi, S. G. y Rao, K. (2012). Emotion recognition from speech: a review. International
Journal of Speech Technology, 15(2):99–117.
Kostoulas, T., Mporas, I., Kocsis, O., Ganchev, T., Katsaounos, N., Santamaría, J. J., JiménezMurcia, S., Fernández-Aranda, F., y Fakotakis, N. (2012). Affective speech interface in
serious games for supporting therapy of mental disorders. Expert Systems with Applications, 39(12):11072–11079.
Kotti, M., Paternò, F., y Kotropoulos, C. (2010). Speaker-independent negative emotion
recognition. En Proceedings of the 2nd International Workshop on Cognitive Information
Processing (CIP 2010), pp. 417–422, Elba Island, Italy.
Kwon, O. W., Chan, K., Hao, J., y Lee, T. W. (2003). Emotion recognition by speech signals. En Proceedings of the 8th European Conference on Speech Communication and Technology
(EUROSPEECH 2003), pp. 125–128, Geneva, Switzerland. ISCA.
Labov, W. (1972). Sociolinguistic Patterns. Conduct and Communication. University of
Pennsylvania Press.
180
Bibliografía
Landwehr, N., Hall, M., y Frank, E. (2005). Logistic model trees. Machine Learning, 59(1–
2):161–205.
Lang, P. J. (1980). Behavioral treatment and bio-behavioral assessment: computer applications. En Sidowski, J. B., Johnson, J. H., y Williams, T. H., editores, Technology in Mental
Health Care Delivery Systems, pp. 119–137. Ablex, Norwood, NJ.
Langley, P. (1994). Selection of relevant features in machine learning. En Proceedings of the
Association for the Advancement of Artificial Intelligence Fall Symposium on Relevance (AAAI
1994), volumen 97, pp. 127–131, New Orleans, Louisiana, USA. AAAI Press.
Laver, J. (1980). The Phonetic Description of Voice Quality. Cambridge University Press.
Lazarus, R. S. (1999). Stress and Emotion: A New Synthesis. Springer Publishing Company.
Lazarus, R. S. (2001). Appraisal processes in emotion: Theory, methods, research, capítulo Relational meaning and discrete emotions, pp. 37–67. Series in Affective Science. Oxford
University Press.
Lee, C. C., Mower, E., Busso, C., Lee, S., y Narayanan, S. (2009). Emotion recognition using
a hierarchical binary decision tree approach. En Proceedings of the 10th Annual Conference
of the International Speech Communication Association (INTERSPEECH 2009), pp. 320–323,
Brighton, UK.
Lee, C. M. y Narayanan, S. (2005). Towards detecting emotions in spoken dialogs. IEEE
Transactions on Speech and Audio Processing, 13(2):293–303.
Lee, C. M., Narayanan, S., y Pieraccini, R. (2001). Recognition of negative emotions from
the speech signal. En Proceedings of the IEEE Workshop on Automatic Speech Recognition
and Understanding (ASRU 2001), pp. 240–243, Trento, Italy.
Leventhal, H. (1980). Toward a comprehensive theory of emotion. En Berkowitz, L., editor,
Advances in Experimental Social Psychology, volumen 13, pp. 139–207. Academic Press.
Lewis, M. y Haviland, J. M. (1993). Handbook of Emotions. Guilford Publications.
Li, L. y Chen, J. H. (2006). Emotion recognition using physiological signals. En Pan,
Z., Cheok, A., Haller, M., Lau, R., Saito, H., y Liang, R., editores, Advances in Artificial
Reality and Tele-Existence, volumen 4282 de Lecture Notes in Computer Science, pp. 437–
446. Springer Berlin Heidelberg.
Liberman, M., Davis, K., Grossman, M., Martey, N., y Bell, J. (2002). Emotional prosody
speech and transcripts.
Lin, Y. P., Wang, C. H., Jung, T. P., Wu, T. L., Jeng, S. K., Duann, J. R., y Chen, J. H. (2010).
EEG-based emotion recognition in music listening. IEEE Transactions on Biomedical Engineering, 57(7):1798–1806.
Bibliografía
181
Litman, D. y Forbes-Riley, K. (2003). Recognizing emotions from student speech in tutoring dialogues. En Proceedings of the IEEE Workshop on Automatic Speech Recognition and
Understanding (ASRU 2003), pp. 25–30, St. Thomas, VI, USA.
Litman, D. y Forbes-Riley, K. (2004). Predicting student emotions in computer-human tutoring dialogues. En Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics (ACL 2004), Barcelona, Spain.
Litman, D. y Forbes-Riley, K. (2006). Recognizing student emotions and attitudes on the
basis of utterances in spoken tutoring dialogues with both human and computer tutors.
Speech Communication, 48(5):559–590.
Litman, D., Friedberg, H., y Forbes-Riley, K. (2012). Prosodic cues to disengagement and
uncertainty in physics tutorial dialogues. En Proceedings of the 13th Annual Conference of the International Speech Communication Association (INTERSPEECH 2012), Portland,
Oregon.
Llisterri, J., Carbó, C., Machuca, M. J., de la Mota, C., Riera, M., y Ríos, A. (2004). Tecnologías del texto y del habla, capítulo La conversión de texto en habla: aspectos lingüísticos,
pp. 145–186. Edicions de la Universitat de Barcelona y Fundación Duques de Soria,
Barcelona.
Luengo, I., Navas, E., y Hernáez, I. (2009). Combining spectral and prosodic information
for emotion recognition in the Interspeech 2009 Emotion Challenge. En Proceedings of
the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 332–335, Brighton, UK.
Luengo, I., Navas, E., Hernáez, I., y Sánchez, J. (2005). Automatic emotion recognition
using prosodic parameters. En Proceedings of the 6th Annual Conference of the International
Speech Communication Association (INTERSPEECH 2005), pp. 493–496, Lisbon, Portugal.
Maria, K. A. y Zitar, R. A. (2007). Emotional agents: A modeling and an application.
Information and Software Technology, 49(7):695–716.
Matsumoto, D. y Willingham, B. (2009). Spontaneous facial expressions of emotion of
congenitally and noncongenitally blind individuals. Journal of Personality and Social Psychology, 96(1):1–10.
McGilloway, S., Cooper, S. J., y Douglas-Cowie, E. (2003). Can patients with chronic schizophrenia express emotion? a speech analysis. Schizophrenia Research, 64(2-3):189–190.
McGilloway, S., Cowie, R., Douglas-Cowie, E., Gielen, S., Westerdijk, M., y Stroeve, S.
(2000). Approaching automatic recognition of emotion from voice: a rough benchmark.
En Proceedings of the ISCA Workshop on Speech and Emotion, Belfast, North Ireland.
Mehrabian, A. y Russell, J. (1974). An approach to environmental psychology. MIT Press,
Cambridge, MA.
182
Bibliografía
Melenchón, J. (2007). Síntesis audiovisual realista personalizable. Tesis doctoral, Enginyeria i
Arquitectura La Salle, Universitat Ramon Llull, Barcelona, Spain.
Michaelis, D., Gramss, T., y Strube, H. (1997). Glottal to noise excitation ratio — A new
measure for describing pathological voices. Acustica / Acta acustica, 83:800–806.
Mihalcea, R. y Strapparava, C. (2009). The lie detector: explorations in the automatic recognition of deceptive language. En Proceedings of the Joint Conference of the 47th Annual
Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing
(ACL-IJCNLP 2009), pp. 309–312, Stroudsburg, PA, USA. Association for Computational
Linguistics.
Montero, J. A., Alías, F., Garriga, C., Vicent, L., e Iriondo, I. (2007). Assessing students’
teamwork performance by means of fuzzy logic. En Proceedings of the 9th International
Work-Conference on Artificial Neural Networks (IWANN 2007), San Sebastián, Spain.
Montero, J. M., Gutiérrez-Arriola, J., Palazuelos, S., Enríquez, E., Aguilera, S., y Pardo, J. M.
(1998a). Emotional speech synthesis: From speech database to TTS. En Proceedings of
the 5th International Conference on Spoken Language Processing (ICSLP 1998), pp. 923–926,
Sydney, Australia.
Montero, J. M., Gutiérrez-Arriola, J., Palazuelos, S., Enríquez, E., y Pardo, J. M. (1998b).
Spanish emotional speech from database to TTS. En Proceedings of the 5th International
Conference on Spoken Language Processing (ICSLP 1998), pp. 923–925, Sydney, Australia.
Montoya, N. (1998). El papel de la voz en la publicidad audiovisual dirigida a los niños.
Zer. Revista de estudios de comunicación, (4):161–177.
Monzo, C. (2010). Modelado de la cualidad de la voz para la síntesis del habla expresiva. Tesis
doctoral, La Salle, Universitat Ramon Llull.
Monzo, C., Alías, F., Iriondo, I., Gonzalvo, X., y Planet, S. (2007). Discriminating expressive
speech styles by voice quality parameterization. En Proceedings of the 16th International
Congress of Phonetic Sciences (ICPhS 2007), pp. 2081–2084, Saarbrücken, Germany.
Monzo, C., Morán, J. A., Planet, S., y Gonzalvo, X. (2004). Protocolo DS-CDMA orientado
a la gestión de un auditorio. En Actas del XIX Simposium Nacional de la Unión Científica
Internacional de Radio (URSI 2004), Barcelona, Spain.
Morrison, D., Wang, R., y De Silva, L. C. (2007). Ensemble methods for spoken emotion
recognition in call-centres. Speech Communication, 49(2):98–112.
Mozziconacci, S. (1998). Speech variability and emotion: Production and perception. Tesis
doctoral, Technical University of Eindhoven, Eindhoven, The Netherlands.
Murray, I. R. y Arnott, J. L. (1993). Toward the simulation of emotion in synthetic speech: A
review of the literature of human vocal emotion. Journal of the Acoustic Society of America,
93(2):1097–1108.
Bibliografía
183
Nasoz, F., Alvarez, K., Lisetti, C. L., y Finkelstein, N. (2004). Emotion recognition from
physiological signals using wireless sensors for presence technologies. International
Journal of Cognition, Technology and Work, 6(1):4–14.
Navas, E., Hernáez, I., y Luengo, I. (2006). An objective and subjective study of the role of
semantics and prosodic features in building corpora for emotional TTS. IEEE Transactions on Audio, Speech and Language Processing, 14(4):1117–1127.
NBS (2013). Presentation, precise, powerful stimulus delivery. En línea. Última visita el
4 de junio de 2013. Disponible en <http://www.neurobs.com/>.
Neiberg, D., Elenius, K., y Laskowski, K. (2006). Emotion recognition in spontaneous
speech using GMM. En Proceedings of the International Conference on Spoken Language
Processing (ICSLP 2006), pp. 809–812, Pittsburgh, Pennsylvania, USA.
Nöth, E., Batliner, A., Niemann, H., Stemmer, G., Gallwitz, F., y Spilker, J. (2001). Language
models beyond word strings. En Proceedings of the IEEE Workshop on Automatic Speech
Recognition and Understanding (ASRU 2001), pp. 167–176, Italy.
Ochs, M. y Prendinger, H. (2010). A virtual character’s emotional persuasiveness. En Proceedings of the International Conference on Kansei Engineering and Emotion Research (KEER
2010), Paris.
Osherenko, A. (2008). Towards semantic affect sensing in sentences. En Proceedings of Annual Convention of the Society for the Study of Artificial Intelligence and Simulation of Behaviour (AISB 2008), Aberdeen, Scotland, UK.
Osherenko, A., André, E., y Vogt, T. (2009). Affect sensing in speech: Studying fusion
of linguistic and acoustic features. En Proceedings of the 3rd International Conference on
Affective Computing and Intelligent Interaction and Workshops (ACII 2009), Amsterdam, The
Netherlands.
Oudeyer, P. Y. (2003). The production and recognition of emotions in speech: features and
algorithms. International Journal of Human-Computer Studies, 59(1-2):157–183. Special
issue on Affective Computing.
Oviatt, S. (2002). Handbook of Human-Computer Interaction. Lawrence Erlbaum.
Pammi, S., Charfuelan, M., y Schröder, M. (2010). Multilingual voice creation toolkit for
the MARY TTS platform. En Calzolari, N., Choukri, K., Maegaard, B., Mariani, J., Odijk,
J., Piperidis, S., Rosner, M., y Tapias, D., editores, Proceedings of the International Conference on Language Resources and Evaluation (LREC 2010), Valletta, Malta. European Language
Resources Association.
Pantic, M. y Rothkrantz, L. J. M. (2003). Toward an affect-sensitive multimodal humancomputer interaction. Proceedings of the IEEE, 91(9):1370–1390.
184
Bibliografía
Payrató, L. (2005). Aspectos del discurso multimodal: Relaciones ente elementos verbales,
prosódicos y gestuales en el discurso oral. En Curso de Tecnologías Lingüísticas: El Futuro
de los Sistemas de Diálogo. Fundación Duques de Soria, Soria.
Peleg, G., Katzir, G., Peleg, O., Kamara, M., Brodsky, L., Or, H. H., Keren, D., y Nevo,
E. (2006). Hereditary family signature of facial expression. Proceedings of the National
Academy of Sciences of the United States of America, 103(43):15921–15926.
Peng, H., Long, F., y Ding, C. (2005). Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 27(8):1226–1238.
Pérez-Espinosa, H., Reyes-García, C. A., y Villaseñor-Pineda, L. (2011). EmoWisconsin:
an emotional children speech database in Mexican Spanish. En Affective Computing and
Intelligent Interaction, pp. 62–71. Springer Berlin Heidelberg.
Picard, R. W. (2000). Affective Computing. MIT Press.
Picard, R. W., Vyzas, E., y Healey, J. (2001). Toward machine emotional intelligence: Analysis of affective physiological state. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 23(10):1175–1191.
Planet, S. e Iriondo, I. (2011a). Improving spontaneous children’s emotion recognition
by acoustic feature selection and feature-level fusion of acoustic and linguistic parameters. En Travieso, C. y Alonso, J., editores, Advances in Nonlinear Speech Processing, 5th
International Conference on Nonlinear Speech Processing, NOLISP 2011, Las Palmas de Gran
Canaria, Spain, November 2011, Proceedings, volumen 7015 de Lecture Notes in Computer
Science, pp. 88–95. Springer Berlin/Heidelberg.
Planet, S. e Iriondo, I. (2011b). Spontaneous children’s emotion recognition by categorical
classification of acoustic features. En Rocha, A., Gonçalves, R., Pérez Cota, M., y Reis,
L. P., editores, Actas da 6a Conferência Ibérica de Sistemas e Tecnologias de Informação (CISTI
2011), volumen 1, pp. 594–599, Chaves, Portugal.
Planet, S. e Iriondo, I. (2012a). Children’s emotion recognition from spontaneous speech
using a reduced set of acoustic and linguistic features. Cognitive Computation.
Planet, S. e Iriondo, I. (2012b). Comparative study on feature selection and fusion schemes
for emotion recognition from speech. International Journal of Interactive Multimedia and
Artificial Intelligence, 1(6):44–51. Special Issue on Intelligent Systems and Applications.
Planet, S. e Iriondo, I. (2012c). Comparison between decision-level and feature-level fusion
of acoustic and linguistic features for spontaneous emotion recognition. En Rocha, A.,
Calvo Manzano, J. A., Reis, L. P., y Pérez Cota, M., editores, Actas de la 7a Conferencia
Ibérica de Sistemas y Tecnologías de la Información (CISTI 2012), volumen 1, pp. 199–204,
Madrid, Spain.
Bibliografía
185
Planet, S., Iriondo, I., Martínez, E., y Montero, J. A. (2008). TRUE: an online Testing platfoRm for mUltimedia Evaluation. En Proceedings of the 2nd International Workshop on
EMOTION: Corpora for Research on Emotion and Affect at the 6th Conference on Language
Resources & Evaluation (LREC 2008), pp. 61–65, Marrakech, Morocco.
Planet, S., Iriondo, I., Socoró, J. C., Monzo, C., y Adell, J. (2009). GTM-URL contribution
to the Interspeech 2009 Emotion Challenge. En Proceedings of the 10th Annual Conference
of the International Speech Communication Association (INTERSPEECH 2009), pp. 316–319,
Brighton, UK.
Planet, S., Morán, J. A., y Formiga, L. (2006). Reconocimiento de emociones basado en el
análisis de la señal de voz parametrizada. En Cunha, M. M. y Rocha, A., editores, Actas
da I Conferência Ibérica de Sistemas e Tecnologias de Informação (CISTI 2006), volumen 2, pp.
837–854, Ofir, Portugal.
Planet, S., Morán, J. A., Monzo, C., y Gonzalvo, X. (2004). Asistencia al seguimiento docente basada en técnicas avanzadas de análisis. En Actas del XIX Simposium Nacional de
la Unión Científica Internacional de Radio (URSI 2004), Barcelona, Spain.
Platt, J. C. (1998). Fast training of support vector machines using sequential minimal
optimization. En Schoelkopf, B., Burges, C., y Smola, A., editores, Advances in Kernel
Methods-Support Vector Learning, pp. 41–65. MIT Press.
Plutchik, R. (1980). Emotion: A Psychoevolutionary Synthesis. Harper and Row, New York.
Plutchik, R. (1994). The psychology and biology of emotion. HarperCollins Publishers.
Plutchik, R. (2001). The nature of emotions. American Scientist, 89(4):344–350.
Polzehl, T., Sundaram, S., Ketabdar, H., Wagner, M., y Metze, F. (2009). Emotion classification in children’s speech using fusion of acoustic and linguistic features. En Proceedings
of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 340–343, Brighton, UK.
Polzin, T. y Waibel, A. (2000). Emotion-sensitive human-computer interface. En Proceedings of the ISCA Workshop on Speech and Emotion, Belfast, North Ireland.
Pous, M. y Ceccaroni, L. (2010). Multimodal interaction in distributed and ubiquitous
computing. En Proceedings of the 5th International Conference on Internet and Web Applications and Services (ICIW 2010), pp. 457–462, Barcelona, Spain.
Prieto, M. A. (2008). Blade Runner. Colección Making Of. T&B Editores, Madrid.
Puigví, D., Jiménez, D., y Fernández, J. M. (1994). Parametrización de las pausas ortográficas en castellano. Aplicación a un conversor de texto a habla. Procesamiento del Lenguaje
Natural, 15.
186
Bibliografía
Přibil, J. y Přibilová, A. (2009). Spectral flatness analysis for emotional speech synthesis
and transformation. En Esposito, A. y Vích, R., editores, Cross-Modal Analysis of Speech,
Gestures, Gaze and Facial Expressions, volumen 5641 de Lecture Notes in Computer Science,
pp. 106–115. Springer Berlin Heidelberg.
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Series in
Machine Learning. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1a edición.
Quinlan, R. (1986). Induction of decision trees. Machine Learning, 1(1):81–106.
Rapcan, V., D’Arcy, S., Yeap, S., Afzal, N., Thakore, J., y Reilly, R. B. (2010). Acoustic and
temporal analysis of speech: A potential biomarker for schizophrenia. Medical Engineering and Physics, 32(9):1074–1079.
Reips, U. D. (2002). Standards for internet-based experimenting. Experimental Psychology,
49(4):243–256.
Ringeval, F. y Chetouani, M. (2007). Exploiting a vowel based approach for acted emotion
recognition. En Esposito, A., Bourbakis, N. G., Avouris, N. M., y Hatzilygeroudis, I.,
editores, Verbal and Nonverbal Features of Human-Human and Human-Machine Interaction,
COST Action 2102 International Conference, Patras, Greece, October 29-31, 2007. Revised Papers, volumen 5042 de Lecture Notes in Computer Science, pp. 243–254. Springer.
Rish, I. (2001). An empirical study of the Naïve-Bayes classifier. IJCAI 2001 Workshop on
Empirical Methods in Artificial Intelligence, 3(22):41–46.
Rodríguez, A., Lázaro, P., Montoya, N., Blanco, J., Bernadas, D., Oliver, J., y Longhi, L.
(1999). Modelización acústica de la expresión emocional en el español. Procesamiento
del Lenguaje Natural, 25:159–166.
Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6):1161–1178.
Russell, J. A., Bachorowski, J., y Fernández-Dols, J. (2003). Facial and vocal expressions of
emotion. Annual Reviews of Psychology, 54:329–349.
Russell, J. A., Lewicka, M., y Niit, T. (1989). A cross-cultural study of a circumplex model
of affect. Journal of Personality and Social Psychology, 57(5):848–856.
Ruvolo, P., Fasel, I., y Movellan, J. (2008). Auditory mood detection for social and educational robots. En Proceedings of the IEEE International Conference on Robotics and Automation
(ICRA 2008), pp. 3551–3556, California, USA.
Scherer, K. R. (1979). Social markers in speech, capítulo Personality markers in speech, pp.
147–209. Cambridge University Press, Cambridge.
Scherer, K. R. (1984). Review of Personality and Social Psychology, volumen 5, capítulo Emotion as a Multicomponent Process: A model and some cross-cultural data, pp. 37–63.
Sage, Beverly Hills, CA.
Bibliografía
187
Scherer, K. R. (1986). Vocal affect expression: A review and a model for future research.
Psychological Bulletin, 99:143–165.
Scherer, K. R. (1988). Facets of Emotion: Recent Research. Lawrence Erlbaum Associates
Publishers, New Jersey.
Scherer, K. R. (1999). Appraisal theory. En Dalgleish, T. y Power, M., editores, Handbook
of Cognition and Emotion, pp. 637–663. John Wiley & Sons Ltd., Sussex, UK.
Scherer, K. R. (2000). Introduction to social psychology: A European perspective, capítulo Emotion, pp. 151–191. Blackwell, Oxford, 3a edición.
Scherer, K. R. (2003). Vocal communication of emotion: A review of research paradigms.
Speech Communication, 40(1-2):227–256.
Scherer, K. R. (2005). What are emotions? And how can they be measured? Social Science
Information, 44(4):695–729.
Scherer, K. R. y Oshinsky, J. S. (1977). Cue utilization in emotion attribution from auditory
stimuli. Motivation and Emotion, 1(4):331–346.
Schlosberg, H. (1954). Three dimensions of emotion. Psychological Review, 61(2):81–88.
Schröder, M. (2004). Speech and Emotion Research: An overview of research frameworks and a
dimensional approach to emotional speech synthesis. Tesis doctoral, PHONUS 7, Research
Report of the Institute of Phonetics, Saarland University.
Schröder, M. (2013). Rating test, Java software for designing and carrying out listening tests.
En línea.
Última visita el 4 de junio de 2013. Disponible en
<http://sourceforge.net/projects/ratingtest/>.
Schröder, M., Cowie, R., Douglas-Cowie, E., Westerdijk, M., y Gielen, S. (2001). Acoustic
correlates of emotion dimensions in view of speech synthesis. En Proceedings of the
7th European Conference on Speech Communication and Technology (EUROSPEECH 2001),
volumen 1, pp. 87–90, Aalborg, Denmark.
Schuller, B., Batliner, A., Steidl, S., y Seppi, D. (2011). Recognising realistic emotions and
affect in speech: State of the art and lessons learnt from the first challenge. Speech Communication, In Press, Corrected Proof.
Schuller, B., Steidl, S., y Batliner, A. (2009). The Interspeech 2009 Emotion Challenge. En
Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 312–315, Brighton, UK.
Schuller, B., Villar, R., Rigoll, G., y Lang, M. (2005). Meta-classifiers in acoustic and linguistic feature fusion-based affect recognition. En Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2005), pp. 325–328, Pennsylvania, USA.
188
Bibliografía
Schweitzer, A. y Möbius, B. (2003). On the structure of internal prosodic models. En
Proceedings of the 15th International Congress of Phonetic Sciences (ICPhS 2003), Barcelona,
Spain.
Sebe, N., Cohen, I., y Huang, T. S. (2005). Handbook of Pattern Recognition and Computer
Vision, capítulo Multimodal emotion recognition. World Scientific.
Sevillano, X., Melenchón, J., y Socoró, J. C. (2006). Análisis y síntesis audiovisual para interfaces multimodales ordenador-persona. En Proceedings of the 7th Congreso Internacional de Interacción Persona-Ordenador (Interacción 2006), Puertollano, Ciudad Real, Spain.
Sezgin, M., Gunsel, B., y Kurt, G. (2012). Perceptual audio features for emotion detection.
EURASIP Journal on Audio, Speech, and Music Processing, 2012:1–21.
Shami, M. y Verhelst, W. (2007). An evaluation of the robustness of existing supervised
machine learning approaches to the classification of emotions in speech. Speech Communication, 49(3):201–212.
Shaukat, A. y Chen, K. (2008). Towards automatic emotional state categorisation from
speech signals. En Proceedings of the 9th Annual Conference of the International Speech
Communication Association (INTERSPEECH 2008), pp. 2771–2774, Brisbane, Australia.
Slaney, M. y McRoberts, G. (1998). Baby Ears: a recognition system for affective vocalizations. 1998 IEEE International Conference on Acoustics Speech and Signal Processing, pp.
985–988.
Steidl, S. (2009). Automatic Classification of Emotion-Related User States in Spontaneous Children’s Speech. Tesis doctoral, University of Erlangen-Nuremberg.
Stevenson, R. A., Mikels, J. A., y James, T. W. (2007). Characterization of the affective
norms for english words by discrete emotional categories. Behavior Research Methods,
39(4):1020–1024.
Suwa, M., Sugie, N., y Fujimora, K. (1978). A preliminary note on pattern recognition
of human emotional expression. En Proceedings of the International Joint Conference on
Pattern Recognition (IJCPR 1978), pp. 408–410, Florida, USA.
Tolkien, J. R. R. (1954). El Señor de los Anillos. La Comunidad del Anillo. Ediciones Minotauro,
24a edición. Traducido por Luis Domènech.
Trilla, A. y Alías, F. (2009). Sentiment classification in English from sentence-level annotations of emotions regarding models of affect. En Proceedings of the 10th Annual Conference
of the International Speech Communication Association (INTERSPEECH 2009), pp. 516–519,
Brighton, UK.
Truong, K. P. y Raaijmakers, S. (2008). Automatic recognition of spontaneous emotions in
speech using acoustic and lexical features. En Proceedings of the 5th International Workshop
on Machine Learning for Multimodal Interaction (MLMI 2008), pp. 161–172, Utrecht, The
Netherlands.
Bibliografía
189
Truong, K. P. y van Leeuwen, D. A. (2007). An open-set detection evaluation methodology
applied to language and emotion recognition. En Proceedings of the 8th Annual Conference
of the International Speech Communication Association (INTERSPEECH 2007), pp. 338–341,
Antwerp, Belgium. ISCA.
Valero, X. y Alías, F. (2012). Hierarchical classification of environmental noise sources
considering the acoustic signature of vehicle pass-bys. Archives of Acoustics, 37(4):423–
434.
Valstar, M. F., Gunes, H., y Pantic, M. (2007). How to distinguish posed from spontaneous smiles using geometric features. En Proceedings of the 9th International Conference on
Multimodal Interfaces (ICMI 2007), pp. 38–45, New York, NY, USA. ACM.
Ververidis, D. y Kotropoulos, C. (2006). Emotional speech recognition: Resources, features, and methods. Speech Communication, 48(9):1162–1181.
Vlasenko, B., Schuller, B., Wendemuth, A., y Rigoll, G. (2007). Frame vs. turn-level: Emotion recognition from speech considering static and dynamic processing. En Proceedings
of the 2nd international conference on Affective Computing and Intelligent Interaction (ACII
2007), pp. 139–147, Berlin, Heidelberg. Springer-Verlag.
Vlasenko, B. y Wendemuth, A. (2009). Processing affected speech within human machine
interaction. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 2039–2042, Brighton, UK.
Vogt, T. y André, E. (2009). Exploring the benefits of discretization of acoustic features
for speech emotion recognition. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 328–331, Brighton,
UK.
Vogt, T., André, E., y Bee, N. (2008). EmoVoice — A framework for online recognition of
emotions from voice. En Proceedings of the Workshop on Perception and Interactive Technologies for Speech-Based Systems.
Wang, R. y Fang, B. (2008). Affective computing and biometrics based HCI surveillance
system. En Proceedings of the International Symposium on Information Science and Engineering (ISISE 2008), volumen 1, pp. 192–195, Shanghai, China.
Whissell, C. M. (1989). The dictionary of affect in language. Emotion: Theory, Research, and
Experience, 4:113–131.
Whissell, C. M. (2008). A comparison of two lists providing emotional norms for english
words (ANEW and the DAL). Psychological Reports, (102):597–600.
Williams, C. E. y Stevens, K. N. (1972). Emotions and speech: Some acoustical correlates.
Journal of the Acoustical Society of America, 52(4):1238–1250.
Witten, I. H. y Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques.
Morgan Kaufmann, San Francisco, CA, 2a edición.
190
Bibliografía
Yildirim, S., Narayanan, S., y Potamianos, A. (2011). Detecting emotional state of a child
in a conversational computer game. Computer Speech and Language, 25:29–44.
Zara, A., Maffiolo, V., Martin, J. C., y Devillers, L. (2007). Collection and annotation of a
corpus of human-human multimodal interactions: Emotion and others anthropomorphic characteristics. En Paiva, A., Prada, R., y Picard, R. W., editores, Affective Computing
and Intelligent Interaction, volumen 4738 de Lecture Notes in Computer Science, pp. 464–475.
Springer Berlin Heidelberg.
Zeng, Z., Hu, Y., Roisman, G., Wen, Z., Fu, Y., y Huang, T. S. (2007). Audio-visual spontaneous emotion recognition. En Huang, T. S., Nijholt, A., Pantic, M., y Pentland, A.,
editores, Artifical Intelligence for Human Computing, volumen 4451 de Lecture Notes in
Computer Science, pp. 72–90. Springer Berlin Heidelberg.
Zeng, Z., Pantic, M., Roisman, G. I., y Huang, T. S. (2009). A survey of affect recognition methods: Audio, visual, and spontaneous expressions. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 31(1):39–58.
Zhang, T., Hasegawa-Johnson, M., y Levinson, S. E. (2006). Cognitive state classification
in a spoken tutorial dialogue system. Speech Communication, 48(6):616–632.
Apéndice A
Aportaciones
191
192
A. Aportaciones
En este anexo se resume la divulgación científica asociada al presente trabajo de
tesis y la participación de su autor en proyectos de investigación y desarrollo.
A.1. Publicaciones científicas
El presente trabajo de investigación ha proporcionado diferentes aportaciones de
interés para la comunidad científica. Las principales ideas, métodos y resultados que son
fruto de la actividad investigadora presentada en esta tesis se han expuesto en diferentes
congresos y publicado en revistas de ámbito internacional.
El impacto del trabajo de investigación en la comunidad científica se puede resumir
en las siguientes publicaciones:
Congresos y conferencias
1. Planet, S., Morán, J. A., y Formiga, L. (2006). Reconocimiento de emociones basado
en el análisis de la señal de voz parametrizada. En Cunha, M. M. y Rocha, A., editores, Actas da I Conferência Ibérica de Sistemas e Tecnologias de Informação (CISTI 2006),
volumen 2, pp. 837–854, Ofir, Portugal
2. Iriondo, I., Planet, S., Socoró, J. C., y Alías, F. (2007c). Objective and subjective evaluation of an expressive speech corpus. En Chetouani, M., Hussain, A., Gas, B.,
Milgram, M., y Zarader, J. L., editores, Advances in Nonlinear Speech Processing, International Conference on Nonlinear Speech Processing, NOLISP 2007, Paris, France, May
2007, Revised Selected Papers, volumen 4885 de Lecture Notes in Artificial Intelligence,
pp. 86–94. Springer
3. Iriondo, I., Planet, S., Alías, F., Socoró, J. C., y Martínez, E. (2007a). Validation of an
expressive speech corpus by mapping automatic classification to subjective evaluation. En Sandoval, F., Prieto, A., Cabestany, J., y Graña, M., editores, Computational
and Ambient Intelligence, 9th International Work-Conference on Artificial Neural Networks,
IWANN 2007, San Sebastián, Spain, June 2007, Proceedings, volumen 4507 de Lecture
Notes in Computer Science, pp. 646–653. Springer
4. Monzo, C., Alías, F., Iriondo, I., Gonzalvo, X., y Planet, S. (2007). Discriminating
expressive speech styles by voice quality parameterization. En Proceedings of the 16th
International Congress of Phonetic Sciences (ICPhS 2007), pp. 2081–2084, Saarbrücken,
Germany
5. Iriondo, I., Planet, S., Alías, F., Socoró, J. C., Monzo, C., y Martínez, E. (2007b). Expressive speech corpus validation by mapping subjective perception to automatic
classification based on prosody and voice quality. En Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS 2007), pp. 2125–2128, Saarbrücken, Germany
A.1. Publicaciones científicas
193
6. Planet, S., Iriondo, I., Martínez, E., y Montero, J. A. (2008). TRUE: an online Testing
platfoRm for mUltimedia Evaluation. En Proceedings of the 2nd International Workshop on EMOTION: Corpora for Research on Emotion and Affect at the 6th Conference on
Language Resources & Evaluation (LREC 2008), pp. 61–65, Marrakech, Morocco
7. Planet, S., Iriondo, I., Socoró, J. C., Monzo, C., y Adell, J. (2009). GTM-URL contribution to the Interspeech 2009 Emotion Challenge. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH
2009), pp. 316–319, Brighton, UK
8. Planet, S. e Iriondo, I. (2011b). Spontaneous children’s emotion recognition by categorical classification of acoustic features. En Rocha, A., Gonçalves, R., Pérez Cota,
M., y Reis, L. P., editores, Actas da 6a Conferência Ibérica de Sistemas e Tecnologias de
Informação (CISTI 2011), volumen 1, pp. 594–599, Chaves, Portugal
9. Planet, S. e Iriondo, I. (2011a). Improving spontaneous children’s emotion recognition by acoustic feature selection and feature-level fusion of acoustic and linguistic
parameters. En Travieso, C. y Alonso, J., editores, Advances in Nonlinear Speech Processing, 5th International Conference on Nonlinear Speech Processing, NOLISP 2011, Las
Palmas de Gran Canaria, Spain, November 2011, Proceedings, volumen 7015 de Lecture
Notes in Computer Science, pp. 88–95. Springer Berlin/Heidelberg
10. Planet, S. e Iriondo, I. (2012c). Comparison between decision-level and feature-level
fusion of acoustic and linguistic features for spontaneous emotion recognition. En
Rocha, A., Calvo Manzano, J. A., Reis, L. P., y Pérez Cota, M., editores, Actas de la 7a
Conferencia Ibérica de Sistemas y Tecnologías de la Información (CISTI 2012), volumen 1,
pp. 199–204, Madrid, Spain
Capítulos de libro
1. Iriondo, I., Planet, S., Alías, F., Socoró, J. C., y Martínez, E. (2008). Emulating subjective criteria in corpus validation. En Rabuñal, J. R., Dorado, J., y Pazos, A., editores,
Encyclopedia of Artificial Intelligence, pp. 541–546. Information Science Reference
Revistas
1. Iriondo, I., Planet, S., Socoró, J. C., Martínez, E., Alías, F., y Monzo, C. (2009). Automatic refinement of an expressive speech corpus assembling subjective perception
and automatic classification. Speech Communication, 51(9):744–758. Special issue on
non-linear and conventional speech processing - NOLISP 2007
2. Planet, S. e Iriondo, I. (2012a). Children’s emotion recognition from spontaneous
speech using a reduced set of acoustic and linguistic features. Cognitive Computation
194
A. Aportaciones
3. Planet, S. e Iriondo, I. (2012b). Comparative study on feature selection and fusion
schemes for emotion recognition from speech. International Journal of Interactive Multimedia and Artificial Intelligence, 1(6):44–51. Special Issue on Intelligent Systems and
Applications
(Planet et al., 2006) es la primera aportación relacionada con la línea de investigación en reconocimiento afectivo automático basada en el corpus de voz actuada ESDLA,
tal y como se expone en la sección 5.1.
(Iriondo et al., 2007c), (Iriondo et al., 2007a), (Iriondo et al., 2007b), (Iriondo et al.,
2008) e (Iriondo et al., 2009) son publicaciones relacionadas con la validación subjetiva
automática del corpus de voz actuada BDP-UAB, tal y como se expone en la sección 5.2.
Asimismo, la publicación (Iriondo et al., 2009) fue tercera finalista del premio al mejor
artículo en el año 2009 de la Red Temática en Tecnologías del Habla1 .
(Monzo et al., 2007) es una colaboración en el análisis de parámetros de VoQ como únicos elementos discriminantes para abordar un estudio de reconocimiento afectivo
automático.
(Planet et al., 2008) presenta una versión inicial de la plataforma de test subjetivos
TRUE, cuya última versión se describe en el apéndice B.
(Planet et al., 2009) detalla la primera aproximación al reconocimiento afectivo automático basado en el corpus de voz espontánea FAU Aibo en el marco del Interspeech
Emotion Challenge 2009 (Schuller et al., 2009), tal y como se explica en la sección 6.2.1. Los
resultados presentados obtuvieron la primera posición en el desafío de parámetros y en
segunda posición en el desafío de clasificadores del Emotion Challenge. Por su parte, la publicación (Planet e Iriondo, 2011b), presenta un trabajo derivado directamente del anterior
empleando una parametrización mejorada y aportando nuevas propuestas de clasificación, tal y como se recoge en la sección 6.2.2.
(Planet e Iriondo, 2011a), (Planet e Iriondo, 2012c), (Planet e Iriondo, 2012a) y (Planet e Iriondo, 2012b) recogen los estudios realizados a nivel acústico y lingüístico para
el reconocimiento afectivo automático en voz espontánea, así como los experimentos de
fusión a tanto a nivel de parámetros como a nivel de clasificadores, detallados en las secciones 6.3 y 6.4.
A.2. Otras publicaciones
En los inicios de la etapa investigadora se llevaron a cabo trabajos que finalmente
no formaron parte de la línea de investigación principal, pero que permitieron tener una
primera toma de contacto con la metodología científica necesaria para la realización de
1
http://lorien.die.upm.es/ lapiz/rtth
A.3. Comités técnicos
195
la tesis y algunas nociones de temas vinculados. A continuación se presentan, en orden
cronológico, las publicaciones que se derivaron.
Congresos y conferencias
1. Planet, S., Morán, J. A., Monzo, C., y Gonzalvo, X. (2004). Asistencia al seguimiento docente basada en técnicas avanzadas de análisis. En Actas del XIX Simposium
Nacional de la Unión Científica Internacional de Radio (URSI 2004), Barcelona, Spain
2. Monzo, C., Morán, J. A., Planet, S., y Gonzalvo, X. (2004). Protocolo DS-CDMA
orientado a la gestión de un auditorio. En Actas del XIX Simposium Nacional de la
Unión Científica Internacional de Radio (URSI 2004), Barcelona, Spain
3. Gonzalvo, X., Morán, J. A., Monzo, C., y Planet, S. (2005). Entorno para el aprendizaje
automático de las estrategias de diálogo. En Actas del XX Simposium Nacional de la
Unión Científica Internacional de Radio (URSI 2005), Gandia, Spain
(Planet et al., 2004) es una primera publicación relacionada con técnicas de aprendizaje artificial aplicadas en el ámbito docente. Supuso una primera toma de contacto con
dichas técnicas, las cuales fueron aplicadas posteriormente en esta tesis aunque en un
ámbito diferente.
Las publicaciones (Monzo et al., 2004) y (Gonzalvo et al., 2005) se corresponden con
colaboraciones iniciales con miembros del GPMM.
A.3.
Comités técnicos
Además de las aportaciones realizadas como autor, se ha formado parte del programa del comité técnico de las siguientes publicaciones y eventos científicos:
1. ICME 2011. 2011 International Conference on Multimedia and Expo.
2. ICME 2012. 2012 International Conference on Multimedia and Expo.
3. CISTI 2012. 7th Iberian Conference on Information Systems and Technologies.
4. Revisor del Special Issue Sensing Emotion and Affect, Facing Realism in Speech Processing, de la revista Speech Communication, volumen 53, issues 9-10, pp. 1059–1228
(noviembre-diciembre de 2011), editado por Björn Schuller, Stefan Steidl y Anton
Batliner.
5. ICME 2013. 2013 International Conference on Multimedia and Expo.
196
A. Aportaciones
A.4. Proyectos de investigación y desarrollo
En esta sección se describen los proyectos de investigación y desarrollo en los que
esta tesis se vio enmarcada. Estos proyectos se realizaron como miembro del GTM.
SALERO — Semantic AudiovisuaL Entertainment Reusable Objects (FP6/2004/IST/4)
Proyecto financiado por el VI Programa Marco de la Unión Europea (2006-2009)2 .
Participaron trece socios entre empresas y centros de investigación. Su objetivo era
facilitar la creación de nuevos productos multimedia como juegos, películas o programas de televisión, haciéndola mejor, más rápida y con menos costes gracias a la
combinación de gráficos por ordenador, tecnología del habla y el lenguaje, web semántica y búsquedas basadas en contenido.
SAVE — Síntesis Audiovisual Expresiva (TEC2006-08043/TCM)
El proyecto Síntesis Audiovisual Expresiva (SAVE) es un proyecto de I+D cofinanciado por el Ministerio de Educación y Ciencia español con el objetivo de generar cabezas parlantes de avatares virtuales capaces de transmitir estados de ánimo mientras
hablan.
INREDIS — INterfaces de Relación entre el Entorno y las personas con DIScapacidad
(CEN-20072011)
El proyecto INREDIS es un proyecto de Consorcios Estratégicos Nacionales de Investigación Técnica (CENIT) de I+D+i que se inscribe en la iniciativa del gobierno
español INGENIO 2010 y que es gestionada por el Centro de Desarrollo Tecnológico
Industrial (CDTI)3 . Supuso el desarrollo de la investigación en el ámbito de las tecnologías accesibles e interoperables durante el periodo 2007-2010. Su objetivo era el
desarrollo de tecnologías de base que permitieran crear canales de comunicación e
interacción entre las personas con algún tipo de necesidad especial y su entorno. Fue
liderado por Technosite, empresa tecnológica del Grupo Fundosa, dependiente de la
Fundación ONCE.
evMIC — Entornos virtuales Multimodales, Inmersivos y Colaborativos (TSI-020301-200925)
El proyecto entornos virtuales Multimodales, Inmersivos y Colaborativos (evMIC) es
un proyecto de I+D+i cofinanciado por el Ministerio de Industria, Turismo y Comercio (MITYC). Según la presentación oficial del propio proyecto4, éste se enmarca dentro del Internet del futuro y pretende investigar y generar soluciones principalmente
en el Internet del Conocimiento y de los Contenidos, así como en el Internet de las Personas y, en menor medida, en el Internet de los Servicios. Su objetivo principal es crear
2
http://www.salero.info
http://www.inredis.es
4
http://www.evmic.es
3
A.5. Participación en eventos
197
una plataforma interoperable, centrada en el usuario, capaz de permitir la creación
de entornos virtuales de aprendizaje.
A.5.
Participación en eventos
El futuro de los sistemas de diálogo (Soria, 11 de julio de 2005)
Exposición de los primeros avances realizados en la línea de investigación de reconocimiento afectivo automático, dentro del marco del curso de Tecnologías Lingüísticas
dirigido por el Dr. Joaquim Llisterri y organizado por la Fundación Duques de Soria.
198
A. Aportaciones
Apéndice B
Plataforma en línea de tests para la
evaluación de estímulos multimedia
199
200
B. Plataforma en línea de tests para la evaluación de estímulos multimedia
Testing platfoRm for mUltimedia Evaluation (TRUE) es una plataforma en línea de test
para la evaluación de estímulos multimedia desarrollada dentro del ámbito de esta tesis,
orientada a la evaluación de estímulos audiovisuales, gráficos y/o de texto. El foco de
atención se centra en la evaluación de corpus multimedia si bien puede emplearse para analizar estímulos multimedia en general. Ofrece una gran flexibilidad para crear test
destinados a identificación emocional o evaluación de la calidad de sistemas de síntesis
audiovisual, por ejemplo. Los resultados pueden emplearse con distintas finalidades dependiendo de los objetivos del test, por ejemplo para validar el contenido emocional de
un archivo multimedia o para medir la expresividad de elementos audiovisuales sintetizados. TRUE abarca todas las etapas relacionadas con el ciclo de vida de las pruebas
subjetivas, desde su creación hasta la recuperación de sus resultados, y permite a los evaluadores realizar los test desde cualquier dispositivo con conexión a Internet a través de
un navegador web. La simplificación de la realización de las pruebas ayuda a minimizar
los efectos de la fatiga sobre las mismas y también permite a los investigadores focalizar
sus esfuerzos en el análisis de los resultados en lugar de destinar esfuerzos a su supervisión. Los pormenores de la plataforma TRUE se publicaron por primera vez en (Planet et
al., 2008).
B.1. Descripción
Los test subjetivos pueden aplicarse en diversos ámbitos tales como la validación
expresiva de corpus audiovisuales emocionales, el etiquetado de elementos de corpus
audiovisuales, gráficos o de texto, y la evaluación de sistemas de síntesis puntuando estímulos individuales o comparando elementos generados mediante distintas técnicas. Sin
embargo, los test subjetivos pueden ser útiles en cualquier otro tipo de estudios en los que
se requiera una evaluación en base al criterio propio de un conjunto de personas.
B.1.1.
Objetivos
Los test subjetivos en general pueden presentar varios inconvenientes, entre otros
los siguientes:
Alta especifidad. Los test suelen diseñarse para adecuarse a las características particulares de investigaciones concretas lo que los hace poco generalizables para investigaciones posteriores.
Baja reutilizabilidad. El diseño ad hoc de los test puede dificultar que puedan emplearse en estudios posteriores.
Fatiga en los usuarios. Los test pueden resultar a menudo largos y tediosos, lo que
puede influir en los resultados de los mismos.
B.1. Descripción
201
Lugar y condiciones de realización de los test. Suelen suponer el desplazamiento
del evaluador a un lugar concreto para realizar la prueba de forma individual o
colectiva, lo que suele requerir de la adecuación de un lugar físico para su realización
y la supervisión de un responsable.
Problemas de procedimiento. Si los test se realizan en papel la recopilación de datos
puede resultar laboriosa e incurrir en errores.
Audiencia. Suele resultar complicado reunir un elevado número de sujetos dispuestos a realizar el test de forma adecuada y que respondan al perfil conveniente, ya sea
homogéneo o heterogéneo.
TRUE es una herramienta en línea que a través de una interfaz web proporciona
una plataforma única para diseñar y realizar test subjetivos, lo cual aporta:
Generalización. Se pueden crear test completamente personalizados y específicos
que pueden modificarse posteriormente para adaptarlos a nuevos experimentos.
Reutilizabilidad. TRUE proporciona plantillas para test estándar así como la posibilidad de generar nuevos test a partir de otros ya realizados.
Sistema orientado al usuario. El usuario puede detener en cualquier momento el test
y continuarlo más adelante para evitar que la fatiga pueda repercutir negativamente
en los resultados.
Sistema en línea. Los usuarios pueden realizar los test desde cualquier dispositivo
con conexión a Internet a través de un navegador web. No es necesario un supervisor
que controle la prueba y las instrucciones se pueden proporcionar al inicio de la
misma de forma automática.
Procedimiento automático. TRUE permite diseñar los test y recuperar los resultados
en cualquier momento desde la misma herramienta. En tanto que la información se
conserva en una base de datos informática los datos pueden recuperarse en cualquier momento con la máxima fiabilidad.
Fácil acceso para una amplia audiencia. Dadas las facilidades para los usuarios resulta más sencillo conseguir un mayor número de participantes en cualquier lugar
geográfico.
B.1.2.
Esquema básico de funcionamiento
TRUE proporciona una herramienta web que permite crear y configurar test a través de formularios para que usuarios remotos puedan evaluar diversos estímulos. Las
respuestas de los evaluadores se almacenan en una base de datos y pueden ser recuperadas en cualquier momento mediante una descarga directa de los mismos en distintos
202
B. Plataforma en línea de tests para la evaluación de estímulos multimedia
formatos. Los estímulos son archivos multimedia que pueden almacenarse en el mismo
servidor web en el que se aloja TRUE o en otro externo ya que TRUE enlaza dichos archivos a través de la definición del test y los muestra de forma adecuada y ordenada. Este
esquema de funcionamiento se muestra en la figura B.1.
Servidor
(estímulos)
Base de datos
(usuarios, configuración de test
y almacén de resultados)
Administrador
Servidor
(TRUE)
Evaluador
CSV
XML
MS Excel
Resultados
Figura B.1: Esquema básico de funcionamiento de la plataforma TRUE.
La figura B.1 muestra dos actores diferentes dentro del esquema de funcionamiento de TRUE. El usuario Administrador es el que tiene la capacidad de crear y gestionar sus
propios test. Dicho usuario debe registrarse previamente en el sistema. El usuario Evaluador es el que realiza los test, evaluando los distintos estímulos que los componen según la
configuración de los mismos. Existe una tercera figura que es la que tiene la posibilidad
de gestionar todos los test y todos los usuarios Administrador registrados en TRUE. Esta
tercera figura es el administrador general del sistema y es quien instala y configura todos
los detalles de funcionamiento de la plataforma.
La figura B.2 muestra el menú principal de la plataforma TRUE de un administrador general del sistema. Con la excepción de la sección de gestión del sistema (TRUE
System Manager), esta pantalla es igual para el resto de usuarios de la plataforma, la cual
da acceso a las herramientas de gestión de los test (creación, edición, recuperación de resultados y eliminación) y a la gestión de los datos propios del usuario.
B.1. Descripción
203
Figura B.2: Menú principal de la plataforma TRUE para un administrador general del sistema.
B.1.3.
Características generales
TRUE permite considerar distintas modalidades (audio, vídeo, gráficos y texto) como estímulos para ser evaluados a través de su adecuada representación en el navegador
web del usuario. Los estímulos gráficos y de texto se incrustan en la propia página web
como un elemento HTML. Los estímulos de audio y de vídeo se enlazan para ser reproducidos por un reproductor multimedia adecuado: o bien el propio del dispositivo del
usuario o bien se ofrece la posibilidad de incrustar un reproductor multiplataforma1 . El
diseño de los elementos en pantalla es configurable durante la creación del test, pudiendo escoger el número de estímulos simultáneos a mostrar, la posibilidad de mostrar un
estímulo de referencia en pantalla, el número de cuestiones a realizar al evaluador y las
opciones de respuesta y pudiendo determinar, también, la disposición de estos elementos.
El usuario puede introducir su respuesta a través de campos de elección múltiple, entrada
libre de texto y/o a través de interfaces gráficas de usuario interactivas.
La figura B.3 muestra cuatro ejemplos de test distintos, considerando diferentes
tipos de estímulos: gráficos, de audio, de vídeo y de texto. Los estímulos audiovisuales
aparecen incrustados mediante un reproductor multiplataforma, mientras que los estímulos gráficos y de texto se incrustan directamente como elementos HTML. En estos cuatro
ejemplos se muestran distintos tipos de entradas de evaluaciones a través de campos de
1
En la versión actual este reproductor es JW Player (http://www.longtailvideo.com/jw-player).
204
B. Plataforma en línea de tests para la evaluación de estímulos multimedia
elección múltiple con disposición horizontal y vertical de las opciones y campos de entrada de texto libre.
Figura B.3: Cuatro test de muestra creados con la plataforma TRUE. En sentido horario, desde la
esquina superior izquierda: un test gráfico de dos estímulos, un test de un estímulo de audio, un
test de vídeo y un test de estímulo textual.
De forma general, un administrador puede seleccionar distintas opciones comunes
para todos los test, incluyendo las siguientes:
Idioma de la interfaz. Por defecto, TRUE incluye el español, catalán e inglés como
idiomas predeterminados, si bien se pueden incluir fácilmente nuevos idiomas mediante archivos de traducción.
Apariencia. Determinación de la hoja de estilos más adecuada para cada test, escogiendo la mejor combinación de colores y tipografías.
Disposición de elementos en pantalla. Estímulo/s y campo/s de entrada de evaluaciones pueden disponerse de forma horizontal o vertical.
Tamaño de la fuente. Los textos pueden mostrarse con tamaño pequeño, normal o
grande.
Duración del test. Define el tiempo durante el cual el test estará activo y disponible
para su evaluación. Después el test pasará a estar inactivo.
B.1. Descripción
205
Para evitar errores iniciales en la evaluación de los estímulos se ofrece la posibilidad de crear, junto con las instrucciones del test, distintos tipos de demostraciones al
inicio del mismo. El objetivo de estas demostraciones es mostrar una serie de estímulos
a los evaluadores antes del comienzo de test para que se familiaricen con ellos. Estas demostraciones pueden ser completas o ciegas y consisten en mostrar algunos estímulos
concretos especificando o no, respectivamente, la respuesta que el usuario debería indicar en cada caso (o algún otro tipo de indicación). Las instrucciones y la demostración
pueden incluirse a través de la plantilla predeterminada proporcionada por TRUE o bien
pueden crearse de forma personalizada a través del editor HTML proporcionado en el
formulario de creación. La figura B.4 muestra un ejemplo de demostración inicial completa en la que, junto con las instrucciones del test, el evaluador puede visualizar cinco
imágenes que están asociadas a un texto descriptivo. Una demostración ciega no incluiría
los textos descriptivos asociados. En este caso se trata de un test donde los estímulos son
de tipo gráfico y el idioma configurado es el inglés.
Figura B.4: Ejemplo de demostración inicial completa en un test gráfico en inglés.
Por otra parte, al final del test puede incluirse una encuesta totalmente personalizable en la que el creador del test puede recabar información acerca del evaluador. La
figura B.5 muestra un ejemplo de encuesta al final de un test, la cual incluye cuatro campos
personalizados de entrada de datos. En este caso las entradas son de tipo de texto libre,
botones de radio y un área de texto. Cada uno de los campos se pueden configurar para
permitir diversas longitudes máximas permitidas de texto o múltiples opciones. También
existe la posibilidad de incluir una lista desplegable de opciones. La información introducida aparecerá ligada a las respuestas proporcionadas por cada evaluador en el momento
de descargar los resultados del test para que se pueda tratar de forma adecuada. Tanto las
respuestas del test, la información de los evaluadores introducida en la encuesta, el últi-
206
B. Plataforma en línea de tests para la evaluación de estímulos multimedia
mo estímulo evaluado así como el tiempo empleado por cada evaluador para finalizarlo
son datos que pueden ser obtenidos en cualquier momento en formato Comma-Separated
Values (CSV), XML o como hoja de cálculo de Microsoft Excel.
Figura B.5: Ejemplo de encuesta al final de un test.
B.1.4.
Tipos de test implementados
TRUE permite crear test de varios estímulos y varias consultas al evaluador (entradas de evaluación). Estas entradas de evaluación pueden configurarse creando una lista
de elección múltiple o bien introduciendo un campo de texto libre, dando respuesta a la
consulta que el diseñador del test considere necesaria.
Con el objetivo de aportar herramientas estándar para los diseñadores de los test
subjetivos, TRUE incluye plantillas para crear algunos test específicos. Estas plantillas permiten crear test Mean Opinion Score (MOS), Comparison Mean Opinion Score (CMOS) y Degradation Mean Opinion Score (DMOS), tal y como define ITU-T (1996). Los test MOS se
refieren a la valoración de la calidad percibida de un estímulo mediante una escala numérica; los test CMOS realizan una comparación entre estímulos, a nivel de calidad de
los mismos; y los test DMOS son similares a los CMOS pero realizan una evaluación de la
degradación de un estímulo con respecto a otro. Estos test están vinculados con la calidad
de sistemas de transmisión y su capacidad para no degradar una señal.
A su vez, TRUE permite incrustar interfaces gráficas interactivas para evaluar los
estímulos. Estas interfaces están programadas mediante tecnología Flash y permiten configurar test específicos. La versión actual de TRUE incluye una implementación de la interfaz SAM, según la descripción gráfica de Bradley y Lang (1994), destinada a la evaluación
emocional de los estímulos. Así mismo incluye una lista de 121 términos afectivos en in-
B.1. Descripción
207
glés en forma de lista y una botonera de cinco botones configurables de uso general.
La figura B.6 muestra un esquema simplificado de configuración general de un test.
Se representa la posibilidad de configurar un test mostrando los elementos en vertical o en
horizontal, incluyendo entradas de evaluación de elección múltiple, texto libre e interfaces
gráficas avanzadas.
Cabecera
Visualización de
estímulos
Entrada de
evaluaciones
Disposición horizontal
Cuerpo
Visualización de
estímulos
Pie
Estructura general
Entrada de
evaluaciones
Disposición vertical
Entradas de evaluaciones
Valence (negative - positive)
¿Qué emoción reconoces en la voz de este locutor?
Alegría
1
2
3
4
5
6
7
8
Enfado
Tristeza
No lo sé / Otra
9
Activation (calm - excited)
¿Qué has escuchado en esta locución?
1
2
3
4
5
6
7
8
9
8
9
Control (dominated - dominant)
1
2
3
4
5
6
7
1
2
3
4
5
Figura B.6: Esquema de configuración de un test. La plantilla general permite ser adaptada para
mostrar los estímulos y las entradas de evaluación en distintas disposiciones. Se muestran algunos
ejemplos de entradas de evaluación (interfaz SAM, entrada de elección múltiple, entrada de texto
libre y botones configurables de uso general).
B.1.5.
Diferencias con otras plataformas existentes
TRUE difiere de otros sistemas de test en que no está diseñado para un tipo específico de estímulo, sino que admite diferentes tipos de formatos multimedia, y en su
flexibilidad.
A diferencia de (Irtel, 2007) y (NBS, 2013), TRUE no abarca un amplio abanico de
áreas en psicología sino que se centra en la evaluación de elementos multimedia procedentes de corpus. Dada su focalización y que se orienta a la creación de test en línea, sus
procedimientos son más sencillos que los de de herramientas como (Empirisoft, 2011) y,
208
B. Plataforma en línea de tests para la evaluación de estímulos multimedia
además, permite llegar a una audiencia más amplia que con los test que se realizan mediante formularios en papel o a través de un ordenador local, como (Schröder, 2013).
Las posibles inconsistencias que pueden derivarse por el empleo de una herramienta en línea pueden minimizarse introduciendo elementos de control en los test, los cuales
pueden permitir evaluar la coherencia de los evaluadores. Sin embargo, los test en línea, al
igual que otros métodos de experimentación a través de Internet, no están exentos de discusión referente a su metodología (Reips, 2002), lo cual debe ser tenido en consideración
por los autores de los test en el momento de diseñarlos para minimizar los inconvenientes
que pueden derivarse de ellos y aprovechar al máximo sus ventajas.
B.2. Implementación
TRUE es un servicio web implementado en Java que hace uso de las tecnologías Java Servlets y Java Server Pages (JSP). La implementación en Java hace que el código pueda
ser ejecutado sobre cualquier sistema operativo dada su característica de código multiplataforma y facilita su distribución en forma de un único archivo de aplicación web (WAR).
Este archivo único incluye todas las clases relativas a la gestión de test y usuarios así como
todos los elementos de la interfaz web.
La ejecución de TRUE puede realizarse en cualquier ordenador que disponga de
un servidor web compatible con la tecnología Java como, por ejemplo, Apache Tomcat2 ,
simplemente instalando el archivo de aplicación web y accediendo a la aplicación a través
de un navegador web para su correcta configuración inicial.
Para almacenar todos los datos que maneja TRUE, incluyendo los referentes a la
información de los usuarios registrados, la configuración de los test y sus resultados, la
aplicación requiere de acceso a un servidor MySQL3 que puede estar instalado en el mismo ordenador en el que se ha instalado TRUE o bien en uno remoto. Los resultados de
los test, disponibles para la descarga por parte de sus creadores, están disponibles en los
formatos CSV, XML y Microsoft Excel, y se obtienen directamente de la consulta y traducción (de forma transparente para el usuario final) de la información almacenada en la
base de datos en MySQL.
La interfaz web está programada mediante código HTML y JavaScript, incrustado
en las páginas JSP, cuidando que su visualización sea correcta en diferentes navegadores web. Para unificar la apariencia de toda la interfaz y permitir su fácil modificación
y adaptación se emplean hojas de estilo en cascada. Asimismo, para mejorar la interacción y la velocidad de algunas funciones de la plataforma TRUE, algunos elementos están
implementados mediante tecnología Asynchronous JavaScript And XML (AJAX).
2
3
http://tomcat.apache.org/
http://www.mysql.com/
B.3. Trabajos relacionados con TRUE
209
B.3. Trabajos relacionados con TRUE
TRUE nació con la finalidad de validar el corpus de voz actuada ESDLA (véase
la sección 3.4.1) dentro de un experimento de reconocimiento afectivo automático (Planet et al., 2006). El objetivo de esta validación era comprobar la tasa de reconocimiento
de las emociones pretendidas en las locuciones del corpus por parte de los evaluadores
humanos para, posteriormente, contrastarla con la tasa de reconocimiento lograda por
el sistema de reconocimiento automático (más detalles de este experimento en la sección
5.1.1).
En un sentido más amplio, TRUE se emplea en los trabajos realizados por Iriondo et
al. (2007c,a,b) los cuales pretenden la validación automática del corpus BDP-UAP (véase la
sección 3.4.2) mediante el mapeo de los criterios subjetivos en algoritmos de clasificación
automática. Estos criterios subjetivos se extraen a partir de la evaluación de un fragmento
del corpus BPD-UAB mediante TRUE.
A diferencia de los trabajos anteriores, en los que TRUE se emplea para evaluar corpus de voz, en (Iriondo et al., 2007d) los test están relacionados con la calidad de locuciones
expresivas de voz sintética, así como también en los trabajos realizados por Gonzalvo et
al. (2007a,b) en los que se emplea con la misma finalidad. En los tres casos, la evaluación
subjetiva se lleva a cabo mediante test MOS.
TRUE también ha sido utilizado para tareas de análisis y síntesis audiovisual por
Sevillano et al. (2006) y por Melenchón (2007).
Montero et al. (2007) muestran la flexibilidad de la plataforma TRUE empleándola
en la investigación de nuevas metodologías docentes. En su trabajo, los test subjetivos se
utilizan para recoger conocimiento experto de profesores que sirve para modelar un sistema de lógica difusa capaz de evaluar el rendimiento en equipo de un grupo de estudiantes
de ingeniería.
Sin que esta sea una lista exhaustiva, otros trabajos destacados en los que se ha empleado la plataforma TRUE son los realizados por Francisco (2008), Formiga et al. (2010),
Pérez-Espinosa et al. (2011), Francisco et al. (2012), Calzada y Socoró (2012) y Valero y Alías
(2012).
210
B. Plataforma en línea de tests para la evaluación de estímulos multimedia
Apéndice C
Aplicaciones de reconocimiento
afectivo automático
211
212
C. Aplicaciones de reconocimiento afectivo automático
Este apéndice describe dos aplicaciones de software diseñadas en el marco de la
presente tesis doctoral que implementan herramientas de reconocimiento afectivo automático. Ambas se basan en la creación de modelos incrementales, es decir, que pueden
ser entrenados de forma iterativa para crear modelos cada vez más precisos. Sin embargo,
la primera aplicación permite realizar este entrenamiento de forma interactiva mediante
una interfaz gráfica mientras que la segunda se implementa como un módulo que puede
ser fácilmente incrustado en una aplicación externa una vez el modelo ha sido entrenado
convenientemente. Asimismo, la segunda aplicación extiende los procesos de la primera
creando modelos de reconocimiento basados tanto en la señal de voz como en el análisis
de la expresividad facial del usuario.
C.1.
Aplicación de análisis afectivo basado en aprendizaje interactivo incremental
La aplicación detallada en esta sección implementa un sistema que permite al usuario integrar en una misma interfaz gráfica todos los mecanismos necesarios para realizar
un reconocimiento afectivo basado en señal de voz. Este proceso es interactivo e incremental en tanto que el modelo de reconocimiento se crea en base a las indicaciones del usuario,
al cual se adapta de forma progresiva aprendiendo las características de su expresividad
afectiva.
Actualmente esta aplicación es completamente operativa si bien se trata de una
versión preliminar de desarrollo y por lo tanto de características limitadas. Sin embargo,
el diseño de la misma, permite que pueda actualizarse en versiones posteriores. Actualmente está planteada para estudiar el reconocimiento afectivo automático y no para ser
usada como una aplicación de reconocimiento genérico.
C.1.1. Descripción
La aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental es una aplicación destinada a crear modelos de reconocimiento afectivo a partir
de la señal de voz de un usuario, pudiéndose crear modelos distintos para diferentes usuarios. Estos modelos se crean mediante un proceso de aprendizaje interactivo a través del
cual son capaces de asimilar las características de la expresividad afectiva del usuario. El
proceso de aprendizaje es interactivo e incremental de forma que el modelo es más preciso a medida que el usuario utiliza la aplicación. Al mismo tiempo, esta aplicación permite
la creación de un corpus de voz y un modelo de reconocimiento en paralelo.
El modelo creado consiste, básicamente, en un clasificador entrenado en base a
diversas locuciones de audio registradas por el usuario. Estas locuciones, sin embargo,
no forman parte de un corpus sino que se añaden secuencialmente a medida que van
C.1. Aplicación de análisis afectivo basado en aprendizaje interactivo incremental 213
siendo grabadas y analizadas. Así, el modelo original carece de conocimiento y va siendo
entrenado con cada nueva frase que se graba y analiza a través de la aplicación.
Una vez el modelo ha sido creado, el usuario puede activar el modo de prueba de
la aplicación de forma que el modelo ya no es modificado sino que se emplea únicamente
con la finalidad de identificar los estados afectivos de las nuevas locuciones.
La aplicación posee una interfaz gráfica que centraliza cada uno de los pasos de
creación del modelo, ofreciendo libertad al usuario para intervenir en cada uno de ellos
según lo crea conveniente, tal y como se describe a continuación.
C.1.2. Funcionamiento de la aplicación
El funcionamiento de esta aplicación está inspirado en el propuesto por Oudeyer
(2003). La figura C.1 muestra el diagrama de flujo de la aplicación. El procedimiento consiste en la grabación de un archivo de audio a través del micrófono conectado a la tarjeta
de sonido del ordenador. El usuario debe escribir el texto de la frase que ha grabado1 para
que la aplicación pueda realizar la transcripción fonética y asociarla al archivo de audio.
Una vez el archivo de audio y la transcripción fonética han sido almacenados, se
realiza la parametrización de forma automática. Los parámetros calculados son visualizados en la interfaz gráfica y pueden ser modificados manualmente por el usuario si
lo considera necesario2 . Los parámetros forman una instancia incompleta (en tanto que
no tiene asociada una etiqueta afectiva) que es evaluada por el modelo de reconocimiento creado en anteriores ejecuciones, asignándole una etiqueta afectiva3 . La sección C.1.3
describe los detalles de este proceso.
La etiqueta afectiva asignada a la instancia en el paso de clasificación anterior es
mostrada al usuario, el cual puede determinar entonces si es correcta o no. Si lo ha sido,
dicha etiqueta se une a la instancia anterior creando una instancia completa y esta instancia se añade al conjunto de datos formado por las instancias anteriores. A continuación
se realiza un entrenamiento del modelo con el conjunto de datos actualizado. Si no lo ha
sido, el usuario tiene la oportunidad de indicar la etiqueta correcta y se procede igual que
en el caso anterior. En caso de que el usuario esté evaluando el modelo de reconocimiento
en modo de prueba tan solo se visualizará la etiqueta afectiva, pero no se procederá, en
ningún caso, a actualizar el conjunto de datos ni a entrenar de nuevo el modelo.
1
En la versión actual de la aplicación este proceso es manual. La inclusión de un módulo de reconocimiento
de voz automatizaría este paso.
2
Esto es así dado que esta es una aplicación para el estudio del reconocimiento afectivo. Esta opción no
tendría lugar en una aplicación para explotar dicho reconocimiento.
3
En caso de tratarse de la primera ejecución la etiqueta asignada es, por defecto, la correspondiente al
estado afectivo alegre
214
C. Aplicaciones de reconocimiento afectivo automático
Inicio
Grabar
archivo de
audio
Registrar la
transcripción
fonética
Mostrar los
parámetros
Parametrizar el
archivo de audio
¿Modificar la
parametrización?
SÍ
Registrar
los nuevos
parámetros
NO
Clasificar
la instancia
Modificar
la instancia
Mostrar la
etiqueta
SÍ
¿Modo test
activado?
NO
¿La
clasificación es
correcta?
SÍ
Añadir instancia al
conjunto de datos
Añadir la etiqueta
a la instancia
NO
¿Corregir la
clasificación?
NO
SÍ
Registrar la
etiqueta correcta
Entrenar
el modelo
Figura C.1: Diagrama de flujo de la aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental.
C.1.3. Implementación del módulo de reconocimiento afectivo
La versión actual de esta aplicación implementa un módulo de reconocimiento
afectivo basado únicamente en el análisis de la señal de voz. Dado su carácter preliminar de desarrollo, la parametrización es sencilla y consta de un total de 17 parámetros
C.1. Aplicación de análisis afectivo basado en aprendizaje interactivo incremental 215
basados en una segmentación en fonemas. Estos parámetros se refieren a la energía, F0 y
duración de los fonemas y de los silencios. Para cada uno de ellos se calculan 4 funcionales: valor medio, desviación estándar, valor máximo y valor mínimo, y para el caso de los
silencios se añade también el número de tramas de silencio detectadas.
El abanico de emociones para el cual se crea el conjunto de datos por defecto en el
momento de crear el modelo abarca 4 emociones básicas: alegría, tristeza, enfado y miedo.
Sin embargo la definición del número y cuáles deberían ser estas emociones podría ser
modificable en versiones posteriores.
El algoritmo de clasificación por defecto es el árbol de decisión J4.8 si bien la versión
actual del programa ya ofrece la posibilidad de poder escoger otro esquema de aprendizaje en el momento de crear el modelo de reconocimiento.
C.1.4. Implementación de la aplicación
La aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental es una aplicación independiente implementada en Java, empleando la biblioteca gráfica Swing para implementar la interfaz gráfica de usuario. La figura C.2 muestra el
diseño de esta interfaz gráfica en la cual se pueden distinguir los distintos módulos que
la componen:
Grabación de audio. Gestiona la funcionalidad de grabación de los archivos de voz
e introducción de su transcripción.
Parámetros. Visualiza los parámetros calculados y permite su edición.
Clasificación. Visualiza la etiqueta afectiva asignada al archivo de audio y permite
indicar la validez de la misma.
Corrección de la clasificación. Permite corregir la etiqueta afectiva asignada.
Información. Muestra información relevante del modelo en uso.
Esta aplicación hace uso de otro software para implementar algunas funcionalidades específicas. En lo referente al procesado del archivo de audio para la extracción
de parámetros basada en fonemas se emplea la aplicación ITPcommmand. ITPcommand
es una aplicación basada en el software ITP (Alías e Iriondo, 2002) desarrollada específicamente para este caso y permite acceder a distintas funcionalidades del software ITP a
través de llamadas independientes mediante la línea de comandos o desde otra aplicación.
Esta aplicación genera una serie de archivos que deben ser procesados posteriormente para extraer los parámetros requeridos. Dada la necesidad de la transcripción fonética del
texto correspondiente al archivo de audio, se emplea la herramienta RST4 la cual permite
4
Research Speech Toolkit (Gonzalvo, 2010).
216
C. Aplicaciones de reconocimiento afectivo automático
Figura C.2: Interfaz gráfica de la aplicación de análisis afectivo automático basado en aprendizaje
interactivo incremental.
su extracción de forma automática a partir del archivo de texto. ITPcommand realiza la
segmentación fonética a través de la transcripción y el archivo de audio así como también
extrae los parámetros necesarios.
El análisis de los archivos de datos generados por la aplicación ITPcommand y la
extracción de los parámetros necesarios se realiza mediante el programa MATLAB, de
Mathworks, que debe estar instalado en el ordenador del usuario. Todo este proceso es
completamente transparente al usuario.
En cuanto a los algoritmos de clasificación, esta aplicación incorpora el código de la
librería WEKA. WEKA es de fácil distribución5 y flexible en la incorporación de los clasificadores en el código fuente de la aplicación principal, ya que también está implementada
en Java. Además, trabajar con esta librería favorece el empleo de un conjunto de datos en
un formato compatible con ella lo que facilita el posterior análisis de dicho conjunto de
datos directamente en la aplicación WEKA de forma externa a la aplicación principal.
Cabe destacar que los módulos son independientes y se comunican entre sí a través
de archivos de audio, las instancias y el conjunto de datos. Por este motivo cada módulo puede ser fácilmente reemplazado por otro que realice la misma tarea pero siguiendo
otro algoritmo. Así pues, podría modificarse la parametrización (tanto a nivel de qué parámetros se calculan como a nivel del software que se emplea para la misma) simplemente
cambiando la parte de código que afecta a ese módulo sin variar las demás, lo cual permite
5
WEKA se distribuye bajo Licencia Pública General de GNU.
C.2. Módulo de reconocimiento afectivo audiovisual
217
que la plataforma sea fácilmente actualizable.
La aplicación se distribuye a través de un archivo de instalación que copia en el
ordenador del usuario todo el código ejecutable y las librerías necesarias. En esta versión
de desarrollo se hace necesario, tal y como se ha comentado, que el usuario disponga
del programa MATLAB instalado en el equipo. El instalador detecta automáticamente su
configuración y copia los archivos necesarios. En versiones posteriores de explotación el
cálculo de los parámetros deberá ser realizado mediante una librería propia del programa,
sin necesidad de recurrir a instalaciones de software propietario independientes.
C.2.
Módulo de reconocimiento afectivo audiovisual
Uno de los objetivos del proyecto INREDIS era la creación de un módulo de reconocimiento afectivo que pudiera ser utilizado por una aplicación externa. Con esta finalidad
se crea el módulo expuesto en esta sección. Este módulo se basa en las modalidades de
voz y expresividad facial, tal y como se detalla a continuación.
C.2.1. Descripción
El Módulo de Reconocimiento Afectivo Audiovisual (MRAA) es una librería Java que incorpora las funcionalidades necesarias para procesar un archivo con contenido
audiovisual y asignarle una etiqueta afectiva en base a un modelo de reconocimiento previamente entrenado. Este módulo permite crear el modelo en caso de no existir, así como
entrenarlo de forma incremental a través del análisis de archivos audiovisuales sucesivos.
Es decir, el sistema posee la capacidad de adaptar los modelos emocionales a los usuarios mediante un sistema de aprendizaje semiautomático que requiere de la supervisión
del propio usuario. La librería puede funcionar como aplicación independiente o bien
utilizarse dentro del código fuente de otra aplicación.
El MRAA se desarrolla originalmente como parte de la tarea 4.5 (Tecnología multimodal afectiva) del paquete de trabajo PT4 (Tecnologías de interacción persona-máquina)
del proyecto INREDIS. El MRAA forma parte del prototipo denominado 4.1+4.3+4.5 y
tiene como principal funcionalidad la detección automática del estado afectivo del usuario a partir de las modalidades de expresividad facial y de la voz del mismo. La detección automática del estado afectivo permite que la interfaz de salida del prototipo6 pueda
adaptar su expresividad o emoción consiguiendo un gran nivel de empatía entre la persona y el ordenador y reducir, de este modo, el distanciamiento o la barrera que supone
para personas no expertas en el uso de estas tecnologías interactuar con este tipo de sistemas. Posteriormente, el MRAA es ampliado y adaptado para su inclusión como parte del
6
La interfaz de salida cuenta con un motor de diálogo para generar respuestas en lenguaje natural así
como un avatar virtual.
218
C. Aplicaciones de reconocimiento afectivo automático
proyecto evMIC7 , cuyo objetivo principal es la creación de una plataforma interoperable
centrada en el usuario capaz de permitir la creación de entornos virtuales de aprendizaje.
La concepción del MRAA es similar a la de la aplicación descrita en la sección
C.1, ya que se plantea la creación de un modelo de reconocimiento capaz de adaptarse
a la expresividad afectiva propia del usuario. Cabe puntualizar que este módulo se diseña inicialmente para un caso de uso específico definido en el proyecto INREDIS como
“Usuario perdido”. Este caso de uso plantea un actor que se ha perdido en la ciudad y
que precisa de un servicio de asistencia para que le preste ayuda. Este caso de uso plantea
sólo tres estados afectivos: positivo (emoción de alegría o aceptación del mensaje), negativo (emoción de enfado o rechazo del mensaje) y neutro (ausencia de emoción), si bien el
módulo podría ser adaptado para admitir nuevas etiquetas. Mediante esta codificación,
el usuario del MRAA puede crear un modelo de reconocimiento y entrenarlo a partir de
interacciones grabadas en archivos de audio y vídeo. El sistema puede ser entrenado con
tantas señales como se desee, diversificando los ejemplos suministrados siendo recomendable aplicar un número de entrenamientos similar para cada una de las tres categorías
afectivas anteriores. No obstante, la programación original del sistema se flexibiliza posteriormente para permitir su adaptación al proyecto evMIC que presenta unas condiciones
menos restrictivas.
El reconocimiento afectivo se realiza a partir del procesado de las señales de audio
y de vídeo8 , y el módulo proporciona etiquetas afectivas para ambas modalidades. Por
otra parte, el módulo proporciona una salida única como resultado de la fusión de ambas modalidades. Esta etiqueta afectiva adicional proporciona robustez frente a posibles
problemas en las modalidades anteriores. Así, frente a la ausencia del canal de vídeo o
de audio, la salida multimodal ignora la modalidad que ha fallado. Frente a un empate
entre la decisión tomada por ambas modalidades, el sistema prioriza la decisión del canal de vídeo puesto que se considera más robusto9. Si se produce un error que afecta a
ambas modalidades simultáneamente o si la secuencia no puede ser procesada correctamente (debido a problemas con el propio archivo, por ejemplo) el sistema genera una
etiqueta adecuada informando de dicho error, sin que ello ocasione un fallo general de la
aplicación.
C.2.2. Características generales
El sistema asigna una etiqueta afectiva a cada secuencia audiovisual para cada modalidad y una adicional correspondiente a la fusión de ambas modalidades. El sistema
puede generar una etiqueta emocional incluso en la ausencia de alguna de las modalidades de entrada. Sin embargo, si el fallo afecta a ambas modalidades simultáneamente o
7
Proyecto TSI-020301-2009-25 cofinanciado por el Ministerio de Industria, Turismo y Comercio de España.
El procesado de vídeo consiste, realmente, en el análisis de tres fotogramas de la secuencia de vídeo
completa. La etiqueta afectiva asignada a esta modalidad consiste en una combinación de las decisiones
tomadas por el MRAA para cada uno de estos fotogramas.
9
Se considera más robusto porque su etiqueta procede de tres decisiones independientes.
8
C.2. Módulo de reconocimiento afectivo audiovisual
219
si la secuencia no puede ser procesada correctamente (debido a problemas con el propio
archivo, por ejemplo) el sistema generará una etiqueta adecuada informando de dicho
error, sin que ello ocasione un fallo general de la aplicación.
Se pueden producir errores en el procesado de la secuencia de vídeo en el momento
de realizar la detección de la cara y su seguimiento. Estos errores pueden ser frecuentes
en función de la calidad de la grabación. Esto desembocará en errores en la asignación
de la etiqueta afectiva pero no ocasionará fallos generales de la aplicación. Para evitar la
aparición de dichos errores de procesado del vídeo será necesario que la cámara enfoque
la cara del usuario obteniendo una imagen frontal (sin rotaciones), bien iluminada y sin
sombras ni focos de luz demasiado vivos, y el usuario deberá permanecer bien enfocado
y sin realizar movimientos bruscos, ni rotaciones de la cabeza. También es importante que
la resolución de la cara sea lo suficientemente elevada como para poder extraer correctamente los atributos faciales que más denotan el estado afectivo del usuario10 . En cuanto al
audio, el micrófono debe de estar bien calibrado de forma que la voz tenga buena presencia sin llegar a provocar saturación o recorte de la señal. El sistema no es robusto frente a
ruidos o interferencias que se puedan producir durante la interacción.
Inicialmente el MRAA proporcionará respuestas poco fiables y el nivel de fiabilidad conseguido dependerá de la similitud entre la cara y voz del usuario y la base de
datos de caras y voces previa disponible. Esto sucederá mientras no se haya alcanzado un
nivel de entrenamiento personalizado suficientemente satisfactorio. El nivel de fiabilidad
en la detección de la emoción del usuario mejorará a medida que el sistema se entrene con
más casos (ejemplos de locución emocional) del usuario, dotando al sistema de un nivel
de personalización mayor. Este entrenamiento se realizará con la participación activa del
usuario.
El sistema cuenta con la capacidad de actualizar los modelos de reconocimiento
durante su explotación lo cual le confiere la habilidad de aprender o reforzar el reconocimiento de los estados afectivos. El sistema puede garantizar la capacidad de aprendizaje
para adecuar el reconocimiento a un único usuario, si bien puede ser entrenado y explotado por varios usuarios con la finalidad de intentar converger hacia un modelo de
reconocimiento multiusuario.
El reconocimiento llevado a cabo por el sistema se supone independiente del idioma empleado por los locutores, si bien se pueden producir diferencias en la expresión del
estado afectivo entre locutores de contextos culturales diferentes.
El sistema proporciona una respuesta cuando se ha completado la extracción de
parámetros audiovisuales de la secuencia y estos han sido clasificados por el algoritmo
de aprendizaje. En función de la longitud de la secuencia este proceso puede llegar a ser
costoso computacionalmente (según el procesador de qué se disponga y de la resolución
de las imágenes y del grado de optimización del código que se pueda conseguir) por lo que
10
Se requiere que el rostro ocupe más del 60 % de la imagen en una imagen con resolución de 640×480
píxeles.
220
C. Aplicaciones de reconocimiento afectivo automático
puede existir un retraso considerable que dificulte su aplicación en un entorno a tiempo
real. Sin embargo, estos tiempos pueden verse reducidos si se limita la duración de las
grabaciones a locuciones cortas. Este aspecto puede condicionar que el reconocimiento
emocional sea usado más como una herramienta de análisis de las interacciones en vez
de usar el estado afectivo reconocido como parte influyente de la respuesta inmediata en
un sistema de interacción en tiempo real.
C.2.3. Funcionamiento del MRAA
En esta sección se detalla el funcionamiento general del MRAA y se muestran ejemplos de su funcionamiento como aplicación independiente y como librería que puede ser
llamada desde el código fuente de otra aplicación. Los detalles de la implementación de
los módulos que componen el MRAA pueden consultarse en la sección C.2.4.
C.2.3.1.
Funcionamiento general del MRAA
La figura C.3 muestra el diagrama de bloques del MRAA. Principalmente, el módulo se compone de dos componentes de parametrización de las señales de entrada (uno
para la de vídeo y otro para la de audio), tres componentes de clasificación (uno para la
modalidad de vídeo, otro para la modalidad de audio, y otro para la clasificación audiovisual que tiene en cuenta ambas modalidades), y finalmente un módulo para el entrenamiento de los clasificadores. Los módulos de parametrización generan a su salida un
vector de parámetros relevantes desde un punto de vista de su función para la clasificación a partir de las señales de entrada correspondientes. Los módulos de clasificación
reciben este vector como entrada para realizar la función propia del reconocimiento del
estado afectivo del usuario.
El MRAA tiene dos modos de funcionamiento:
Modo de entrenamiento de un modelo de reconocimiento.
Modo de evaluación de la interacción de un usuario.
En el modo de entrenamiento, el MRAA considera tres entradas: las señales de vídeo y de audio y la etiqueta afectiva asociada. Una vez se han parametrizado las señales
de vídeo y de audio el componente de entrenamiento de los clasificadores modifica los
modelos de reconocimiento mediante un ciclo de entrenamiento completo11 . Para que los
clasificadores funcionen correctamente es necesario realizar entrenamientos con distintos ejemplos suficientemente significativos para cada emoción a reconocer. Se requiere la
11
Es decir, los parámetros de audio y de vídeo se unen a la etiqueta proporcionada para crear una instancia
que se añade al conjunto de datos. Este nuevo conjunto de datos sirve para entrenar de nuevo el clasificador.
C.2. Módulo de reconocimiento afectivo audiovisual
Parametrización
del vídeo
Vídeo
Parámetros
de vídeo
221
Clasificador de
vídeo
Módulo de
reconocimiento
de vídeo
Etiqueta
afectiva
Entrenamiento
de los
clasificadores
Clasificador
audiovisual
Salida
Módulo de
reconocimiento
de audio
Audio
Parametrización
del audio
Parámetros
de audio
Clasificador de
audio
Figura C.3: Diagrama de bloques del MRAA.
intervención de, como mínimo, un usuario que supervise la etiqueta afectiva a la que se
asocia cada interacción usada para el entrenamiento.
En el modo de evaluación no se precisa la etiqueta afectiva ya que esta será asignada por el MRAA al final de la clasificación. Una vez se ha parametrizado el vídeo y
el audio, los clasificadores respectivos realizan la tarea de clasificación usando los modelos de reconocimiento disponibles, dando a su salida una etiqueta identificativa de la
emoción reconocida. Las etiquetas asignadas por estos dos clasificadores se toman como
entrada del clasificador audiovisual. Esta tercera etiqueta generada por este clasificador
también sigue el mismo convenio que las otras dos (emociones neutra, negativa y positiva), pero permite obtener decisiones más estables fortaleciendo la decisión final gracias a
la combinación de las modalidades anteriores.
El MRAA, tal y como se ha comentado, puede funcionar como aplicación independiente o como una librería importable al código fuente de una aplicación Java. A continuación se detallan ejemplos de ambos funcionamientos.
C.2.3.2.
Ejecución del MRAA como aplicación independiente
Para crear y entrenar un modelo de reconocimiento basta con crear, inicialmente,
una base de datos de audio y vídeo vacías a partir de las bases de datos de muestra que se
distribuyen con la aplicación. Partiendo de una interacción de un usuario con el sistema
de reconocimiento, recogida en un archivo de audio con su voz y otro de vídeo con su
expresión facial, debe ejecutarse la siguiente instrucción12 :
12
Esta es una línea única pero se han añadido saltos de línea para mejorar su visualización impresa. Cada
salto de línea equivale a un espacio en blanco.
222
C. Aplicaciones de reconocimiento afectivo automático
java -jar mraa.jar <dir-configuracion>/mraa-config.properties
<dir-audio>/<archivo-audio.wav> <dir-video>/<archivo-video.wmv>
<dir-modelos>/<modeloAudio.mod> <dir-modelos>/<modeloVideo.mod>
<dir-baseDatos>/<datasetAudio.arff> <dir-baseDatos>/<datasetVideo.arff>
train <etiquetaAfectiva>
Donde:
<dir-configuracion> es el directorio en el que está el archivo de configuración mraaconfig.properties.
<dir-audio> es el directorio en el que está el archivo de audio a analizar (archivoaudio.wav).
<dir-video> es el directorio en el que está la secuencia de vídeo a analizar (archivovideo.wmv).
<dir-modelos> es el directorio en el que se crearán los modelos de reconocimiento
de audio y de vídeo (modeloAudio.mod y modeloVideo.mod, respectivamente).
<dir-baseDatos> es el directorio en el que están las bases de datos de audio y de
vídeo que se han creado anteriormente (datasetAudio.arff y datasetVideo.arff, respectivamente).
La cláusula “train” indica que se está realizando un entrenamiento de estos modelos
con esta interacción.
<etiquetaAfectiva> indica la emoción asociada a esta interacción. Las opciones válidas son “neg” para los estados negativos, “pos” para los positivos y “neu” para los
neutros.
La próxima vez que se realice una llamada como la anterior, usando los mismos
archivos de modelo y de base de datos, estos archivos serán actualizados.
Una vez que ya se dispone de un modelo creado y entrenado puede evaluarse la
interacción de un usuario la cual, como antes, debe estar almacenada en un archivo de
audio y otro de vídeo. La instrucción para la evaluación es13 :
java -jar mraa.jar <dir-configuracion>/mraa-config.properties
<dir-audio>/<archivo-audio.wav> <dir-video>/<archivo-video.wmv>
<dir-modelos>/<modeloAudio.mod> <dir-modelos>/<modeloVideo.mod>
<dir-baseDatos>/<datasetAudio.arff> <dir-baseDatos>/<datasetVideo.arff>
test
13
Esta es una línea única pero se han añadido saltos de línea para mejorar su visualización impresa. Cada
salto de línea equivale a un espacio en blanco.
C.2. Módulo de reconocimiento afectivo audiovisual
223
En este caso la cláusula “test” indica que se está evaluando esta interacción. La
aplicación devolverá la información relativa al resultado de la evaluación realizada por
el módulo acústico, el módulo visual y el modo audiovisual conjunto. Esta información
seguirá el formato descrito por el siguiente ejemplo:
Detalle de resultados
=====================
Audio 1: neg
Video 1: neg
Video 2: pos
Video 3: neg
Resultado final del reconocimiento afectivo
===========================================
<EmocionAudio value="neg">,<EmocionVideo value="neg">,
<EmocionAudiovisual value="neg">
C.2.3.3.
Ejecución de las funciones del MRAA desde el código de una aplicación Java
El MRAA puede ser empleado en el código fuente de una aplicación Java, incluyendo la librería mraa.jar en el proyecto de la aplicación. Sin embargo, el MRAA aún se
halla en una versión inicial por lo que las funcionalidades que ofrece como librería son
muy limitadas así como la documentación proporcionada. Básicamente cuenta con un
constructor que permite determinar el modo de funcionamiento del módulo de reconocimiento y una función destinada al análisis de una interacción a partir de un archivo de
audio y de vídeo. Esta función es la siguiente:
public static java.lang.String etiqueta = mraa.AnalisiAfectiu.getEmotion(
String sPathProp,
String sPathAudio,
String sPathVideo,
String sPathModelAudio,
String sPathModelVideo,
String sPathDataAudio,
String sPathDataVideo)
throws java.lang.Exception
Esta función devuelve una cadena de texto con el siguiente formato:
<EmocionAudio value="xxx">,
<EmocionVideo value="yyy">,
<EmocionAudiovisual="zzz">
224
C. Aplicaciones de reconocimiento afectivo automático
Donde xxx, yyy y zzz son las etiquetas emocionales detectadas dentro del ámbito
{pos, neu, neg, dkn}, correspondientes a positivo, neutro, negativo y desconocido, respectivamente. La etiqueta dkn se reserva para el caso en que fallara el proceso de reconocimiento. Este fallo puede ser debido a un problema en el proceso de parametrización de
las señales así como por la ausencia de ambas modalidades de forma simultánea.
C.2.4. Implementación del módulo de reconocimiento afectivo
En esta sección se realiza una breve descripción del diseño de los componentes
usados por el MRAA y que han sido introducidos en el apartado anterior.
C.2.4.1.
Componente de parametrización del audio
Este componente genera un vector de 46 parámetros asociados a la señal de audio
de entrada proporcionada al módulo como un archivo en formato WAV. Los parámetros
considerados son características medidas sobre la curva de F0, sobre la duración de los
fonemas (diferenciando entre sonidos sordos y sonidos sonoros) y también sobre la energía de la señal de voz. De estas características se calculan 11 estadísticos (valor medio,
máximo, mínimo, desviación estándar, rango, cuartiles, rango intercuartílico, asimetría y
curtosis). Asimismo se incluye la medida de los anchos de banda medidos sobre las curvas
de variación de F0 y de la energía de la señal de voz.
Para obtener las curvas de variación de la F0, de la energía y las duraciones de los
sonidos sonoros y sordos, se aplica un modelado armónico estocástico de la señal de voz
Harmonic plus Noise Model (HNM). A partir de los parámetros de este modelo se pueden
realizar estimaciones de las curvas y las duraciones anteriores.
C.2.4.2.
Componente de parametrización del vídeo
Este componente genera un vector de parámetros asociados a tres fotogramas del
vídeo de entrada. Estos tres fotogramas son seleccionados a partir de la inicialización temporal sobre la mitad de tres zonas equidistantes: la zona inicial, la zona media y la zona
final del vídeo14 . A partir de estos puntos iniciales de análisis, se buscan los fotogramas
más próximos que permiten detectar con éxito la zona de interés, a través de un proceso
de prueba y error. La zona de interés está formada por la región que incluye los ojos y las
cejas de la persona, ya que es a partir de la cual que se puede medir información correlada
con la emoción o afectividad de la persona.
En primer lugar, este componente calcula la luminancia de cada fotograma analizado y, posteriormente, realiza un seguimiento de regiones basado en apariencia que con14
Entendiendo estas tres zonas como una división temporal.
C.2. Módulo de reconocimiento afectivo audiovisual
225
siste en la localización y seguimiento de los ojos y de la nariz de la persona. Una vez que
se ha localizado la zona de la cara del usuario, se aplica un filtro logístico para compensar
posibles problemas de iluminación en la imagen. Seguidamente se aplica una máscara
que aísla la zona de los ojos. Después de realizar este proceso de detección de la zona
ocular se obtiene una imagen de medidas 27×48 píxeles, la cual se obtiene mediante un
proceso de remuestreo a partir de la zona de la imagen original marcada.
La parametrización de cada unos de los tres fotogramas considerados en la parametrización del vídeo se basa en la aplicación de un banco de filtros Gabor con diferentes
ángulos y frecuencias espaciales15 . A las correspondientes salidas complejas de cada filtro
se les aplica el operador módulo. Así pues, el vector de parámetros para cada uno de los
tres fotogramas analizados está formado por 40 subvectores de 1.296 valores16 cada uno.
C.2.4.3.
Componentes de entrenamiento y clasificación de las modalidades de audio
y vídeo
Los módulos de clasificación de audio y de vídeo son clasificadores de tipo SVM.
Sin embargo, las características de la programación del MRAA permiten que estos esquemas puedan ser fácilmente modificados por otros.
C.2.4.4.
Componente de clasificación audiovisual
Este componente sigue una regla heurística basada en voto mayoritario para combinar los resultados de los módulos independientes de reconocimiento basados en audio
y vídeo. La modalidad de audio cuenta con un voto. La modalidad de vídeo cuenta con
tres, dado que se procesan tres fotogramas para decidir la emoción final. La combinación
de las cuatro decisiones resulta en la decisión final del módulo conjunto.
C.2.5. Implementación del MRAA
El MRAA ha sido desarrollado en lenguaje de programación Java, lo que permite
facilitar la portabilidad a múltiples plataformas. Su implementación no considera una
interfaz gráfica de usuario, a diferencia de la aplicación de análisis afectivo automático
basado en aprendizaje interactivo incremental desarrollada anteriormente, ya que este
módulo se concibe originalmente para formar parte de otro sistema, si bien puede ser
ejecutada como aplicación final.
Como la aplicación anterior, el MRAA emplea otro software para implementar algunas funciones. Así, incorpora la librería gratuita de código abierto Xuggler17 para rea15
Concretamente, se trata de un análisis multiresolutivo con 40 kernels distintos.
Correspondientes a la cantidad de píxeles de cada imagen (27×48).
17
http://www.xuggle.com/
16
226
C. Aplicaciones de reconocimiento afectivo automático
lizar la decodificación de los archivos de vídeo. Asimismo, incorpora el compilador en
tiempo de ejecución MATLAB18 para realizar tareas de parametrización y procesado. La
incorporación de este software evita que el usuario final deba tener instalado el programa MATLAB. Finalmente, incluye la implementación de los algoritmos de clasificación
procedentes de su implementación en la librería WEKA.
18
MCR, del inglés MATLAB Compiler Runtime, implementado por Mathworks.
Esta Tesis Doctoral ha sido defendida el día ____ de __________________ de 20
en el Centro Escola Tècnica Superior d’Enginyeria Electrònica i Informàtica La Salle
de la Universitat Ramon Llull
C.I.F. G: 59069740 Universitat Ramon Lull Fundació Privada. Rgtre. Fund. Generalitat de Catalunya núm. 472 (28-02-90)
delante del Tribunal formado por los Doctores abajo firmantes, habiendo obtenido la
calificación:
Presidente/a
_______________________________
Vocal
_______________________________
Vocal
_______________________________
Vocal
_______________________________
Secretario/aria
_______________________________
Doctorando/a
Santiago Planet García
C. Claravall, 1-3
08022 Barcelona
Tel. 936 022 200
Fax 936 022 249
E-mail: [email protected]
www.url.es