Reconocimiento afectivo automático mediante el análisis
Transcription
Reconocimiento afectivo automático mediante el análisis
C.I.F. G: 59069740 Universitat Ramon Lull Fundació Privada. Rgtre. Fund. Generalitat de Catalunya núm. 472 (28-02-90) TESIS DOCTORAL Título Reconocimiento afectivo automático mediante el análisis de parámetros acústicos y lingüísticos del habla espontánea Realizada por Santiago Planet García en el Centro Escola Tècnica Superior d’Enginyeria Electrònica i Informàtica La Salle y en el Departamento Comunicacions i Teoria del Senyal Dirigida por C. Claravall, 1-3 08022 Barcelona Tel. 936 022 200 Fax 936 022 249 E-mail: [email protected] www.url.es Dr. Ignasi Iriondo Sanz A mis padres Resumen Esta tesis aborda el reconocimiento automático de emociones espontáneas basado en el análisis de la señal de voz. Se realiza dentro del Grup de recerca de Tecnologies Mèdia (GTM) de Enginyeria i Arquitectura La Salle, teniendo su origen en un momento en el que existen abiertas varias líneas de investigación relacionadas con la síntesis afectiva pero ninguna relacionada con su análisis. La motivación es mejorar la interacción personamáquina aportando un módulo de análisis en la entrada de los sistemas que permita, posteriormente, generar una respuesta adecuada a través de los módulos de síntesis en la salida de los mismos. El centro de atención se sitúa en la expresividad afectiva, intentando dotar de habilidades de inteligencia emocional a sistemas de inteligencia artificial con el objetivo de lograr que la interacción persona-máquina se asemeje, en la mayor medida posible, a la comunicación humana. En primer lugar se realiza un análisis preliminar basado en locuciones grabadas en condiciones ideales. La expresividad vocal en este caso es actuada y las grabaciones responden a un guion previo que determina a priori la etiqueta que describe el contenido afectivo de las mismas. Si bien este no es el paradigma de la interacción en un entorno realista, este primer paso sirve para probar las primeras aproximaciones a la parametrización de los corpus, los métodos de selección de parámetros y su utilidad en la optimización de los procedimientos, así como la viabilidad de considerar el sistema de reconocimiento afectivo como un ejercicio de clasificación categórica. Asimismo, permite comparar los resultados obtenidos en este escenario con los que se obtengan posteriormente en el escenario realista. Si bien pudiera considerarse que la utilidad de un marco de trabajo como el aquí propuesto carece de interés más allá del mero ejercicio de comprobación citado, en esta tesis se propone un sistema basado en este planteamiento cuya finalidad es la validación automática de un corpus de voz expresiva destinado a síntesis, ya que en síntesis sí es necesario que el corpus esté grabado en condiciones óptimas puesto que será empleado para la generación de nuevas locuciones. En segundo lugar la tesis profundiza en el análisis del corpus FAU Aibo, un corpus multilocutor de voz expresiva espontánea grabado en alemán a partir de interacciones naturales de un grupo de niños y niñas con un robot dotado de un micrófono. En este caso el planteamiento es completamente distinto al anterior partiendo de la definición del propio corpus, en el que las locuciones no responden a un guion previo y las etiquetas afectivas iii se asignan posteriormente a partir de la evaluación subjetiva de las mismas. Asimismo, el grado de expresividad emocional de estas locuciones es inferior al de las grabadas por un actor o una actriz en tanto que son espontáneas y las emociones, dado que se generan de forma natural, no responden necesariamente a una definición prototípica. Todo ello sin considerar que las condiciones de grabación no son las mismas que las que se obtendrían en un estudio de grabación profesional. En este escenario los resultados son muy diferentes a los obtenidos en el escenario anterior por lo que se requiere un estudio más detallado. En este sentido se plantean dos parametrizaciones, una a nivel acústico y otra a nivel lingüístico, ya que la segunda podría no verse tan afectada por los elementos que pueden degradar la primera, tales como ruido u otros artefactos. Se proponen distintos sistemas de clasificación de complejidad variable a pesar de que, a menudo, los sistemas más sencillos producen resultados buenos. También se proponen distintas agrupaciones de parámetros intentando conseguir un conjunto de datos lo más pequeño posible que sea capaz de llevar a cabo un reconocimiento afectivo automático de forma eficaz. Los resultados obtenidos en el análisis de las expresiones espontáneas ponen de manifiesto la complejidad del problema tratado y se corresponden con valores inferiores a los obtenidos a partir de corpus grabados en condiciones ideales. Sin embargo, los esquemas propuestos logran obtener resultados que superan los publicados hasta la fecha en estudios realizados en condiciones análogas y abren, por lo tanto, la puerta a investigaciones futuras en este ámbito. PALABRAS CLAVE: Análisis del habla expresiva, reconocimiento de emociones, habla espontánea, tecnologías del habla, interacción persona-máquina Resum Aquesta tesi tracta el reconeixement automàtic d’emocions espontànies basat en l’anàlisi del senyal de veu. Es duu a terme dins del Grup de recerca de Tecnologies Mèdia (GTM) d’Enginyeria i Arquitectura La Salle, i té el seu origen en un moment en què existeixen obertes diverses línies d’investigació relacionades amb la síntesi afectiva però cap d’elles relacionada amb el seu anàlisi. La motivació és, doncs, millorar la interacció persona-màquina aportant un mòdul d’anàlisi a l’entrada dels sistemes que permeti, posteriorment, generar una resposta adequada mitjançant els mòduls de síntesi a la sortida dels mateixos. El centre d’atenció se situa en l’expressivitat afectiva, intentant dotar d’habilitats d’intel·ligència emocional a sistemes d’intel·ligència artificial, amb l’objectiu de què la interacció persona-màquina sigui el més similar possible a la comunicació humana. En primer lloc es duu a terme un anàlisi preliminar basat en locucions enregistrades en condicions ideals. L’expressivitat vocal en aquest cas és actuada i les gravacions responen a un guió previ que estableix a priori l’etiqueta que descriu el contingut afectiu de les mateixes. Tot i què aquest no és el paradigma de la interacció en un entorn natural, aquest primer pas serveix per provar les primeres aproximacions a la parametrització dels corpus, els mètodes de selecció de paràmetres i la seva utilitat en l’optimització dels procediments, així com la viabilitat de considerar el sistema de reconeixement afectiu com un exercici de classificació categòrica. Tanmateix, permet comparar els resultats obtinguts en aquest escenari amb els que s’obtinguin posteriorment a l’escenari natural. Si bé es podria considerar que la utilitat d’un marc de treball com el que aquí es proposa no interès més enllà de l’exercici de comprovació abans explicat, a aquesta tesi es proposa un sistema basat en aquest plantejament la finalitat del qual és la validació automàtica d’un corpus de veu expressiva destinat a síntesi. En síntesi sí és necessari que el corpus estigui gravat en condicions òptimes perquè serà emprat per a la generació de noves locucions. En segon lloc la tesi aprofundeix en l’anàlisi del corpus FAU Aibo, un corpus multilocutor de veu expressiva espontània enregistrat en alemany que recull un conjunt de gravacions d’interaccions naturals d’un grup de nens i nenes amb un robot que té instal·lat un micròfon. En aquest cas el plantejament és completament diferent a l’anterior començant per la definició del mateix corpus, en el que les locucions no responen a un guió previ i les etiquetes afectives són assignades posteriorment considerant l’avaluació v subjectiva de les mateixes. Tanmateix, el grau d’expressivitat emocional d’aquestes locucions és inferior al de les enregistrades per un actor o una actriu en tant que són espontànies i les emocions, donat que es generen de forma natural i no es treballa en base a un guió, no responen necessàriament a una definició prototípica. Tot això sense tenir en consideració que les condicions de gravació no són les mateixes que les que es tindrien en un estudi de gravació professional. En aquest escenari els resultats són molt diferents als que s’obtenen a l’escenari anterior i, per tant, es fa necessari un estudi més acurat. En aquest sentit es plantegen dues parametritzacions, una a nivell acústic i una altra a nivell lingüístic, en tant que la segona podria no resultar tan afectada pels elements que poden degradar la primera, tals com soroll o d’altres artefactes. Es proposen diferents esquemes de classificació de complexitat variable malgrat que, molt sovint, els sistemes més senzills proporcionen resultats bons. També es proposen diferents conjunts de paràmetres intentant aconseguir una selecció de dades tan petita com sigui possible que pugui realitzar un reconeixement afectiu automàtic de manera eficaç. Els resultats obtinguts de l’anàlisi de les expressions espontànies posen de manifest la complexitat del problema plantejat i suposen valors inferiors als obtinguts a partir de corpus enregistrats en condicions ideals. Malgrat tot, els esquemes proposats aconsegueixen resultats que superen els publicats fins la data actual a estudis realitzats en condicions anàlogues i obren, per tant, la porta a investigacions futures dins d’aquest àmbit. PARAULES CLAU: Anàlisi de la parla expressiva, reconeixement d’emocions, parla espontània, tecnologies de la parla, interacció persona-màquina Summary The topic of this thesis is the automatic spontaneous emotion recognition from the analysis of the speech signal. It is carried out in the Grup de recerca de Tecnologies Mèdia (GTM) of Enginyeria i Arquitectura La Salle, and was started when several research lines related to the synthesis of emotions were in progress but none of them were related to its analysis. The motivation is to improve human-machine interaction by developing an analysis module to be adapted as an input to the devices able to generate an appropriate answer at the output through their synthesis modules. The highlight is the expression of emotion, trying to give emotional intelligence skills to artificial intelligence systems. The main goal is to make human-machine interaction more similar to human communication. First, we carried out a preliminary analysis of utterances recorded under ideal conditions. Vocal expression was, in this case, acted and the recordings followed a script which determined the descriptive label of their emotional content. Although this was not the paradigm of interaction in a realistic scenario, this previous step was useful in testing the first approaches to parameterisation of corpora, feature selection methods and their utility optimizing the proposed procedures, and in determining whether the consideration of the emotion recognition problem as a categorical classification exercise is viable. Moreover, it allowed the comparison of the results in this scenario with the results obtained in the realistic environment. This framework can be useful in some other contexts, additionally to this comparison utility. In this thesis we propose a system based on it with the goal of validating automatically an expressive speech corpus for synthesis. In the synthesis field, corpora must be recorded under optimal conditions to create new speech utterances. Second, we present an analysis of the FAU Aibo corpus, a multi-speaker corpus of emotional spontaneous speech recorded in German from the interaction of a group of children with a robot which had an incorporated microphone. In this case, the approach was different because of the definition of the corpus. The recordings of the FAU Aibo corpus did not follow a script and the emotion category labels were assigned after a subjective evaluation process. Moreover, the emotional content of these recordings was lower than in those recorded by actors, because of their spontaneity; emotions were not prototypical because they were generated naturally, not following a script. Furthermore, recording conditions were not the same as in a professional recording studio. In this scenario, results vii were very different to those obtained in the previous one. For this reason a more accurate analysis was required. In this sense we used two parameterisations, adding linguistic parameters to the acoustic information since the first one could be more robust to noise or some other artefacts than the second one. We considered several classifiers of different complexity although, frequently, simple systems get the better results. Moreover, we defined several sets of features trying to get a reduced set of data able to work efficiently in the automatic emotion recognition task. Results related to the analysis of the spontaneous emotions confirmed the complexity of the problem and revealed lower values than those associated to the corpus recorded under ideal conditions. However, the schemas got better results than those published so far in works carried out under similar conditions. This opens a door to future research in this area. KEYWORDS: Expressive speech analysis, emotion recognition, spontaneous speech, speech technologies, human-computer interaction Agradecimientos Esta tesis es fruto del esfuerzo llevado a cabo durante mucho tiempo. A lo largo de los años han sido muchas las personas que en mayor o menor medida han ayudado a que esta tesis sea hoy una realidad y hasta la contribución más pequeña, realizada siempre de forma constructiva, ha supuesto para mí un importante impulso para seguir adelante en este recorrido. Quiero agradecer a mis padres su esfuerzo por lograr que hoy haya podido llegar al final de este trayecto. Quiero agradecerles de corazón su apoyo y su comprensión a lo largo de todo el tiempo invertido para llevar a cabo mis estudios y, en esta última etapa, para la realización de esta tesis. Quiero agradecerles el amor y el cariño incondicional que me han dado a lo largo de toda mi vida y la educación que me han ofrecido. Porque este también es el resultado de su gran esfuerzo y de su trabajo duro y sin ellos nunca hubiera podido llegar hasta aquí. A mi familia. A los que están y a los que se fueron sin poder ver este trabajo terminado y siempre me apoyaron. A Ignasi Iriondo, director de esta tesis doctoral, por sus indicaciones, su apoyo, su amistad y su insistencia, por haberse involucrado plenamente en este trabajo y haber conseguido que saliera adelante a pesar de los escollos del camino. A Joan Claudi Socoró, profesor, compañero y amigo, por toda la ayuda, comprensión y soporte prestados a lo largo de este tiempo en tantas y tan diversas situaciones y circunstancias y por haber podido contar con él en todo momento. A Jose Antonio Morán por la motivación, por haber creído en mí y por introducirme en el mundo de la investigación. Y junto con Elisa Martínez por su dedicación en las fases iniciales de este trabajo. A todos y cada uno de los compañeros que me han acompañado durante mi trayectoria en La Salle y, en especial, a aquellos con los que compartí mi estancia en el que fuera el Departamento de Comunicaciones y Teoría de la Señal, en el GPMM y, posteriormente, en el GTM. Entre ellos hay personas con las que he compartido muchas horas de estudio y trabajo a las que les agradezco su dedicación y compañerismo, como Jordi Adell, Francesc Alías, Rosa Maria Alsina, Àngel Calzada, Germán Cobo, Lluís Formiga, ix David García, Xavier Gonzalvo, José Antonio Montero, Carlos Monzo, Xavier Sevillano y Alexandre Trilla. La trayectoria ha sido larga y han sido muchas las personas a las que quiero agradecer los momentos compartidos. Sin embargo, resulta imposible citarlas a todas sin que me deje nombres en el tintero: Simó, David M., Carles, Marc, Mireia, David B., Gemma, Borja, Oriol, Pere, Lluís, Diego, Berta, Ester, ... A Gabriel. A Alberto, Ana, Cristina, Gemma, Íñigo, Isa, Jaume, Laura, Lluís, Luisa, Marta y Mónica, por haber estado cerca siempre y, especialmente, en estos últimos años. Y también a todos los amigos que no he citado pero que no por ello son menos importantes para mí, con los que he compartido tantos momentos y me han mostrado su afecto en muchas ocasiones y aún siguen haciéndolo. A los organismos públicos y privados que han financiado parcialmente el trabajo de investigación presentado en esta tesis. Y a todas aquellas personas a las que no he nombrado pero con las que he estudiado, trabajado o compartido vivencias en todo este tiempo y han contribuido a mi formación humana y profesional. A todos vosotros, muchas gracias. Índice general Índice de figuras xix Índice de tablas xxvii Índice de algoritmos xxix Siglas, acrónimos y símbolos xxxi 1. Introducción 1 1.1. Presentación del contexto de la investigación realizada . . . . . . . . . . . 1 1.2. Definición de los objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Organización de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2. Fundamentos 9 2.1. Teoría de las emociones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1. El concepto de emoción . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.2. Teorías sobre las emociones plenas . . . . . . . . . . . . . . . . . . . 11 2.1.2.1. La Perspectiva Darwiniana . . . . . . . . . . . . . . . . . . 11 2.1.2.2. La Perspectiva Jamesiana . . . . . . . . . . . . . . . . . . . 12 2.1.2.3. La Perspectiva Cognitiva . . . . . . . . . . . . . . . . . . . 13 2.1.2.4. La Perspectiva Constructivista Social . . . . . . . . . . . . 13 2.1.3. La descripción de las emociones . . . . . . . . . . . . . . . . . . . . 14 xi xii Índice general 2.1.3.1. Listados de emociones básicas . . . . . . . . . . . . . . . . 14 2.1.3.2. Modelos circumplex . . . . . . . . . . . . . . . . . . . . . . 15 2.1.3.3. Espacio multidimensional . . . . . . . . . . . . . . . . . . 17 2.2. Etiquetado subjetivo de estímulos . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.1. Etiquetado categórico . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2.2. Etiquetado dimensional . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2.2.1. Feeltrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2.2.2. La rueda de emociones Geneva . . . . . . . . . . . . . . . . 24 2.2.2.3. Self-Assessment Manikin . . . . . . . . . . . . . . . . . . . . 25 2.3. Expresión y percepción de emociones . . . . . . . . . . . . . . . . . . . . . 26 2.3.1. Reacciones fisiológicas relacionadas con la emoción . . . . . . . . . 27 2.3.2. Elementos multimodales de la comunicación . . . . . . . . . . . . . 28 2.3.3. Parámetros del habla relacionados con la emoción . . . . . . . . . . 30 2.3.4. La percepción musical . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3. Corpus y parametrización 39 3.1. Consideraciones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2. Métodos para la generación de habla emocional . . . . . . . . . . . . . . . 41 3.2.1. Expresión vocal natural . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2.2. Expresión vocal inducida . . . . . . . . . . . . . . . . . . . . . . . . 42 3.2.3. Expresión vocal estimulada . . . . . . . . . . . . . . . . . . . . . . . 43 3.2.4. Expresión vocal actuada . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.3. Parametrización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.3.1. Parametrización acústica . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.3.1.1. Descriptores de bajo nivel . . . . . . . . . . . . . . . . . . . 47 3.3.2. Parametrización lingüística . . . . . . . . . . . . . . . . . . . . . . . 51 Índice general xiii 3.3.2.1. Prominencia emocional y activación . . . . . . . . . . . . 51 3.3.2.2. Afinidad prototípica . . . . . . . . . . . . . . . . . . . . . . 53 3.3.2.3. Dimensiones emocionales . . . . . . . . . . . . . . . . . . 53 3.3.2.4. Modelo de espacio vectorial . . . . . . . . . . . . . . . . . 54 3.4. Corpus empleados en esta tesis . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.4.1. Corpus ESDLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.4.1.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.4.1.2. Parametrización . . . . . . . . . . . . . . . . . . . . . . . . 56 3.4.2. Corpus BDP-UAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4.2.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4.2.2. Parametrización . . . . . . . . . . . . . . . . . . . . . . . . 61 3.4.3. Corpus FAU Aibo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.4.3.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.4.3.2. Parametrización . . . . . . . . . . . . . . . . . . . . . . . . 66 3.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4. Estado de la cuestión 69 4.1. Antecedentes del reconocimiento emocional . . . . . . . . . . . . . . . . . 69 4.2. Aplicaciones del reconocimiento emocional automático . . . . . . . . . . . 71 4.3. Conceptos previos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.3.1. Principales modalidades analizadas en el reconocimiento afectivo automático y procedimientos para su fusión . . . . . . . . . . . . . 74 4.3.2. Selección de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.3.3. Algoritmos de clasificación . . . . . . . . . . . . . . . . . . . . . . . 77 4.3.3.1. Árboles, reglas y tablas de decisión . . . . . . . . . . . . . 78 4.3.3.2. Aprendizaje basado en casos . . . . . . . . . . . . . . . . . 79 4.3.3.3. Clasificadores probabilísticos y basados en funciones . . . 79 xiv Índice general 4.3.3.4. Metamétodos . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.3.4. Medidas del rendimiento de los algoritmos de reconocimiento . . . 82 4.3.4.1. Métricas por categoría . . . . . . . . . . . . . . . . . . . . . 82 4.3.4.2. Métricas globales . . . . . . . . . . . . . . . . . . . . . . . 83 4.3.5. Métodos de evaluación de los algoritmos de reconocimiento . . . . 85 4.4. Estudios de reconocimiento emocional basados en la señal de voz . . . . . 86 4.4.1. Reconocimiento emocional de emociones actuadas . . . . . . . . . 86 4.4.2. Reconocimiento emocional de emociones espontáneas . . . . . . . 89 4.5. Otras aproximaciones al reconocimiento emocional . . . . . . . . . . . . . 93 4.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados 97 5.1. Reconocimiento afectivo básico . . . . . . . . . . . . . . . . . . . . . . . . . 98 5.1.1. Corpus de voz actuada . . . . . . . . . . . . . . . . . . . . . . . . . . 98 5.1.1.1. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.1.1.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.1.2. Corpus de voz estimulada . . . . . . . . . . . . . . . . . . . . . . . . 103 5.1.2.1. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.1.2.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.1.3. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.2. Reconocimiento afectivo de mapeo subjetivo . . . . . . . . . . . . . . . . . 107 5.2.1. Planteamiento general del sistema . . . . . . . . . . . . . . . . . . . 108 5.2.2. Diseño del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.2.3. Resultados preliminares . . . . . . . . . . . . . . . . . . . . . . . . . 109 5.2.4. Inclusión de parámetros de VoQ . . . . . . . . . . . . . . . . . . . . 110 5.2.5. Selección de parámetros ampliada . . . . . . . . . . . . . . . . . . . 111 5.2.6. Fusión de clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . 112 Índice general xv 5.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 6. Reconocimiento afectivo en corpus de voz espontánea 117 6.1. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.1.1. Esquema general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.1.2. Métrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.1.3. Métodos de evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos . . 121 6.2.1. Propuesta para el Emotion Challenge 2009 . . . . . . . . . . . . . . . 121 6.2.1.1. Desafío de clasificación . . . . . . . . . . . . . . . . . . . . 122 6.2.1.2. Desafío de parámetros . . . . . . . . . . . . . . . . . . . . 128 6.2.1.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6.2.2. Sistema de clasificación acústica mejorado . . . . . . . . . . . . . . 130 6.2.2.1. Clasificación categórica . . . . . . . . . . . . . . . . . . . . 131 6.2.2.2. Clasificación dimensional . . . . . . . . . . . . . . . . . . . 134 6.2.2.3. Reducción del conjunto de parámetros . . . . . . . . . . . 139 6.2.2.4. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 6.3. Reconocimiento afectivo basado en el análisis de parámetros lingüísticos . 142 6.3.1. Clasificación de los subconjuntos de parámetros . . . . . . . . . . . 142 6.3.2. Fusión y selección de parámetros lingüísticos . . . . . . . . . . . . . 143 6.3.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos 145 6.4.1. Análisis preliminar de selección de parámetros y técnicas de fusión 145 6.4.2. Fusión de parámetros seleccionados acústicos y lingüísticos . . . . 149 6.4.2.1. Definición de los conjuntos de datos . . . . . . . . . . . . 149 6.4.2.2. Fusión de parámetros acústicos y parámetros lingüísticos seleccionados manualmente . . . . . . . . . . . . . . . . . 150 xvi Índice general 6.4.2.3. Fusión de parámetros acústicos y parámetros lingüísticos seleccionados automáticamente . . . . . . . . . . . . . . . 153 6.4.2.4. Comparación global de resultados . . . . . . . . . . . . . . 155 6.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 7. Conclusiones y futuras líneas de investigación 161 7.1. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.2. Reconocimiento afectivo en corpus actuados . . . . . . . . . . . . . . . . . 164 7.3. Reconocimiento afectivo en corpus espontáneos . . . . . . . . . . . . . . . 165 7.4. Líneas de futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 Bibliografía 169 A. Aportaciones 191 A.1. Publicaciones científicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 A.2. Otras publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 A.3. Comités técnicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 A.4. Proyectos de investigación y desarrollo . . . . . . . . . . . . . . . . . . . . . 196 A.5. Participación en eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 B. Plataforma en línea de tests para la evaluación de estímulos multimedia 199 B.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 B.1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 B.1.2. Esquema básico de funcionamiento . . . . . . . . . . . . . . . . . . 201 B.1.3. Características generales . . . . . . . . . . . . . . . . . . . . . . . . . 203 B.1.4. Tipos de test implementados . . . . . . . . . . . . . . . . . . . . . . 206 B.1.5. Diferencias con otras plataformas existentes . . . . . . . . . . . . . 207 B.2. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 B.3. Trabajos relacionados con TRUE . . . . . . . . . . . . . . . . . . . . . . . . 209 Índice general xvii C. Aplicaciones de reconocimiento afectivo automático 211 C.1. Aplicación de análisis afectivo basado en aprendizaje interactivo incremental212 C.1.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 C.1.2. Funcionamiento de la aplicación . . . . . . . . . . . . . . . . . . . . 213 C.1.3. Implementación del módulo de reconocimiento afectivo . . . . . . 214 C.1.4. Implementación de la aplicación . . . . . . . . . . . . . . . . . . . . 215 C.2. Módulo de reconocimiento afectivo audiovisual . . . . . . . . . . . . . . . 217 C.2.1. Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 C.2.2. Características generales . . . . . . . . . . . . . . . . . . . . . . . . . 218 C.2.3. Funcionamiento del MRAA . . . . . . . . . . . . . . . . . . . . . . . 220 C.2.3.1. Funcionamiento general del MRAA . . . . . . . . . . . . . 220 C.2.3.2. Ejecución del MRAA como aplicación independiente . . . 221 C.2.3.3. Ejecución de las funciones del MRAA desde el código de una aplicación Java . . . . . . . . . . . . . . . . . . . . . . 223 C.2.4. Implementación del módulo de reconocimiento afectivo . . . . . . 224 C.2.4.1. Componente de parametrización del audio . . . . . . . . 224 C.2.4.2. Componente de parametrización del vídeo . . . . . . . . . 224 C.2.4.3. Componentes de entrenamiento y clasificación de las modalidades de audio y vídeo . . . . . . . . . . . . . . . . . . 225 C.2.4.4. Componente de clasificación audiovisual . . . . . . . . . . 225 C.2.5. Implementación del MRAA . . . . . . . . . . . . . . . . . . . . . . . 225 xviii Índice general Índice de figuras 1.1. Esquema de interacción persona-máquina a través de la voz con reconocimiento y síntesis de emociones. . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1. Modelo circumplex tridimensional de Plutchik y su traducción al español. Adaptado de (Plutchik, 2001) (en inglés). . . . . . . . . . . . . . . . . . . . 18 2.2. Mapeo de 80 etiquetas emocionales en el espacio bidimensional de activación (eje vertical: activo-pasivo) y evaluación (eje horizontal: positivonegativo) y su traducción al español. Adaptado de (Scherer, 2000) según la reproducción de Steidl (2009) (en inglés). . . . . . . . . . . . . . . . . . . . 20 2.3. Herramienta Feeltrace (Cowie et al., 2000) utilizada para anotar la emoción de un estímulo audiovisual en un espacio bidimensional. Adaptado de (Cowie et al., 2001) (en inglés). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.4. Rueda de emociones Geneva (Scherer, 2005). Adaptado de (Steidl, 2009) (en inglés). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.5. Self-Assessment Manikin (SAM). Figura adaptada de su implementación en la herramienta TRUE (Planet et al., 2008) según la descripción gráfica de Bradley y Lang (1994). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.6. Componentes a nivel vocal y no vocal de la comunicación humana. Adaptado de (Payrató, 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.7. Modalidades del proceso comunicativo humano. Adaptado de (Payrató, 2005), según el original de Heinemann (1980). . . . . . . . . . . . . . . . . . 30 2.8. Modelo esquemático del tracto vocal. . . . . . . . . . . . . . . . . . . . . . . 32 2.9. Formas de onda y escpectrogramas de cuatro locuciones habladas procedentes del corpus BDP-UAB. Cada locución se corresponde con un estilo neutro, agresivo, alegre y triste (en el sentido de las agujas del reloj). . . . 35 xix xx Índice de figuras 3.1. Clasificación de los estudios sobre habla y emoción según el foco de interés. Adaptado de (Iriondo, 2008). . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2. Esquema de la parametrización acústica de un archivo de audio de un corpus calculando n descriptores de bajo nivel, su primera derivada y m funcionales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3. Esquema de la parametrización lingüística de una frase calculando k parámetros de activación, uno para categoría emocional. Se han marcado en rojo aquellos elementos de la frase cuya prominencia emocional supera un umbral preestablecido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.4. Matriz de confusión de la clasificación subjetiva del corpus ESDLA. . . . . 56 3.5. Matriz de confusión de la clasificación subjetiva del corpus BDP-UAB. Adaptado de (Iriondo et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.6. Histogramas que reflejan la evaluación de las 480 locuciones de la prueba subjetiva. El eje vertical muestra el número de locuciones que: (a) son correctamente clasificadas en el porcentaje indicado en el eje horizontal, (b) reciben la etiqueta “NS/NC” en el porcentaje indicado en el eje horizontal. Adaptado de (Iriondo et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . 61 3.7. Distribución de clases del corpus FAU Aibo. . . . . . . . . . . . . . . . . . . 65 3.8. Índice de ocurrencia, en porcentaje, de cada etiqueta categórica dentro de cada intérvalo de afinidad prototípica. El margen de afinidad prototípica de 0 a 1 del eje horizontal aparece dividido en 10 intervalos equiespaciados. Dado que los valores de afinidad prototípica inferiores a 0,25 se asumen como 0, no hay ocurrencias en el intérvalo de 0,1 a 0,2 ya que se desplazan al intervalo anterior. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.9. Histograma de la longitud de las locuciones y su distribución, en porcentaje, en el conjunto de entrenamiento. . . . . . . . . . . . . . . . . . . . . . 67 3.10. Proceso de creación de los bigramas y trigramas para los elementos de las locuciones del corpus. En esta figura se muestra, como ejemplo, una locución de 3 elementos (palabras o etiquetas POS, según corresponda). Nótese la adición de las etiquetas delimitadoras al inicio y al final de la locución. . 68 4.1. Esquema de interacción persona-máquina bimodal. Adaptado de (Sebe et al., 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.1. Esquema de un experimento genérico de reconocimiento afectivo básico. . 99 Índice de figuras xxi 5.2. Definición de los conjuntos de datos creados para el experimento de reconocimiento afectivo básico sobre el corpus ESDLA. Entre paréntesis se indica el número de parámetros que contiene cada conjunto de datos. ENE hace referencia a los parámetros de energía y SIL a los de silencio. . . . . . 100 5.3. Resultados WAR del experimento de reconocimiento afectivo básico en el corpus ESDLA considerando los 4 estados emocionales. El resultado del algoritmo de referencia ZeroR es 25 %. . . . . . . . . . . . . . . . . . . . . . 102 5.4. Matriz de confusión de los resultados de clasificación del algoritmo SVM y el conjunto de datos data7 en el experimento de reconocimiento afectivo básico con el corpus ESDLA considerando los 4 estados emocionales. . . . 103 5.5. Definición de los conjuntos de datos creados para el experimento de reconocimiento afectivo básico sobre el corpus BDP-UAB. Entre paréntesis se indica el número de parámetros que contiene cada conjunto de datos. ENE hace referencia a los parámetros de energía. El campo Completo hace referencia a que se consideran todos los segmentos de la locución, sin excepción.104 5.6. Resultados WAR del experimento de reconocimiento afectivo básico en el corpus BDP-UAB. La figura (a) muestra los resultados obtenidos por los subconjuntos de datos derivados del conjunto de datos original completo. La figura (b) muestra los resultados obtenidos por los subconjuntos de datos derivados del conjunto de datos original omitiendo la segunda derivada. El resultado del algoritmo de referencia ZeroR es 22,60 %. . . . . . . 106 5.7. Matriz de confusión de los resultados de clasificación del algoritmo SVM y el conjunto de datos data2G en el experimento de reconocimiento afectivo básico con el corpus BDP-UAB. . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.8. Esquema de un experimento genérico de reconocimiento afectivo de mapeo subjetivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5.9. Ajuste del sistema objetivo de reconocimiento afectivo guiado por los resultados de una prueba subjetiva. Adaptado de (Iriondo et al., 2009). . . . 110 5.10. Descripción gráfica del corpus data2LCVQ5. ENE y DUR hacen referencia a los parámetros de energía y duración, respectivamente. Adaptado de (Iriondo et al., 2007b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.11. Valores máximos de F1 para los algoritmos SVM, J4.8 y Naïve-Bayes (NB) considerando la ausencia y presencia de parámetros de VoQ (conjuntos de datos data2LC y data2LCVQ5, respectivamente). Se incluyen las estrategias de búsqueda hacia delante (FW), 3FW-1B y 4FW-1BW. . . . . . . . . . . . . 112 xxii Índice de figuras 5.12. Valores máximos de F1 por iteración considerando el conjunto de datos data2LCVQ5 con las estrategias de selección de parámetros: (a) 3FW-1BW y (b) 4FW-1BW. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.13. F1, cobertura y precisión de la fusión de clasificadores por votación en función del mínimo número de votos necesario para considerar las locuciones como incorrectas. Se incluye el resultado de la F1 conseguida por la fusión mediante el algoritmo PART. . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 6.1. Esquema de un experimento genérico de reconocimiento afectivo en corpus de voz espontánea. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.2. Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los clasificadores según su evaluación mediante una validación cruzada de 10 iteraciones (10-FCV) y mediante los dos conjuntos independientes (Test set). Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . 123 6.3. Matriz de confusión del algoritmo Naïve-Bayes evaluado mediante los dos conjuntos independientes de entrenamiento y de prueba. Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.4. Esquema del clasificador jerárquico de dos niveles basado en un clasificador binario de primer nivel y un clasificador general de segundo nivel. Los elementos coloreados en azul indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que son evaluados en un clasificador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 6.5. Esquema del clasificador jerárquico de dos niveles basado en un clasificador binario de primer nivel (1C) y dos clasificadores generales de segundo nivel (2C-1 y 2C-2). Los elementos coloreados en azul indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que son evaluados en un clasificador, independientemente de si se estos flujos intervienen en la fase de entrenamiento o la de prueba. . . . . 126 Índice de figuras xxiii 6.6. Esquema del clasificador en cascada basado en 5 niveles de clasificación ordenados según la población de cada una de las clases del corpus FAU Aibo. Los elementos coloreados de azul indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que son evaluados en un clasificador, independientemente de si se estos flujos intervienen en la fase de entrenamiento o la de prueba. . . . . . . . . . . . . 127 6.7. Tasas de clasificación ponderada (WAR, en negro) y no ponderada (UAR, en rojo), del algoritmo Support-Vector Machine (SVM) evaluado mediante una validación cruzada de 10 iteraciones, considerando un conjunto de datos de entre 1 y 200 parámetros previamente escogidos por el criterio mRMR. Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . . . . . . 129 6.8. Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los clasificadores según su evaluación mediante una estrategia LOSO y mediante los dos conjuntos independientes (Test set). . . . . . . . 132 6.9. Matriz de confusión del esquema de fusión NB+SVM-B evaluado mediante los dos conjuntos independientes de entrenamiento y de prueba. Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 6.10. Mapeo en el modelo de activación-evaluación de Scherer (1984) de las etiquetas afectivas del corpus FAU Aibo, según las definiciones de Steidl (2009) y Schuller et al. (2009) de cada una de ellas. Las etiquetas afectivas son neutro (N), enfado (A), enfático (E), positivo (P) (compuesto por maternal (Pm ) y alegre (Pj )) y resto (R) (compuesto por sorpresa (Rs ), impotencia (Rh ) y aburrimiento (Rb )). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 6.11. Clasificación de las etiquetas afectivas del corpus FAU Aibo basada en la dimensión de evaluación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 6.12. Diseño del clasificador jerárquico basado en la dimensión de evaluación. . 136 6.13. Clasificación de las etiquetas afectivas del corpus FAU Aibo basada en la dimensión de activación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 6.14. Diseño del clasificador jerárquico basado en la dimensión de activación. . 138 6.15. Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los esquemas jerárquicos basados en las dimensiones de evaluación y activación, así como la fusión de ambos mediante una estrategia de stacking, según su evaluación mediante una validación LOSO y mediante los dos conjuntos independientes (Test set). . . . . . . . . . . . . . . . . . . . . 138 xxiv Índice de figuras 6.16. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto completo de 384 parámetros acústicos y los conjuntos reducidos de 28 y 305 parámetros seleccionados mediante una búsqueda voraz incremental y decremental, respectivamente. Adaptado de (Planet e Iriondo, 2012b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 6.17. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando 3 conjuntos de datos lingüísticos: los formados por los unigramas y bigramas a nivel de palabra y el formado por trigramas a nivel POS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 6.18. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando dos conjuntos de datos lingüísticos: el que fusiona por concatenación los tres conjuntos anteriores (15 parámetros) y la selección automática realizada por una búsqueda voraz incremental (6 parámetros). 144 6.19. Representación esquemática de los esquemas de fusión de las modalidades acústica y lingüística (a) a nivel de parámetros mediante concatenación y (b) a nivel de decisión mediante un esquema de stacking. . . . . . . . . . . 146 6.20. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto de datos acústicos (28 parámetros seleccionados por la búsqueda voraz incremental (FW, arriba) y 305 parámetros seleccionados por la búsqueda voraz decremental (BW, abajo)), el conjunto de datos lingüísticos basados en los unigramas a nivel de palabra y los esquemas de fusión a nivel de decisión y de parámetros. Adaptado de (Planet e Iriondo, 2012b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 6.21. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto completo de parámetros lingüísticos (Data3) en combinación con el conjunto reducido de parámetros acústicos (Data1) y el conjunto acústico completo (Data2). . . . . . . . . . . . . . . . . . . . . 151 6.22. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores al fusionar el conjunto reducido de parámetros acústicos (Data1) con los 3 subconjuntos de parámetros lingüísticos (Data4, Data5 y Data6) de forma independiente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.23. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores fusionando el conjunto reducido de parámetros acústicos (Data1) con tres combinaciones dos a dos de los subconjuntos lingüísticos. . . . . . . . 153 Índice de figuras xxv 6.24. Comparación de las tasas de clasificación no ponderadas (UAR) de los clasificadores al analizar el conjunto reducido de parámetros acústicos (Data1) de forma independiente y al añadir, de forma incremental, los parámetros de activación de los bigramas a nivel de palabra (Data5) y los parámetros de activación de los trigramas a nivel POS, así como su fusión con la totalidad de parámetros lingüísticos (Data3). . . . . . . . . . . . . . . . . . . . . . . . 154 6.25. Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores considerando la fusión del conjunto reducido de parámetros acústicos (Data1) con los conjuntos de datos Data5 y Data6, con el conjunto reducido de parámetros lingüísticos (Data7) y el subconjunto seleccionado por un algoritmo genético a partir del conjunto completo acústico y lingüístico (Data8). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 6.26. Comparación entre los resultados de varios experimentos del estado de la cuestión y los resultados más relevantes presentados en este capítulo al emplear dos conjuntos independientes para entrenamiento y prueba. Se muestra la tasa de clasificación no ponderada (UAR, en negro) y el número de parámetros del conjunto de datos con el que se consigue ese resultado (en azul). En el caso de (Schuller et al., 2011) el número de parámetros mostrado es orientativo ya que es superior al indicado al provenir de la fusión de 7 esquemas de clasificación. . . . . . . . . . . . . . . . . . . . . . . . . . 156 B.1. Esquema básico de funcionamiento de la plataforma TRUE. . . . . . . . . 202 B.2. Menú principal de la plataforma TRUE para un administrador general del sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 B.3. Cuatro test de muestra creados con la plataforma TRUE. En sentido horario, desde la esquina superior izquierda: un test gráfico de dos estímulos, un test de un estímulo de audio, un test de vídeo y un test de estímulo textual. 204 B.4. Ejemplo de demostración inicial completa en un test gráfico en inglés. . . 205 B.5. Ejemplo de encuesta al final de un test. . . . . . . . . . . . . . . . . . . . . . 206 B.6. Esquema de configuración de un test. La plantilla general permite ser adaptada para mostrar los estímulos y las entradas de evaluación en distintas disposiciones. Se muestran algunos ejemplos de entradas de evaluación (interfaz SAM, entrada de elección múltiple, entrada de texto libre y botones configurables de uso general). . . . . . . . . . . . . . . . . . . . . . . . . . . 207 C.1. Diagrama de flujo de la aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental. . . . . . . . . . . . . . . . . . . . . . 214 xxvi Índice de figuras C.2. Interfaz gráfica de la aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental. . . . . . . . . . . . . . . . . . . . . . . 216 C.3. Diagrama de bloques del MRAA. . . . . . . . . . . . . . . . . . . . . . . . . 221 Índice de tablas 2.1. Emociones básicas según el listado de Cowie y Cornelius (2003) (en inglés) y su traducción al español, reproducidas de (Iriondo, 2008). . . . . . . . . 16 2.2. Resumen de los efectos de las emociones en el habla, según la traducción de Iriondo (2008) del original de Murray y Arnott (1993) (en inglés). . . . . 34 2.3. Resumen de las propiedades acústicas de la expresión vocal y la interpretación musical de cuatro emociones según la traducción de Iriondo (2008) del original de Juslin y Laukka (2003). . . . . . . . . . . . . . . . . . . . . . 36 3.1. Detalles, en porcentaje, de la clasificación subjetiva del corpus ESDLA especificados por clases. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2. Detalle de la parametrización del corpus ESDLA. . . . . . . . . . . . . . . . 58 3.3. Detalle de la parametrización del corpus BDP-UAB. . . . . . . . . . . . . . 62 3.4. Detalle de la parametrización del corpus FAU Aibo. . . . . . . . . . . . . . 66 6.1. Resultados para la evaluación mediante dos conjuntos independientes de la estructura jerárquica basada en dos niveles: un primer nivel binario y un segundo nivel con un único clasificador general. Se incorpora en la primera fila el resultado obtenido por un clasificador SVM como referencia, tal y como se especifica en el experimento anterior (figura 6.2). Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.2. Resultados para la evaluación mediante dos conjuntos independientes de la estructura jerárquica basada en dos niveles: un primer nivel binario y un segundo nivel con dos clasificadores generales. 1C indica el algoritmo de clasificación empleado en el primer nivel. 2C-1 y 2C-2 indican los algoritmos empleados en el primer y segundo clasificador, respectivamente, del segundo nivel. Adaptado de (Planet et al., 2009). . . . . . . . . . . . . . . . 126 xxvii xxviii Índice de tablas 6.3. Descripción de los conjuntos de datos creados a partir de los conjuntos completos de 384 parámetros acústicos y 15 lingüísticos extraídos del corpus FAU Aibo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Índice de algoritmos 1. Algoritmo PART para la fusión de clasificadores en el proceso de reconocimiento afectivo de mapeo subjetivo. . . . . . . . . . . . . . . . . . . . . . . 113 xxix xxx Índice de algoritmos Siglas, acrónimos y símbolos AJAX Asynchronous JavaScript And XML ANEW Affective Norms for English Words ASR Automatic Speech Recogniser ASSESS Automatic Statistical Summary of Elementary Speech Structures CMOS Comparison Mean Opinion Score CSV Comma-Separated Values DAL Dictionary of Affect in Language DMOS Degradation Mean Opinion Score do1000 Drop-off of spectral energy above 1000Hz EMODB Berlin Database of Emotional Speech evMIC entornos virtuales Multimodales, Inmersivos y Colaborativos F0 Frecuencia fundamental GMM Gaussian-Mixture Models GNE Glottal-to-Noise Excitation Ratio GPMM Grupo de Investigación en Procesado Multimodal GTM Grup de recerca de Tecnologies Mèdia HammI Hammamberg Index HMM Hidden Markov Models HNM Harmonic plus Noise Model HNR Harmonic-to-Noise Ratio INREDIS INterfaces de RElación entre el entorno y las personas con DIScapacidad xxxi JSP Java Server Pages KNN k-Nearest Neighbour LAICOM-UAB Laboratorio de Análisis Instrumental de la Comunicación de la Universidad Autónoma de Barcelona LFPC Log-Frequency Power Coefficients LOSO Leave One Speaker Out MAP Maximum A Posteriori MFCC Mel Frequency Cepstral Coefficients MOS Mean Opinion Score MRAA Módulo de Reconocimiento Afectivo Audiovisual mRMR Minimal-Redundancy Maximal-Relevance pe1000 Relative Amount of Energy above 1000 Hz PF-STAR Preparing Future Multisensorial Interaction Research POS Part-Of-Speech SAM Self-Assessment Manikin SAVE Síntesis Audiovisual Expresiva SES Spanish Emotional Speech SFM Spectral Flatness Measure SL Simple Logistic SVM Support-Vector Machine TRUE Testing platfoRm for mUltimedia Evaluation UAR Unweighted Average Recall VoQ Voice Quality WAR Weighted Average Recall ZCR Zero-Crossing Rate Capítulo 1 Introducción Esta tesis se enmarca dentro del programa de doctorado Las Tecnologías de la Información y la Comunicación y su gestión. Se ha llevado a cabo dentro del Grup de recerca de Tecnologies Mèdia (GTM)1 de Enginyeria i Arquitectura La Salle, perteneciente a la Universitat Ramon Llull, bajo la dirección del Dr. Ignasi Iriondo Sanz. En este primer capítulo se lleva a cabo una introducción a la tesis a través de las siguientes secciones: Presentación del contexto de la investigación realizada (sección 1.1). Definición de los objetivos de la tesis (sección 1.2). Organización de la tesis (sección 1.3). 1.1. Presentación del contexto de la investigación realizada Sirva un famoso escenario de la ciencia ficción como ilustrador, y sólo como tal, del contexto de esta tesis. ¿Sueñan los androides con ovejas eléctricas? (Do androids dream of electric sheep?) (Dick, 1968) es una novela corta que dio origen al clásico del cine de ciencia ficción Blade Runner, dirigido en 1982 por Ridley Scott. En la escena inicial de la película, ambientada en una futurista ciudad de Los Ángeles y tras presentar a los androides2 del modelo Nexus 6 como “más humanos que los humanos”, un policía interroga a un sujeto con la ayuda de la máquina de Voigt-Kampff para detectar si es un humano o un androide y, en este caso, retirarlo. Dicha máquina mide las respuestas emocionales de los individuos realizando un test de empatía (Prieto, 2008), algo de lo que carecen los androides y que, a pesar de su aparente similitud con los humanos, los diferencia de ellos. Este androide no 1 2 Grupo de investigación en Tecnologías Media. Androide es el término empleado en la novela. En su adaptación al cine el término empleado es replicante. 1 2 1. Introducción supera la prueba. Pero, ¿existe algún androide capaz de superarla? ¿Son la empatía y las reacciones emocionales, pues, los claros indicadores de que un ser humano realmente lo es? No es este el único caso en el que la literatura y el cine recurren a las emociones para plantear la inquietante pregunta de si esa persona que hay enfrente y parece tan humana realmente lo es o no. Así, por ejemplo, la novela de Jack Finney, Los ladrones de cuerpos (The body snatchers), escrita en 1955 y adaptada al cine en múltiples ocasiones (la primera en 1956 por Don Siegel y recientemente en la cuarta y, hasta la fecha, última versión de 2007 por Oliver Hirschbiegel) plantea una invasión extraterrestre en la que unos seres alienígenas suplantan a personas normales sin que aparentemente se perciba ningún cambio. Tan sólo en apariencia pues la ausencia de emociones es el rasgo característico de los que han sido suplantados. En la adaptación al cine de 2007, titulada Invasión (The invasion), un personaje aconseja a la protagonista, cuando camina por una calle en la que corre el riesgo de ser descubierta: “No muestre ninguna emoción, así no podrán reconocerla.” Algo similar a lo que se plantea en la película El pueblo de los malditos (Village of the damned), adaptación de la novela publicada en 1957 The Midwich Cuckoos, de John Wyndham, dirigida en 1960 por Wolf Rilla y en una segunda versión de 1995 por John Carpenter. No es de extrañar que la vinculación de la expresividad emocional al comportamiento humano sea empleada de forma recurrente en estas obras, así como que se emplee la ausencia de emociones en una persona como elemento para causar terror entre el público. La comunicación humana consta de una importante parte afectiva que forma parte del mensaje que se transmite, si bien de forma implícita, y muestra un carácter empático que se desarrolla desde edad temprana y que se fundamenta en la interpretación de las señales transmitidas de forma inconsciente y que no siempre son verbales (Goleman, 1995). La empatía supone un mínimo reconocimiento y comprensión del estado emocional de una persona por parte de su interlocutor (Decety y Jackson, 2004), y su ausencia dificulta el proceso comunicativo. Sin embargo, la comunicación persona-máquina, propiciada cada vez más por los avances tecnológicos y el acceso mayoritario de la población a las nuevas tecnologías, a menudo es carente de dicha componente afectiva. Así, suele asociarse la comunicación sin emociones a la comunicación con un robot (Iriondo, 2008), ejemplo popular para ilustrar un discurso no emocional. Uno de los objetivos recientes de la comunicación personamáquina es la mejora de la experiencia de usuario3 , intentando conseguir que esta interacción sea más similar a la comunicación entre humanos. La inclusión de módulos de reconocimiento de voz fue uno de los puntos clave en el pasado reciente para añadir capacidades perceptivas a los dispositivos multimedia, lo que mejoró notablemente sus interfaces de usuario (Canny, 2006). Sin embargo, el análisis de estados afectivos a través del estudio del canal implícito 3 Mejora que supone una acceso más cómodo a la tecnología y que, en consecuencia, puede ayudar también a evitar que ciertos sectores sociales queden excluidos del acceso a la misma. 1.1. Presentación del contexto de la investigación realizada 3 de la comunicación4 puede mejorar las aplicaciones que requieren de una comunicación con el usuario haciéndolas más usables y amigables. Esto es así porque, en general, añadir capacidades de inteligencia emocional a la inteligencia artificial de los dispositivos y aplicaciones puede hacer posible que la interacción persona-máquina sea más similar a la comunicación humana (Picard et al., 2001). Existe un amplio abanico de contextos en los que el análisis del habla y de la emoción en la entrada de los sistemas (y también la síntesis de voz emocionada en la salida de los mismos) puede ser aplicado, incluyendo entre ellos la generación automática de contenido audiovisual, reuniones virtuales, sistemas de diálogo automáticos, sistemas de tutoría en ámbitos docentes, entretenimiento o “juegos serios”5 . La figura 1.1 muestra un esquema genérico de interacción persona-máquina a través de la voz con reconocimiento y síntesis de emociones. No obstante este esquema podría ser fácilmente ampliado para representar un sistema que incluyera la modalidad visual e introdujera el análisis de la expresividad facial, y aún podría incluir otras modalidades para sustentar la interacción. Sin embargo, esta tesis se centra en el análisis de la señal de voz y, por lo tanto, este esquema incide en la modalidad del habla. Nótese que el sistema automático recibe la transcripción del mensaje dictado por el usuario y también un indicador del estado afectivo del mismo. A partir de ambas informaciones el sistema puede generar una respuesta a ambos niveles, tanto a nivel de mensaje (originalmente un mensaje de texto que se convertirá en voz en el módulo correspondiente) como a nivel expresivo emocional (que modulará la señal de voz generada para colorearla afectivamente). Texto Emoción Reconocedor afectivo automático Reconocedor automático de voz Conversor de texto a voz Síntesis afectiva Voz natural Texto Emoción Voz sintética Figura 1.1: Esquema de interacción persona-máquina a través de la voz con reconocimiento y síntesis de emociones. En el momento previo al inicio de la presente tesis doctoral, en el GTM se habían iniciado cuatro tesis doctorales en el ámbito de la síntesis de voz expresiva (la rama inferior del esquema de la figura 1.1), las desarrolladas por Iriondo (2008), Gonzalvo (2010), Monzo (2010) y Formiga (2010). Nace, entonces, la necesidad de avanzar en el campo del análisis afectivo para poder completar el esquema de interacción y aprovechar dichos avances, en la medida de lo posible, en los estudios de síntesis ya iniciados. Así pues, se inicia una investigación en el estado de la cuestión que muestra los estudios realizados por di4 5 Es decir, el análisis de cómo algo ha sido dicho y no sólo de qué es lo que se ha dicho. Del inglés, Serious games. 4 1. Introducción ferentes investigadores y pone de manifiesto la existencia de estudios basados en voces de naturaleza diversa (grabaciones actuadas y espontáneas, condiciones de laboratorio y naturales, diversos ámbitos de estudio, etc.), así como la diversidad de resultados obtenidos en función de los planteamientos adoptados. Tras el análisis inicial de los corpus grabados por actores, se escoge el ámbito de las emociones espontáneas dada su mayor adecuación a los procesos de interacción reales, siendo además un ámbito menos abordado por la comunidad científica dada su complejidad y los resultados de identificación habitualmente bajos que se obtienen. Todo ello será detallado en los capítulos siguientes. 1.2. Definición de los objetivos de la tesis El interés de esta tesis doctoral se centra en el análisis de la expresividad afectiva dentro del proceso comunicativo y, en concreto, la que se refiere a la señal de voz. La voz, en sí misma, transmite información paralingüística referida a la emoción del hablante y, en un sentido más amplio, a su estado de ánimo, sus intenciones u otros aspectos que lo relacionan con el entorno y/o con su interlocutor6 . Por este motivo, y dada la existencia de las líneas de investigación en el ámbito de la síntesis ya abiertas en el GTM en el momento del planteamiento de la presente tesis, la motivación de este trabajo es el análisis de los factores que confieren al habla sus rasgos afectivos. Expuesta la motivación de la tesis, se formulan dos preguntas que dan pie a la investigación llevada a cabo: 1. ¿Qué información oral es la más relevante en la identficación de las emociones? 2. ¿Cómo debe transferirse esta información a un sistema automático y cuáles deben ser sus procedimientos para conseguir identificar las emociones en un entorno de interacción natural? Para dar respuesta a estas preguntas se plantean las siguientes hipótesis de trabajo: 1. Dado que a nivel oral un hablante transmite información acústica y lingüística, el análisis de ambas permitirá conseguir una mejor identificación afectiva que el análisis individual de cada una de las mismas. 2. En un entorno de interacción natural las locuciones de los hablantes son espontáneas y no siempre se producen en condiciones óptimas para su grabación. Además, 6 Además de la información paralingüística, con las funciones referidas en el texto, la voz transmite información lingüística que permite, por ejemplo, distinguir entre una afirmación o una pregunta, e información extralingüística, relativa a características del locutor tales como su edad, su sexo o su estatus socioeconómico (Escudero, 2003). Estos dos últimos tipos de información, sin embargo, no se relacionan directamente con el estado afectivo del locutor. Véase la sección 2.3.3 para más información. 1.2. Definición de los objetivos de la tesis 5 una aplicación de reconocimiento debe admitir varios locutores. Esto dificultará su análisis a nivel acústico. En tanto que la información acústica podría no ser suficiente para tareas de reconocimiento afectivo en un escenario realista (Batliner et al., 2003) y considerando que la información lingüística podría verse afectada en menor medida por las condiciones de grabación7 , el análisis de esta última podría contribuir a mejorar los resultados obtenidos a partir de la primera. 3. El reconocimiento afectivo automático puede considerarse como un ejercicio de clasificación categórica en el que las locuciones deben recibir una etiqueta que identifique la emoción que representan. Algoritmos de clasificación del estado de la cuestión pueden ser útiles para llevar a cabo esta tarea, de forma individual o combinada mediante técnicas de fusión. 4. La parametrización de las locuciones como paso previo a su clasificación dará lugar a un gran volumen de datos. Técnicas de selección de parámetros reducirán ese volumen para optimizar los resultados de los algoritmos de clasificación. A partir de las hipótesis de trabajo anteriores se define el objetivo general de esta tesis: Determinar los esquemas de clasificación más adecuados y los parámetros necesarios para clasificar fragmentos de voz espontánea según su contenido afectivo. Para lograr el objetivo general se define una serie de objetivos específicos: 1. Realizar un ejercicio previo de reconocimiento afectivo automático en corpus grabados en condiciones de laboratorio para observar los resultados obtenidos y sentar la base para los experimentos posteriores en corpus de voz espontánea. Este ejercicio servirá para comparar los procedimientos empleados en ambos casos así como los resultados obtenidos y poner de manifiesto las problemáticas específicas. 2. Parametrizar a nivel acústico y lingüístico el corpus de voz espontánea, creando un conjunto de datos completo que será dividido en subconjuntos de parámetros relevantes mediante técnicas automáticas y manuales. Esto permitirá optimizar los algoritmos de clasificación determinando, al mismo tiempo, cuáles son los parámetros más importantes para llevar a cabo la tarea de clasificación de forma eficaz. 3. Definir un entorno de trabajo que permita evaluar y comparar los métodos propuestos en un escenario multilocutor de análisis de emociones espontáneas. Dicho entorno de trabajo debe considerar las características propias del corpus para definir unas métricas adecuadas y debe ofrecer también unos resultados que sean comparables con los trabajos realizados por otros investigadores en este ámbito. 7 La información lingüística en sí no se vería afectada pero, si el sistema cuenta con un módulo de reconocimiento de voz, unas condiciones no óptimas de grabación pueden influir negativamente en la extracción del contenido lingüístico de las locuciones. Esto sí afectaría, indirectamente, al procesado de dicha información. 6 1. Introducción 4. Seleccionar los esquemas de clasificación más adecuados, ya sean clasificadores individuales o estructuras de clasificación complejas, así como los parámetros más convenientes para las mismas. Esto incluye la consideración de los esquemas de fusión más eficaces y eficientes, tanto a nivel de parámetros como de decisión, para optimizar los resultados. 1.3. Organización de la tesis Esta tesis consta de siete capítulos, los cuales se describen a continuación. El capítulo 1 contiene la introducción de la tesis, considerando el contexto de la investigación realizada, los objetivos planteados y el detalle de los capítulos de esta tesis y su organización. El capitulo 2, en primer lugar, hace un repaso de las teorías más aceptadas acerca de las emociones. El concepto de emoción es complicado de definir por lo que se recogen los planteamientos que distintas perspectivas realizan, a lo largo de la historia, alrededor del mismo. Asimismo se presentan tres métodos para describir las emociones, incluyendo los listados de emociones, sujetos a la definición creada por los autores de cada uno de ellos, los modelos circumplex y los espacios multidimensionales. Cada uno de estos métodos presenta sus propias características y todos ellos suponen visiones diferentes de las emociones en sí, lo que vuelve a mostrar la ambigüedad a menudo vinculada al concepto de emoción. En segundo lugar, este capítulo hace un recorrido por distintos métodos creados para el etiquetado de corpus afectivos dado el estrecho vínculo que se establece entre estos métodos y la definición que se adopta del concepto emoción. Estos métodos permiten asignar, de forma subjetiva, una etiqueta afectiva a cada elemento del corpus e incluyen, entre los más extendidos, los etiquetados categóricos y los dimensionales. Finalmente, se tratan temas relacionados con la expresión y la percepción de las emociones, tales como las reacciones fisiológicas asociadas, los elementos multimodales de su expresión y, finalmente, detalles relativos a la expresividad afectiva a través del habla. El capítulo 3 describe las condiciones generales para la creación de un corpus de voz emocionada. El contenido del capítulo incide en los diferentes métodos para la generación del habla emocional dada la importancia que tienen los corpus en estudios como los presentados en esta tesis, ya que son la base fundamental de los mismos. De su elección depende en gran medida la estrategia a seguir y el escoger un corpus u otro puede suponer una importante dificultad añadida, dependiendo de las condiciones de su grabación. Asimismo, la expresión vocal empleada8 define si el estudio de reconocimiento se centra en condiciones propias de un entorno realista o, por el contrario, se enmarca en un contexto propio de laboratorio. El capítulo detalla también el proceso de extracción de parámetros para que estos corpus puedan ser procesados posteriormente por diferentes 8 En esta tesis se consideran cuatro tipos de expresión vocal: natural, inducida, estimulada o actuada, tal y como señala Schröder (2004) 1.3. Organización de la tesis 7 algoritmos de aprendizaje. En esta tesis se emplean dos tipos de parámetros: acústicos y lingüísticos. Finalmente se describen los tres corpus que se analizarán a lo largo de esta tesis detallando la parametrización de los mismos. En el capítulo 4 se recogen y analizan algunos de los trabajos más relevantes realizados en el campo del reconocimiento afectivo basado en la señal de voz, diferenciando los trabajos realizados sobre corpus de voz actuada y sobre corpus de voz espontánea. Se incluye también el análisis de algunos estudios importantes realizados a partir de otras modalidades así como su análisis conjunto empleando técnicas de fusión. Dicho análisis se plantea como un recorrido desde los estudios de las primeras aproximaciones hasta llegar a las tendencias más recientes, incluyendo las aplicaciones de estos trabajos en ámbitos que son, a menudo, muy distintos entre sí. Para poder sentar la base de experimentación, el capítulo recoge también la definición de aquellos conceptos y métodos que posteriormente serán empleados. Así, se definen las principales modalidades que muchos autores analizan en los trabajos más relevantes, se introducen las técnicas de selección de parámetros que se emplean con mayor frecuencia en este ámbito, se explican las métricas empleadas para comparar los resultados entre diferentes trabajos y cuáles son los métodos de evaluación de los procedimientos de reconocimiento automático que se proponen. El capítulo 5 centra su atención en los experimentos que se llevan a cabo sobre corpus grabados por actores bajo condiciones ideales propias de laboratorio. Se realizan dos planteamientos diferenciados. El primero de ellos pretende maximizar el número de coincidencias entre el estilo afectivo de cada elemento del corpus y la etiqueta asignada automáticamente por el reconocedor. El segundo pretende maximizar el número de coincidencias para aquellas locuciones que también serían correctamente identificadas de forma subjetiva. Este segundo planteamiento supone un mapeo de criterios subjetivos puesto que no persigue el valor máximo de clasificación sino realizar la misma clasificación que un evaluador humano realizaría. Ambos planteamientos se corresponden con una fase preliminar del estudio del tema principal de esta tesis, el cual se aborda en el siguiente capítulo. El capítulo 6 recoge los experimentos realizados sobre un corpus de expresión vocal espontánea. El planteamiento de estos experimentos es muy diferente al de los mostrados en el capítulo 5 dadas las características de este tipo de expresión vocal. El capítulo se inicia con la descripción de la metodología empleada a lo largo de toda la experimentación, detallando los experimentos de reconocimiento afectivo automático que se llevan a cabo agrupándolos en tres bloques, según su objeto de análisis: el estudio de parámetros acústicos y lingüísticos de forma independiente por una parte y de forma conjunta mediante su fusión por otra. Los experimentos de clasificación se realizan desde distintas perspectivas, empleando esquemas de clasificación de forma individual y también agrupados en estructuras más complejas creando estructuras jerárquicas, en cascada o de fusión a nivel de decisión. Ambas modalidades, la acústica y la lingüística, se estudian por separado pero también de forma conjunta mediante esquemas de fusión a nivel de decisión y a nivel de parámetros. Asimismo, y dado que el volumen de datos es muy elevado, se realiza un proceso de selección de parámetros tanto de forma automática como de forma manual. El 8 1. Introducción objetivo de dicha reducción es doble: por una parte optimizar el proceso de clasificación y, por otra, determinar los parámetros más relevantes para el proceso de clasificación. Finalmente se realiza una comparación global entre los resultados obtenidos y los observados en estudios relacionados en el estado de la cuestión. Finalmente, el capítulo 7 expone las principales conclusiones y las líneas futuras de trabajo que se abren y dan continuidad a las aportaciones de esta tesis. Capítulo 2 Fundamentos En este capítulo se hace un recorrido por las principales teorías emocionales para poder definir el concepto de emoción y poder llegar a dar una descripción de las mismas en base a distintos modelos, incluyendo los listados de emociones, los modelos circumplex y los espacios multidimensionales. A continuación se explican las principales formas de representar y evaluar las emociones, lo que será de utilidad posteriormente para el correcto etiquetado de los corpus de voz que se emplearán en los experimentos de reconocimiento emocional. Finalmente, se describen la expresión y la percepción de las emociones de forma general y, en concreto, a través del habla, relacionando los parámetros propios de esta modalidad con la modalidad musical, a la cual va estrechamente ligada en tanto que ambas inciden, directamente, en el sentido auditivo del receptor. 2.1. Teoría de las emociones Describir una emoción no es una tarea sencilla. Desde las teorías aristotélicas hasta las propuestas contemporáneas, muchos pensadores, filósofos y científicos han intentado dotar al término emoción una definición que le proporcione un significado completo, que realice una descripción, que proponga una clasificación de sus diferentes variantes y que lo dote de una funcionalidad para los seres vivos en general y para el ser humano en particular. Sin embargo, y a pesar de ser uno de los pilares básicos para la interacción, son muchas y variadas las teorías que existen al respecto. Sin pretender abarcarlas todas, esta sección describe las principales definiciones que serán de utilidad para el desarrollo de la presente tesis. 9 10 2. Fundamentos 2.1.1. El concepto de emoción En los procesos de interacción humana pueden distinguirse dos canales diferenciados (Cowie et al., 2001): el primero es el encargado de la transmisión de mensajes explícitos mientras que el segundo se encarga de la transmisión de los mensajes implícitos. Mientras los primeros hacen referencia al contenido del propio mensaje, los segundos se refieren a los locutores en sí. Se han invertido más esfuerzos, a nivel lingüístico y a nivel tecnológico, tratando el primer canal en detrimento del segundo si bien actualmente la tendencia se está invirtiendo. El reconocimiento emocional se enmarca en el análisis del canal implícito1 . La propia definición de la palabra emoción es un tema complejo. Goleman (1995) se refiere a la definición “agitación o perturbación de la mente; sentimiento; pasión; cualquier estado mental vehemente o agitado”. Para este autor, el término emoción “hace referencia a un sentimiento y a los pensamientos, los estados biológicos, los estados psicológicos y el tipo de tendencias a la acción que lo caracterizan. Existen centenares de emociones y muchísimas mezclas, variaciones, mutaciones y matices diferentes entre todas ellas. En realidad existen más sutilezas en la emoción que palabras para describirlas”. Es importante señalar el concepto de “tendencia a la acción” vinculado a la propia raíz etimológica de la palabra “emoción”: del latín movere y el prefijo -e, indicando movimiento hacia. Según la Real Academia Española, la primera acepción de esta palabra es “Alteración del ánimo intensa y pasajera, agradable o penosa, que va acompañada de cierta conmoción somática”. Cowie y Cornelius (2003) hacen un profundo análisis de los términos y conceptos que se relacionan con la emoción y el habla. Define, entre otros, los siguientes conceptos emocionales: Emoción plena (Scherer, 1999): también referenciada como emoción primaria (Plutchik, 2001) o emoción básica (Ekman, 1999). Describe la emoción en su forma más intensa. Emoción subyacente: denota el colorido emocional que está presente en todos los estados mentales. Su descripción es más compleja que la de las emociones plenas aunque las subyacentes están presentes en la comunicación humana en mayor medida que las plenas, las cuales se dan en pocas ocasiones. Estados emocionales: recogen todas las emociones, desde las subyacentes hasta las plenas, incluyendo todos los estados intermedios significativos en la comunicación humana. Al mismo tiempo, Cowie y Cornelius (2003) introducen el concepto de estados relacionados con la emoción en los cuales las personas no sienten propiamente una emoción aunque sí presentan ciertos aspectos propios de las emociones, tales como humor, excitación, cierta actitud, etc. 1 La descripción de estos canales y su función en el proceso comunicativo se detallan en la sección 2.3 2.1. Teoría de las emociones 11 De la misma forma que los conceptos anteriores están relacionados con la intensidad de la emoción, diferentes conceptos emocionales se pueden asociar a una escala temporal concreta. En este sentido, mientras que las expresiones, las actitudes o los estados emocionales (como por ejemplo estar contento o triste) suelen durar algunos segundos o varios minutos, un estado de humor (como por ejemplo irascible o melancólico) puede durar horas o extenderse hasta algunos meses, un desorden emocional (como por ejemplo un estado depresivo) se puede prolongar de semanas a años y un rasgo emocional (como taciturno o nervioso) puede durar años o definirse durante toda la vida de una persona como su propio carácter (Cowie et al., 2001). 2.1.2. Teorías sobre las emociones plenas Scherer (1986) describió la emoción como “la interfaz del organismo hacia el mundo exterior” y destacó tres funciones principales: Reflejar la evaluación de la relevancia y el significado del estímulo particular en términos de las necesidades del organismo, planes y preferencias. Es decir, valorar la situación a la que se enfrenta un individuo. Preparar fisiológica y psicológicamente el organismo para una acción apropiada, lo cual se refleja en cambios fisiológicos y proporciona al individuo una tendencia a la acción. Comunicar el estado del organismo y las intenciones de comportamiento hacia otros seres próximos a través de la expresividad facial, corporal y oral. Las teorías psicológicas contemporáneas sobre la emoción se enmarcan en diferentes perspectivas, de las cuales podemos destacar cuatro como básicas. Estas perspectivas comprenden desde las primeras aproximaciones realizadas por Charles Darwin hasta las teorías de finales del siglo XX y tratan acerca de cómo definir, estudiar y explicar las emociones. Estas cuatro perspectivas, según la descripción dada por Cornelius (2000), son: Darwiniana, Jamesiana, Cognitiva y Constructivista Social. Aunque cada una de ellas establece sus propias bases referentes a cómo construir teorías sobre la emoción, su naturaleza y sobre cómo dirigir la investigación en este ámbito, hay coincidencias destacables entre ellas —sobre todo entre la Darwiniana y la Jamesiana— como puede comprobarse a continuación. 2.1.2.1. La Perspectiva Darwiniana Desde la perspectiva Darwiniana las emociones son fenómenos desarrollados como funciones importantes de supervivencia y han sido seleccionadas como tal para solucionar ciertos problemas a los que la especie humana ha tenido que hacer frente. Por este 12 2. Fundamentos motivo los comportamientos emocionales son similares en todos los seres humanos y se asemejan, incluso, a los de aquellos mamíferos con los que el hombre ha compartido un pasado a lo largo de la evolución. Para Charles Darwin, la expresión de las emociones está inscrita en la memoria genética de los individuos y por eso se da de forma innata desde la infancia. Los inicios de esta perspectiva se remontan al año 1872, cuando Darwin publica La expresión de las emociones en los animales y en el hombre (The expression of emotion in man and animals) (Darwin, 1872)2 . Sus ideas han sido muy influyentes y su legado en el estudio de la emoción en la psicología y la biología se basa en: Aplicar las teorías de la evolución por selección natural con el fin de entender las expresiones emocionales y las propias emociones en sí. Remarcar que las expresiones emocionales deben entenderse en términos de sus funciones y, por lo tanto, como un valor de supervivencia. Trabajos posteriores remarcan el factor de herencia genética en los comportamientos emocionales como, por ejemplo, el de Peleg et al. (2006) en el cual se comprueba cómo dos individuos de una misma familia manifiestan emociones a través de las mismas expresiones faciales a pesar de que uno de ellos es invidente. Dado que no ha podido aprender la expresión facial de su familia a partir de la observación de la misma se corrobora la herencia genética antes comentada. Matsumoto y Willingham (2009) obtienen resultados equiparables al realizar un estudio similar observando atletas invidentes y sus expresiones faciales. 2.1.2.2. La Perspectiva Jamesiana La perspectiva Jamesiana sigue el postulado de William James que define las emociones como cambios corporales producidos inmediatamente después a la percepción de un estímulo, según publicaba en 1884 en el artículo What is an emotion? (James, 1884)3 . Así pues, James afirma que los cambios corporales se producen tan pronto como se percibe una excitación y la emoción es el sentimiento que se experimenta cuando estos cambios se manifiestan. No es posible la existencia de emociones sin que se produzcan estos cambios y estos siempre son previos a la emoción en sí. La coincidencia de esta perspectiva con la Darwiniana se produce en la consideración de que las emociones son adaptaciones al entorno basadas en la supervivencia del individuo, pero difieren en el hecho de que Darwin se centra en sus manifestaciones mientras que James lo hace en su propia naturaleza. Así es importante remarcar que, para James, el cuerpo responde primero y la experiencia adquirida por los humanos constituye la emoción, que es la respuesta a esos cambios. A William James se debe la popular frase “nos sentimos tristes porque lloramos, 2 Esta obra así como otras de Charles Darwin pueden ser consultadas en la siguiente página web de libre acceso: http://darwin-online.org.uk 3 Esta obra puede ser consultada en la página web http://psychclassics.yorku.ca 2.1. Teoría de las emociones 13 enfadados porque golpeamos, asustados porque temblamos, y no lloramos, golpeamos ni temblamos porque estemos tristes, enfadados o asustados”4. Sin embargo, las investigaciones realizadas en este campo aún no han revelado cómo los cambios corporales serían iniciados por la percepción de los estímulos del entorno. 2.1.2.3. La Perspectiva Cognitiva La perspectiva cognitiva es la más dominante de las cuatro gracias a que esta perspectiva ha sido minuciosamente incorporada dentro de las otras tres. La perspectiva cognitiva moderna se basa en los estudios de las emociones realizados por Magda Arnold (1903–2002), aunque los orígenes de la misma se remontan a más allá de los filósofos helenísticos. Esta perspectiva centra su eje indicando que la emoción y el pensamiento son inseparables. Concretamente, indica que todas las emociones son enjuiciadas mediante una evaluación de los estímulos que las desencadenan. El proceso de evaluación consiste en determinar qué estímulos del entorno son considerados por el individuo como buenos o malos. Esta evaluación conlleva una tendencia a la acción que desemboca, finalmente, en una respuesta emocional. Esta perspectiva discrepa de la Jamesiana en que aquella no especifica mediante qué mecanismo se desencadena el cambio corporal al que hace referencia, que era la gran crítica de Arnold a James, y la complementa indicando que ese desencadenante es el proceso evaluador que introduce. Si James no podía concebir una emoción sin un cuerpo, Arnold no lo puede hacer sin una evaluación. Cada emoción se considera sujeta a un patrón diferente de evaluación y depende de cada uno de los individuos considerando variables tales como las características particulares de la persona, su aprendizaje, su temperamento, su personalidad, su estado psicológico y las condiciones específicas de la situación en la que se encuentra. De esta manera, el proceso de evaluación se encarga de informar al organismo de las características del entorno y proporciona el modo de actuar frente a ellas. 2.1.2.4. La Perspectiva Constructivista Social Esta perspectiva es la más reciente y también la más controvertida. Rehúsa asumir que las emociones son fruto de una adaptación al medio y afirma que son productos definidos por las reglas sociales del entorno. Son, por lo tanto, construcciones sociales y es la cultura la que juega un papel crucial en su estipulación. A diferencia de la perspectiva cognitiva en la que el proceso de evaluación, que depende de factores personales, es el desencadenante de la emoción, para la perspectiva constructivista es la cultura, en forma de reglas sociales, la que las define. Según Averill (1980) citado por Cornelius (2000), las emociones no se pueden considerar remanentes de un pasado psicogenético así como tam4 La cita original, en inglés, es: “(...) the more rational statement is that we feel sorry because we cry, angry because we strike, afraid because we tremble, and not that we cry, strike, or tremble, because we are sorry, angry, or fearful (...)” 14 2. Fundamentos poco pueden ser explicadas de forma estrictamente psicológica. Dado que las emociones son consideradas por esta teoría como construcciones sociales sólo pueden ser entendidas a partir de un análisis social. 2.1.3. La descripción de las emociones Existen diversas formas de definir y representar las distintas emociones. Podría parecer que la más sencilla fuera la de un modelo categórico consistente en crear un conjunto limitado de etiquetas que las describan creando un listado de emociones. Sin embargo, determinar el número de emociones de ese listado así como determinar cuáles son las fundamentales y cuáles no no es una tarea tan simple como puede parecer a simple vista. Esto da pie a la creación de otras representaciones alternativas como podrían ser los modelos circumplex o las representaciones multidimensionales. Tal y como ya se ha comprobado en el apartado anterior, no existe un consenso para determinar cuál es la definición de emoción más adecuada, y la elección del modelo de representación más conveniente dependerá tanto de la aplicación en la que se requiera el análisis emocional como de la teoría que se tome como base. 2.1.3.1. Listados de emociones básicas El concepto de emociones básicas (también conocidas como emociones plenas o primarias) es utilizado por muchas de las teorías sobre la emoción, especialmente aquellas que siguen las tradiciones Darwiniana y Jamesiana. Se consideran básicas por estar directamente ligadas a la supervivencia de los individuos en base a patrones evolutivos y, también, porque a partir de ellas se generan todas las demás mediante variaciones o combinaciones de las mismas. Al mismo tiempo, se pueden definir las emociones secundarias como emociones más complejas que se formarían como combinación de las básicas, de igual manera que los colores primarios se mezclan en una rueda de color para formar otros colores. Ahora bien, definir cuáles son estas emociones básicas no es tarea fácil, más cuando ni tan sólo los investigadores coinciden en su existencia real. No hay un criterio único para definir qué emociones forman este conjunto básico. Las cuatro emociones básicas más aceptadas generalmente son: alegría, tristeza, enfado y miedo, dado que se considera que están directamente ligadas a procesos biológicos. La mayor parte de las teorías emocionales coinciden en que hay un número inferior a diez emociones básicas, a pesar de que estudios más recientes (Cowie y Cornelius, 2003) definen un conjunto de entre diez y veinte emociones. Otros estudios, como los de Whissell (1989) o Plutchik (1980), amplían estos conjuntos incluyendo emociones básicas y secundarias llegando a crear listados que incluyen de 107 a 142 etiquetas emocionales, respectivamente. La tabla 2.1 contiene un listado de estas emociones según varios autores y su traducción al español. Aparecen remarcadas las cuatro emociones básicas anteriormente citadas, las cuales son comunes en los estudios referenciados. Cabe destacar el término The Big Six utilizado en Cornelius (2000), una ampliación de las cuatro emociones anteriores a un total de seis 2.1. Teoría de las emociones 15 definiendo un conjunto formado por: felicidad (happiness), tristeza (sadness), miedo (fear), asco (disgust), enfado (anger) y sorpresa (surprise). Uno de los principales problemas en la investigación intercultural es la traducción precisa de los términos emocionales. Las connotaciones particulares de cada término conllevan que no haya una solución satisfactoria para este problema. La traducción de los términos de la tabla 2.1 está realizada por Iriondo (2008) con la ayuda del estudio presentado por Scherer (1988), que recoge una lista de descriptores de la emoción en cinco lenguas indoeuropeas que es el resultado de la actividad de investigación de un equipo de psicólogos de diferentes países. La traducción mostrada en la última columna viene a representar, bajo una única etiqueta emocional, la fusión de los conceptos emocionales de los seis trabajos analizados por Cowie y Cornelius (2003). Como se puede comprobar, crea una nueva lista de 34 emociones básicas lo que muestra la complejidad que supone intentar discretizar el espacio emocional para representarlo mediante un conjunto limitado de etiquetas emocionales. Ekman (1999) propone el concepto de familias de emociones en lugar de definir una etiqueta para describir una emoción concreta, ya que considera que cada emoción no es un único estado afectivo sino una familia de estados relacionados. Cada familia se caracteriza por un tema que es fruto de la evolución y unas variaciones que son reflejo del aprendizaje. Ekman propone una lista con 15 familias de emociones mostradas en la segunda columna de la tabla 2.1. Así, por ejemplo, la familia Anger abarcaría emociones como enojo, enfado y rabia, todas con un tema común pero con diferentes matices fruto de elementos aprendidos previamente por los individuos. En la lista anterior hay muchos términos que describen estados relacionados con la emoción más que emociones en sí como, por ejemplo, los estados confiado, aburrido o relajado. Así pues, las teorías de las emociones se refieren, en su gran mayoría, a las emociones básicas mientras que las demás etiquetas emocionales describen combinaciones o variaciones de estas emociones básicas. Sin embargo, no existe un consenso acerca de cuáles deben ser consideradas emociones básicas. Las etiquetas mencionadas en esta sección son a menudo también referenciadas como categorías, etiquetas categóricas, etiquetas emocionales o clases. En la presente tesis todos estos términos se emplean como sinónimos. 2.1.3.2. Modelos circumplex Dada la dificultad de crear un listado único de emociones, es decir, de trabajar con una representación completamente discreta del universo emocional, se han creado otras representaciones alternativas que, aún y pudiendo ser discretizadas, se basan en una representación continua de ese universo. Así, algunos investigadores optan por representar las emociones mediante una estructura circular continua en la que pueden ubicarse las etiquetas emocionales principales. La proximidad de dos categorías representa 2. Fundamentos 16 Lazarus (Lazarus, 1999) Anger Fear Sadness/distress Ekman (Ekman, 1999) Anger Fear Sadness Buck (Buck, 1999) Anger Anxiety Happiness Fear Sadness Lewis-Haviland (Lewis y Haviland, 1993) Anger/hostility Disgust Pride Shame Guilt Embarrassment Love Banse-Scherer (Banse y Scherer, 1996) Rage/hot anger Irritation/cold anger Fear/terror Sadness/dejection Grief/desperation Worry/anxiety Happiness Elation (joy) Boredom/indifference Disgust Contempt/scorn Shame/guilty Amused Pleased Content Interested Worried Happy Afraid Sad Cowie et al. (Cowie et al., 1999) Angry Inquietud/preocupado Alegría/Felicidad/feliz Miedo/atemorizado Tristeza/triste Traducción española (Iriondo, 2008) Enfado/enfadado Confident Loving Affectionate Disappointed Excited Bored Relaxed Diversión/divertido Satisfacción/satisfecho Contento Interesado Curioso Sorprendido Ilusión/excitado Aburrido Relajado Quemado/estresado Asco Desprecio/desdén Orgullo Arrogancia Celos Envidia Vergüenza Culpabilidad Desconcierto Desilusionado Alivio Esperanza Confiado Amor/cariñoso Afectuoso Compasión Entusiasmo Indignación Estético Tabla 2.1: Emociones básicas según el listado de Cowie y Cornelius (2003) (en inglés) y su traducción al español, reproducidas de (Iriondo, 2008). Fright Sadness Anxiety Happiness Bored Burnt out Disgust Scorn Pride Arrogance Jealousy Envy Shame Guilt Pity Moral rapture Moral indignation Humour Sensory pleasure Amusement Satisfaction Contentment Excitement Disgust Contempt Pride Shame Guilt Embarrassment Relief Interested Curious Surprised Anxiety Happiness Disgust Pride Jealousy Envy Shame Guilt Relief Hope Love Compassion Aesthetic 2.1. Teoría de las emociones 17 emociones conceptualmente similares mientras que las emociones contrarias están ubicadas en posiciones diametralmente opuestas. En las posiciones intermedias aparecerían las combinaciones en diverso grado de las emociones adyacentes. Estos modelos reciben el nombre de modelos circumplex y se pueden equiparar a una rueda de color donde los colores primarios ocuparían posiciones maximalmente distanciadas y, entre ellos, aparecerían las combinaciones de los mismos. El primer modelo circumplex data de 1941, obra de Harold Schlosberg, obtenido al observar que los errores de reconocimiento de la expresión facial se correspondían a la confusión entre categorías adyacentes situadas sobre una circunferencia (Schröder, 2004). En 1958, Robert Plutchik propuso un modelo con ocho emociones básicas bipolares: alegría-aburrimiento, enfado-miedo, aceptación-asco y sorpresa-expectación. Una evolución de esta teoría lleva al modelo circumplex tridimensional de (Plutchik, 2001) representado en la figura 2.1, el cual se define por los siguientes aspectos: La distancia desde el centro de la figura hasta la etiqueta emocional representa la intensidad de la emoción. En los círculos concéntricos se representan las emociones según su grado de similitud de forma que las emociones similares están próximas y las opuestas están separadas diametralmente. Los ocho sectores representan las emociones básicas bipolares del modelo de Plutchik de 1958. En los espacios en blanco tienen cabida las emociones que son combinaciones de dos emociones primarias como, por ejemplo, el asco y la rabia para producir odio. En la figura 2.1 se puede observar que las emociones secundarias se definen mediante la combinación de las emociones primarias que ocupan posiciones adyacentes. Así, por ejemplo, el remordimiento se concibe como una mezcla de tristeza y aversión hacia la propia conducta. Además, variando la intensidad de las emociones se pueden obtener nuevos estados emocionales. De esta forma el temor puede ir desde una simple aprensión hasta un enorme terror. En la misma gráfica también se observa que hay emociones opuestas, como la tristeza y la alegría por ejemplo, que por el hecho de ocupar posiciones distantes no se pueden combinar. 2.1.3.3. Espacio multidimensional La creación de una lista de etiquetas para definir estados emocionales supone trabajar en un universo discreto y limitado al número de etiquetas creado. Por otra parte, los modelos circumplex muestran una relación entre los estados emocionales según su posición geométrica dentro de una representación continua pero no definen las emociones en sí. Una alternativa que pretende tratar con un universo continuo pero, al mismo tiempo, dar una interpretación tanto a las emociones como a la relación que existe entre ellas, 2. Fundamentos ism o tim op imism t op annoyance fastidio t mp nte io co prec s de anticipation expectación ecstasy éxtasis vigilance vigilancia anger enfado acceptance aprobación joy alegría interest i interés ag gr ag essiv res en ivid ess ad serenity serenidad lov am e or 18 disgust asco boredom tedio amazement asombro grief aflicción aw tem e or surprise sorpresa distraction confusión l va pro ción a ap dis prob sa de pensiveness melancolía apprehension aprensión fear miedo terror terror sadness tristeza rem rem ord orse im ien to ion ss mi ión b su mis su admiration admiración rage ira loathing odio trust confianza Figura 2.1: Modelo circumplex tridimensional de Plutchik y su traducción al español. Adaptado de (Plutchik, 2001) (en inglés). se puede encontrar en las representaciones basadas en espacios multidimensionales. En este tipo de modelos, los estados emocionales se representan como coordenadas de un espacio de dimensionalidad reducida. Existen numerosas investigaciones relacionadas con este tipo de representación y, tal y como ocurre con los modelos anteriores, la definición de este espacio no es sencilla y existen diversas alternativas. El principal punto clave es determinar cuántas y definir cuáles deben ser las dimensiones que definen ese espacio. La primera referencia a los modelos de espacios multidimensionales data de 1896 gracias al psicólogo alemán Wilhelm Wundt, y fueron empleados por vez primera en el ámbito del análisis emotivo facial por Schlosberg (1954). Cowie y Cornelius (2003) llevan a cabo una revisión histórica de las diferentes dimensiones que han considerado diversos autores. Schröder (2004), por su parte, lleva a cabo un estudio más amplio centrado en la descripción de los estados emocionales mediante espacios multidimensionales, presentando una perspectiva histórica y una descripción del significado de estas emociones y especificando 2.1. Teoría de las emociones 19 qué relación tienen con el comportamiento emotivo humano. En general, considerando diversos estudios, el número de dimensiones del espacio emocional se limita a dos o incluso tres. Sin embargo, la definición de cada una de estas dimensiones difiere de unos estudios a otros. No obstante, a pesar de las variaciones, muy a menudo estos ejes se refieren al mismo concepto pero empleando nomenclatura diferente para su definición. Los ejes pueden ubicarse en cualquier orientación del espacio pero siempre de forma ortogonal entre sí. Las tres dimensiones comúnmente empleadas son: Evaluación (también referenciada como agrado, valoración o valencia). Define un eje positivo-negativo clasificando las emociones según lo placentero o desagradable de las mismas. Por ejemplo: la alegría es una emoción positiva mientras que el enfado es una emoción negativa. Activación (o actividad). Define un eje activo-pasivo que indica la presencia o ausencia de energía o tensión. Por ejemplo, el enfado se ubica en la posición más activa del eje mientras que el aburrimiento se ubica en la posición más pasiva. Potencia (también referenciada como control o fuerza). Define una escala dominantesumiso o alta-baja la cual distingue emociones iniciadas por el sujeto de aquellas que son provocadas por el entorno. Por ejemplo, el desprecio se ubica en la posición más dominante, o alta, de la escala mientras que la sorpresa se ubica en la más sumisa, o baja. La dimensión de potencia no se estudia de manera tan habitual como las dos anteriores de forma que muy a menudo el espacio emocional se representa como una circunferencia en la que se definen los ejes vertical y horizontal como activación (activo-pasivo) y evaluación (positivo-negativo), respectivamente. Este modelo bidimensional se identifica como, simplemente, modelo de activación-evaluación. Dado que tanto las listas de etiquetas emocionales como los modelos dimensionales permiten la descripción de emociones, se puede realizar un mapeo entre ambos métodos de representación (Steidl, 2009). La figura 2.2 muestra la disposición de 80 estados afectivos en el espacio bidimensional de activación-evaluación según la reproducción que Steidl (2009) hace del trabajo de Scherer (2000). En la figura se antepone el concepto en inglés (en cursiva) a la traducción en español dado que, tal y como se ha comentado en la sección 2.1.3.1, en la traducción se pueden perder algunas sutilezas del término original. La disposición de los elementos en esta gráfica se obtiene de un escalado multidimensional basado en la matriz de similitud creada a partir de los juicios subjetivos de un conjunto de evaluadores humanos. Dado que estos evaluadores miden las similitudes de las 80 etiquetas emocionales dadas, la posición exacta de las mismas variaría si cambiara tanto su número como su especificación (Steidl, 2009). Existen otros modelos que, básicamente, consisten en el mapeo de otras etiquetas 20 2. Fundamentos ACTIVO adventurous / intrépido ● ● bellicose / belicoso hostile / hostil ● ● hateful / odioso ● envious / envidioso ● enraged / enfurecido ● defiant / desafiante ● lusting / lujurioso ● triumphant / victorioso ● self-confident / seguro ● courageous / bravo ● contemptuous / despreciativo ● ambitious / ● conceited / ambicioso envanecido feeling superior / crecido ● ● jealous / celoso disgusted / asqueado ● ● angry / enfadado ● indignant / ● convinced / loathing / repugnado ● indignado enthusiastic / convencido ● discontented / entusiasmado ● descontento suspicious / ● impatient / ● elated / exaltado ● light-hearted / ● determined / bitter / amargado ● ● receloso impaciente desenfadado resuelto ● insulted / ● amused / ● excited / ofendido divertido excitado ● passionate / ● joyous / jubiloso ● distrustful / apasionado desconfiado interested / ● expectant / startled / asustado ● ● interesado expectante ● bored / aburrido POSITIVO NEGATIVO disappointed / defraudado ● impressed / ● feel well / cómodo ● impresionado dissatisfied / ● apathetic / astonished / ● amorous / ● insatisfecho apático confident / asombrado ● cariñoso ● seguro ● taken back / retractado ● hopeful / esperanzado longing / ● relaxed / relajado ● anhelante ● attentive / ● solemn / cortés solemne ● content / satisfecho ● friendly / amable ● contemplative / pensive ● contemplativo / meditabundo polite ● / correcto peaceful / tranquilo ● ● serious / formal worried / ● intranquilo uncomfortable / incómodo ● ● despondent / feel guilty / culpable ● descorazonado languid ● ● ashamed / ● desperate / / lánguido avergonzado desesperado ● embarrassed / desconcertado ● melancholic / melancólico ● conscientious / concienzudo ● emphatic / enfático ● hesitant / vacilante sad / triste ● ● wavering / indeciso ● dejected / abatido ● lonely / aislado anxious / ● preocupado ● insecure / inseguro ● doubtful / dubitativo reverent / reverente ● PASIVO Figura 2.2: Mapeo de 80 etiquetas emocionales en el espacio bidimensional de activación (eje vertical: activo-pasivo) y evaluación (eje horizontal: positivo-negativo) y su traducción al español. Adaptado de (Scherer, 2000) según la reproducción de Steidl (2009) (en inglés). emocionales sobre este mismo espacio bidimensional. Tal y como se ha pretendido señalar a lo largo de estas líneas, no son mejores ni peores, tan solo consisten en alternativas o diferentes puntos de vista alrededor de un mismo asunto. Así, por ejemplo, también son representativos los modelos propuestos por Russell (1980), con el mapeo de 28 etiquetas emocionales, o el basado en la lista de 142 etiquetas de Plutchik (1980) cuyas coordenadas en el espacio de activación-evaluación se pueden consultar en (Cowie et al., 2001). A pesar de la importancia de las dimensiones anteriormente citadas, la especificidad de algunos trabajos determina, en ocasiones, definiciones alternativas más adecuadas que otras al problema estudiado. Así, por ejemplo, Batliner et al. (2008) propone el cambio de la dimensión de activación por la de interacción para abordar el análisis de emociones 2.2. Etiquetado subjetivo de estímulos 21 espontáneas5 . Este eje ubica las emociones dependiendo de si se dirigen a uno mismo (como por ejemplo en el caso de la alegría) o hacia los demás (como en el caso de la irascibilidad). Los modelos multidimensionales parecen solucionar los inconvenientes de los categóricos. Sin embargo, y tal como indican Cowie y Schröder (2005), ambos presentan ventajas e inconvenientes. Es cierto que trabajar con un listado de emociones puede resultar muy complejo cuando se consideran muchas etiquetas y que el modelo multidimensional permite solventar ese problema. Sin embargo, este último presenta dificultades para hacer distinciones significativas entre estados emocionales. Así, al reducir la dimensionalidad del espacio, se produce una pérdida de información y emociones dispares como miedo e ira quedan ubicadas en posiciones próximas (dado que ambas son de evaluación negativa y activación pasiva), mientras que en el modelo circumplex de Plutchik ocupan posiciones diametralmente opuestas. 2.2. Etiquetado subjetivo de estímulos Esta tesis está orientada al reconocimiento afectivo automático. Sin embargo, para poder realizar esta tarea es necesario disponer de un conjunto de datos convenientemente etiquetado. De esta forma, un conjunto de datos etiquetado se convierte en una fuente de información para que los algoritmos encargados de llevar a cabo la tarea de reconocimiento automático puedan aprender a identificar los distintos estados afectivos. Además, gracias al etiquetado de cada uno de los elementos de ese conjunto de datos, se puede realizar la comprobación de si la tarea automática realiza correctamente su cometido comparando la etiqueta asignada por el sistema y la que cada elemento lleva ya asignada. Sin embargo, realizar el etiquetado de los elementos de un conjunto de datos no es tan fácil como puede parecer a simple vista. Dejando a un lado los estímulos no procedentes de una reacción humana (como podrían ser, por ejemplo, fotografías o fragmentos de texto) y centrando el estudio dentro del ámbito de esta tesis (fragmentos de locuciones pronunciados por un individuo), el etiquetado de estos elementos depende a menudo de cómo se han realizado las grabaciones. Así, por ejemplo, si las grabaciones proceden de actores y son, por lo tanto, simuladas siguiendo un guion, entonces no hay inconveniente en afirmar, directamente, que cada locución se corresponde con la emoción que se le ha pedido al actor que represente. Aún en el caso de que se dudara de la capacidad interpretativa del actor encargado de la grabación, se podría realizar una limpieza del conjunto de datos eliminando aquellas locuciones que, de forma subjetiva, no lograran expresar la emoción que se requería6 . En el caso de que las grabaciones procedan de individuos a los cuales se les ha provocado de alguna forma una emoción a menudo es necesario recurrir 5 La mayor parte de los estudios de los que derivan las dimensiones anteriores se basan en corpus actuados, no espontáneos. 6 Este procedimiento se correspondería con un proceso de validación del corpus y supondría una evaluación subjetiva de cada locución del mismo. En la sección 5.2 se propone un esquema para automatizarlo. 22 2. Fundamentos al autoetiquetado (es decir, consultar al propio individuo la emoción que ha experimentado) o a la evaluación que un grupo representativo de personas hagan de la emoción que han observado. Esto es así porque, a pesar de haber pretendido provocar una determinada emoción, es posible que el individuo haya experimentado otra en un grado distinto al esperado. En este caso, el análisis de centra en el efecto y no en la causa que provoca la reacción del individuo, tal y como señalan Cowie et al. (2001). Recurrir a la evaluación subjetiva de un determinado estímulo, ya sea un fragmento de voz, una secuencia audiovisual, una fotografía, un texto o un estímulo de cualquier otra naturaleza, supone plantear cómo representar los estados afectivos para después identificarlos. Así, por ejemplo, se pueden emplear etiquetas categóricas para identificar las emociones, tal y como se planteaba en la sección 2.1.3.1 y en la sección 2.1.3.2. Por otra parte, se puede recurrir al empleo de los modelos dimensionales descritos en la sección 2.1.3.3. El empleo de etiquetas emocionales para describir las emociones supone una simplificación de la tarea dado que los evaluadores tan sólo deben seleccionar la etiqueta emocional que consideran que mejor describe el estado afectivo que se desprende del estímulo analizado. Sin embargo, una lista demasiado extensa de etiquetas puede complicar mucho esta tarea. Por otra parte, el empleo de modelos basados en espacios multidimensionales supone un mayor grado de conocimiento de las teorías emocionales por parte del evaluador. A pesar de todo, confiere una mayor libertad en comparación con el empleo de las etiquetas categóricas en tanto que, habitualmente7 , proporciona una forma de evaluar los estímulos en un universo continuo en lugar de discreto y, por lo tanto, también más limitado. 2.2.1. Etiquetado categórico La asignación de etiquetas a los estímulos sometidos a evaluación es, tal vez, el mecanismo más sencillo de implementar. No hace falta recurrir a herramientas informáticas para realizar un test a un grupo de evaluadores subjetivos dado que se puede llevar a cabo fácilmente en papel. Sin embargo, para gestionar las respuestas de muchos usuarios y, asimismo, permitir que una serie de estímulos pueda ser evaluada de forma no presencial por usuarios de diversas procedencias y/o en momentos de tiempo diferentes, se puede recurrir a herramientas que permitan la realización de test a través de Internet8 . No obstante, a menudo existe ambigüedad en el estado emocional asociado al estímulo evaluado y los test que limitan las respuestas a una serie de etiquetas predefinidas y exclusivas (conocidas como decisiones duras9 ) pueden confundir al evaluador y forzarlo a dar una respuesta inadecuada. Por ese motivo se pueden crear test en los que los evaluadores deban marcar valores numéricos, expresados en forma de porcentajes, para cada etiqueta emocional (conocidos como decisiones blandas10 ). Estos valores reflejarían el gra7 Habitualmente porque aunque los ejes dimensionales son naturalmente continuos estos se pueden discretizar para facilitar la tarea de los evaluadores. 8 Véase el apéndice B. 9 Del inglés, hard decisions. 10 Del inglés, soft decisions. 2.2. Etiquetado subjetivo de estímulos 23 do de seguridad en la respuesta ofrecida. La herramienta eTool (Steidl, 2009), por ejemplo, implementada para el etiquetado del corpus FAU Aibo (Steidl, 2009), permite que el evaluador pueda indicar este porcentaje para las diferentes etiquetas de las que dispone para realizar su tarea. 2.2.2. Etiquetado dimensional Existen varias herramientas que se basan en modelos multidimensionales para permitir la evaluación subjetiva de estímulos. Aunque no necesariamente, muchas de ellas están creadas con la idea de ser implementadas como herramientas informáticas aunque algunas se pueden adaptar para ser utilizadas en papel. En esta sección se destacan tres de estas herramientas: Feeltrace, la rueda de emociones Geneva y los Self-Assessment Manikins. 2.2.2.1. Feeltrace Feeltrace (Cowie et al., 2000) es una herramienta informática que permite la anotación del estado emocional de un individuo en tiempo real mientras percibe un estimulo audiovisual. Durante la reproducción del estímulo el usuario puede ir marcando puntos en la circunferencia del espacio de activación-evaluación mediante un cursor para su posterior análisis por lo que, de forma implícita, se almacena también una referencia temporal durante el etiquetado. Tal y como describen Cowie et al. (2001), para indicar al evaluador lo que significa cada posición del cursor en el espacio se incluyen varios indicadores. En primer lugar, los ejes se describen según las dimensiones de activación y evaluación por lo que, en los extremos de los mismos constan las leyendas “Muy activo” y “Muy pasivo”, y “Muy negativo” y “Muy positivo”, respectivamente. Por otra parte, el cursor toma un color diferente según su posición dentro de los ejes anteriores, según la escala rojo, amarillo, verde y azul para cada uno de los cuatro puntos de corte de la circunferencia con los ejes y la gradación de color correspondiente para posiciones intermedias. Asimismo, alrededor de la circunferencia del espacio de activación-evaluación aparecen etiquetas que describen las emociones asociadas a esa región del espacio. Por último, en el interior de dicha circunferencia, se incluye un conjunto de etiquetas seleccionadas de una lista procedente de un vocabulario básico de emociones en inglés (Cowie et al., 1999) ubicadas en sus coordenadas correspondientes. Según sus autores, esta herramienta tiene la misma potencia que un vocabulario de veinte palabras, con la ventaja de permitir estados intermedios y de hacer el registro de la evolución temporal de un estado emocional a otro. La figura 2.3 muestra esta herramienta incluyendo la traducción al español de las etiquetas emocionales. 24 2. Fundamentos MUY ACTIVO fear miedo surprise sorpresa irritated / irritado panicky / alarmado pleased / alegre cheerful / animado eager / ilusionado amused / divertido content / satisfecho antagonistic / contrario anger enfado resentful / ofendido critical / crítico possesive / posesivo suspicious / receloso MUY NEGATIVO joy alegría hopeful / esperanzado serene / sereno agreeable / amable depressed / decaído despairing / desesperado MUY POSITIVO delighted / encantado contemptous / despreciativo disgust asco anticipation expectación trusting / confiado pensive / meditabundo obedient / sumiso bored / aburrido sadness tristeza calm / tranquilo gloomy / mustio acceptance aprobación MUY PASIVO Figura 2.3: Herramienta Feeltrace (Cowie et al., 2000) utilizada para anotar la emoción de un estímulo audiovisual en un espacio bidimensional. Adaptado de (Cowie et al., 2001) (en inglés). 2.2.2.2. La rueda de emociones Geneva La rueda de emociones Geneva11 (Scherer, 2005) es una herramienta bastante similar a Feeltrace aunque presenta algunas diferencias notables. Esta herramienta no está orientada únicamente a su uso como herramienta informática, si bien es como principalmente se concibió. Las dimensiones representadas son control (alto-bajo) y valencia o evaluación (positivo-negativo, agradable-desagradable). Tal y como se muestra en la figura 2.4, en un círculo definido por los ejes anteriormente citados se distribuyen 16 familias emocionales creando 16 sectores circulares. En cada sector se ubican, desde el centro hasta los límites del sector, cuatro elementos en forma de círculos de color. Estos elementos muestran diferentes tonalidades cromáticas para cada familia emocional, así como distintos tamaños y saturaciones de color según la intensidad emocional representada. El tamaño de los círculos y la saturación del color decrece según disminuye su distancia al centro de la rueda representando una menor intensidad de emoción. 11 Geneva Emotion Wheel, del original, en inglés. 2.2. Etiquetado subjetivo de estímulos 25 ALTO CONTROL pride / orgullo anger / enfado contempt / desprecio elation / exaltación disgust / asco joy / alegría envy / envidia satisfaction / satisfacción DESAGRADABLE AGRADABLE relief / alivio guilt / culpa hope / esperanza shame / vergüenza fear / miedo interest / interés sadness / tristeza surprise / sorpresa BAJO CONTROL Figura 2.4: Rueda de emociones Geneva (Scherer, 2005). Adaptado de (Steidl, 2009) (en inglés). 2.2.2.3. Self-Assessment Manikin La técnica del Self-Assessment Manikin (SAM) (Lang, 1980) también está relacionada con los modelos dimensionales. SAM es una técnica de evaluación pictórica no verbal para medir las dimensiones de valencia, activación y control de un determinado estímulo en las escalas negativo-positivo, calmado-excitado y dominado-dominante, respectivamente. Mientras que Feeltrace es una herramienta orientada a su uso como software, SAM puede emplearse además como un test en papel. En este caso, la herramienta no permite el registro directo de la evolución temporal de los estados emocionales de los individuos pero su uso resulta más sencillo que Feeltrace. Con esta herramienta el usuario ha de marcar en tres escalas distintas, una para cada dimensión evaluada, la respuesta emocional que crea oportuna. Para simplificar la tarea se le proporcionan unos dibujos representativos de cada una de las escalas a evaluar. La figura 2.5 muestra la implementación de la técnica SAM, según la descripción gráfica que realizan Bradley y Lang (1994), en la herramienta de evaluación en línea de estímulos multimedia Testing platfoRm for mUltimedia Evaluation (TRUE) (Planet et al., 2008)12 . SAM, en tanto que tiene un fundamento gráfico, viene a solventar los problemas que se derivan de la escala diferencial semántica13 propuesta 12 13 Para una explicación detallada de la herramienta TRUE, consúltese el apéndice B. Semantic Differential Scale, del original, en inglés. 26 2. Fundamentos por Mehrabian y Russell (1974), en la que las tres dimensiones se evalúan a partir de las puntuaciones de 18 parejas de adjetivos en una escala de 9 posibles valores. A la incomodidad vinculada a la necesidad de tener que evaluar tantos elementos para un estímulo dado se añade la de emplear un sistema verbal, desarrollado originalmente en inglés, en individuos no angloparlantes o con un desarrollo lingüístico limitado (por ejemplo, niños y niñas o personas afásicas) (Bradley y Lang, 1994). Valencia (negativo - positivo) 1 2 3 4 5 6 7 8 9 8 9 8 9 Activación (calmado - excitado) 1 2 3 4 5 6 7 Control (dominado - dominante) 1 2 3 4 5 6 7 Figura 2.5: Self-Assessment Manikin (SAM). Figura adaptada de su implementación en la herramienta TRUE (Planet et al., 2008) según la descripción gráfica de Bradley y Lang (1994). 2.3. Expresión y percepción de emociones No cabe duda de la importancia de la expresividad emocional —y en consecuencia, también del reconocimiento emocional— en la comunicación humana. Son muchos los estudios que han investigado cómo la emoción afecta a diferentes aspectos del comportamiento humano, tal y como se refleja en el resumen realizado por Bartneck (2000), el cual recoge experimentos y resultados relacionados con las emociones a nivel facial, vocal, musical y de gestualidad corporal. Un ejemplo de la importancia de las emociones en la comunicación puede detectarse en la convergencia que se produce, de manera prácticamente involuntaria, entre dos interlocutores que sostienen una comunicación. Dos individuos que están en sintonía y quieren expresarlo convergen en una serie de parámetros vocales (Giles y Smith, 1979) mientras que, por el contrario, si esa convergencia no se produce, los agentes de la comunicación muestran indiferencia o distanciamiento (Cowie et al., 2001). 2.3. Expresión y percepción de emociones 27 En el proceso comunicativo humano se pueden distinguir dos canales diferenciados (Cowie et al., 2001): Canal explícito: destinado a la comunicación del mensaje en sí mismo. Canal implícito: destinado a la comunicación de información acerca de los agentes involucrados en el proceso. Si bien es cierto que el contenido explícito de un mensaje puede transmitir información del estado emocional del individuo muchas veces es necesario recurrir al canal implícito para obtener dicha información. En cierto modo, podemos afirmar que ambos canales interactúan de forma que el canal implícito indica a los receptores cómo deben interpretar el mensaje que se transmite a través del canal explícito (Cowie et al., 2001). Un ejemplo para ilustrar esta afirmación se puede encontrar en los chistes o en los diálogos sarcásticos, en los que la información del canal implícito confiere un significado completamente distinto al que se derivaría de la interpretación exclusiva del mensaje del canal explícito. Tal y como se ha explicado en la sección 2.1.2, las emociones desencadenan una serie de cambios fisiológicos que predisponen a la acción. La siguiente sección explica algunos de estos cambios a nivel fisiológico general. A continuación se detallarán los distintos elementos que componen la comunicación humana para dar paso, en las dos secciones posteriores, a la explicación de los efectos de la expresión emocional en la voz y cómo estos se reflejan también en la interpretación musical. 2.3.1. Reacciones fisiológicas relacionadas con la emoción Goleman (1995) hace hincapié en la consideración de las emociones como impulsos para la acción y señala una serie de cambios fisiológicos relacionados con ellas descritos como predisposiciones biológicas que afectan, directa o indirectamente, a diversas funciones del organismo. La siguiente lista resume estas predisposiciones para emociones básicas que, como se puede comprobar, está muy ligada a los postulados de Darwin y su teoría evolutiva basada en la supervivencia: Enfado: aumenta el flujo sanguíneo en las manos, el flujo cardíaco y la cantidad de adrenalina en la sangre. Ello facilita la agresión manual al oponente así como la acometida de acciones enérgicas. Al igual que en el caso del miedo, se activa el sistema nervioso simpático14 preparando el organismo para la acción. 14 Parte del sistema nervioso autónomo que mantiene los mecanismos homeostáticos del organismo y lo prepara, en caso de necesidad, para emprender una acción de forma inmediata aumentando la frecuencia cardíaca o estimulando las glándulas suprarrenales, por ejemplo. 28 2. Fundamentos Miedo: aumenta el flujo sanguíneo en la musculatura esquelética larga (y lo disminuye, en consecuencia, en el rostro ocasionando palidez) y la tasa hormonal en sangre, lo que facilita la huida e induce inquietud y un estado de alerta. La atención se fija en el estímulo que sirve de amenaza y se percibe cierta rigidez y parálisis inicial y temporal que facilita la evaluación de la situación. Se produce la activación del sistema nervioso simpático. Felicidad: se estimula el centro cerebral encargado de inhibir sentimientos negativos y estados de preocupación, aumentando la energía. Esto favorece un estado de tranquilidad, reposo y entusiasmo para emprender acciones. Amor: se activa el sistema nervioso parasimpático15 que induce un estado de relajación y de disminución del estrés que afecta de forma generalizada a todo el cuerpo. La sensación de calma y satisfacción favorece la convivencia. Sorpresa: los ojos se abren (produciendo un característico arqueo de cejas) para permitir una mayor entrada de luz en la retina y un aumento del campo visual. Asco: en la expresión facial asociada al asco se frunce la nariz para cerrarla y evitar un olor desagradable y se ladea, al mismo tiempo, el labio superior para favorecer la expulsión de un alimento tóxico del aparato digestivo. Tristeza: disminuye la energía y el entusiasmo por actividades vitales, sobre todo las relacionadas con la diversión y el placer, y el metabolismo corporal se ralentiza. Esta respuesta facilita la evaluación de la situación que ha provocado este estado emocional y la planificación de la actividad una vez superada. Estas reacciones fisiológicas repercuten también en la musculatura y en los órganos relacionados con el aparato fonador provocando cambios en la voz del individuo que está experimentando un estado emocional concreto. Sin embargo, también conllevan cambios en otros componentes de la comunicación. La siguiente sección detalla cuáles son los componentes de la comunicación antes de profundizar, en las secciones subsiguientes, en el efecto de la emoción en la voz y su expresión musical. 2.3.2. Elementos multimodales de la comunicación Dado que la emoción va ligada a una serie de cambios fisiológicos, estos cambios influyen de forma directa e indirecta en la comunicación. Ahora bien, el proceso comunicativo se establece a varios niveles y, por lo tanto, la expresión emocional se manifiesta de distintas formas. La figura 2.6, según Payrató (2005) a partir de Hinde (1972), muestra los componentes del proceso comunicativo a nivel vocal y no vocal. 15 El sistema nervioso parasimpático es parte del sistema nervioso autónomo cuya funcionalidad es complementaria a la del sistema nervioso simpático. Su tiempo de respuesta es inferior a la de su complementario dado que su función no es la de dar una respuesta inmediata a un estímulo. Se encarga del restablecimiento de la energía corporal. 2.3. Expresión y percepción de emociones 29 Reflejos Comunicación vocal Verbal Cualidad de la voz Lingüística Prosódica Locutiva No segmental Paralingüística Comunicación no vocal Gestos Figura 2.6: Componentes a nivel vocal y no vocal de la comunicación humana. Adaptado de (Payrató, 2005). En la figura 2.6 el concepto reflejos hace referencia a actividades como, por ejemplo, toser y cualidad de voz se refiere a características propias del individuo. Asimismo, la prosodia agrupa el tono, la intensidad y la cantidad, tal y como se detallará en la sección 2.3.3. Finalmente, la paralingüística incluye los componentes tanto vocales como no vocales que completan la modalidad verbal. Por otra parte, y considerando los aspectos expresivos y receptivos de la comunicación, podemos distinguir distintas modalidades básicas en el proceso comunicativo humano. Estas modalidades aparecen reflejadas en la figura 2.7, según la adaptación de Payrató (2005) del original de Heinemann (1980). En la figura 2.7 se destaca la proxemia como la gestión del espacio que rodea a los interlocutores y su entorno en lo que se refiere a sus características físicas, tales como su apariencia o su vestuario. Los sentidos auditivo y visual se consideran “sentidos a distancia” en tanto que proporcionan información de los objetos desde lejos, y tradicionalmente se han conocido como “sentidos nobles”. Como “sentidos de proximidad” se consideran el tacto y el gusto. El olfato se situaría en un punto intermedio entre ambas categorías y, junto con los dos anteriores, formaría parte del conjunto conocido tradicionalmente como “sentidos inferiores”. Debe considerarse, sin embargo, que los conceptos que se están presentando a lo largo de esta sección no siempre pueden distinguirse claramente los unos de los otros pues, a menudo, comparten ciertas características definitorias o se corresponden con fenómenos que se dan de forma combinada e incluso, en ocasiones, de forma inseparable. Por ejemplo, el gesto realizado con el dedo índice señalando un objeto mientras se pronuncia la frase “Acércame eso, por favor” sería un ejemplo de submodalidad no verbal sincronizada con una submodalidad verbal. En cuanto a la gestualidad, se pueden distinguir como principales fuentes de producción de señales la gesticulación manual, la gesticulación facial, los movimientos de la cabeza, los movimientos oculares y la postura corporal. La clasificación de los gestos más extendida se debe al trabajo publicado por Ekman y Friesen (1969), en el cual se distinguen cinco categorías de actos no verbales: 30 2. Fundamentos Vocal Verbal No vocal No verbal Sentido auditivo Gestualidad Contacto corporal Proxemia Sentido visual Aspectos del entorno Sentidos de proximidad Figura 2.7: Modalidades del proceso comunicativo humano. Adaptado de (Payrató, 2005), según el original de Heinemann (1980). Emblemas: gestos que pueden ser traducidos directamente al lenguaje verbal puesto que tienen un significado inequívoco y muy ligado al ámbito cultural. Ilustradores: complementan el mensaje verbal, del cual dependen. Reguladores: destinados a la gestión de la comunicación, facilitando el intercambio de turnos entre los diferentes interlocutores. Adaptadores: gestos de contacto con uno mismo, objetos u otros interlocutores. Manifestadores de estados anímicos: expresión de emociones. Dado que el proceso comunicativo se establece en varios niveles, tal y como se ha constatado en las líneas anteriores, la expresión emocional se muestra también en aspectos diversos. De las diferentes modalidades en las que puede manifestarse la emoción, en la siguiente sección se hace hincapié en las relacionadas con el habla. 2.3.3. Parámetros del habla relacionados con la emoción A pesar de que como se ha explicado en la sección 2.3.2 la comunicación es un proceso multimodal y, por lo tanto, la expresión emocional puede hallarse en estas múltiples modalidades, el habla por sí sola también es capaz de transmitir estados afectivos. Así, por ejemplo, los agentes de una conversación telefónica son capaces de diferenciar sus 2.3. Expresión y percepción de emociones 31 emociones a pesar no ver sus expresiones faciales o sus gesticulaciones corporales. Cabe destacar, sin embargo, que aunque el componente afectivo del habla es principalmente de naturaleza no-léxica, hay otros factores en ella, tales como el contexto o el contenido del mensaje, que son también importantes en lo que a contenido emocional se refiere. Para entender cómo la emoción puede afectar al habla se ha de comprender cómo esta se produce. La figura 2.8 muestra, de forma esquemática, el tracto vocal. De forma muy básica, la voz se genera cuando el aire es expulsado de los pulmones y llega a la laringe tras atravesar la tráquea. En la laringe se encuentran cuatro pliegues vocales16 a pesar de que sólo dos de ellos, los inferiores, son los relacionados con la producción de la voz. Cuando estos pliegues están abiertos el aire fluye libremente a través del orificio que crean. Sin embargo, cuando se contraen y se juntan, el aire choca contra ellos y la fricción los hace vibrar. La frecuencia de esta vibración determina la frecuencia fundamental de la señal de voz y es, por lo tanto, de la flexibilidad de estos pliegues que depende el rango vocal. Al mismo tiempo, esta vibración también genera un espectro de armónicos17 que se filtra en el tracto vocal creándose los diferentes sonidos. Además se produce una amplificación de la señal de voz dado que el sonido producido por los pliegues vocales es de baja intensidad. Asimismo, la fricción del aire a su paso por el tracto vocal crea otras componentes aperiódicas según la morfología que presente. Esto crea, por ejemplo, los sonidos sordos o los sonidos consonánticos, debidos a interrupciones totales o parciales del flujo de aire. De esta forma, los sonidos oclusivos, por ejemplo, se deben a un cierre del flujo del aire seguido de una explosión18 . La evolución temporal de este proceso genera una onda acústica que se conoce como la señal de voz. Las múltiples variaciones y combinaciones de los sonidos generados son las que permiten la formación de palabras y la transmisión de un mensaje definido. La prosodia es la rama de la lingüística que trata los elementos de la expresión oral y la formación de las palabras. En este sentido, los principales rasgos prosódicos del habla son: las variaciones en la intensidad y en la frecuencia fundamental, la duración de los sonidos y la posición y la duración de las pausas (Llisterri et al., 2004). La función de la prosodia es, principalmente, lingüística. Así, por ejemplo, es la que permite la distinción entre una frase enunciativa y una frase interrogativa, sin ser necesaria la interpretación del contenido de la frase. Sin embargo, el habla también muestra variaciones prosódicas y de timbre con funciones que no pueden considerarse estrictamente lingüísticas. Se distinguen dos funciones de la prosodia, además de la lingüística anteriormente comentada (Escudero, 2003): Paralingüística: complementa el mensaje con una intención determinada, reflejando una actitud o un estado afectivo del hablante. Extralingüística: aporta información acerca de las características del hablante, tal como su edad, su sexo, su estatus social, etc. 16 Pliegues vocales es el nombre anatómico que reciben las comúnmente conocidas como cuerdas vocales. El espectro de armónicos está formado por señales a frecuencias múltiples de la frecuencia fundamental. 18 Por ejemplo, al unir y separar bruscamente los labios. 17 32 2. Fundamentos Paladar duro Lengua Paladar blando Cavidad nasal Cavidad oral Faringe Labios Epiglotis Abertura de la laringe hacia la faringe Laringe Mandíbula Hueso hioides Pliegues vocales Tráquea Esófago Figura 2.8: Modelo esquemático del tracto vocal. Las principales propiedades acústicas (tanto prosódicas como no prosódicas) de los sonidos del habla que se relacionan con la expresividad vocal se detallan en el siguiente listado (Iriondo, 2008), según su relación con la melodía19 , la intensidad, los aspectos temporales del habla o el timbre: Propiedades relacionadas con la melodía: • Frecuencia fundamental (F0): resultado de la vibración de los pliegues vocales. Se define como el ciclo periódico de la señal de voz. Su unidad de medida habitual es el hercio (Hz), que mide el número de ciclos por segundo. • Curva de F0 o curva melódica: es la secuencia de valores de F0 para un fragmento de voz y se relaciona con la percepción de la entonación del habla. • Jitter: ligera perturbación en la F0 debida a fluctuaciones en los tiempos de apertura y cierre de los pliegues vocales entre dos ciclos consecutivos. Propiedades relacionadas con la intensidad: • Intensidad: medida de la energía de la señal acústica. Su unidad de medida habitual es el decibelio (dB), que se corresponde con una transformación logarítmica de la amplitud de la señal para representar mejor la percepción humana del sonido. 19 La melodía (pitch, en inglés) es el fenómeno que se relaciona con la curva de Frecuencia fundamental (F0) de un grupo fónico (entendiendo por grupo fónico la porción del discurso comprendida entre dos pausas) (Garrido, 1991). No debe confundirse con la entonación, dado que esta es un fenómeno lingüístico relacionado con la sensación perceptiva producida por la variación de la F0, la amplitud y la duración. 2.3. Expresión y percepción de emociones 33 • Shimmer: ligera perturbación en la intensidad debida a fluctuaciones en la amplitud entre dos ciclos consecutivos. Propiedades relacionadas con los aspectos temporales del habla: • Velocidad del habla: se puede medir a partir de la duración de los segmentos del habla o como el número de unidades lingüísticas por unidad temporal (por ejemplo, número de palabras por minuto o número de sílabas por segundo). • Pausas: representan el número y la duración de los silencios que se producen en la señal de voz20 . Propiedades relacionadas con el timbre: • Energía de alta frecuencia: proporción relativa de la energía de la señal acústica que sobrepasa una frecuencia de corte respecto a la energía total de la señal. • Frecuencias de los formantes: regiones de frecuencia que presentan una alta concentración de energía espectral y que reflejan las resonancias naturales del tracto vocal. Habitualmente se representan por la frecuencia central de la región y su ancho de banda. • Precisión en la articulación: mide la desviación de las frecuencias de los formantes en las vocales desde las frecuencias formantes neutras (Juslin y Laukka, 2003). Tanto el jitter como el shimmer no se asocian a propiedades prosódicas, a pesar de estar estrechamente relacionadas con la F0 y la intensidad, respectivamente, sino que se suelen asociar con las propiedades del timbre. El grupo formado por las propiedades del timbre, el jitter y el shimmer recibe el nombre de Voice Quality (VoQ)21 (véase la sección 3.3.1.1). Murray y Arnott (1993) presentan un resumen de diversos estudios para investigar la correlación existente entre habla y emoción, concluyendo que existen claros efectos vocales en algunas emociones. La tabla 2.2 muestra un resumen de estos efectos según la traducción al español de Iriondo (2008). La descripción de los efectos está referida a un estilo neutro. Sin embargo, la cuantificación que se realiza de los efectos es bastante imprecisa. La figura 2.9 ilustra a través de cuatro ejemplos, y sin pretender extraer conclusiones cuantitativas, cómo la emoción influye en el habla. En la figura se muestra la forma de onda y el espectrograma de cuatro fragmentos de voz extraídos del corpus BDP-UAB 20 Hace referencia a las pausas vacías (empty pauses, en inglés) que se realizan para respirar. Las pausas vacías difieren de las pausas llenas (filled pauses, en inglés) en que en estas últimas sí existe sonido y se relacionan con la planificación del discurso (Puigví et al., 1994). 21 Cualidad de la voz, en inglés. 34 2. Fundamentos Tabla 2.2: Resumen de los efectos de las emociones en el habla, según la traducción de Iriondo (2008) del original de Murray y Arnott (1993) (en inglés). Velocidad del habla Promedio de F0 Rango de F0 Cualidad de la voz Cambios de F0 Articulación Miedo Ligeramente más rápida Mucho más alto Más amplio Jadeante Alegría Más rápida o más lenta Más alto Más amplio Estrepitosa Tristeza Ligeramente más lenta Ligeramente más bajo Ligeramente más estrecho Resonante Abruptos en sílabas tónicas Suaves inflexiones ascendentes Inflexiones descendentes Tensa Normal Arrastrada Enfado Mucho más rápida Mucho más alto Más amplio Sonoridad irregular Normal Precisa Asco Mucho más lenta Mucho más bajo Ligeramente más amplio Ruidosa Amplios, inflexiones descendentes finales Normal (Iriondo et al., 2009)22 correspondientes a los estilos neutro (carente de emoción), agresivo, alegre y triste. Tal y como se ha expuesto hasta ahora, se puede comprobar como, con respecto a los demás estados emocionales, el habla triste presenta silencios más prolongados y, en general, un nivel de energía bajo. Además, la energía se acumula en la parte baja del espectrograma lo que indica un tono menor. El estilo agresivo presenta una forma de onda más escarpada, en comparación con los estados neutro y alegre, y también variaciones más bruscas en el espectrograma. El estilo alegre, en este caso, se asemeja bastante al agresivo, y difiere del neutro, entre otros rasgos, en una duración bastante inferior de los silencios entre palabras. A diferencia de Murray y Arnott (1993), existen otros trabajos que presentan descripciones más específicas como los desarrollados por Mozziconacci (1998), que cuantifica parámetros de melodía y velocidad en forma de porcentaje respecto al estado neutro; Rodríguez et al. (1999), que presentan un modelo para la expresión emocional del habla en castellano con el objetivo de mejorar la naturalidad del habla sintética en sistemas de conversión de texto a voz con requerimientos emocionales específicos, siendo validado posteriormente por Iriondo et al. (2000); Cowie et al. (2001), que incluyen un análisis de 14 estados emocionales caracterizados por una descripción cualitativa de las características del habla organizadas en cinco categorías: acústica, contorno melódico, tono, VoQ y otros, recopilando las conclusiones de diversos autores; o Juslin y Laukka (2003), que presentan un análisis de 104 estudios relacionados con la expresión vocal y 41 estudios acerca de la interpretación musical para comprobar si ambas modalidades transmiten emociones de forma similar, estudiando cinco categorías emocionales y comprobando que las emociones de tristeza y enfado son las mejor decodificadas (también a nivel transcultural) mientras que, a diferencia de lo que sucede en estudios de expresividad facial, la alegría es la menos identificada entre distintas culturas. 22 Véase la sección 3.4.2 para una descripción detallada de este corpus. 2.3. Expresión y percepción de emociones 35 NEUTRO AGRESIVO Amplitud 0.5 0 0 -0.5 -0.5 8000 8000 6000 6000 Frecuencia Frecuencia Amplitud 0.5 4000 2000 0 0.5 1 1.5 2 Tiempo 2.5 4000 2000 0 3 0.5 1 1.5 Tiempo TRISTE ALEGRE Amplitud 0.5 0 0 -0.5 -0.5 8000 8000 6000 6000 Frecuencia Frecuencia Amplitud 0.5 4000 2000 0 2.5 2 0.5 1 1.5 2 2.5 Tiempo 3 3.5 4 4.5 4000 2000 0 0.5 1 1.5 Tiempo 2 2.5 Figura 2.9: Formas de onda y escpectrogramas de cuatro locuciones habladas procedentes del corpus BDP-UAB. Cada locución se corresponde con un estilo neutro, agresivo, alegre y triste (en el sentido de las agujas del reloj). 2.3.4. La percepción musical A pesar de que la música conlleva un potente contenido emocional, expresar emociones a través de ella no es sencillo dado que su percepción depende de la cultura, las habilidades del intérprete y de la edad del oyente (Bartneck, 2000). Scherer y Oshinsky (1977) argumentan que la mayor parte de las variaciones emotivas de la música se pueden crear por modificaciones de amplitud, melodía (nivel, variación y contorno), tempo, curva y filtrado, y afirman, además, que existe un paralelismo entre esta afirmación y lo que sucede en la expresión emocional en el habla. Juslin (1997) recopila una serie de parámetros musicales relacionados con cinco emociones y, posteriormente, analiza la similitud entre las propiedades acústicas de la expresión vocal y las de la interpretación musical (Juslin y Laukka, 2003). Sus conclusiones se resumen en la tabla 2.3. 36 2. Fundamentos Tabla 2.3: Resumen de las propiedades acústicas de la expresión vocal y la interpretación musical de cuatro emociones según la traducción de Iriondo (2008) del original de Juslin y Laukka (2003). Emoción Enfado Miedo Alegría Tristeza Propiedades acústicas (expresión vocal/interpretación musical) Velocidad/tempo rápida/o, intensidad/nivel de sonido fuerte, alta variabilidad de intensidad/nivel de sonido, alta energía de alta frecuencia, alto nivel de F0/tono, alta variabilidad de F0/tono, contorno ascendente de F0/tono, rápido inicio de voz/ataque Velocidad/tempo rápida/o, intensidad/nivel de sonido baja/o (excepto en pánico), alta variabilidad de intensidad/nivel de sonido, baja energía de alta frecuencia, alto nivel de F0/tono, poca variabilidad de F0/tono, contorno ascendente de F0/tono Velocidad/tempo rápida/o, intensidad/nivel de sonido media/o a fuerte, energía media de alta frecuencia, alto nivel de F0/tono, alta variabilidad de F0/tono, contorno ascendente de F0/tono, rápido inicio de voz/ataque Velocidad/tempo lenta/o, intensidad/nivel de sonido baja/o, poca variabilidad de intensidad/nivel de sonido, pequeña energía de alta frecuencia, bajo nivel de F0/tono, poca variabilidad de F0/tono, contorno descendente de F0/tono, lento inicio de voz/ataque 2.4. Resumen En este capítulo se han explicado las principales teorías de la emoción haciendo hincapié en la función de las mismas en el proceso comunicativo humano. Comparando las teorías de diversos autores se aprecia un elemento común que muestra la “tendencia a la acción” vinculada al concepto “emoción”. Sin embargo, y a pesar de que la emoción es un pilar fundamental de la comunicación, es difícil conseguir una única descripción para este concepto y, mucho menos, determinar un conjunto específico de emociones básicas. A grandes rasgos, existen los listados de emociones que crean conjuntos de etiquetas categóricas para describir cada una de las emociones que consideran; también existen los modelos circumplex que describen las relaciones entre las emociones de manera análoga a los colores de una rueda cromática; y los modelos multidimensionales que establecen un espacio de dimensionalidad reducida para definir las emociones humanas. Una tarea importante cuando se trabaja con elementos que deben ser descritos en base a conceptos emocionales es el etiquetado previo de los mismos. En función del modelo escogido para representar las emociones estudiadas se puede realizar un etiquetado categórico o un etiquetado dimensional. Si bien el primero puede ser muy sencillo, al aumentar el número de categorías emocionales el proceso puede resultar complicado. El etiquetado dimensional pretende solventar ese inconveniente trabajando en un espacio continuo pero, a su vez, requiere de un conocimiento previo por parte del evaluador de ciertos fundamentos teóricos relacionados con las emociones. Sin embargo, algunas herramientas como SAM pretenden paliar ese inconveniente. Más allá de los modelos escogidos para la definición, descripción y representación de las emociones lo cierto, y resulta claramente observable, es que van ligadas a reaccio- 2.4. Resumen 37 nes fisiológicas en el organismo. Sea cual sea la función que desempeñen —lo cual, tal y como se ha visto en este capítulo, varía según el autor consultado—, estas reacciones fisiológicas inciden en los diversos aspectos de la comunicación, entendiéndola como una actividad multimodal que involucra diversos componentes y sentidos. El habla es uno de estos componentes y, además, es uno de los que por sí solos pueden transmitir emociones en un oyente. De manera similar a la música, el habla presenta una serie de variaciones en sus parámetros que evolucionan en función del estado emocional del hablante. 38 2. Fundamentos Capítulo 3 Corpus y parametrización A lo largo de este capítulo se describen cuáles son las consideraciones generales para crear un corpus de voz con colorido emocional y qué tipos de expresiones vocales pueden considerarse para su diseño, desde la voz natural (la más realista) a la actuada (la que presenta más facilidades para el control de la grabación). También se explican los distintos parámetros que pueden ser extraídos de las locuciones de los corpus para su posterior análisis mediante algoritmos de aprendizaje automático, tanto a nivel acústico como a nivel lingüístico. Finalmente, en la última sección del capítulo, se describen los tres corpus que serán analizados en esta tesis y se detallan los parámetros que se extraen de los mismos. 3.1. Consideraciones generales Grabar un corpus de voz no es una tarea sencilla. Más allá de una simple recopilación de grabaciones de voz, la creación de un corpus de voz con contenido emocional está sujeta a diferentes consideraciones. Douglas-Cowie et al. (2003) destacan, según cita Iriondo (2008), cuatro aspectos importantes que se deben tener en cuenta: Ámbito. Se trata de considerar qué cubre el conjunto de grabaciones en cuanto a número de locutores, edad, sexo, idioma, estados emocionales, etc. Este aspecto es de crucial relevancia para la generalización de los estudios posteriores y depende, en parte, de la aplicación a la que va orientada el corpus. Así, por ejemplo, en un corpus de síntesis de voz puede ser suficiente un único locutor mientras que para uno de reconocimiento se necesita una mayor variedad de grabaciones. En cuanto a las emociones consideradas, escoger emociones plenas o estados emocionales de diversa intensidad (véase la sección 2.1.1) depende del autor de cada estudio y no existe un claro consenso al respecto. Naturalidad. La naturalidad de las grabaciones depende de cómo se realicen. Se 39 40 3. Corpus y parametrización puede optar por escoger un actor o una actriz que representen estados emocionales concretos o bien recopilar grabaciones de emociones espontáneas. Por supuesto, la grabación de emociones actuadas supone un mayor control de las condiciones de grabación pero su autenticidad puede quedar en entredicho (véase la sección 3.2). Contexto. Complementa el estado emocional que el receptor percibe. Se diferencian cuatro formas básicas de contexto: • Semántico: el contenido emocional se halla en determinadas palabras. • Estructural: las emociones las determinan patrones específicos de pronunciación. • Intermodal: la expresión emocional se sustenta en la expresión facial, los gestos y la postura. • Temporal: las emociones se reconocen en los cambios acústicos que se producen en determinados instantes de tiempo. Descriptores. Deben representar el contenido lingüístico y el emocional, cubriendo todas las características que se relacionan con la expresión vocal de los estados emocionales. En función de la naturaleza de cada una de estas características se puede optar por una representación cualitativa o cuantitativa. Además, existe una estrecha relación entre los estudios de habla y emoción y las aplicaciones en las que se pretenden utilizar. Así pues, los cuatro factores antes detallados deberán ser los adecuados para la aplicación a la que se destine el corpus. Schröder (2004) ilustra el proceso de inferencia de emociones entre los dos agentes de una comunicación, tal y como se muestra en la figura 3.1, diferenciando dos tipos de estudios según se centren en la expresión emocional por parte del hablante o en la percepción de las emociones por parte del oyente: Estudios que se centran en el hablante: se refieren, en general, al reconocimiento de emociones del locutor a partir del análisis de la señal de voz en base a un conjunto de parámetros cuantificables del habla. El gran reto, según Devillers et al. (2005), es discernir cuáles son los parámetros realmente atribuibles a la emoción y no a las propias características de la conversación. Estudios que se centran en el oyente: se refieren al modelado de los parámetros del habla para que transmita un determinado estado emocional. Por supuesto, resulta fundamental la descripción que se haga de cada uno de estos estados emocionales y es crucial determinar cuáles son estos parámetros antes de proceder a su estudio. Así, los corpus destinados a síntesis de voz y, por lo tanto, centrados en el oyente, acostumbran a ser corpus extensos, de varias horas de duración, para cuya grabación se recurre a un actor o actriz profesional que leen un conjunto de textos. Estos textos pueden 3.2. Métodos para la generación de habla emocional 41 Habla Emoción expresada Estudios centrados en el hablante Expresión facial Gestualidad corporal Estudios centrados en el oyente Emoción percibida Estudios de codificación Figura 3.1: Clasificación de los estudios sobre habla y emoción según el foco de interés. Adaptado de (Iriondo, 2008). ser neutros (carentes de contenido emocional en su semántica), repetidos para cada emoción, o bien pueden ser textos con contenido emocional. Los primeros hacen más fácil la comparación dado que la única diferencia es la componente emocional en la señal de voz, que es precisamente la que se está analizando. Por el contrario, los segundos facilitan la tarea de locución de los actores en el momento de la grabación Iriondo (2008). Sin embargo, los corpus destinados a reconocimiento emocional y, por lo tanto, centrados en el hablante, acostumbran a ser de una naturaleza más diversa, como puede comprobarse en la variedad de estudios de reconocimiento afectivo existentes (véase el capítulo 4). 3.2. Métodos para la generación de habla emocional Existen diversos métodos para registrar fragmentos de habla emocionada. Evidentemente, recurrir a actores para que simulen un estilo específico de habla parece lo más sencillo pero diversas cuestiones pueden poner en entredicho la naturalidad conseguida mediante este sistema. Aunque el uso de actores es un escenario ideal en cuanto a que ofrece el máximo control del contenido del corpus y de las condiciones de grabación, Douglas-Cowie et al. (2005) señalan que se pierde información relevante que sí está presente en escenarios reales y cotidianos. Esto puede ocasionar una degradación en los resultados de sistemas de reconocimiento automático en el momento de aplicar los modelos extraídos en un escenario real (Grimm et al., 2007). Es por ello que existen diversos métodos para generar voz emocionada teniendo en cuenta siempre los factores de naturalidad y control de la grabación. Campbell (2000) propone cuatro estrategias para generar habla con una determinada coloración emocional, las cuales también se citan por Schröder (2004) y Steidl (2009), y se describen en las secciones siguientes. 3.2.1. Expresión vocal natural Las locuciones naturales son, en principio, las ideales para recopilar un corpus de voz emocionada. Estas locuciones pueden proceder de fuentes diversas como, por ejem- 42 3. Corpus y parametrización plo, situaciones de riesgo para pilotos de aviación, entrevistas de radio y televisión o crónicas periodísticas (Scherer, 2003). No obstante, el empleo de este material muchas veces se ve obstaculizado por motivos de derechos de autor y otros aspectos legales. Además, surgen otros problemas como son la escasa calidad de estas grabaciones debido a las distancias variables del locutor al micrófono o las reverberaciones, al reducido número de locutores, al escaso control del contenido y a la dificultad del etiquetado. A todo este escenario desfavorable se añade la Paradoja del Observador (Steidl, 2009) enunciada por William Labov, la cual indica que “el propósito de la investigación lingüística debe ser descubrir cómo se expresa la gente cuando no está siendo observada sistemáticamente, a pesar de que la única manera de obtener esta información es mediante la observación sistemática” (Labov, 1972). Así pues, se debería proporcionar mayor libertad a los locutores para realizar estas grabaciones, tal vez incluso dejando fuera de su conocimiento el hecho de estar siendo grabados, lo cual resultaría en una pérdida aún mayor del control de la grabación. Además, tal y como expresa Steidl (2009), este tipo de grabación es altamente cuestionable desde un punto de vista ético e incluso conflictivo a nivel legal. Algunos corpus de esta categoría son: The Reading/Leeds Emotional Speech Corpus (Arnfield et al., 1995); The Belfast Naturalistic Emotion Database, descrito y analizado por Schröder (2004); la base de datos JST/CREST (Campbell, 2002) y el corpus VAM (Grimm et al., 2007). 3.2.2. Expresión vocal inducida Las técnicas de inducción de emociones tratan de alterar el estado emocional del locutor. Gerrards-Hesse et al. (1994) analizan 250 estudios relacionados con procedimientos para la inducción de estados de humor1 y propone una clasificación de los mismos en cinco categorías: Procedimientos basados en la generación libre de estados emocionales. No se presentan estímulos a los individuos sino que ellos mismos activan los estados afectivos mediante técnicas hipnóticas, por ejemplo, o mediante el recuerdo de determinadas experiencias anteriores. Procedimientos basados en la generación guiada de estados emocionales. Se presentan determinados estímulos a los individuos y se les indica qué estado emocional deben alcanzar, por ejemplo a través de fragmentos de películas o piezas musicales. Procedimientos basados en la presentación de material para la inducción de emociones. Se presentan determinados estímulos a los individuos pero sin indicarles el estado emocional que deben alcanzar. Procedimientos basados en la presentación de situaciones de necesidad emocional. Los individuos se exponen a situaciones que generan necesidad de logro o afiliación, 1 En inglés, MIPs, acrónimo de Mood Induction Procedures. 3.2. Métodos para la generación de habla emocional 43 como por ejemplo actividades cognitivas evaluadas o determinadas interacciones sociales. Procedimientos para generar estados psicológicos con emociones relevantes. Los individuos se someten a tratamientos que varían sus niveles fisiológicos como, por ejemplo, recibiendo alguna substancia tal como adrenalina o un placebo, o bien forzando, a indicación del investigador, algunos de sus músculos faciales2 para provocar una emoción. Sin embargo, muchos de estos procedimientos no se han diseñado específicamente para provocar emociones que afecten a la señal de voz, aunque pueden ser adaptados para tal efecto. Para grabar voz existen métodos específicos tales como realizar una tarea complicada de deletreo para provocar un estado negativo, una tarea de cálculo mental para crear una situación de estrés o un escenario Mago de Oz3 con la simulación de un dispositivo defectuoso para provocar una sensación de enfado (Steidl, 2009). Los principales inconvenientes son que a menudo no resulta sencillo evocar emociones concretas ya que la respuesta individual de cada sujeto a un mismo estímulo puede ser distinta y, además, las emociones inducidas suelen ser de baja intensidad y no emociones plenas. Sin dejar de lado que el contenido de las locuciones, por su naturaleza espontánea, no puede ser controlado. Finalmente, inducir ciertas emociones con la finalidad de recopilar información científica puede provocar controversias éticas y morales (Campbell, 2000). Algunos corpus de esta categoría son los desarrollados por Bachorowski y Owren (1995); por Fernández y Picard (2003); el corpus FAU Aibo, descrito por Steidl (2009) y el corpus EmoTaboo de Zara et al. (2007). 3.2.3. Expresión vocal estimulada En este caso, los actores reciben una serie de textos con contenido adecuado para la emoción que se les pide expresar con el objetivo de estimular emociones en su voz. Pretende ser un sistema de compromiso entre la rigidez de un sistema basado en actores (explicado en la siguiente sección) y los métodos anteriores, que poseían un menor control del contenido de las locuciones y de las condiciones de grabación. Sin embargo, para según qué aplicaciones, puede ser contraproducente contar con locuciones de distinto contenido semántico para cada emoción, sobre todo en el momento de hacer determinadas comparaciones entre los estilos emocionales. 2 La hipótesis de retroalimentación facial (Leventhal, 1980) indica que las expresiones faciales influyen en el estado de humor. 3 Llevar a cabo un determinado ejercicio en un escenario Mago de Oz quiere decir que los sujetos sometidos a estudio creen interactuar con un sistema completamente automático aunque, en realidad, las respuestas del sistema están controladas por un operador humano que permanece oculto durante el mismo. 44 3. Corpus y parametrización Dos ejemplos de corpus de esta categoría son la Belfast Structured Emotion Database (Douglas-Cowie et al., 2003) y el corpus BDP-UAB (Iriondo et al., 2009). 3.2.4. Expresión vocal actuada El sistema que permite el mayor control del contenido fonético y semántico de las locuciones así como de las condiciones de grabación es el consistente en grabar con actores en base a un guion preestablecido. Permite la grabación de emociones plenas, prototípicas y de máxima intensidad. Las condiciones de grabación pueden ser exactas a las especificaciones del experimento dado que se trabaja en estudio, en un entorno completamente controlado. Los textos pueden ser exactamente los mismos para cada estilo emotivo favoreciendo su posterior comparación, a pesar de que ello pueda dificultar la expresión a locutores no especialmente entrenados. Posteriormente, y al igual que en los procedimientos anteriores, un test subjetivo puede permitir eliminar las grabaciones que no se correspondan con el estilo especificado al inicio. Sin embargo, este sistema vuelve a plantear algunos inconvenientes. Steidl (2009) recoge algunos de los problemas que citan varios autores. El principal es la falta de naturalidad dado que los actores pueden caer en la exageración de ciertos aspectos de la expresión emocional que, en la vida real, tenderían a disimularse o pasarían desapercibidos. Por otra parte, en las interacciones sociales se tiende a disimular algunos aspectos emocionales personales mediante el control de los parámetros expresivos, aspecto que difícilmente se reflejará en una locución actuada. Al mismo tiempo, a pesar de que un oyente pueda percibir la emoción pretendida, es posible que la emoción, al no ser sentida, se perciba como falsa, lo que le provocará una reacción desagradable. Finalmente, las emociones actuadas no provienen de reacciones fisiológicas y, por lo tanto, difícilmente las grabaciones mostrarán los matices reales del estado emocional pretendido. A pesar de lo antes comentado, Busso y Narayanan (2008) señalan que el problema no siempre radica en el empleo de actores para realizar las grabaciones sino en el método empleado y el entorno de grabación. Así, unas pautas bien definidas y una metodología explícita pueden permitir reducir las diferencias observadas entre las condiciones de laboratorio y las aplicaciones de la vida real. Algunos ejemplos de corpus de esta categoría son: el corpus Talkapillar (Beller y Marty, 2006), la Berlin Database of Emotional Speech (Burkhardt et al., 2005) y la base de datos desarrollada por Liberman et al. (2002). 3.3. Parametrización Para que los algoritmos de aprendizaje puedan trabajar con los archivos de audio de un corpus es necesario que estos sean parametrizados. Mediante el proceso de parame- 3.3. Parametrización 45 trización cada archivo de audio pasa a estar descrito por una serie de valores numéricos y etiquetas adicionales que forman, en conjunto, un único vector. Estas etiquetas adicionales son descriptivas de cada locución y su definición varía en función del corpus. Su funcionalidad, en general, es la de identificar cada una de las locuciones mediante un código y describirlas emocionalmente. Esta descripción puede ser una única etiqueta categórica o las coordenadas que la emoción representa en un espacio multidimensional, por ejemplo. Estas etiquetas adicionales se asignan manualmente durante el diseño del corpus. El resto proviene de un proceso automático o semiautomático mediante el cual se extraen una serie de parámetros numéricos que describen diferentes características de cada uno de los archivos que componen el corpus. Es importante señalar que la parametrización se realiza de forma que cada locución, independientemente de su duración, resulte en un vector de parámetros de longitud constante. Es decir, se pretende uniformizar la descripción paramétrica de las locuciones sin importar la duración de las mismas. El vector resultante de la parametrización de cada archivo del corpus recibe el nombre indistinto de instancia, ejemplo o caso. Cada uno de los elementos de estos vectores recibe el nombre de parámetro o atributo. El conjunto de vectores que recoge la parametrización de todos y cada uno de los archivos de audio y, por lo tanto, la parametrización completa del corpus, recibe el nombre de conjunto de datos o, según su nomenclatura en inglés, dataset. Así pues, el conjunto de datos resultante de la parametrización de un corpus contendrá tantas instancias como archivos de audio compongan el corpus y tantos atributos como parámetros se hayan calculado más las etiquetas adicionales que se incluyan posteriormente. La definición del vector de atributos responde al tipo de parametrización que se lleve a cabo. En esta tesis la parametrización se realiza a dos niveles: a nivel acústico y a nivel lingüístico, los cuales se describen a continuación. 3.3.1. Parametrización acústica En el pasado, el foco de estudio de los parámetros acústicos extraídos de un corpus se centraba en su análisis exclusivamente prosódico, empleándose conjuntos de datos relativamente pequeños y, a menudo, incompletos (Cowie et al., 2001). Sin embargo, a medida que los estudios en reconocimiento emocional automático han ido avanzando y la capacidad de cálculo de los dispositivos ha aumentado, esta parametrización ha ido haciéndose más extensa (Schuller et al., 2009). De forma general, el proceso de parametrización acústica de un archivo de audio consiste en dividir la señal acústica en una serie de segmentos que posteriormente son analizados de manera individual. Esta división puede realizarse a dos niveles distintos que no son excluyentes: 46 3. Corpus y parametrización División a nivel segmental. Consiste en dividir cada archivo de audio en segmentos4 de longitud constante (Oudeyer, 2003; Planet et al., 2006; Steidl, 2009) mediante la aplicación de una ventana. Habitualmente estos fragmentos tienen una duración de entre 10 y 20 ms, tiempo durante el cual se puede considerar que la señal de voz no presenta grandes variaciones. División a nivel fonético. Consiste en crear segmentos de la señal de voz que delimiten los fonemas5 de la locución (Monzo et al., 2007; Ringeval y Chetouani, 2007; Iriondo et al., 2009). Habitualmente se emplean métodos semiautomáticos para realizar esta tarea: un sistema automático realiza una primera segmentación que posteriormente es revisada y ajustada manualmente. Este método suele ser útil para estudiar fragmentos concretos de la locución de forma aislada del resto, como por ejemplo las vocales o las consonantes. Cada fragmento se procesa para extraer una serie de descriptores que reciben el nombre de descriptores de bajo nivel6 en tanto que están directamente relacionados con la señal acústica en sí misma. La sección 3.3.1.1 contiene una relación de los descriptores más comúnmente empleados en trabajos de reconocimiento emocional y que han sido utilizados en distintos experimentos de esta tesis. Para hacer más exhaustiva la parametrización (Oudeyer, 2003) y para obtener una visión de la dinámica de estos descriptores más allá de sus valores instantáneos (Steidl, 2009; Bozkurt et al., 2011), se realiza el cálculo la primera y segunda derivada discreta de los mismos. La derivada discreta de la función f (n) se representa por el símbolo Δn f (n) y se expresa matemáticamente como indica la ecuación 3.1. Δn f (n) = f (n + 1) − f (n) (3.1) A continuación cada archivo de audio es procesado para extraer una serie de funcionales7 a partir de los descriptores de bajo nivel que se han calculado en el paso anterior. Busso et al. (2009) señalan que, a nivel de frecuencia, estos funcionales son más idóneos que los parámetros descriptores de la curva de F0, así como también lo es el análisis a nivel de frase en lugar de segmentos más breves (como, por ejemplo, únicamente fragmentos sonoros). Al igual que en otros trabajos, el cálculo de funcionales a nivel de frase se hará extensivo al resto de los parámetros analizados (Litman y Forbes-Riley, 2003; Oudeyer, 2003; Vlasenko et al., 2007; Iriondo et al., 2009; Schuller et al., 2009; Steidl, 2009; Sezgin et al., 2012). Los funcionales más comúnmente empleados en tareas de reconocimiento emocional son: media (primer momento estándar), desviación estándar (relacionado con 4 También es común referirse a estos segmentos como tramas. En esta tesis ambos términos se emplean de forma indistinta. 5 Unidades fonológicas mínimas con función distintiva. 6 Del inglés, Low Level Descriptors. 7 Funciones que transforman un vector en un valor escalar. 3.3. Parametrización 47 el segundo momento estándar), asimetría8 (tercer momento estándar), curtosis9 (cuarto momento estándar), mediana, extremos (valores máximo y mínimo), posición de los extremos, diferencia entre los extremos, cuartiles, rango intercuartílico10 y coeficientes de regresión lineal. Esta no es una lista exhaustiva y la elección de los funcionales depende del autor. Eyben et al. (2009) recogen una lista extensa de funcionales orientados a reconocimiento emocional que, además, pueden ser calculados con la herramienta OpenEAR11 , de libre distribución. ... Finalmente, los funcionales que describen cada archivo de audio se concatenan con las etiquetas adicionales. Cada uno de los vectores resultantes forma una instancia del conjunto de datos correspondiente a la parametrización acústica del corpus. La figura 3.2 ilustra el proceso de creación del conjunto de datos de un corpus a nivel acústico tal y como se ha descrito en esta sección, considerando el cálculo de n descriptores de bajo nivel, su primera derivada y m funcionales, incluyendo un código de identificación de la locución y una etiqueta descriptiva de la emoción a nivel categórico. Cálculo de n descriptores acústicos Cálculo de la primera derivada ... n n Cálculo de m funcionales Archivo i ... ID i ETIQUETA i 2×n×m Figura 3.2: Esquema de la parametrización acústica de un archivo de audio de un corpus calculando n descriptores de bajo nivel, su primera derivada y m funcionales. 3.3.1.1. Descriptores de bajo nivel Los parámetros de bajo nivel que a menudo se consideran relacionados con la expresividad emocional y que han sido estudiados en varios experimentos de la presente tesis se pueden agrupar en distintas categorías, según se relacionen con la prosodia, la VoQ o el espectro amplio de la señal. Algunos de estos parámetros se hallan explicados desde una perspectiva centrada en la expresión y la percepción emocional en la sección 2.3.3. 8 Es habitual su nomenclatura en inglés, skewness. Representa la asimetría de una distribución considerando como eje de simetría una recta vertical que cruza el valor medio de la misma. 9 Es habitual su nomenclatura en inglés, kurtosis. Es una medida de la forma de la distribución e indica su apuntamiento. 10 El rango intercuartílico se define como la diferencia entre el tercer y primer cuartil. 11 http://openart.sourceforge.net 48 3. Corpus y parametrización Parámetros relacionados con la prosodia. La prosodia caracteriza los rasgos suprasegmentales percibidos en el habla y por lo tanto se refiere a sílabas, palabras, frases o locuciones enteras en lugar de únicamente a fonemas. La prosodia se refiere a la percepción acústica de los sonidos, a los que define por su tono, sonía y duración. Según Gil (2007), el tono es la impresión perceptiva que produce en el oyente la F0 de la onda sonora; la sonía es la fuerza percibida en los sonidos influida tanto por la intensidad de la onda sonora como por la F0, las características espectrales y la duración del sonido; y la duración es la longitud percibida de un sonido, influenciada por cambios en la sonía. A pesar de que estas características perceptivas no tienen equivalentes únicos en la señal de voz existen equivalentes acústicos que se adaptan muy adecuadamente como la F0, que se asemeja al tono percibido, y la energía de la señal, que se asemeja a la sonía. Se agrupan en tres categorías según se relacionen con la F0, la energía o la duración: Parámetros relacionados con la F0. Pueden calcularse en todos los segmentos en los que se ha fragmentado el archivo de voz aunque realmente tiene sentido en aquellas zonas que presentan una periodicidad clara, es decir, en los sonidos sonoros como, por ejemplo, las vocales. Los fragmentos que no presentan periodicidad pueden ser omitidos o bien procesados de manera especial. Así, por ejemplo, el marcador desarrollado por Alías et al. (2006) asigna marcas interpoladas a partir de las zonas sonoras vecinas. Si no se realiza una segmentación fonética, Navas et al. (2006) proponen el uso de un detector de actividad vocal y un detector de sonoridad para realizar el cálculo de forma adecuada. Parámetros relacionados con la energía. Como su propio nombre indica, miden la energía del fragmento acústico analizado. Se puede medir en decibelios o por su valor cuadrático medio12 . Parámetros relacionados con el ritmo. Tienen sentido en la segmentación fonética del habla y miden la duración de los fonemas de la locución. A pesar de ser relevantes en la expresión de las emociones (Cowie et al., 2001), a menudo no se consideran en algunos estudios por la complejidad que supone obtener esta información de manera automática (Navas et al., 2006). Habitualmente se emplea la medida estadística z-score para analizar la estructura temporal del habla, como en (Schweitzer y Möbius, 2003), según la ecuación 3.2 donde μ y σ son la media y la desviación estándar, respectivamente, del segmento analizado y d la duración, en milisegundos, del fonema (Iriondo, 2008). Asimismo, en (Iriondo, 2008) también se calcula el número de pausas por unidad de tiempo y el porcentaje de tiempo de silencio respecto a la duración total de la locución con el objetivo de representar la frecuencia y la duración de las mismas. z-score = 12 Medido como rms, del inglés root mean square. d−μ σ (3.2) 3.3. Parametrización 49 Parámetros relacionados con la VoQ. La VoQ se basa en las perturbaciones en la F0 y la energía de la señal que se representan por distintos parámetros. Según la definición de Laver (1980) recogida en (Monzo, 2010), “La VoQ se concibe en un sentido amplio como la característica auditiva de la voz individual de un interlocutor, y no en el sentido más reducido de la cualidad derivada únicamente de la actividad laríngea. Tanto las características laríngeas y supralaríngeas serán vistas como contribuciones a la VoQ.” En base a los parámetros propuestos por Drioli et al. (2003), los resultados obtenidos por Monzo et al. (2007) y los propuestos por Iriondo (2008), se pueden destacar los siguientes: Jitter. Mide las variaciones a corto plazo del periodo fundamental debidas a fluctuaciones en los tiempos de apertura y cierre de los pliegues vocales de un ciclo al siguiente, describiendo un ruido que aparece en forma de modulación en frecuencia. A pesar de que existen diversas variantes en el cálculo de este parámetro, la más sencilla y acorde con la definición de este parámetro se describe en la ecuación 3.3. jitter(i) = |F0 (i + 1) − F0 (i)| F0 (i) (3.3) Shimmer. Mide las variaciones a corto plazo de la amplitud de la forma de onda entre ciclos, describiendo un ruido que aparece como una modulación en amplitud. Aunque, como para el jitter, existen diversas variantes para su cálculo, el shimmer se puede describir de forma sencilla mediante la ecuación 3.4 en función de la energía (E) entre ciclos consecutivos. shimmer(i) = |E(i + 1) − E(i)| E(i) (3.4) Harmonic-to-Noise Ratio (HNR). Se define como la relación entre la energía de la parte armónica y la energía del resto de la señal de voz y viene a medir la periodicidad de la señal sonora. Esta medida puede verse afectada por el jitter y el shimmer. Steidl (2009) describe el cálculo de este parámetro según la función de autocorrelación. Glottal-to-Noise Excitation Ratio (GNE). Cuantifica la relación entre la excitación debida a oscilaciones de los pliegues vocales respecto la excitación producida por ruido turbulento (Michaelis et al., 1997). Similar a HNR en cuanto que mide el ruido aditivo pero difiere de este parámetro en que GNE se puede considerar prácticamente independiente de jitter y shimmer. Hammamberg Index (HammI). Es la diferencia entre los máximos de energía de las bandas frecuenciales de 0 a 2000 Hz y de 2000 a 5000 Hz. La ecuación 3.5 define el cálculo de este parámetro en dB donde E0...2000 es la energía de la banda frecuencial de 0 a 2000 Hz y E2000...5000 es la energía de la banda frecuencial de 2000 a 5000 Hz. HammI = 10 · log máx(E0...2000 ) máx(E2000...5000 ) (3.5) 50 3. Corpus y parametrización Spectral Flatness Measure (SFM). Es la relación entre la media geométrica y la media aritmética de la distribución espectral de energía. La ecuación 3.6 define el cálculo de este parámetro en dB, donde N es el número de muestras espectrales tomadas en consideración para frecuencias situadas entre 0 Hz y la mitad de la frecuencia de muestreo del archivo de audio y Ei es la energía de cada una de estas frecuencias. N N SFM = 10 · log 1 N i=1 Ei N i=1 Ei (3.6) Drop-off of spectral energy above 1000Hz (do1000). Es una aproximación lineal de la pendiente espectral por encima de 1000 Hz calculada por medio del método de los mínimos cuadrados. La ecuación 3.7 define el cálculo de este parámetro donde N es el número de muestras espectrales tomadas en consideración para frecuencias situadas en el margen de 1000 Hz hasta la mitad de la frecuencia de muestreo del archivo de audio, Ei es la energía de cada una de estas frecuencias, E es la media de energía calculada considerando todas las frecuencias, f 1000i son las frecuencias superiores a 1000 Hz y f 1000 es el valor medio las frecuencias superiores a 1000 Hz. N do1000 = i=1 (Ei − E)(f 1000i − f 1000) N 2 i=1 (f 1000i − f 1000) (3.7) Relative Amount of Energy above 1000 Hz (pe1000). Mide la cantidad de energía relativa en el margen de las frecuencias superiores a 1000 Hz respecto a las inferiores. La ecuación 3.8 define el cálculo de este parámetro en dB donde Eh es la energía de cada una de las frecuencias comprendidas entre 1000 Hz y la mitad del valor de la frecuencia de muestreo del archivo de audio y El es la energía de las frecuencias inferiores a 1000 Hz. H pe1000 = 10 · log h=1 L Eh l=1 El (3.8) Parámetros espectrales. Según Steidl (2009), si los parámetros prosódicos se refieren a la F0, la energía y la duración, los parámetros espectrales describen las características de la señal de voz en el dominio de la frecuencia estudiando también los armónicos y los formantes. Los armónicos son múltiplos de la frecuencia fundamental y se caracterizan por su frecuencia y su amplitud. Por su parte, los formantes son amplificaciones de determinadas frecuencias como resultado de las resonancias del tracto vocal, y se caracterizan por su frecuencia, su amplitud y su ancho de banda. Los sonidos sonoros tienen cuatro formantes como mínimo y, en general, bastan los dos inferiores para discernir las vocales. Otros parámetros calculan la energía espectral en varias bandas de frecuencia. Los parámetros espectrales más empleados en el ámbito de reconocimiento emocional son los 3.3. Parametrización 51 Mel Frequency Cepstral Coefficients (MFCC)13 , que se consideran un estándar en la síntesis de voz y en el reconocimiento automático del habla. Sin embargo, también han mostrado utilidad, por sí solos, en el ámbito del reconocimiento afectivo automático a pesar de suponer un volumen de datos reducido (Steidl, 2009). 3.3.2. Parametrización lingüística La parametrización lingüística hace referencia a la extracción de información a partir del contenido léxico de las frases de los corpus. En este sentido, este tipo de parametrización hace énfasis en lo que se dice y no en cómo se dice, es decir, se centra en el canal explícito de la comunicación (véase la sección 2.3). Esta parametrización se aprovecha del hecho de que las personas tendemos a emplear palabras específicas para expresar nuestras emociones en base a las asociaciones que hemos aprendido entre ciertas palabras y las emociones correspondientes (Lee y Narayanan, 2005). Sin embargo, a pesar de que hay intentos de identificar el vocabulario de las emociones a través de descripciones subjetivas de emociones específicas (Plutchik, 1994), estos sólo son útiles para determinar palabras clave de forma genérica y no en un entorno de comunicación natural (Lee y Narayanan, 2005). Para conseguir esto último existen parámetros como los descritos en esta sección. A continuación se describen los parámetros lingüísticos analizados en esta tesis. Las descripciones se refieren en todo momento a los elementos lingüísticos del corpus. Estos elementos lingüísticos son, si se trabaja a nivel de unigramas, las palabras que forman cada una de las frases del corpus. En el caso de trabajar a nivel de bigramas, los elementos lingüísticos se refieren a las agrupaciones de dos palabras consecutivas en forma de pares ordenados. Esta descripción puede generalizarse para el caso de n-gramas. Originariamente, los n-gramas mostraron su utilidad en tareas de reconocimiento de voz (Nöth et al., 2001) y más tarde se hicieron extensivos a los estudios de reconocimiento emocional mostrándose útiles en este ámbito (Schuller et al., 2005; Polzehl et al., 2009; Steidl, 2009). 3.3.2.1. Prominencia emocional y activación Lee y Narayanan (2005) proponen el concepto de prominencia emocional14 para convertir cada una de los elementos lingüísticos de un corpus en parámetros relacionados con las etiquetas emocionales. Asumiendo que cada elemento es independiente del resto en una misma frase, la prominencia de un elemento se define como la información mutua entre un elemento específico y una categoría emocional. En este sentido, un elemento 13 Los cuales, realmente, hacen referencia a la transformada inversa del logaritmo del espectro, enfatizando cambios o periodicidad en el mismo 14 Del inglés, emotional salience. En esta tesis se emplea el término prominencia emocional por considerarlo más descriptivo y adecuado en este ámbito aunque en psicología es habitual referirse a este concepto como saliencia, definido como la destacabilidad de un estímulo o la capacidad para llamar la atención de un sujeto. 52 3. Corpus y parametrización prominentemente emocional es un elemento que aparece más a menudo relacionado con esa categoría emocional que con el resto de categorías. Sea W = {v1 , v2 , ..., vn } el conjunto de los n elementos de una frase y sea E = {e1 , e2 , ..., ek } el universo emocional definido por el conjunto de k categorías emocionales. La información mutua entre el elemento vm y la emoción ej se define tal y como indica la ecuación 3.9. i(vm , ej ) = log P (ej |vm ) P (ej ) (3.9) donde P (ej |vm ) es la probabilidad a posteriori de que una frase conteniendo el elemento vm implique la emoción ej y P (ej ) es la probabilidad a priori de esa emoción. La prominencia emocional de un elemento vm en relación con el universo emocional E (ecuación 3.10) se denota por sal(vm ) y se define como la distancia Kullback-Leibler entre la probabilidad a posteriori P (ej |vm ) de una emoción ej dado el elemento vm y la probabilidad a priori de esa emoción P (ej ) (Yildirim et al., 2011). sal(vm ) = k P (ej |vm ) log j=1 P (ej |vm ) P (ej ) (3.10) De todos los elementos analizados sólo se seleccionan aquellos cuya prominencia emocional supera un determinado umbral, el cual se escogerá según se estipule en el experimento en cuestión. A continuación se calculan k parámetros lingüísticos por cada frase del corpus. Estos parámetros, llamados activaciones y denotados por aj , se definen según la ecuación 3.11 (Lee y Narayanan, 2005). Así pues, cada frase contará con tantos parámetros de activación como etiquetas emocionales se consideren. aj = n Im wmj + wj (3.11) m=1 donde Im es 1 si el elemento aparece en la lista de elementos que superan el valor umbral de prominencia emocional o 0 en caso contrario, wmj es el peso de conexión definido por la ecuación 3.12 y wj es el sesgo definido por la ecuación 3.13. wmj = i(vm , ej ) = log P (ej |vm ) P (ej ) wj = log P (ej ) (3.12) (3.13) 3.3. Parametrización 53 La figura 3.3 muestra el esquema del cálculo de los parámetros de activación para cada categoría emocional a partir de los elementos de análisis de cada frase del corpus los cuales pueden ser, tal y como se comentaba con anterioridad, palabras individuales (unigramas) o agrupaciones de las mismas (n-gramas, en general). Elementos de una frase ... Cálculo de activaciones Activaciones para e1 e2 e3 ... ek Prominencia emocional ... Figura 3.3: Esquema de la parametrización lingüística de una frase calculando k parámetros de activación, uno para categoría emocional. Se han marcado en rojo aquellos elementos de la frase cuya prominencia emocional supera un umbral preestablecido. 3.3.2.2. Afinidad prototípica La afinidad prototípica es una medida propuesta por Steidl (2009) durante la validación del corpus FAU Aibo. En este corpus, además de la categoría emocional, cada locución lleva asociado un parámetro, la afinidad prototípica, representando la homogeneidad del etiquetado llevado a cabo por los anotadores del corpus. La afinidad prototípica de un segmento se define como la relación entre el número de etiquetas categóricas (a nivel de cada una de las palabras que conforman el segmento en cuestión) que coinciden con la etiqueta asignada finalmente a ese fragmento y el número total de etiquetas que ha recibido por parte de los anotadores, es decir, la proporción de etiquetas categóricas que coinciden (a nivel de palabra) con la categoría final del fragmento. Para poder crear una lista de palabras emocionales con esta información, se calcula la afinidad prototípica media de cada palabra w del corpus referenciada a esa emoción e, tal y como se indica en la ecuación 3.14. N avg_prot(w, e) = i=1 proti (w, e) N (3.14) donde proti (w, e) es la afinidad prototípica de la palabra w respecto a la emoción e y N es el número de frases con esa etiqueta emocional asignada. 3.3.2.3. Dimensiones emocionales El modelo bidimensional de activación y valencia (véase la sección 2.1.3.3) para mapear palabras en el universo emocional ha sido empleado con éxito en múltiples estudios 54 3. Corpus y parametrización (Stevenson et al., 2007). Para ello es necesario un diccionario afectivo como, por ejemplo, los diccionarios Affective Norms for English Words (ANEW) (Bradley y Lang, 1999; Trilla y Alías, 2009), Dictionary of Affect in Language (DAL) (Hofer et al., 2005; Whissell, 2008) o una lista autocompilada de palabras emocionales (Francisco y Gervás, 2006; Osherenko, 2008). Sin embargo, existen discrepancias respecto al uso de estos modelos atribuibles a que su diseño puede verse influido por la personalidad, el carácter y el contexto social de los evaluadores que los diseñan (Russell et al., 1989). Al mismo tiempo, el estudio aislado de las palabras podría mejorarse con un estudio de las palabras contiguas que puedan modificar sus significados. Así, por ejemplo, si un adverbio de negación acompaña a una palabra, los coeficientes dimensionales pueden rotarse alrededor del estado neutro en un modelo circumplex, como en (Trilla y Alías, 2009). 3.3.2.4. Modelo de espacio vectorial En este modelo, los elementos que aparecen en el corpus definen un espacio de alta dimensionalidad en el que se representan las transcripciones de las frases. Por ejemplo, Steidl (2009) crea un espacio con la frecuencia de aparición de todas las palabras del corpus. Sin embargo, la alta dimensionalidad de este espacio puede ocasionar problemas de dispersión. No obstante, Alías et al. (2008) indican que estos problemas se pueden subsanar analizando unicamente las palabras evaluadas y no el corpus completo. 3.4. Corpus empleados en esta tesis En los experimentos de reconocimiento automático de emociones explicados a lo largo de esta tesis se trabaja, fundamentalmente, con tres corpus de voz emocionada. En esta sección se describe cada uno de estos corpus y se detalla la parametrización que se ha realizado de los mismos. Dichas parametrizaciones pretenden recoger de forma amplia los parámetros explicados en la sección 3.3. 3.4.1. Corpus ESDLA El corpus ESDLA se concibe originalmente como un corpus no demasiado extenso y con una parametrización sencilla destinado a experimentos preliminares en el ámbito del reconocimiento afectivo automático. A este efecto, su parametrización se concibe en base al trabajo de Oudeyer (2003), cuyos experimentos son adaptados a este corpus en una fase inicial de esta tesis, sin que supongan el eje vertebrador de la misma. Tal y como se detalla a continuación, a pesar de ser un corpus sencillo cuenta con un análisis subjetivo que ofrece una referencia para el análisis de los resultados de los estudios de reconocimiento automático, así como una parametrización tanto a nivel fonético como a nivel segmental. 3.4. Corpus empleados en esta tesis 3.4.1.1. 55 Descripción El corpus ESDLA es un corpus de expresión vocal actuada (véase la sección 3.2.4) consistente en la recopilación de las lecturas, por parte de un locutor no profesional masculino, de un conjunto de 200 frases en español. Para intentar conseguir frases semánticamente neutras estas frases se corresponden con 50 fragmentos breves, de carácter mayoritariamente descriptivo, de la obra El Señor de los Anillos (Tolkien, 1954). Cada uno de estos 50 fragmentos son interpretados para simular tres estados emocionales diferentes: alegría, enfado y tristeza. También se incluye una interpretación neutra, carente de estado emocional. Las grabaciones están almacenadas en formato WAV con una frecuencia de muestreo de 16 KHz y una cuantificación de 16 bits/muestra. Las condiciones de grabación estaban controladas pero la grabación no se realizó en un estudio profesional. Una evaluación subjetiva permite la validación de la expresividad del habla actuada desde un punto de vista de usuario (Montero et al., 1998a; Hozjan et al., 2002; Navas et al., 2006; Morrison et al., 2007). Así pues, las 200 frases del corpus se someten a un test subjetivo con la finalidad de observar los resultados de clasificación obtenidos por evaluadores humanos. El test se realiza sobre 35 personas de perfil heterogéneo. Entre los evaluadores existen personas expertas en procesado de la señal de voz (dentro del campo de la ingeniería) y también relacionadas con el estudio de las emociones (pertenecientes al campo de la psicología), así como no vinculadas a ninguno de estos ámbitos. El test se lleva a cabo mediante la herramienta TRUE. El test consiste en mostrar a cada uno de los evaluadores, a través de la interfaz web, cada uno de los archivos de forma secuencial y en orden aleatorio, mediante un test de respuesta forzada al planteamiento de la cuestión: “¿Qué emoción crees que expresa el locutor en esta frase?” y ofreciendo las cuatro posibles opciones de clasificación (“Alegría”, “Tristeza’’, “Enfado” y “Neutro”) más una adicional para seleccionar en caso de duda (“NS/NC”). En una fase previa al inicio del test, a cada usuario se le permite escuchar algunos de los archivos de audio como muestra de cada una de las emociones sin que esta sea indicada en ningún caso. La finalidad de este paso previo es familiarizar al evaluador con la voz del locutor ofreciéndole una referencia inicial e intentando, de este modo, minimizar los errores de clasificación que puedan cometerse al inicio de la prueba. La figura 3.4 muestra la matriz de confusión de los resultados del test subjetivo realizado. La figura representa, en porcentaje, la clasificación en cada una de las categorías emocionales de los archivos pertenecientes a una misma emoción según las respuestas de los evaluadores, es decir, la clasificación subjetiva de las frases de cada categoría emocional. Así, por ejemplo, se puede constatar que la emoción de enfado es la reconocida con mayor exactitud, en tanto que el 96,22 % de las frases etiquetadas con esta categoría emocional se reconocen como tales y tan sólo un 3,78 % de las frases de las frases de esta emoción reciben un etiquetado distinto (o no es identificado como ninguna de las etiquetas emocionales consideradas). La tabla 3.1 muestra un análisis pormenorizado de la clasificación subjetiva detallada por clases, recogiendo los detalles de la clasificación del corpus según el test subjetivo descrito mostrando los valores de las medidas de preci- 56 3. Corpus y parametrización Porcentaje de clasificación subjetiva 100 90 80 70 60 50 40 30 20 10 0 Alegría Tristeza Enfado Alegría 84,72 0,50 1,44 Neutro 2,22 Tristeza 0,78 89,83 0,28 12,78 Enfado 1,00 0,28 96,22 0,28 Neutro 12,78 8,94 1,50 83,94 NS/NC 0,72 0,44 0,56 0,78 Clasificación real Figura 3.4: Matriz de confusión de la clasificación subjetiva del corpus ESDLA. sión, cobertura y medida F1 para cada una de las emociones estudiadas (véase la sección 4.3.4.1). En promedio, el porcentaje de casos correctamente clasificados considerando la totalidad de evaluadores asciende al 88,68 %. Tabla 3.1: Detalles, en porcentaje, de la clasificación subjetiva del corpus ESDLA especificados por clases. Precisión Cobertura F1 3.4.1.2. Alegría 95,31 84,72 89,71 Tristeza 86,66 89,83 88,22 Enfado 98,41 96,22 97,30 Neutro 78,33 83,94 81,04 Parametrización El corpus ESDLA se ha parametrizado acústicamente a nivel fonético y a nivel segmental (Planet et al., 2006). Contando con la transcripción fonética de cada una de las locuciones del corpus, la segmentación de los archivos en fonemas y el análisis de los mismos para calcular los descriptores de bajo nivel se ha llevado a cabo con el software ITP15 (Alías e Iriondo, 2002). Este software también ha servido para la extracción de los 15 Interfície per al Tractament de la Parla (Interfaz para el Procesado del Habla, en catalán). 3.4. Corpus empleados en esta tesis 57 descriptores de bajo nivel en el caso de la división segmental, para la cual se han empleado ventanas de 20 ms. La segmentación en fonemas se lleva a cabo mediante la aplicación de Hidden Markov Models (HMM)16 . El proceso de segmentación sitúa una serie de marcas temporales en un archivo de audio las cuales delimitan cada uno de los fonemas que componen la grabación. Esta segmentación se obtiene de forma automática a partir de la transcripción fonética de las frases, los archivos de audio y unos archivos de entrenamiento previos. No obstante, el proceso requiere de una supervisión manual posterior para corregir la posición de algunas de las marcas de segmentación que pudieran no estar correctamente situadas. La transcripción fonética de las frases se obtiene a partir de las transcripciones de las locuciones mediante un proceso automático gracias al software específicamente diseñado para tal fin. La medida de los silencios no supone una complicación especial en el caso de la segmentación en fonemas, puesto que quedan identificados por la propia transcripción de la frase y basta con observar la duración de los fonemas correspondientes a los silencios. Sin embargo, si la frase ha sido dividida en segmentos de duración constante, cabe realizar un estudio de los mismos para intentar discernir los que se corresponden con silencios de los que no lo son. El procedimiento para realizar esta distinción de forma automática consiste en analizar las primeras tramas calculando el valor medio de energía puesto que se sabe a priori que esta parte de la señal se corresponde con silencio. De forma heurística, se escoge un valor un 25 % superior al valor medio antes calculado como umbral para determinar que aquellas tramas que estén por debajo del mismo son silencios. Adicionalmente, para hacer más robusto el sistema, se corrigen aquellos fragmentos únicos que son considerados como silencios si están precedidos y seguidos por fragmentos no considerados así. De igual manera se corrigen aquellos fragmentos únicos que no son considerados silencios y están precedidos y seguidos por fragmentos así considerados. En el caso de la segmentación en fonemas se consideran 5 parámetros adicionales: valores medio, máximo, mínimo y desviación estándar de las duraciones de los fonemas y una medida relativa a la velocidad del habla en base a la relación entre la duración de cada fonema y la duración media de ese fonema a lo largo de todo el corpus. Siguiendo el trabajo de Oudeyer (2003), también se consideran dos versiones adicionales de los archivos de audio procesados mediante un filtrado paso-altas y otro pasobajas. Esto permite realizar un análisis más detallado en diferentes bandas espectrales pudiendo observar el comportamiento de la señal en esas zonas. Los descriptores de bajo nivel analizados son la F0 y la energía además de las duraciones de los silencios. Para la F0 y la energía, además, se analiza la primera derivada para obtener también una medida de la variación temporal de estos parámetros. Los 12 funcionales estudiados en este corpus son el valor medio, extremos (valor máximo y valor mínimo), diferencia entre los extremos, desviación estándar, mediana, cuartiles, rango intercuartílico, asimetría y curtosis. Para el caso de los silencios se considera un parámetro adicional: la duración total de silencios en una locución. 16 Modelos Ocultos de Markov, en inglés. 58 3. Corpus y parametrización Según las consideraciones anteriores, cada elemento del corpus se identifica por 188 parámetros tal y como se desglosa en la tabla 3.2. Por ejemplo, para la F0 se consideran 3 secuencias (original, filtrado paso-bajas y filtrado paso-altas), 2 funciones (original y primera derivada) y los 12 funcionales antes detallados. Tabla 3.2: Detalle de la parametrización del corpus ESDLA. F0 Energía Silencio Duración Total Secuencias 3 3 3 1 Funciones 2 2 1 Funcionales 12 12 13 5 Total 72 72 39 5 188 3.4.2. Corpus BDP-UAB El corpus BDP-UAB está orientado a la síntesis de voz en español y se ha desarrollado con un doble propósito: en primer lugar para ser empleado en el modelado acústico, tanto a nivel prosódico como de VoQ, de la voz emocionada y, en segundo lugar, para ser la base de datos de unidades para un sintetizador vocal. Este corpus se desarrolló por el Grupo de Investigación en Procesado Multimodal (GPMM) de Enginyeria i Arquitectura La Salle y el Laboratorio de Análisis Instrumental de la Comunicación de la Universidad Autónoma de Barcelona (LAICOM-UAB). Para una explicación exhaustiva de este corpus puede consultarse el trabajo de Iriondo et al. (2009) y su desarrollo completo detallado en (Iriondo, 2008). 3.4.2.1. Descripción El corpus BDP-UAB es un corpus de expresión vocal estimulada (véase la sección 3.2.3) consistente en la lectura de textos por parte de una locutora femenina profesional y cuyo contenido semántico está diseñado para facilitar su expresión emocional. Los textos fueron seleccionados a partir de una base de datos de anuncios extraídos de medios de prensa escrita, incluyendo diarios y revistas. Previamente, esta base de datos fue clasificada en varias categorías temáticas las cuales, en base al estudio previo llevado a cabo por Montoya (1998), se consideran relacionadas con diferentes estilos expresivos. La locutora fue previamente entrenada para adecuar su estilo expresivo a las emociones requeridas. Las características fonéticas fueron definidas por los expertos del LAICOM-UAB. La grabación se llevó a cabo contando con supervisión experta para evitar posibles desviaciones del estilo emocional definido para cada locución. En total, cuatro personas estaban involucradas en el proceso de grabación: la locutora profesional, un ingeniero de sonido, un experto en comunicación audiovisual y un técnico de control para la supervisión. Los estilos emocionales recogidos en el corpus y sus categorías asociadas a los tipos de publicidad que facilitan su interpretación son: 3.4. Corpus empleados en esta tesis 59 Neutro: asociado a la categoría de nuevas tecnologías, transmitiendo madurez y seriedad. Alegre: asociado a la categoría de educación, transmitiendo extroversión. Sensual: asociado a la categoría de cosméticos, basado en una voz dulce, suave y pausada. Agresivo: asociado a la categoría de automóviles, basado en un estilo duro. Triste: asociado a la categoría de viajes, transmitiendo una sensación de melancolía. Para conseguir una selección fonéticamente equilibrada de las frases que forman el corpus, dado su origen orientado a la síntesis de voz emocionada, su elección se lleva a cabo mediante un algoritmo greedy (François y Boëffard, 2002), omitiendo frases con excepciones (palabras extranjeras y con abreviaturas) y evitando frases similares entre sí. Puede consultarse el detalle de la distribución fonética del corpus en (Iriondo et al., 2009) La grabación de este corpus se lleva a cabo en un estudio de grabación profesional acondicionado acústicamente para ofrecer condiciones óptimas de grabación y un alto nivel de aislamiento. La sala de grabación de 20 m2 se distribuye en la superficie no cuadrada de una habitación de 3,5 metros de altura. A pesar de que la habitación cuenta con un tiempo de respuesta de 0,8 segundos la posición del micrófono garantiza la ausencia de ecos audibles en la grabación. Este micrófono es un micrófono de condensador de alta calidad (AKG C-414), con una respuesta plana (2 dB en el margen de 20 Hz a 20 KHz) y con una relación señal-ruido de 80 dBA SPL. La grabación digital de los archivos en formato WAV de 48 KHz y 24 bits se almacena en un disco duro empleando el software Pro Tools 5.1 sobre una plataforma Mac G5 empleando una consola digital Yamaha 02R. Tras un proceso semiautomático de segmentación del corpus y eliminación de las frases grabadas incorrectamente o no adecuadas al estilo requerido, el volumen de información del mismo asciende a 4.638 locuciones sumando un total de 5 horas y 27 minutos de grabación. 833 locuciones (50 minutos) se corresponden al estilo neutro, 916 locuciones (56 minutos) al estilo feliz, 841 locuciones (51 minutos) al estilo sensual, 1.000 locuciones (86 minutos) al estilo triste y 1.048 locuciones (84 minutos) al estilo agresivo. Como en el corpus ESDLA (véase la sección 3.4.1.1), el corpus BDP-UAB también es sometido a un proceso de evaluación subjetiva. Sin embargo, en este caso, dado el gran tamaño del corpus, una evaluación subjetiva exhaustiva podría ser extremadamente costosa tanto a nivel temporal como de recursos humanos para llevarla a cabo. En ese sentido, Iriondo et al. (2009) proponen una evaluación subjetiva parcial que permite obtener una representación de la percepción subjetiva (cuyos resultados se presentan a continuación) que puede ser empleada, posteriormente, para una validación automática del corpus completo. Para el test subjetivo parcial se escogen un total de 480 locuciones (aproximadamente un 10 % del total, 96 locuciones por cada estilo emocional) y 25 voluntarios de Enginyeria i Arquitectura La Salle como evaluadores subjetivos. Para evitar que cada sujeto 60 3. Corpus y parametrización deba evalúar el total de 480 locuciones se crean 4 subconjuntos de 120 locuciones cada uno. Un par ordenado de subconjuntos es asignado a cada evaluador creando 12 combinaciones diferentes. La creación de pares ordenados pretende evitar que los subconjuntos que se evalúen en segundo lugar puedan recibir una mejor clasificación gracias al entrenamiento recibido al evaluar los que se hallan en primer lugar. La evaluación se lleva a cabo en la plataforma TRUE mediante un test de respuesta forzada con la cuestión “¿Qué emoción reconoces en la voz de la locutora en esta frase?”. Las posibles respuestas son los 5 posibles estados emocionales y uno adicional a seleccionar en caso de duda (“NS/NC”). La figura 3.5 muestra la matriz de confusión de la clasificación subjetiva parcial del corpus BDP-UAB. Se puede afirmar que, en general, todos los estilos expresivos muestran un alto porcentaje de identificación (87,1 % en promedio). El estilo triste es el mejor identificado seguido por el sensual y el neutro. Los principales errores de identificación se producen en el estilo agresivo (el 14,2 % de las locuciones agresivas se identifican como alegres). Además, el estilo neutro se confunde ligeramente con el resto de estilos y también hay un cierto nivel de confusión entre los estilos sensual y triste (5,7 %). La opción “NS/NC” se empleó en muy pocas ocasiones, aunque es más frecuente en los estilos neutro y sensual que en el resto. Porcentaje de clasificación subjetiva 100 90 80 70 60 50 40 30 20 10 0 Agresivo Alegre Triste Neutro Sensual Agresivo 82,70 15,60 0,00 5,30 0,00 Alegre 14,20 81,00 0,00 1,30 0,10 Triste 0,10 0,10 98,80 0,70 5,70 Neutro 1,80 1,90 0,50 86,40 4,70 Sensual 0,10 0,20 0,60 3,60 86,80 NS/NC 1,10 1,20 0,10 2,70 2,60 Clasificación real Figura 3.5: Matriz de confusión de la clasificación subjetiva del corpus BDP-UAB. Adaptado de (Iriondo et al., 2009). La figura 3.6 muestra dos histogramas que detallan la clasificación subjetiva de las locuciones del corpus. El histograma (a) determina el número de locuciones que son correctamente clasificadas en los porcentajes indicados. El histograma (b) determina el 3.4. Corpus empleados en esta tesis 61 número de locuciones que reciben la etiqueta “NS/NC” en los porcentajes también señalados. 400 140 350 120 300 100 250 80 60 <20% 30% 45% 60% 75% % Identificación (a) 90% Frecuencia 160 200 150 40 100 20 50 0 0 2% 4% 6% 8% 10% 12% 14% 16% >16% % "NS/NC" (b) Figura 3.6: Histogramas que reflejan la evaluación de las 480 locuciones de la prueba subjetiva. El eje vertical muestra el número de locuciones que: (a) son correctamente clasificadas en el porcentaje indicado en el eje horizontal, (b) reciben la etiqueta “NS/NC” en el porcentaje indicado en el eje horizontal. Adaptado de (Iriondo et al., 2009). 3.4.2.2. Parametrización El corpus BDP-UAB está parametrizado acústicamente a nivel fonético. La segmentación en fonemas se llevó a cabo mediante el software ITP. El análisis acústico del corpus proporciona, en este caso, dos tipos de parámetros: prosódicos y de VoQ. A nivel prosódico la parametrización incluye información relativa a la F0, energía y ritmo, tanto de la función original como de las derivadas primera y segunda. El análisis de F0 se basa en el marcador fonético descrito por Alías et al. (2006), considerando tres versiones diferentes de cada locución: completa, excluyendo silencios y sonidos sordos, y considerando únicamente vocales tónicas. La información relativa a la sonoridad de los segmentos así como de los silencios y de las vocales tónicas se obtiene a partir del etiquetado fonético de las locuciones. Esta medida se realiza siguiendo escalas lineal y logarítmica. El análisis de energía se realiza mediante ventanas rectangulares de 20 ms a intérvalos de 10 ms, calculando la energía media en escala lineal y en escala logarítmica (dB). Al igual que en el caso de la F0, se consideran las tres secuencias antes descritas. El análisis del ritmo se focaliza en la duración de los fonemas y el análisis de los silencios. Para modelizar la duración de los fonemas se emplea la medida z-score descrita en la sección 3.3.1.1. Tanto la media como la desviación estándar se estiman para cada fonema a partir del corpus completo. Adicionalmente se calcula otra versión de las dura- 62 3. Corpus y parametrización ciones considerando únicamente las vocales tónicas. Para analizar los silencios se calculan el número de pausas por segundo y el porcentaje de tiempo de silencio con respecto a la duración total de la locución. Ambos parámetros representan la frecuencia y la duración de las pausas. Los parámetros relativos a la VoQ han sido calculados mediante el software de análisis Praat17 a partir de las grabaciones de audio realizadas y sin necesidad de emplear dispositivos transductores invasivos o hardware adicional de acuerdo con la propuesta de Drioli et al. (2003) y la implementación descrita por Monzo et al. (2007). Estos parámetros incluyen las medidas de jitter, shimmer, GNE, HammI y do1000. Estos 5 parámetros son los empleados por Monzo et al. (2007) para discriminar los 5 estilos de habla del corpus BDPUAB con unos resultados aceptables, si bien el estudio concluye indicando la necesidad de incluir la información prosódica para mejorar los resultados. El número de funcionales analizados en este corpus asciende a 11, incluyendo el valor medio, la varianza, los extremos (valor máximo y valor mínimo), diferencia entre los extremos, asimetría, curtosis, cuartiles y rango intercuartílico. Según las consideraciones anteriores, cada elemento del corpus se identifica por 519 parámetros tal y como se desglosa en la tabla 3.3. Por ejemplo, para la F0 se consideran 2 unidades (lineal y logarítmica), 3 secuencias (completa18 , excluyendo silencios y sonidos sordos, y considerando únicamente vocales tónicas), 3 funciones (original y primera y segunda derivadas) y los 11 funcionales antes detallados. Tabla 3.3: Detalle de la parametrización del corpus BDP-UAB. F0 Energía Duración Pausas VoQ Total Unidades 2 2 1 2 5 Secuencias 3 3 2 - Funciones 3 3 3 - Funcionales 11 11 11 11 Total 198 198 66 2 55 519 3.4.3. Corpus FAU Aibo Para llevar a cabo un estudio de reconocimiento de emociones espontáneas en un entorno realista es necesario trabajar con un corpus adecuado. Sin embargo, muchos de los corpus existentes presentan inconvenientes como, entre otros, su escaso tamaño o el reducido número de locutores presentes en la grabación que impide un análisis independiente del locutor (Steidl, 2009). El corpus FAU Aibo se crea con la intención de adecuarse al escenario estudiado intentando evitar los inconvenientes anteriores y resulta en un cor17 18 http://www.praat.org Por secuencia completa se entiende aquella que considera todos los segmentos. 3.4. Corpus empleados en esta tesis 63 pus no equilibrado, que incluye datos no prototípicos y locuciones de una baja intensidad emocional. La grabación del corpus FAU Aibo se financió por la Comunidad Europea en el marco del proyecto Preparing Future Multisensorial Interaction Research (PF-STAR). Existen dos versiones (Batliner et al., 2004), una en inglés (llevada a cabo por la Escuela de Ingeniería de la Universidad de Birmingham) y otra en alemán (llevada a cabo por la Universidad Erlangen-Nürnberg). La última es la usada en esta tesis ya que fue distribuida por el comité organizador del Interspeech Emotion Challenge 2009 (Schuller et al., 2009). 3.4.3.1. Descripción El corpus FAU Aibo es un corpus de expresión vocal natural (véase la sección 3.2.1) consistente en la recopilación de 9,2 horas de grabaciones en alemán correspondientes a la interacción de 51 niños (30 niñas y 21 niños) con el robot Aibo, de Sony, en un escenario de Mago de Oz. Los niños y niñas, de edades comprendidas entre los 10 y los 13 años de edad, pertenecían a dos escuelas distintas de Erlangen (Alemania), la Ohm-Gymnasium y la Montessori-Schule. Las sesiones de grabación se llevaron a cabo en aulas separadas asistidas por tres personas. Se empleó el equipo inalámbrico Shure UT 14/20 UHF con el micrófono WH20TQG en combinación con el equipo de grabación DAT Tascam DA-P1, a una frecuencia de muestreo de 48 KHz y cuantificación de 16 bits. De acuerdo con el estándar de reconocimiento automático de voz, las grabaciones se remuestrearon a 16 KHz. Adicionalmente, aunque sin interés para el presente trabajo, se realizaron grabaciones en vídeo de las sesiones con lente gran angular, a 25 fotogramas por segundo, en sistema PAL. Estas grabaciones de vídeo contienen también una pista de audio con las mismas locuciones almacenadas a través del micrófono inalámbrico pero con un mayor nivel de ruido y reverberación. Los experimentos llevados a cabo bajo el entorno de Mago de Oz consistían en pedir a los niños y niñas que manejaran el robot mediante órdenes de voz para realizar diversas tareas en el menor tiempo posible (consúltese el trabajo de Steidl (2009) para mayor información). A pesar de las instrucciones, el robot respondía a una secuencia programada de acciones con lo que no siempre realizaba las tareas dictadas. A diferencia de otros experimentos llevados a cabo en entornos de Mago de Oz, en este caso los participantes no tuvieron que pretender estar interesados en la tarea llevada a cabo sino que realmente disfrutaron realizándola (según los investigadores que llevaron a cabo el experimento (Steidl, 2009)) y no supieron, en ningún momento, que el robot estaba siendo controlado remotamente. Las grabaciones se dividen en 18.216 fragmentos19 . Para permitir un análisis posterior independiente del locutor los fragmentos de ambas escuelas se agrupan por separa19 Los fragmentos en los que se divide el corpus FAU Aibo son segmentos de audio con significado completo a nivel sintáctico y semántico. Se definen manualmente en base a criterios sintácticos y prosódicos (Schuller et al., 2009). 64 3. Corpus y parametrización do para crear dos conjuntos distintos e independientes, con grabaciones de niños y niñas distintos. Así pues, las grabaciones de la escuela Ohm-Gymnasium (Ohm) conforman un grupo de 9.959 locuciones correspondientes a 13 niños y 13 niñas, mientras que las grabaciones de la escuela Montessori-Schule (Mont) conforman un grupo de 8.257 locuciones correspondientes a 8 niños y 17 niñas. Schuller et al. (2009) escoge el conjunto de locuciones (Ohm) como conjunto de entrenamiento de los algoritmos de reconocimiento afectivo y el conjunto (Mont) como conjunto de prueba. El corpus se divide originalmente en 11 categorías si bien la versión empleada en este trabajo, acorde con la distribución de Schuller et al. (2009), reduce la división original a 5 categorías afectivas en base al etiquetado recibido por un grupo de 5 anotadores según el procedimiento detallado por Steidl (2009): Enfado (etiquetado por la letra A, del inglés Anger), que incluye los estados de enfado (en el sentido de molesto), quisquilloso (irritado, como paso previo al enfado) y reprensor. Enfático (etiquetado por la letra E), estado caracterizado por un estilo de habla muy articulado pero carente de emoción. Neutro (etiquetado por la letra N). Positivo (etiquetado por la letra P), incluyendo un estilo maternal (similar al habla dirigida a los niños y niñas pero, en este caso, del niño o la niña dirigidos al robot) y alegre (dado cuando el niño o la niña disfrutan de una situación concreta). Resto (etiquetado por la letra R), una clase que incluye otros estados como los de sorpresa (en un sentido positivo), aburrimiento (falto de interés por la interacción con el robot) e impotencia (dubitativo, una locución llena de disfluencias y pausas). La figura 3.7 muestra cómo se distribuyen los fragmentos del corpus FAU Aibo en las 5 categorías anteriores. Como se puede apreciar, la distribución es poco equilibrada. Así, por ejemplo, la clase mayoritaria (N) consiste en 10.967 locuciones (60,21 % del total) mientras que la clase minoritaria (P) consiste en sólo 889 locuciones (4,88 % del total). El corpus FAU Aibo cuenta un parámetro de afinidad prototípica (véase la sección 3.3.2.2) calculado en base a 5 anotadores involucrados en el proceso de validación. Este parámetro puede tomar valores entre 0 y 1 y, para el caso de este corpus, los valores inferiores a 0,25 se asumen a 0, según se desprende de la observación del mismo. Dado que la clase R se compone de varias emociones dispares la mayor parte de sus locuciones se asocian a un valor de afinidad prototípica igual a 0 (concretamente el 90 % de los fragmentos que reciben esta etiqueta). El resto de casos de esta misma categoría tienen un valor de afinidad prototípica muy bajo. Esto puede observarse en la figura 3.8, la cual muestra el índice de ocurrencia, en porcentaje, de cada etiqueta categórica dentro de 10 intérvalos 3.4. Corpus empleados en esta tesis 65 Número de locuciones 6.000 5.000 4.000 3.000 2.000 1.000 0 Ohm Mont E 2.093 1.508 A 881 611 N 5.590 5.377 R 721 546 P 674 215 Etiqueta emocional Figura 3.7: Distribución de clases del corpus FAU Aibo. equiespaciados de prototipicalidad. Las otras 4 clases se distribuyen a lo largo de los diferentes valores de este parámetro pero sólo unos pocos casos (correspondientes a la clase N en la mayor parte de las ocasiones) alcanzan un valor de afinidad prototípica igual a 1. 100 E A N Índice de ocurrencia (%) 80 R P 60 40 20 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 Intérvalos de afinidad prototípica 0,8 0,9 1 Figura 3.8: Índice de ocurrencia, en porcentaje, de cada etiqueta categórica dentro de cada intérvalo de afinidad prototípica. El margen de afinidad prototípica de 0 a 1 del eje horizontal aparece dividido en 10 intervalos equiespaciados. Dado que los valores de afinidad prototípica inferiores a 0,25 se asumen como 0, no hay ocurrencias en el intérvalo de 0,1 a 0,2 ya que se desplazan al intervalo anterior. 66 3. Corpus y parametrización 3.4.3.2. Parametrización El corpus FAU Aibo está parametrizado a nivel acústico y a nivel lingüístico. La parametrización acústica del corpus FAU Aibo está realizada a nivel segmental. Dicha parametrización se realizó mediante el software openSmile incluido en el paquete openEAR (Eyben et al., 2009). A nivel acústico se extraen 16 descriptores de bajo nivel. Estos descriptores son: la ratio de cruces por cero20 analizada en el dominio temporal de la señal de voz, la energía cuadrática media de la ventana, la F0 normalizada a 500 Hz, HNR y 12 coeficientes MFCC. Además de los parámetros originales se calcula la primera derivada de los mismos. De estos descriptores se calculan 12 funcionales: valor medio, desviación estándar, asimetría, curtosis, extremos, diferencia entre los extremos, posición de los extremos y dos coeficientes de regresión lineal (offset y pendiente) y el error cuadrático medio asociado. Según las consideraciones anteriores, cada elemento del corpus se identifica por 384 parámetros acústicos tal y como se desglosa en la tabla 3.4. Por ejemplo, para la F0 se consideran 2 funciones (original y primera derivada) y los 12 funcionales antes detallados. Tabla 3.4: Detalle de la parametrización del corpus FAU Aibo. F0 Energía ZCR HNR MFCC Total Unidades 1 1 1 1 12 Funciones 2 2 2 2 2 Funcionales 12 12 12 12 12 Total 24 24 24 24 288 384 La parametrización lingüística se basa en la transcripción de las locuciones del corpus proporcionada por sus desarrolladores y se fundamenta en el concepto de prominencia emocional y el cálculo de parámetros de activación detallado en la sección 3.3.2.1. El análisis se realiza a nivel de palabra y a nivel morfológico tal y como se detalla a continuación. Cabe destacar la reducida longitud de las frases del corpus tal y como se ilustra en la figura 3.9, la cual muestra un histograma de la longitud de las locuciones y su distribución, en porcentaje, en el conjunto de entrenamiento. A nivel de palabra, en este trabajo se ha realizado un análisis considerándolas individualmente (unigramas) y en agrupaciones de pares ordenados (bigramas). No se ha considerado el análisis a nivel de palabra en forma de trigramas ya que los modelos podrían no estimarse adecuadamente (Steidl, 2009). Asimismo, la parametrización lingüística también tiene en consideración la cate20 Del inglés, Zero-Crossing Rate (ZCR). 3.4. Corpus empleados en esta tesis 67 30 Porcentaje de casos 25 20 15 10 5 0 1 2 3 4 5 6 7 8 Número de palabras por locución 9 10 Figura 3.9: Histograma de la longitud de las locuciones y su distribución, en porcentaje, en el conjunto de entrenamiento. goría morfológica de cada palabra dentro de la locución en la que aparece mediante el etiquetado POS21 de las locuciones del corpus. Este etiquetado se lleva a cabo mediante la plataforma MARY TTS (Pammi et al., 2010). Posteriormente se realizan agrupaciones en trigramas de estas etiquetas POS, creando grupos ordenados de tres etiquetas tal y como proponen, de forma similar, Zhang et al. (2006). En los casos de bigramas y trigramas se consideran delimitadores al inicio y al final de las locuciones que permiten determinar la posición de las palabras iniciales y finales. El proceso de creación de estas agrupaciones puede verse ilustrado en la figura 3.10. En todos los casos (unigramas, bigramas y trigramas) la parametrización consiste en la extracción de los 5 parámetros de activación descritos en la sección 3.3.2.1, uno para cada una de las 5 categorías emocionales de este corpus. Para mantener la independencia entre los conjuntos de entrenamiento (Ohm) y de prueba (Mont), la lista de elementos emocionales empleada para su cálculo (aquellos que sobrepasan un determinado valor umbral) se calcula considerando únicamente el conjunto de entrenamiento. Asimismo, los parámetros de activación se calculan en ambos conjuntos pero considerando sólo los valores de prominencia emocional y probabilidades a priori del conjunto de entrenamiento. Para determinar el umbral anterior se analizan las palabras más frecuentes, es decir, las que más aparecen el conjunto de entrenamiento. Para ello se analiza el índice de ocurrencia de cada palabra definiendo como frecuentes aquellas cuyo índice se sitúa por encima del tercer cuartil. La media de los valores de prominencia emocional de esas palabras definen el valor umbral que, para este corpus es de 0,3. 21 Del inglés, Part-Of-Speech (POS) tagging. 68 3. Corpus y parametrización Creación de bigramas (a nivel de palabra) INICIO A A A INICIO C B B Creación de trigramas (a nivel de etiquetado POS) B C FIN C FIN A INICIO INICIO A B C B A B C FIN B C FIN Figura 3.10: Proceso de creación de los bigramas y trigramas para los elementos de las locuciones del corpus. En esta figura se muestra, como ejemplo, una locución de 3 elementos (palabras o etiquetas POS, según corresponda). Nótese la adición de las etiquetas delimitadoras al inicio y al final de la locución. El total de parámetros lingüísticos según la parametrización aquí detallada asciende a 15 parámetros (5 parámetros de activación para cada uno de los conjuntos de unigramas y bigramas a nivel de palabra y de trigramas a nivel POS). 3.5. Resumen En este capítulo se han tratado las consideraciones generales para la creación de corpus de voz emocionalmente coloreada, detallando cuatro tipos de expresión vocal: natural, inducida, estimulada y actuada. Si bien la natural es la más realista, la actuada permite un mayor control de las condiciones de grabación y del contenido del corpus, siendo la inducida y la estimulada alternativas a medio camino entre las anteriores. Asimismo, se han descrito diferentes parámetros que pueden ser extraídos de forma automática o semiautomática de los corpus de voz a dos niveles: acústico y lingüístico, según se considere la señal de voz de forma aislada o bien se analice el contenido semántico de las locuciones grabadas. Finalmente se han detallado los tres corpus estudiados en esta tesis, presentando una descripción de los mismos y explicando los parámetros que, de cada uno, se han extraído para su análisis en los experimentos desarrollados en los siguientes capítulos. Capítulo 4 Estado de la cuestión Las últimas décadas han sido testigo del crecimiento de los estudios de reconocimiento afectivo automático. El aumento de la potencia de cálculo de los ordenadores han permitido analizar corpus más extensos y realizar análisis basados en conjuntos de parámetros cada vez mayores. Los principales objetos de análisis han sido la señal de voz, la expresividad facial y las señales fisiológicas, si bien las dos primeras son modalidades más fáciles de captar mediante sensores no invasivos. En este capítulo se analizan algunos de los trabajos más relevantes en el ámbito del reconocimiento afectivo basado en la señal de voz, objeto de esta tesis, sin dejar de observar algunos estudios importantes realizados en base a otras modalidades y su análisis conjunto mediante técnicas de fusión. Se hace un recorrido por las primeras aproximaciones al reconocimiento automático hasta llegar a las tendencias en las que se basan estudios más recientes, señalando también cuáles son las principales aplicaciones de estas investigaciones en ámbitos, a menudo, muy distintos entre sí. 4.1. Antecedentes del reconocimiento emocional El reconocimiento afectivo automático ha llamado la atención de numerosos investigadores en las últimas décadas (Zeng et al., 2009). El trabajo de Suwa et al. (1978), basado en el análisis de la expresividad facial, es uno de los primeros referentes en el reconocimiento automático de emociones. De hecho, la emotividad facial ha sido siempre un referente en los análisis de emociones dada la claridad de su expresión tanto en animales como en humanos, mostrándose además como un rasgo intercultural (Darwin, 1872). Sin embargo, no sólo la expresividad facial ha sido objeto de análisis en el pasado. Trabajos como los de Williams y Stevens (1972) y Scherer (1979) son precursores en el establecimiento de unas referencias acerca de cómo las emociones se expresan a través del habla. 69 70 4. Estado de la cuestión En 1989, la herramienta The Affect Editor (Cahn, 1989) se convierte en una muestra de cómo se puede realizar un análisis emocional a partir de la síntesis de voz con coloración afectiva. La herramienta es una aplicación de síntesis de voz que implementa un modelo acústico del habla y genera las instrucciones para producir el efecto indicado mediante la modificación de cuatro categorías de parámetros. Las categorías se refieren al tono, el ritmo, la VoQ y la articulación. El modelo acústico considera todos estos parámetros independientes entre sí. En los test perceptivos llevados a cabo sobre las locuciones creadas mediante esta herramienta se documentó una tasa de reconocimiento de emociones básicas del 78,7 %. Sin embargo, el sintetizador de voz (al cual se adapta la parametrización del modelo acústico), y la incompleta descripción de los fenómenos acústicos y perceptivos limitan la autenticidad de las emociones sintetizadas. Intentado evitar los inconvenientes del sistema anterior, Rodríguez et al. (1999) presentan un modelo de la expresión emocional en español, posteriormente validado por Iriondo et al. (2000). El estudio parte de la hipótesis que considera que la voz es susceptible a las alteraciones fisiológicas producidas en el organismo al experimentarse una emoción. Estudia siete emociones básicas: alegría, deseo, enfado, miedo, sorpresa, tristeza y asco. En un análisis acústico posterior se observan los parámetros referentes a la F0, presión sonora y ritmo y se estudia la representación gráfica de las locuciones en forma de oscilograma, curva de F0 y curva de presión sonora. De este estudio acústico se presentan modelos válidos para seis de las siete emociones consideradas, siendo asco la que queda fuera de la modelización propuesta. La validación de este modelo por Iriondo et al. (2000) consiste en su aplicación a un conversor texto-voz capaz de modificar los parámetros antes citados. Sin embargo, aunque el trabajo de Iriondo et al. (2000) supone un avance importante respecto al considerado inicialmente por Cahn (1989)1 , el análisis afectivo es realizado manualmente y no de forma automática. En el planteamiento de un modelo de reconocimiento adaptado a un sujeto de manera individual es inviable considerar la repetición de un estudio como el antes indicado. Aún en el caso de pretender un reconocimiento genérico, readaptar el modelo anterior resultaría muy costoso. Es por esto que el planteamiento lógico consiste en automatizar el proceso mediante técnicas de aprendizaje artificial como las propuestas por Litman y Forbes-Riley (2003) y Oudeyer (2003). El proyecto PHYSTA (Kollias y Piat, 1999), desarrollado entre los años 1998 y 2001, es una muestra del interés por el desarrollo de un sistema artificial de descodificación emocional mediante el empleo de técnicas de inteligencia artificial y redes neuronales. Algunos de los trabajos desarrollados en el marco de este proyecto introducen la consideración de las emociones como elementos multidimensionales. Actualmente el campo del análisis emocional basado en la señal de voz sigue siendo ampliamente investigado como lo demuestra la red de excelencia financiada por la Unión Europea HUMAINE2. 1 En tanto que parte de un modelo acústico preciso partiendo del exhaustivo análisis realizado por Rodríguez et al. (1999). 2 http://emotion-research.net 4.2. Aplicaciones del reconocimiento emocional automático 71 Dadas las facilidades para el procesado de señales audiovisuales, tanto para la extracción de parámetros como para su posterior análisis mediante técnicas de aprendizaje artificial, en la última década han aumentado los trabajos vinculados al reconocimiento afectivo automático. El trabajo de Oudeyer (2003) es el primer trabajo a gran escala que emplea técnicas de minería de datos para analizar un conjunto extenso de parámetros vocales según diversos algoritmos de aprendizaje. Existen varios estudios que realizan una recopilación y un análisis de trabajos llevados a cabo dentro de este ámbito como los realizados por Cowie et al. (2001) y Pantic y Rothkrantz (2003), centrados en el análisis de la expresión facial y vocal, y los más recientes realizados por Ververidis y Kotropoulos (2006) y Zeng et al. (2009), analizando también la expresión facial y vocal a excepción del último que se centra en la expresión vocal unicamente. Existen, sin embargo, grandes diferencias entre los estudios de reconocimiento que emplean corpus actuados y los que emplean corpus espontáneos, así como también dificultades a la hora de comparar los diversos tipos de trabajos realizados dada la multitud de métricas, entornos y aplicaciones en las que se fundamentan los diversos investigadores (Schuller et al., 2011). 4.2. Aplicaciones del reconocimiento emocional automático Por lo general, la inclusión de inteligencia emocional en herramientas de inteligencia artificial puede mejorar los procesos de interacción persona-máquina (Picard et al., 2001; Cowie et al., 2001). Sin embargo, esta afirmación es demasiado general. Se pueden encontrar casos concretos en los que los estudios de reconocimiento afectivo automático (o, en general, los intentos de reproducir el canal implícito de la comunicación humana en sistemas automáticos) tienen un objetivo específico muy bien definido. Cowie et al. (2001) describen varios campos de aplicación enumerándolos de los de ámbito más general a los de ámbito más concreto: convergencia, interacción entre los canales de comunicación, asistencia a la evaluación, desambiguación, producción, tutorías, desvío, alerta y entretenimiento. Si bien muchos estudios se llevan a cabo de forma general, una parte de los mismos puede ubicarse dentro de los campos anteriores. Convergencia e interacción entre los canales de comunicación. La detección del estado afectivo del usuario permite a una aplicación converger en una serie de parámetros vocales, aspecto que en una comunicación entre humanos muestra simpatía y que, de no producirse, denota indiferencia o falta de empatía. Por otra parte, el canal implícito indica cómo debe considerarse el mensaje del canal explícito, dado que unas mismas palabras, por ejemplo, pueden considerarse en serio o como un chiste según la manera en la que se pronuncian. Una aplicación debe interpretar el canal implícito para poder gestionar correctamente una conversación. En este ámbito, cuyo objetivo es favorecer la comunicación fluida entre la persona y la máquina, se circunscriben trabajos como los de Cañamero y Fredslund (2001); Lee y Narayanan (2005); Maria y Zitar (2007); de Melo et al. (2010) o el descrito por Pous y 72 4. Estado de la cuestión Ceccaroni (2010) en el marco del proyecto INterfaces de RElación entre el entorno y las personas con DIScapacidad (INREDIS)3 . Asistencia a la evaluación humana. Una de las aplicaciones del reconocimiento afectivo automático es la valoración o el enjuiciamiento de una persona, por ejemplo en la asistencia médica en la detección de la esquizofrenia (McGilloway et al., 2003; Rapcan et al., 2010) o en la detección de mentiras (Gadallah et al., 1999; Enos, 2009; Mihalcea y Strapparava, 2009). Sin embargo, existe controversia acerca de los sistemas comerciales destinados a esta última aplicación (Eriksson y Lacerda, 2007). Desambiguación. Dado que el estado afectivo modifica los rasgos prosódicos de la voz y que estos también se ven afectados por el momento específico en el que se halla una conversación (por ejemplo, en una fase inicial, de negociación o de acuerdo final), una aplicación debe interpretar adecuadamente estas señales para reconocer el mensaje subyacente de la conversación. En el ámbito de una negociación, por ejemplo, no es lo mismo negociar con un agente enfadado que con uno alegre y este comportamiento puede reflejarse también en la interacción persona-máquina (Broekens et al., 2010; Ochs y Prendinger, 2010; de Melo et al., 2011). Producción. El reconocimiento afectivo puede emplearse para detectar y aprender las sutilezas del habla emocionalmente coloreada para, posteriormente, aplicarlas en sistemas de síntesis de voz expresiva (Schröder et al., 2001; Přibil y Přibilová, 2009; Barra, 2011), o bien para dotar de la expresividad adecuada a las locuciones generadas por sistemas de conversión de texto a voz (Bhutekar y Chandak, 2012). Tutores automáticos. En aplicaciones de formación y educación (sobre todo en las no presenciales) puede resultar interesante disponer de tutores automáticos que guíen a los alumnos a lo largo de su aprendizaje. En este tipo de aplicaciones, la identificación de su estado afectivo permitiría determinar el nivel de comprensión de las materias y detectar si los ejemplos propuestos son bien recibidos o, por el contrario, resultan confusos, aburridos o repetitivos (Litman y Forbes-Riley, 2003, 2006; Hollingsed y Ward, 2007; Litman et al., 2012). De esta forma el sistema podría adaptar los contenidos de manera personalizada a cada alumno en función de su estado. Desvío. En aplicaciones que realizan tareas de funcionariado (asistentes personales, proveedores de información, etc.) el reconocimiento afectivo puede derivar las peticiones de los usuarios que escapan al dominio de la aplicación a otras aplicaciones o empleados humanos preparados para manejarlas, o proporcionar nuevas respuestas adecuadas a la 3 Proyecto CEN-20072011 enmarcado en la iniciativa INGENIO 2010 del gobierno español. 4.3. Conceptos previos 73 situación detectada. Estas aplicaciones son de interés, por ejemplo, en centros de llamadas (Morrison et al., 2007; Gupta y Rajput, 2007), o como un módulo adicional a los sistemas de tutoría automática (Kapoor et al., 2007). Alerta. En ocasiones es necesario alertar del estado afectivo de un individuo cuya atención está puesta en otras circunstancias, como por ejemplo un usuario de un servicio de información que está en apuros (como el servicio desarrollado en el marco del proyecto INREDIS), o bien es interesante detectar el estado afectivo de un individuo como medida de seguridad (Bullington, 2005; Clavel et al., 2008; Wang y Fang, 2008). Entretenimiento. El sector del entretenimiento sería, probablemente, la principal aplicación comercial del reconocimiento afectivo automático, pudiéndose emplear en videojuegos que reconozcan el estado emocional del jugador (Yildirim et al., 2011), que detecten si el jugador se está aburriendo (Giakoumis et al., 2011), en “juegos serios” con aplicación, por ejemplo, en tratamientos psicológicos (Kostoulas et al., 2012), personajes de mundos virtuales (Gratch y Marsella, 2001), mascotas virtuales que adapten su actividad al estado anímico de su dueño mostrando comportamientos más complejos y emulando empatía (Picard, 2000) o robots que interpreten el estado emocional de su propietario (Oudeyer, 2003). 4.3. Conceptos previos Como se ha visto en la sección 4.1 y como se verá a continuación con más detalle, el reconocimiento afectivo automático puede ser abordado desde diferentes perspectivas. Ello favorece múltiples planteamientos para un mismo tema que, a menudo, dificultan la comparativa entre los distintos trabajos llevados a cabo en este ámbito de investigación. Las dos arquitecturas predominantes en el reconocimiento afectivo automático son el procesado dinámico de los descriptores de bajo nivel y el procesado estático usando información suprasegmental a través de la extracción de descriptores estadísticos de esos mismos descriptores de bajo nivel (Schuller et al., 2009). Esta tesis se centra en el procesado estático, lo que supone el empleo de diversos algoritmos de aprendizaje (técnicas de clasificación para estudios categóricos o de regresión para estudios dimensionales, habitualmente) los cuales deben ser analizados de forma adecuada. A continuación se detallan algunos aspectos comunes en la mayor parte de los estudios de este ámbito. 74 4. Estado de la cuestión 4.3.1. Principales modalidades analizadas en el reconocimiento afectivo automático y procedimientos para su fusión Existen estudios de reconocimiento afectivo automático basados en diversas modalidades si bien las tres principales son la señal de voz, la expresión facial y las señales fisiológicas. Tal y como se ha detallado, a nivel vocal se pueden considerar análisis prosódicos, de VoQ e, incluso, a nivel léxico, extrayendo información del contenido del mensaje expresado mediante el habla. Estas son modalidades propias del habla y su estudio, a pesar de estar centrado únicamente en la señal de voz, puede considerarse multimodal y emplear técnicas de fusión propias de este ámbito. De forma general, la multimodalidad entendida a nivel de expresión a través de señales distintas es una forma natural de comunicación (Oviatt, 2002; Sebe et al., 2005). Así pues, un sistema podría reconocer el habla y los gestos del usuario para poder interactuar con él a través de avatares virtuales capaces de sintetizar voz emocionada y expresar, de forma visual, estados afectivos concretos. Oviatt (2002) define una serie de conceptos básicos relacionados con la multimodalidad entre los que destacan la diferenciación entre modos de entrada activos (aquellos que son empleados intencionadamente por el usuario para dirigir una orden explícita a la interfaz) y los pasivos (los relacionados con la conducta y las acciones que el usuario desarrolla de forma natural y que son reconocidos —idealmente mediante sensores no invasivos— por la interfaz, como por ejemplo la expresión facial o la gesticulación manual), el concepto de interfaces multimodales mixtas (que incorporan al menos un modo de entrada activo y otro pasivo), las interfaces en cascada (que procesan dos o más modos del usuario de forma secuencial en el tiempo), y el concepto de desambiguación mutua (la que permite discriminar la información en sistemas que cuentan con una modalidad propensa al error haciendo uso de otras modalidades más robustas). La figura 4.1 muestra el esquema de un sistema bimodal (Sebe et al., 2005), si bien podría completarse añadiéndole otras modalidades como la táctil o la relacionada con señales fisiológicas. El análisis de las diversas señales de entrada es lo que se entiende por fusión multimodal4 . Ya sea el análisis de señales procedentes de diversos sensores o bien de aspectos derivados de un mismo sensor, existen varias formas de realizar esta fusión. Zeng et al. (2009) describen los tres tipos de fusión más representativos en estos trabajos: Fusión a nivel de parámetros. También conocida como fusión temprana5 . Consiste en fusionar los parámetros antes de que estos sean procesados por los algoritmos de aprendizaje en una etapa posterior. Fusión a nivel de decisión. También conocida como fusión tardía6 o a nivel de clasificadores. Consiste en procesar independientemente cada modalidad y luego fusio4 Por el contrario, la fisión multimodal hace referencia a la unión de diversos elementos a la salida del sistema (voz sintética, gráficos, etc.). 5 Del inglés, early fusion. 6 Del inglés, late fusion. 4.3. Conceptos previos 75 Reconocimiento del habla Micrófono ... Reconocimiento afectivo Posición de la cabeza Cámara Expresión facial Dispositivo Reconocimiento gestual ... Postura corporal Agente animado Voz sintética Figura 4.1: Esquema de interacción persona-máquina bimodal. Adaptado de (Sebe et al., 2005). nar los resultados en la etapa final. Lo más común es emplear una estrategia de stacking (véase también la sección 4.3.3.4). El método de stacking más simple es una votación que puede ser ponderada o no. Otras técnicas más complejas intentan aprender una serie de reglas por parte de un clasificador específico (que recibe el nombre de clasificador de nivel 1), que mejoren la clasificación de cada clasificador individual (clasificadores de nivel 0) (Witten y Frank, 2005). Fusión híbrida. Intenta combinar los beneficios de los dos tipos previos de fusión si bien es un modelo menos explorado que los anteriores. Tal y como se ha explicado, estas técnicas de fusión no son exclusivas para datos procedentes de distintos sensores y pueden emplearse para fusionar información procedente de distintos análisis de una misma modalidad amplia como, por ejemplo, el habla, tal y como se verá en las siguientes secciones. Además, técnicas como el stacking permiten también fusionar resultados de varios clasificadores que analizan un mismo conjunto de datos pero en base a distintos planteamientos o mediante técnicas diferentes. En un caso como este no se pretende fusionar la información de varios conjuntos de datos sino 76 4. Estado de la cuestión aprovechar la redundancia de los clasificadores independientes para conseguir mayor robustez en el resultado a partir de su combinación (Bezdek et al., 1999). 4.3.2. Selección de parámetros Los corpus, a menudo, cuentan con parametrizaciones exhaustivas que suponen un gran volumen de datos. Este volumen se ve incrementado, además, si se incorpora el estudio de diversas modalidades. Por otra parte, a un algoritmo de clasificación le puede resultar difícil procesar un volumen muy grande de datos de forma eficiente y más si existe redundancia entre ellos. En muchas ocasiones, un número elevado de parámetros lleva asociado un subconjunto de datos que podrían considerarse irrelevantes y ser eliminados sin que se degradara la tasa de clasificación o llegando, incluso, a mejorarla (Witten y Frank, 2005). Existen técnicas que, de forma automática, pueden reducir la dimensionalidad de un conjunto de datos seleccionando los parámetros más relevantes. Estas técnicas, de forma general, pueden seguir dos enfoques (Langley, 1994; Guyon y Elisseeff, 2003): métodos de filtro7 y métodos de envoltura (o envolventes)8 . Métodos de filtro. Se basan únicamente en las características de los datos. Los parámetros se seleccionan antes de iniciarse el proceso de aprendizaje mediante un algoritmo específico. Esta selección es independiente del clasificador posterior. Un ejemplo de método de filtro es el que sigue el criterio de mínima redundancia y máxima relevancia (Minimal-Redundancy Maximal-Relevance (mRMR)) (Peng et al., 2005), cuyo objetivo es seleccionar parámetros mutuamente excluyentes cuya relevancia sea lo mayor posible hacia la etiqueta categórica de cada caso. Métodos de envoltura. Se crean subconjuntos de parámetros mediante un proceso de búsqueda que después son evaluados mediante un clasificador específico. En este caso la complejidad computacional es más elevada que en los métodos de filtro. Un ejemplo de método de envoltura son los algoritmos de búsqueda voraz9 . Muchos métodos de selección de parámetros en general y los de envoltura en particular llevan asociados una fase de búsqueda en el espacio de parámetros. Esta fase crea subconjuntos de parámetros candidatos a ser los que mejor predicen la clase final. Es por ello que se hace necesaria otra fase, la de evaluación, para medir la capacidad predictiva de estos subconjuntos. Esta fase de evaluación puede emplear el mismo clasificador que se empleará posteriormente durante la explotación del sistema o bien un algoritmo específico (Witten y Frank, 2005). Uno de los métodos de búsqueda más habituales es el método de búsqueda voraz. Estos métodos son iterativos y pueden ser incrementales o decrementales, dependiendo 7 Del inglés, filter methods. Del inglés, wrapper methods. 9 Del inglés, greedy search. 8 4.3. Conceptos previos 77 de la dirección que se tome para recorrer el espacio de parámetros. Así pues, en cada iteración se realiza un cambio local en el subconjunto actual añadiendo o eliminando un parámetro. En la búsqueda incremental el proceso se inicia sin parámetros y se añade uno en cada paso mientras que en la búsqueda decremental el proceso se inicia con el conjunto de datos completo y se elimina uno en cada iteración. La fase de evaluación tiene lugar en cada paso en el que se añade o se elimina, tentativamente, un parámetro, analizando los subconjuntos resultantes. La fase de evaluación genera una medida del rendimiento previsto de los subconjuntos. En cada paso se escoge el mejor y el proceso continúa. El proceso se detiene cuando la adición o la eliminación de un parámetro, en los casos de búsqueda incremental y decremental, respectivamente, no mejoran el rendimiento de los subconjuntos. También puede considerarse una estrategia mixta que combine ambos métodos de búsqueda creando una de tipo bidireccional como la propuesta por Iriondo et al. (2007b), en la que se define una estrategia de selección de atributos basada en una búsqueda voraz de p pasos hacia delante (fase de proceso incremental) y q pasos hacia detrás (fase de proceso decremental). Esta estrategia se representa por el acrónimo pFW-qBW10 , siendo p y q dos números enteros positivos que verifican que p > q. Otro método de búsqueda empleado habitualmente, y que proporciona buenos resultados en experimentos de reconocimiento afectivo (Oudeyer, 2003; Planet et al., 2006), es el algoritmo genético que sigue el esquema clásico descrito por Goldberg (1989). En la fase de evaluación vinculada a este método de búsqueda se puede emplear, nuevamente, cualquier algoritmo de clasificación si bien puede resultar conveniente usar un algoritmo que no sea el que finalmente se emplee como clasificador en el sistema de reconocimiento. Empleando un clasificador distinto se puede crear un conjunto de datos óptimo en base a alguna propiedad determinada y que sea, por lo tanto, más genérico, intentando así evitar que se cree un vínculo demasiado estrecho al clasificador escogido. En este sentido, el algoritmo descrito por Hall (1998) permite evaluar los diferentes individuos de las poblaciones generadas por el algoritmo genético11 favoreciendo a aquellos cuyos parámetros están altamente correlados con la clase y presentan, a la vez, una baja correlación cruzada. Este es el método escogido en los experimentos de la presente tesis en los que se aplica este algoritmo genético. 4.3.3. Algoritmos de clasificación Como se ha comentado al inicio de esta sección, en esta tesis se adopta el procesado estático de los descriptores de bajo nivel. En los próximos capítulos se proponen algunas estructuras de clasificación complejas basadas en algoritmos más sencillos los cuales también se analizan de forma independiente. A continuación se introducen algunos de estos 10 FW hace referencia a la fase de proceso incremental (del inglés, forward) y BW hace referencia a la fase de proceso decremental (del inglés, backward). 11 En la terminología de la computación evolutiva una población es un conjunto de individuos que evoluciona según reglas similares a la evolución biológica. Aplicada en el ámbito de la selección de parámetros, un individuo es un subconjunto concreto del conjunto de parámetros original. 78 4. Estado de la cuestión algoritmos de clasificación, considerando aquellos que muestran una mayor adecuación al estudio del reconocimiento afectivo automático según los trabajos realizados por diversos investigadores en el estado de la cuestión tal y como se recoge en la sección 4.4. Las explicaciones aquí presentadas no pretenden ser exhaustivas sino que su intención es servir como referencia y se remite al lector a las citas bibliográficas para obtener una visión completa de estos algoritmos de clasificación. 4.3.3.1. Árboles, reglas y tablas de decisión Un árbol de decisión funciona evaluando los parámetros por los que se define un caso a clasificar en cada uno de los nodos que forman el modelo. Los casos que, partiendo de la raíz, llegan a una determinada hoja reciben la clasificación que esta indica. El algoritmo se puede expresar recursivamente y consiste en seleccionar un parámetro a partir del cual hacer una subdivisión de los datos obteniendo tantos subconjuntos como valores posibles pueda tomar este. El proceso se repite iterativamente para cada división hasta que todos los casos de una misma rama reciben la misma clasificación o se alcanza un umbral predefinido. El algoritmo J4.8 (Witten y Frank, 2005) es un algoritmo de creación de árboles de decisión basado en entropía que adapta el algoritmo C4.5 (Quinlan, 1993). C4.5 es, a su vez, el resultado de una serie de mejoras del algoritmo ID3 (Quinlan, 1986) que, para determinar los parámetros que definen cada uno de los nodos, utiliza los conceptos de información y ganancia de información tal como se describe a continuación. Sea S un conjunto de casos en el que se definen dos clases, P y N , sean p y n los respectivos números de casos de las clases anteriores, A el parámetro propuesto para definir un nodo del árbol, v el número de subconjuntos de S que se forman en el nodo definido por este parámetro, y pi y ni el número de casos del subconjunto Si (∀i ∈ [1, v]). La ganancia de información del parámetro A se denota por G(A) y se define por la ecuación 4.1. El parámetro que maximiza la expresión de G(A) definirá el nodo12 . G(A) = I(p, n) − E(A) (4.1) n p n p log2 − log2 p+n p+n p+n p+n (4.2) Donde: I(p, n) = − E(A) = v pi + n i i=1 12 p+n I(pi , ni ) (4.3) Para que el algoritmo J4.8 pueda tratar parámetros numéricos se adopta una solución que permite divisiones binarias en los nodos (Witten y Frank, 2005). 4.3. Conceptos previos 79 Las reglas de decisión pueden considerarse, en parte, similares a los árboles antes descritos (Witten y Frank, 2005) y, a menudo, se crean a partir de ellos. Un algoritmo comúnmente empleado es el algoritmo PART (Frank y Witten, 1998) el cual crea reglas a partir de árboles de decisión podados. Mediante esta poda se consigue reducir el número de reglas creadas, por lo que presenta un buen rendimiento aún si el número de casos de entrenamiento es elevado. Consiste en la creación de una regla que considera la hoja de un árbol de decisión que cubre el máximo número de casos. A continuación se eliminan todos aquellos que ya son abarcados por esta regla y se repite el proceso con los casos restantes hasta que se ha iterado con todos los disponibles. Por su parte, las tablas de decisión suelen ser un método rudimentario para representar la información de un algoritmo de aprendizaje y lo hacen representándola tal como son los datos de entrada. No es trivial, sin embargo, determinar qué parámetros son irrelevantes para poder resumir dichas tablas. Así, por ejemplo, Kohavi (1995) describe un algoritmo de creación de tablas de decisión que emplea un método de envoltura (véase la sección 4.3.2) para determinar el mejor conjunto de parámetros que define la tabla de decisión. 4.3.3.2. Aprendizaje basado en casos Los clasificadores basados en casos13 almacenan los casos del conjunto de datos de entrenamiento convenientemente procesados (Aha et al., 1991). Para clasificar una nueva muestra se emplea una función de distancia que evalúa qué caso o casos del conjunto de entrenamiento son los más próximos a ella. Por eso suele referirse a ellos como algoritmos k-Nearest Neighbour (KNN) o de los k vecinos más próximos. De forma general, la nueva muestra se clasifica con la etiqueta mayoritaria de los k casos más próximos, aunque también es habitual considerar el valor concreto de k = 1 asignando a la nueva muestra la etiqueta del caso más cercano. La principal diferencia entre los algoritmos de este tipo es la función de distancia escogida. Así, por ejemplo, es habitual el empleo de la distancia euclídea o de la distancia Manhattan para medir la proximidad entre los casos, aunque pueden considerarse otras como en el caso del algoritmo K* (Cleary y Trigg, 1995), que usa una función de distancia basada en entropía. 4.3.3.3. Clasificadores probabilísticos y basados en funciones Naïve-Bayes es un clasificador probabilístico que parte de la premisa de que cada par parámetro-valor de un mismo caso es independiente del resto14 . A cada par parámetrovalor se le asigna una probabilidad de pertenencia a una clase. Para ello se divide el nú13 14 Del inglés, instance based. De ahí el nombre del clasificador: naïve (del inglés, ingenuo). 80 4. Estado de la cuestión mero de casos de cada clase en los que aparece ese par entre el número de casos que pertenecen a esa clase. Para clasificar un caso nuevo se calcula la probabilidad de pertenencia de ese caso a cada clase, clasificándolo en la clase donde dicha probabilidad sea mayor adoptando un criterio de estimación Maximum A Posteriori (MAP). Esta probabilidad de pertenencia se calcula como el producto de la probabilidad de pertenencia a cada clase de cada uno de los pares parámetro-valor que definen el caso a clasificar. El algoritmo Naïve-Bayes se basa en la regla de Bayes de probabilidad condicional expresada en la ecuación 4.4, la cual relaciona la probabilidad de la hipótesis H dada la evidencia E a través de la expresión p(H|E) —en la que la hipótesis H es la clasificación de un caso en una clase concreta y la evidencia E es la descripción de este caso definido por E = (E1 , E2 , . . . , En ), donde Ei es cada uno de los pares parámetro-valor— con la probabilidad de la evidencia dada la hipótesis p(E|H) y la probabilidad a priori de la hipótesis p(H), siendo estas dos últimas probabilidades fácilmente calculables a partir la observación de los casos ya conocidos y etiquetados tal como se ha descrito en el párrafo anterior y como se describe en la ecuación 4.515 . p(H|E) = p(E|H)p(H) p(E) p(E|H) = p(E1 |H)p(E2 |H) . . . p(En |H) (4.4) (4.5) En el caso de que algún parámetro sea numérico se le asume una distribución de probabilidad normal, tal como se expresa en la ecuación 4.6, considerando que el parámetro Pi adopte el valor x, donde μ y σ son la media y la desviación estándar de la distribución, respectivamente16 . p(Pi = x|H) = √ −(x−μ)2 1 e 2σ2 2πσ (4.6) Otro método comúnmente empleado en experimentos de clasificación afectiva son los clasificadores SVM. De forma resumida, se pueden describir como esquemas de clasificación que extienden las características de los modelos lineales permitiendo realizar la distinción entre clases que presentan límites de decisión no lineales. Para ello se transforman los datos originales mapeándolos de forma no lineal en un nuevo espacio de dimensión superior. En este nuevo espacio se construye un modelo lineal que sea capaz de representar un límite de decisión no lineal en el espacio original. Este modelo lineal recibe el nombre de hiperplano de margen máximo y permite realizar la separación máxima entre los datos pertenecientes a dos clases diferentes. Las muestras más próximas al hiperplano reciben el nombre de vectores de soporte. El valor de p(E) no es relevante dado que se podrá ignorar al normalizar los resultados. Sin embargo, esta asunción no es correcta en la mayoría de los casos y se comprueba una sustancial mejora en los resultados de clasificación si los parámetros numéricos se discretizan previamente. 15 16 4.3. Conceptos previos 81 Asumiendo que la clase pueda tomar únicamente los valores {−1, 1} la expresión del hiperplano de margen máximo es la descrita por la ecuación 4.7, donde yi es la clasificación de la muestra de entrenamiento ai y a es la muestra a clasificar. Ambas muestras están expresadas como vectores y multiplicadas según el producto escalar. Los vectores ai son los vectores de soporte. Los términos αi y b son parámetros a determinar por el algoritmo de entrenamiento abordando un problema de optimización cuadrática con restricciones, el cual puede ser realizado de forma eficiente si se adoptan algoritmos específicos para este tipo de esquemas de aprendizaje como, por ejemplo, el de optimización secuencial mínima (Platt, 1998). K(x, y) es la función de transformación y recibe el nombre de kernel. Su finalidad es transformar los datos para facilitar su separación por el hiperplano de margen máximo. Puede ser de varios tipos siendo los polinómicos los más habituales. x=b+ n i=1 αi yi K(ai · a) (4.7) Otros sistemas de clasificación habituales son las redes neuronales, y en menor medida, los sistemas de regresión logística. 4.3.3.4. Metamétodos Los metamétodos son esquemas de clasificación que combinan las decisiones de distintos modelos para asignar una única clase a cada caso clasificado. Los técnicas generales son bagging, boosting y stacking. La técnica bagging17 intenta neutralizar la inestabilidad de un algoritmo de clasificación y consiste en crear, de forma aleatoria a partir del conjunto de datos de entrenamiento, subconjuntos con los que se crean diferentes modelos mediante su evaluación con un clasificador específico. Cada modelo se valora igual que los demás y la clasificación final para una muestra consiste en escoger la más frecuente de las predichas por cada modelo. La técnica boosting intenta mejorar la precisión de un modelo de aprendizaje. El algoritmo descrito por Freund y Schapire (1996) es también iterativo pero en esta ocasión se analiza el conjunto de datos completo y cada modelo construido tiene en cuenta el error de los modelos anteriores. Para ello se asignan pesos iguales a todos los casos del conjunto de entrenamiento y, en cada iteración, los pesos se actualizan según el error de clasificación del modelo en función de si el caso se clasifica correcta o incorrectamente. Finalmente, para realizar la predicción, los modelos son combinados usando un voto ponderado. El peso de la predicción de cada modelo para una muestra se calcula en función del error de clasificación e según la ecuación 4.8. e = − log 17 Abreviatura de bootstrap aggregating. e 1−e (4.8) 82 4. Estado de la cuestión La técnica stacking18 difiere de las dos anteriores en que, por lo general, no combina modelos creados con el mismo algoritmo de clasificación sino que se aplica a modelos construidos a partir de clasificadores de nivel 0 distintos. Existen diversos métodos para realizar esta combinación. Los dos más empleados son la técnica de voto mayoritario, en la que la clase asignada a cada caso se corresponde con la que la mayor parte de los clasificadores asigna de manera individual, o empleando un clasificador adicional de nivel 1 que actúa de árbitro. Este clasificador se entrena de forma supervisada con los resultados de clasificación individuales de los otros clasificadores para, posteriormente, asignar una clase a cada nuevo caso. 4.3.4. Medidas del rendimiento de los algoritmos de reconocimiento Los resultados de los algoritmos de aprendizaje responsables de realizar la clasificación de un conjunto de casos, lo que supone la asignación una etiqueta categórica concreta a partir de un conjunto de casos previamente analizados, pueden ser medidos conforme a diversas métricas. Las más habituales en estudios de reconocimiento afectivo son las que se detallan a continuación. 4.3.4.1. Métricas por categoría Hay tres métricas principales para medir el rendimiento de un clasificador estudiando por separado cada categoría emocional: precisión, cobertura y medida F1. Estas métricas a menudo suelen ser un dato informativo adicional a otras medidas como las tasas de clasificación globales, como sucede en los trabajos de Litman y Forbes-Riley (2003), Grimm et al. (2007) y Busso et al. (2009). Precisión. La precisión mide qué cantidad de información de la que devuelve el clasificador es correcta, expresada como el porcentaje de casos de una categoría concreta que son correctamente clasificados respecto al total de casos que reciben (correctamente o no) esa misma etiqueta categórica. La ecuación 4.9 muestra el cálculo de la precisión de la categoría c donde V Pc representan los casos de esa categoría correctamente clasificados (verdaderos positivos) y F Pc representan los casos de otras categorías que, incorrectamente, reciben esa etiqueta categórica (falsos positivos). precisiónc = V Pc V Pc + F Pc (4.9) Cobertura. La cobertura mide cuánta información relevante ha extraído el clasificador, expresada como el porcentaje de casos correctamente clasificados en una categoría res18 Abreviatura de stacked generalization. 4.3. Conceptos previos 83 pecto al total de casos que realmente pertenecen a esa categoría. La ecuación 4.10 muestra el cálculo de la cobertura de la categoría c donde, en este caso, F Nc representa el número de casos de esta categoría que reciben, incorrectamente, una etiqueta categórica distinta (falsos negativos). coberturac = V Pc V Pc + F Nc (4.10) Medida F1. La medida F1 intenta caracterizar el rendimiento de un clasificador mediante un único valor. Para ello se promedian de forma armónica los parámetros anteriores según la ecuación 4.11. La ecuación 4.12 muestra la expresión genérica de la ecuación anterior, según se desee otorgar un mayor peso a la medida de la precisión o a la de la cobertura, para valores del parámetro β dentro de los números reales positivos. Así, un valor de β = 2 supone que la cobertura se pondera con el doble de peso que la precisión mientras que un valor de β = 0, 5 supone que la precisión se pondera con el doble de peso que la cobertura. 2 × precisiónc × coberturac precisiónc + coberturac (4.11) (1 + β 2 ) × (precisiónc × coberturac ) β 2 × precisiónc + coberturac (4.12) F1c = Fβc = 4.3.4.2. Métricas globales Las métricas globales consideradas en esta tesis son la tasa de clasificación ponderada y la tasa de clasificación no ponderada. Ambas valoran, de forma general, el rendimiento de un clasificador en base al número de casos correctamente clasificados, si bien presentan definiciones diferentes. Tasa de clasificación ponderada — Weighted Average Recall (WAR). La tasa de clasificación ponderada, conocida por su acrónimo en inglés como WAR, se calcula como la proporción de casos correctamente clasificados con respecto al número de casos totales, tal y como se muestra en la ecuación 4.13. Determina, básicamente, el porcentaje de casos que se clasifican correctamente. En este caso no se tiene en cuenta el análisis detallado por clase ya que los verdaderos positivos (V P ) y los falsos negativos (F N ) hacen referencia a la totalidad de los casos del conjunto de datos a clasificar. WAR = número de casos correctamente clasif icados VP = V P + FN número total de casos (4.13) 84 4. Estado de la cuestión En esta métrica prima el volumen de casos correctamente clasificados sin considerar si proceden de clases mayoritarias o minoritarias en el caso de conjuntos de datos no equilibrados. Es la métrica más comúnmente empleada en los trabajos de reconocimiento afectivo, como los de Polzin y Waibel (2000), Oudeyer (2003), Litman y Forbes-Riley (2003), Hassan y Damper (2009) y, en general, de todos aquellos que analizan corpus equilibrados. Tasa de clasificación no ponderada — Unweighted Average Recall (UAR). La tasa de clasificación no ponderada, conocida por su acrónimo en inglés como UAR, a diferencia de la WAR sí tiene en consideración el número de casos que componen cada clase de manera que puede resultar más útil para medir el rendimiento de un clasificador que maneja un conjunto de datos poco equilibrado. La ecuación 4.14 muestra el cálculo de esta medida, donde |C| es el número de clases. |C| UAR = c=1 coberturac |C| (4.14) Cabe señalar que para el caso de un conjunto de datos equilibrado, es decir, con el mismo o muy similar número de casos para cada clase, las medidas WAR y UAR son idénticas. Esto no es así si el conjunto de datos no está equilibrado. La medida UAR, en ese caso, calcula el rendimiento del clasificador valorando por igual todas las clases, ya sean mayoritarias o minoritarias. Los trabajos que emplean la medida UAR están asociados habitualmente a estudios de corpus no equilibrados como, por ejemplo, los de Lee et al. (2009), Kockmann et al. (2009) y Vogt y André (2009), todos ellos asociados al corpus FAU Aibo. Diferenciación entre ambas tasas de clasificación. De forma general, un valor elevado de WAR indica que un clasificador es capaz de clasificar correctamente un gran número de casos, sin importar la clase a la que pertenezcan. Por otra parte, un valor elevado de UAR indica que un clasificador es capaz de clasificar correctamente un gran número de casos de cada clase. Un valor elevado para ambas medidas indica que un clasificador es capaz de clasificar un gran número de casos y que, al mismo tiempo, lo hace de forma óptima para cada clase. Si el valor de UAR es elevado pero no lo es el valor de WAR, es señal de que el clasificador clasifica de forma óptima las clases minoritarias pero no las mayoritarias. Por contra, si el valor de WAR es elevado pero no lo es el valor de UAR, es señal de que el clasificador clasifica de forma óptima las clases mayoritarias pero no las minoritarias. La elección de una u otra métrica para comparar los rendimientos de los clasificadores dependerá de la aplicación y de la valoración que se haga de cada clase, no pudiéndose considerar una mejor que otra de forma general. 4.3. Conceptos previos 85 4.3.5. Métodos de evaluación de los algoritmos de reconocimiento La evaluación de los sistemas de clasificación es un punto delicado pues un diseño incorrecto puede implicar un resultado demasiado alejado del rendimiento que el sistema realmente presentaría en su entorno de explotación. Así, por ejemplo, un sistema evaluado con los mismos datos que se han empleado para su entrenamiento resultará en una tasa de clasificación posiblemente superior a la que se hubiera obtenido empleando datos distintos. Existen varias técnicas estadísticas destinadas a evaluar de forma adecuada los sistemas de clasificación, de las cuales a continuación se detallan las más empleadas en los trabajos de reconocimiento afectivo automático. La validación cruzada de varias iteraciones19 consiste en dividir el conjunto de datos en k subconjuntos. En un proceso iterativo, cada uno de estos subconjuntos se reserva para probar el sistema de clasificación que se entrena con los k − 1 subconjuntos restantes. El proceso se repite k veces y el rendimiento final se obtiene como el promedio de los rendimientos intermedios. Esta técnica se emplea en estudios como los de Litman y Forbes-Riley (2003) y Oudeyer (2003). Un caso extremo de esta técnica, la validación cruzada dejando uno fuera20 , consiste en considerar el valor de k igual al número de elementos del conjunto de datos de manera que en cada iteración sólo un dato se emplea para probar el clasificador entrenado con el conjunto completo excepto el dato reservado para prueba. Por ejemplo, Chen et al. (1998) y Luengo et al. (2005) emplean esta técnica. En el extremo opuesto se halla el caso de considerar el valor de k = 2, el cual crea sólo dos subconjuntos de datos empleando uno de ellos para entrenamiento y el otro para prueba. En este caso, la división no necesariamente crea dos subconjuntos homogéneos, como por ejemplo los trabajos derivados a partir del de Schuller et al. (2009). En sistemas de reconocimiento en los que se consideran datos de distintos locutores a menudo se emplea una variante del método de validación cruzada en el que se crean tantas subdivisiones como locutores, creando un sistema de validación cruzada independiente del locutor21 . De esta forma se garantiza que el conjunto de datos de prueba no contiene información de los locutores del conjunto de datos de entrenamiento. Así, si un conjunto de datos contiene información de x locutores, los casos de uno de ellos se usa para probar el sistema de clasificación y los casos de los x − 1 locutores restantes se emplean para entrenarlo previamente. Este proceso se repite para todos los locutores. Esta es la técnica empleada, por ejemplo, por Ruvolo et al. (2008), Lee et al. (2009) y Kotti et al. (2010). En estudios de reconocimiento afectivo este sistema se puede llevar un paso más lejos y crear subconjuntos considerando también las categorías emocionales, lo que supondría un esquema de validación cruzada independiente de los sujetos y de las emociones (Truong y van Leeuwen, 2007). 19 Del inglés, k-fold cross-validation Del inglés, leave-one-out cross-validation 21 Del inglés, Leave One Speaker Out (LOSO). 20 86 4. Estado de la cuestión 4.4. Estudios de reconocimiento emocional basados en la señal de voz La voz es una modalidad importante en la comunicación humana y lleva asociada información afectiva tanto en el canal explícito (referente al ámbito lingüístico) como en el implícito (referente al ámbito paralingüístico) (Zeng et al., 2009). A nivel lingüístico, la información emocional puede detectarse en las propias palabras, por lo que se pueden crear diccionarios afectivos (Plutchik, 1980; Whissell, 1989). Sin embargo algunos estudios determinan que la información lingüística no es siempre un medio fiable para determinar los estados afectivos (Ambady y Rosenthal, 1992) siendo, además, altamente dependiente del idioma y dado el empleo subjetivo que puede hacerse del vocabulario (Furnas et al., 1987). En cuanto al nivel paralingüístico, no existe un conjunto concreto de parámetros que permita realizar una discriminación efectiva entre diversos estados afectivos (Zeng et al., 2009), si bien algunas emociones básicas pueden discernirse en base a parámetros prosódicos (Juslin y Scherer, 2005) y algunas no básicas pueden interpretarse a partir de elementos no lingüísticos (como, por ejemplo, risas o bostezos) (Russell et al., 2003). Sin embargo, en un entorno realista, la información acústica por sí sola podría no ser suficiente para realizar un reconocimiento afectivo automático de forma eficaz (Batliner et al., 2003). Muchos de los estudios de reconocimiento afectivo automático se basan en grabaciones realizadas por actores lo que, a menudo, no favorece el análisis de la correlación existente entre los elementos paralingüísticos y el contenido lingüístico (Zeng et al., 2009). Es por ello que se realizan cada vez más estudios basados en grabaciones naturales (como centros de llamadas, escenarios de Mago de Oz y sistemas de diálogo en general) mediante el uso de diversos algoritmos de clasificación (Koolagudi y Rao, 2012). Las dos secciones siguientes profundizan en el estado de la cuestión de ambas perspectivas. 4.4.1. Reconocimiento emocional de emociones actuadas En la mayor parte de los estudios de reconocimiento afectivo automático basados en corpus actuados, las tasas de reconocimiento acostumbran a ser muy elevadas, de alrededor del 90 % de WAR en los estudios más recientes, si bien se trata de estudios dependientes del locutor y con grabaciones de emociones plenas en la mayoría de las ocasiones. A continuación se detallan algunos trabajos en los que se aprecia la evolución en el planteamiento de los experimentos de reconocimiento afectivo así como también de los resultados que se obtienen, obsérvandose, como principal elemento diferenciador de los más recientes respecto a los más antiguos, que se consideran conjuntos de parámetros mucho más extensos y se realizan pruebas con un abanico mayor de algoritmos de aprendizaje. El trabajo de Banse y Scherer (1996) pretende mostrar cómo los humanos pueden determinar estados emocionales a partir, únicamente, de la expresión vocal, sin pretender realizar un experimento de reconocimiento afectivo automático tal y como se entiende en la actualidad. Su experimento parte del análisis de un corpus de expresión vocal ac- 4.4. Estudios de reconocimiento emocional basados en la señal de voz 87 tuada grabado por 12 actores alemanes pronunciando textos carentes de significado y representando un total de 14 estados afectivos. Considerando su diseño, el corpus está formado por 1.344 locuciones (agrupadas posteriormente en 280 conjuntos) parametrizadas mediante 29 parámetros acústicos. En el estudio se presenta una comparación entre el reconocimiento emocional realizado por un grupo de evaluadores humanos y dos procedimientos de clasificación estadística. La tasa de reconocimiento por parte de los jueces humanos se sitúa alrededor del 50 %, así como de manera similar también lo hacen los procedimientos estadísticos, si bien no existe un mapeo entre el reconocimiento humano y el estadístico cuando se analizan las clases emocionales por separado. Polzin y Waibel (2000) realizan un experimento de reconocimiento afectivo automático basado en un corpus creado a partir de frases extraídas de películas en inglés relativas a 3 estados emocionales: tristeza, enfado y estado neutro. La parametrización se realiza a nivel verbal (calculando la probabilidad de una palabra dadas las palabras anteriores) y a nivel oral (8 parámetros relativos a la prosodia y a la VoQ y 32 coeficientes cepstrales seleccionados automáticamente de un conjunto mayor). El experimento se configura en base a dos subconjuntos de datos, uno de entrenamiento y otro de prueba. El estudio compara una clasificación subjetiva (70 % de tasa de reconocimiento) y la realizada automáticamente según los tipos de parámetros de forma independiente (60,4 % según la información prosódica y de VoQ, 63,9 % según la información cepstral y 46,7 % según la información verbal). McGilloway et al. (2000) presentan un estudio de reconocimiento afectivo automático en el que se extraen descriptores de bajo nivel y funcionales que van más allá de los conjuntos estándar (incluyendo, por ejemplo, distribuciones de intensidad y longitudes de segmentos silábicos). Estos descriptores son mayoritariamente prosódicos y son extraídos mediante el sistema Automatic Statistical Summary of Elementary Speech Structures (ASSESS). También, a diferencia de otros estudios, es de los primeros en emplear técnicas de minería de datos para analizar los conjuntos de datos. El conjunto de técnicas empleadas se reduce a 3 algoritmos analizados mediante una validación cruzada de 10 iteraciones y la parametrización es de 32 parámetros. El corpus utilizado es de expresión vocal estimulada recogiendo locuciones de 40 voluntarios leyendo textos emocionalmente coloreados y procedentes de recortes de prensa para representar 5 emociones básicas: enfado, alegría, miedo, tristeza y estado neutro, con un total de 197 frases. La tasa de clasificación oscila entre el 21 % y el 55 %. Breazeal (2002) emplea un clasificador de varias etapas basado en Gaussian-Mixture Models (GMM). El corpus son locuciones grabadas por dos locutoras representando 5 estados afectivos relacionados con la interacción con un robot (aprobación, demanda de atención, prohibición, confort y estado neutro), con un total de 726 locuciones (145 por clase, aproximadamente) de las que se extraen 12 parámetros prosódicos. El experimento se plantea mediante una validación cruzada de 100 iteraciones aunque para la evaluación final del sistema se crea un nuevo conjunto de datos de 371 locuciones que se emplea únicamente como conjunto de prueba tras el entrenamiento del modelo de reconocimiento. La tasa de reconocimiento asciende a un 81,9 %. 88 4. Estado de la cuestión Oudeyer (2003) realiza un experimento pionero, a gran escala, de reconocimiento automático empleando un corpus grabado por 6 actores profesionales pronunciando frases de uso diario, tales como “Hola” y “¿Cómo estás?” (lo que supone un planteamiento más natural que el del trabajo presentado por McGilloway et al. (2000)), en 4 estados emocionales distintos: alegría, tristeza, enfado y estado neutro. En total se consideran 200 frases por locutor y por emoción, lo que resulta en un corpus de 4.800 frases que, parametrizadas acústicamente, crean un conjunto de datos de 200 parámetros por frase, siendo uno de los primeros estudios en contar con un corpus de tales dimensiones y que emplea, posteriormente, una amplia diversidad de técnicas de minería de datos para su análisis mediante la herramienta WEKA (Witten y Frank, 2005)22 . El experimento se configura mediante una validación cruzada de 10 iteraciones y analiza un total de 19 algoritmos de aprendizaje. Los resultados, considerando la totalidad de los parámetros, oscilan entre un 81 % y un 95,7 % de tasa de reconocimiento. Al mismo tiempo, el estudio propone una reducción de parámetros mediante un algoritmo genético como el descrito en la sección 4.3.2. Con el conjunto de datos reducido a 15 parámetros los resultados son similares si bien el conjunto de datos empleado es más de 10 veces menor que el original. Asimismo, el trabajo plantea un sencillo algoritmo que permite el entrenamiento del sistema de forma interactiva e incremental implantándolo en un robot de tipo Aibo, de Sony, o Papero, de NEC. Gracias a este algoritmo, el robot está continuamente a la escucha de las indicaciones de un usuario las cuales clasifica de forma automática y muestra el resultado de esta clasificación mediante un sistema de LEDs. El usuario debe entonces señalar mediante indicaciones de voz si la clasificación ha sido realizada con éxito o no, lo que proporciona una realimentación al robot que realiza un nuevo entrenamiento con la nueva locución. Luengo et al. (2005) proponen un estudio basado en un corpus en euskera grabado por una actriz de doblaje representando 6 emociones básicas: enfado, miedo, sorpresa, asco, alegría y tristeza. Una evaluación subjetiva previa muestra una tasa de reconocimiento superior al 70 % para las distintas emociones excepto la de asco, que también es difícil de reconocer en otros idiomas (Rodríguez et al., 1999; Burkhardt y Sendlmeier, 2000). Del corpus se extraen 86 parámetros prosódicos y de VoQ. El experimento consiste en tres sistemas de clasificación, dos de ellos basados en GMM y otro basado en SVM. Para evaluar estos modelos se emplea una validación cruzada de 5 modelos dejando uno fuera. La tasa de reconocimiento alcanza el 98,4 %, siendo del 92,3 % estudiando únicamente parámetros prosódicos. Barra et al. (2007) realizan un estudio sobre dos corpus actuados, uno en español: el corpus Spanish Emotional Speech (SES) (Montero et al., 1998b) consistente en 30 palabras, 15 frases cortas y 4 párrafos, y otro en alemán: la Berlin Database of Emotional Speech (EMODB) (Burkhardt et al., 2005) consistente en 800 frases cortas. El primero representa 3 emociones básicas (tristeza, alegría y enfado) y el segundo 7. La parametrización de ambos corpus consiste en la extracción de coeficientes MFCC. El modelo de clasificación se basa en GMM 22 WEKA es una librería que recoge implementaciones en Java de un gran número de algoritmos de aprendizaje desarrollada por la Universidad de Waikato, Nueva Zelanda. Su nombre es el acrónimo de Waikato Environment for Knowledge Analysis. 4.4. Estudios de reconocimiento emocional basados en la señal de voz 89 con un bajo número de distribuciones. El corpus SES obtiene una tasa de reconocimiento del 89,98 % (en un test subjetivo esta tasa es del 90,20 %), empleando parte del corpus para entrenamiento y otra parte para prueba, mientras que el corpus EMODB se evalúa mediante una validación cruzada independiente del locutor obteniendo una tasa de reconocimiento (incorporando técnicas de normalización de los datos) del 51,33 % (en un test subjetivo esta tasa es del 86,08 %). Hassan y Damper (2009), analizando el corpus EMODB, obtienen una tasa de reconocimiento de hasta el 90 % considerando 4 emociones básicas de las 7 de las que consta el corpus y de hasta el 70,8 % considerando las 7 emociones del corpus completo, empleando una validación cruzada de 10 iteraciones, un algoritmo de tipo KNN y la selección automática previa de los parámetros acústicos más relevantes mediante un algoritmo de búsqueda voraz incremental. Empleando diferentes configuraciones y corpus, otros estudios obtienen resultados elevados como (Shami y Verhelst, 2007), con una tasa del 80,7 % sobre el corpus EMODB, y (Shaukat y Chen, 2008), con una tasa del 89,7 % sobre el corpus Serbian emotional speech database (Jovičić et al., 2004). Como se puede observar, la disparidad de los corpus empleados (varios tamaños y distintas emociones consideradas), la variedad de parametrizaciones, los diferentes métodos de clasificación y los distintos métodos de evaluación de los mismos, hacen complicada la comparativa entre los resultados obtenidos. Este hecho también se verá reflejado en los estudios relacionados con emociones espontáneas. 4.4.2. Reconocimiento emocional de emociones espontáneas Tal y como indican Zeng et al. (2009), cada vez es más frecuente realizar estudios basados en grabaciones naturales de voz. Sin embargo, en los datos recopilados de una interacción natural los estados afectivos son, a menudo, más sutiles y las emociones plenas raramente se manifiestan. Por este motivo, es habitual que los estudios se centren en el reconocimiento de estados afectivos más amplios como, por ejemplo, positivos y negativos (Litman y Forbes-Riley, 2004; Lee y Narayanan, 2005; Neiberg et al., 2006), para simplificar el problema. Por ejemplo, Ang et al. (2002) recogen 6 estados afectivos pero finalmente sólo trabajan con 2: negativo y otros. A continuación se detallan algunos trabajos enmarcados en esta línea de investigación de los que se desprende que el reconocimiento de emociones espontáneas es más complejo dada la propia naturaleza de los datos y, por lo tanto, las tasas de reconocimiento son bastante inferiores a las de estudios de emociones actuadas, incluso en los trabajos más recientes. Cabe señalar que, salvo en las ocasiones señaladas, las tasas de reconocimiento se corresponden con la media ponderada (WAR). Slaney y McRoberts (1998) llevan a cabo uno de los primeros estudios que analiza emociones no actuadas en un contexto natural, si no el primero en hacerlo (Batliner et al., 2011). En este trabajo se estudia un corpus de voz formado por grabaciones de 12 padres (6 madres y 6 padres) dirigiéndose a sus hijos de entre 10 y 18 meses de edad en un entorno lúdico. Las locuciones se agrupan en 3 categorías: aprobación (212 locuciones), atención 90 4. Estado de la cuestión (149 locuciones) y prohibición (148 locuciones). Asimismo, las locuciones se evalúan subjetivamente para determinar el grado de pertenencia a cada categoría. Las locuciones se analizan en su totalidad y fragmentándolas en tres tercios, extrayendo descriptores de bajo nivel relativos a F0, información cepstral y energía. Los funcionales calculados varían tanto en número como en tipo. La parametrización final es de sólo 8 parámetros. El algoritmo de clasificación se basa en GMM evaluado mediante una validación cruzada de 100 iteraciones y se emplea un algoritmo de búsqueda voraz incremental para determinar el número óptimo de parámetros. La tasa de reconocimiento se sitúa alrededor del 65 %, siendo mejor la identificación de las categorías en el caso de las mujeres que la de los hombres. Batliner et al. (2000) realizan un estudio a partir de 20 diálogos recopilados a través de un sistema de Mago de Oz simulando un sistema de funcionamiento erróneo para estimular enfado en los usuarios. Las categorías en las que se agrupan las locuciones son: emocional y no emocional. La parametrización recoge 27 parámetros acústicos y se incluye información lingüística a efectos de comparación. Se estudian tres tipos algoritmos de clasificación: análisis de discriminante lineal, árboles de regresión y un perceptrón multicapa. Los dos primeros algoritmos se evalúan mediante validación cruzada y el tercero mediante dos subconjuntos diferentes para entrenamiento y prueba. La tasa de clasificación oscila entre el 63 % y el 71 %. El trabajo de Lee et al. (2001) se centra en el reconocimiento afectivo automático basado en el análisis acústico de un corpus que recoge locuciones de usuarios reales de un centro de llamadas. El número total de locuciones asciende a 7.200. Las categorías en las que se agrupan son negativas (incluyendo enfado y frustración) y no negativas (incluyendo felicidad y deleite, a pesar de que la mayoría son neutras según una evaluación subjetiva). La parametrización recoge parámetros relativos a F0 y energía, reducidos posteriormente mediante un análisis de componentes principales y un algoritmo de búsqueda voraz incremental. La clasificación analiza clasificadores de discriminante lineal y de tipo KNN evaluados mediante un proceso de validación cruzada dejando uno fuera. En el mejor de los casos, el error de clasificación se sitúa entre el 20 % y el 25 %, siendo mejor el reconocimiento en el caso de las mujeres que de los hombres. Posteriormente, Lee y Narayanan (2005) presentan uno de los primeros trabajos en los que no sólo se estudia el contenido acústico de las locuciones de un corpus (derivado del corpus del estudio anterior) sino que combina 3 tipos de información: acústica, léxica y referente al discurso. El conjunto de parámetros acústicos se optimiza mediante el análisis de diversos subconjuntos y el análisis de componentes principales, y procede de la información de 21 parámetros relativos a F0, energía, duración y frecuencias de los formantes. La información léxica se extrae a partir del concepto de prominencia emocional (véase la sección 3.3.2.1). La información de discurso procede de la categorización del tipo de respuesta de los usuarios (por ejemplo, reformulación o repetición, entre otras). La fusión se realiza a nivel de clasificadores, después de clasificar independientemente cada conjunto de parámetros, mediante un sencillo promedio. El estudio vuelve a analizar clasificadores de discriminante lineal y de tipo KNN. En esta ocasión, sin embargo, los algoritmos se evalúan mediante una vali- 4.4. Estudios de reconocimiento emocional basados en la señal de voz 91 dación cruzada de 10 iteraciones, distinguiendo entre locutores masculinos y femeninos. El estudio marca el error de clasificación que, en el mejor de los casos, es del 7,95 % para el caso las locutoras y del 10,55 % para el caso de los locutores. Litman y Forbes-Riley (2003) realizan un estudio centrado en sistemas de tutoría en el mundo docente. Se analiza un corpus de 202 locuciones de 2 hombres y 2 mujeres interactuando, a través de una interfaz web, con un tutor humano. El análisis se lleva a cabo a nivel acústico (33 parámetros) y se incorporan 3 identificadores de contexto a cada locución (incluyendo un identificador del usuario y su sexo). Se consideran 3 categorías emocionales: positivo (15 locuciones), neutro (145 locuciones) y negativo (42 locuciones). Se estudian distintas agrupaciones de parámetros con 4 algoritmos de clasificación: un árbol de decisión J4.8, uno de tipo KNN, uno de máxima verosimilitud (ZeroR) como referencia y un algoritmo de boosting con el árbol J4.8 como algoritmo débil. La evaluación se realiza mediante una validación cruzada de 10 iteraciones. El mejor resultado obtenido considera los 3 identificadores de contexto además de los parámetros acústicos y ofrece una tasa de reconocimiento del 80,53 %. Truong y Raaijmakers (2008) emplean un algoritmo de boosting para crear dos clasificadores, uno acústico y otro lingüístico, evaluando la tarea de clasificación en las dimensiones emocionales de activación y valencia, y también a nivel categórico. El corpus recoge locuciones de 17 hombres y 11 mujeres jugando a un videojuego de tipo first-person shooter. Los parámetros acústicos hacen referencia a la F0 y la intensidad mientras que los lingüísticos se refieren a n-gramas a nivel de palabra y a la velocidad del habla. Distinguen dos categorías afectivas: positivo y negativo, y trabajan a nivel individual y mediante la fusión de ambos parámetros a nivel de parámetros. En la dimensión de activación los clasificadores acústicos funcionan mejor, mientras que en la de evaluación obtienen mejores resultados los lingüísticos. La fusión a nivel de parámetros mejora ligeramente los resultados, aunque no en todos los casos. A nivel categórico la tasa de clasificación está entre el 60 % y el 70 %. A nivel dimensional se sitúa entre el 40 % y el 55 %. La clasificación lingüística realizada a partir del etiquetado manual funciona mejor que la realizada de forma automática a partir de un sistema Automatic Speech Recogniser (ASR), aunque la diferencia no es notable a nivel dimensional. Posteriormente, Osherenko et al. (2009) también realizan un estudio de fusión acústica y lingüística, en esta ocasión a nivel de parámetros y también a nivel de decisión sin encontrar que un esquema sea mejor que el otro ni conseguir mejorar, mediante la fusión, los resultados individuales de clasificación. Dada la misma disparidad que ya se producía en el caso de los estudios de emociones actuadas en cuanto a los corpus, las emociones consideradas (tanto en número como en tipo), los métodos de evaluación y la, frecuentemente, escasa documentación relativa a los medios empleados para llevar a cabo reducciones de dimensionalidad, Schuller et al. (2009), a través del Emotion Challenge dentro de la conferencia INTERSPEECH del año 2009, proponen un entorno de trabajo con un corpus específico y un método de evaluación concreto para que los trabajos que lo sigan puedan ser comparados, y lo hacen en forma de “desafío”. El Emotion Challenge 2009 plantea tres desafíos diferentes: un desafío abierto, en el que se pueden emplear cualesquier parámetros y algoritmos; uno de clasificación, 92 4. Estado de la cuestión empleando unos parámetros predeterminados; y uno de parametrización, en el que los autores deben proporcionar los parámetros que consideren más relevantes. El corpus propuesto es el corpus FAU Aibo (véase la sección 3.4.3 para una descripción del corpus y los detalles de su parametrización). Cuenta con más locutores que los estudios previos, así como más locuciones. Considera 2 categorías emocionales pero también un etiquetado de 5. La medida de rendimiento de los clasificadores se establece como la media no ponderada de reconocimiento (UAR) dada la distribución no uniforme de las categorías del corpus. Asimismo, establece una división de los datos del corpus definiendo un subconjunto específico para entrenamiento y otro para prueba, forzando la total independencia entre los datos de ambos conjuntos a nivel, incluso, de locutores, aspecto no contemplado en los estudios anteriormente citados. A continuación se detallan algunos de los trabajos enmarcados en este contexto cuyos resultados se recogen en el sumario del Emotion Challenge 2009 publicado en (Schuller et al., 2011). Schuller et al. (2009) presentan unos resultados de referencia al mismo tiempo que definen el Emotion Challenge 2009 y especifican las bases de participación. Empleando un clasificador SVM y el procesado previo de los parámetros originales del corpus, estos resultados ofrecen un valor de UAR del 67,7 % para el problema de 2 categorías y 38,2 % para el problema de 5 categorías23 . Nótese cómo se reduce la tasa de clasificación en el caso de trabajar con 5 categorías respecto al resto de estudios. La disminución de la tasa de reconocimiento en estudios independientes del locutor con un número de clases relativamente elevado es un efecto observable a menudo en los trabajos de reconocimiento afectivo (Kwon et al., 2003; Austermann et al., 2005). El trabajo de Lee et al. (2009) se basa en la teoría de evaluación (Lazarus, 2001) que determina que el reconocimiento emocional se fundamenta en procesos conscientes e inconscientes de varias etapas en la que el sujeto, en cada una de ellas, evalúa la situación, reacciona y la vuelve a evaluar. Por ello propone una estructura jerárquica para el problema de 5 categorías afectivas en la que la tarea de clasificación más sencilla se sitúa en la parte superior mientras que la decisión entre las clases más ambiguas se deja para el final. Cada clasificador es binario y emplea regresión logística bayesiana. La tasa de clasificación asciende a 41,6 %. Vogt y André (2009) analizan el entorno de reconocimiento emocional a tiempo real EmoVoice (Vogt et al., 2008) con el corpus FAU Aibo. Para el problema de 2 categorías no superan el resultado de referencia y la tasa de reconocimiento llega al 66,4 % mientras que para el problema de 5 categorías la tasa es del 39,4 %. Barra et al. (2009) mejoran la tasa de reconocimiento en el caso del problema de 2 categorías pero sin superar tampoco el resultado de referencia, llegando al 67,1 %, si bien para el problema de 5 categorías lo iguala con un resultado del 38,2 %, empleando el análisis de parámetros MFCC, el logaritmo de la energía y la F0 y la primera y segunda derivadas con una red bayesiana dinámica. Luengo et al. (2009) también emplean parámetros cepstrales (en este caso Log-Frequency Power 23 Este último resultado se empleará como valor de referencia para los experimentos detallados en el capítulo 6. 4.5. Otras aproximaciones al reconocimiento emocional 93 Coefficients (LFPC)), considerando la primera y segunda derivadas, que son clasificados mediante GMM. Un nuevo conjunto de 10 parámetros prosódicos se clasifican mediante SVM. Las tasas de reconocimiento son del 67,2 % para el problema de 2 categorías y 41,4 % para el de 5. Polzehl et al. (2009) realiza un análisis centrado en el problema de 2 categorías y clasifica de forma independiente un conjunto de parámetros acústicos y otro de parámetros lingüísticos fusionando los resultados posteriormente. La tasa de reconocimiento es muy próxima a los resultados de referencia y asciende al 67,6 %. Los mejores resultados del Emotion Challenge 2009 fueron los obtenidos por Dumouchel et al. (2009) y Kockmann et al. (2009). Dumouchel et al. (2009) obtienen una tasa del 70,29 % en el problema de 2 categorías mediante el uso de tres clasificadores GMM fusionados a nivel de decisión, empleando parámetros MFCC y prosódicos. La tasa de Kockmann et al. (2009) para el problema de 5 categorías es del 41,65 % mediante el análisis de parámetros MFCC y clasificación GMM. Schuller et al. (2011) realizan una fusión a partir de los resultados de los mejores esquemas de clasificación presentados en el Emotion Challenge 2009 mediante un método de voto mayoritario. Para el problema de 2 categorías la mejor tasa de clasificación se obtiene fusionando los 5 mejores clasificadores (Dumouchel et al., 2009; Vlasenko y Wendemuth, 2009; Kockmann et al., 2009; Bozkurt et al., 2009; Polzehl et al., 2009) obteniendo un resultado del 71,16 % mientras que para el problema de 5 categorías el mejor resultado se obtiene mediante la fusión de los 7 mejores clasificadores (Kockmann et al., 2009; Bozkurt et al., 2009; Lee et al., 2009; Vlasenko y Wendemuth, 2009; Luengo et al., 2009; Planet et al., 2009; Dumouchel et al., 2009) ascendiendo al 44,01 %. En ambos casos, el mejor esquema individual de clasificación siempre se ve mejorado al fusionarlo, por lo menos, con otros dos clasificadores. 4.5. Otras aproximaciones al reconocimiento emocional Existen otras aproximaciones al reconocimiento afectivo automático que estudian modalidades diferentes al habla o bien realizan un procesado multimodal en el que el habla es sólo una parte del proceso de reconocimiento. No obstante, no es el objetivo de esta tesis el profundizar en estos estudios dado que el presente trabajo se centra en el reconocimiento afectivo automático a partir de la señal de voz. Existen estudios basados en la expresión facial de los estados afectivos como por ejemplo los trabajos de Bartlett et al. (2003), Cohn et al. (2004), Ioannou et al. (2005) y Valstar et al. (2007), centrados en la expresión facial de emociones espontáneas. Las tasas de reconocimiento para esta modalidad se suelen situar alrededor del 80 % (Zeng et al., 2009), si bien existen diferencias notables entre los trabajos que analizan imágenes estáticas y los que estudian secuencias de vídeo. También existen aproximaciones multimodales como 94 4. Estado de la cuestión la de Busso et al. (2004), que fusionan a nivel de parámetros y de decisión las modalidades acústica y de expresión facial, la de Fragopanagos y Taylor (2005), que combinan el análisis facial, prosódico y léxico o la de Zeng et al. (2007) a nivel facial y acústico. Otros estudios analizan las señales fisiológicas captadas mediante métodos invasivos y no invasivos para detectar la emoción de los usuarios, como Picard et al. (2001), Nasoz et al. (2004), Li y Chen (2006), Lin et al. (2010) y Gouizi et al. (2011). Las tasas de reconocimiento a partir de señales fisiológicas varían de un trabajo a otro pero habitualmente se sitúan alrededor del 70 %. El trabajo de Kim y André (2006) no se basa exclusivamente en las señales fisiológicas sino que incluye, además, su fusión con el análisis acústico del discurso mediante un esquema a nivel de parámetros y otro híbrido, en el que la salida anterior sirve de entrada a un esquema de fusión a nivel de decisión. El análisis de los resultados de algunas de las aproximaciones multimodales muestra valores elevados de tasas de reconocimiento, del 75 % hasta el 98 % (Zeng et al., 2009). Sin embargo, las aproximaciones al reconocimiento afectivo automático multimodal no son ajenas a los inconvenientes citados para los estudios de reconocimiento basados en la señal de voz, tales como la variedad de corpus, emociones y medidas de evaluación que dificultan la comparativa entre los diversos trabajos. 4.6. Resumen En este capítulo se han recopilado algunos de los estudios relacionados con el reconocimiento afectivo automático, sobre todo los relacionados con la señal de voz dado que es el objeto de la presente tesis. Tras recorrer los antecedentes a partir de los primeros trabajos realizados en este ámbito se han tratado las distintas aplicaciones del reconocimiento afectivo para poner de manifiesto el interés del objeto de estudio. A continuación, se han mostrado cuáles son las tendencias más representativas en los trabajos de reconocimiento a partir de la señal de voz más recientes a través del análisis de algunos de los estudios más relevantes. Así, se comprueba el auge de los trabajos que realizan procesos de parametrización cada vez más exhaustivos de los corpus empleando, posteriormente, diversas técnicas de aprendizaje artificial para su análisis. Asimismo, se han puesto de manifiesto las diferencias existentes entre los trabajos basados en emociones actuadas y emociones espontáneas, así como la dificultad de estudiar un conjunto relativamente grande de emociones concretas frente a analizar un conjunto más pequeño que considere etiquetas emocionales más amplias. También se aprecia la evolución que, a lo largo del tiempo, ha experimentado el proceso de parametrización, incorporando a los parámetros prosódicos iniciales, parámetros relativos a la VoQ o al contenido léxico de las locuciones de los corpus. El análisis de estos trabajos previos ponen de manifiesto la dificultad en la comparativa entre los mismos, dada la diversidad de corpus, categorías emocionales, procesos de parametrización y métodos de evaluación empleados por todos ellos. 4.6. Resumen 95 También se ha hecho un breve inciso en los análisis de otras modalidades y se han introducido los tres tipos principales de fusión multimodal, útiles para intentar mejorar las tasas de reconocimiento a partir del análisis de datos heterogéneos, procedentes de diversos sensores, o bien para fusionar los datos extraídos de los análisis de una misma modalidad pero realizados desde distintas perspectivas. 96 4. Estado de la cuestión Capítulo 5 Primeras aproximaciones al reconocimiento afectivo en corpus actuados Este capítulo se centra en el reconocimiento afectivo automático realizado sobre corpus grabados por actores, incluyendo tanto los corpus de expresión vocal actuada como los de expresión vocal estimulada. En todos los casos se hace referencia a corpus que han sido grabados en condiciones ideales y con el máximo control tanto de las condiciones de grabación como de contenido. Los contenidos de este capítulo no son el núcleo de la tesis en sí y se refieren a los experimentos realizados como paso previo a los que se realizarán en torno a la línea principal de investigación, los cuales se abordan en el capítulo siguiente. Su objetivo es sentar una base de experimentación y poder obtener unos resultados que sirvan para compararlos posteriormente, observando las diferencias entre ambos escenarios. El capítulo se divide en dos secciones. Ambas hacen referencia al reconocimiento afectivo automático en corpus de voz emocionada grabada por actores pero difieren en el objetivo final. La primera sección plantea un reconocimiento afectivo básico cuya finalidad es maximizar el número de coincidencias entre el estilo afectivo asignado a cada locución y el estilo determinado por el sistema automático. Sin embargo, este procedimiento da por hecho que el estilo afectivo asignado a las locuciones es el correcto, sin considerar que tal vez el actor no acertó a dotar a la locución del estilo pretendido. Determinar qué locuciones son correctas o incorrectas, desde el punto de vista de corresponderse, o no, con el estilo pretendido, supone un proceso de validación posterior a la grabación realizado por un conjunto de evaluadores humanos, es decir, subjetivos. La segunda sección de este capítulo expone la manera de automatizar este proceso realizando un reconocimiento afectivo automático cuyo objetivo es maximizar el número de coincidencias para aquellas locuciones que también serían correctamente identificadas de forma subjetiva. 97 98 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados De igual manera, las locuciones que de forma subjetiva serían rechazadas, el sistema automático debería poder identificarlas como incorrectas rechazándolas también dado que no se ajustan al estilo pretendido. 5.1. Reconocimiento afectivo básico Esta sección recoge una serie de experimentos denominados básicos en tanto que plantean un reconocimiento sencillo y directo. El entorno de trabajo se centra alrededor de corpus actuados, convenientemente etiquetados y abarcando emociones claramente definidas. El objetivo de los experimentos es maximizar la WAR, es decir, clasificar correctamente el mayor número de casos del total existente ya que los corpus se han diseñado de forma equilibrada. Así pues, se considera reconocimiento afectivo básico dado que sigue las pautas de la mayoría de los trabajos previos realizados dentro del marco del reconocimiento emocional, tales como los citados en la sección 4.4.1. Estos experimentos previos y el análisis de sus resultados marcarán la base de los trabajos posteriores detallados en las secciones siguientes. La estructura genérica de los experimentos de reconocimiento afectivo básico se puede observar en la figura 5.1. Los experimentos se dividen en dos partes independientes. La primera de ellas consiste en analizar el corpus de forma subjetiva, recopilando las evaluaciones realizadas por un grupo de personas al escuchar los distintos elementos del corpus. La segunda parte consiste en realizar una clasificación automática de estos mismos elementos empleando técnicas de aprendizaje artificial. Finalmente, se comparan los resultados de ambas partes del experimento. Esta estructura básica es la que se sigue en las siguientes secciones. A continuación se presentan dos estudios de reconocimiento básico, recogidos en (Planet et al., 2006) e (Iriondo et al., 2007c). El primero de ellos es un estudio preliminar basado en el corpus de voz actuada ESDLA. El segundo presenta un análisis más detallado, basado en el corpus voz estimulada BDP-UAB, grabado en mejores condiciones técnicas que el anterior y contando con un mayor volumen de datos. 5.1.1. Corpus de voz actuada Para realizar el experimento de reconocimiento afectivo básico sobre un corpus de voz actuada se emplea el corpus ESDLA, estudiando únicamente los parámetros analizados a nivel segmental mediante la aplicación de ventanas de duración constante, es decir, 183 parámetros relativos a F0, energía y silencios, según se detalla en la sección 3.4.1.2. En (Planet et al., 2006) se recogen los pormenores del experimento aquí explicado. 5.1. Reconocimiento afectivo básico 99 Corpus de voz parametrizado Corpus de voz etiquetado Parametrización Evaluación subjetiva Selección de atributos Clasificación automática 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 Resultado subjetivo Evaluación objetiva 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 Resultado objetivo Figura 5.1: Esquema de un experimento genérico de reconocimiento afectivo básico. 5.1.1.1. Metodología En el estudio se tienen en consideración conjuntos de datos que incluyen la información referente a los cuatro estados emocionales del corpus y también conjuntos de los que se elimina toda referencia al estado neutro, para comprobar el impacto de un estado carente de contenido afectivo en el sistema automático de clasificación. En lo referente al número de parámetros analizados, los algoritmos de aprendizaje se entrenan tanto con la totalidad de los parámetros como con subconjuntos de los mismos para intentar acotar el problema y evitar los efectos del sobreentrenamiento. Estos subconjuntos se crean en base al conocimiento previo de los parámetros que son considerados más relevantes por la bibliografía en general y también seleccionando manualmente los que se supone, a priori, que pueden ser los más relevantes a nivel subjetivo. La figura 5.2 muestra la definición de estos subconjuntos. Así pues, data2 se crea tras eliminar la primera derivada del conjunto completo data1. data3 no considera las versiones filtradas del conjunto completo, y data4 tampoco lo hace a partir del subconjunto data2. data5 incorpora, a diferencia de data4, los parámetros relativos a la energía de esas versiones filtradas. data6 reduce el número de funcionales a 5 (media, desviación estándar, asimetría, curtosis y mediana) excepto para los parámetros relativos a los silencios que incorporan, además, la duración total de los mismos. Por otra parte, se crea de forma automática otro subconjunto (data7) formado por los parámetros que un algoritmo genético como el descrito en la sección 4.3.2 identifica como los más relevantes. Mediante este proceso automático de selección de atributos, para el conjunto de todos los estados emocionales el número de parámetros se reduce a 37 (reducción del 79,78 % del total), mientras que para el conjunto que omite el estado neutro se obtienen 19 parámetros (reducción del 89,62 % del total). 100 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados data1 (183) Sin la 1ª derivada data2 (111) Sin versiones filtradas data3 (61) Algoritmo genético data7 (37) Sin versiones filtradas data4 (37) Sin versiones filtradas, excepto ENE data5 (61) Sólo 5 funcionales, excepto SIL data6 (26) Figura 5.2: Definición de los conjuntos de datos creados para el experimento de reconocimiento afectivo básico sobre el corpus ESDLA. Entre paréntesis se indica el número de parámetros que contiene cada conjunto de datos. ENE hace referencia a los parámetros de energía y SIL a los de silencio. El experimento evalúa 8 algoritmos de clasificación y 2 metaclasificadores. Los algoritmos de clasificación, según implementaciones de la librería WEKA, son: el árbol de decisión basado en entropía J4.8 (Witten y Frank, 2005), el algoritmo de creación de listas de decisión PART (Frank y Witten, 1998), dos algoritmos KNN (Aha et al., 1991), basados en distancia euclídea y seleccionando un único vecino de forma predeterminada (IB1) y una versión en la que el número de vecinos próximos (k) se determina automáticamente de forma óptima1 (IBk), el algoritmo Naïve-Bayes (John y Langley, 1995), con discretización supervisada basada en el algoritmo de Fayyad e Irani (1993), un algoritmo de tablas de decisión (DT) (Kohavi, 1995), un algoritmo SVM de kernel polinómico de segundo grado, con un entrenamiento mediante el algoritmo de optimización secuencial mínima (Platt, 1998) y utilizando discriminación por parejas (Hastie y Tibshirani, 1998) para poder afrontar un experimento de clasificación con un número de clases superior a dos. El algoritmo de máxima verosimilitud ZeroR2 se escoge como línea de base para este experimento tal y como también hace Litman y Forbes-Riley (2003) en un experimento de similares características3 . Los dos metaclasificadores son de tipo boosting (algoritmo AdaBoost (Freund y Schapire, 1996)) y bagging (Breiman, 1996) en combinación con los algoritmos J4.8, PART y DT (AB/J4.8, AB/PART, AB/DT y Bag/J4.8, respectivamente). En todos los casos se mide la WAR4 evaluada mediante una validación cruzada de 10 iteraciones. 1 El proceso automático consiste en un proceso iterativo realizado mediante una validación cruzada dejando uno fuera. 2 El algoritmo ZeroR predice el valor medio si la etiqueta de clasificación es numérica, o la moda (el valor más frecuente) si la etiqueta de clasificación es, como en este caso, categórica. 3 No obstante ZeroR es un algoritmo muy sencillo y, a pesar de ser empleado a menudo como referencia en la experimentación con WEKA, tan sólo se empleará en los experimentos de este capítulo por su carácter preliminar. 4 En tanto que el corpus ESDLA es un corpus equilibrado, con el mismo número de locuciones para cada emoción, los valores de las medidas WAR y UAR son iguales. 5.1. Reconocimiento afectivo básico 5.1.1.2. 101 Resultados La figura 5.3 muestra los valores de WAR alcanzados por cada algoritmo para cada uno de los conjuntos de datos evaluados considerando el corpus completo, con las 4 categorías emocionales. El algoritmo de referencia ZeroR, cuyo resultado no se incluye en la gráfica para simplificar la visualización del resultado, asciende al 25 % dado que el corpus está formado por 4 clases con un número idéntico de casos. Se observa que el mejor resultado (89,5 %) se obtiene mediante el algoritmo SVM en combinación con el conjunto de datos data7, obteniendo una mejora absoluta del 64,5 % respecto al algoritmo de referencia. Este resultado es también superior en un 0,82 % a la tasa de clasificación obtenida en el test subjetivo. Al mismo tiempo, supera en un 2 % los resultados obtenidos por los dos siguientes mejores clasificadores que son el esquema de boosting en combinación con el algoritmo PART y el algoritmo Naïve-Bayes con discretización supervisada previa y considerando el mismo conjunto de datos. En la figura 5.3 se puede observar también cómo mejoran los algoritmos J4.8, PART y DT cuando son vinculados a un esquema de boosting y cómo se produce también esta mejora en el esquema bagging observándose, además, mayor homogeneidad entre los resultados de los diferentes conjuntos de datos. Asimismo, la reducción de datos mejora los resultados de clasificación. Esto puede observarse al comprobar que el conjunto de datos data7 obtiene unas tasas de clasificación superiores en la mayoría de los casos. Si se toma como referencia el conjunto data1, formado por la totalidad de parámetros, el conjunto data7 consigue una mejora absoluta del 5,5 % (6,55 % relativa) en el algoritmo SVM aún y trabajando con el 20,22 % del total de parámetros. Esta mejora es aún más destacable en el caso del algoritmo IB1, donde alcanza un valor del 18,5 % de forma absoluta y del 29,13 % de forma relativa. Similar es el comportamiento del algoritmo IBk, el cual obtiene un resultado óptimo para un valor de k = 14, si bien su resultado mejora el obtenido por el IB1. Ambos algoritmos proporcionan unos resultados buenos a pesar de no ser demasiado complejos ni computacionalmente costosos, lo cual también sucede en el caso del algoritmo Naïve-Bayes que, a pesar de su sencillez, obtiene una mejora absoluta del 62,5 % respecto al algoritmo de referencia, situándose al nivel de los metaclasificadores que suponen un coste computacional más elevado. En referencia a los conjuntos de datos, en general la no consideración de las versiones filtradas por parte de data3 y data4 empeora los resultados obtenidos por data1 y data2. El subconjunto data5 mejora los resultados obtenidos por data4 al incorporar los parámetros de energía extraídos de las versiones filtradas pero data7, obtenido a través de un algoritmo genético a partir del conjunto completo, es el conjunto de menor tamaño que optimiza las tasas de clasificación. La figura 5.4 muestra la matriz de confusión correspondiente al algoritmo SVM y el conjunto de datos data7. De la matriz de confusión se desprende que algunos de los ejemplos de la clase alegría se clasifican como enfado y viceversa, la clase tristeza es, aunque en pocas ocasiones, clasificada como neutro mientras que la clase neutro se clasifica 102 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados 95 90 WAR (%) 85 80 75 70 65 60 data1 data2 data3 data4 data5 data6 data7 J4.8 71,50 75,50 73,50 72,00 80,50 75,00 78,00 PART 72,00 78,00 75,50 72,50 79,00 77,50 78,00 DT 70,00 69,00 70,00 70,00 67,50 69,50 70,50 IB1 63,50 65,50 62,50 63,00 66,50 62,50 82,00 IBk 73,50 70,00 68,50 67,50 73,50 70,50 83,50 NB 85,00 84,00 76,50 78,50 80,00 74,00 87,50 SVM 84,00 84,50 79,50 80,00 81,50 84,00 89,50 AB/J4.8 AB/PART 81,00 82,00 83,50 85,50 82,00 83,50 79,50 79,50 85,50 82,00 76,50 80,50 85,00 87,50 AB/DT 77,50 79,00 72,50 82,00 76,50 74,00 84,50 Bag/J4.8 83,50 82,50 81,50 83,00 84,50 79,50 84,00 Figura 5.3: Resultados WAR del experimento de reconocimiento afectivo básico en el corpus ESDLA considerando los 4 estados emocionales. El resultado del algoritmo de referencia ZeroR es 25 %. casi perfectamente. Este hecho, que es más patente aún en otros clasificadores, contrasta con los resultados obtenidos en la evaluación subjetiva (véase la figura 3.4). En (Planet et al., 2006) también se recogen los resultados del mismo experimento cuando se eliminan las referencias al estado neutro. Efectivamente, y tal y como se recoge en otros estudios del estado de la cuestión, la disminución del número de clases desemboca en una mejora de las tasas de clasificación. En este caso, sin embargo, el mejor resultado se obtiene mediante el algoritmo AB/DT y un conjunto de datos procedente, al igual que en el caso anterior, de un algoritmo genético. La tasa de reconocimiento asciende al 90,67 % (una mejora absoluta del 57,34 % respecto al algoritmo de referencia, cuyo resultado es del 33,33 % en el caso de 3 clases). Nuevamente, el algoritmo Naïve-Bayes, con un coste computacional muy inferior al del algoritmo AB/DT, obtiene un buen resultado (el segundo mejor, en este caso) con una tasa de clasificación del 89,33 % que supone una mejora absoluta del 56 % respecto al algoritmo de referencia. Las diferencias citadas entre los resultados de la clasificación subjetiva (véase la sección 3.4.1.1) y la automática pueden atribuirse a diferencias entre los criterios de los evaluadores subjetivos y los representados por los parámetros de los conjuntos de datos, según las observaciones realizadas por los propios evaluadores tal y como se recoge en (Planet et al., 2006). Los participantes del test subjetivo coinciden en afirmar que la emoción enfado ha sido la más fácil de identificar, señalando la mayor dificultad en di- 5.1. Reconocimiento afectivo básico 103 Porcentaje de clasificación automática 100 90 80 70 60 50 40 30 20 10 0 Alegría Tristeza Enfado Neutro Alegría 84,00 0,00 16,00 0,00 Tristeza 0,00 92,00 2,00 6,00 Enfado 16,00 0,00 84,00 0,00 Neutro 0,00 2,00 0,00 98,00 Clasificación real Figura 5.4: Matriz de confusión de los resultados de clasificación del algoritmo SVM y el conjunto de datos data7 en el experimento de reconocimiento afectivo básico con el corpus ESDLA considerando los 4 estados emocionales. ferenciar neutro y tristeza en primer lugar, y alegría y neutro, en algunos casos, lo cual aparece reflejado en la figura 3.4. Dado que el contexto no es de utilidad para tomar la decisión entre una clase u otra, los participantes señalan como aspectos diferenciadores el tono de la voz y el volumen, así como sus variaciones respectivas, y la velocidad del habla. Algunos participantes señalan también como decisivos los “golpes de voz”, término que podría interpretarse como exageraciones en las sílabas acentuadas, ya sean relativas a su volumen o a su duración en comparación con el resto de ellas, aspectos no contemplados en la parametrización empleada. 5.1.2. Corpus de voz estimulada A diferencia del trabajo expuesto en la sección anterior, el presentado en (Iriondo et al., 2007c) desarrolla un planteamiento similar pero basado en el corpus BDP-UAB que, a diferencia del corpus ESDLA, es de voz estimulada. Asimismo, a pesar de ser un corpus bastante equilibrado, no lo es en la misma medida que el corpus anterior y entre las categorías emocionales se incluye el estado sensual, que no se corresponde con una emoción básica. El trabajo recogido en (Iriondo et al., 2007c) sólo tiene en consideración los parámetros prosódicos del corpus, los cuales ascienden a un total de 464 parámetros por locución. 104 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados 5.1.2.1. Metodología El conjunto de datos original, obtenido a partir de una segmentación fonética, se divide en varios subconjuntos para reducir su dimensión. La figura 5.5 muestra las diferentes estrategias seguidas para conseguir ese objetivo. El primer criterio consiste en omitir la segunda derivada (de data1 a data2) para valorar la relevancia de esa función. Por otra parte, y dado que experimentos previos mostraron un mejor rendimiento de los parámetros en formato logarítmico, dos conjuntos de datos se crean a partir de las versiones logarítmicas de energía y F0 (data1L y data2L). Cada uno de estos subconjuntos se dividen nuevamente en dos considerando todos los fonemas o tan sólo las vocales tónicas. Adicionalmente, se reduce la dimensión de los conjuntos de datos iniciales mediante el algoritmo genético ya empleado en (Planet et al., 2006) (data1G y data2G). Finalmente, se crean dos subconjuntos similares a los propuestos por Navas et al. (2006) para observar la relevancia de los parámetros temporales (data1N y data1NG). Algoritmo genético data1G (214) Sólo vocales tónicas data1LS (101) F0 = log ENE = dB data1L (266) Completo data1LC (101) (Navas et al., 2006) data1N (84) Algoritmo genético data1NG (39) F0 = log ENE = dB data2L (178) Sólo vocales tónicas data2LS (68) Algoritmo genético data2G (127) Completo data2LC (68) data1 (464) Sin la 2ª derivada data2 (310) Figura 5.5: Definición de los conjuntos de datos creados para el experimento de reconocimiento afectivo básico sobre el corpus BDP-UAB. Entre paréntesis se indica el número de parámetros que contiene cada conjunto de datos. ENE hace referencia a los parámetros de energía. El campo Completo hace referencia a que se consideran todos los segmentos de la locución, sin excepción. El experimento evalúa los mismos 8 clasificadores básicos de (Planet et al., 2006) e incluye el mismo metaclasificador de boosting en combinación con los algoritmos J4.8, PART y DT. En todos los casos se mide la WAR evaluada mediante una validación cruzada de 10 iteraciones. 5.1.2.2. Resultados La figura 5.6 muestra los resultados del experimento. El algoritmo de referencia ZeroR, cuyo resultado no se muestra en la gráfica por simplicidad, logra una tasa de reconocimiento del 22,60 % al asignar a todas las locuciones la etiqueta mayoritaria “agresivo”. Desde un punto de vista de los algoritmos de clasificación, SVM obtiene la mejor tasa de 5.1. Reconocimiento afectivo básico 105 clasificación tanto en valor medio (97,34 % de media) como de forma puntual en combinación con el conjunto de datos data1G (99,03 %) (Iriondo et al., 2007c). Esta combinación proporciona una mejora absoluta del 76,43 % respecto al algoritmo de referencia. Además, y tal y como ya se notaba en el experimento de la sección 5.1.1, los metaclasificadores proporcionan mejores resultados que los algoritmos que emplean cuando se estudian forma individual. Sin embargo, el coste computacional es más elevado. Desde un punto de vista de los conjuntos de datos se aprecian diferentes resultados en función del algoritmo. Así, SVM obtiene el mejor resultado con el conjunto de datos data1G. Sin embargo, otros algoritmos (J4.8, IB1 e IBk) obtienen mejores tasas de clasificación con los subconjuntos que han sido generados a partir de la eliminación de la segunda derivada y, posteriormente, se ha realizado una reducción mediante el algoritmo genético. Finalmente, un tercer grupo de algoritmos (DT y NB) proporciona mejores resultados cuando se elimina la redundancia lineal/logarítmica de la F0 y la energía. Por otra parte, los resultados obtenidos por los conjuntos de datos data1G y data1L son bastante similares, si bien data1LC cuenta con menos de la mitad de parámetros, efecto que también se percibe en los conjuntos que omiten la segunda derivada. En lo referente a los parámetros temporales, los resultados empeoran cuando estos se omiten (conjuntos de datos data1N y data1NG). Y, finalmente, los resultados empeoran significativamente cuando los parámetros se calculan únicamente en las vocales tónicas (conjuntos data1LS y data2LS). En promedio, el conjunto de datos data2G obtiene el mejor resultado, con un 97,02 % de media (Iriondo et al., 2007c). La figura 5.7 muestra la matriz de confusión del algoritmo SVM (que obtiene el mejor resultado en promedio) y el conjunto de datos data2G (que obtiene, también en promedio, el mejor rendimiento). La conclusión que de ella se desprende es que los algoritmos tienden a confundir, principalmente, los estados neutro y sensual a diferencia de los evaluadores subjetivos, que tienden a confundir los estados agresivo y alegre (véase la figura 3.5). Esta diferencia es debida a la ausencia de parámetros relativos a la VoQ en este experimento ya que ambos estilos emotivos tienen una prosodia similar pero la voz sensual es más susurrante que la neutra, diferencia que sí es percibida por los evaluadores subjetivos (Iriondo et al., 2007c). En (Monzo et al., 2007) se recoge un estudio posterior llevado a cabo considerando únicamente los parámetros de VoQ del corpus BDP-UAB. Este estudio constata lo antes explicado respecto a la distinción entre los estilos agresivo y alegre a través de parámetros prosódicos, y neutro y sensual a través de parámetros relativos a la VoQ. El estudio muestra que los parámetros de VoQ son suficientes para discernir entre los diferentes estilos emocionales excepto, precisamente, los dos primeros. Además se demuestra que el estilo alegre sólo se caracteriza por un único parámetro de VoQ (SFM) mientras que el sensual se caracteriza por hasta cinco de ellos (jitter, shimmer, HNR, GNE y do1000). 106 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados 100 98 96 WAR (%) 94 92 90 88 86 84 82 80 data1G data1L data1LC data1LS data1N data1NG J4.8 95,67 95,69 95,52 87,60 91,42 92,11 PART 96,42 96,72 96,51 88,23 93,17 92,02 DT 91,05 92,35 91,79 81,65 86,37 86,70 IB1 95,75 95,26 96,83 83,87 91,63 92,26 IBk 95,45 95,30 97,22 86,27 92,56 93,12 NB 96,87 97,80 96,36 89,80 90,64 92,13 SVM 99,03 98,64 98,49 93,92 97,41 96,51 AB/J4.8 AB/PART 98,25 98,45 98,32 98,45 97,87 97,99 92,48 93,34 95,54 95,62 95,04 95,75 AB/DT 95,24 96,12 95,13 89,05 91,76 91,61 NB 96,94 97,59 96,74 91,01 SVM 98,86 98,47 98,47 93,57 AB/J4.8 98,23 98,17 97,84 92,37 AB/DT 95,49 95,45 95,19 89,28 (a) 100 98 96 WAR (%) 94 92 90 88 86 84 82 80 data2G data2L data2LC data2LS J4.8 96,36 95,97 95,47 87,82 PART 96,87 96,92 96,42 88,77 DT 91,63 92,35 91,79 81,65 IB1 97,54 96,10 96,94 86,46 IBk 97,93 96,53 97,20 88,42 AB/PART 98,38 98,40 98,08 92,67 (b) Figura 5.6: Resultados WAR del experimento de reconocimiento afectivo básico en el corpus BDPUAB. La figura (a) muestra los resultados obtenidos por los subconjuntos de datos derivados del conjunto de datos original completo. La figura (b) muestra los resultados obtenidos por los subconjuntos de datos derivados del conjunto de datos original omitiendo la segunda derivada. El resultado del algoritmo de referencia ZeroR es 22,60 %. 5.1.3. Conclusión Los dos experimentos anteriores muestran los resultados de clasificar un corpus de voz actuada y un corpus de voz estimulada, es decir, corpus grabados en condiciones muy controladas tanto a nivel de contenido como de medios técnicos para garantizar unos requisitos mínimos de calidad, y ambos con un único locutor. Así, a pesar de emplear parametrizaciones diferentes (segmental y fonética), las tasas de clasificación obtienen valores elevados, por encima incluso de las obtenidas en los test subjetivos, lo cual es acorde con los resultados obtenidos por diferentes investigaciones en condiciones similares tal y Porcentaje de clasificación automática 5.2. Reconocimiento afectivo de mapeo subjetivo 107 100 90 80 70 60 50 40 30 20 10 0 Agresivo Alegre Triste Neutro Sensual Agresivo 99,07 0,79 0,08 0,04 0,02 Alegre 1,57 97,08 0,02 1,17 0,16 Triste 0,17 0,08 99,25 0,40 0,09 Neutro 0,22 0,94 0,41 93,93 4,50 Sensual 0,04 0,08 0,22 4,89 94,78 Clasificación real Figura 5.7: Matriz de confusión de los resultados de clasificación del algoritmo SVM y el conjunto de datos data2G en el experimento de reconocimiento afectivo básico con el corpus BDP-UAB. como se recoge en el estado de la cuestión. Sin embargo, sería incorrecto afirmar que esto es el objetivo deseado. Podemos afirmar que el sistema está reconociendo estilos concretos de habla de una voz determinada pero no que está reconociendo una emoción en general. Además, si el corpus va a ser empleado en síntesis de voz, una validación automática de los estilos expresivos del corpus que ofrezca mejor resultado (diferente, en general) que una subjetiva no es interesante dado que el sistema estaría dando por buenas locuciones en las que los evaluadores subjetivos no logran reconocer la emoción deseada. Por este motivo, a continuación se expone un trabajo destinado a realizar un reconocimiento afectivo automático que logre un resultado igual o muy similar al subjetivo. Por otra parte, en el siguiente capítulo se expondrán los experimentos realizados en un entorno de varios locutores y, en general, más realista que el considerado en los trabajos del presente capítulo. 5.2. Reconocimiento afectivo de mapeo subjetivo A diferencia de los experimentos de reconocimiento afectivo básico, el reconocimiento afectivo de mapeo subjetivo no pretende alcanzar la máxima tasa de clasificación. Tal y como se ha mostrado en la sección anterior, los algoritmos de clasificación y los conjuntos de datos presentados son capaces de lograr tasas muy elevadas, por encima incluso de las alcanzadas en las pruebas subjetivas. En este caso, el reconocimiento de mapeo sub- 108 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados jetivo pretende alcanzar los mismos resultados que las pruebas subjetivas, clasificando de forma automática cada uno de los estilos emocionales tal y como los clasifican los evaluadores subjetivos. 5.2.1. Planteamiento general del sistema Tal y como se recoge en (Iriondo et al., 2009), un sistema de reconocimiento afectivo de mapeo subjetivo consta de una primera fase en la que el sistema es entrenado con un subconjunto pequeño procedente del corpus original, considerando al mismo tiempo la evaluación subjetiva realizada sobre el mismo subconjunto. Una vez el sistema es entrenado, es capaz de analizar el corpus completo y eliminar todas aquellas locuciones que no se corresponden con el estilo emocional pretendido y que, en consecuencia, también serían descartadas en una prueba subjetiva. Las locuciones que mejor se corresponden con la clasificación subjetiva permanecen en el corpus resultante. Este proceso es de utilidad en la validación de corpus actuados, eliminando de forma automática aquellas grabaciones en las que el locutor no ha sido capaz de expresar de forma convincente el estilo emocional requerido, sin necesidad de realizar una prueba subjetiva que suponga escuchar la totalidad del corpus. Así pues, este sistema se centra en el oyente (véase la figura 3.1) y, por lo tanto, considera más importantes los resultados de la evaluación subjetiva que los del sistema automático. La estructura genérica de los experimentos de reconocimiento afectivo de mapeo subjetivo se puede observar en la figura 5.1. El esquema es muy similar a la de los experimentos de reconocimiento afectivo básico pero, en este caso, los resultados de la evaluación subjetiva ajustan el proceso de evaluación objetiva. En esta sección se propone un proceso de ajuste tal y como se detalla a continuación. 5.2.2. Diseño del sistema Para realizar el experimento de reconocimiento afectivo de mapeo subjetivo se emplea el corpus BDP-UAB considerando su parametrización completa, tanto a nivel de prosodia como de VoQ. La prueba subjetiva empleada para el entrenamiento del sistema es la misma que la indicada en la sección 3.4.2.1. De forma heurística, y en base a los histogramas relacionados con la evaluación subjetiva (véase la figura 3.6), se determina que una locución es incorrecta (en el sentido de no corresponderse de forma adecuada con el estilo emocional pretendido) si su grado de identificación es inferior al 50 % o si el porcentaje de etiquetas “NS/NC” (es decir, etiquetas asignadas por los evaluadores en caso de no saber distinguir el estilo expresivo) que recibe es superior al 12 %, ya que pueden considerarse atípicos en los histogramas. En caso contrario, la locución se considera correcta. Según estas dos reglas heurísticas, 33 locuciones son etiquetadas como incorrectas en base a la evaluación subjetiva. Por su parte, el sistema de reconocimiento afectivo de mapeo subjetivo asignará una etiqueta categórica a cada locución. Si la etiqueta asignada no se 5.2. Reconocimiento afectivo de mapeo subjetivo 109 Corpus de voz parametrizado Corpus de voz etiquetado Parametrización Evaluación subjetiva Selección de atributos Clasificación automática 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 Resultado subjetivo Evaluación objetiva 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 Resultado objetivo Figura 5.8: Esquema de un experimento genérico de reconocimiento afectivo de mapeo subjetivo. corresponde con la que tenía en su etiquetado original, la locución se considerará incorrecta. Se considerará correcta en caso contrario. El objetivo de la fase de entrenamiento es conseguir que el sistema automático y la evaluación subjetiva coincidan en el etiquetado correcta/incorrecta de cada locución. El funcionamiento global del sistema se muestra en la figura 5.9. Los algoritmos de clasificación son probados con las 480 locuciones involucradas en la prueba subjetiva y entrenados con las 4.158 locuciones restantes. A las locuciones incorrectamente clasificadas se les asigna la etiqueta de incorrectas. Esta asignación es luego comparada con la de la prueba subjetiva. Para realizar la comparación se calcula la medida F1 que tiene en consideración tanto la precisión como la cobertura de las locuciones incorrectamente clasificadas en base a las 33 rechazadas por la prueba subjetiva, y es esta medida la que guía el proceso de selección de parámetros. Este proceso de selección determina si el conjunto de datos debe ser ajustado para optimizar la medida F1. El ajuste puede realizarse mediante una búsqueda voraz incremental, decremental o mixta, tal y como se describen estos procesos en la sección 4.3.2. 5.2.3. Resultados preliminares En (Iriondo et al., 2007a) se recoge un experimento preliminar basado en el esquema propuesto. El conjunto de datos de trabajo es el data2LC dado que consigue un compromiso óptimo entre el número de parámetros (68 parámetros) y los resultados conseguidos (96,58 % de tasa de reconocimiento media) (Iriondo et al., 2009). Siguiendo el esquema propuesto en la figura 5.9, el proceso de selección de atributos consta de una búsqueda 110 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados Locuciones para análisis subjetivo (480) Resultados de la prueba subjetiva Evaluadores subjetivos Datos de prueba Conjunto de datos Filtro de instancias Prueba Filtro de parámetros Datos de entrenamiento Algoritmo de clasificación Entrenamiento Parámetros Algoritmo de selección de parámetros Medida F1 sobre el conjunto de locuciones descartadas F1 Figura 5.9: Ajuste del sistema objetivo de reconocimiento afectivo guiado por los resultados de una prueba subjetiva. Adaptado de (Iriondo et al., 2009). voraz en dos de sus variantes, incremental y decremental. Los algoritmos de clasificación analizados son Naïve-Bayes, SVM y J4.8. El máximo valor de F1 (0,50) se obtiene por el algoritmo SVM y la búsqueda voraz decremental. El mayor número de coincidencias (18) entre las frases descartadas de forma objetiva y de forma subjetiva se obtiene con el algoritmo J4.8 y la búsqueda voraz hacia delante. Sin embargo, este esquema también obtiene un elevado número de clasificaciones incorrectas (51), lo que se refleja en el valor de la medida F1 (0,43). No obstante, este trabajo presenta algunas limitaciones que se intentan subsanar a continuación. En primer lugar, no se recoge información procedente de la VoQ sino que se limita a analizar únicamente la prosodia de las locuciones. La incorporación de esta información puede ser útil para discernir entre determinados estilos del habla, tal y como se ha comentado anteriormente. Por otra parte, la búsqueda voraz exclusivamente incremental o decremental no es capaz de deshacer decisiones previas, mientras que una estrategia combinada podría evitar alcanzar máximos locales asociados a resultados pobres. Y, por último, dado que algunos clasificadores son más precisos que otros, la combinación de varios algoritmos podría mejorar el resultado final. 5.2.4. Inclusión de parámetros de VoQ La incorporación de los 55 parámetros de VoQ extraídos del corpus BDP-UAB (véase la sección 3.4.2.2) al conjunto de datos data2LC resulta en un conjunto de datos de 123 parámetros cuya definición se muestra, de forma gráfica, en la figura 5.10, tal y como se recoge en (Iriondo et al., 2007b). El nuevo conjunto de datos recibe el nombre de data2LCVQ5. 5.2. Reconocimiento afectivo de mapeo subjetivo 111 F0 (log) ENE (dB) DUR (z-score) Corpus de voz expresiva Análisis de prosodia Análisis estadístico (11 funcionales) Atributos de prosodia (66) Derivada Atributos de pausas (2) data2LCVQ5 (123 + etiqueta) Jitter Análisis de calidad de la voz Shimmer GNE do1000 Análisis estadístico Atributos de calidad de la voz (55) (11 funcionales) HammI Etiqueta categórica afectiva Figura 5.10: Descripción gráfica del corpus data2LCVQ5. ENE y DUR hacen referencia a los parámetros de energía y duración, respectivamente. Adaptado de (Iriondo et al., 2007b). El efecto de la incorporación de los parámetros de VoQ a los parámetros prosódicos puede observarse en las dos primeras columnas de la figura 5.11. 5.2.5. Selección de parámetros ampliada En (Iriondo et al., 2007b) se propone una estrategia de selección de atributos basada en una búsqueda voraz bidireccional como la descrita en la sección 4.3.2. Si bien el primer ajuste se realiza para un esquema 3FW-1BW, en (Iriondo et al., 2009) también se considera un esquema 4FW-1BW. En cada iteración se escoge el subconjunto de parámetros que maximiza la medida F1, añadiendo 3 o 4 atributos en cada paso hacia delante, respectivamente, y eliminando 1 en cada paso atrás. La figura 5.11 muestra los resultados conseguidos por los clasificadores SVM, J4.8 y Naïve-Bayes en combinación con los distintos métodos de selección de atributos 3FW-1BW y 4FW-1BW. Para todos los casos, la presencia de parámetros de VoQ supone una mejora de los resultados. Por otra parte, la estrategia 3FW-1BW también mejora los resultados de la medida F1. Los resultados más significativos se obtienen para J4.8 y Naïve-Bayes. Ambas modificaciones suponen una mejora relativa superior al 20 % para los tres clasificadores. Respecto a la estrategia de 3FW-1BW, la estrategia 4FW-1BW iguala los resultados para SVM y J4.8, pero los empeora para Naïve-Bayes. La figura 5.12 muestra la evolución del valor máximo de F1 de los tres algoritmos anteriores con las estrategias de selección de atributos consideradas. 112 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados 0,65 0,6 F1 0,55 0,5 0,45 0,4 Sin VoQ FW 0,49 0,43 0,42 SVM J4.8 NB Con VoQ 3FW-1BW 0,61 0,56 0,58 FW 0,59 0,52 0,48 4FW-1BW 0,61 0,56 0,54 Figura 5.11: Valores máximos de F1 para los algoritmos SVM, J4.8 y Naïve-Bayes (NB) considerando la ausencia y presencia de parámetros de VoQ (conjuntos de datos data2LC y data2LCVQ5, respectivamente). Se incluyen las estrategias de búsqueda hacia delante (FW), 3FW-1B y 4FW-1BW. 0,7 0,6 0,6 0,5 0,5 0,4 0,4 F1 0,7 0,3 0,3 SVM_3FW-1BW 0,2 SVM_4FW-1BW 0,2 J48_3FW-1BW 0,1 0 J48_4FW-1BW NB_3FW-1BW 1 20 40 60 80 NB_4FW-1BW 0,1 100 120 140 Número de iteraciones (a) 160 180 0 1 20 40 60 80 100 120 140 160 Número de iteraciones (b) Figura 5.12: Valores máximos de F1 por iteración considerando el conjunto de datos data2LCVQ5 con las estrategias de selección de parámetros: (a) 3FW-1BW y (b) 4FW-1BW. 5.2.6. Fusión de clasificadores La fusión de clasificadores se realiza mediante dos estrategias de stacking (véase la sección 4.3.1) diferentes: mediante un sistema de voto mayoritario ponderado y a través de un algoritmo de reglas PART. El sistema de voto mayoritario combina 7 de los 9 clasificadores que consideran los parámetros prosódicos y de VoQ de la figura 5.11. Se descartan, por lo tanto, los algoritmos J4.8/FW y NB/FW por obtener los peores resultados. El sistema de votación tiene en cuenta la asignación correcta/incorrecta (en referencia a si se corresponde con el estilo 5.3. Resumen 113 emocional pretendido o no, respectivamente) que cada clasificador realiza de una misma locución y se establece un número mínimo de votos para considerar como incorrectas cada una de ellas. Dado que un análisis de cada estilo revela que las locuciones correspondientes al estilo agresivo son detectadas como incorrectas por pocos clasificadores, se crea un sistema ponderado que multiplica por 2 el número de votos que reciben las locuciones de este estilo. La figura 5.13 muestra la evolución de precisión, cobertura y medida F1 del sistema en función del número mínimo de votos que se consideren necesarios para determinar que una locución sea incorrecta. El valor máximo de F1 es 0,71, obtenido con un mínimo de 4 votos, lo cual mejora el mejor resultado individual (0,61) de forma significativa. Una alternativa al sistema de votación es entrenar un clasificador de nivel 1 que tome una decisión final a partir de los resultados de los clasificadores de la figura 5.11 (clasificadores de nivel 0). En este caso se escoge el algoritmo PART de creación de reglas de decisión. El resultado de la medida F1 es 0,73, el cual es ligeramente superior al de votación. El algoritmo 1 muestra las reglas creadas por PART, en el que los clasificadores escogidos son C1=SVM(3FW-1BW), C2=J4.8(3FW-1BW), C3=J4.8(4FW-1B) y C4=NaïveBayes(3FW-1BW). Los resultados de cada clasificador se expresan como 0 o 1, donde 0 significa que la locución se clasifica de forma correcta y 1 significa que la locución no se clasifica correctamente. El número de casos clasificados de forma correcta/incorrecta se muestra entre paréntesis. Las reglas se aplican en el orden establecido y, en el caso de que no se cumplan las condiciones de cada una de ellas, se asigna, por defecto, la clase mayoritaria. Algoritmo 1 Algoritmo PART para la fusión de clasificadores en el proceso de reconocimiento afectivo de mapeo subjetivo. C1 = 0 y C2 = 0 y C3 = 0 y C4 = 0: Correcta (408/10) C1 = 0 y Estilo = AGR y C2 = 1: Incorrecta (7/2) C1 = 0: Correcta (25) C3 = 1: Incorrecta (18/3) C2 = 0 y C4 = 0: Correcta (4/1) C2 = 0: Incorrecta (2) : Correcta 5.3. Resumen Este capítulo ha recogido diferentes experimentos de reconocimiento afectivo automático relacionados con corpus de voz actuada y estimulada grabados en condiciones óptimas. Se han considerado dos perspectivas distintas. En primer lugar, se ha planteado un reconocimiento afectivo automático a nivel básico consistente en maximizar la WAR de dos corpus distintos mediante parámetros acústicos a nivel prosódico y de VoQ. Comparando los resultados obtenidos por los cla- 114 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados 1 Cobertura Precisión 0,9 F1 F1 PART 0,8 0,7 0,6 0,5 0,4 0 1 2 3 4 5 Número de votos 6 7 Figura 5.13: F1, cobertura y precisión de la fusión de clasificadores por votación en función del mínimo número de votos necesario para considerar las locuciones como incorrectas. Se incluye el resultado de la F1 conseguida por la fusión mediante el algoritmo PART. sificadores y las pruebas subjetivas realizadas por evaluadores humanos se comprueba que la tasa de reconocimiento conseguida por los algoritmos objetivos es, en ocasiones, incluso superior a la obtenida de forma subjetiva. Sin embargo se aprecian diferencias a nivel de categorías concretas en función del esquema de aprendizaje analizado en cada caso y de la parametrización escogida. En segundo lugar se ha propuesto un sistema automático orientado a obtener unos resultados de clasificación próximos a los obtenidos de forma subjetiva. Es decir, pretendiendo que la clasificación automática mapee el criterio subjetivo con la finalidad de poder realizar una validación automática de un corpus extenso sin necesidad de invertir grandes recursos humanos en esa tarea. A diferencia de la propuesta realizada en primer lugar, en esta ocasión los resultados subjetivos obtenidos a partir de un fragmento del corpus sirven para ajustar el sistema de reconocimiento automático permitiendo conseguir una aproximación del mapeo deseado. Este ajuste se realiza mediante la selección adecuada de los parámetros para maximizar la medida F1 computada en base a la clasificación subjetiva y la objetiva. Para ello se emplean algoritmos de búsqueda voraz hacia delante, atrás y combinada. Asimismo, se aplica la fusión de varios clasificadores mediante dos técnicas de stacking que permite mejorar la clasificación de aquellas clases que son clasificadas con diferente precisión por distintos algoritmos. Los resultados de los experimentos anteriores ponen de manifiesto que el análisis de corpus de voz grabados por actores en condiciones óptimas es una tarea que proporciona, por lo general, buenos resultados. Sin embargo, estos experimentos trabajan dentro de un escenario difícilmente reproducible en una aplicación real. Estos esquemas de aprendizaje reconocen emociones plenas concretas que proceden de un único locutor por lo que 5.3. Resumen 115 distan mucho de emular el comportamiento humano, el cual es capaz de reconocer una amplia variedad de estilos afectivos (con sus diferentes grados de intensidad) de locutores diferentes. Es por ello que en el siguiente capítulo se abordan experimentos destinados a trabajar en un entorno más realista, en los que se pondrán de manifiesto diferencias notables con los resultados aquí obtenidos. 116 5. Primeras aproximaciones al reconocimiento afectivo en corpus actuados Capítulo 6 Reconocimiento afectivo en corpus de voz espontánea Este capítulo se centra en el reconocimiento afectivo automático realizado en el corpus FAU Aibo, un corpus de expresión vocal espontánea de varios locutores que presenta, por sus propias condiciones de grabación, unas condiciones muy distintas de las estudiadas en los experimentos del capítulo 5 y que suponen, en consecuencia, un planteamiento distinto de los experimentos llevados a cabo. Este capítulo detalla este nuevo planteamiento y las diferencias respecto a los experimentos presentados en el anterior, tanto en su definición como en los resultados obtenidos. En primer lugar, este capítulo se centra en la metodología que siguen los distintos experimentos planteados. A continuación se detallan los experimentos de reconocimiento afectivo agrupados en tres bloques según su objeto de análisis: parámetros acústicos y parámetros lingüísticos de forma independiente, y la fusión de ambas modalidades para un estudio conjunto. En estos experimentos se trata el ejercicio de clasificación desde distintas perspectivas, considerando tanto esquemas de clasificación individuales como estructuras más complejas, agrupando varios clasificadores mediante estructuras jerárquicas, estructuras en cascada o mediante fusión a nivel de decisión. Las modalidades acústica y lingüística se fusionan a nivel de decisión y a nivel de parámetros. Por otra parte, se abordan experimentos de selección de parámetros destinados a reducir el volumen de datos con la finalidad de reducir la complejidad de los esquemas de reconocimiento propuestos y optimizar las tasas de clasificación alcanzadas. 117 118 6. Reconocimiento afectivo en corpus de voz espontánea 6.1. Metodología La metodología de los experimentos presentados en este capítulo difiere de la presentada en el capítulo anterior en varios aspectos que se detallan a continuación. Básicamente, estas diferencias hacen referencia al esquema general de los experimentos, a la métrica que se emplea para medir y comparar sus resultados y los métodos de evaluación de los esquemas de aprendizaje. 6.1.1. Esquema general A diferencia de los experimentos propuestos para el reconocimiento afectivo automático en corpus grabados por actores, como los expuestos en el capítulo 5, los experimentos de reconocimiento afectivo en corpus espontáneos no pueden dividirse en los dos grupos que se habían propuesto: experimentos de reconocimiento afectivo básico y de mapeo subjetivo. En primer lugar porque, dada la propia naturaleza del corpus, no tiene sentido plantear una validación del mismo. La grabación recoge locuciones con un estilo afectivo natural que no se ciñe a ningún guion previo por lo que, dado que no hay un estilo pretendido, no pueden descartarse locuciones por no expresar correctamente un estilo afectivo concreto. En segundo lugar porque un corpus espontáneo siempre es etiquetado en una fase posterior a su grabación. Esto implica que el etiquetado del corpus ya está realizado en base a un criterio subjetivo por lo que cualquier experimento de reconocimiento afectivo automático está realizando, de forma implícita, un mapeo subjetivo. Así pues, un experimento de reconocimiento afectivo automático en un corpus espontáneo es, en cuanto a estructura, muy similar a uno de reconocimiento afectivo básico, si bien existe implícito un mapeo del criterio subjetivo. La figura 6.1 muestra el esquema de un experimento de reconocimiento afectivo automático basado en un corpus de voz espontánea. A diferencia del esquema propuesto en la figura 5.1, el etiquetado del corpus es posterior a la grabación del mismo y se realiza de forma subjetiva1 , proceso que sustituye a la fase de evaluación subjetiva. El resto de módulos sí son iguales a los del esquema anterior. Los experimentos que se recogen en este capítulo siguen esta estructura genérica. 6.1.2. Métrica Además de la diferencia en el esquema genérico propuesto, los experimentos de reconocimiento afectivo automático en el corpus de voz espontánea FAU Aibo recogidos en este capítulo también se diferencian de los del capítulo anterior en la métrica empleada 1 En el caso del corpus FAU Aibo, este etiquetado subjetivo consiste en la asignación de una etiqueta categórica a cada palabra de cada una de las locuciones del corpus. Este proceso involucra a cinco evaluadores. Posteriormente, un algoritmo heurístico asigna una etiqueta global a la locución a partir de la evaluación individual de cada palabra (Steidl, 2009). 6.1. Metodología 119 Corpus de voz parametrizado Corpus de voz Parametrización Etiquetado subjetivo Selección de atributos Clasificación automática Evaluación objetiva 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 Resultado objetivo Figura 6.1: Esquema de un experimento genérico de reconocimiento afectivo en corpus de voz espontánea. para medir el rendimiento de los esquemas de aprendizaje. En este caso se mide la UAR en lugar de la WAR dado que el corpus FAU Aibo es un corpus no equilibrado, es decir, existe una notable diferencia entre el número de casos de unos estados afectivos frente a otros (véase la sección 3.4.3.1). Por ejemplo, la clase mayoritaria es la correspondiente al estado neutro, lo cual es acorde con un escenario real, en el que las interacciones neutras son las más abundantes ya que raramente se producen expresiones emocionales (Batliner et al., 2003). Por ese motivo, en un escenario de estas características es tan importante detectar las locuciones con contenido emocional como las neutras y es por eso que la UAR es de especial utilidad, ya que no mide únicamente el número de casos correctamente clasificados sino que tiene en consideración el número de casos de cada clase que se clasifican de forma correcta (véase la sección 4.3.4). Sin embargo, en los primeros experimentos de este capítulo también se incluirá el resultado de la WAR con la finalidad de comparar resultados y analizar el comportamiento general de los clasificadores estudiados en un corpus de estas características. No obstante, la medida que se considerará objetivo de maximización será la UAR por las razones antes expuestas. 6.1.3. Métodos de evaluación El corpus FAU Aibo ofrece dos subconjuntos diferentes que Schuller et al. (2009) escogen como conjunto de datos de entrenamiento y conjunto de datos de prueba (véa- 120 6. Reconocimiento afectivo en corpus de voz espontánea se la sección 3.4.3.1). Esta división permite que los esquemas de aprendizaje puedan ser entrenados y probados de forma independiente. Esto permite destacar varios aspectos: Se trabajará en un entorno de varios locutores en los que el sistema será probado con voces diferentes a las que se emplearon para su entrenamiento. Esto permitirá observar si el sistema es capaz de reconocer expresiones emocionales genéricas y no voces concretas ni expresiones emocionales propias de usuarios específicos. Dado que ambos conjuntos constan de locuciones grabadas por personas diferentes, las expresiones emocionales serán ligeramente diferentes en la forma en la que son expresadas. El análisis por separado permitirá comprobar si el sistema es capaz de reconocer la emoción subyacente dentro de las particularidades de cada expresión concreta. Entrenar y probar con conjuntos diferentes permitirá emular el funcionamiento del sistema de reconocimiento en un entorno real en el que el sistema debería ser capaz de reconocer los estados afectivos sin necesidad de haber sido entrenado con los mismos usuarios que después lo utilicen. Este método de evaluación permite comparar los resultados de diferentes experimentos que siguen la misma metodología tal y como se detalla en la sección 4.4.2. Ello no impide, sin embargo, que no se puedan aplicar otras metodologías utilizando, únicamente, el subconjunto de datos de entrenamiento como paso previo a la evaluación mediante los dos subconjuntos, tales como una validación cruzada de varias iteraciones o independiente de los sujetos. Ello facilitaría la tarea de elección de parámetros y algoritmos al trabajar con un conjunto de datos más reducido y, además, permitiría una posterior validación mediante el subconjunto de prueba que, en todo momento excepto al final, permanecería fuera del experimento. Los experimentos que se recogen en este capítulo emplean diferentes métodos de evaluación si bien todos ellos realizan, como paso final, una evaluación mediante los subconjuntos de entrenamiento y prueba para permitir la comparación de sus resultados, tanto entre ellos como con el resto de experimentos que siguen la metodología aquí explicada, que es la empleada mayoritariamente por los trabajos realizados sobre el corpus FAU Aibo. Schuller et al. (2009) proponen un resultado de referencia para un entorno de estudio como el aquí descrito, dentro del marco del Emotion Challenge 2009 (véase la sección 6.2.1). Esta referencia se corresponde con un valor de UAR del 38,2 %, obtenido mediante un algoritmo SVM de kernel lineal al analizar el conjunto de datos acústicos estandarizado y remuestreado mediante la técnica SMOTE (Chawla et al., 2002), tal y como se introducía en la sección 4.4.2. Este es el resultado que también se considerará como referencia a lo largo de este capítulo. 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 121 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos Esta sección recoge los experimentos realizados a nivel acústico sobre el corpus FAU Aibo, siguiendo la línea expuesta en el capítulo anterior. Se detallan dos experimentos que analizan el corpus únicamente a nivel acústico empleando la parametrización descrita por Schuller et al. (2009). Ambos experimentos estudian, en primer lugar, el subconjunto de entrenamiento mediante dos técnicas distintas: una validación cruzada de 10 iteraciones (sección 6.2.1) y una estrategia LOSO (sección 6.2.2), respectivamente, garantizando la independencia entre el subconjunto de entrenamiento y el de prueba durante la fase de elección del mejor esquema de clasificación. En segundo lugar se validan los resultados obtenidos mediante un entrenamiento con el primer subconjunto completo y la clasificación de los elementos del segundo subconjunto. Por otra parte, la sección 6.2.1 presenta unos resultados preliminares tal y como se recogen en (Planet et al., 2009), mostrando distintos esquemas de clasificación y una primera selección de parámetros. La sección 6.2.2 emplea un conjunto de datos mejorado y presenta otros esquemas de clasificación, incluyendo una aproximación bidimensional, y una selección de parámetros más precisa. 6.2.1. Propuesta para el Emotion Challenge 2009 El primer experimento de reconocimiento afectivo automático con voz espontánea se realiza a partir de las reglas establecidas por Schuller et al. (2009) en el marco del Emotion Challenge de la X Conferencia INTERSPEECH 2009, analizando el corpus FAU Aibo. Estas reglas determinan el corpus FAU Aibo como elemento de estudio para todos los participantes, abriéndose por primera vez para la comunidad científica en general y definiendo los dos subconjuntos antes citados. Asimismo ofrece una parametrización acústica realizada mediante una versión preliminar del software openSmile incluido en el paquete openEAR (Eyben et al., 2009), tal y como se describe en la sección 3.4.3.2. Los parámetros se proporcionan en el formato adecuado para ser procesados mediante la herramienta WEKA. Este experimento se enmarca en dos de las tres partes que componen el Emotion Challenge 2009 (tal y como se señalaba en la sección 4.4.2). El objetivo general es maximizar la UAR. Los detalles de las partes se describen a continuación: Desafío de clasificación (Classifier Sub-Challenge). Consiste en el estudio de los parámetros acústicos suministrados por la organización del Emotion Challenge 2009 (véase la tabla 3.4), de forma exclusiva y sin añadir ningún otro parámetro extraído a partir de los archivos de audio si bien se permite la modificación de los parámetros originales. El análisis puede realizarse mediante un único clasificador o mediante la combinación de varios de ellos. Los experimentos se detallan en la sección 6.2.1.1. 122 6. Reconocimiento afectivo en corpus de voz espontánea Desafío de parámetros (Feature Sub-Challenge). Esta parte consiste en la búsqueda de los parámetros más relevantes, hasta un máximo de 100, para la maximización de los resultados de la UAR conseguida por los esquemas de clasificación. Se permite la inclusión de nuevos parámetros a los ya proporcionados por los organizadores. Este análisis se detalla en la sección 6.2.1.2. Las propuestas y los resultados obtenidos en ambas partes del estudio se recogen en (Planet et al., 2009). A continuación se explican los detalles de los mismos. 6.2.1.1. Desafío de clasificación La propuesta presentada en el desafío de clasificación del Emotion Challenge 2009 consta de cuatro estrategias de clasificación. En primer lugar se plantea una batería de pruebas con distintos clasificadores, similar al planteamiento que se presentó en la sección 5.1.1. Después, con la finalidad de mejorar los resultados obtenidos, se diseñan dos metaclasificadores jerárquicos y uno más con estructura en cascada. En todos los casos la evaluación consiste en evaluar varios clasificadores mediante una validación cruzada de 10 iteraciones considerando, únicamente, el subconjunto de entrenamiento. Después se repite la evaluación mediante un entrenamiento con el primer subconjunto y la consiguiente evaluación con el segundo. Los resultados expuestos en esta sección recogen los resultados de ambas evaluaciones. Evaluación de algoritmos simples de clasificación. En el primer caso, en el que se evalúan distintos algoritmos de clasificación, los algoritmos escogidos son los determinados como más relevantes en base a los resultados obtenidos en el experimento preliminar de la sección 5.1.2: el árbol de decisión J4.8, dos algoritmos KNN con selección de un vecino más próximo y basados en la distancia euclídea (IB-A) y en la distancia Manhattan (IB-B), Naïve-Bayes con discretización supervisada previa del conjunto de datos, el algoritmo de tablas de decisión DT y un algoritmo SVM de kernel lineal, entrenamiento mediante el algoritmo de optimización secuencial mínima y empleando discriminación por parejas. La figura 6.2 muestra los resultados de los clasificadores anteriores según los dos métodos de evaluación antes descritos. Se pueden observar diferencias entre los resultados obtenidos por la validación cruzada y el entrenamiento y prueba con los dos conjuntos independientes. En general, los resultados procedentes de la evaluación de conjuntos independientes es peor, en términos de UAR, que los obtenidos por la validación cruzada. Sin embargo, el algoritmo Naïve-Bayes no es particularmente susceptible a la evaluación con un método u otro, aunque obtiene un resultado bajo en términos de WAR. Naïve-Bayes, además, mejora el resultado de referencia al obtener un valor de UAR en la evaluación con dos conjuntos independientes del 41,16 %, en un 2,96 % absoluto (7,75 % relativo). La figura 6.3 muestra la matriz de confusión de este clasificador en su evaluación mediante los dos conjuntos independientes. Nótese la dificultad para clasificar correcta- 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 123 mente los casos de la clase R, lo cual es acorde con la propia indefinición de esta categoría afectiva. El mejor resultado en términos de WAR se obtiene mediante el algoritmo SVM de kernel lineal, siendo su UAR la segunda mejor del experimento. 70 65 60 55 50 45 40 35 30 25 20 10-FCV WAR 10-FCV UAR Test set WAR Test set UAR J4.8 48,26 33,31 48,23 26,82 IB-A 50,83 33,55 48,92 26,14 IB-B 54,82 39,37 50,05 27,35 NB 41,67 41,72 39,14 41,16 DT 59,89 28,33 64,71 24,53 SVM 63,71 37,54 65,62 28,94 Porcentaje de clasificación automática Figura 6.2: Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los clasificadores según su evaluación mediante una validación cruzada de 10 iteraciones (10-FCV) y mediante los dos conjuntos independientes (Test set). Adaptado de (Planet et al., 2009). 70 60 50 40 30 20 10 0 E A N R P E 47,21 23,81 21,02 3,05 4,91 A 21,11 50,74 13,75 4,58 9,82 N 19,16 22,88 37,7 4,26 16,01 R 12,27 22,34 32,6 9,71 23,08 P 3,26 6,51 24,19 5,58 60,47 Clasificación real Figura 6.3: Matriz de confusión del algoritmo Naïve-Bayes evaluado mediante los dos conjuntos independientes de entrenamiento y de prueba. Adaptado de (Planet et al., 2009). 124 6. Reconocimiento afectivo en corpus de voz espontánea Estructura jerárquica de dos niveles basada en un clasificador binario y uno general. La idea de este algoritmo jerárquico es clasificar las locuciones de la clase N en un primer nivel de decisión mediante un clasificador especializado y, posteriormente, clasificar el resto de locuciones mediante un clasificador de segundo nivel. La figura 6.4 representa este clasificador jerárquico en el que se plantea un primer nivel de decisión en el que las locuciones son clasificadas de forma binaria, según pertenezcan a la clase N o a otra distinta (¬N). En el segundo nivel de decisión un clasificador es entrenado con el corpus completo después de haber sido remuestreado para conseguir una distribución uniforme de las clases2 . En esta figura, como en todas las de esta sección, los elementos coloreados en azul indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que son evaluados en un clasificador, independientemente de si se estos flujos intervienen en la fase de entrenamiento o la de prueba3 . Conjunto de entrenamiento Conjunto de prueba Clasificador binario N / ¬N Remuestreo ¬N Clasificador general E/A/N/R/P Resultados N Figura 6.4: Esquema del clasificador jerárquico de dos niveles basado en un clasificador binario de primer nivel y un clasificador general de segundo nivel. Los elementos coloreados en azul indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que son evaluados en un clasificador. 2 La técnica de remuestreo empleada es sencilla y consiste en eliminar algunos casos de las clases mayoritarias y repetir algunos casos de las minoritarias. Es, por lo tanto, un proceso de filtrado automático supervisado y permite reducir, mantener o incrementar, según sea la configuración del experimento, el número de casos del conjunto de datos final. 3 No es el caso de este esquema pero, en ocasiones (por ejemplo, en el esquema de la figura 6.5), es posible que durante la fase de entrenamiento se evalúen algunos datos del conjunto de entrenamiento en un clasificador que ya ha sido entrenado con la finalidad de emplear el resultado de clasificación para entrenar un segundo módulo. Estos datos aparecerían representados en color azul (por estar relacionados con la fase de entrenamiento) y una línea sólida, ya que son evaluados por un clasificador. 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 125 Se escogen dos clasificadores de tipo SVM lineal como el descrito en el experimento anterior4 . En este caso se trabaja con dos versiones diferentes del conjunto de datos: la original y una versión estandarizada. La tabla 6.1 muestra los resultados obtenidos en ambos casos, los cuales superan los del experimento anterior excepto los del algoritmo Naïve-Bayes, que mantiene el mejor resultado en términos de UAR. En comparación con el clasificador SVM de la sección anterior (cuyo resultado se muestra en la primera fila de la tabla 6.1), el valor de WAR disminuye y aumenta el valor de UAR, lo cual es acorde con el objetivo planteado. Dado que el conjunto de datos estandarizado mejora la UAR, esta versión será la escogida para el resto de esquemas de aprendizaje de esta sección. Tabla 6.1: Resultados para la evaluación mediante dos conjuntos independientes de la estructura jerárquica basada en dos niveles: un primer nivel binario y un segundo nivel con un único clasificador general. Se incorpora en la primera fila el resultado obtenido por un clasificador SVM como referencia, tal y como se especifica en el experimento anterior (figura 6.2). Adaptado de (Planet et al., 2009). Conjunto de datos Original Original Estandarizado Clasificador SVM (1 nivel) SVM (2 niveles) SVM (2 niveles) WAR 65,62 60,78 58,71 UAR 28,94 30,82 32,30 Estructura jerárquica de dos niveles basada en un clasificador binario y dos generales. La estrategia de esta segunda estructura jerárquica de dos niveles es lograr conjuntos de datos mejor equilibrados en un primer nivel con los que entrenar los clasificadores de segundo nivel mediante un método natural, sin emplear una técnica de remuestreo como en el primer esquema propuesto. Esta estructura consiste, al igual que en el caso anterior y tal y como se muestra en la figura 6.5, en un clasificador de primer nivel (1C) en el que las locuciones son clasificadas de forma binaria según su pertenencia a la clase N o a otra distinta (¬N). A diferencia de la estructura anterior, dos clasificadores generales son entrenados en el segundo nivel empleando el conjunto de datos de entrenamiento tras haber sido clasificado por el clasificador binario de primer nivel. El primer clasificador (2C-1) es entrenado con aquellos casos de la clase N que han sido correctamente clasificados por el clasificador de primer nivel (verdaderos positivos) y con los casos que, sin pertenecer a la clase N, han sido clasificados por ese mismo clasificador como tales (falsos positivos). El segundo clasificador (2C-2) es entrenado con aquellos casos de la clase N clasificados incorrectamente como no pertenecientes a esa clase (¬N) (falsos negativos) y con los casos no pertenecientes a la clase N que han sido correctamente clasificados como tales (verdaderos negativos). La tabla 6.2 muestra los resultados de esta segunda estructura jerárquica de dos niveles, considerando diferentes clasificadores en las etapas de las que consta la estructura. Los clasificadores SVM son los mismos que los descritos en los experimentos anteriores si 4 Para simplificar, no se incluyen los resultados de otros algoritmos dado que obtienen resultados inferiores en esta estructura. 126 6. Reconocimiento afectivo en corpus de voz espontánea Conjunto de prueba Conjunto de entrenamiento Clasificador binario N / ¬N 1C Clasificado como N Clasificado como N Clasificador general E/A/N/R/P Clasificado como ¬N Clasificado como ¬N Clasificador general E/A/N/R/P 2C-1 2C-2 Resultados Figura 6.5: Esquema del clasificador jerárquico de dos niveles basado en un clasificador binario de primer nivel (1C) y dos clasificadores generales de segundo nivel (2C-1 y 2C-2). Los elementos coloreados en azul indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que son evaluados en un clasificador, independientemente de si se estos flujos intervienen en la fase de entrenamiento o la de prueba. bien se introduce un clasificador SVM de kernel gaussiano, el cual mejora los resultados en términos de WAR pero los empeora en términos de UAR. El mejor resultado se obtiene para la configuración de dos clasificadores SVM y un clasificador Naïve-Bayes, para los casos clasificados como ¬N, que mejora el resultado del experimento anterior pero se mantiene por detrás del obtenido por un único clasificador Naïve-Bayes en el primer experimento. Tabla 6.2: Resultados para la evaluación mediante dos conjuntos independientes de la estructura jerárquica basada en dos niveles: un primer nivel binario y un segundo nivel con dos clasificadores generales. 1C indica el algoritmo de clasificación empleado en el primer nivel. 2C-1 y 2C-2 indican los algoritmos empleados en el primer y segundo clasificador, respectivamente, del segundo nivel. Adaptado de (Planet et al., 2009). 1C SVM lineal SVM gaussiano SVM lineal 2C-1 SVM lineal SVM gaussiano SVM lineal 2C-2 SVM lineal SVM gaussiano Naïve-Bayes WAR 63,04 64,28 60,20 UAR 30,20 27,97 32,63 Estructura de clasificación en cascada La estructura de clasificación en cascada propuesta aparece representada en la figura 6.6. En cada uno de los 5 niveles de la estructura se clasifican las locuciones según pertenezcan o no a una clase concreta. El orden de las clases se establece en función de la población de las mismas (las mayoritarias primero y 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 127 las minoritarias al final) con la finalidad de descartar casos en cada nivel y crear conjuntos de datos más equilibrados para entrenar el siguiente clasificador. Así pues, el primer clasificador es entrenado con el conjunto de datos de entrenamiento completo y su finalidad es distinguir los casos de la clase N del resto. Es decir, el primer clasificador es binario y separa las locuciones según pertenezcan a la clase N o al resto (¬N). El segundo clasificador, ubicado en un nivel inferior, es entrenado para llevar a cabo la misma función pero, en este caso, analizando la segunda clase más poblada del corpus FAU Aibo, es decir, distinguiendo los casos de la clase E del resto. Sólo los casos clasificados como ¬N por el primer clasificador son usados para entrenar este segundo clasificador. Esta estructura es repetida hasta el quinto clasificador, el cual analiza la clase menos poblada del corpus, es decir, la clase P. En este caso, y por ser el último, los casos identificados como ¬P son asignados, por defecto, a la clase N dado que es la clase mayoritaria. Conjunto de entrenamiento Conjunto de prueba N / ¬N ¬N N ¬N ¬N E / ¬E ¬E E ¬E ¬E A / ¬A ¬A A ¬A ¬A R / ¬R ¬R R ¬R ¬R P / ¬P P Resultados ¬P → N Figura 6.6: Esquema del clasificador en cascada basado en 5 niveles de clasificación ordenados según la población de cada una de las clases del corpus FAU Aibo. Los elementos coloreados de azul indican relación con la fase de entrenamiento y los coloreados en rojo indican relación con la fase de prueba. Las líneas punteadas indican flujos de datos que sirven para entrenar un clasificador mientras que las líneas sólidas indican flujos de datos que son evaluados en un clasificador, independientemente de si se estos flujos intervienen en la fase de entrenamiento o la de prueba. Empleando clasificadores SVM de kernel lineal en cada nivel, la WAR es de 65,53 % y la UAR de 28,03 %. Dado que la clase R es la que presenta una definición más difusa y es, por lo tanto, más difícil de caracterizar, se plantea el cambio de orden de los niveles R y P. Con esta modificación la WAR es de 65,33 % y la UAR de 28,12 %. En comparación con los experimentos anteriores, este planteamiento mejora la WAR pero empeora la UAR. Sin 128 6. Reconocimiento afectivo en corpus de voz espontánea embargo la fase de entrenamiento es más rápida porque el tamaño de los conjuntos de datos en cada nivel es inferior al de los otros experimentos. 6.2.1.2. Desafío de parámetros En cuanto a la selección de parámetros planteada al inicio de esta sección, en primer lugar se completa la parametrización original del corpus. Para completar esta parametrización se añade una serie de parámetros relativos a la VoQ que han demostrado ser útiles en estudios anteriores (Iriondo et al., 2007b, 2009). Estos parámetros, cuya descripción se puede consultar en la sección 3.3.1.1, son los siguientes descriptores de bajo nivel: jitter, shimmer, HammI, SFM, do1000 y pe1000. Esta parametrización se lleva a cabo únicamente en las partes sonoras de las locuciones y los funcionales extraídos son los mismos que los del resto de descriptores de bajo nivel originales del corpus FAU Aibo (véase la sección 3.4.3.2), con la excepción del segundo cuartil. Adicionalmente se añaden dos parámetros relacionados con el ritmo: duración de los grupos acentuales y duración de las sílabas. La duración de los grupos acentuales se estima mediante la distancia entre máximos locales del contorno frecuencial, tal y como se definen en (Planet et al., 2009). Este contorno se obtiene restando un contorno de base al contorno original. El contorno de base consiste en el contorno original filtrado paso-bajas con una frecuencia de corte de 5 Hz5 . La duración de las sílabas se estima mediante la distancia entre picos de intensidad del contorno de energía de la señal (Planet et al., 2009). Ambos contornos se obtienen mediante la herramienta de análisis Praat. Para cada uno de estos parámetros se calculan dos funcionales: media y desviación estándar. Considerando los parámetros de VoQ anteriores, en total se añaden 70 parámetros al conjunto de datos original. El conjunto resultante final consta de 454 parámetros por locución, excluyendo la etiqueta emocional. Para este experimento preliminar se opta por el método de filtro de selección de parámetros mRMR (véase la sección 4.3.2) empleando la implementación en MATLAB de Peng et al. (2005). El conjunto de datos de entrenamiento es previamente procesado en dos etapas. En primer lugar, dado el gran volumen de datos, el conjunto de datos se reduce a la mitad manteniendo la misma distribución de etiquetas afectivas. Seguidamente, los parámetros son discretizados mediante un proceso descrito por (Peng et al., 2005) por el cual primero son estandarizados, luego multiplicados por un factor k y, finalmente, redondeados al entero más próximo, tal y como se muestra en la ecuación 6.1. En este caso se escoge el valor de k = 10 de forma heurística. parami = round(k × z-score(parami )) 5 (6.1) Este método pretende ser independiente de la transcripción fonética al trabajar directamente con la curva de F0. La eliminación de la variación lenta de F0 hace que los máximos de la curva resultante coincidan con los acentos y que se pueda estimar, por lo tanto, el tiempo que transcurre entre los mismos. Este método se validó verificando un conjunto reducido del corpus. 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 129 36 64 34 63 32 62 30 61 28 60 26 59 24 58 22 57 20 56 18 1 20 40 60 80 100 120 Número de parámetros 140 160 180 WAR (%) UAR (%) El algoritmo se configura para obtener 200 parámetros relevantes pero tan sólo se escogen los 100 primeros de acuerdo con las especificaciones establecidas por Schuller et al. (2009) para probar su rendimiento sobre el conjunto de prueba. La figura 6.7 muestra una simulación del rendimiento de los conjuntos de entre 1 y 200 parámetros seleccionados por el algoritmo mRMR a través de la evaluación con un clasificador SVM de kernel lineal mediante una validación cruzada de 10 iteraciones realizada sobre el conjunto de datos de entrenamiento. El conjunto de datos de prueba no interviene en el proceso de selección ni se emplea en esta simulación. Con 100 parámetros el conjunto de datos no consigue el mejor rendimiento en la validación cruzada. Sin embargo, fuera del escenario de la simulación representada en la figura anterior, un clasificador SVM de kernel lineal entrenado con este subconjunto de 100 parámetros y evaluado con el conjunto de datos de prueba alcanza una WAR de 64,95 % y una UAR de 21,32 %, lo cual supone una degradación absoluta del -0,67 % y del -7,62 %, respectivamente, respecto al resultado obtenido por el mismo clasificador con el conjunto de datos original (véase la figura 6.2), siendo este un 284 % más grande. 55 200 Figura 6.7: Tasas de clasificación ponderada (WAR, en negro) y no ponderada (UAR, en rojo), del algoritmo SVM evaluado mediante una validación cruzada de 10 iteraciones, considerando un conjunto de datos de entre 1 y 200 parámetros previamente escogidos por el criterio mRMR. Adaptado de (Planet et al., 2009). 130 6.2.1.3. 6. Reconocimiento afectivo en corpus de voz espontánea Discusión Los resultados preliminares obtenidos tras el primer análisis del corpus FAU Aibo muestran la mayor complejidad presente en el estudio de un corpus espontáneo frente a la de un corpus actuado. Se comprueba la dificultad para obtener unas tasas de clasificación elevadas tanto ponderadas como no ponderadas y, generalmente, la mejora de una medida supone la degradación de la otra. Además, se puede comprobar como el hecho de trabajar en un entorno de varios locutores supone una dificultad añadida, lo cual se observa en los resultados obtenidos al entrenar y probar los sistemas de clasificación empleando conjuntos de datos procedentes de locutores diferentes. Esta prueba proporciona resultados por debajo de los obtenidos en la validación cruzada realizada en el conjunto de datos de entrenamiento, dado que en este último método se emplean datos de un mismo usuario (además de los de otros) tanto para entrenar como para evaluar. Sin embargo, este efecto de degradación no es tan notable en el caso del algoritmo Naïve-Bayes, el cual obtiene los mejores resultados, en términos de UAR, que en otros esquemas de clasificación más complejos. Por otra parte, el algoritmo mRMR empleado para realizar una selección automática de parámetros relevantes proporciona un conjunto heterogéneo y, en consecuencia, de difícil interpretación. Por este motivo, al final de este capítulo (véase la sección 6.4.2.2) se planteará un proceso de selección manual que permita interpretar adecuadamente los parámetros escogidos. 6.2.2. Sistema de clasificación acústica mejorado Tras comprobar que los algoritmos Naïve-Bayes y SVM son los que presentan un mejor rendimiento en la tarea de clasificación del corpus FAU Aibo, en esta sección son los clasificadores empleados para llevar a cabo un reconocimiento basado en parámetros acústicos analizando un conjunto de datos actualizado. En este sentido, no se emplea la parametrización utilizada en la sección anterior sino que se realiza una réplica de la misma mediante una versión más reciente del software openSmile. Si bien la definición del corpus sigue siendo la misma en cuanto al número y la definición de los parámetros, el cálculo de los mismos es más preciso en esta versión6 . Se realizan dos tipos de clasificaciones: una categórica y otra dimensional, con el objetivo de mejorar los resultados previos. La clasificación categórica no se basa en ningún modelo emocional y plantea el ejercicio de reconocimiento afectivo como un caso de clasificación de las locuciones en clases concretas que, en este caso, son etiquetas afectivas. La clasificación dimensional sí se basa en los modelos emocionales de activación-evaluación para realizar una clasificación específica para estados afectivos. 6 La nueva versión del software openSmile corrige errores de la versión previa y modifica la representación numérica al formato exponencial, lo que supone una mayor precisión. 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 131 Por otra parte, y para evitar que durante la fase de prueba los esquemas sean entrenados y probados con datos de un mismo locutor, se prescinde del método de evaluación de validación cruzada por número de iteraciones y se sustituye por el método LOSO. Por último, y de forma análoga a como se realizó en la sección anterior, se realiza una selección de parámetros acústicos pero, en esta ocasión, sin las limitaciones establecidas en el desafío de parámetros antes expuesto. 6.2.2.1. Clasificación categórica En este experimento de clasificación acústica se analizan 4 esquemas de clasificación basados en los dos clasificadores Naïve-Bayes y SVM, antes mencionados. Estos esquemas son los siguientes: un clasificador Naïve-Bayes discretizando de forma supervisada el conjunto de datos (esquema análogo al de la sección anterior), un clasificador SVM de kernel lineal tras la normalización del conjunto de datos (SVM-A), un clasificador SVM de kernel lineal tras la normalización y remuestreo del conjunto de datos creando una distribución uniforme de las etiquetas emocionales7 (SVM-B) y, por último, un esquema que fusiona a nivel de decisión, mediante una estrategia de stacking empleando un árbol de decisión J4.8 como clasificador de nivel 1 (véase la sección 4.3.1), los resultados de los dos esquemas que presentan un mejor rendimiento. Tal y como se observa en la figura 6.8 estos son el primer y tercer esquema aquí descritos (NB+SVM-B). Estos dos esquemas actúan como clasificadores de nivel 0. Este esquema de fusión se describe en detalle a continuación. A diferencia de la sección anterior, en este caso el método de evaluación empleado en la primera fase del experimento sigue una estrategia LOSO sobre el subconjunto de entrenamiento. En la segunda fase se analizan los subconjuntos de entrenamiento y de prueba de forma independiente. En este caso, la estrategia LOSO consta de 26 iteraciones ya que el subconjunto de datos de entrenamiento contiene información de 26 locutores. Para la fusión de los clasificadores mediante el esquema de stacking antes introducido se emplean las decisiones categóricas8 de cada clasificador dado que el rendimiento de este tipo de decisiones acostumbra a ser elevado y, al mismo tiempo, son decisiones que aportan un volumen pequeño de datos al esquema de fusión (Gabrys y Ruta, 2006). Este tipo de fusión muestra su buen rendimiento en trabajos previos de reconocimiento afectivo (Morrison et al., 2007; Iriondo et al., 2009). Un esquema de fusión stacking como el aquí planteado requiere de un diseño específico para su evaluación. En la fase de entrenamiento —tanto en la validación LOSO 7 Sólo de los datos empleados para entrenar el clasificador. Las decisiones categóricas (o “duras”, del inglés hard decisions) son la respuesta de un clasificador en forma de atributo discreto, en este caso en forma de la etiqueta afectiva que el clasificador asigna a cada caso concreto. Las decisiones “blandas” (del inglés, soft decisions) hacen referencia a la respuesta de un clasificador en forma de grado de pertenencia de cada caso concreto a cada clase afectiva. 8 132 6. Reconocimiento afectivo en corpus de voz espontánea como en la evaluación mediante los dos conjuntos independientes—, los esquemas de clasificación de nivel 0, Naïve-Bayes y SVM-B, son entrenados con los datos de entrenamiento correspondientes (convenientemente preprocesados de acuerdo a la definición de cada esquema). A continuación, estos mismos datos de entrenamiento son evaluados por estos dos algoritmos. A partir las decisiones categóricas obtenidas se crea un conjunto de datos formado por las salidas de ambos clasificadores y la etiqueta afectiva real de cada caso. Este conjunto de datos servirá para entrenar el algoritmo de clasificación de nivel 1, el árbol J4.8, pero antes es remuestreado para conseguir una distribución uniforme de clases. El objetivo es intentar maximizar la UAR dado que el algoritmo J4.8 no está especialmente diseñado para obtener un rendimiento similar por clase sino para maximizar la WAR. Nótese que el remuestreo sólo afecta a los datos de entrenamiento y nunca a los de prueba. En la fase de prueba, los datos de prueba son evaluados por los dos clasificadores de nivel 0. Las decisiones categóricas obtenidas son luego evaluadas por el clasificador de nivel 1 que asigna una etiqueta afectiva final a cada locución. En el caso de la validación cruzada este proceso se realiza para cada iteración. En el caso del análisis de los dos conjuntos independientes este proceso sólo se realiza una vez. La figura 6.8 muestra los resultados de los esquemas de clasificación propuestos en términos de tasas de clasificación ponderadas y no ponderadas. 70 65 60 55 50 45 40 35 30 25 LOSO WAR LOSO UAR Test set WAR Test set UAR NB 41,18 38,92 41,83 40,48 SVM-A 60,99 31,20 65,53 28,81 SVM-B 44,00 42,58 36,50 39,53 NB+SVM-B 43,80 41,92 32,74 40,67 Figura 6.8: Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los clasificadores según su evaluación mediante una estrategia LOSO y mediante los dos conjuntos independientes (Test set). En cuanto los resultados obtenidos por el sistema LOSO, el clasificador SVM-B obtiene el mejor resultado en términos de UAR. Frente al algoritmo Naïve-Bayes, que obtiene el segundo mejor resultado y era el mejor esquema de clasificación del experimento anterior, obtiene una mejora absoluta del 3,66 % (9,40 % relativa). 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 133 En comparación con el esquema SVM-A, el cual no contempla el remuestreo de los datos de entrenamiento, el algoritmo SVM-B obtiene una mejora absoluta del 11,38 % (36,47 % relativa). Sin embargo, en términos de WAR, el resultado del esquema SVM-A es un 16,99 % mejor que el resultado del esquema SVM-B. Esto ilustra que el algoritmo SVM está orientado a maximizar el resultado global de clasificación, aunque en este caso el interés se centre en obtener la mejor clasificación para todas y cada una de las etiquetas emocionales, por lo que la creación de conjuntos de datos equilibrados favorece la clasificación de las clases individuales. Los esquemas Naïve-Bayes y SVM-B se fusionan en el esquema NB+SVM-B, dado que son los que mejores resultados obtienen. En términos de UAR, el esquema de fusión NB+SVM-B obtiene una mejora absoluta del 3 % (7,71 % relativa) frente al algoritmo Naïve-Bayes por sí solo. Sin embargo, el resultado está ligeramente por debajo del obtenido por el algoritmo SVM-B. En cuanto a los resultados obtenidos evaluando los conjuntos independientes de entrenamiento y de prueba, el esquema de fusión NB+SVM-B es el que obtiene el mejor resultado en términos de UAR, mejorando los resultados obtenidos de forma independiente por los dos esquemas que lo forman. Con respecto al esquema Naïve-Bayes la mejora es 0,19 % absoluta (0,47 % relativa) y con respecto al esquema SVM-B la mejora es del 1,14 % absoluta (2,88 % relativa). Comparando el resultado de este algoritmo con el proporcionado por Schuller et al. (2009) como referencia (38,20 %), la mejora es 2,47 % absoluta (6,47 % relativa). El esquema Naïve-Bayes es el único que mejora su UAR en el caso de la evaluación con los subconjuntos de datos independientes frente a la validación cruzada. El resto de esquemas obtienen un resultado por debajo del obtenido en la validación cruzada. Esta degradación es más notable en los esquemas SVM-A y SVM-B (-2,39 % y -3,05 %, respectivamente) que en el esquema de fusión NB+SVM-B (-1,25 %). Esto muestra que el esquema Naïve-Bayes es más generalizable, pues soporta el cambio de datos en la fase de prueba tras haber sido entrenado con otros diferentes. Nuevamente, y tal y como sucedía en el experimento anterior, el esquema NaïveBayes es el que presenta una menor variación entre los resultados de WAR y UAR. Sin embargo, el hecho de remuestrear los datos de entrenamiento a una distribución uniforme de clases permite que esta diferencia no sea muy elevada en otros esquemas. Así, es notable la diferencia entre resultados WAR y UAR del esquema SVM-A mientras que esta se ve reducida en el esquema SVM-B. La figura 6.9 muestra la matriz de confusión del esquema de fusión NB+SVM-B evaluado mediante los dos conjuntos de datos independientes. Se puede observar que los casos de la clase R son los peor clasificados, si bien el resultado es mejor que la clasificación del experimento anterior (véase la figura 6.2). Nuevamente se comprueba la dificultad de clasificar esta clase, asociada a un valor bajo de afinidad prototípica, dada su poco exacta definición. 6. Reconocimiento afectivo en corpus de voz espontánea Porcentaje de clasificación automática 134 70 60 50 40 30 20 10 0 E A N R P E 38,33 22,08 18,30 15,38 5,90 A 16,86 56,79 7,53 12,77 6,06 N 14,43 18,90 28,19 22,75 15,73 R 8,61 17,22 17,03 27,47 29,67 P 5,58 9,77 12,56 19,53 52,56 Clasificación real Figura 6.9: Matriz de confusión del esquema de fusión NB+SVM-B evaluado mediante los dos conjuntos independientes de entrenamiento y de prueba. Adaptado de (Planet et al., 2009). 6.2.2.2. Clasificación dimensional Los esquemas propuestos en los experimentos anteriores no se basan en ningún modelo emocional. Para completar el análisis acústico del corpus FAU Aibo en esta sección se expone un planteamiento basado en el modelo de activación-evaluación explicado en la sección 2.1.3.3. La figura 6.10 muestra el mapeo de las etiquetas afectivas del corpus FAU Aibo (véase la sección 3.4.3.1) en el espacio de activación-evaluación descrito por Scherer (1984), según las definiciones de Steidl (2009) y Schuller et al. (2009) de cada una de ellas. El mapeo en un espacio bidimensional permite la propuesta de dos clasificadores jerárquicos, uno por cada dimensión. A continuación se explica, en primer lugar, el diseño de estos dos clasificadores jerárquicos por separado y, en segundo lugar, se explica el proceso de fusión y se detallan los resultados obtenidos. Clasificación en base a la dimensión de evaluación. La figura 6.11 muestra la división teórica de las clases afectivas del corpus FAU Aibo en base a, en primer lugar, su prominencia emocional (emocional o no emocional)9 y, en segundo lugar, su evaluación (positiva o negativa), según el mapeo ilustrado en la figura 6.10. De acuerdo con la definición de las 9 No debe confundirse el concepto de prominencia emocional aquí empleado con el explicado en la sección 3.3.2.1, que se refería a la parametrización lingüística de los elementos de las frases de un corpus. En este caso se hace referencia a si la categoría afectiva es emocionalmente representativa de la dimensión afectiva analizada. 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 135 activo ACTIVACIÓN Pj no emocional A Rs N EVALUACIÓN Rh Rb pasivo Pm E positivo no emocional negativo Figura 6.10: Mapeo en el modelo de activación-evaluación de Scherer (1984) de las etiquetas afectivas del corpus FAU Aibo, según las definiciones de Steidl (2009) y Schuller et al. (2009) de cada una de ellas. Las etiquetas afectivas son neutro (N), enfado (A), enfático (E), positivo (P) (compuesto por maternal (Pm ) y alegre (Pj )) y resto (R) (compuesto por sorpresa (Rs ), impotencia (Rh ) y aburrimiento (Rb )). etiquetas afectivas de Schuller et al. (2009), los estados maternal (Pm ) y alegre (Pj ) están cubiertos por la clase P, la cual se considera de evaluación positiva, la clase A se considera de evaluación negativa y las clases E y N se consideran sin prominencia emocional. Por otra parte, dado que la clase R está formada por 3 estados afectivos distintos (sorpresa (Rs ), aburrimiento (Rb ) e impotencia (Rh )), se consideran 3 subclases para realizar el mapeo de forma adecuada asignando 3 valores de evaluación distintos (evaluación positiva, negativa y sin prominencia emocional, respectivamente). No obstante, estas subclases deben ser agrupadas en una etiqueta única (R) durante la fase de prueba de los clasificadores dado que esta distinción no existe en el etiquetado original del corpus. La figura 6.12 muestra el clasificador jerárquico propuesto en base a la división de las etiquetas afectivas realizada arriba. La estructura consta de 5 clasificadores especializados, denominados microclasificadores y representados por el símbolo μCi donde 1 ≤ i ≤ 5. El microclasificador μC1 se entrena para distinguir las clases E, N y R (sin prominencia emocional) de las clases P, A y R (con prominencia emocional), de acuerdo con la primera división del árbol de clasificación de la figura 6.11. El microclasificador μC2 se entrena para distinguir las 3 etiquetas sin prominencia emocional E, N y R, mientras que el microclasificador μC3 se diseña para clasificar los casos de acuerdo a su valor de evaluación: positiva (clases P y R) o negativa (clases A y R). Los microclasificadores μC4 y μC5 tienen el objetivo de realizar la última clasificación para separar las clases P, A y R. Para implementar esta estructura se analizan los dos algoritmos que han obtenido mejores resultados en los experimentos anteriores: Naïve-Bayes y SVM. A partir de 136 6. Reconocimiento afectivo en corpus de voz espontánea Con prominencia emocional Sin prominencia emocional Positivo Alegre (Pj) Negativo Maternal (Pm) Rs Enfado Reprensor Rh Quisquilloso P E N Rb A μC3 PR vs AR P/R E/N/R μC4 P vs R P/R A/R μC1 ENR vs PAR μC2 E vs N vs R PR / AR ENR / PAR E/N/R Figura 6.11: Clasificación de las etiquetas afectivas del corpus FAU Aibo basada en la dimensión de evaluación. μC5 A vs R A/R Figura 6.12: Diseño del clasificador jerárquico basado en la dimensión de evaluación. los resultados de UAR conseguidos por estos algoritmos en cada una de las partes de la estructura jerárquica se escogen los mejores para implementar los distintos microclasificadores. Así, los algoritmos son: Naïve-Bayes para los microclasificadores μC1 y μC2 , y SVM para los microclasificadores μC3 , μC4 y μC5 . Clasificación en base a la dimensión de activación. La figura 6.13 muestra la división teórica de las clases afectivas del corpus FAU Aibo en base a su prominencia emocional en primer lugar y, en segundo lugar, en base a su activación (activas o pasivas). En este caso, las clases Pm y Pj están en ramas diferentes del árbol de clasificación dado que su 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 137 dimensión de activación es distinta. Además, Rb , Rs y Rh aparecen otra vez en 3 grupos distintos, tal y como ya sucedía en el análisis a través de la dimensión de evaluación. Sin embargo, y tal y como se ha explicado antes, dado que no existe diferenciación en el etiquetado original del corpus todas ellas se consideran agrupadas en una etiqueta única. Con prominencia emocional Pasivo Pm E Sin prominencia emocional Rh Activo Rb Enfado Reprensor Quisquilloso N Pj Rs A Figura 6.13: Clasificación de las etiquetas afectivas del corpus FAU Aibo basada en la dimensión de activación. La figura 6.14 muestra el clasificador jerárquico propuesto en base a la división de las etiquetas afectivas realizada arriba. La estructura consta de 5 microclasificadores (μCi , 1 ≤ i ≤ 5). El microclasificador μC1 se entrena para distinguir las clases N, P y R (sin prominencia emocional) de las clases A, E, P y R (con prominencia emocional), de acuerdo con la primera rama del árbol de la figura 6.13. El microclasificador μC2 tiene el objetivo de clasificar las 3 clases sin prominencia emocional (N, P y R), mientras que el microclasificador μC3 clasifica el resto de casos en base a su activación: activa (clases A y R) o pasiva (E, P y R). Los microclasificadores μC4 y μC5 se encargan del último paso de la clasificación en las clases A, E, P y R. En este caso los algoritmos para implementar cada uno de los microclasificadores, escogidos según el mismo procedimiento que en el caso anterior, son: Naïve-Bayes para los microclasificadores μC2 y μC3 , y SVM para los microclasificadores μC1 , μC4 y μC5 . Fusión. El esquema de fusión empleado para combinar los resultados de ambos clasificadores dimensionales es el mismo esquema de stacking propuesto en la sección 6.2.2.1, mediante un árbol de decisión J4.8 como clasificador de nivel 1 y un remuestreo previo de los datos de entrenamiento. Los resultados de los clasificadores basados en cada dimensión y la fusión de ambos se recogen en la figura 6.15. Como se puede observar, una vez más los resultados referentes a la medida WAR se sitúan por encima de los de la medida UAR, si bien la fusión de los clasificadores dimensionales aproxima ambos valores. Además, a diferencia de los casos anteriores, no existen grandes diferencias entre los resultados obtenidos por la validación LOSO y la evaluación mediante los dos conjuntos independientes de 6. Reconocimiento afectivo en corpus de voz espontánea N/P/R μC4 P vs E vs R PER / AR μC2 N vs P vs R μC1 NPR vs AEPR P/E/R NPR / AEPR N/P/R 138 A/R μC3 PER vs AR P/E/R μC5 A vs R A/R Figura 6.14: Diseño del clasificador jerárquico basado en la dimensión de activación. 50 45 40 35 30 25 LOSO WAR LOSO UAR Test set WAR Test set UAR Evaluación 43,08 33,42 46,29 33,98 Activación 44,01 35,10 48,84 34,22 Fusión 41,75 39,10 35,06 28,69 Figura 6.15: Tasas de clasificación ponderada (WAR) y no ponderada (UAR), en porcentaje, de los esquemas jerárquicos basados en las dimensiones de evaluación y activación, así como la fusión de ambos mediante una estrategia de stacking, según su evaluación mediante una validación LOSO y mediante los dos conjuntos independientes (Test set). datos, con la excepción del esquema de fusión donde esta diferencia es mayor. En cuanto al análisis de los resultados obtenidos según la evaluación mediante los dos conjuntos 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 139 independientes de datos, el esquema de fusión obtiene unos resultados inferiores a los obtenidos de forma individual por cada dimensión. Esto se debe, principalmente, a que el esquema de fusión se basa únicamente en dos parámetros (los resultados de clasificación basados en cada una de las dos dimensiones emocionales), a que estos parámetros provienen de clasificadores con bajas tasas de clasificación y a que, además, existe un bajo consenso entre ambos clasificadores (lo cual se relaciona con el bajo rendimiento de cada uno de ellos). 6.2.2.3. Reducción del conjunto de parámetros Para realizar una selección de los parámetros más representativos del conjunto de datos acústico se realiza una búsqueda voraz de forma incremental y decremental (véase la sección 4.3.2). El algoritmo de evaluación empleado es el Naïve-Bayes con discretización supervisada previa. Para agilizar el proceso, de forma previa al inicio de la selección de parámetros el conjunto de datos de entrenamiento es remuestreado reduciendo el volumen de datos a la mitad y creando una distribución uniforme de clases. Asimismo, para garantizar la independencia de locutores, se emplea sólo el conjunto de datos de entrenamiento para seleccionar y evaluar los subconjuntos de parámetros en las fases de búsqueda y evaluación. En el caso de la búsqueda voraz incremental, el conjunto de datos acústico se reduce de 384 a 28 parámetros: 21 relacionados con los parámetros MFCC, 3 relacionados con la energía, 2 relacionados con la F0, 1 relacionado con la HNR y 1 relacionado con la ZCR. La búsqueda voraz decremental supone una aproximación más conservadora y crea un conjunto de 305 parámetros. Para observar el rendimiento obtenido con estos conjuntos de datos se evalúan tres clasificadores distintos. Los dos primeros se corresponden con los algoritmos Naïve-Bayes y SVM de kernel lineal descritos en las secciones anteriores, a los que se añade un árbol de decisión que emplea un modelo de regresión logística en la última etapa de clasificación, tal y como describen Landwehr et al. (2005). La implementación de WEKA de este algoritmo, empleada en esta tesis, recibe el nombre de Simple Logistic (SL). La evaluación de los algoritmos anteriores se realiza mediante una validación cruzada de dos iteraciones en la que los dos conjuntos de datos empleados son los de entrenamiento y prueba ya descritos, empleándolos para sus respectivas finalidades en la primera iteración (Fold 1)10 e intercambiándolos en la segunda (Fold 2). El valor medio de ambas evaluaciones también es calculado. Para simplificar el texto, el análisis de resultados ya no incluye los resultados de validaciones cruzadas realizadas sobre el conjunto de datos de entrenamiento así como tampoco los valores de WAR. Como se ha podido observar en los resultados anteriores, existe una estrecha relación entre el comportamiento de 10 Esta primera iteración se corresponde, de hecho, con los experimentos Test set llevados a cabo con anterioridad, en los que el entrenamiento se realiza con el conjunto de datos Ohm y la prueba con el conjunto de datos Mont (véase la sección 3.4.3.1). 140 6. Reconocimiento afectivo en corpus de voz espontánea los resultados obtenidos mediante una evaluación LOSO llevada a cabo sobre el conjunto de entrenamiento y los obtenidos mediante la evaluación de los conjuntos independientes de entrenamiento y prueba. Así pues, se opta por la validación cruzada de dos iteraciones antes descrita por los motivos anteriores, aprovechando asimismo todos los datos del corpus. Por otra parte, esto permite superar las limitaciones impuestas por el Emtion Challenge 2009 sin perder la capacidad de comparación de los resultados obtenidos. La figura 6.16 muestra los resultados de la evaluación de los tres clasificadores anteriores usando el conjunto de datos acústicos completo y sus dos versiones reducidas. Observando los valores medios de las dos iteraciones, los valores de UAR son ligeramente mejores en el caso de los conjuntos de datos reducidos que en el completo, exceptuando el caso del algoritmo Naïve-Bayes. En el caso del algoritmo Naïve-Bayes, el conjunto de datos creado mediante la búsqueda voraz incremental degrada notablemente el rendimiento del clasificador, reduciendo la tasa de clasificación en un -10,48 %. Esto es debido a que una de las condiciones de este algoritmo es la independencia de los parámetros del conjunto de datos a analizar (Rish, 2001). Sin embargo, este método de selección no tiene por objetivo velar por esta condición por lo que el conjunto creado no es idóneo para este algoritmo. Esta degradación no es apreciable en el caso de la búsqueda decremental dado que el conjunto seleccionado de datos es mucho mayor. Cabe señalar también el buen rendimiento del algoritmo SL en la aplicación de reconocimiento afectivo. 41 39 UAR(%) 37 35 33 31 29 27 NB SVM SL Fold 1 Fold 2 Media Conjunto acústico completo (384) 40,46 37,96 39,21 39,56 37,18 38,37 39,42 37,86 38,64 Fold 1 Fold 2 Media Selección acústica FW (28) 27,94 29,52 28,73 39,44 38,48 38,96 39,30 38,36 38,83 Fold 1 Fold 2 Media Selección acústica BW (305) 40,56 38,08 39,32 39,90 37,16 38,53 39,84 38,66 39,25 Figura 6.16: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto completo de 384 parámetros acústicos y los conjuntos reducidos de 28 y 305 parámetros seleccionados mediante una búsqueda voraz incremental y decremental, respectivamente. Adaptado de (Planet e Iriondo, 2012b). 6.2. Reconocimiento afectivo basado en el análisis de parámetros acústicos 6.2.2.4. 141 Discusión En cuanto al experimento de clasificación categórica, en este segundo experimento de reconocimiento afectivo basado únicamente en parámetros acústicos se comprueba, en contraste con el anterior, que la diferencia entre los métodos LOSO y la evaluación con dos conjuntos independientes es menor que la existente entre la validación cruzada de varias iteraciones y la de los dos conjuntos independientes. No obstante, el comportamiento de las validaciones cruzadas sigue, en los dos casos, la tendencia observada en el análisis de los conjuntos independientes. En este caso, el esquema SVM-B obtiene el mejor valor de UAR, a través de un conjunto de datos remuestreado hacia una distribución uniforme de clases, cuando se analiza mediante una validación cruzada. Sin embargo el rendimiento decrece cuando se emplean dos conjuntos independientes. Este efecto no es perceptible en el esquema Naïve-Bayes, el cual funciona incluso mejor al analizar dos subconjuntos distintos. La combinación de ambos esquemas mediante la estrategia de stacking proporciona un valor de UAR ligeramente superior a los obtenidos por cada esquema de forma individual, siendo muy similar a la del esquema Naïve-Bayes. Sin embargo, observando la clasificación por clase a través de la matriz de confusión se comprueba que la clasificación de los casos de la clase R es mejor en el caso del esquema de fusión que en el esquema Naïve-Bayes. En cuanto al experimento de clasificación dimensional, en el que se analiza el corpus en base a las dimensiones de activación y evaluación a partir de la localización de las etiquetas afectivas en un espacio emocional bidimensional, los resultados obtenidos se sitúan por debajo de los experimentos anteriores, en términos de UAR. Las tasas de clasificación de ambas dimensiones es similar, si bien es ligeramente superior en el caso de la dimensión de activación. En cualquier caso ambas son bajas y la fusión de ambas clasificaciones proporciona un resultado por debajo de los experimentos anteriores. A pesar de que los esquemas propuestos no logran superar el valor de UAR de la sección anterior, el proceso de selección de parámetros mediante una búsqueda voraz incremental y decremental logra crear dos conjuntos de datos reducidos que mantienen los resultados obtenidos por el conjunto de datos completo. Sin embargo, el esquema Naïve-Bayes ve degradado su rendimiento con el conjunto de datos reducido debido a que el algoritmo de selección no garantiza la independencia de los parámetros escogidos. Para lograr mejorar los resultados de clasificación se propone el análisis de parámetros lingüísticos, dado que las estrategias basadas en información acústica planteadas no suponen mejoras en los resultados ya obtenidos. La inclusión de la información lingüística se analiza en las siguientes secciones a partir de este punto. 142 6. Reconocimiento afectivo en corpus de voz espontánea 6.3. Reconocimiento afectivo basado en el análisis de parámetros lingüísticos Los resultados de la clasificación basada en parámetros acústicos ponen de manifiesto que en un escenario realista, como el planteado por el corpus FAU Aibo, el análisis único de la información acústica puede no ser suficiente para llevar a cabo una tarea de reconocimiento automático afectivo a partir de la señal de voz, tal y como señalan Batliner et al. (2003). Por este motivo se introduce el análisis de la modalidad lingüística a partir de la parametrización descrita en la sección 3.4.3.2, la cual se compone del análisis a nivel de palabra de las transcripciones del corpus en base a unigramas y bigramas y del análisis de categoría morfológica en base a trigramas a nivel POS. La finalidad de este apartado es, de forma análoga a la del apartado anterior, comprobar el rendimiento de los parámetros lingüísticos de manera independiente para posteriormente, en la sección siguiente, realizar su fusión con los parámetros acústicos. 6.3.1. Clasificación de los subconjuntos de parámetros La figura 6.17 muestra los resultados UAR de los clasificadores Naïve-Bayes, SVM y SL descritos en las secciones anteriores, evaluados mediante la validación cruzada de dos iteraciones antes expuesta. Los conjuntos de datos se corresponden con los tres tipos de parámetros extraídos a nivel de palabra y de categoría morfológica en forma de unigramas y bigramas a nivel de palabra y trigramas a nivel POS, analizados de forma independiente. Se puede comprobar que la tendencia de los tres clasificadores es prácticamente la misma, si bien el algoritmo Naïve-Bayes es el que presenta un rendimiento inferior en todos los conjuntos de datos lingüísticos analizados. Por su parte, SVM y SL presentan unos resultados bastante similares. Atendiendo a los resultados del esquema SL y considerando el valor medio de las dos iteraciones, el rendimiento UAR del conjunto de datos formado por los bigramas a nivel de palabra (38,57 %) es superior al resto de conjuntos. Así, la mejora obtenida con este conjunto de datos y el algoritmo SL es de 2,18 % absoluto (5,99 % relativo) con respecto al conjunto de trigramas a nivel POS. En comparación con el conjunto de unigramas a nivel de palabra esta mejora asciende a un 7,68 % absoluto (24,86 % relativo). A efectos comparativos con el resto de experimentos, y siguiendo el marco de trabajo planteado por Schuller et al. (2009) y adoptado en esta tesis, se deben considerar los resultados de la columna Fold 1 los cuales recogen el entrenamiento y la clasificación de los conjuntos de datos definidos a tal efecto. El mejor resultado lo obtiene el análisis del conjunto de datos formado por los trigramas a nivel POS mediante el algoritmo SL, con un valor de UAR del 37,16 %. Sin embargo, este resultado se sitúa por debajo de la mayor parte de los resultados obtenidos mediante el análisis acústico realizado en la sección anterior, así como también es inferior en un 1,04 % absoluto (2,72 % relativo) al resultado 6.3. Reconocimiento afectivo basado en el análisis de parámetros lingüísticos 143 45 UAR (%) 40 35 30 25 20 NB SVM SL Fold 1 Fold 2 Media Unigramas 25,76 31,92 28,84 27,54 33,48 30,51 28,00 33,78 30,89 Fold 1 Fold 2 Bigramas 28,54 35,04 34,90 40,44 35,22 41,92 Media 31,79 37,67 38,57 Fold 1 Fold 2 Media Trigramas (POS) 26,42 27,38 26,90 35,46 34,82 35,14 37,16 35,62 36,39 Figura 6.17: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando 3 conjuntos de datos lingüísticos: los formados por los unigramas y bigramas a nivel de palabra y el formado por trigramas a nivel POS. de referencia presentado por Schuller et al. (2009), obtenido en las mismas condiciones a partir de un análisis acústico. 6.3.2. Fusión y selección de parámetros lingüísticos En la sección anterior se realizaba el análisis de cada conjunto de datos lingüísticos de forma independiente dada la diferente naturaleza de cada uno de estos conjuntos: a pesar de referirse al ámbito lingüístico cada conjunto provenía del análisis de diferentes unidades (unigramas y bigramas a nivel de palabra y trigramas a nivel POS). En esta sección se fusionan los tres conjuntos anteriores a nivel de parámetros mediante concatenación creando un conjunto de datos de 15 parámetros lingüísticos. El rendimiento de este conjunto de datos puede observarse en los resultados recogidos en la figura 6.18. NaïveBayes obtiene mejores resultados que en el análisis individual si bien los algoritmos SVM y SL, exceptuando el análisis de unigramas, tienen mejor rendimiento con los conjuntos individuales. Por otra parte, a pesar del reducido tamaño de este conjunto de datos, se realiza una búsqueda voraz incremental para seleccionar los parámetros más relevantes. El resultado es un conjunto de 6 parámetros formado por 4 elementos relativos a los bigramas a nivel de palabra y 2 relativos a los trigramas a nivel POS. Como era de esperar, el conjunto de datos seleccionados no incluye parámetros relativos a los unigramas a nivel de palabra dado su bajo rendimiento (véase la figura 6.17). La figura 6.18 recoge el rendimiento de este conjunto reducido de datos. Naïve-Bayes obtiene un rendimiento bajo por los mismos 144 6. Reconocimiento afectivo en corpus de voz espontánea 45 UAR (%) 40 35 30 25 20 NB SVM SL Fold 1 Fold 2 Concatenación (15) 33,36 38,96 24,20 41,22 27,98 42,58 Media Fold 1 36,16 32,71 35,28 29,28 34,90 35,76 Fold 2 Selección (6) 33,88 40,64 42,56 Media 31,58 37,77 39,16 Figura 6.18: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando dos conjuntos de datos lingüísticos: el que fusiona por concatenación los tres conjuntos anteriores (15 parámetros) y la selección automática realizada por una búsqueda voraz incremental (6 parámetros). motivos que ya se exponían en la sección anterior, relacionados con la independencia de los parámetros seleccionados. Por contra, SVM y SL mejoran el valor medio de UAR del conjunto completo, así como también la de la iteración Fold 1. 6.3.3. Discusión El análisis lingüístico llevado a cabo en esta sección ha evaluado tres conjuntos de datos desde distintos puntos de vista. En primer lugar se han analizado de forma independiente dada la diferente naturaleza de los mismos ya que estos provienen del análisis de unigramas y bigramas a nivel de palabra y de trigramas a nivel POS. También se han fusionado los tres conjuntos creando un único conjunto mediante la concatenación de los mismos. Y finalmente, de forma análoga al proceso seguido en el estudio acústico, se ha creado un conjunto reducido mediante una búsqueda voraz incremental. Bigramas a nivel de palabra y trigramas a nivel POS se han revelado como los parámetros más relevantes para el experimento de reconocimiento afectivo automático aquí planteado, tanto por su análisis individual como por el algoritmo de selección automática. Sin embargo, el rendimiento de los parámetros lingüísticos no es lo bastante elevado como para superar el resultado de referencia de Schuller et al. (2009). Así pues, el mejor resultado individual procedente del análisis de los subconjuntos de entrenamiento y prueba de forma independiente es un 1,04 % absoluto (2,72 % relativo) inferior a dicha 6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos 145 referencia. Igual sucede con la concatenación de los parámetros y el conjunto reducido de los mismos, cuyos mejores rendimientos son un 4,84 % absoluto (33,36 % relativo) y un 2,44 % absoluto (6,82 % relativo), respectivamente, inferiores al de referencia. La siguiente sección muestra, sin embargo, el efecto constructivo de estos parámetros lingüísticos en combinación con los acústicos analizados en la sección anterior 11 . 6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos El análisis independiente de las modalidades acústica y lingüística revela diferencias en sus rendimientos. Mientras que la modalidad acústica se muestra como válida para llevar a cabo el reconocimiento afectivo automático del corpus FAU Aibo, con resultados de clasificación superiores al de referencia, la modalidad lingüística propuesta en este trabajo no alcanza los mismos resultados y obtiene tasas de clasificación incluso inferiores a este último. En esta sección se aborda el experimento de reconocimiento afectivo combinando ambas modalidades mediante técnicas de fusión a nivel de decisión y a nivel de parámetros. Sin embargo, la parametrización acústica completa supone un volumen mucho mayor de datos (384 parámetros) que la parametrización lingüística (15 parámetros, en su versión íntegra). A pesar de que en un esquema de fusión a nivel de decisión este hecho no sería tan importante dado que la clasificación para cada modalidad se realiza de forma independiente, la concatenación de ambos conjuntos de datos resultaría en vectores con dos tipos de información en proporción poco equilibrada. Por ese motivo en esta sección se plantea un análisis preliminar destinado a estudiar la mejor técnica de reducción de parámetros y el mejor método de fusión a partir de los dos conjuntos reducidos de datos acústicos y el conjunto de datos de unigramas a nivel de palabra. A continuación se estudia el efecto de combinar la parametrización acústica y la lingüística considerando el resto de parámetros con el objetivo de optimizar los resultados de reconocimiento. 6.4.1. Análisis preliminar de selección de parámetros y técnicas de fusión El análisis preliminar planteado en esta sección consiste en la fusión tanto a nivel de decisión como de parámetros de las modalidades acústica y lingüística, tal y como se des11 Cabe señalar que, en el desarrollo de la línea de investigación de esta tesis, el proceso de fusión evolucionó en paralelo con el proceso de selección y optimización de los parámetros de forma individual. Por este motivo, la sección 6.4.1 emplea los unigramas a nivel de palabra para determinar qué esquema de fusión es el más conveniente a pesar de que no son los parámetros lingüísticos óptimos para mejorar la tasa de clasificación. Las subsiguientes secciones sí consideran la información lingüística al completo. 146 6. Reconocimiento afectivo en corpus de voz espontánea cribe en (Planet e Iriondo, 2012b). La parametrización acústica considera los dos conjuntos de datos reducidos mediante la búsqueda voraz incremental y decremental expuesta en la sección 6.2.2.3. La parametrización lingüística considera el conjunto de datos de activación referente a los unigramas a nivel de palabra. El objetivo es determinar, mediante los conjuntos de datos reducidos, cuál de los dos conjuntos acústicos es el óptimo así como la mejor técnica de fusión para el experimento de reconocimiento afectivo automático. Se consideran tres esquemas de clasificación: Naïve-Bayes, SVM y SL, siguiendo las mismas configuraciones que las descritas en las secciones anteriores. En cuanto a los esquemas de fusión, para la fusión a nivel de parámetros se emplea la técnica que une los parámetros acústicos y lingüísticos de cada elemento del corpus en una única instancia mediante concatenación, y para la fusión a nivel de decisión se emplea la técnica de stacking descrita en la sección 6.2.2.1 considerando un esquema J4.8 como clasificador de nivel 1 y los tres esquemas antes citados como clasificadores de nivel 0. Dos clasificadores de nivel 0 del mismo tipo sirven para clasificar ambas modalidades y sus decisiones categóricas son luego fusionadas por el clasificador de nivel 1. La figura 6.19 muestra de forma esquemática la metodología de este experimento. Parámetros acústicos Parámetros Parámetros acústicos lingüísticos NB SVM SL NB SVM J4.8 (a) Parámetros lingüísticos SL NB J4.8 SVM SL J4.8 (b) Figura 6.19: Representación esquemática de los esquemas de fusión de las modalidades acústica y lingüística (a) a nivel de parámetros mediante concatenación y (b) a nivel de decisión mediante un esquema de stacking. La figura 6.20 recoge los resultados de este análisis preliminar. Los rendimientos obtenidos por los conjuntos acústicos y lingüísticos reducidos analizados de forma independiente (tal y como ya se recogían en las figuras 6.16 y 6.17) se incluyen para facilitar la comparación de los resultados. Focalizando en el valor medio de los experimentos Fold 1 y Fold 2, se puede observar que el rendimiento de los clasificadores que analizan el conjunto de 28 parámetros acústicos seleccionados por la búsqueda voraz incremental es mejor, en general, que el rendimiento de los mismos clasificadores que emplean tan sólo los 5 parámetros lingüísticos. En el caso del esquema SVM, el uso de los parámetros acústicos mejora el valor de 6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos 147 47 UAR (%) 42 37 32 27 22 Fold 1 Fold 2 Media Selección acústica FW (28) NB 27,94 29,52 28,73 SVM 39,44 38,48 38,96 SL 39,30 38,36 38,83 Fold 1 Fold 2 Media Parámetros lingüísticos (5) 25,76 31,92 28,84 27,54 33,48 30,51 28,00 33,78 30,89 Fold 1 Fold 2 Media Fusión a nivel de decisión (FW) 30,30 38,54 34,42 39,52 43,96 41,74 38,92 44,08 41,50 Fold 1 Fold 2 Media Fusión a nivel de parámetros (FW) 33,90 36,44 35,17 41,60 45,18 43,39 44,06 46,10 45,08 Fold 1 Fold 2 Media Parámetros lingüísticos (5) 25,76 31,92 28,84 27,54 33,48 30,51 28,00 33,78 30,89 Fold 1 Fold 2 Media Fusión a nivel de decisión (BW) 37,22 41,04 39,13 42,28 38,46 40,37 40,96 39,86 40,41 Fold 1 Fold 2 Media Fusión a nivel de parámetros (BW) 41,04 39,52 40,28 41,68 42,88 42,28 42,68 44,08 43,38 47 UAR (%) 42 37 32 27 22 Fold 1 Fold 2 Media Selección acústica BW (305) NB 40,56 38,08 39,32 SVM 39,90 37,16 38,53 SL 39,84 38,66 39,25 Figura 6.20: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto de datos acústicos (28 parámetros seleccionados por la búsqueda voraz incremental (FW, arriba) y 305 parámetros seleccionados por la búsqueda voraz decremental (BW, abajo)), el conjunto de datos lingüísticos basados en los unigramas a nivel de palabra y los esquemas de fusión a nivel de decisión y de parámetros. Adaptado de (Planet e Iriondo, 2012b). 148 6. Reconocimiento afectivo en corpus de voz espontánea UAR en un 8,45 % absoluto (27,70 % relativo) respecto al uso de los parámetros lingüísticos. En el caso del esquema SL la mejora es 7,94 % absoluta (25,70 % relativa). Solamente el esquema Naïve-Bayes obtiene una ligera mejora en su rendimiento al utilizar los parámetros lingüísticos en lugar de los acústicos (0,11 % absoluta, 0,38 % relativa). En el caso de la selección realizada por la búsqueda voraz decremental, el rendimiento de los clasificadores empleando los 305 parámetros acústicos es mejor, en todos los casos, que empleando los 5 parámetros lingüísticos. La mejora en el caso del esquema Naïve-Bayes, SVM y SL es 10,48 % absoluta (36,34 % relativa), 8,02 % absoluta (26,29 % relativa) y 8,36 % absoluta (27,06 % relativa), respectivamente. Sin embargo, la combinación de los parámetros acústicos y lingüísticos tanto a nivel de decisión como a nivel de parámetros mejora las tasas de clasificación de los clasificadores que consideran ambas modalidades de forma independiente. En el caso de la selección acústica realizada por la búsqueda voraz incremental, la fusión a nivel de decisión obtiene una mejora en la media de las tasas de clasificación conseguidas por los conjuntos acústicos y lingüísticos en los casos de los algoritmos Naïve-Bayes, SVM y SL del 5,63 % absoluta (19,56 % relativa), 7,00 % absoluta (20,15 % relativa) y 6,64 % absoluta (19,05 % relativa), respectivamente. En promedio esta mejora es del 3,71 %. En el caso de la fusión a nivel de parámetros la mejora es 6,38 % absoluta (22,16 % relativa), 8,65 % absoluta (24,90 % relativa) y 10,22 % absoluta (29,32 % relativa), respectivamente. En promedio, esta mejora es del 8,42 %. En el caso de la selección acústica realizada por la búsqueda voraz decremental, la fusión a nivel de decisión obtiene una mejora en la media de las tasas de clasificación conseguidas por los conjuntos acústicos y lingüísticos en los casos de los algoritmos NaïveBayes, SVM y SL del 5,85 % absoluta (16,95 % relativa) y 5,34 % absoluta (15,23 % relativa), respectivamente. En el caso del clasificador Naïve-Bayes se produce una degradación del rendimiento (-5,05 % absoluta). En promedio esta mejora es del 2,05 %. En el caso de la fusión a nivel de parámetros la mejora es 6,20 % absoluta (18,19 % relativa) para el clasificador Naïve-Bayes, 7,76 % absoluta (22,48 % relativa) para el clasificador SVM y 8,31 % absoluta (23,70 % relativa) para el clasificador SL. En promedio, esta mejora es del 7,42 %. Como se puede observar, la mejora conseguida con la fusión de las modalidades acústica y lingüística es más importante cuando se considera el conjunto acústico seleccionado por la búsqueda voraz incremental fusionado a nivel de parámetros con el conjunto de datos lingüísticos (8,42 %). Como en las secciones anteriores, tan sólo debe considerarse la columna Fold 1 de la figura 6.20 para poder comparar estos resultados con los de otros autores en el mismo escenario. Tal y como se recoge en la sección 4.4.2, Schuller et al. (2011) fusionan 7 esquemas de clasificación y distintos conjuntos de datos para obtener un valor de UAR del 44,01 %. El mejor resultado obtenido en esta sección mediante un clasificador SL y la fusión a nivel de parámetros de los 28 parámetros acústicos seleccionados mediante la búsqueda incremental y los 5 parámetros lingüísticos (es decir, un total de 33 parámetros 6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos 149 únicamente) mejora este resultado en un 0,06 % absoluto (0,14 % relativo). Aunque ambos rendimientos son bastante similares cabe destacar que el número de parámetros es mucho menor en el esquema aquí planteado, así como también es menor la complejidad del esquema de clasificación propuesto. 6.4.2. Fusión de parámetros seleccionados acústicos y lingüísticos En esta sección se aborda el reconocimiento afectivo automático a través del análisis conjunto de las modalidades acústica y lingüística a partir de los resultados anteriormente obtenidos. El esquema de fusión considerado es el de fusión a nivel de parámetros mediante concatenación, tal y como se determina en la sección previa. La reducción acústica se realiza mediante la búsqueda voraz incremental, si bien también se considera el conjunto de datos acústicos completo para realizar, al final de esta sección, una reducción de forma conjunta con los parámetros lingüísticos. A nivel lingüístico se estudian los diversos parámetros de activación que incluyen también los no analizados en la sección anterior. La estructura básica de esta sección consta de tres partes. La primera define los diferentes conjuntos de datos para simplificar la notación en el texto. La segunda combina la parametrización acústica con los diferentes conjuntos lingüísticos para determinar cuáles optimizan el rendimiento del reconocimiento afectivo. Esta combinación trata cada uno de estos conjuntos en su totalidad, considerándolos indivisibles e irreductibles, y se considera, por lo tanto, manual. La tercera considera un proceso automático para reducir, en primer lugar, la parametrización lingüística y, en segundo lugar, el conjunto completo de parámetros acústicos y lingüísticos. 6.4.2.1. Definición de los conjuntos de datos Para simplificar la notación tanto en el texto como en las figuras, se ha asignado un nombre específico a cada uno de los diferentes conjuntos de datos cuya definición se recoge en la tabla 6.3. Data1 y Data2 son conjuntos de datos acústicos tal y como se definen según se recoge en la sección 6.2.2.3: Data1 se refiere a los 28 parámetros acústicos seleccionados por una búsqueda voraz incremental mientras que Data2 es el conjunto completo de parámetros acústicos. Los conjuntos de datos Data3, Data4, Data5, Data6 y Data7 son lingüísticos y se refieren a los parámetros detallados en la sección 3.4.3.2. Data3 es el conjunto de datos lingüísticos completo. Los otros conjuntos de datos, excepto Data7, son diferentes subconjuntos creados a partir de este conjunto completo. Así pues, Data4 y Data5 recogen, respectivamente, los 5 parámetros de activación calculados a partir de los unigramas y bigramas a nivel de palabra, mientras que Data6 recoge los 5 parámetros de activación calculados a partir de los trigramas a nivel POS. Data7 es el subconjunto de parámetros lingüísticos seleccionado automáticamente mediante una búsqueda voraz incremental (tal y como se detalla en la sección 6.3.2) a partir del conjunto lingüístico completo. Finalmente, Data8 es un conjunto de 159 parámetros acústicos y lingüísticos creado 150 6. Reconocimiento afectivo en corpus de voz espontánea Tabla 6.3: Descripción de los conjuntos de datos creados a partir de los conjuntos completos de 384 parámetros acústicos y 15 lingüísticos extraídos del corpus FAU Aibo. Tipo Acústico Nombre Data1 Lingüístico Data2 Data3 Data4 Data5 Data6 Data7 Acústico y lingüístico Data8 Descripción 28 parámetros acústicos seleccionados por una búsqueda voraz incremental a partir de Data2 Conjunto original de 384 parámetros acústicos Conjunto original de 15 parámetros lingüísticos (equivalente a la concatenación de Data4, Data5 y Data6) 5 parámetros lingüísticos de activación del análisis de los unigramas a nivel de palabra 5 parámetros lingüísticos de activación del análisis de los bigramas a nivel de palabra 5 parámetros lingüísticos de activación del análisis de los trigramas a nivel POS 6 parámetros lingüísticos seleccionados por una búsqueda voraz incremental a partir de Data3 159 parámetros seleccionados por un algoritmo genético a partir de la concatenación de Data2 y Data3 mediante un proceso de selección de parámetros basado en el algoritmo genético referenciado en la sección 4.3.2 y a partir de la concatenación de los conjuntos Data2 y Data3. Data8 contiene 149 parámetros relacionados con el análisis acústico y 10 con el análisis lingüístico. Sólo 2 de esos 10 parámetros lingüísticos se refieren a la activación de los unigramas a nivel de palabra mientras que 4 se refieren a la activación de los bigramas a nivel de palabra y los otros 4 a los trigramas a nivel POS. 6.4.2.2. Fusión de parámetros acústicos y parámetros lingüísticos seleccionados manualmente En primer lugar se estudia el rendimiento de los clasificadores al analizar el conjunto de datos lingüísticos completo en combinación con el conjunto de datos acústicos completo y reducido. Este planteamiento es similar al de la sección anterior si bien en este caso se emplea el conjunto de datos lingüísticos completo. La figura 6.21 muestra los resultados UAR de los clasificadores Naïve-Bayes, SVM y SL al ser evaluados, tal y como se ha establecido, con el conjunto de datos Data3 en combinación, mediante concatenación, con los conjuntos Data1 y Data2. Tal y como sucedía en los casos anteriores, los rendimientos de los clasificadores mejoran al utilizar el conjunto reducido de datos acústicos, excepto en el caso del algoritmo Naïve-Bayes. De acuerdo al valor medio de los experimentos recogidos en las columnas Fold1 y Fold2, el empleo del conjunto de datos Data1 supone una mejora frente al 6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos 151 55 50 UAR (%) 45 40 35 30 NB SVM SL Fold1 39,94 44,92 46,78 Fold2 Data1 + Data3 41,16 49,70 51,12 Media Fold1 40,55 47,31 48,95 42,92 44,96 48,14 Fold2 Data2 + Data3 42,50 43,84 46,66 Media 42,71 44,40 47,40 Figura 6.21: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores analizando el conjunto completo de parámetros lingüísticos (Data3) en combinación con el conjunto reducido de parámetros acústicos (Data1) y el conjunto acústico completo (Data2). empleo del conjunto Data2 de un 2,91 % absoluto (6,55 % relativo) en el caso del esquema SVM y de un 1,55 % absoluto (3,27 % relativo) en el caso del esquema SL. Por este motivo, Data1 es el conjunto de datos acústicos considerado a partir de este momento para el resto de experimentos. En la sección 6.3.2 se presentaba la selección lingüística realizada por una búsqueda voraz incremental. Sin embargo, la naturaleza del conjunto de datos lingüísticos permite un análisis pormenorizado de los mismos que observa, a diferencia del estudio realizado de forma independiente en esa sección y en la sección 6.3.1, cómo afecta al rendimiento de los clasificadores su fusión con los parámetros acústicos. La figura 6.22 muestra los rendimientos obtenidos por los tres clasificadores anteriores a través del análisis del conjunto reducido de parámetros acústicos (Data1) en combinación con cada uno de los tres grupos de parámetros lingüísticos: los parámetros de activación de los unigramas a nivel de palabra (Data4), bigramas a nivel de palabra (Data5) y trigramas a nivel POS (Data6). De acuerdo a la media de los dos experimentos, la combinación de Data1 y Data4 obtiene el peor resultado de este experimento. Por el contrario, la concatenación de los conjuntos Data1 y Data5 obtiene el mejor rendimiento mejorando en un 2,29 % absoluto (6,51 % relativo) el del esquema Naïve-Bayes usando la combinación anterior de conjuntos de datos y mejorando, también, los algoritmos SVM y SL en un 2,79 % absoluto (6,43 % relativo) y en un 2,59 % absoluto (5,75 % relativo), respectivamente, con esa misma combinación. La combinación de Data1 y Data6 obtiene los segundos mejores resultados, 152 6. Reconocimiento afectivo en corpus de voz espontánea 55 50 UAR (%) 45 40 35 30 NB SVM SL Fold1 Fold2 Data1 + Data4 33,90 36,44 41,60 45,18 44,06 46,10 Media 35,17 43,39 45,08 Fold1 Fold2 Data1 + Data5 35,28 39,64 44,22 48,14 46,10 49,24 Media 37,46 46,18 47,67 Fold1 Fold2 Data1 + Data6 37,16 35,82 43,04 45,16 45,68 47,40 Media 36,49 44,10 46,54 Figura 6.22: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores al fusionar el conjunto reducido de parámetros acústicos (Data1) con los 3 subconjuntos de parámetros lingüísticos (Data4, Data5 y Data6) de forma independiente. mejorando los esquemas Naïve-Bayes, SVM y SL en un 1,30 % absoluto (3,69 % relativo), 0,71 % absoluto (1,64 % relativo) y 1,46 % absoluto (3,24 % relativo), respectivamente, los resultados obtenidos con la primera combinación de conjuntos de datos. Para determinar si la combinación de dos subconjuntos lingüísticos es capaz de mejorar el rendimiento obtenido en el experimento anterior mediante uno sólo de esos subconjuntos se crean tres combinaciones de los mismos dos a dos (Data4 y Data5, Data4 y Data6, Data5 y Data6) fusionándolas con la parametrización acústica de Data1. Los resultados aparecen representados en la figura 6.23. Como cabía esperar, la combinación de los conjuntos Data5 y Data6 (los dos mejores conjuntos de datos hallados en los resultados expuestos en la figura 6.22) mejora las otras dos combinaciones. En comparación con la segunda mejor combinación (Data4 y Data6), el rendimiento de los algoritmos NaïveBayes, SVM y SL es mejor en un 1,20 % absoluto (3,04 % relativo), 1,57 % absoluto (3,41 % relativo) y 1,20 % absoluto (2,51 % relativo), respectivamente. Finalmente, para determinar los parámetros lingüísticos más relevantes, los mejores conjuntos de datos antes hallados (Data1, Data5 y Data6) se comparan en la figura 6.24, en la que los rendimientos de Data1 y la combinación de Data1 y Data3 se incluyen como referencia. Como se puede observar, la inclusión de los parámetros lingüísticos mejora el rendimiento de los clasificadores que sólo analizan parámetros acústicos. Los mejores resultados se obtienen mediante la combinación de Data5 y Data6 concatenados con Data1. De acuerdo con el valor medio de las dos iteraciones, este conjunto de datos procedente 6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos 153 55 50 UAR (%) 45 40 35 30 NB SVM SL Fold1 Fold2 Media Data1 + Data4 + Data5 36,76 40,06 38,41 44,18 47,50 45,84 45,70 47,90 46,80 Fold1 Fold2 Media Data1 + Data4 + Data6 38,74 40,20 39,47 43,98 48,22 46,10 46,46 49,18 47,82 Fold1 Fold2 Media Data1 + Data5 + Data6 39,74 41,60 40,67 44,80 50,54 47,67 46,82 51,22 49,02 Figura 6.23: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores fusionando el conjunto reducido de parámetros acústicos (Data1) con tres combinaciones dos a dos de los subconjuntos lingüísticos. de la concatenación de los tres conjuntos citados (el valor de UAR para el esquema SL asciende al 49,02 %) mejora los resultados obtenidos por la combinación de Data1 y Data5 (véase la figura 6.22), para los algoritmos Naïve-Bayes, SVM y SL, en un 3,21 % absoluto (8,57 % relativo), 1,49 % absoluto (3,23 % relativo) y 1,35 % absoluto (2,83 % relativo), respectivamente. Los resultados obtenidos por la combinación de los 3 datasets también mejoran los resultados obtenidos por la combinación de Data1 y Data3, es decir, empleando la totalidad de los parámetros lingüísticos. 6.4.2.3. Fusión de parámetros acústicos y parámetros lingüísticos seleccionados automáticamente El análisis conjunto de los parámetros acústicos y cada uno de los grupos que componen el conjunto de datos lingüísticos revela que la mejor combinación es la resultante de la concatenación de los conjuntos de datos Data1, Data5 y Data6 (acústicos y lingüísticos de bigramas a nivel de palabra y trigramas a nivel POS, respectivamente). Este conjunto de datos parte de la selección acústica realizada de forma automática y la parametrización lingüística seleccionada mediante un análisis manual y es coherente con la selección realizada de forma automática en la sección 6.3.2 (la cual se recoge en el conjunto de datos Data7), en cuanto a que los parámetros proceden de los dos mismos grupos si bien la selección automática no los selecciona todos. 154 6. Reconocimiento afectivo en corpus de voz espontánea 55 50 UAR (%) 45 40 35 30 25 NB SVM SL Fold1 27,94 39,44 39,30 Fold2 Data1 29,52 38,48 38,36 Media 28,73 38,96 38,83 Fold1 Fold2 Media Data1 + Data5 35,28 39,64 37,46 44,22 48,14 46,18 46,10 49,24 47,67 Fold1 Fold2 Media Data1 + Data5 + Data6 39,74 41,60 40,67 44,80 50,54 47,67 46,82 51,22 49,02 Fold1 Fold2 Media Data1 + Data3 39,94 41,16 40,55 44,92 49,70 47,31 46,78 51,12 48,95 Figura 6.24: Comparación de las tasas de clasificación no ponderadas (UAR) de los clasificadores al analizar el conjunto reducido de parámetros acústicos (Data1) de forma independiente y al añadir, de forma incremental, los parámetros de activación de los bigramas a nivel de palabra (Data5) y los parámetros de activación de los trigramas a nivel POS, así como su fusión con la totalidad de parámetros lingüísticos (Data3). La figura 6.25 muestra los resultados UAR de los clasificadores al analizar tres conjuntos de datos distintos: la combinación de Data1, Data5 y Data6, que es la combinación de los parámetros acústicos seleccionados por una búsqueda voraz incremental y los parámetros lingüísticos más relevantes hallados manualmente; la combinación de Data1 y Data7, similar a la anterior pero usando los parámetros lingüísticos seleccionados por una búsqueda voraz incremental (véase la sección 6.3.2); y Data8, el conjunto de datos reducido creado a partir de la parametrización acústica y lingüística completa mediante un algoritmo genético (véase la sección 6.4.2.1). Los resultados muestran que la combinación de Data1 y Data7 obtiene el rendimiento más bajo de los conjuntos de datos analizados en esta parte aunque es bastante similar al obtenido por la combinación de Data1, Data5 y Data6. Data8 obtiene, en general (excepto para el caso del algoritmo SVM), el mejor resultado de clasificación (valor de UAR, como promedio de las iteraciones, del 49,66 % para el algoritmo SL). Comparado con la combinación de Data1, Data5 y Data6, obtiene una mejora en el rendimiento para los algoritmos Naïve-Bayes y SL del 3,07 % absoluto (7,55 % relativo) y del 0,64 % absoluto (1,31 % relativo), respectivamente. Considerando los algoritmos de clasificación, la mejora más significativa se produce en el caso del algoritmo Naïve-Bayes. A pesar de que los conjuntos reducidos degradaban el rendimiento de este clasificador en los expe- 6.4. Reconocimiento basado en el análisis de parámetros acústicos y lingüísticos 155 55 50 UAR (%) 45 40 35 30 NB SVM SL Fold1 Fold2 Media Data1 + Data5 + Data6 39,74 41,60 40,67 44,80 50,54 47,67 46,82 51,22 49,02 Fold1 Fold2 Data1 + Data7 36,10 38,90 44,76 48,32 46,86 49,56 Media Fold1 37,50 46,54 48,21 43,82 45,16 48,68 Fold2 Data8 43,66 47,30 50,64 Media 43,74 46,23 49,66 Figura 6.25: Tasa de clasificación no ponderada (UAR), en porcentaje, de los clasificadores considerando la fusión del conjunto reducido de parámetros acústicos (Data1) con los conjuntos de datos Data5 y Data6, con el conjunto reducido de parámetros lingüísticos (Data7) y el subconjunto seleccionado por un algoritmo genético a partir del conjunto completo acústico y lingüístico (Data8). rimentos anteriores, Data8 es un conjunto creado mediante un proceso que favorece una correlación cruzada mínima entre los parámetros escogidos, condición requerida por el algoritmo Naïve-Bayes para un funcionamiento óptimo (Rish, 2001). 6.4.2.4. Comparación global de resultados Tal y como se ha explicado en las secciones anteriores, para comparar estos resultados con los obtenidos por otros autores en el mismo escenario hay que considerar, únicamente, la columna Fold 1 de cada figura ya que equivale al resultado de la evaluación con los dos conjuntos independientes de entrenamiento y prueba. La figura 6.26 recoge, de forma resumida, algunos de los resultados citados en esta tesis comparándolos con los más representativos hallados en esta sección. Kockmann et al. (2009) alcanzan un valor de UAR del 41,65 % mediante 4 clasificadores GMM y 13 parámetros MFCC y sus derivadas. Por otra parte, la fusión de 7 esquemas de clasificación realizada por Schuller et al. (2011) alcanza una tasa de clasificación del 44,01 %. El número de parámetros empleado por cada uno de estos 7 esquemas es distinto y entre ellos figura la parametrización de 384 elementos de Schuller et al. (2009) 156 6. Reconocimiento afectivo en corpus de voz espontánea 51 450 384 48,68 >384 46,82 400 350 47 300 UAR (%) 45 44,06 44,01 250 43 41,65 41,16 200 159 41 150 38,20 39 100 39 37 38 33 50 0 a8 at +D a5 D at a4 +D at +D at D a1 at D Sc hu lle a1 ta re et n an m ck Ko at 20 l., ., 2 al ., 2 al et et an Pl 11 9 00 9 00 09 20 l., ta re lle hu a6 35 Sc Número de parámetros 384 49 Figura 6.26: Comparación entre los resultados de varios experimentos del estado de la cuestión y los resultados más relevantes presentados en este capítulo al emplear dos conjuntos independientes para entrenamiento y prueba. Se muestra la tasa de clasificación no ponderada (UAR, en negro) y el número de parámetros del conjunto de datos con el que se consigue ese resultado (en azul). En el caso de (Schuller et al., 2011) el número de parámetros mostrado es orientativo ya que es superior al indicado al provenir de la fusión de 7 esquemas de clasificación. por lo que el número total asciende a un valor superior12 . Por otra parte, el esquema SL (que alcanza el mejor rendimiento para las tres combinaciones de conjuntos de datos presentadas, tal y como se comprueba en la figura 6.25) obtiene el mejor valor de UAR al analizar el conjunto de datos Data8 (48,68 %). Este resultado mejora el de Kockmann et al. (2009) en un 7,03 % absoluto (16,88 % relativo) y el de Schuller et al. (2011) en un 4,68 % absoluto (10,64 % relativo). Cabe destacar que, además de la mejora respecto al resultado de Schuller et al. (2011), el volumen de datos es de 159 parámetros y empleando un único esquema de clasificación. Este resultado también mejora el obtenido por la combinación de los conjuntos de datos Data1 y Data4, que asciende a un 44,06 % de UAR (véase la sección 6.4.1). La mejora es de un 4,62 % absoluto (10,49 % relativo). En este caso, sin embargo, se emplea un volumen de datos mayor ya que la combinación de Data1 y Data4 asciende a un total de 33 parámetros frente a los 159 de Data8. En una posición intermedia se halla la selección lingüística manual en combinación con la acústica (Data1, Data5 y Data6). Con 38 parámetros, su rendimiento se sitúa casi al mismo nivel que la combinación de Data1 y Data4 pero por debajo de Data8. 12 Algunos de los estudios fusionados a nivel de decisión en (Schuller et al., 2011) comparten parte o la totalidad de la parametrización original de Schuller et al. (2009) e incorporan otros parámetros adicionales. Por eso puede considerarse que, indirectamente, se analiza un corpus de tamaño superior al especificado. 6.5. Resumen 157 Tanto Data8 como la fusión de Data1 y Data4 superan el valor de UAR de referencia establecido por Schuller et al. (2009) y el resultado preliminar mostrado en la sección 6.2.1 tal y como se recoge en (Planet et al., 2009). En el caso de Data8 frente a Schuller et al. (2009), la mejora absoluta es de un 10,48 % (27,43 % relativa), empleando 159 parámetros acústicos y lingüísticos frente a los 384 parámetros acústicos del corpus analizado por Schuller et al. (2009), es decir, un 41,41 % del total. La mejora de la fusión entre Data1 y Data4 con respecto al resultado de referencia es inferior (5,86 % absoluta, 15,34 % relativa), aunque también es muy inferior el volumen de datos empleado: 33 parámetros frente a 384, es decir, un 8,59 % del total. En lo referente a la combinación de Data1, Data5 y Data6, la cual obtiene un resultado intermedio, esta mejora es 8,62 % absoluta (22,57 % relativa) empleando 38 parámetros, un 9,90 % del total. 6.5. Resumen En esta sección se ha abordado el reconocimiento afectivo automático basado en un corpus de voz espontánea, lo cual supone trabajar con unas condiciones específicas y muy diferentes a los corpus de voz actuada destacando, entre otras, la presencia de emociones no prototípicas y con una baja expresividad afectiva. A su vez, el planteamiento de los experimentos es distinto dado que, en el caso de corpus actuados, se trata con locuciones cuyo contenido afectivo debe ser validado posteriormente ya que el locutor podría no haber expresado correctamente el estado afectivo pretendido. De esta forma, el reconocimiento puede plantearse como un ejercicio de mapeo de un criterio subjetivo que acepte o rechace ciertas locuciones en base a su estilo afectivo. Es decir, que se adapte al usuario que escucha e interpreta, en lugar de al locutor que actúa la emoción. De no ser así, el sistema de reconocimiento automático podría superar el propio reconocimiento humano, lo que supondría que se está produciendo el reconocimiento del estilo actuado en lugar del reconocimiento de la propia emoción. En cambio, en corpus de voz espontánea no cabe dicha validación ya que las locuciones no pretenden un estilo afectivo sino que dicho estilo se asigna posteriormente en forma de etiqueta, tras una escucha de las mismas, ya que estas se han obtenido de una interacción espontánea. El ejercicio de reconocimiento ya estaría adaptado al usuario que escucha e interpreta las emociones. Además, en este caso, se ha trabajado en un entorno de varios locutores, más acorde con un escenario de propósito general y, por lo tanto, menos específico. El corpus en el que se basa este análisis es el FAU Aibo el cual presenta una distribución de categorías afectivas no equilibrada. Por este motivo la medida empleada es la UAR, a efecto de tener en cuenta la correcta clasificación de las categorías afectivas mayoritarias y minoritarias por igual. Por otra parte, y para mantener la total independencia entre los datos empleados para entrenar y probar el sistema así como poder comparar los resultados con otros estudios del estado de la cuestión, se emplean dos subconjuntos distintos e independientes del corpus, consistente en locuciones que provienen de locutores diferentes. 158 6. Reconocimiento afectivo en corpus de voz espontánea El estudio se estructura en tres partes diferenciando el análisis a nivel acústico y a nivel lingüístico, ambos de forma independiente, y a nivel de la fusión de los parámetros acústicos y lingüísticos. A nivel acústico se han realizado dos experimentos. El primero de ellos, preliminar, se enmarca dentro del escenario propuesto por Schuller et al. (2009), a nivel de clasificación y de selección de parámetros. A nivel de clasificación se estudian diversos clasificadores simples, dos estructuras jerárquicas y una estructura en cascada. De todos ellos, el esquema Naïve-Bayes es el que presenta un mejor rendimiento. A nivel de selección de parámetros se presenta una selección de 100 elementos realizada mediante el algoritmo mRMR, la cual muestra una ligera degradación en la tasa de reconocimiento de referencia a pesar de suponer una reducción importante en el volumen de datos. El segundo experimento a nivel acústico cuenta con una parametrización más precisa del corpus FAU Aibo y también realiza una tarea de clasificación y una de selección de parámetros. A nivel de clasificación se realiza, en primer lugar, un experimento categórico que analiza diversos algoritmos de clasificación e introduce la fusión a nivel de clasificación de dos de ellos y, en segundo lugar, un experimento de clasificación dimensional basado en el mapeo de las categorías afectivas en un espacio bidimensional de activación-evaluación, cuyo resultado es inferior a los obtenidos anteriormente. A nivel de selección de parámetros, en este caso se ha empleado un algoritmo de búsqueda voraz en sus variantes incremental y decremental, el cual presenta un mejor rendimiento que el algoritmo mRMR anteriormente estudiado. A nivel lingüístico el corpus se analiza a nivel de palabra en base a unigramas y bigramas y a nivel de la categoría morfológica de las palabras en base a trigramas POS. En primer lugar se estudian los tres conjuntos de forma independiente, siendo los últimos conjuntos los que ofrecen un mejor rendimiento. Por otra parte, se presenta el rendimiento de la fusión a nivel de parámetros de los tres conjuntos mediante concatenación. Además, a pesar de que la modalidad lingüística cuenta con un volumen reducido de datos, también se presenta la reducción de los mismos mediante una búsqueda voraz incremental. En todos los casos los resultados de esta modalidad son inferiores a los de referencia, si bien se observa posteriormente que el análisis lingüístico aporta un efecto constructivo a la clasificación realizada a nivel acústico. La fusión acústica y lingüística se realiza, de forma preliminar, a nivel de decisión y a nivel de parámetros, analizando las selecciones de parámetros acústicos realizadas de forma incremental y decremental. De este primer estudio se comprueba que la selección de parámetros acústicos incremental es la que presenta un mejor rendimiento, considerando su menor volumen de datos y su tasa de clasificación. Por otra parte, se determina que el esquema de fusión a nivel de parámetros es, dada su sencillez y los buenos resultados proporcionados, la más adecuada para este trabajo. Determinado el mejor esquema de fusión y la selección incremental de parámetros acústicos como la más adecuada, se realizan distintas combinaciones con los parámetros 6.5. Resumen 159 lingüísticos. En primer lugar se llevan a cabo combinaciones considerando los tres conjuntos lingüísticos detallados. En segundo lugar se considera la fusión de los parámetros acústicos con la reducción lingüística realizada con anterioridad así como una reducción mediante un algoritmo genético aplicado a la totalidad de los parámetros acústicos y lingüísticos, siendo este último conjunto de datos el que consigue un rendimiento óptimo. En combinación con el algoritmo SL, su resultado mejora notablemente los resultados obtenidos por esquemas más complejos del estado de la cuestión. 160 6. Reconocimiento afectivo en corpus de voz espontánea Capítulo 7 Conclusiones y futuras líneas de investigación Este último capítulo recoge las principales conclusiones y las líneas futuras de investigación. Dichas conclusiones aparecen agrupadas en tres bloques. En primer lugar, en la sección 7.1, se recogen las conclusiones generales de la tesis, las cuales derivan directamente de los objetivos específicos detallados en la sección 1.2. La sección 7.2 recoge las conclusiones de la experimentación realizada con corpus de voz actuada. El tercer bloque, correspondiente a la sección 7.3, detalla las conclusiones de la experimentación relacionada con el corpus de voz espontánea FAU Aibo. Finalmente, la sección 7.4 propone algunas líneas de investigación que podrían abordarse en el futuro. 7.1. Conclusiones generales La motivación que da origen a esta tesis es cubrir la rama del análisis afectivo en la comunicación oral persona-máquina. El GTM contaba con experiencia en el campo de la síntesis audiovisual y, en el momento de iniciarse este trabajo de investigación, existían varios trabajos en curso relacionados con la síntesis expresiva. Sin embargo, existía también la necesidad de plantear un estudio en la vertiente analítica para completar el proceso comunicativo, permitiendo avanzar en el campo de la interacción persona-máquina de forma completa. Asimismo, en general y tal y como se aprecia en los estudios analizados en el estado de la cuestión, hasta hace unos años el análisis de las señales de entrada de las interfaces de usuario no había sido tan estudiado como sí lo había sido la generación de contenido en la salida de las mismas. Así, mientras comenzaban a desarrollarse avatares virtuales con síntesis audiovisual expresiva o motores de diálogo capaces de procesar lenguaje natural, la interacción por parte del usuario quedaba reducida, en la mayoría de las ocasiones, a la 161 162 7. Conclusiones y futuras líneas de investigación introducción de texto a través del teclado o, en el mejor de los casos, al dictado de frases a través de un micrófono. Sin embargo, las mejoras en los módulos de reconocimiento de voz permitieron crear aplicaciones más amigables y con ellas, y gracias al aumento de las capacidades computacionales de los dispositivos, se produjo un auge en los estudios relacionados con el reconocimiento afectivo automático. No obstante, gran parte de estos estudios se centraban en el análisis de grabaciones realizadas en condiciones muy controladas, a menudo actuadas en estudios de grabación profesionales, con una gran supervisión del contenido y de las condiciones del entorno. Ello desembocaba en sistemas con tasas de reconocimiento muy elevadas que, cuando eran probados en condiciones realistas de interacción natural, producían resultados muy por debajo de los iniciales. Es por eso que a raíz de esas pruebas se originaron cada vez más estudios focalizados en el análisis de locuciones con expresiones emocionales espontáneas lo que suponía trabajar, a menudo, con corpus poco equilibrados, que incluían datos no prototípicos y locuciones de una baja intensidad emocional y, frecuentemente, poco definida, como es el caso del corpus FAU Aibo estudiado en esta tesis. Por ese motivo, esta tesis plantea como objetivo general la creación de un sistema de reconocimiento afectivo automático basado en expresión oral espontánea, lo que conllevaba en la sección 1.2 a plantear cuatro objetivos específicos, las conclusiones sobre los cuales se desarrollan a continuación. Las secciones siguientes detallarán estos puntos enmarcándolos en su contexto de experimentación, a partir de los trabajos realizados en corpus de voz actuada y en corpus de voz espontánea. Realización del ejercicio de reconocimiento afectivo en condiciones de laboratorio para su comparación con los realizados en corpus de voz espontánea. Siguiendo la línea de los trabajos realizados por diversos investigadores en el ámbito del reconocimiento afectivo automático y, en concreto, el completo trabajo desarrollado por Oudeyer (2003), en esta tesis se ha planteado el análisis de dos corpus de voz actuada y estimulada, el corpus ESDLA y el corpus BDP-UAB, respectivamente, mediante un banco de algoritmos de clasificación individuales y parametrizaciones basadas en parámetros prosódicos y de VoQ. El estudio de los resultados pone de manifiesto que el sistema automático obtiene una tasa de clasificación incluso superior al reconocimiento que, de forma subjetiva a través de la escucha de las locuciones, realiza un conjunto de personas. En el estudio llevado a cabo con el corpus de voz espontánea FAU Aibo no cabe considerar el reconocimiento subjetivo dado que las locuciones se etiquetan tras su grabación, es decir, la etiqueta afectiva asociada se asigna después de que la grabación se haya realizado mientras que en la grabación actuada el locutor debe expresar la emoción que se le solicita. Sin embargo la tasa de reconocimiento es muy inferior en el caso de la voz espontánea, más aún cuando sólo se consideran parámetros acústicos para el análisis. Parametrización a nivel acústico y lingüístico y posterior selección de los parámetros más relevantes. El corpus FAU Aibo no está grabado en condiciones óptimas de estudio 7.1. Conclusiones generales 163 sino que, a pesar de haberse controlado diferentes condiciones ambientales, se ha realizado en un entorno de interacción realista. Además, las locuciones no pertenecen a actores y se corresponden con voces de diferentes personas. Todas estas diferencias con respecto a corpus como el ESDLA o el BDP-UAB hacen que el cálculo de los parámetros acústicos sea menos robusto. Por este motivo, además de la parametrización acústica propuesta en el capítulo 3, se incorpora una serie de parámetros lingüísticos extraídos a partir de las transcripciones de las locuciones del corpus, los cuales no se ven afectados por los inconvenientes que introducen las condiciones de grabación. Cabe señalar que en esta tesis se ha trabajado con las transcripciones exactas y no las procedentes de un sistema de reconocimiento automático de voz, que sería lo deseable en un sistema completamente automático. Así pues, los resultados expresados a este respecto deben considerarse como una cota máxima, partiendo de la premisa de que el reconocedor funcionaría sin error. A pesar de la baja tasa de reconocimiento conseguida por los parámetros lingüísticos de forma individual, su fusión con los parámetros acústicos mejora notablemente los resultados que estos obtienen por sí solos. Por otra parte, la reducción de parámetros conseguida mediante su selección consigue mantener o incluso mejorar las tasas de identificación conseguidas con los conjuntos de datos completos. Definición de un entorno de trabajo que permita evaluar adecuadamente los métodos propuestos y comparar los resultados con otros estudios. Una de las dificultades que se plantea con frecuencia en los estudios de reconocimiento afectivo automático es la variedad de métodos de evaluación y métricas empleadas, lo que a menudo impide realizar una comparación correcta de los resultados. Schuller et al. (2009) proponen un entorno de trabajo basado en la métrica UAR, conveniente para el estudio de un corpus poco equilibrado como el FAU Aibo, así como un método de evaluación basado en dos conjuntos independientes. Ambos conjuntos contienen información de locutores distintos por lo que no existe el riesgo de entrenar y probar el sistema de reconocimiento con la información de los mismos locutores. Los estudios realizados sobre este corpus por diferentes grupos de investigación a raíz de la propuesta inicial han seguido estos postulados, así como la presente tesis, por lo que la comparación de resultados puede realizarse de forma correcta. Para completar los análisis realizados en esta tesis, el método de evaluación se ha extendido a una validación cruzada de dos iteraciones, intercambiando los conjuntos de entrenamiento y prueba en la segunda iteración y calculando el valor medio de los resultados obtenidos en ambos pasos. Sin embargo, la comparación final siempre se realiza en base al resultado obtenido en la primera iteración. Selección de los esquemas de clasificación y fusión más adecuados. En esta tesis se ha abordado el reconocimiento afectivo automático como un problema de clasificación categórica en el que los elementos a clasificar son locuciones parametrizadas de voz y la clase es la etiqueta descriptiva de la emoción asociada. Como tal se han estudiado algoritmos de clasificación individuales y también formando estructuras más complejas, considerando incluso más de una clase para cada locución en el caso de la clasificación 164 7. Conclusiones y futuras líneas de investigación basada en el modelo bidimensional propuesto en la sección 6.2.2.2. Sin embargo, los esquemas que han proporcionado los mejores resultados no han sido algoritmos complejos sino algoritmos más sencillos empleando conjuntos de datos convenientemente seleccionados. En este sentido, la fusión de los mismos ha resultado un punto clave, llegándose a determinar que la fusión a nivel de parámetros por concatenación es más adecuada que la fusión a nivel de decisión a pesar de la sencillez de su planteamiento. Asimismo, la selección de parámetros realizada mediante un algoritmo genético a partir de los parámetros previamente fusionados por concatenación es la que proporciona la mejor tasa de reconocimiento, lo que pone de manifiesto la importancia de la correcta selección de los parámetros comentada más arriba. 7.2. Reconocimiento afectivo en corpus actuados El reconocimiento afectivo basado en corpus actuados supone trabajar en un escenario bastante alejado del paradigma de las aplicaciones reales ya que, en el marco de una interacción natural, la comunicación persona-máquina se realizará de forma espontánea, en condiciones de entorno variables y no controladas, en las que la expresividad emocional no siempre se producirá con la máxima intensidad ni de forma prototípica y en la que, además, estas emociones probablemente distarán de pertenecer al conjunto de las emociones básicas. Además, los resultados obtenidos en un escenario de este tipo son excesivamente buenos, incluso por encima de la clasificación que se realizaría de forma subjetiva. Efectivamente, reconocer emociones de forma muy precisa cuando se corresponden con emociones plenas, grabadas en condiciones excelentes y de forma muy controlada, carece de poco sentido en un escenario de interacción natural. Es por este motivo que, además del estudio de reconocimiento basado en los corpus ESDLA y BDP-UAB, se ha planteado un segundo escenario en el que este tipo de reconocimiento sí puede ser de utilidad: la validación automática de un corpus destinado a síntesis de voz expresiva. El proceso de validación automática de corpus consiste en la clasificación de un corpus actuado (y por lo tanto previamente etiquetado) que mapee el criterio subjetivo de las personas que lo escuchan y, por lo tanto, deciden si la locución se corresponde adecuadamente con la emoción que se supone que el actor debía transmitir en el momento de su grabación. Para lograrlo se realiza una evaluación subjetiva de un fragmento del corpus, cuyo resultado sirve para ajustar el sistema de reconocimiento automático. El ajuste se realiza mediante un proceso iterativo que selecciona los parámetros que maximizan la medida F1 computada en base a la clasificación subjetiva y la objetiva. Finalmente, mediante la combinación de clasificadores gracias a una técnica de stacking se consigue refinar el resultado final. El análisis de resultados demuestra que existe un grado elevado de correspondencia entre las decisiones del sistema de validación automática y la percepción subjetiva de los participantes en la prueba de escucha. A pesar de que este sistema aún podría incluir mejoras, su desarrollo y presentación en esta tesis queda como ilustrador de la aplicación 7.3. Reconocimiento afectivo en corpus espontáneos 165 real que un reconocimiento afectivo de estas características podría tener. Sin embargo el foco de atención se sitúa en un escenario de emociones espontáneas, las conclusiones de cuya experimentación se abordan en la sección siguiente. 7.3. Reconocimiento afectivo en corpus espontáneos El reconocimiento afectivo basado en corpus de voz espontánea es muy diferente al que se realiza en base a corpus de voz actuada dadas las propias características de los corpus. La presencia de emociones no prototípicas y locuciones de baja expresividad afectiva hace que las condiciones sean muy específicas, como por ejemplo la clase R del corpus FAU Aibo empleado en esta tesis, la cual aglutina una serie de locuciones bajo una misma etiqueta a pesar de que no se corresponden con un estado afectivo bien definido. Además, se ha trabajado en un entorno de varios locutores lo que es más acorde con un escenario de propósito general. Siguiendo la metodología más adecuada para poder comparar resultados con otras investigaciones que emplean el corpus FAU Aibo se ha adoptado la métrica UAR y un sistema de evaluación basado en dos conjuntos independientes. La medida UAR permite ponderar las clases mayoritarias y minoritarias por igual dado que este corpus es altamente no equilibrado. Los conjuntos independientes permiten mantener aislados los conjuntos de entrenamiento y prueba durante todo el experimento. En primer lugar, el corpus se ha analizado a nivel acústico y a nivel lingüístico de forma independiente. Las principales conclusiones a este respecto se detallan a continuación: Un primer experimento preliminar revela que el algoritmo Naïve-Bayes, con el procesado previo del conjunto de datos acústicos mediante una discretización supervisada de los mismos, es el que obtiene el mejor valor de UAR, por encima incluso de otros esquemas más complejos. El clasificador SVM de kernel lineal es también adecuado cuando se entrena con el conjunto de datos acústicos de entrenamiento previamente normalizado y remuestrado para conseguir una distribución uniforme de clases. Una fusión mediante una estrategia de stacking de este clasificador con el esquema Naïve-Bayes antes descrito mejora mínimamente este último en términos de UAR pero consigue una mejor clasificación de los elementos de la clase R. Abordar la clasificación del corpus FAU Aibo desde una perspectiva acústica mediante un planteamiento bidimensional en términos de activación y evaluación no ofrece resultados superiores a los anteriores. La propia definición de las clases del corpus hace complicado el mapeo de las mismas en dicho espacio bidimensional, especialmente por la definición de la clase R. 166 7. Conclusiones y futuras líneas de investigación Las reducciones automáticas de parámetros basadas en búsquedas voraces de tipo incremental y decremental consiguen reducir eficazmente el volumen de datos, especialmente en el caso de la búsqueda incremental. Para este último conjunto reducido de datos se mantienen las tasas de clasificación en algoritmos como SVM y SL pero se reduce drásticamente en el caso del esquema Naïve-Bayes, ya que este método de selección no garantiza la independencia de los parámetros escogidos, requisito de este clasificador. La modalidad lingüística analizada de forma individual proporciona resultados inferiores a los de la modalidad acústica e incluso por debajo de los valores escogidos como referencia durante la experimentación. Sin embargo, bigramas a nivel de palabra y trigramas a nivel POS se revelan como los más relevantes, por encima del análisis lingüístico de las palabras consideradas individualmente. No obstante, no pueden considerarse suficientes para abordar por sí mismos un problema de reconocimiento afectivo automático. En segundo lugar, las modalidades acústica y lingüística son fusionadas a varios niveles en una fase posterior, lo cual revela las siguientes conclusiones principales: En general, la fusión tanto a nivel de decisión como a nivel de parámetros de la información acústica y lingüística mejora los resultados de UAR obtenidos por ambas modalidades de forma individual. En el análisis conjunto de las modalidades acústica y lingüística se comprueba que el mejor esquema de fusión es el de concatenación a nivel de parámetros, a pesar de su sencillez, y que la reducción acústica realizada mediante una búsqueda voraz incremental es la más conveniente para su fusión con la información lingüística, a pesar de proporcionar un conjunto de datos muy reducido, de tan solo 28 parámetros. Tal y como se desprendía del análisis individual de la modalidad lingüística, bigramas a nivel de palabra y trigramas a nivel POS son los parámetros lingüísticos más relevantes. Fusionados por concatenación con el conjunto reducido de 28 parámetros acústicos maximizan el valor de UAR del algoritmo SL. El mejor esquema de clasificación es el que emplea un clasificador SL y el conjunto de datos Data8, consistente en una selección realizada por un algoritmo genético a partir del conjunto completo de datos acústicos y lingüísticos. De los 159 parámetros que lo forman, 149 son acústicos (frente a los 28 seleccionados por el algoritmo de búsqueda voraz incremental en la selección previa) y 10 son lingüísticos, 8 de los cuales hacen referencia a los bigramas a nivel de palabra y a los trigramas a nivel POS. Su resultado es el mejor obtenido con este corpus publicado hasta la fecha en las condiciones de trabajo planteadas en esta tesis. Con el conjunto de datos Data8 el algoritmo Naïve-Bayes obtiene un mejor valor de UAR que con otros conjuntos de datos reducidos. Esto es así porque el esquema de 7.4. Líneas de futuro 167 reducción basado en el algoritmo genético sí está orientado a conseguir una baja correlación cruzada entre los parámetros escogidos. 7.4. Líneas de futuro A pesar de que los resultados obtenidos al analizar el corpus FAU Aibo mediante los esquemas aquí propuestos superan los de trabajos realizados en el mismo contexto, cabe señalar que aún hay un largo camino por recorrer en el análisis de este corpus para mejorarlos notablemente. No en vano, el valor máximo de UAR conseguido se sitúa por debajo del 50 % considerando el análisis del corpus según se define en (Schuller et al., 2009) para un escenario de cinco etiquetas afectivas. En este sentido de mejora cabría la ampliación de la parametrización lingüística la cual, actualmente, presenta un volumen de datos muy inferior al de la parametrización acústica. Tal y como se ha comprobado, los parámetros lingüísticos actuales no son capaces de realizar por sí solos una adecuada clasificación pero sí mejoran notablemente los resultados de clasificación obtenidos por los parámetros acústicos analizados de forma individual. En referencia también a los parámetros lingüísticos, la parametrización realizada se ha hecho en base a la transcripción manual de las locuciones. Esto supone que dicha transcripción está libre de errores. Sin embargo, dicha suposición podría no ser realista en un contexto de interacción natural en el que el sistema de análisis afectivo contara con un reconocedor automático de voz. Las limitaciones de dicho reconocedor conllevarían la introducción de errores en las transcripciones lo que podría suponer una degradación del rendimiento aquí señalado. En cualquier caso, los resultados aquí expuestos a este respecto deben considerarse como una cota máxima suponiendo un reconocedor ideal de voz y, por lo tanto, carente de errores. Asimismo, sería conveniente realizar un análisis en otros idiomas. El corpus FAU Aibo empleado en esta tesis está grabado en alemán. Sin embargo, podría resultar interesante probar estas mismas técnicas en corpus similares grabados en otros idiomas para comprobar la validez de los métodos propuestos y su robustez frente a las variaciones de la expresión de las emociones en diferentes lenguajes y culturas. Por último, la definición empleada del corpus FAU Aibo presenta detalles que deberían ser tenidos en cuenta en el momento de diseñar una aplicación para un escenario real. El principal sería la reconsideración de la clase R. Dicha clase no está bien definida y supone una fuente importante de errores de clasificación. En este sentido tal vez debería ser ignorada como tal y agrupar sus locuciones en diversas clases bien de entre las ya existentes o bien creando otras nuevas. 168 7. Conclusiones y futuras líneas de investigación Bibliografía Aha, D. W., Kibler, D., y Albert, M. K. (1991). Instance-based learning algorithms. Machine Learning, 6(1):37–66. Alías, F. e Iriondo, I. (2002). La evolución de la síntesis del habla en Ingeniería y Arquitectura La Salle. En Actas de las II Jornadas en Tecnología del Habla, Granada, Spain. Alías, F., Monzo, C., y Socoró, J. C. (2006). A pitch marks filtering algorithm based on restricted dynamic programming. En Proceedings of the 9th International Conference on Spoken Language Processing (INTERSPEECH 2006 ICSLP), pp. 1698–1701, Pittsburgh, PA, USA. Alías, F., Sevillano, X., Socoró, J. C., y Gonzalvo, X. (2008). Towards high-quality nextgeneration text-to-speech synthesis: A multidomain approach by automatic domain classification. IEEE Transactions on Audio, Speech, and Language Processing, 16(7):1340– 1354. Ambady, N. y Rosenthal, R. (1992). Thin slices of expressive behavior as predictors of interpersonal consequences: a meta-analysis. Psychological Bulletin, 111(2):256–274. Ang, J., Dhillon, R., Krupski, A., Shriberg, E., y Stolcke, A. (2002). Prosody-based automatic detection of annoyance and frustration in human-computer dialog. En Hansen, J. H. L. y Pellom, B. L., editores, Proceedings of the 7th International Conference on Spoken Language Processing (ICSLP 2002), pp. 2037–2040, Denver, Colorado, USA. ISCA. Arnfield, S., Roach, P., Setter, J., Greasley, P., y Horton, D. (1995). Emotional stress and speech tempo variation. En Proceedings of the ESCA-NATO Workshop on Speech Under Stress, pp. 13–15, Lisbon, Portugal. Austermann, A., Esau, N., Kleinjohann, L., y Kleinjohann, B. (2005). Prosody based emotion recognition for MEXI. En Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2005), pp. 1138–1144, Alberta, Canada. Averill, J. R. (1980). A constructivist view of emotion. Emotion: Theory, research and experience, 1:305–339. 169 170 Bibliografía Bachorowski, J. A. y Owren, M. J. (1995). Vocal expression of emotion: Acoustic properties of speech are associated with emotional intensity and context. Psychological Science, 6(4):219–224. Banse, R. y Scherer, K. R. (1996). Acoustic profiles in vocal emotion expression. Journal of Personality and Social Psychology, 70(3):614–636. Barra, R. (2011). Contributions to the analysis, design and evaluation of strategies for corpusbased emotional speech synthesis. Tesis doctoral, Universidad Politécnica de Madrid. Barra, R., Fernández, F., Lutfi, S., Lucas-Cuesta, J. M., Macías-Guarasa, J., Montero, J. M., San Segundo, R., y Pardo, J. M. (2009). Acoustic emotion recognition usin dynamic bayesian networks and multi-space distributions. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 336–339, Brighton, UK. Barra, R., Macías-Guarasa, J., Montero, J. M., Rincón, C., Fernández, F., y Córdoba, R. (2007). In search of primary rubrics for language independent emotional speech identification. En Proceedings of the IEEE International Symposium on Intelligent Signal Processing (WISP 2007), Madrid, Spain. Bartlett, M. S., Littlewort, G., Braathen, B., Sejnowski, T. J., y Movellan, J. R. (2003). A prototype for automatic recognition of spontaneous facial actions. En Becker, S., Thrun, S., y Obermayer, K., editores, Advances in Neural Information Processing Systems, volumen 15, pp. 1271–1278. MIT Press. Bartneck, C. (2000). Affective expressions of machines. Tesis de máster, Stan Ackerman Institute, Eindhoven. Batliner, A., Fischer, K., Huber, R., Spilker, J., y Nöth, E. (2000). Desperately seeking emotions: Actors, wizards and human beings. En Proceedings of the ISCA Workshop on Speech and Emotion, pp. 195–200, Newcastle, Northern Ireland, UK. Batliner, A., Fischer, K., Huber, R., Spilker, J., y Nöth, E. (2003). How to find trouble in communication. Speech Communication, 40(1-2):117–143. Batliner, A., Hacker, C., Steidl, S., Nöth, E., D’Arcy, S., Russell, M. J., y Wong, M. (2004). ”You stupid tin box”— Children interacting with the AIBO robot: A cross-linguistic emotional speech corpus. En Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal. European Language Resources Association. Batliner, A., Schuller, B., Seppi, D., Steidl, S., Devillers, L., Vidrascu, L., Vogt, T., Aharonson, V., y Amir, N. (2011). The automatic recognition of emotions in speech. En Cowie, R., Pelachaud, C., y Petta, P., editores, Emotion-Oriented Systems, Cognitive Technologies, pp. 71–99. Springer Berlin Heidelberg. Bibliografía 171 Batliner, A., Steidl, S., Hacker, C., y Nöth, E. (2008). Private emotions versus social interaction: a data-driven approach towards analysing emotion in speech. User Modeling and User-Adapted Interaction, 18:175–206. Beller, G. y Marty, A. (2006). Talkapillar: outil d’analyse de corpus oraux. En Rencontres Jeunes Chercheurs de l’Ecole Doctorale 268, Paris, France. Bezdek, J. C., Pal, M. R., Keller, J., y Krisnapuram, R. (1999). Fuzzy Models and Algorithms for Pattern Recognition and Image Processing. Kluwer Academic Publishers, Norwell, MA, USA. Bhutekar, S. y Chandak, M. (2012). Corpus based emotion extraction to implement prosody feature in speech synthesis systems. International Journal of Computer and Electronics Research, 1(2). Bozkurt, E., Erzin, E., Erdem, C. E., y Erdem, A. T. (2009). Improving automatic emotion recognition from speech signals. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 324–327, Brighton, UK. Bozkurt, E., Erzin, E., Erdem, C. E., y Erdem, A. T. (2011). Formant position based weighted spectral features for emotion recognition. Speech Communication, 53(9-10):1186–1197. Bradley, M. M. y Lang, P. J. (1994). Measuring emotion: The self-assessment manikin and the semantic differential. Journal of Behavior Therapy & Experimental Psychiatry, 25(1):49– 59. Bradley, M. M. y Lang, P. J. (1999). Affective Norms for English Words (ANEW): Stimuli, instruction manual, and affective ratings. Technical report, Center for Research in Psychophysiology, University of Florida, Gainesville, Florida, USA. Breazeal, C. L. (2002). Designing Sociable Robots. Intelligent Robotics and Autonomous Agents Series. MIT Press, Cambridge, MA, USA. Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2):123–140. Broekens, J., Jonker, C. M., y Meyer, J.-J. C. (2010). Affective negotiation support systems. Journal of Ambient Intelligence and Smart Environments, 2(2):121–144. Buck, R. (1999). The biological affects: a typology. Psychological Review, 106(2):301–336. Bullington, J. (2005). ’Affective’ computing and emotion recognition systems: the future of biometric surveillance? En Proceedings of the 2nd Annual Conference on Information Security Curriculum Development (InfoSecCD 2005), InfoSecCD ’05, pp. 95–99, New York, NY, USA. ACM. Burkhardt, F., Paeschke, A., Rolfes, M., y Sendlmeier, W. (2005). A database of german emotional speech. En Proceedings of the 9th European Conference on Speech Communication and Technology (INTERSPEECH 2005), pp. 1517–1520, Lisbon, Portugal. ISCA. 172 Bibliografía Burkhardt, F. y Sendlmeier, W. (2000). Verification of acoustical correlates of emotional speech using fromant-synthesis. En Proceedings of the ISCA Workshop on Speech and Emotion, pp. 151–156, Belfast, North Ireland. Busso, C., Deng, Z., Yildirim, S., Bulut, M., Lee, C. M., Kazemzadeh, A., Lee, S., Neumann, U., y Narayanan, S. (2004). Analysis of emotion recognition using facial expressions, speech and multimodal information. En Proceedings of the 6th International Conference on Multimodal Interfaces (ICMI 2004), pp. 205–211, New York, NY, USA. ACM. Busso, C., Lee, S., y Narayanan, S. (2009). Analysis of emotionally salient aspects of fundamental frequency for emotion detection. IEEE Transactions on Audio, Speech and Language Processing, 17(4):582–596. Busso, C. y Narayanan, S. (2008). Recording audio-visual emotional databases from actors: A closer look. En Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC 2008), pp. 17–22, Marrakech, Morocco. Cañamero, L. y Fredslund, J. (2001). I show you how I like you — Can you read it in my face? IEEE Transactions on Systems, Man, and Cybernetics, Part A, 31:454–459. Cahn, J. (1989). Generating expression in synthesized speech. Tesis de máster, Massachusetts Institute of Technology. Calzada, À. y Socoró, J. C. (2012). Voice quality modification using a harmonics plus noise model. Cognitive Computation. Campbell, N. (2000). Databases of emotional speech. En Proceedings of the ISCA Workshop on Speech and Emotion, pp. 34–38, Newcastle, Northern Ireland, UK. Campbell, N. (2002). Recording techniques for capturing natural every-day speech. En Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC 2002), Las Palmas, Canary Islands, Spain. Canny, J. (2006). The future of human-computer interaction. Queue, 4(6):24–32. Chawla, N. V., Bowyer, K. W., Hall, L. O., y Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16(1):321– 357. Chen, L., Tao, H., Huang, T., Miyasato, T., y Nakatsu, R. (1998). Emotion recognition from audiovisual information. En Proceedings of the IEEE 2nd Workshop on Multimedia Signal Processing, pp. 83 –88, California, USA. Clavel, C., Vasilescu, I., Devillers, L., Richard, G., y Ehrette, T. (2008). Fear-type emotion recognition for future audio-based surveillance systems. Speech Communication, 50(6):487–503. Cleary, J. G. y Trigg, L. E. (1995). K*: An instance-based learner using an entropic distance measure. En 12th International Conference on Machine Learning, pp. 108–114. Bibliografía 173 Cohn, J., Reed, L., Ambadar, Z., Xiao, J., y Moriyama, T. (2004). Automatic analysis and recognition of brow actions and head motion in spontaneous facial behavior. En Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics (SMC 2004), volumen 1, pp. 610–616, The Hague, The Netherlands. Cornelius, R. R. (2000). Theoretical approaches to emotion. En Proceedings of the ISCA Workshop on Speech and Emotion: A Conceptual Framework for Research, pp. 3–10, Belfast, Northern Ireland, UK. Cowie, R. y Cornelius, R. R. (2003). Describing the emotional states that are expressed in speech. Speech Communication, 40(1-2):5–32. Cowie, R., Douglas-Cowie, E., Apolloni, B., Taylor, J., Romano, A., y Fellenz, W. (1999). What a neural net needs to know about emotion words. Journal Computational Intelligence and Applications, pp. 109–114. Cowie, R., Douglas-Cowie, E., Savvidou, S., McMahon, E., Sawey, M., y Schröder, M. (2000). FEELTRACE: An instrument for recording perceived emotion in real time. En Proceedings of the ISCA Workshop on Speech and Emotion: A Conceptual Framework for Research, pp. 19–24, Newcastle, Northern Ireland, UK. Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N., Votsis, G., Kollias, S., Fellenz, W., y Taylor, J. G. (2001). Emotion recognition in human-computer interaction. IEEE Signal Processing Magazine, 18(1):32–80. Cowie, R. y Schröder, M. (2005). Piecing together the emotion jigsaw. En Bengio, S. y Bourlard, H., editores, Machine Learning for Multimodal Interaction, volumen 3361 de Lecture Notes in Computer Science, pp. 305–317. Springer Berlin Heidelberg. Darwin, C. R. (1872). La expresión de las emociones en los animales y en el hombre. Alianza Editorial. Traducido por Eusebio Heras. de Melo, C. M., Carnevale, P., y Gratch, J. (2010). The influence of emotions in embodied agents on human decision-making. En Proceedings of the 10th International Conference on Intelligent Virtual Agents (IVA 2010), pp. 357–370, Philadelphia, PA. de Melo, C. M., Carnevale, P., y Gratch, J. (2011). The effect of expression of anger and happiness in computer agents on negotiations with humans. En Proceedings of the 10th International Conference on Autonomous Agents and Multiagent Systems (ICAAMS 2011), volumen 3, pp. 937–944, Richland, SC. International Foundation for Autonomous Agents and Multiagent Systems. Decety, J. y Jackson, P. L. (2004). The functional architecture of human empathy. Behavioral and cognitive neuroscience reviews, 3(2):71–100. Devillers, L., Vidrascu, L., y Lamel, L. (2005). Challenges in real-life emotion annotation and machine learning based detection. Neural Networks, 18(4):407–422. 174 Bibliografía Dick, P. K. (1968). ¿Sueñan los androides con ovejas eléctricas? Planeta DeAgostini. Traducido por César Terrón. Douglas-Cowie, E., Campbell, N., Cowie, R., y Roach, P. (2003). Emotional speech: Towards a new generation of databases. Speech Communication, 40:33–60. Douglas-Cowie, E., Devillers, L., Martin, J. C., Cowie, R., Savvidou, S., Abrilian, S., y Cox, C. (2005). Multimodal databases of everyday emotion: Facing up to complexity. En Proceedings of the 9th Annual Conference of the International Speech Communication Association (INTERSPEECH 2005), pp. 813–816, Lisbon, Portugal. Drioli, C., Tisato, G., Cosi, P., y Tesser, F. (2003). Emotions and voice quality: experiments with sinusoidal modeling. En Proceedings of Voice Quality: Functions, Analysis and Synthesis (VOQUAL 2003), ISCA Tutorial and Research Workshop, pp. 127–132, Geneva, Switzerland. Dumouchel, P., Dehak, N., Attabi, Y., Dehak, R., y Boufaden, N. (2009). Cepstral and longterm features for emotion recognition. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 344–347, Brighton, UK. Ekman, P. (1999). Basic emotions. En Dalgleish, T. y Power, T., editores, Handbook of Cognition and Emotion, pp. 45–60. John Wiley & Sons Ltd., Sussex, UK. Ekman, P. y Friesen, W. V. (1969). The repertoire of nonverbal behaviour: Categories, origins, usage and coding. Semiotica, 1(1):49–97. Empirisoft (2011). Medialab research software. En línea. Última visita el 4 de junio de 2013. Disponible en <http://www.empirisoft.com/medialab.aspx>. Enos, F. (2009). Detecting deception in speech. Tesis doctoral, Columbia University, New York, USA. Eriksson, A. y Lacerda, F. (2007). Charlatanry in forensic speech science: A problem to be taken seriously. International Journal of Speech, Language and the Law, 14(2):169–193. Escudero, D. (2003). Modelado Estadístico de Entonación con Funciones de Bézier: Aplicaciones a la Conversion Texto-Voz en Español. Tesis doctoral, Universidad de Valladolid. Eyben, F., Wöllmer, M., y Schuller, B. (2009). openEAR - Introducing the Munich OpenSource Emotion and Affect Recognition Toolkit. En Proceedings of the 4th International HUMAINE Association Conference on Affective Computing and Intelligent Interaction (ACII 2009), pp. 576–581, Amsterdam, The Netherlands. Fayyad, U. M. e Irani, K. B. (1993). Multi-interval discretization of continuous-valued attributes for classification learning. En Proceedings of the 13th International Joint Conference on Artificial Intelligence (IJCAI 1993), pp. 1022–1029, Chambéry, France. Bibliografía 175 Fernández, R. y Picard, R. W. (2003). Modeling drivers’ speech under stress. Speech Communication, 40:145–159. Formiga, L. (2010). Optimització perceptiva dels sistemes de síntesi de la parla basats en selecció d’unitats mitjançant algorismes genètics interactius actius. Tesis doctoral, La Salle, Universitat Ramon Llull. Formiga, L., Trilla, A., Alías, F., Iriondo, I., y Socoró, J. C. (2010). Adaptation of the URLTTS system to the 2010 Albayzín Evaluation Campaign. En Proceedings of the VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop, pp. 363–370, Vigo, Spain. Fragopanagos, N. y Taylor, J. (2005). Emotion recognition in human-computer interaction. Neural Networks, 18(4):389–405. Francisco, V. (2008). Identificación automática del contenido afectivo de un texto y su papel en la presentación de información. Tesis doctoral, Universidad Complutense de Madrid, Madrid, Spain. Francisco, V. y Gervás, P. (2006). Exploring the compositionality of emotions in text: Word emotions, sentence emotions and automated tagging. En Proceedings of 21st National Conference on Artificial Intelligence (AAAI 2006). Workshop on Computational Aesthetics: AI Approaches to Beauty and Happiness, Boston, MA, USA. Francisco, V., Hervás, R., Peinado, F., y Gervás, P. (2012). EmoTales: creating a corpus of folk tales with emotional annotations. Language Resources and Evaluation, 46(3):341–381. Frank, E. y Witten, I. H. (1998). Generating accurate rule sets without global optimization. En Proceedings of the 15th International Conference on Machine Learning (ICML 1998), pp. 144–151, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. François, H. y Boëffard, O. (2002). The greedy algorithm and its application to the construction of a continuous speech database. En Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC 2002), volumen 5, pp. 1420–1426, Las Palmas de Gran Canaria, España. Freund, Y. y Schapire, R. E. (1996). Experiments with a new boosting algorithm. En Proceedings of the 13th International Conference on Machine Learning (ICML 1996), pp. 148– 156, Bari, Italy. Furnas, G. W., Landauer, T. K., Gómez, L. M., y Dumais, S. T. (1987). The vocabulary problem in human-system communication. Communications of the ACM, 30(11):964–971. Gabrys, B. y Ruta, D. (2006). Genetic algorithms in classifier fusion. Applied Soft Computing, 6(4):337–347. Gadallah, M. E., Matar, M. A., y Algezawi, A. F. (1999). Speech based automatic lie detection. En Proceedings of the 16th National Radio Science Conference (NRSC 1999), pp. C33/1 –C33/8, Cairo, Egypt. 176 Bibliografía Garrido, J. M. (1991). Modelización de patrones melódicos del español para la síntesis y el reconocimiento del habla. Universitat Autònoma de Barcelona, Bellaterra, España. Gerrards-Hesse, A., Spies, K., y Hesse, F. W. (1994). Experimental inductions of emotional states and their effectiveness: a review. British Journal of Psychology, 85:55–78. Giakoumis, D., Tzovaras, D., Moustakas, K., y Hassapis, G. (2011). Automatic recognition of boredom in video games using novel biosignal moment-based features. IEEE Transactions on Affective Computing, 2:119–133. Gil, J. (2007). Fonética para Profesores de Español: De la Teoría a la Práctica. Manuales de formación de profesores de español 2/L. Arco Libros. Giles, H. y Smith, P. (1979). Accommodation theory: Optimal levels of convergence. En Giles, H. y St. Clair, R. N., editores, Language and Social Psychology, pp. 45–65. Blackwell, Oxford, UK. Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine Learning. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 1a edición. Goleman, D. (1995). Inteligencia Emocional. Editorial Kairós, Barcelona, Spain, 44a edición. Traducido por David González y Fernando Mora. Gonzalvo, J. (2010). Síntesi basada en models ocults de Markov aplicada a l’espanyol i a l’anglès, les seves aplicacions i una proposta híbrida. Tesis doctoral, La Salle, Universitat Ramon Llull. Gonzalvo, X., Iriondo, I., Socoró, J. C., Alías, F., y Monzo, C. (2007a). Mixing HMM-based spanish speech synthesis with a CBR for prosody estimation. En Chetouani, M., Hussain, A., Gas, B., Milgram, M., y Zarader, J.-L., editores, Advances in Nonlinear Speech Processing, volumen 4885 de Lecture Notes in Computer Science, pp. 78–85. Springer Berlin Heidelberg. Gonzalvo, X., Morán, J. A., Monzo, C., y Planet, S. (2005). Entorno para el aprendizaje automático de las estrategias de diálogo. En Actas del XX Simposium Nacional de la Unión Científica Internacional de Radio (URSI 2005), Gandia, Spain. Gonzalvo, X., Socoró, J. C., Iriondo, I., C.Monzo, y Martinez, E. (2007b). Linguistic and mixed excitation improvements on a HMM-based speech synthesis for Castilian Spanish. En Proceedings of the 6th ISCA Workshop on Speech Synthesis, Bonn, Germany. Gouizi, K., Bereksi, R. F., y Maaoui, C. (2011). Emotion recognition from physiological signals. Journal of Medical Engineering and Technology, 35(6-7):300–307. Gratch, J. y Marsella, S. (2001). Tears and fears: modeling emotions and emotional behaviors in synthetic agents. En Müller, J. P., Andre, E., Sen, S., y Frasson, C., editores, Proceedings of the 5th International Conference on Autonomous Agents (ICAA 2001), pp. 278– 285, Montreal, Canada. ACM Press. Bibliografía 177 Grimm, M., Kroschel, K., Mower, E., y Narayanan, S. (2007). Primitives-based evaluation and estimation of emotions in speech. Speech Communication, 49(10-11):787–800. Gupta, P. y Rajput, N. (2007). Two-stream emotion recognition for call center monitoring. En Proceedings of the 8th Annual Conference of the International Speech Communication Association (INTERSPEECH 2007), pp. 2241–2244, Antwerp, Belgium. ISCA. Guyon, I. y Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3:1157–1182. Hall, M. A. (1998). Correlation-based Feature Subset Selection for Machine Learning. Tesis doctoral, University of Waikato, Hamilton, New Zealand. Hassan, A. y Damper, R. I. (2009). Emotion recognition from speech using extended feature selection and a simple classifier. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 2043–2046, Brighton, UK. Hastie, T. y Tibshirani, R. (1998). Classification by pairwise coupling. Annals of Statistics, 26(2):451–471. Heinemann, P. (1980). Pedagogía de la comunicación no verbal. Herder, Barcelona, Spain. Hinde, R. A., editor (1972). Non-verbal communication. Cambridge University Press. Hofer, G., Richmond, K., y Clark, R. (2005). Informed blending of databases for emotional speech synthesis. En Proceedings of the 9th European Conference on Speech Communication and Technology (INTERSPEECH 2005), Lisbon, Portugal. Hollingsed, T. K. y Ward, N. G. (2007). A combined method for discovering short-term affect-based response rules for spoken tutorial dialog. En Proceedings of the ISCA ITRW Speech and Language Technology in Education (SLaTE 2007), pp. 61–64, Pennsylvania, USA. Hozjan, V., Kacic, Z., Moreno, A., Bonafonte, A., y Nogueiras, A. (2002). Interface databases: Design and collection of a multilingual emotional speech database. En Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC 2002), Las Palmas de Gran Canaria, España. Ioannou, S., Raouzaiou, A., Tzouvaras, V., Mailis, T. P., Karpouzis, K., y Kollias, S. D. (2005). Emotion recognition through facial expression analysis based on a neurofuzzy network. Neural Networks, 18:423–435. Iriondo, I. (2008). Producción de un corpus oral y modelado prosódico para la síntesis del habla expresiva. Tesis doctoral, La Salle, Universitat Ramon Llull. Iriondo, I., Guaus, R., Rodríguez, A., Lázaro, P., Montoya, N., Blanco, J., Bernadas, D., Oliver, J., Tena, D., y Longhi, L. (2000). Validation of an acoustical modelling of emotional expression in spanish using speech synthesis techniques. En Proceedings of the ISCA Workshop on Speech and Emotion, pp. 161–166, Newcastle, Northern Ireland, UK. 178 Bibliografía Iriondo, I., Planet, S., Alías, F., Socoró, J. C., y Martínez, E. (2007a). Validation of an expressive speech corpus by mapping automatic classification to subjective evaluation. En Sandoval, F., Prieto, A., Cabestany, J., y Graña, M., editores, Computational and Ambient Intelligence, 9th International Work-Conference on Artificial Neural Networks, IWANN 2007, San Sebastián, Spain, June 2007, Proceedings, volumen 4507 de Lecture Notes in Computer Science, pp. 646–653. Springer. Iriondo, I., Planet, S., Alías, F., Socoró, J. C., y Martínez, E. (2008). Emulating subjective criteria in corpus validation. En Rabuñal, J. R., Dorado, J., y Pazos, A., editores, Encyclopedia of Artificial Intelligence, pp. 541–546. Information Science Reference. Iriondo, I., Planet, S., Alías, F., Socoró, J. C., Monzo, C., y Martínez, E. (2007b). Expressive speech corpus validation by mapping subjective perception to automatic classification based on prosody and voice quality. En Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS 2007), pp. 2125–2128, Saarbrücken, Germany. Iriondo, I., Planet, S., Socoró, J. C., y Alías, F. (2007c). Objective and subjective evaluation of an expressive speech corpus. En Chetouani, M., Hussain, A., Gas, B., Milgram, M., y Zarader, J. L., editores, Advances in Nonlinear Speech Processing, International Conference on Nonlinear Speech Processing, NOLISP 2007, Paris, France, May 2007, Revised Selected Papers, volumen 4885 de Lecture Notes in Artificial Intelligence, pp. 86–94. Springer. Iriondo, I., Planet, S., Socoró, J. C., Martínez, E., Alías, F., y Monzo, C. (2009). Automatic refinement of an expressive speech corpus assembling subjective perception and automatic classification. Speech Communication, 51(9):744–758. Special issue on non-linear and conventional speech processing - NOLISP 2007. Iriondo, I., Socoró, J. C., y Alías, F. (2007d). Prosody modelling of spanish for expressive speech synthesis. En Proceedings of the 32nd IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2007), volumen 4, pp. 821–824, Honolulu, HI, USA. Irtel, H. (2007). PXLab: The psychological experiments laboratory. En línea. Última visita el 4 de junio de 2013. Disponible en <http://www.pxlab.de>. ITU-T (1996). Methods for Subjective Determination of Transmission Quality. ITU-T Recommendation P.800. ITU-T recommendation: Series P. International Telecommunication Union. Previously CCITT Recommendation. James, W. (1884). What is an emotion? Mind, 9(34):188–205. John, G. H. y Langley, P. (1995). Estimating continuous distributions in bayesian classifiers. En Proceedings of the 11th Conference on Uncertainty in Artificial Intelligence (CUAI 1995), pp. 338–345, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. Jovičić, S. T., Kašić, Z., Ðorđević, M., y Rajković, M. (2004). Serbian emotional speech database: design, processing and evaluation. En Proceedings of the 9th Conference on Speech and Computer (SPECOM 2004), pp. 77–81, St. Petersburg, Russia. Bibliografía 179 Juslin, P. N. (1997). Perceived emotional expression in synthesized performances of a short melody: Capturing the listener’s judgment policy. Musicae Scientiae, 1(2):225–256. Juslin, P. N. y Laukka, P. (2003). Communication of emotions in vocal expression and music performance: Different channels, same code? Psychological Bulletin, 129(5):770– 814. Juslin, P. N. y Scherer, K. R. (2005). The New Handbook of Methods in Nonverbal Behavior Research, capítulo Vocal expression of affect, pp. 65–135. Oxford University Press. Kapoor, A., Burleson, W., y Picard, R. W. (2007). Automatic prediction of frustration. International Journal of Human-Computer Studies, 65(8):724–736. Kim, J. y André, E. (2006). Emotion recognition using physiological and speech signal in short-term observation. En André, E., Dybkjær, L., Minker, W., Neumann, H., y Weber, M., editores, Perception and Interactive Technologies, volumen 4021 de Lecture Notes in Computer Science, pp. 53–64. Springer Berlin Heidelberg. Kockmann, M., Burget, L., y Černocký, J. (2009). Brno University of Technology system for Interspeech 2009 Emotion Challenge. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 348–351, Brighton, UK. Kohavi, R. (1995). The power of decision tables. En Proceedings of the 8th European Conference on Machine Learning (ECML 1995), pp. 174–189, Heraclion, Crete, Greece. Springer Verlag. Kollias, S. y Piat, F. (1999). Principled hybrid systems: theory and applications (Physta). En Proceedings of the IEEE International Conference on Multimedia Computing and Systems (ICMCS 1999), volumen 2, pp. 1089–1091, Florence, Italy. Koolagudi, S. G. y Rao, K. (2012). Emotion recognition from speech: a review. International Journal of Speech Technology, 15(2):99–117. Kostoulas, T., Mporas, I., Kocsis, O., Ganchev, T., Katsaounos, N., Santamaría, J. J., JiménezMurcia, S., Fernández-Aranda, F., y Fakotakis, N. (2012). Affective speech interface in serious games for supporting therapy of mental disorders. Expert Systems with Applications, 39(12):11072–11079. Kotti, M., Paternò, F., y Kotropoulos, C. (2010). Speaker-independent negative emotion recognition. En Proceedings of the 2nd International Workshop on Cognitive Information Processing (CIP 2010), pp. 417–422, Elba Island, Italy. Kwon, O. W., Chan, K., Hao, J., y Lee, T. W. (2003). Emotion recognition by speech signals. En Proceedings of the 8th European Conference on Speech Communication and Technology (EUROSPEECH 2003), pp. 125–128, Geneva, Switzerland. ISCA. Labov, W. (1972). Sociolinguistic Patterns. Conduct and Communication. University of Pennsylvania Press. 180 Bibliografía Landwehr, N., Hall, M., y Frank, E. (2005). Logistic model trees. Machine Learning, 59(1– 2):161–205. Lang, P. J. (1980). Behavioral treatment and bio-behavioral assessment: computer applications. En Sidowski, J. B., Johnson, J. H., y Williams, T. H., editores, Technology in Mental Health Care Delivery Systems, pp. 119–137. Ablex, Norwood, NJ. Langley, P. (1994). Selection of relevant features in machine learning. En Proceedings of the Association for the Advancement of Artificial Intelligence Fall Symposium on Relevance (AAAI 1994), volumen 97, pp. 127–131, New Orleans, Louisiana, USA. AAAI Press. Laver, J. (1980). The Phonetic Description of Voice Quality. Cambridge University Press. Lazarus, R. S. (1999). Stress and Emotion: A New Synthesis. Springer Publishing Company. Lazarus, R. S. (2001). Appraisal processes in emotion: Theory, methods, research, capítulo Relational meaning and discrete emotions, pp. 37–67. Series in Affective Science. Oxford University Press. Lee, C. C., Mower, E., Busso, C., Lee, S., y Narayanan, S. (2009). Emotion recognition using a hierarchical binary decision tree approach. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 320–323, Brighton, UK. Lee, C. M. y Narayanan, S. (2005). Towards detecting emotions in spoken dialogs. IEEE Transactions on Speech and Audio Processing, 13(2):293–303. Lee, C. M., Narayanan, S., y Pieraccini, R. (2001). Recognition of negative emotions from the speech signal. En Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2001), pp. 240–243, Trento, Italy. Leventhal, H. (1980). Toward a comprehensive theory of emotion. En Berkowitz, L., editor, Advances in Experimental Social Psychology, volumen 13, pp. 139–207. Academic Press. Lewis, M. y Haviland, J. M. (1993). Handbook of Emotions. Guilford Publications. Li, L. y Chen, J. H. (2006). Emotion recognition using physiological signals. En Pan, Z., Cheok, A., Haller, M., Lau, R., Saito, H., y Liang, R., editores, Advances in Artificial Reality and Tele-Existence, volumen 4282 de Lecture Notes in Computer Science, pp. 437– 446. Springer Berlin Heidelberg. Liberman, M., Davis, K., Grossman, M., Martey, N., y Bell, J. (2002). Emotional prosody speech and transcripts. Lin, Y. P., Wang, C. H., Jung, T. P., Wu, T. L., Jeng, S. K., Duann, J. R., y Chen, J. H. (2010). EEG-based emotion recognition in music listening. IEEE Transactions on Biomedical Engineering, 57(7):1798–1806. Bibliografía 181 Litman, D. y Forbes-Riley, K. (2003). Recognizing emotions from student speech in tutoring dialogues. En Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2003), pp. 25–30, St. Thomas, VI, USA. Litman, D. y Forbes-Riley, K. (2004). Predicting student emotions in computer-human tutoring dialogues. En Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics (ACL 2004), Barcelona, Spain. Litman, D. y Forbes-Riley, K. (2006). Recognizing student emotions and attitudes on the basis of utterances in spoken tutoring dialogues with both human and computer tutors. Speech Communication, 48(5):559–590. Litman, D., Friedberg, H., y Forbes-Riley, K. (2012). Prosodic cues to disengagement and uncertainty in physics tutorial dialogues. En Proceedings of the 13th Annual Conference of the International Speech Communication Association (INTERSPEECH 2012), Portland, Oregon. Llisterri, J., Carbó, C., Machuca, M. J., de la Mota, C., Riera, M., y Ríos, A. (2004). Tecnologías del texto y del habla, capítulo La conversión de texto en habla: aspectos lingüísticos, pp. 145–186. Edicions de la Universitat de Barcelona y Fundación Duques de Soria, Barcelona. Luengo, I., Navas, E., y Hernáez, I. (2009). Combining spectral and prosodic information for emotion recognition in the Interspeech 2009 Emotion Challenge. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 332–335, Brighton, UK. Luengo, I., Navas, E., Hernáez, I., y Sánchez, J. (2005). Automatic emotion recognition using prosodic parameters. En Proceedings of the 6th Annual Conference of the International Speech Communication Association (INTERSPEECH 2005), pp. 493–496, Lisbon, Portugal. Maria, K. A. y Zitar, R. A. (2007). Emotional agents: A modeling and an application. Information and Software Technology, 49(7):695–716. Matsumoto, D. y Willingham, B. (2009). Spontaneous facial expressions of emotion of congenitally and noncongenitally blind individuals. Journal of Personality and Social Psychology, 96(1):1–10. McGilloway, S., Cooper, S. J., y Douglas-Cowie, E. (2003). Can patients with chronic schizophrenia express emotion? a speech analysis. Schizophrenia Research, 64(2-3):189–190. McGilloway, S., Cowie, R., Douglas-Cowie, E., Gielen, S., Westerdijk, M., y Stroeve, S. (2000). Approaching automatic recognition of emotion from voice: a rough benchmark. En Proceedings of the ISCA Workshop on Speech and Emotion, Belfast, North Ireland. Mehrabian, A. y Russell, J. (1974). An approach to environmental psychology. MIT Press, Cambridge, MA. 182 Bibliografía Melenchón, J. (2007). Síntesis audiovisual realista personalizable. Tesis doctoral, Enginyeria i Arquitectura La Salle, Universitat Ramon Llull, Barcelona, Spain. Michaelis, D., Gramss, T., y Strube, H. (1997). Glottal to noise excitation ratio — A new measure for describing pathological voices. Acustica / Acta acustica, 83:800–806. Mihalcea, R. y Strapparava, C. (2009). The lie detector: explorations in the automatic recognition of deceptive language. En Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP 2009), pp. 309–312, Stroudsburg, PA, USA. Association for Computational Linguistics. Montero, J. A., Alías, F., Garriga, C., Vicent, L., e Iriondo, I. (2007). Assessing students’ teamwork performance by means of fuzzy logic. En Proceedings of the 9th International Work-Conference on Artificial Neural Networks (IWANN 2007), San Sebastián, Spain. Montero, J. M., Gutiérrez-Arriola, J., Palazuelos, S., Enríquez, E., Aguilera, S., y Pardo, J. M. (1998a). Emotional speech synthesis: From speech database to TTS. En Proceedings of the 5th International Conference on Spoken Language Processing (ICSLP 1998), pp. 923–926, Sydney, Australia. Montero, J. M., Gutiérrez-Arriola, J., Palazuelos, S., Enríquez, E., y Pardo, J. M. (1998b). Spanish emotional speech from database to TTS. En Proceedings of the 5th International Conference on Spoken Language Processing (ICSLP 1998), pp. 923–925, Sydney, Australia. Montoya, N. (1998). El papel de la voz en la publicidad audiovisual dirigida a los niños. Zer. Revista de estudios de comunicación, (4):161–177. Monzo, C. (2010). Modelado de la cualidad de la voz para la síntesis del habla expresiva. Tesis doctoral, La Salle, Universitat Ramon Llull. Monzo, C., Alías, F., Iriondo, I., Gonzalvo, X., y Planet, S. (2007). Discriminating expressive speech styles by voice quality parameterization. En Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS 2007), pp. 2081–2084, Saarbrücken, Germany. Monzo, C., Morán, J. A., Planet, S., y Gonzalvo, X. (2004). Protocolo DS-CDMA orientado a la gestión de un auditorio. En Actas del XIX Simposium Nacional de la Unión Científica Internacional de Radio (URSI 2004), Barcelona, Spain. Morrison, D., Wang, R., y De Silva, L. C. (2007). Ensemble methods for spoken emotion recognition in call-centres. Speech Communication, 49(2):98–112. Mozziconacci, S. (1998). Speech variability and emotion: Production and perception. Tesis doctoral, Technical University of Eindhoven, Eindhoven, The Netherlands. Murray, I. R. y Arnott, J. L. (1993). Toward the simulation of emotion in synthetic speech: A review of the literature of human vocal emotion. Journal of the Acoustic Society of America, 93(2):1097–1108. Bibliografía 183 Nasoz, F., Alvarez, K., Lisetti, C. L., y Finkelstein, N. (2004). Emotion recognition from physiological signals using wireless sensors for presence technologies. International Journal of Cognition, Technology and Work, 6(1):4–14. Navas, E., Hernáez, I., y Luengo, I. (2006). An objective and subjective study of the role of semantics and prosodic features in building corpora for emotional TTS. IEEE Transactions on Audio, Speech and Language Processing, 14(4):1117–1127. NBS (2013). Presentation, precise, powerful stimulus delivery. En línea. Última visita el 4 de junio de 2013. Disponible en <http://www.neurobs.com/>. Neiberg, D., Elenius, K., y Laskowski, K. (2006). Emotion recognition in spontaneous speech using GMM. En Proceedings of the International Conference on Spoken Language Processing (ICSLP 2006), pp. 809–812, Pittsburgh, Pennsylvania, USA. Nöth, E., Batliner, A., Niemann, H., Stemmer, G., Gallwitz, F., y Spilker, J. (2001). Language models beyond word strings. En Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2001), pp. 167–176, Italy. Ochs, M. y Prendinger, H. (2010). A virtual character’s emotional persuasiveness. En Proceedings of the International Conference on Kansei Engineering and Emotion Research (KEER 2010), Paris. Osherenko, A. (2008). Towards semantic affect sensing in sentences. En Proceedings of Annual Convention of the Society for the Study of Artificial Intelligence and Simulation of Behaviour (AISB 2008), Aberdeen, Scotland, UK. Osherenko, A., André, E., y Vogt, T. (2009). Affect sensing in speech: Studying fusion of linguistic and acoustic features. En Proceedings of the 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops (ACII 2009), Amsterdam, The Netherlands. Oudeyer, P. Y. (2003). The production and recognition of emotions in speech: features and algorithms. International Journal of Human-Computer Studies, 59(1-2):157–183. Special issue on Affective Computing. Oviatt, S. (2002). Handbook of Human-Computer Interaction. Lawrence Erlbaum. Pammi, S., Charfuelan, M., y Schröder, M. (2010). Multilingual voice creation toolkit for the MARY TTS platform. En Calzolari, N., Choukri, K., Maegaard, B., Mariani, J., Odijk, J., Piperidis, S., Rosner, M., y Tapias, D., editores, Proceedings of the International Conference on Language Resources and Evaluation (LREC 2010), Valletta, Malta. European Language Resources Association. Pantic, M. y Rothkrantz, L. J. M. (2003). Toward an affect-sensitive multimodal humancomputer interaction. Proceedings of the IEEE, 91(9):1370–1390. 184 Bibliografía Payrató, L. (2005). Aspectos del discurso multimodal: Relaciones ente elementos verbales, prosódicos y gestuales en el discurso oral. En Curso de Tecnologías Lingüísticas: El Futuro de los Sistemas de Diálogo. Fundación Duques de Soria, Soria. Peleg, G., Katzir, G., Peleg, O., Kamara, M., Brodsky, L., Or, H. H., Keren, D., y Nevo, E. (2006). Hereditary family signature of facial expression. Proceedings of the National Academy of Sciences of the United States of America, 103(43):15921–15926. Peng, H., Long, F., y Ding, C. (2005). Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(8):1226–1238. Pérez-Espinosa, H., Reyes-García, C. A., y Villaseñor-Pineda, L. (2011). EmoWisconsin: an emotional children speech database in Mexican Spanish. En Affective Computing and Intelligent Interaction, pp. 62–71. Springer Berlin Heidelberg. Picard, R. W. (2000). Affective Computing. MIT Press. Picard, R. W., Vyzas, E., y Healey, J. (2001). Toward machine emotional intelligence: Analysis of affective physiological state. IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(10):1175–1191. Planet, S. e Iriondo, I. (2011a). Improving spontaneous children’s emotion recognition by acoustic feature selection and feature-level fusion of acoustic and linguistic parameters. En Travieso, C. y Alonso, J., editores, Advances in Nonlinear Speech Processing, 5th International Conference on Nonlinear Speech Processing, NOLISP 2011, Las Palmas de Gran Canaria, Spain, November 2011, Proceedings, volumen 7015 de Lecture Notes in Computer Science, pp. 88–95. Springer Berlin/Heidelberg. Planet, S. e Iriondo, I. (2011b). Spontaneous children’s emotion recognition by categorical classification of acoustic features. En Rocha, A., Gonçalves, R., Pérez Cota, M., y Reis, L. P., editores, Actas da 6a Conferência Ibérica de Sistemas e Tecnologias de Informação (CISTI 2011), volumen 1, pp. 594–599, Chaves, Portugal. Planet, S. e Iriondo, I. (2012a). Children’s emotion recognition from spontaneous speech using a reduced set of acoustic and linguistic features. Cognitive Computation. Planet, S. e Iriondo, I. (2012b). Comparative study on feature selection and fusion schemes for emotion recognition from speech. International Journal of Interactive Multimedia and Artificial Intelligence, 1(6):44–51. Special Issue on Intelligent Systems and Applications. Planet, S. e Iriondo, I. (2012c). Comparison between decision-level and feature-level fusion of acoustic and linguistic features for spontaneous emotion recognition. En Rocha, A., Calvo Manzano, J. A., Reis, L. P., y Pérez Cota, M., editores, Actas de la 7a Conferencia Ibérica de Sistemas y Tecnologías de la Información (CISTI 2012), volumen 1, pp. 199–204, Madrid, Spain. Bibliografía 185 Planet, S., Iriondo, I., Martínez, E., y Montero, J. A. (2008). TRUE: an online Testing platfoRm for mUltimedia Evaluation. En Proceedings of the 2nd International Workshop on EMOTION: Corpora for Research on Emotion and Affect at the 6th Conference on Language Resources & Evaluation (LREC 2008), pp. 61–65, Marrakech, Morocco. Planet, S., Iriondo, I., Socoró, J. C., Monzo, C., y Adell, J. (2009). GTM-URL contribution to the Interspeech 2009 Emotion Challenge. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 316–319, Brighton, UK. Planet, S., Morán, J. A., y Formiga, L. (2006). Reconocimiento de emociones basado en el análisis de la señal de voz parametrizada. En Cunha, M. M. y Rocha, A., editores, Actas da I Conferência Ibérica de Sistemas e Tecnologias de Informação (CISTI 2006), volumen 2, pp. 837–854, Ofir, Portugal. Planet, S., Morán, J. A., Monzo, C., y Gonzalvo, X. (2004). Asistencia al seguimiento docente basada en técnicas avanzadas de análisis. En Actas del XIX Simposium Nacional de la Unión Científica Internacional de Radio (URSI 2004), Barcelona, Spain. Platt, J. C. (1998). Fast training of support vector machines using sequential minimal optimization. En Schoelkopf, B., Burges, C., y Smola, A., editores, Advances in Kernel Methods-Support Vector Learning, pp. 41–65. MIT Press. Plutchik, R. (1980). Emotion: A Psychoevolutionary Synthesis. Harper and Row, New York. Plutchik, R. (1994). The psychology and biology of emotion. HarperCollins Publishers. Plutchik, R. (2001). The nature of emotions. American Scientist, 89(4):344–350. Polzehl, T., Sundaram, S., Ketabdar, H., Wagner, M., y Metze, F. (2009). Emotion classification in children’s speech using fusion of acoustic and linguistic features. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 340–343, Brighton, UK. Polzin, T. y Waibel, A. (2000). Emotion-sensitive human-computer interface. En Proceedings of the ISCA Workshop on Speech and Emotion, Belfast, North Ireland. Pous, M. y Ceccaroni, L. (2010). Multimodal interaction in distributed and ubiquitous computing. En Proceedings of the 5th International Conference on Internet and Web Applications and Services (ICIW 2010), pp. 457–462, Barcelona, Spain. Prieto, M. A. (2008). Blade Runner. Colección Making Of. T&B Editores, Madrid. Puigví, D., Jiménez, D., y Fernández, J. M. (1994). Parametrización de las pausas ortográficas en castellano. Aplicación a un conversor de texto a habla. Procesamiento del Lenguaje Natural, 15. 186 Bibliografía Přibil, J. y Přibilová, A. (2009). Spectral flatness analysis for emotional speech synthesis and transformation. En Esposito, A. y Vích, R., editores, Cross-Modal Analysis of Speech, Gestures, Gaze and Facial Expressions, volumen 5641 de Lecture Notes in Computer Science, pp. 106–115. Springer Berlin Heidelberg. Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Series in Machine Learning. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1a edición. Quinlan, R. (1986). Induction of decision trees. Machine Learning, 1(1):81–106. Rapcan, V., D’Arcy, S., Yeap, S., Afzal, N., Thakore, J., y Reilly, R. B. (2010). Acoustic and temporal analysis of speech: A potential biomarker for schizophrenia. Medical Engineering and Physics, 32(9):1074–1079. Reips, U. D. (2002). Standards for internet-based experimenting. Experimental Psychology, 49(4):243–256. Ringeval, F. y Chetouani, M. (2007). Exploiting a vowel based approach for acted emotion recognition. En Esposito, A., Bourbakis, N. G., Avouris, N. M., y Hatzilygeroudis, I., editores, Verbal and Nonverbal Features of Human-Human and Human-Machine Interaction, COST Action 2102 International Conference, Patras, Greece, October 29-31, 2007. Revised Papers, volumen 5042 de Lecture Notes in Computer Science, pp. 243–254. Springer. Rish, I. (2001). An empirical study of the Naïve-Bayes classifier. IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence, 3(22):41–46. Rodríguez, A., Lázaro, P., Montoya, N., Blanco, J., Bernadas, D., Oliver, J., y Longhi, L. (1999). Modelización acústica de la expresión emocional en el español. Procesamiento del Lenguaje Natural, 25:159–166. Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6):1161–1178. Russell, J. A., Bachorowski, J., y Fernández-Dols, J. (2003). Facial and vocal expressions of emotion. Annual Reviews of Psychology, 54:329–349. Russell, J. A., Lewicka, M., y Niit, T. (1989). A cross-cultural study of a circumplex model of affect. Journal of Personality and Social Psychology, 57(5):848–856. Ruvolo, P., Fasel, I., y Movellan, J. (2008). Auditory mood detection for social and educational robots. En Proceedings of the IEEE International Conference on Robotics and Automation (ICRA 2008), pp. 3551–3556, California, USA. Scherer, K. R. (1979). Social markers in speech, capítulo Personality markers in speech, pp. 147–209. Cambridge University Press, Cambridge. Scherer, K. R. (1984). Review of Personality and Social Psychology, volumen 5, capítulo Emotion as a Multicomponent Process: A model and some cross-cultural data, pp. 37–63. Sage, Beverly Hills, CA. Bibliografía 187 Scherer, K. R. (1986). Vocal affect expression: A review and a model for future research. Psychological Bulletin, 99:143–165. Scherer, K. R. (1988). Facets of Emotion: Recent Research. Lawrence Erlbaum Associates Publishers, New Jersey. Scherer, K. R. (1999). Appraisal theory. En Dalgleish, T. y Power, M., editores, Handbook of Cognition and Emotion, pp. 637–663. John Wiley & Sons Ltd., Sussex, UK. Scherer, K. R. (2000). Introduction to social psychology: A European perspective, capítulo Emotion, pp. 151–191. Blackwell, Oxford, 3a edición. Scherer, K. R. (2003). Vocal communication of emotion: A review of research paradigms. Speech Communication, 40(1-2):227–256. Scherer, K. R. (2005). What are emotions? And how can they be measured? Social Science Information, 44(4):695–729. Scherer, K. R. y Oshinsky, J. S. (1977). Cue utilization in emotion attribution from auditory stimuli. Motivation and Emotion, 1(4):331–346. Schlosberg, H. (1954). Three dimensions of emotion. Psychological Review, 61(2):81–88. Schröder, M. (2004). Speech and Emotion Research: An overview of research frameworks and a dimensional approach to emotional speech synthesis. Tesis doctoral, PHONUS 7, Research Report of the Institute of Phonetics, Saarland University. Schröder, M. (2013). Rating test, Java software for designing and carrying out listening tests. En línea. Última visita el 4 de junio de 2013. Disponible en <http://sourceforge.net/projects/ratingtest/>. Schröder, M., Cowie, R., Douglas-Cowie, E., Westerdijk, M., y Gielen, S. (2001). Acoustic correlates of emotion dimensions in view of speech synthesis. En Proceedings of the 7th European Conference on Speech Communication and Technology (EUROSPEECH 2001), volumen 1, pp. 87–90, Aalborg, Denmark. Schuller, B., Batliner, A., Steidl, S., y Seppi, D. (2011). Recognising realistic emotions and affect in speech: State of the art and lessons learnt from the first challenge. Speech Communication, In Press, Corrected Proof. Schuller, B., Steidl, S., y Batliner, A. (2009). The Interspeech 2009 Emotion Challenge. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 312–315, Brighton, UK. Schuller, B., Villar, R., Rigoll, G., y Lang, M. (2005). Meta-classifiers in acoustic and linguistic feature fusion-based affect recognition. En Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2005), pp. 325–328, Pennsylvania, USA. 188 Bibliografía Schweitzer, A. y Möbius, B. (2003). On the structure of internal prosodic models. En Proceedings of the 15th International Congress of Phonetic Sciences (ICPhS 2003), Barcelona, Spain. Sebe, N., Cohen, I., y Huang, T. S. (2005). Handbook of Pattern Recognition and Computer Vision, capítulo Multimodal emotion recognition. World Scientific. Sevillano, X., Melenchón, J., y Socoró, J. C. (2006). Análisis y síntesis audiovisual para interfaces multimodales ordenador-persona. En Proceedings of the 7th Congreso Internacional de Interacción Persona-Ordenador (Interacción 2006), Puertollano, Ciudad Real, Spain. Sezgin, M., Gunsel, B., y Kurt, G. (2012). Perceptual audio features for emotion detection. EURASIP Journal on Audio, Speech, and Music Processing, 2012:1–21. Shami, M. y Verhelst, W. (2007). An evaluation of the robustness of existing supervised machine learning approaches to the classification of emotions in speech. Speech Communication, 49(3):201–212. Shaukat, A. y Chen, K. (2008). Towards automatic emotional state categorisation from speech signals. En Proceedings of the 9th Annual Conference of the International Speech Communication Association (INTERSPEECH 2008), pp. 2771–2774, Brisbane, Australia. Slaney, M. y McRoberts, G. (1998). Baby Ears: a recognition system for affective vocalizations. 1998 IEEE International Conference on Acoustics Speech and Signal Processing, pp. 985–988. Steidl, S. (2009). Automatic Classification of Emotion-Related User States in Spontaneous Children’s Speech. Tesis doctoral, University of Erlangen-Nuremberg. Stevenson, R. A., Mikels, J. A., y James, T. W. (2007). Characterization of the affective norms for english words by discrete emotional categories. Behavior Research Methods, 39(4):1020–1024. Suwa, M., Sugie, N., y Fujimora, K. (1978). A preliminary note on pattern recognition of human emotional expression. En Proceedings of the International Joint Conference on Pattern Recognition (IJCPR 1978), pp. 408–410, Florida, USA. Tolkien, J. R. R. (1954). El Señor de los Anillos. La Comunidad del Anillo. Ediciones Minotauro, 24a edición. Traducido por Luis Domènech. Trilla, A. y Alías, F. (2009). Sentiment classification in English from sentence-level annotations of emotions regarding models of affect. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 516–519, Brighton, UK. Truong, K. P. y Raaijmakers, S. (2008). Automatic recognition of spontaneous emotions in speech using acoustic and lexical features. En Proceedings of the 5th International Workshop on Machine Learning for Multimodal Interaction (MLMI 2008), pp. 161–172, Utrecht, The Netherlands. Bibliografía 189 Truong, K. P. y van Leeuwen, D. A. (2007). An open-set detection evaluation methodology applied to language and emotion recognition. En Proceedings of the 8th Annual Conference of the International Speech Communication Association (INTERSPEECH 2007), pp. 338–341, Antwerp, Belgium. ISCA. Valero, X. y Alías, F. (2012). Hierarchical classification of environmental noise sources considering the acoustic signature of vehicle pass-bys. Archives of Acoustics, 37(4):423– 434. Valstar, M. F., Gunes, H., y Pantic, M. (2007). How to distinguish posed from spontaneous smiles using geometric features. En Proceedings of the 9th International Conference on Multimodal Interfaces (ICMI 2007), pp. 38–45, New York, NY, USA. ACM. Ververidis, D. y Kotropoulos, C. (2006). Emotional speech recognition: Resources, features, and methods. Speech Communication, 48(9):1162–1181. Vlasenko, B., Schuller, B., Wendemuth, A., y Rigoll, G. (2007). Frame vs. turn-level: Emotion recognition from speech considering static and dynamic processing. En Proceedings of the 2nd international conference on Affective Computing and Intelligent Interaction (ACII 2007), pp. 139–147, Berlin, Heidelberg. Springer-Verlag. Vlasenko, B. y Wendemuth, A. (2009). Processing affected speech within human machine interaction. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 2039–2042, Brighton, UK. Vogt, T. y André, E. (2009). Exploring the benefits of discretization of acoustic features for speech emotion recognition. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 328–331, Brighton, UK. Vogt, T., André, E., y Bee, N. (2008). EmoVoice — A framework for online recognition of emotions from voice. En Proceedings of the Workshop on Perception and Interactive Technologies for Speech-Based Systems. Wang, R. y Fang, B. (2008). Affective computing and biometrics based HCI surveillance system. En Proceedings of the International Symposium on Information Science and Engineering (ISISE 2008), volumen 1, pp. 192–195, Shanghai, China. Whissell, C. M. (1989). The dictionary of affect in language. Emotion: Theory, Research, and Experience, 4:113–131. Whissell, C. M. (2008). A comparison of two lists providing emotional norms for english words (ANEW and the DAL). Psychological Reports, (102):597–600. Williams, C. E. y Stevens, K. N. (1972). Emotions and speech: Some acoustical correlates. Journal of the Acoustical Society of America, 52(4):1238–1250. Witten, I. H. y Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, San Francisco, CA, 2a edición. 190 Bibliografía Yildirim, S., Narayanan, S., y Potamianos, A. (2011). Detecting emotional state of a child in a conversational computer game. Computer Speech and Language, 25:29–44. Zara, A., Maffiolo, V., Martin, J. C., y Devillers, L. (2007). Collection and annotation of a corpus of human-human multimodal interactions: Emotion and others anthropomorphic characteristics. En Paiva, A., Prada, R., y Picard, R. W., editores, Affective Computing and Intelligent Interaction, volumen 4738 de Lecture Notes in Computer Science, pp. 464–475. Springer Berlin Heidelberg. Zeng, Z., Hu, Y., Roisman, G., Wen, Z., Fu, Y., y Huang, T. S. (2007). Audio-visual spontaneous emotion recognition. En Huang, T. S., Nijholt, A., Pantic, M., y Pentland, A., editores, Artifical Intelligence for Human Computing, volumen 4451 de Lecture Notes in Computer Science, pp. 72–90. Springer Berlin Heidelberg. Zeng, Z., Pantic, M., Roisman, G. I., y Huang, T. S. (2009). A survey of affect recognition methods: Audio, visual, and spontaneous expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(1):39–58. Zhang, T., Hasegawa-Johnson, M., y Levinson, S. E. (2006). Cognitive state classification in a spoken tutorial dialogue system. Speech Communication, 48(6):616–632. Apéndice A Aportaciones 191 192 A. Aportaciones En este anexo se resume la divulgación científica asociada al presente trabajo de tesis y la participación de su autor en proyectos de investigación y desarrollo. A.1. Publicaciones científicas El presente trabajo de investigación ha proporcionado diferentes aportaciones de interés para la comunidad científica. Las principales ideas, métodos y resultados que son fruto de la actividad investigadora presentada en esta tesis se han expuesto en diferentes congresos y publicado en revistas de ámbito internacional. El impacto del trabajo de investigación en la comunidad científica se puede resumir en las siguientes publicaciones: Congresos y conferencias 1. Planet, S., Morán, J. A., y Formiga, L. (2006). Reconocimiento de emociones basado en el análisis de la señal de voz parametrizada. En Cunha, M. M. y Rocha, A., editores, Actas da I Conferência Ibérica de Sistemas e Tecnologias de Informação (CISTI 2006), volumen 2, pp. 837–854, Ofir, Portugal 2. Iriondo, I., Planet, S., Socoró, J. C., y Alías, F. (2007c). Objective and subjective evaluation of an expressive speech corpus. En Chetouani, M., Hussain, A., Gas, B., Milgram, M., y Zarader, J. L., editores, Advances in Nonlinear Speech Processing, International Conference on Nonlinear Speech Processing, NOLISP 2007, Paris, France, May 2007, Revised Selected Papers, volumen 4885 de Lecture Notes in Artificial Intelligence, pp. 86–94. Springer 3. Iriondo, I., Planet, S., Alías, F., Socoró, J. C., y Martínez, E. (2007a). Validation of an expressive speech corpus by mapping automatic classification to subjective evaluation. En Sandoval, F., Prieto, A., Cabestany, J., y Graña, M., editores, Computational and Ambient Intelligence, 9th International Work-Conference on Artificial Neural Networks, IWANN 2007, San Sebastián, Spain, June 2007, Proceedings, volumen 4507 de Lecture Notes in Computer Science, pp. 646–653. Springer 4. Monzo, C., Alías, F., Iriondo, I., Gonzalvo, X., y Planet, S. (2007). Discriminating expressive speech styles by voice quality parameterization. En Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS 2007), pp. 2081–2084, Saarbrücken, Germany 5. Iriondo, I., Planet, S., Alías, F., Socoró, J. C., Monzo, C., y Martínez, E. (2007b). Expressive speech corpus validation by mapping subjective perception to automatic classification based on prosody and voice quality. En Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS 2007), pp. 2125–2128, Saarbrücken, Germany A.1. Publicaciones científicas 193 6. Planet, S., Iriondo, I., Martínez, E., y Montero, J. A. (2008). TRUE: an online Testing platfoRm for mUltimedia Evaluation. En Proceedings of the 2nd International Workshop on EMOTION: Corpora for Research on Emotion and Affect at the 6th Conference on Language Resources & Evaluation (LREC 2008), pp. 61–65, Marrakech, Morocco 7. Planet, S., Iriondo, I., Socoró, J. C., Monzo, C., y Adell, J. (2009). GTM-URL contribution to the Interspeech 2009 Emotion Challenge. En Proceedings of the 10th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 316–319, Brighton, UK 8. Planet, S. e Iriondo, I. (2011b). Spontaneous children’s emotion recognition by categorical classification of acoustic features. En Rocha, A., Gonçalves, R., Pérez Cota, M., y Reis, L. P., editores, Actas da 6a Conferência Ibérica de Sistemas e Tecnologias de Informação (CISTI 2011), volumen 1, pp. 594–599, Chaves, Portugal 9. Planet, S. e Iriondo, I. (2011a). Improving spontaneous children’s emotion recognition by acoustic feature selection and feature-level fusion of acoustic and linguistic parameters. En Travieso, C. y Alonso, J., editores, Advances in Nonlinear Speech Processing, 5th International Conference on Nonlinear Speech Processing, NOLISP 2011, Las Palmas de Gran Canaria, Spain, November 2011, Proceedings, volumen 7015 de Lecture Notes in Computer Science, pp. 88–95. Springer Berlin/Heidelberg 10. Planet, S. e Iriondo, I. (2012c). Comparison between decision-level and feature-level fusion of acoustic and linguistic features for spontaneous emotion recognition. En Rocha, A., Calvo Manzano, J. A., Reis, L. P., y Pérez Cota, M., editores, Actas de la 7a Conferencia Ibérica de Sistemas y Tecnologías de la Información (CISTI 2012), volumen 1, pp. 199–204, Madrid, Spain Capítulos de libro 1. Iriondo, I., Planet, S., Alías, F., Socoró, J. C., y Martínez, E. (2008). Emulating subjective criteria in corpus validation. En Rabuñal, J. R., Dorado, J., y Pazos, A., editores, Encyclopedia of Artificial Intelligence, pp. 541–546. Information Science Reference Revistas 1. Iriondo, I., Planet, S., Socoró, J. C., Martínez, E., Alías, F., y Monzo, C. (2009). Automatic refinement of an expressive speech corpus assembling subjective perception and automatic classification. Speech Communication, 51(9):744–758. Special issue on non-linear and conventional speech processing - NOLISP 2007 2. Planet, S. e Iriondo, I. (2012a). Children’s emotion recognition from spontaneous speech using a reduced set of acoustic and linguistic features. Cognitive Computation 194 A. Aportaciones 3. Planet, S. e Iriondo, I. (2012b). Comparative study on feature selection and fusion schemes for emotion recognition from speech. International Journal of Interactive Multimedia and Artificial Intelligence, 1(6):44–51. Special Issue on Intelligent Systems and Applications (Planet et al., 2006) es la primera aportación relacionada con la línea de investigación en reconocimiento afectivo automático basada en el corpus de voz actuada ESDLA, tal y como se expone en la sección 5.1. (Iriondo et al., 2007c), (Iriondo et al., 2007a), (Iriondo et al., 2007b), (Iriondo et al., 2008) e (Iriondo et al., 2009) son publicaciones relacionadas con la validación subjetiva automática del corpus de voz actuada BDP-UAB, tal y como se expone en la sección 5.2. Asimismo, la publicación (Iriondo et al., 2009) fue tercera finalista del premio al mejor artículo en el año 2009 de la Red Temática en Tecnologías del Habla1 . (Monzo et al., 2007) es una colaboración en el análisis de parámetros de VoQ como únicos elementos discriminantes para abordar un estudio de reconocimiento afectivo automático. (Planet et al., 2008) presenta una versión inicial de la plataforma de test subjetivos TRUE, cuya última versión se describe en el apéndice B. (Planet et al., 2009) detalla la primera aproximación al reconocimiento afectivo automático basado en el corpus de voz espontánea FAU Aibo en el marco del Interspeech Emotion Challenge 2009 (Schuller et al., 2009), tal y como se explica en la sección 6.2.1. Los resultados presentados obtuvieron la primera posición en el desafío de parámetros y en segunda posición en el desafío de clasificadores del Emotion Challenge. Por su parte, la publicación (Planet e Iriondo, 2011b), presenta un trabajo derivado directamente del anterior empleando una parametrización mejorada y aportando nuevas propuestas de clasificación, tal y como se recoge en la sección 6.2.2. (Planet e Iriondo, 2011a), (Planet e Iriondo, 2012c), (Planet e Iriondo, 2012a) y (Planet e Iriondo, 2012b) recogen los estudios realizados a nivel acústico y lingüístico para el reconocimiento afectivo automático en voz espontánea, así como los experimentos de fusión a tanto a nivel de parámetros como a nivel de clasificadores, detallados en las secciones 6.3 y 6.4. A.2. Otras publicaciones En los inicios de la etapa investigadora se llevaron a cabo trabajos que finalmente no formaron parte de la línea de investigación principal, pero que permitieron tener una primera toma de contacto con la metodología científica necesaria para la realización de 1 http://lorien.die.upm.es/ lapiz/rtth A.3. Comités técnicos 195 la tesis y algunas nociones de temas vinculados. A continuación se presentan, en orden cronológico, las publicaciones que se derivaron. Congresos y conferencias 1. Planet, S., Morán, J. A., Monzo, C., y Gonzalvo, X. (2004). Asistencia al seguimiento docente basada en técnicas avanzadas de análisis. En Actas del XIX Simposium Nacional de la Unión Científica Internacional de Radio (URSI 2004), Barcelona, Spain 2. Monzo, C., Morán, J. A., Planet, S., y Gonzalvo, X. (2004). Protocolo DS-CDMA orientado a la gestión de un auditorio. En Actas del XIX Simposium Nacional de la Unión Científica Internacional de Radio (URSI 2004), Barcelona, Spain 3. Gonzalvo, X., Morán, J. A., Monzo, C., y Planet, S. (2005). Entorno para el aprendizaje automático de las estrategias de diálogo. En Actas del XX Simposium Nacional de la Unión Científica Internacional de Radio (URSI 2005), Gandia, Spain (Planet et al., 2004) es una primera publicación relacionada con técnicas de aprendizaje artificial aplicadas en el ámbito docente. Supuso una primera toma de contacto con dichas técnicas, las cuales fueron aplicadas posteriormente en esta tesis aunque en un ámbito diferente. Las publicaciones (Monzo et al., 2004) y (Gonzalvo et al., 2005) se corresponden con colaboraciones iniciales con miembros del GPMM. A.3. Comités técnicos Además de las aportaciones realizadas como autor, se ha formado parte del programa del comité técnico de las siguientes publicaciones y eventos científicos: 1. ICME 2011. 2011 International Conference on Multimedia and Expo. 2. ICME 2012. 2012 International Conference on Multimedia and Expo. 3. CISTI 2012. 7th Iberian Conference on Information Systems and Technologies. 4. Revisor del Special Issue Sensing Emotion and Affect, Facing Realism in Speech Processing, de la revista Speech Communication, volumen 53, issues 9-10, pp. 1059–1228 (noviembre-diciembre de 2011), editado por Björn Schuller, Stefan Steidl y Anton Batliner. 5. ICME 2013. 2013 International Conference on Multimedia and Expo. 196 A. Aportaciones A.4. Proyectos de investigación y desarrollo En esta sección se describen los proyectos de investigación y desarrollo en los que esta tesis se vio enmarcada. Estos proyectos se realizaron como miembro del GTM. SALERO — Semantic AudiovisuaL Entertainment Reusable Objects (FP6/2004/IST/4) Proyecto financiado por el VI Programa Marco de la Unión Europea (2006-2009)2 . Participaron trece socios entre empresas y centros de investigación. Su objetivo era facilitar la creación de nuevos productos multimedia como juegos, películas o programas de televisión, haciéndola mejor, más rápida y con menos costes gracias a la combinación de gráficos por ordenador, tecnología del habla y el lenguaje, web semántica y búsquedas basadas en contenido. SAVE — Síntesis Audiovisual Expresiva (TEC2006-08043/TCM) El proyecto Síntesis Audiovisual Expresiva (SAVE) es un proyecto de I+D cofinanciado por el Ministerio de Educación y Ciencia español con el objetivo de generar cabezas parlantes de avatares virtuales capaces de transmitir estados de ánimo mientras hablan. INREDIS — INterfaces de Relación entre el Entorno y las personas con DIScapacidad (CEN-20072011) El proyecto INREDIS es un proyecto de Consorcios Estratégicos Nacionales de Investigación Técnica (CENIT) de I+D+i que se inscribe en la iniciativa del gobierno español INGENIO 2010 y que es gestionada por el Centro de Desarrollo Tecnológico Industrial (CDTI)3 . Supuso el desarrollo de la investigación en el ámbito de las tecnologías accesibles e interoperables durante el periodo 2007-2010. Su objetivo era el desarrollo de tecnologías de base que permitieran crear canales de comunicación e interacción entre las personas con algún tipo de necesidad especial y su entorno. Fue liderado por Technosite, empresa tecnológica del Grupo Fundosa, dependiente de la Fundación ONCE. evMIC — Entornos virtuales Multimodales, Inmersivos y Colaborativos (TSI-020301-200925) El proyecto entornos virtuales Multimodales, Inmersivos y Colaborativos (evMIC) es un proyecto de I+D+i cofinanciado por el Ministerio de Industria, Turismo y Comercio (MITYC). Según la presentación oficial del propio proyecto4, éste se enmarca dentro del Internet del futuro y pretende investigar y generar soluciones principalmente en el Internet del Conocimiento y de los Contenidos, así como en el Internet de las Personas y, en menor medida, en el Internet de los Servicios. Su objetivo principal es crear 2 http://www.salero.info http://www.inredis.es 4 http://www.evmic.es 3 A.5. Participación en eventos 197 una plataforma interoperable, centrada en el usuario, capaz de permitir la creación de entornos virtuales de aprendizaje. A.5. Participación en eventos El futuro de los sistemas de diálogo (Soria, 11 de julio de 2005) Exposición de los primeros avances realizados en la línea de investigación de reconocimiento afectivo automático, dentro del marco del curso de Tecnologías Lingüísticas dirigido por el Dr. Joaquim Llisterri y organizado por la Fundación Duques de Soria. 198 A. Aportaciones Apéndice B Plataforma en línea de tests para la evaluación de estímulos multimedia 199 200 B. Plataforma en línea de tests para la evaluación de estímulos multimedia Testing platfoRm for mUltimedia Evaluation (TRUE) es una plataforma en línea de test para la evaluación de estímulos multimedia desarrollada dentro del ámbito de esta tesis, orientada a la evaluación de estímulos audiovisuales, gráficos y/o de texto. El foco de atención se centra en la evaluación de corpus multimedia si bien puede emplearse para analizar estímulos multimedia en general. Ofrece una gran flexibilidad para crear test destinados a identificación emocional o evaluación de la calidad de sistemas de síntesis audiovisual, por ejemplo. Los resultados pueden emplearse con distintas finalidades dependiendo de los objetivos del test, por ejemplo para validar el contenido emocional de un archivo multimedia o para medir la expresividad de elementos audiovisuales sintetizados. TRUE abarca todas las etapas relacionadas con el ciclo de vida de las pruebas subjetivas, desde su creación hasta la recuperación de sus resultados, y permite a los evaluadores realizar los test desde cualquier dispositivo con conexión a Internet a través de un navegador web. La simplificación de la realización de las pruebas ayuda a minimizar los efectos de la fatiga sobre las mismas y también permite a los investigadores focalizar sus esfuerzos en el análisis de los resultados en lugar de destinar esfuerzos a su supervisión. Los pormenores de la plataforma TRUE se publicaron por primera vez en (Planet et al., 2008). B.1. Descripción Los test subjetivos pueden aplicarse en diversos ámbitos tales como la validación expresiva de corpus audiovisuales emocionales, el etiquetado de elementos de corpus audiovisuales, gráficos o de texto, y la evaluación de sistemas de síntesis puntuando estímulos individuales o comparando elementos generados mediante distintas técnicas. Sin embargo, los test subjetivos pueden ser útiles en cualquier otro tipo de estudios en los que se requiera una evaluación en base al criterio propio de un conjunto de personas. B.1.1. Objetivos Los test subjetivos en general pueden presentar varios inconvenientes, entre otros los siguientes: Alta especifidad. Los test suelen diseñarse para adecuarse a las características particulares de investigaciones concretas lo que los hace poco generalizables para investigaciones posteriores. Baja reutilizabilidad. El diseño ad hoc de los test puede dificultar que puedan emplearse en estudios posteriores. Fatiga en los usuarios. Los test pueden resultar a menudo largos y tediosos, lo que puede influir en los resultados de los mismos. B.1. Descripción 201 Lugar y condiciones de realización de los test. Suelen suponer el desplazamiento del evaluador a un lugar concreto para realizar la prueba de forma individual o colectiva, lo que suele requerir de la adecuación de un lugar físico para su realización y la supervisión de un responsable. Problemas de procedimiento. Si los test se realizan en papel la recopilación de datos puede resultar laboriosa e incurrir en errores. Audiencia. Suele resultar complicado reunir un elevado número de sujetos dispuestos a realizar el test de forma adecuada y que respondan al perfil conveniente, ya sea homogéneo o heterogéneo. TRUE es una herramienta en línea que a través de una interfaz web proporciona una plataforma única para diseñar y realizar test subjetivos, lo cual aporta: Generalización. Se pueden crear test completamente personalizados y específicos que pueden modificarse posteriormente para adaptarlos a nuevos experimentos. Reutilizabilidad. TRUE proporciona plantillas para test estándar así como la posibilidad de generar nuevos test a partir de otros ya realizados. Sistema orientado al usuario. El usuario puede detener en cualquier momento el test y continuarlo más adelante para evitar que la fatiga pueda repercutir negativamente en los resultados. Sistema en línea. Los usuarios pueden realizar los test desde cualquier dispositivo con conexión a Internet a través de un navegador web. No es necesario un supervisor que controle la prueba y las instrucciones se pueden proporcionar al inicio de la misma de forma automática. Procedimiento automático. TRUE permite diseñar los test y recuperar los resultados en cualquier momento desde la misma herramienta. En tanto que la información se conserva en una base de datos informática los datos pueden recuperarse en cualquier momento con la máxima fiabilidad. Fácil acceso para una amplia audiencia. Dadas las facilidades para los usuarios resulta más sencillo conseguir un mayor número de participantes en cualquier lugar geográfico. B.1.2. Esquema básico de funcionamiento TRUE proporciona una herramienta web que permite crear y configurar test a través de formularios para que usuarios remotos puedan evaluar diversos estímulos. Las respuestas de los evaluadores se almacenan en una base de datos y pueden ser recuperadas en cualquier momento mediante una descarga directa de los mismos en distintos 202 B. Plataforma en línea de tests para la evaluación de estímulos multimedia formatos. Los estímulos son archivos multimedia que pueden almacenarse en el mismo servidor web en el que se aloja TRUE o en otro externo ya que TRUE enlaza dichos archivos a través de la definición del test y los muestra de forma adecuada y ordenada. Este esquema de funcionamiento se muestra en la figura B.1. Servidor (estímulos) Base de datos (usuarios, configuración de test y almacén de resultados) Administrador Servidor (TRUE) Evaluador CSV XML MS Excel Resultados Figura B.1: Esquema básico de funcionamiento de la plataforma TRUE. La figura B.1 muestra dos actores diferentes dentro del esquema de funcionamiento de TRUE. El usuario Administrador es el que tiene la capacidad de crear y gestionar sus propios test. Dicho usuario debe registrarse previamente en el sistema. El usuario Evaluador es el que realiza los test, evaluando los distintos estímulos que los componen según la configuración de los mismos. Existe una tercera figura que es la que tiene la posibilidad de gestionar todos los test y todos los usuarios Administrador registrados en TRUE. Esta tercera figura es el administrador general del sistema y es quien instala y configura todos los detalles de funcionamiento de la plataforma. La figura B.2 muestra el menú principal de la plataforma TRUE de un administrador general del sistema. Con la excepción de la sección de gestión del sistema (TRUE System Manager), esta pantalla es igual para el resto de usuarios de la plataforma, la cual da acceso a las herramientas de gestión de los test (creación, edición, recuperación de resultados y eliminación) y a la gestión de los datos propios del usuario. B.1. Descripción 203 Figura B.2: Menú principal de la plataforma TRUE para un administrador general del sistema. B.1.3. Características generales TRUE permite considerar distintas modalidades (audio, vídeo, gráficos y texto) como estímulos para ser evaluados a través de su adecuada representación en el navegador web del usuario. Los estímulos gráficos y de texto se incrustan en la propia página web como un elemento HTML. Los estímulos de audio y de vídeo se enlazan para ser reproducidos por un reproductor multimedia adecuado: o bien el propio del dispositivo del usuario o bien se ofrece la posibilidad de incrustar un reproductor multiplataforma1 . El diseño de los elementos en pantalla es configurable durante la creación del test, pudiendo escoger el número de estímulos simultáneos a mostrar, la posibilidad de mostrar un estímulo de referencia en pantalla, el número de cuestiones a realizar al evaluador y las opciones de respuesta y pudiendo determinar, también, la disposición de estos elementos. El usuario puede introducir su respuesta a través de campos de elección múltiple, entrada libre de texto y/o a través de interfaces gráficas de usuario interactivas. La figura B.3 muestra cuatro ejemplos de test distintos, considerando diferentes tipos de estímulos: gráficos, de audio, de vídeo y de texto. Los estímulos audiovisuales aparecen incrustados mediante un reproductor multiplataforma, mientras que los estímulos gráficos y de texto se incrustan directamente como elementos HTML. En estos cuatro ejemplos se muestran distintos tipos de entradas de evaluaciones a través de campos de 1 En la versión actual este reproductor es JW Player (http://www.longtailvideo.com/jw-player). 204 B. Plataforma en línea de tests para la evaluación de estímulos multimedia elección múltiple con disposición horizontal y vertical de las opciones y campos de entrada de texto libre. Figura B.3: Cuatro test de muestra creados con la plataforma TRUE. En sentido horario, desde la esquina superior izquierda: un test gráfico de dos estímulos, un test de un estímulo de audio, un test de vídeo y un test de estímulo textual. De forma general, un administrador puede seleccionar distintas opciones comunes para todos los test, incluyendo las siguientes: Idioma de la interfaz. Por defecto, TRUE incluye el español, catalán e inglés como idiomas predeterminados, si bien se pueden incluir fácilmente nuevos idiomas mediante archivos de traducción. Apariencia. Determinación de la hoja de estilos más adecuada para cada test, escogiendo la mejor combinación de colores y tipografías. Disposición de elementos en pantalla. Estímulo/s y campo/s de entrada de evaluaciones pueden disponerse de forma horizontal o vertical. Tamaño de la fuente. Los textos pueden mostrarse con tamaño pequeño, normal o grande. Duración del test. Define el tiempo durante el cual el test estará activo y disponible para su evaluación. Después el test pasará a estar inactivo. B.1. Descripción 205 Para evitar errores iniciales en la evaluación de los estímulos se ofrece la posibilidad de crear, junto con las instrucciones del test, distintos tipos de demostraciones al inicio del mismo. El objetivo de estas demostraciones es mostrar una serie de estímulos a los evaluadores antes del comienzo de test para que se familiaricen con ellos. Estas demostraciones pueden ser completas o ciegas y consisten en mostrar algunos estímulos concretos especificando o no, respectivamente, la respuesta que el usuario debería indicar en cada caso (o algún otro tipo de indicación). Las instrucciones y la demostración pueden incluirse a través de la plantilla predeterminada proporcionada por TRUE o bien pueden crearse de forma personalizada a través del editor HTML proporcionado en el formulario de creación. La figura B.4 muestra un ejemplo de demostración inicial completa en la que, junto con las instrucciones del test, el evaluador puede visualizar cinco imágenes que están asociadas a un texto descriptivo. Una demostración ciega no incluiría los textos descriptivos asociados. En este caso se trata de un test donde los estímulos son de tipo gráfico y el idioma configurado es el inglés. Figura B.4: Ejemplo de demostración inicial completa en un test gráfico en inglés. Por otra parte, al final del test puede incluirse una encuesta totalmente personalizable en la que el creador del test puede recabar información acerca del evaluador. La figura B.5 muestra un ejemplo de encuesta al final de un test, la cual incluye cuatro campos personalizados de entrada de datos. En este caso las entradas son de tipo de texto libre, botones de radio y un área de texto. Cada uno de los campos se pueden configurar para permitir diversas longitudes máximas permitidas de texto o múltiples opciones. También existe la posibilidad de incluir una lista desplegable de opciones. La información introducida aparecerá ligada a las respuestas proporcionadas por cada evaluador en el momento de descargar los resultados del test para que se pueda tratar de forma adecuada. Tanto las respuestas del test, la información de los evaluadores introducida en la encuesta, el últi- 206 B. Plataforma en línea de tests para la evaluación de estímulos multimedia mo estímulo evaluado así como el tiempo empleado por cada evaluador para finalizarlo son datos que pueden ser obtenidos en cualquier momento en formato Comma-Separated Values (CSV), XML o como hoja de cálculo de Microsoft Excel. Figura B.5: Ejemplo de encuesta al final de un test. B.1.4. Tipos de test implementados TRUE permite crear test de varios estímulos y varias consultas al evaluador (entradas de evaluación). Estas entradas de evaluación pueden configurarse creando una lista de elección múltiple o bien introduciendo un campo de texto libre, dando respuesta a la consulta que el diseñador del test considere necesaria. Con el objetivo de aportar herramientas estándar para los diseñadores de los test subjetivos, TRUE incluye plantillas para crear algunos test específicos. Estas plantillas permiten crear test Mean Opinion Score (MOS), Comparison Mean Opinion Score (CMOS) y Degradation Mean Opinion Score (DMOS), tal y como define ITU-T (1996). Los test MOS se refieren a la valoración de la calidad percibida de un estímulo mediante una escala numérica; los test CMOS realizan una comparación entre estímulos, a nivel de calidad de los mismos; y los test DMOS son similares a los CMOS pero realizan una evaluación de la degradación de un estímulo con respecto a otro. Estos test están vinculados con la calidad de sistemas de transmisión y su capacidad para no degradar una señal. A su vez, TRUE permite incrustar interfaces gráficas interactivas para evaluar los estímulos. Estas interfaces están programadas mediante tecnología Flash y permiten configurar test específicos. La versión actual de TRUE incluye una implementación de la interfaz SAM, según la descripción gráfica de Bradley y Lang (1994), destinada a la evaluación emocional de los estímulos. Así mismo incluye una lista de 121 términos afectivos en in- B.1. Descripción 207 glés en forma de lista y una botonera de cinco botones configurables de uso general. La figura B.6 muestra un esquema simplificado de configuración general de un test. Se representa la posibilidad de configurar un test mostrando los elementos en vertical o en horizontal, incluyendo entradas de evaluación de elección múltiple, texto libre e interfaces gráficas avanzadas. Cabecera Visualización de estímulos Entrada de evaluaciones Disposición horizontal Cuerpo Visualización de estímulos Pie Estructura general Entrada de evaluaciones Disposición vertical Entradas de evaluaciones Valence (negative - positive) ¿Qué emoción reconoces en la voz de este locutor? Alegría 1 2 3 4 5 6 7 8 Enfado Tristeza No lo sé / Otra 9 Activation (calm - excited) ¿Qué has escuchado en esta locución? 1 2 3 4 5 6 7 8 9 8 9 Control (dominated - dominant) 1 2 3 4 5 6 7 1 2 3 4 5 Figura B.6: Esquema de configuración de un test. La plantilla general permite ser adaptada para mostrar los estímulos y las entradas de evaluación en distintas disposiciones. Se muestran algunos ejemplos de entradas de evaluación (interfaz SAM, entrada de elección múltiple, entrada de texto libre y botones configurables de uso general). B.1.5. Diferencias con otras plataformas existentes TRUE difiere de otros sistemas de test en que no está diseñado para un tipo específico de estímulo, sino que admite diferentes tipos de formatos multimedia, y en su flexibilidad. A diferencia de (Irtel, 2007) y (NBS, 2013), TRUE no abarca un amplio abanico de áreas en psicología sino que se centra en la evaluación de elementos multimedia procedentes de corpus. Dada su focalización y que se orienta a la creación de test en línea, sus procedimientos son más sencillos que los de de herramientas como (Empirisoft, 2011) y, 208 B. Plataforma en línea de tests para la evaluación de estímulos multimedia además, permite llegar a una audiencia más amplia que con los test que se realizan mediante formularios en papel o a través de un ordenador local, como (Schröder, 2013). Las posibles inconsistencias que pueden derivarse por el empleo de una herramienta en línea pueden minimizarse introduciendo elementos de control en los test, los cuales pueden permitir evaluar la coherencia de los evaluadores. Sin embargo, los test en línea, al igual que otros métodos de experimentación a través de Internet, no están exentos de discusión referente a su metodología (Reips, 2002), lo cual debe ser tenido en consideración por los autores de los test en el momento de diseñarlos para minimizar los inconvenientes que pueden derivarse de ellos y aprovechar al máximo sus ventajas. B.2. Implementación TRUE es un servicio web implementado en Java que hace uso de las tecnologías Java Servlets y Java Server Pages (JSP). La implementación en Java hace que el código pueda ser ejecutado sobre cualquier sistema operativo dada su característica de código multiplataforma y facilita su distribución en forma de un único archivo de aplicación web (WAR). Este archivo único incluye todas las clases relativas a la gestión de test y usuarios así como todos los elementos de la interfaz web. La ejecución de TRUE puede realizarse en cualquier ordenador que disponga de un servidor web compatible con la tecnología Java como, por ejemplo, Apache Tomcat2 , simplemente instalando el archivo de aplicación web y accediendo a la aplicación a través de un navegador web para su correcta configuración inicial. Para almacenar todos los datos que maneja TRUE, incluyendo los referentes a la información de los usuarios registrados, la configuración de los test y sus resultados, la aplicación requiere de acceso a un servidor MySQL3 que puede estar instalado en el mismo ordenador en el que se ha instalado TRUE o bien en uno remoto. Los resultados de los test, disponibles para la descarga por parte de sus creadores, están disponibles en los formatos CSV, XML y Microsoft Excel, y se obtienen directamente de la consulta y traducción (de forma transparente para el usuario final) de la información almacenada en la base de datos en MySQL. La interfaz web está programada mediante código HTML y JavaScript, incrustado en las páginas JSP, cuidando que su visualización sea correcta en diferentes navegadores web. Para unificar la apariencia de toda la interfaz y permitir su fácil modificación y adaptación se emplean hojas de estilo en cascada. Asimismo, para mejorar la interacción y la velocidad de algunas funciones de la plataforma TRUE, algunos elementos están implementados mediante tecnología Asynchronous JavaScript And XML (AJAX). 2 3 http://tomcat.apache.org/ http://www.mysql.com/ B.3. Trabajos relacionados con TRUE 209 B.3. Trabajos relacionados con TRUE TRUE nació con la finalidad de validar el corpus de voz actuada ESDLA (véase la sección 3.4.1) dentro de un experimento de reconocimiento afectivo automático (Planet et al., 2006). El objetivo de esta validación era comprobar la tasa de reconocimiento de las emociones pretendidas en las locuciones del corpus por parte de los evaluadores humanos para, posteriormente, contrastarla con la tasa de reconocimiento lograda por el sistema de reconocimiento automático (más detalles de este experimento en la sección 5.1.1). En un sentido más amplio, TRUE se emplea en los trabajos realizados por Iriondo et al. (2007c,a,b) los cuales pretenden la validación automática del corpus BDP-UAP (véase la sección 3.4.2) mediante el mapeo de los criterios subjetivos en algoritmos de clasificación automática. Estos criterios subjetivos se extraen a partir de la evaluación de un fragmento del corpus BPD-UAB mediante TRUE. A diferencia de los trabajos anteriores, en los que TRUE se emplea para evaluar corpus de voz, en (Iriondo et al., 2007d) los test están relacionados con la calidad de locuciones expresivas de voz sintética, así como también en los trabajos realizados por Gonzalvo et al. (2007a,b) en los que se emplea con la misma finalidad. En los tres casos, la evaluación subjetiva se lleva a cabo mediante test MOS. TRUE también ha sido utilizado para tareas de análisis y síntesis audiovisual por Sevillano et al. (2006) y por Melenchón (2007). Montero et al. (2007) muestran la flexibilidad de la plataforma TRUE empleándola en la investigación de nuevas metodologías docentes. En su trabajo, los test subjetivos se utilizan para recoger conocimiento experto de profesores que sirve para modelar un sistema de lógica difusa capaz de evaluar el rendimiento en equipo de un grupo de estudiantes de ingeniería. Sin que esta sea una lista exhaustiva, otros trabajos destacados en los que se ha empleado la plataforma TRUE son los realizados por Francisco (2008), Formiga et al. (2010), Pérez-Espinosa et al. (2011), Francisco et al. (2012), Calzada y Socoró (2012) y Valero y Alías (2012). 210 B. Plataforma en línea de tests para la evaluación de estímulos multimedia Apéndice C Aplicaciones de reconocimiento afectivo automático 211 212 C. Aplicaciones de reconocimiento afectivo automático Este apéndice describe dos aplicaciones de software diseñadas en el marco de la presente tesis doctoral que implementan herramientas de reconocimiento afectivo automático. Ambas se basan en la creación de modelos incrementales, es decir, que pueden ser entrenados de forma iterativa para crear modelos cada vez más precisos. Sin embargo, la primera aplicación permite realizar este entrenamiento de forma interactiva mediante una interfaz gráfica mientras que la segunda se implementa como un módulo que puede ser fácilmente incrustado en una aplicación externa una vez el modelo ha sido entrenado convenientemente. Asimismo, la segunda aplicación extiende los procesos de la primera creando modelos de reconocimiento basados tanto en la señal de voz como en el análisis de la expresividad facial del usuario. C.1. Aplicación de análisis afectivo basado en aprendizaje interactivo incremental La aplicación detallada en esta sección implementa un sistema que permite al usuario integrar en una misma interfaz gráfica todos los mecanismos necesarios para realizar un reconocimiento afectivo basado en señal de voz. Este proceso es interactivo e incremental en tanto que el modelo de reconocimiento se crea en base a las indicaciones del usuario, al cual se adapta de forma progresiva aprendiendo las características de su expresividad afectiva. Actualmente esta aplicación es completamente operativa si bien se trata de una versión preliminar de desarrollo y por lo tanto de características limitadas. Sin embargo, el diseño de la misma, permite que pueda actualizarse en versiones posteriores. Actualmente está planteada para estudiar el reconocimiento afectivo automático y no para ser usada como una aplicación de reconocimiento genérico. C.1.1. Descripción La aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental es una aplicación destinada a crear modelos de reconocimiento afectivo a partir de la señal de voz de un usuario, pudiéndose crear modelos distintos para diferentes usuarios. Estos modelos se crean mediante un proceso de aprendizaje interactivo a través del cual son capaces de asimilar las características de la expresividad afectiva del usuario. El proceso de aprendizaje es interactivo e incremental de forma que el modelo es más preciso a medida que el usuario utiliza la aplicación. Al mismo tiempo, esta aplicación permite la creación de un corpus de voz y un modelo de reconocimiento en paralelo. El modelo creado consiste, básicamente, en un clasificador entrenado en base a diversas locuciones de audio registradas por el usuario. Estas locuciones, sin embargo, no forman parte de un corpus sino que se añaden secuencialmente a medida que van C.1. Aplicación de análisis afectivo basado en aprendizaje interactivo incremental 213 siendo grabadas y analizadas. Así, el modelo original carece de conocimiento y va siendo entrenado con cada nueva frase que se graba y analiza a través de la aplicación. Una vez el modelo ha sido creado, el usuario puede activar el modo de prueba de la aplicación de forma que el modelo ya no es modificado sino que se emplea únicamente con la finalidad de identificar los estados afectivos de las nuevas locuciones. La aplicación posee una interfaz gráfica que centraliza cada uno de los pasos de creación del modelo, ofreciendo libertad al usuario para intervenir en cada uno de ellos según lo crea conveniente, tal y como se describe a continuación. C.1.2. Funcionamiento de la aplicación El funcionamiento de esta aplicación está inspirado en el propuesto por Oudeyer (2003). La figura C.1 muestra el diagrama de flujo de la aplicación. El procedimiento consiste en la grabación de un archivo de audio a través del micrófono conectado a la tarjeta de sonido del ordenador. El usuario debe escribir el texto de la frase que ha grabado1 para que la aplicación pueda realizar la transcripción fonética y asociarla al archivo de audio. Una vez el archivo de audio y la transcripción fonética han sido almacenados, se realiza la parametrización de forma automática. Los parámetros calculados son visualizados en la interfaz gráfica y pueden ser modificados manualmente por el usuario si lo considera necesario2 . Los parámetros forman una instancia incompleta (en tanto que no tiene asociada una etiqueta afectiva) que es evaluada por el modelo de reconocimiento creado en anteriores ejecuciones, asignándole una etiqueta afectiva3 . La sección C.1.3 describe los detalles de este proceso. La etiqueta afectiva asignada a la instancia en el paso de clasificación anterior es mostrada al usuario, el cual puede determinar entonces si es correcta o no. Si lo ha sido, dicha etiqueta se une a la instancia anterior creando una instancia completa y esta instancia se añade al conjunto de datos formado por las instancias anteriores. A continuación se realiza un entrenamiento del modelo con el conjunto de datos actualizado. Si no lo ha sido, el usuario tiene la oportunidad de indicar la etiqueta correcta y se procede igual que en el caso anterior. En caso de que el usuario esté evaluando el modelo de reconocimiento en modo de prueba tan solo se visualizará la etiqueta afectiva, pero no se procederá, en ningún caso, a actualizar el conjunto de datos ni a entrenar de nuevo el modelo. 1 En la versión actual de la aplicación este proceso es manual. La inclusión de un módulo de reconocimiento de voz automatizaría este paso. 2 Esto es así dado que esta es una aplicación para el estudio del reconocimiento afectivo. Esta opción no tendría lugar en una aplicación para explotar dicho reconocimiento. 3 En caso de tratarse de la primera ejecución la etiqueta asignada es, por defecto, la correspondiente al estado afectivo alegre 214 C. Aplicaciones de reconocimiento afectivo automático Inicio Grabar archivo de audio Registrar la transcripción fonética Mostrar los parámetros Parametrizar el archivo de audio ¿Modificar la parametrización? SÍ Registrar los nuevos parámetros NO Clasificar la instancia Modificar la instancia Mostrar la etiqueta SÍ ¿Modo test activado? NO ¿La clasificación es correcta? SÍ Añadir instancia al conjunto de datos Añadir la etiqueta a la instancia NO ¿Corregir la clasificación? NO SÍ Registrar la etiqueta correcta Entrenar el modelo Figura C.1: Diagrama de flujo de la aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental. C.1.3. Implementación del módulo de reconocimiento afectivo La versión actual de esta aplicación implementa un módulo de reconocimiento afectivo basado únicamente en el análisis de la señal de voz. Dado su carácter preliminar de desarrollo, la parametrización es sencilla y consta de un total de 17 parámetros C.1. Aplicación de análisis afectivo basado en aprendizaje interactivo incremental 215 basados en una segmentación en fonemas. Estos parámetros se refieren a la energía, F0 y duración de los fonemas y de los silencios. Para cada uno de ellos se calculan 4 funcionales: valor medio, desviación estándar, valor máximo y valor mínimo, y para el caso de los silencios se añade también el número de tramas de silencio detectadas. El abanico de emociones para el cual se crea el conjunto de datos por defecto en el momento de crear el modelo abarca 4 emociones básicas: alegría, tristeza, enfado y miedo. Sin embargo la definición del número y cuáles deberían ser estas emociones podría ser modificable en versiones posteriores. El algoritmo de clasificación por defecto es el árbol de decisión J4.8 si bien la versión actual del programa ya ofrece la posibilidad de poder escoger otro esquema de aprendizaje en el momento de crear el modelo de reconocimiento. C.1.4. Implementación de la aplicación La aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental es una aplicación independiente implementada en Java, empleando la biblioteca gráfica Swing para implementar la interfaz gráfica de usuario. La figura C.2 muestra el diseño de esta interfaz gráfica en la cual se pueden distinguir los distintos módulos que la componen: Grabación de audio. Gestiona la funcionalidad de grabación de los archivos de voz e introducción de su transcripción. Parámetros. Visualiza los parámetros calculados y permite su edición. Clasificación. Visualiza la etiqueta afectiva asignada al archivo de audio y permite indicar la validez de la misma. Corrección de la clasificación. Permite corregir la etiqueta afectiva asignada. Información. Muestra información relevante del modelo en uso. Esta aplicación hace uso de otro software para implementar algunas funcionalidades específicas. En lo referente al procesado del archivo de audio para la extracción de parámetros basada en fonemas se emplea la aplicación ITPcommmand. ITPcommand es una aplicación basada en el software ITP (Alías e Iriondo, 2002) desarrollada específicamente para este caso y permite acceder a distintas funcionalidades del software ITP a través de llamadas independientes mediante la línea de comandos o desde otra aplicación. Esta aplicación genera una serie de archivos que deben ser procesados posteriormente para extraer los parámetros requeridos. Dada la necesidad de la transcripción fonética del texto correspondiente al archivo de audio, se emplea la herramienta RST4 la cual permite 4 Research Speech Toolkit (Gonzalvo, 2010). 216 C. Aplicaciones de reconocimiento afectivo automático Figura C.2: Interfaz gráfica de la aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental. su extracción de forma automática a partir del archivo de texto. ITPcommand realiza la segmentación fonética a través de la transcripción y el archivo de audio así como también extrae los parámetros necesarios. El análisis de los archivos de datos generados por la aplicación ITPcommand y la extracción de los parámetros necesarios se realiza mediante el programa MATLAB, de Mathworks, que debe estar instalado en el ordenador del usuario. Todo este proceso es completamente transparente al usuario. En cuanto a los algoritmos de clasificación, esta aplicación incorpora el código de la librería WEKA. WEKA es de fácil distribución5 y flexible en la incorporación de los clasificadores en el código fuente de la aplicación principal, ya que también está implementada en Java. Además, trabajar con esta librería favorece el empleo de un conjunto de datos en un formato compatible con ella lo que facilita el posterior análisis de dicho conjunto de datos directamente en la aplicación WEKA de forma externa a la aplicación principal. Cabe destacar que los módulos son independientes y se comunican entre sí a través de archivos de audio, las instancias y el conjunto de datos. Por este motivo cada módulo puede ser fácilmente reemplazado por otro que realice la misma tarea pero siguiendo otro algoritmo. Así pues, podría modificarse la parametrización (tanto a nivel de qué parámetros se calculan como a nivel del software que se emplea para la misma) simplemente cambiando la parte de código que afecta a ese módulo sin variar las demás, lo cual permite 5 WEKA se distribuye bajo Licencia Pública General de GNU. C.2. Módulo de reconocimiento afectivo audiovisual 217 que la plataforma sea fácilmente actualizable. La aplicación se distribuye a través de un archivo de instalación que copia en el ordenador del usuario todo el código ejecutable y las librerías necesarias. En esta versión de desarrollo se hace necesario, tal y como se ha comentado, que el usuario disponga del programa MATLAB instalado en el equipo. El instalador detecta automáticamente su configuración y copia los archivos necesarios. En versiones posteriores de explotación el cálculo de los parámetros deberá ser realizado mediante una librería propia del programa, sin necesidad de recurrir a instalaciones de software propietario independientes. C.2. Módulo de reconocimiento afectivo audiovisual Uno de los objetivos del proyecto INREDIS era la creación de un módulo de reconocimiento afectivo que pudiera ser utilizado por una aplicación externa. Con esta finalidad se crea el módulo expuesto en esta sección. Este módulo se basa en las modalidades de voz y expresividad facial, tal y como se detalla a continuación. C.2.1. Descripción El Módulo de Reconocimiento Afectivo Audiovisual (MRAA) es una librería Java que incorpora las funcionalidades necesarias para procesar un archivo con contenido audiovisual y asignarle una etiqueta afectiva en base a un modelo de reconocimiento previamente entrenado. Este módulo permite crear el modelo en caso de no existir, así como entrenarlo de forma incremental a través del análisis de archivos audiovisuales sucesivos. Es decir, el sistema posee la capacidad de adaptar los modelos emocionales a los usuarios mediante un sistema de aprendizaje semiautomático que requiere de la supervisión del propio usuario. La librería puede funcionar como aplicación independiente o bien utilizarse dentro del código fuente de otra aplicación. El MRAA se desarrolla originalmente como parte de la tarea 4.5 (Tecnología multimodal afectiva) del paquete de trabajo PT4 (Tecnologías de interacción persona-máquina) del proyecto INREDIS. El MRAA forma parte del prototipo denominado 4.1+4.3+4.5 y tiene como principal funcionalidad la detección automática del estado afectivo del usuario a partir de las modalidades de expresividad facial y de la voz del mismo. La detección automática del estado afectivo permite que la interfaz de salida del prototipo6 pueda adaptar su expresividad o emoción consiguiendo un gran nivel de empatía entre la persona y el ordenador y reducir, de este modo, el distanciamiento o la barrera que supone para personas no expertas en el uso de estas tecnologías interactuar con este tipo de sistemas. Posteriormente, el MRAA es ampliado y adaptado para su inclusión como parte del 6 La interfaz de salida cuenta con un motor de diálogo para generar respuestas en lenguaje natural así como un avatar virtual. 218 C. Aplicaciones de reconocimiento afectivo automático proyecto evMIC7 , cuyo objetivo principal es la creación de una plataforma interoperable centrada en el usuario capaz de permitir la creación de entornos virtuales de aprendizaje. La concepción del MRAA es similar a la de la aplicación descrita en la sección C.1, ya que se plantea la creación de un modelo de reconocimiento capaz de adaptarse a la expresividad afectiva propia del usuario. Cabe puntualizar que este módulo se diseña inicialmente para un caso de uso específico definido en el proyecto INREDIS como “Usuario perdido”. Este caso de uso plantea un actor que se ha perdido en la ciudad y que precisa de un servicio de asistencia para que le preste ayuda. Este caso de uso plantea sólo tres estados afectivos: positivo (emoción de alegría o aceptación del mensaje), negativo (emoción de enfado o rechazo del mensaje) y neutro (ausencia de emoción), si bien el módulo podría ser adaptado para admitir nuevas etiquetas. Mediante esta codificación, el usuario del MRAA puede crear un modelo de reconocimiento y entrenarlo a partir de interacciones grabadas en archivos de audio y vídeo. El sistema puede ser entrenado con tantas señales como se desee, diversificando los ejemplos suministrados siendo recomendable aplicar un número de entrenamientos similar para cada una de las tres categorías afectivas anteriores. No obstante, la programación original del sistema se flexibiliza posteriormente para permitir su adaptación al proyecto evMIC que presenta unas condiciones menos restrictivas. El reconocimiento afectivo se realiza a partir del procesado de las señales de audio y de vídeo8 , y el módulo proporciona etiquetas afectivas para ambas modalidades. Por otra parte, el módulo proporciona una salida única como resultado de la fusión de ambas modalidades. Esta etiqueta afectiva adicional proporciona robustez frente a posibles problemas en las modalidades anteriores. Así, frente a la ausencia del canal de vídeo o de audio, la salida multimodal ignora la modalidad que ha fallado. Frente a un empate entre la decisión tomada por ambas modalidades, el sistema prioriza la decisión del canal de vídeo puesto que se considera más robusto9. Si se produce un error que afecta a ambas modalidades simultáneamente o si la secuencia no puede ser procesada correctamente (debido a problemas con el propio archivo, por ejemplo) el sistema genera una etiqueta adecuada informando de dicho error, sin que ello ocasione un fallo general de la aplicación. C.2.2. Características generales El sistema asigna una etiqueta afectiva a cada secuencia audiovisual para cada modalidad y una adicional correspondiente a la fusión de ambas modalidades. El sistema puede generar una etiqueta emocional incluso en la ausencia de alguna de las modalidades de entrada. Sin embargo, si el fallo afecta a ambas modalidades simultáneamente o 7 Proyecto TSI-020301-2009-25 cofinanciado por el Ministerio de Industria, Turismo y Comercio de España. El procesado de vídeo consiste, realmente, en el análisis de tres fotogramas de la secuencia de vídeo completa. La etiqueta afectiva asignada a esta modalidad consiste en una combinación de las decisiones tomadas por el MRAA para cada uno de estos fotogramas. 9 Se considera más robusto porque su etiqueta procede de tres decisiones independientes. 8 C.2. Módulo de reconocimiento afectivo audiovisual 219 si la secuencia no puede ser procesada correctamente (debido a problemas con el propio archivo, por ejemplo) el sistema generará una etiqueta adecuada informando de dicho error, sin que ello ocasione un fallo general de la aplicación. Se pueden producir errores en el procesado de la secuencia de vídeo en el momento de realizar la detección de la cara y su seguimiento. Estos errores pueden ser frecuentes en función de la calidad de la grabación. Esto desembocará en errores en la asignación de la etiqueta afectiva pero no ocasionará fallos generales de la aplicación. Para evitar la aparición de dichos errores de procesado del vídeo será necesario que la cámara enfoque la cara del usuario obteniendo una imagen frontal (sin rotaciones), bien iluminada y sin sombras ni focos de luz demasiado vivos, y el usuario deberá permanecer bien enfocado y sin realizar movimientos bruscos, ni rotaciones de la cabeza. También es importante que la resolución de la cara sea lo suficientemente elevada como para poder extraer correctamente los atributos faciales que más denotan el estado afectivo del usuario10 . En cuanto al audio, el micrófono debe de estar bien calibrado de forma que la voz tenga buena presencia sin llegar a provocar saturación o recorte de la señal. El sistema no es robusto frente a ruidos o interferencias que se puedan producir durante la interacción. Inicialmente el MRAA proporcionará respuestas poco fiables y el nivel de fiabilidad conseguido dependerá de la similitud entre la cara y voz del usuario y la base de datos de caras y voces previa disponible. Esto sucederá mientras no se haya alcanzado un nivel de entrenamiento personalizado suficientemente satisfactorio. El nivel de fiabilidad en la detección de la emoción del usuario mejorará a medida que el sistema se entrene con más casos (ejemplos de locución emocional) del usuario, dotando al sistema de un nivel de personalización mayor. Este entrenamiento se realizará con la participación activa del usuario. El sistema cuenta con la capacidad de actualizar los modelos de reconocimiento durante su explotación lo cual le confiere la habilidad de aprender o reforzar el reconocimiento de los estados afectivos. El sistema puede garantizar la capacidad de aprendizaje para adecuar el reconocimiento a un único usuario, si bien puede ser entrenado y explotado por varios usuarios con la finalidad de intentar converger hacia un modelo de reconocimiento multiusuario. El reconocimiento llevado a cabo por el sistema se supone independiente del idioma empleado por los locutores, si bien se pueden producir diferencias en la expresión del estado afectivo entre locutores de contextos culturales diferentes. El sistema proporciona una respuesta cuando se ha completado la extracción de parámetros audiovisuales de la secuencia y estos han sido clasificados por el algoritmo de aprendizaje. En función de la longitud de la secuencia este proceso puede llegar a ser costoso computacionalmente (según el procesador de qué se disponga y de la resolución de las imágenes y del grado de optimización del código que se pueda conseguir) por lo que 10 Se requiere que el rostro ocupe más del 60 % de la imagen en una imagen con resolución de 640×480 píxeles. 220 C. Aplicaciones de reconocimiento afectivo automático puede existir un retraso considerable que dificulte su aplicación en un entorno a tiempo real. Sin embargo, estos tiempos pueden verse reducidos si se limita la duración de las grabaciones a locuciones cortas. Este aspecto puede condicionar que el reconocimiento emocional sea usado más como una herramienta de análisis de las interacciones en vez de usar el estado afectivo reconocido como parte influyente de la respuesta inmediata en un sistema de interacción en tiempo real. C.2.3. Funcionamiento del MRAA En esta sección se detalla el funcionamiento general del MRAA y se muestran ejemplos de su funcionamiento como aplicación independiente y como librería que puede ser llamada desde el código fuente de otra aplicación. Los detalles de la implementación de los módulos que componen el MRAA pueden consultarse en la sección C.2.4. C.2.3.1. Funcionamiento general del MRAA La figura C.3 muestra el diagrama de bloques del MRAA. Principalmente, el módulo se compone de dos componentes de parametrización de las señales de entrada (uno para la de vídeo y otro para la de audio), tres componentes de clasificación (uno para la modalidad de vídeo, otro para la modalidad de audio, y otro para la clasificación audiovisual que tiene en cuenta ambas modalidades), y finalmente un módulo para el entrenamiento de los clasificadores. Los módulos de parametrización generan a su salida un vector de parámetros relevantes desde un punto de vista de su función para la clasificación a partir de las señales de entrada correspondientes. Los módulos de clasificación reciben este vector como entrada para realizar la función propia del reconocimiento del estado afectivo del usuario. El MRAA tiene dos modos de funcionamiento: Modo de entrenamiento de un modelo de reconocimiento. Modo de evaluación de la interacción de un usuario. En el modo de entrenamiento, el MRAA considera tres entradas: las señales de vídeo y de audio y la etiqueta afectiva asociada. Una vez se han parametrizado las señales de vídeo y de audio el componente de entrenamiento de los clasificadores modifica los modelos de reconocimiento mediante un ciclo de entrenamiento completo11 . Para que los clasificadores funcionen correctamente es necesario realizar entrenamientos con distintos ejemplos suficientemente significativos para cada emoción a reconocer. Se requiere la 11 Es decir, los parámetros de audio y de vídeo se unen a la etiqueta proporcionada para crear una instancia que se añade al conjunto de datos. Este nuevo conjunto de datos sirve para entrenar de nuevo el clasificador. C.2. Módulo de reconocimiento afectivo audiovisual Parametrización del vídeo Vídeo Parámetros de vídeo 221 Clasificador de vídeo Módulo de reconocimiento de vídeo Etiqueta afectiva Entrenamiento de los clasificadores Clasificador audiovisual Salida Módulo de reconocimiento de audio Audio Parametrización del audio Parámetros de audio Clasificador de audio Figura C.3: Diagrama de bloques del MRAA. intervención de, como mínimo, un usuario que supervise la etiqueta afectiva a la que se asocia cada interacción usada para el entrenamiento. En el modo de evaluación no se precisa la etiqueta afectiva ya que esta será asignada por el MRAA al final de la clasificación. Una vez se ha parametrizado el vídeo y el audio, los clasificadores respectivos realizan la tarea de clasificación usando los modelos de reconocimiento disponibles, dando a su salida una etiqueta identificativa de la emoción reconocida. Las etiquetas asignadas por estos dos clasificadores se toman como entrada del clasificador audiovisual. Esta tercera etiqueta generada por este clasificador también sigue el mismo convenio que las otras dos (emociones neutra, negativa y positiva), pero permite obtener decisiones más estables fortaleciendo la decisión final gracias a la combinación de las modalidades anteriores. El MRAA, tal y como se ha comentado, puede funcionar como aplicación independiente o como una librería importable al código fuente de una aplicación Java. A continuación se detallan ejemplos de ambos funcionamientos. C.2.3.2. Ejecución del MRAA como aplicación independiente Para crear y entrenar un modelo de reconocimiento basta con crear, inicialmente, una base de datos de audio y vídeo vacías a partir de las bases de datos de muestra que se distribuyen con la aplicación. Partiendo de una interacción de un usuario con el sistema de reconocimiento, recogida en un archivo de audio con su voz y otro de vídeo con su expresión facial, debe ejecutarse la siguiente instrucción12 : 12 Esta es una línea única pero se han añadido saltos de línea para mejorar su visualización impresa. Cada salto de línea equivale a un espacio en blanco. 222 C. Aplicaciones de reconocimiento afectivo automático java -jar mraa.jar <dir-configuracion>/mraa-config.properties <dir-audio>/<archivo-audio.wav> <dir-video>/<archivo-video.wmv> <dir-modelos>/<modeloAudio.mod> <dir-modelos>/<modeloVideo.mod> <dir-baseDatos>/<datasetAudio.arff> <dir-baseDatos>/<datasetVideo.arff> train <etiquetaAfectiva> Donde: <dir-configuracion> es el directorio en el que está el archivo de configuración mraaconfig.properties. <dir-audio> es el directorio en el que está el archivo de audio a analizar (archivoaudio.wav). <dir-video> es el directorio en el que está la secuencia de vídeo a analizar (archivovideo.wmv). <dir-modelos> es el directorio en el que se crearán los modelos de reconocimiento de audio y de vídeo (modeloAudio.mod y modeloVideo.mod, respectivamente). <dir-baseDatos> es el directorio en el que están las bases de datos de audio y de vídeo que se han creado anteriormente (datasetAudio.arff y datasetVideo.arff, respectivamente). La cláusula “train” indica que se está realizando un entrenamiento de estos modelos con esta interacción. <etiquetaAfectiva> indica la emoción asociada a esta interacción. Las opciones válidas son “neg” para los estados negativos, “pos” para los positivos y “neu” para los neutros. La próxima vez que se realice una llamada como la anterior, usando los mismos archivos de modelo y de base de datos, estos archivos serán actualizados. Una vez que ya se dispone de un modelo creado y entrenado puede evaluarse la interacción de un usuario la cual, como antes, debe estar almacenada en un archivo de audio y otro de vídeo. La instrucción para la evaluación es13 : java -jar mraa.jar <dir-configuracion>/mraa-config.properties <dir-audio>/<archivo-audio.wav> <dir-video>/<archivo-video.wmv> <dir-modelos>/<modeloAudio.mod> <dir-modelos>/<modeloVideo.mod> <dir-baseDatos>/<datasetAudio.arff> <dir-baseDatos>/<datasetVideo.arff> test 13 Esta es una línea única pero se han añadido saltos de línea para mejorar su visualización impresa. Cada salto de línea equivale a un espacio en blanco. C.2. Módulo de reconocimiento afectivo audiovisual 223 En este caso la cláusula “test” indica que se está evaluando esta interacción. La aplicación devolverá la información relativa al resultado de la evaluación realizada por el módulo acústico, el módulo visual y el modo audiovisual conjunto. Esta información seguirá el formato descrito por el siguiente ejemplo: Detalle de resultados ===================== Audio 1: neg Video 1: neg Video 2: pos Video 3: neg Resultado final del reconocimiento afectivo =========================================== <EmocionAudio value="neg">,<EmocionVideo value="neg">, <EmocionAudiovisual value="neg"> C.2.3.3. Ejecución de las funciones del MRAA desde el código de una aplicación Java El MRAA puede ser empleado en el código fuente de una aplicación Java, incluyendo la librería mraa.jar en el proyecto de la aplicación. Sin embargo, el MRAA aún se halla en una versión inicial por lo que las funcionalidades que ofrece como librería son muy limitadas así como la documentación proporcionada. Básicamente cuenta con un constructor que permite determinar el modo de funcionamiento del módulo de reconocimiento y una función destinada al análisis de una interacción a partir de un archivo de audio y de vídeo. Esta función es la siguiente: public static java.lang.String etiqueta = mraa.AnalisiAfectiu.getEmotion( String sPathProp, String sPathAudio, String sPathVideo, String sPathModelAudio, String sPathModelVideo, String sPathDataAudio, String sPathDataVideo) throws java.lang.Exception Esta función devuelve una cadena de texto con el siguiente formato: <EmocionAudio value="xxx">, <EmocionVideo value="yyy">, <EmocionAudiovisual="zzz"> 224 C. Aplicaciones de reconocimiento afectivo automático Donde xxx, yyy y zzz son las etiquetas emocionales detectadas dentro del ámbito {pos, neu, neg, dkn}, correspondientes a positivo, neutro, negativo y desconocido, respectivamente. La etiqueta dkn se reserva para el caso en que fallara el proceso de reconocimiento. Este fallo puede ser debido a un problema en el proceso de parametrización de las señales así como por la ausencia de ambas modalidades de forma simultánea. C.2.4. Implementación del módulo de reconocimiento afectivo En esta sección se realiza una breve descripción del diseño de los componentes usados por el MRAA y que han sido introducidos en el apartado anterior. C.2.4.1. Componente de parametrización del audio Este componente genera un vector de 46 parámetros asociados a la señal de audio de entrada proporcionada al módulo como un archivo en formato WAV. Los parámetros considerados son características medidas sobre la curva de F0, sobre la duración de los fonemas (diferenciando entre sonidos sordos y sonidos sonoros) y también sobre la energía de la señal de voz. De estas características se calculan 11 estadísticos (valor medio, máximo, mínimo, desviación estándar, rango, cuartiles, rango intercuartílico, asimetría y curtosis). Asimismo se incluye la medida de los anchos de banda medidos sobre las curvas de variación de F0 y de la energía de la señal de voz. Para obtener las curvas de variación de la F0, de la energía y las duraciones de los sonidos sonoros y sordos, se aplica un modelado armónico estocástico de la señal de voz Harmonic plus Noise Model (HNM). A partir de los parámetros de este modelo se pueden realizar estimaciones de las curvas y las duraciones anteriores. C.2.4.2. Componente de parametrización del vídeo Este componente genera un vector de parámetros asociados a tres fotogramas del vídeo de entrada. Estos tres fotogramas son seleccionados a partir de la inicialización temporal sobre la mitad de tres zonas equidistantes: la zona inicial, la zona media y la zona final del vídeo14 . A partir de estos puntos iniciales de análisis, se buscan los fotogramas más próximos que permiten detectar con éxito la zona de interés, a través de un proceso de prueba y error. La zona de interés está formada por la región que incluye los ojos y las cejas de la persona, ya que es a partir de la cual que se puede medir información correlada con la emoción o afectividad de la persona. En primer lugar, este componente calcula la luminancia de cada fotograma analizado y, posteriormente, realiza un seguimiento de regiones basado en apariencia que con14 Entendiendo estas tres zonas como una división temporal. C.2. Módulo de reconocimiento afectivo audiovisual 225 siste en la localización y seguimiento de los ojos y de la nariz de la persona. Una vez que se ha localizado la zona de la cara del usuario, se aplica un filtro logístico para compensar posibles problemas de iluminación en la imagen. Seguidamente se aplica una máscara que aísla la zona de los ojos. Después de realizar este proceso de detección de la zona ocular se obtiene una imagen de medidas 27×48 píxeles, la cual se obtiene mediante un proceso de remuestreo a partir de la zona de la imagen original marcada. La parametrización de cada unos de los tres fotogramas considerados en la parametrización del vídeo se basa en la aplicación de un banco de filtros Gabor con diferentes ángulos y frecuencias espaciales15 . A las correspondientes salidas complejas de cada filtro se les aplica el operador módulo. Así pues, el vector de parámetros para cada uno de los tres fotogramas analizados está formado por 40 subvectores de 1.296 valores16 cada uno. C.2.4.3. Componentes de entrenamiento y clasificación de las modalidades de audio y vídeo Los módulos de clasificación de audio y de vídeo son clasificadores de tipo SVM. Sin embargo, las características de la programación del MRAA permiten que estos esquemas puedan ser fácilmente modificados por otros. C.2.4.4. Componente de clasificación audiovisual Este componente sigue una regla heurística basada en voto mayoritario para combinar los resultados de los módulos independientes de reconocimiento basados en audio y vídeo. La modalidad de audio cuenta con un voto. La modalidad de vídeo cuenta con tres, dado que se procesan tres fotogramas para decidir la emoción final. La combinación de las cuatro decisiones resulta en la decisión final del módulo conjunto. C.2.5. Implementación del MRAA El MRAA ha sido desarrollado en lenguaje de programación Java, lo que permite facilitar la portabilidad a múltiples plataformas. Su implementación no considera una interfaz gráfica de usuario, a diferencia de la aplicación de análisis afectivo automático basado en aprendizaje interactivo incremental desarrollada anteriormente, ya que este módulo se concibe originalmente para formar parte de otro sistema, si bien puede ser ejecutada como aplicación final. Como la aplicación anterior, el MRAA emplea otro software para implementar algunas funciones. Así, incorpora la librería gratuita de código abierto Xuggler17 para rea15 Concretamente, se trata de un análisis multiresolutivo con 40 kernels distintos. Correspondientes a la cantidad de píxeles de cada imagen (27×48). 17 http://www.xuggle.com/ 16 226 C. Aplicaciones de reconocimiento afectivo automático lizar la decodificación de los archivos de vídeo. Asimismo, incorpora el compilador en tiempo de ejecución MATLAB18 para realizar tareas de parametrización y procesado. La incorporación de este software evita que el usuario final deba tener instalado el programa MATLAB. Finalmente, incluye la implementación de los algoritmos de clasificación procedentes de su implementación en la librería WEKA. 18 MCR, del inglés MATLAB Compiler Runtime, implementado por Mathworks. Esta Tesis Doctoral ha sido defendida el día ____ de __________________ de 20 en el Centro Escola Tècnica Superior d’Enginyeria Electrònica i Informàtica La Salle de la Universitat Ramon Llull C.I.F. G: 59069740 Universitat Ramon Lull Fundació Privada. Rgtre. Fund. Generalitat de Catalunya núm. 472 (28-02-90) delante del Tribunal formado por los Doctores abajo firmantes, habiendo obtenido la calificación: Presidente/a _______________________________ Vocal _______________________________ Vocal _______________________________ Vocal _______________________________ Secretario/aria _______________________________ Doctorando/a Santiago Planet García C. Claravall, 1-3 08022 Barcelona Tel. 936 022 200 Fax 936 022 249 E-mail: [email protected] www.url.es