These de doctorat : Modélisation de l`espace articulatoire par
Transcription
These de doctorat : Modélisation de l`espace articulatoire par
Département de formation doctorale en informatique UFR STMIA École doctorale IAEM Lorraine Modélisation de l’espace articulatoire par un codebook hypercubique pour l’inversion acoustico-articulatoire THÈSE présentée et soutenue publiquement le 21 décembre 2001 pour l’obtention du Doctorat de l’université Henri Poincaré – Nancy 1 (spécialité informatique) par Slim Ouni Composition du jury Président : Jean-Paul Haton IUF, Professeur, UHP - Nancy Rapporteurs : Shinji Maeda Pascal Perrier Marie-Claude Portmann Directeur de recherche, CNRS, ENST - Paris Professeur, INPG - Grenoble Professeur, INPL - Nancy Examinateurs : Jean Schoentgen Yves Laprie Chercheur qualifié, FNRS, ULB - Belgique Chargé de recherche, CNRS - Nancy Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503 Mis en page avec la classe thloria. Résumé L’objectif de la thèse est de développer une méthode d’inversion afin de récupérer toutes les formes réalisables du conduit vocal correspondant à un signal acoustique représenté par ses formants, et de récupérer l’évolution temporelle des paramètres articulatoires. Pour atteindre cet objectif, nous avons abordé trois problèmes : la modélisation de l’espace articulatoire par des hypercubes, la recherche de toutes les solutions dans cet espace et la récupération de l’évolution temporelle des articulateurs. Notre méthode d’inversion repose en grande partie sur la représentation de l’espace articulatoire sous la forme d’un codebook hypercubique. Ce codebook est constitué d’hypercubes représentant des régions de dimension sept par un nombre très limité de points. Ces hypercubes ont une taille qui dépend du degré de non-linéarité de la relation articulatoire-acoustique. Lors de l’inversion, le codebook hypercubique est exploré afin de récupérer les formes articulatoires de tous les hypercubes possibles correspondant à une entrée acoustique. Nous proposons une méthode d’exploration de l’espace nul de l’hypercube qui permet alors d’obtenir une description complète de l’ensemble des solutions. Les solutions obtenues à l’issue de l’exploration du codebook peuvent être utilisées directement pour étudier la variabilité articulatoire des voyelles. Dans cette étude, nous avons considéré quelques voyelles du français et nous avons essayé de les caractériser. Après l’étape d’inversion point à point, il est possible de trouver les trajectoires articulatoires qui correspondent à une variation lente des paramètres articulatoires et cohérentes d’un point de vue phonétique. Dans ce but, nous proposons une méthode de lissage non-linéaire basée sur une stratégie de programmation dynamique. Le résultat de ce lissage est ensuite régularisé à l’aide d’une méthode variationnelle qui minimise la distance acoustique et assure la régularité de l’évolution des paramètres articulatoires. Mots-clés: inversion, acoustique, articulatoire, codebook, hypercube, modèle de Maeda, production de la parole, conduit vocal, trajectoire articulatoire, variabilité articulatoire, voyelles, régularisation variationnelle, non-linéarité, lissage, SVD. Abstract Title : Articulatory space modelling using a hypercube codebook for acoustic-to-articulatory inversion In this thesis, we deal with the inversion of the articulatory-to-acoustic relation, i.e. given an acoustic signal we want to recover the trajectories of the corresponding articulatory parameters. For this purpose, we have to resolve three problems : modelling articulatory space by hypercubes, retrieving all the solutions, and recovering articulatory trajectories varying slowly. Our inversion method is based on the representation of the articulatory space by a hypercube codebook. This representation has the advantage of decomposing the articulatory space into regions where the mapping is quasi-linear. Each region is represented by a hypercube. The inversion procedure retrieves articulatory vectors corresponding to an acoustic entry from the hypercube codebook. As the dimension of the articulatory space is greater than the dimension of the acoustic space, the corresponding null space is sampled by linear programming to retrieve all the possible solutions. These solutions could be used directly to study vowel articulatory variabilities. For this purpose, we considered principal constriction place in the vocal tract to distinguish different classes of French vowels. Retrieving articulatory trajectories is performed in two steps. We use non-linear smoothing method based on dynamic programming followed by smoothing with a variational method. We have succeeded to retrieve smooth and realistic articulatory trajectories, which is confirmed by the experimental evaluation. Keywords: inversion, acoustic, articulatory, codebook, hypercube, Maeda model, speech production, vocal tract, articulatory trajectoiry, articulatoiry variability, vowels, variationnal regularization, nonlinearity, smoothing, SVD. Remerciements Je tiens tout d’abord à manifester ma profonde gratitude et ma sincère reconnaissance envers Yves Laprie, mon directeur de thèse, qui m’a encadré et orienté tout au long de ces années de travail. Je le remercie aussi pour ses commentaires fructueux et la patience dont il a fait preuve à mon égard au cours des nombreuses et enrichissantes rencontres de travail. Je le remercie aussi pour ses remarques et critiques qui ont contribué à l’élaboration de ce manuscrit. Je remercie également Jean-Paul Haton qui m’a fait l’honneur de présider le jury de ma thèse. Je le remercie de sa confiance et du grand intérêt qu’il a toujours portés à mes travaux. Mes remerciements vont ensuite à mes rapporteurs Shinji Maeda, Pascal Perrier et Marie-Claude Portmann qui ont bien voulu accepter d’évaluer le présent travail et ce malgré toutes les responsabilités qu’ils assument. Qu’ils trouvent ici l’expression de ma gratitude pour l’intérêt dont ils ont fait preuve à l’égard de ce travail. Je remercie également Jean Schoentgen pour avoir bien voulu participer à ce jury et évaluer ce travail. Je le remercie pour ses remarques qui m’ont été utiles pour améliorer la qualité de ce manuscrit. Un grand merci à Armelle Brun et Nizar Ben Youssef pour avoir accepté de relire à plusieurs reprises et de corriger ce document ; leurs remarques ne furent point perdues. Merci également à tous mes collègues de l’équipe PAROLE, et mes amis du LORIA, pour l’environnement de travail sympathique dont j’ai bénéficié. Enfin, je tiens à remercier vivement ma famille pour les encouragements et le soutien moral qu’ils m’ont prodigués. iii iv À ma famille. v vi Table des matières Introduction générale xi Chapitre 1 Production de la parole et modèles articulatoires 1 1.1 La physiologie de la production de la parole . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 La synthèse articulatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Les modèles articulatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 Adaptation du modèle articulatoire de Maeda . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.1 Adaptation par utilisation des images IRM . . . . . . . . . . . . . . . . . . . . 8 1.4.2 Adaptation par normalisation de l’espace acoustique . . . . . . . . . . . . . . . 10 1.5 Le passage de la coupe sagittale à la fonction d’aire . . . . . . . . . . . . . . . . . . . . 13 1.6 La simulation acoustique du système de production de la parole . . . . . . . . . . . . . 14 Chapitre 2 Méthodes d’inversion acoustico-articulatoire existantes 2.1 2.2 2.3 19 Étude de l’inversion acoustico-articulatoire en tant que problème mal-posé . . . . . . . . 19 2.1.1 L’inversion est un problème mal-posé . . . . . . . . . . . . . . . . . . . . . . . 19 2.1.2 Le principe de résolution de l’inversion . . . . . . . . . . . . . . . . . . . . . . 20 2.1.3 Résolution du problème de la non-unicité par l’introduction de contraintes . . . . 21 Méthodes existantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.1 L’inversion par une procédure de tri . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2.2 Méthodes par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2.3 Méthodes par réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . 24 Étude des méthodes existantes de construction de codebook . . . . . . . . . . . . . . . . 25 2.3.1 Codebook à échantillonnage régulier . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.2 Codebook à échantillonnage aléatoire . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.3 Codebook à prototypes vocaliques . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.4 Comparaison de la couverture des trois codebooks . . . . . . . . . . . . . . . . 27 2.3.5 Problème de la non-linéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 vii Table des matières Chapitre 3 Construction du codebook hypercubique 3.1 Structure hypercubique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1.2 Pourquoi le choix d’une structure hypercubique? . . . . . . . . . . . . . . . . . 32 La construction du codebook hypercubique . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.1 Le principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.2 La méthode de construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.3 Le test de linéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.4 Le choix du seuil de linéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2.5 Régions interdites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2.6 La description du codebook hypercubique . . . . . . . . . . . . . . . . . . . . . 40 3.3 Réalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.4 Évaluation expérimentale du codebook hypercubique . . . . . . . . . . . . . . . . . . . 41 3.4.1 L’interpolation dans un hypercube . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.4.2 Vérification expérimentale de l’interpolation . . . . . . . . . . . . . . . . . . . 42 3.4.3 Vérification de la continuité de la relation articulatoire-acoustique . . . . . . . . 42 3.2 Chapitre 4 Inversion par un codebook hypercubique 4.1 45 La méthode d’inversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.1 Le principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.2 Présentation du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.3 Résolution du système d’équations . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.1.4 L’échantillonnage de l’espace nul . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.1.5 La précision de l’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.2 Quelques résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.3 Évaluation expérimentale de la précision acoustique . . . . . . . . . . . . . . . . . . . . 53 Chapitre 5 Récupération des trajectoires articulatoires 57 5.1 Algorithme de lissage non-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.2 Régularisation variationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Chapitre 6 Évaluations expérimentales de l’inversion acoustico-articulatoire 6.1 6.2 viii 31 63 Évaluations expérimentales : Récupération des trajectoires articulatoires . . . . . . . . . 63 6.1.1 Inversion de séquences de voyelles . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.1.2 Choix des masses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 6.1.3 Quelles trajectoires articulatoires choisir : la variabilité articulatoire . . . . . . . 76 6.1.4 Inversion de séquences V-C-V . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Évaluations expérimentales: Inversion des voyelles . . . . . . . . . . . . . . . . . . . . 83 Conclusions et perspectives 91 Annexe A Régularisation variationnelle des trajectoires articulatoires 95 Annexe B Séquences V-V et V-V-V 99 Annexe C La méthode SVD (décomposition en valeurs singulières) 117 Annexe D Méthode variationnelle d’optimisation des trajectoires articulatoires 121 Annexe E Séquences: Formes du conduit vocal 125 Bibliographie 131 ix Table des matières x Introduction générale La production de la parole consiste à générer une onde acoustique qui porte le message que veut diffuser un locuteur. C’est l’un des actes volontaires les plus complexes de l’activité humaine car la coordination des gestes des organes articulatoires fait intervenir plus d’une centaine de muscles. L’étude de la production de la parole et des gestes articulatoires a donc conduit à l’élaboration de modèles numériques des organes impliqués dans la production de la parole (système respiratoire, cordes vocales, larynx, pharynx, vélum, langue, mâchoire et lèvres) et des déformations du conduit vocal sous l’effet des articulateurs. Pour ce dernier point, on utilise des modèles articulatoires, souvent le résultat d’analyses statistiques de films cinéradiographiques, et qui décrivent la forme du conduit vocal en fonction d’un nombre réduit de paramètres. Ces modèles complétés par une simulation acoustique permettent de passer de l’espace des commandes articulatoires à l’espace acoustique. Depuis plus d’une trentaine d’années, on s’intéresse au passage inverse appelé inversion acousticoarticulatoire, c’est-à-dire, la récupération des gestes articulatoires à partir du signal de parole. Nous allons maintenant présenter un certain nombre d’applications potentielles de l’inversion qui justifient l’intérêt porté à ce problème. La modélisation articulatoire suscite un intérêt croissant dans le domaine de la reconnaissance de la parole. En effet, la représentation de la parole sous la forme d’un flux continu de mouvements articulatoires se prête naturellement mieux à la modélisation de la coarticulation que la concaténation de segments acoustiques discrets [Rose et al., 1994]. Par ailleurs, les paramètres articulatoires permettent de lever certaines ambiguïtés de l’information acoustique. Les sons de la parole présentent en effet une variabilité plus faible pour le mouvement des articulateurs critiques1 que pour celui des articulateurs non critiques [Rose et al., 1994]. Les effets de coarticulation concernant les articulateurs critiques sont donc plus caractéristiques et par conséquent plus facilement interprétables. Dans un système de reconnaissance automatique de parole, il est possible de compléter ou de remplacer les données acoustiques par des paramètres articulatoires. Dans ce cas, les modèles de Markov cachés (HMM2 ) ne sont plus acoustiques mais articulatoires voire simultanément acoustiques et articulatoires. Pour développer de tels modèles il est nécessaire d’élaborer une méthode d’inversion acoustiquearticulatoire. À notre connaissance, il n’existe pas de systèmes de reconnaissance de la parole opérationnels purement articulatoires. Dans les travaux de Deng et Sun [Deng and Sun, 1993] par exemple, les auteurs imposent une correspondance entre les états des HMMs et les configurations articulatoires à l’aide de la phonologie articulatoire. Les expériences faites à partir de données réelles sont encourageantes et montrent l’intérêt d’une telle technique. Par ailleurs, l’utilisation des mesures articulatoires obtenues 1 Un articulateur critique pour un son donné est un articulateur qui est impérativement utilisé lors de la production de ce son. Par exemple, l’articulateur critique des sons /k/ et /g/ est le corps de la langue, celui de /t/ et /d/ est l’apex de la langue et ceux de /p/ et /b/ sont les lèvres. 2 Hidden Markov Model xi Introduction générale avec un articulographe [Zlokarnik, 1993] ou par radiographie [Papcun et al., 1992] complétées par les mesures acoustiques ont permis d’améliorer le taux de reconnaissance. Malheureusement, ces efforts n’ont pas été poursuivis. L’existence de méthodes d’inversion robustes (capables de fournir des trajectoires articulatoires réalistes et proches de celles effectivement produites par un locuteur) permettrait de relancer ces travaux de reconnaissance. Certains travaux dans le codage de la parole à faible débit ont exploité une approche articulatoire. Outre le fait que les paramètres articulatoires évoluent lentement dans le temps, tous les modèles articulatoires font en effet appel à un petit nombre de paramètres, ce qui fait l’intérêt de l’approche [Flanagan et al., 1980; Sondhi and Schroeter, 1987; Schroeter and Sondhi, 1992; Silva and Chennoukh, 1998]. Dans le domaine de la phonétique, l’inversion acoustico-articulatoire permettrait de remplacer dans une large mesure les méthodes d’imagerie médicale soit trop peu rapides, soit nocives pour la santé humaine. Le travail de Ciocea et al. [Ciocea et al., 1997] relève en partie de cette démarche puisque les auteurs ont utilisé leur procédure d’inversion afin de mesurer les facultés articulatoires de patients atteints de dysarthrie. Sans aller aussi loin Boë et al. [Boë et al., 1992] ont utilisé le modèle de Maeda pour construire une table de paires de paramètres articulatoires et acoustiques afin d’étudier la formation des systèmes vocaliques. L’utilisation de l’inversion pour l’apprentissage des langues serait aussi très profitable. En effet, la récupération des gestes articulatoires à partir du signal acoustique de l’apprenant permettrait de visualiser les erreurs et de proposer de meilleures stratégies articulatoires. Un système d’inversion audiovisuel pourrait aussi être utilisé par les malentendants afin de suivre une « rééducation articulatoire ». Il s’agirait d’une tête humaine virtuelle parlante : une tête virtuelle représentée graphiquement par un modèle tridimensionnel animé, dont l’animation serait synchronisée avec la parole synthétisée. L’utilisation des têtes parlantes dans le domaine de la parole audiovisuelle est en effet en pleine expansion (apprentissage des langues, rééducation articulatoire, perception, multimédia, interaction hommemachine, etc..) [Pelachaud and Prevost, 1995; Benoit et al., 1998; Cohen et al., 1998; Massaro, 1998]. Toutes ces applications potentielles ont motivé les travaux sur l’inversion acoustico-articulatoire. Malheureusement, l’inversion n’est pas un problème simple, en premier lieu parce qu’une infinité de configurations du conduit vocal peuvent produire le même signal acoustique. À cette relation non biunivoque entre l’espace articulatoire et l’espace acoustique s’ajoute le problème de la non-linéarité de cette relation [Fant, 1960; Stevens, 1972; Charpentier, 1984]. En effet, il existe des régions de l’espace articulatoire pour lesquelles une petite variation d’un paramètre articulatoire entraîne une variation importante des paramètres acoustiques. Ce problème est principalement dû à la géométrie du conduit vocal et à ses propriétés physiques (chapitre 2). Les travaux sur l’inversion sont apparus il y a plus d’une vingtaine d’années avec notamment les travaux d’Atal et al. [Atal et al., 1978] qui ont essayé de résoudre le problème de non-linéarité en linéarisant localement la relation entre l’espace articulatoire et l’espace acoustique. La plupart des méthodes d’inversion part d’un ensemble de paires de vecteurs articulatoires et des vecteurs acoustiques correspondants (ce qui constitue un dictionnaire que nous appelons désormais codebook pour éviter toute ambiguïté). Cela permet de retrouver des solutions initiales à partir desquelles une méthode d’optimisation permet d’obtenir les trajectoires articulatoires. Malheureusement, il y a trop xii peu de travaux portant sur la construction des codebooks représentant fidèlement l’espace articulatoire, c’est-à-dire respectant la non-linéarité de la relation entre l’espace articulatoire et l’espace acoustique. Dans ce mémoire, nous présentons nos travaux dans ce domaine. Le but est d’élaborer une méthode d’inversion respectant la non-linéarité de la relation articulatoire-acoustique et qui permette de récupérer toutes les formes réalisables du conduit vocal, cela afin d’étudier les différentes trajectoires articulatoires réalistes, et par la suite, de pouvoir construire une base de données pour l’étude des différents phénomènes de coarticulation et de variabilité articulatoire. Dans ce cadre, nous proposons une méthode de construction du codebook qui respecte au mieux la non-linéarité de cette relation. Pour ce faire, nous décomposons l’espace articulatoire d’une manière fine dans les régions où la relation articulatoire-acoustique est fortement non-linéaire. Nous avons choisi la structure d’hypercube pour représenter les différentes régions de l’espace articulatoire (chapitre 3). Cette représentation de l’espace articulatoire par des hypercubes permet de prendre en compte les nonlinéarités. Lors de l’inversion, le codebook hypercubique est exploré afin de récupérer les formes articulatoires de tous les hypercubes possibles correspondant à une entrée acoustique. Nous proposons une méthode d’exploration de l’espace nul de l’hypercube qui permet alors d’obtenir une description complète de l’ensemble des solutions (chapitre 4). Nous avons exploité la représentation hypercubique de l’espace articulatoire pour aborder deux problèmes. Les solutions obtenues à l’issue de l’exploration du codebook peuvent être en effet utilisées directement pour étudier la variabilité articulatoire des voyelles. Nous pouvons aussi réaliser l’inversion de séquences de voyelles afin d’obtenir des trajectoires articulatoires réalistes. Par « réaliste », nous entendons des trajectoires régulières, qui varient lentement dans le temps et qui de plus doivent être réalisables par un locuteur humain. Pour cela, nous proposons une méthode de lissage non-linéaire basée sur un critère global de lissage de courbe. Ce critère est optimisé par une stratégie de programmation dynamique. Le résultat de ce lissage est ensuite régularisé à l’aide d’une méthode variationnelle qui minimise la distance acoustique et assure la régularité de l’évolution des paramètres articulatoires (chapitre 5). Nous avons évalué expérimentalement notre méthode d’inversion afin de vérifier le lissage des trajectoires articulatoires et la proximité acoustique (chapitre 6) avant de donner les perspectives de notre travail. xiii Introduction générale xiv Chapitre 1 Production de la parole et modèles articulatoires Introduction La production de la parole et sa modélisation numérique grâce à un synthétiseur articulatoire permettent de passer des paramètres articulatoires au signal acoustique. Ce passage n’est pas simple. En effet, il faut développer trois modèles : le modèle articulatoire, le modèle de passage de la coupe sagittale à la fonction d’aire et le modèle acoustique. Le modèle articulatoire permet d’interpréter en gestes articulatoires les déformations du conduit vocal. Il est donc très utile d’avoir des paramètres de contrôle du modèle correspondant à une réalité physique, c’est-à-dire à des articulateurs existant réellement dans le système humain de production de la parole. Il faut noter qu’un modèle articulatoire correspond à un locuteur particulier, et tout changement de locuteur devrait être accompagné par une adaptation du modèle au nouveau locuteur. Le modèle de passage de la coupe sagittale à la fonction d’aire permet d’obtenir une représentation du conduit vocal par une série de tubes qui sont pris en compte sous la forme de quadripôles électriques, grâce à l’analogie acoustique électrique, pour calculer le spectre de parole. Nous présentons d’abord un rapide aperçu de la physiologie du système de production de la parole, suivi par la présentation des trois modèles qui permettent de construire un synthétiseur articulatoire. Nous présentons comment l’adaptation d’un modèle articulatoire à un nouveau locuteur est réalisée dans le paragraphe consacré à la modélisation articulatoire. 1.1 La physiologie de la production de la parole Le système de production de la parole (voir Fig. 1.1) est composé de trois parties [Stevens, 1999a] : – le système sous-glottique ; – le larynx ; – le système supra-glottique. Durant la production de la parole voisée, une constriction dont l’aire varie périodiquement se forme à la base du conduit vocal au niveau des cordes vocales, situées dans le larynx. Cette région est appelée 1 Chapitre 1. Production de la parole et modèles articulatoires la glotte. Elle sépare les deux systèmes sous-glottique et supra-glottique. Le système sous-glottique est composé des poumons et de la trachée. C’est un générateur de débit d’air qui alimente le larynx. Ce dernier génère l’onde sonore, responsable de la production de la parole, par vibration des cordes vocales. Le système supra-glottique est constitué du conduit vocal et du conduit nasal. Le premier est composé du pharynx et de la bouche. Le pharynx est la partie verticale du conduit vocal située au-dessus du larynx. Le pharynx forme approximativement un angle de 90 degrés (pour une posture normale) avec la cavité buccale ou orale, qui se termine par les lèvres. À l’âge adulte, la longueur totale du conduit vocal est de l’ordre de 17 cm et l’aire de la section transversale modifiée par les articulateurs varie de zéro (fermeture complète) à 20 cm2 . Les articulateurs du conduit vocal sont principalement la mâchoire, la langue, les lèvres, le vélum et le larynx. Les cavités nasales peuvent se coupler en parallèle à la cavité orale. Elles sont comprises entre le vélum et les narines. Le vélum est responsable de l’aiguillage d’une partie de l’air vers la cavité nasale s’il est abaissé. F IG . 1.1 – Schéma de l’anatomie du conduit vocal (D’après [Flanagan, 1972]). 1.2 La synthèse articulatoire Le système de production humain a été largement étudié dans le but de le reproduire artificiellement, en utilisant des synthétiseurs articulatoires qui imitent le comportement du conduit vocal humain. Pour 2 1.3. Les modèles articulatoires construire un synthétiseur articulatoire, il faudrait élaborer les modèles suivants : 1. un modèle articulatoire capable de produire des coupes sagittales à partir des paramètres articulatoires, 2. un modèle de passage de la coupe sagittale à une fonction d’aire représentant le conduit vocal par un ensemble de tubes acoustiques équivalents. 3. un modèle acoustique permettant de passer de la fonction d’aire au signal de parole. Dans les sections suivantes nous présentons ces différents modèles. Vue l’importance de la modélisation articulatoire pour la synthèse articulatoire nous développons d’avantage cette partie et nous détaillons plus particulièrement le modèle articulatoire de Maeda [Maeda, 1979] sur lequel nous avons basé nos travaux. Nous présentons ce modèle ainsi que son adaptation pour un nouveau locuteur. 1.3 Les modèles articulatoires On peut classer les modèles articulatoires en deux grandes familles. Les modèles dynamiques ou biomécaniques et les modèles statiques. 1.3.1 Modèles biomécaniques Le modèle de Perkell [Perkell, 1974] est un exemple de modèle biomécanique. La production de la parole est décrite par la dynamique du système. Les structures musculaires sont simplifiées et modélisées par un système de ressorts et de masses. Le modèle prend en compte plusieurs propriétés physiologiques et biomécaniques de la langue : son anatomie musculaire, la conservation du volume musculaire, l’impénétrabilité de la paroi du conduit vocal, etc. La masse de la langue est concentrée en 16 points mobiles : 10 points se trouvent sur la surface de la langue et 6 à l’intérieur (voir Fig. 1.2). Ces points sont interconnectés entre eux et connectés aux structures fixes (exemple : mandibule, paroi du pharynx) par des éléments de tension. La tension est dite passive s’il s’agit de tissu connectif et active s’il s’agit de muscles. Les éléments de tension active représentent 10 muscles. Cette organisation en éléments de tension passive et active est basée sur une étude anatomique et une dissection de la langue. Les données géométriques permettant de déterminer la forme globale du conduit vocal sont obtenues à partir d’images cinéradiographiques. Dans [Kiritani et al., 1976], un modèle tridimensionnel a été proposé, permettant de mieux intégrer les propriétés physiologiques et biomécaniques de la langue3 , en se basant sur la méthode des éléments finis. Ce modèle a été amélioré, par la suite, en incluant le larynx et les lèvres. Les travaux nous venons de citer constituent les travaux précurseurs dans le domaine de la modélisation biomécanique. Depuis, ce domaine a connu un grand succès et de nombreuses améliorations ont été introduites (recours à des mesures des activités musculaires de plus en plus précises, modélisation tridimensionnelle, méthodes par éléments finis, etc) [Wilhelms-Tricarico, 1995; Dang and Honda, 1997; Payan and Perrier, 1997; Sanguineti et al., 1998; Lucero and Munhall, 1999]. 3 Dans le modèle de Perkell [Perkell, 1974], ces propriétés sont intégrées d’une manière approximative. 3 Chapitre 1. Production de la parole et modèles articulatoires Processus styloïde Palais mou Palais dur Apex Dos Ventre Corps de la langue Paroi postérieure du pharynx Base Mandibule Os hyoïde Epiglotte F IG . 1.2 – Modèle biomécanique de Perkell. Les points mobiles sont représentés par les grands cercles noirs. Les éléments de tension sont représentés par des lignes fines (continues et discontinues). (D’après [Perkell, 1996]). Bien qu’ils permettent de modéliser très finement les mouvements musculaires, les modèles biomécaniques sont difficiles à utiliser car il faut un grand nombre de paramètres nécessaires à la définition de la dynamique du modèle. 1.3.2 Modèles statiques Les modèles statiques sont beaucoup plus nombreux. Ils se basent sur une description simple du conduit vocal sans modéliser la structure interne complexe des articulateurs. En effet, le système musculaire du conduit vocal a plusieurs degrés de liberté, mais il est organisé en actions correspondant à très peu de degrés de liberté [Maeda, 1992]. La forme du conduit vocal peut être décrite par un petit nombre d’articulateurs fonctionnels commandés indépendamment. Les articulateurs fonctionnels peuvent être représentés approximativement par un ensemble d’éléments géométriques simples, comme c’est le cas dans le modèle de Mermelstein [Mermelstein, 1973], l’un des premiers modèles géométriques développés. Dans ce modèle, le corps de la langue est représenté par un arc circulaire de rayon constant. La mâchoire fait un mouvement angulaire et l’apex de la langue a la forme d’un segment de droite (voir Fig. 1.3). Ce modèle a permis de produire plusieurs variétés de sons voisés et non-voisés. Rubin et ses collègues [Rubin et al., 1981] ont étendu le modèle de Mermelstein afin d’étudier les aspects perceptifs et linguistiques des évènements articulatoires. Les modèles géométriques présentent, en général, des inconvénients liés à la mauvaise représentation de la réalité physique. La souplesse de la langue, par exemple, n’est pas prise en compte. Pour avoir un modèle reflétant une réalité physique, certains chercheurs ont utilisé des outils de traitement de signal sur des images radiographiques du conduit vocal. Dans le cas des travaux de [Liljencrants, 4 1.3. Les modèles articulatoires V + +C + + +J L T C - Centre du corps de la langue H - Hyoïde +H L - Hauteur et protrusion des lèvres J - Machoire T - Apex de la langue V - Vélum F IG . 1.3 – Modèle géométrique de Mermelstein (D’après [Mermelstein, 1973]). 1971], la langue est représentée par les premiers coefficients de la décomposition en série de Fourier de la forme de la langue dans un repère semi-polaire. Ce modèle met en évidence le fait que la géométrie de la langue dans le plan sagittal peut être contrôlée par un nombre restreint de paramètres. Les deux premiers coefficients de la série de Fourier suffisent à définir le contour du corps de la langue. L’apex de la langue est modélisé en utilisant la seconde harmonique. Ce modèle permet une description simple d’une grande variété des formes de la langue, mais il est peu probable que le cerveau pilote le conduit vocal en utilisant les séries de Fourier. En effet, il est difficile de trouver une interprétation en termes articulatoires des composantes extraites. Néanmoins, l’idée de développer un modèle articulatoire par l’analyse d’images radiographiques est à l’origine de plusieurs travaux utilisant des méthodes d’analyse factorielle et d’extraction de composantes principales. Dans le cas de Maeda [Maeda, 1979], la coupe sagittale du conduit exprimée dans un repère semi-polaire est donnée par un vecteur qui est la somme de composantes linéaires : z = A · y + z0 (1.1) où y est le vecteur des paramètres articulatoires, z0 est le vecteur moyen de z correspondant à la position neutre du conduit vocal et A est une matrice de coefficients de pondération, c’est-à-dire un ensemble de patrons définissant comment chaque composante contribue à z. L’ensemble des coefficients est déterminé à partir des matrices de corrélation calculées pour les vecteurs décrivant l’ensemble des observations sagittales. Les coefficients de pondération peuvent être déterminés en utilisant l’analyse factorielle, par exemple l’analyse en composantes principales [Harshman et al., 1977; Jackson, 1988]. Toutefois, cette méthode ne permet pas de forcer une ou plusieurs composantes à représenter explicitement l’un des articulateurs, en particulier la mâchoire. Dans [Maeda, 1979], ce problème a été résolu par une méthode généralisée de décomposition en facteurs orthogonaux [Overall, 1962], suivie par l’analyse en composantes principales. Pour le modèle articulatoire de Maeda, les données sont composées de 1000 images représentant le conduit vocal correspondant à 10 phrases énoncées par deux locutrices. Les images présentent la coupe sagittale du conduit vocal et une vue frontale de la forme des lèvres. Les contours de la coupe sagittale ont été tracés à partir de cineradiographies et de labiofilms à raison de 50 images par 5 Chapitre 1. Production de la parole et modèles articulatoires seconde [Maeda, 1990]. Le résultat de l’analyse est un modèle articulatoire décrit par sept paramètres (voir Fig. 1.4 et Fig. 1.5) : – – – – – – – P1- Position de la mâchoire ; P2- Position du corps de la langue ; P3- Forme du corps de la langue ; P4- Position de l’apex de la langue ; P5- Ouverture des lèvres ; P6- Protrusion des lèvres ; P7- Hauteur du larynx. P1 P2 P3 P5 P6 P7 P4 F IG . 1.4 – Les paramètres du modèle articulatoire de Maeda. Pour chaque paramètre Pi , nous présentons les déformations extrêmes de l’articulateur correspondant et la position moyenne de cet articulateur. Ces paramètres articulatoires varient entre plus ou moins trois écart type autour de leur moyenne. Ce choix d’intervalle est déduit de l’inégalité de Chebychev4 . Ce modèle permet de reconstruire la forme du conduit vocal avec une précision suffisante pour calculer les caractéristiques acoustiques de la parole. Ces paramètres peuvent être interprétés comme des paramètres naturels, c’est-à-dire des organes réels. Les modèles en composantes linéaires sont plus réalistes que ceux qui précèdent, car ils sont obtenus à partir de données radiographiques [Maeda, 1992]. Il existe plusieurs modèles dérivés de celui de Maeda. Certains modifient la modélisation de l’apex de la langue [Galván-Rdz, 1997] pour pouvoir modéliser les fricatives, ou bien en apportant quelques modifications au modèle afin de l’adapter à d’autres locuteurs [Mathieu and Laprie, 1997]. D’autres, s’inspirent du travail de Maeda pour créer un nouveau modèle articulatoire en apportant certaines améliorations, pour mieux modéliser la langue par exemple [Beautemps et al., 1996; Sorokin, 1992]. Dans [Sorokin, 1992], un modèle articulatoire basé sur des images radiographiques d’un locuteur a été présenté. Il est décrit par 17 paramètres articulatoires dont 5 décrivant la déformation élastique de la langue. Le modèle de Beautemps et ses collègues [Beaude Chebychev : pour tout nombre k supérieur à 1, au moins (1 − 1/k2 ) de la proportion des valeurs d’une distribution quelconque se situent à l’intérieur de k écart type de leur moyenne. Exemple : pour k = 3, au moins 88.8% des valeurs de la distribution se situent à l’intérieur de 3 écart type de la distribution. Cette valeur atteindra 99.7% si la distribution est normale. 4 Inégalité 6 1.4. Adaptation du modèle articulatoire de Maeda P6 P2 P5 P3 P1 P4 P7 F IG . 1.5 – Les paramètres du modèle articulatoire de Maeda. Les arcs orientés indiquent le sens de variation de chaque articulateur. temps et al., 1996] est décrit par 8 paramètres articulatoires. Dans ce modèle, la langue est contrôlée par 4 paramètres. Pour notre travail d’inversion acoustico-articulatoire, nous avons choisi le modèle articulatoire de Maeda. En effet, ce modèle est une représentation économique et réaliste des articulateurs du conduit vocal. Certes, il faut adapter le modèle de Maeda à tout nouveau locuteur, mais cet effort est faible par rapport à l’élaboration d’un nouveau modèle. Cependant, il est vrai qu’il présente un manque de précision dans le calcul de la position de l’apex de la langue [Gabioud, 1994], mais cela a plus d’effet sur les consonnes que sur les voyelles. Dans le cadre de notre travail de thèse, nous n’étudions que l’inversion des voyelles, ce qui rend le modèle de Maeda suffisant. L’élaboration d’un nouveau modèle articulatoire plus général tenant compte aussi bien de la production des voyelles que de celle des consonnes est envisagée dans nos travaux futurs. 1.4 Adaptation du modèle articulatoire de Maeda Le modèle articulatoire de Maeda a été construit à partir des images radiographiques d’une locutrice. Néanmoins, les tailles du pharynx et de la bouche diffèrent selon que la personne est un homme, une femme ou un enfant [Fant, 1975; Goldstein, 1980; Boë, 1997]. Le modèle est contrôlé par deux facteurs d’échelle qui agissent sur la longueur du pharynx et la longueur de la bouche. Pour cela, une adaptation du modèle passe par la détermination de ces deux facteurs. Nous présentons dans cette section deux méthodes d’adaptation du modèle. Une première effectue un étirement de la coupe sagittale du modèle articulatoire pour qu’il coïncide avec les images IRM du conduit vocal d’un nouveau locuteur. La seconde consiste à projeter des cibles acoustiques du locuteur sur celui du modèle, afin de retrouver les facteurs d’échelle. 7 Chapitre 1. Production de la parole et modèles articulatoires 1.4.1 Adaptation par utilisation des images IRM Dans [Mathieu and Laprie, 1996; Mathieu and Laprie, 1997], les images IRM du conduit vocal du sujet SM, ont été utilisées et la parole correspondante a été enregistrée. Trois séries d’images ont été réalisées pour les voyelles du français : Une série de coupes sagittales passant par le sillon de la langue et deux dans des plans parallèles à 5 mm de distance. À partir de ces images, les contours ont été extraits manuellement et projetés sur la grille semi-polaire permettant de repérer les contours dans le modèle de Maeda. L’acquisition des images IRM produit un bruit très important qui empêche l’analyse de la parole produite. Pour effectuer l’enregistrement des voyelles prononcées par le locuteur, l’environnement acoustique de l’acquisition a été reproduit en faisant écouter au sujet l’enregistrement du bruit de la machine IRM à l’aide d’un casque. Les contours extraits ont été superposés sur la coupe sagittale du modèle de référence, ce qui a permis de déterminer les deux coefficients d’échelle (longueur du pharynx, longueur de la bouche). Le pharynx du sujet SM est supérieur de 18% à celui du modèle et la bouche est plus grande de 8%, ce qui est conforme avec la littérature [Fant, 1975]. /a/ /u/ /y/ /i/ F IG . 1.6 – Contours de la coupe sagittale pour différentes voyelles du français. Ces contours sont extraits des images IRM du locuteur SM. Les formes de la paroi dans chaque cas sont presque les mêmes, et correspondent à la paroi dure trouvée dans les modèles existants. Ce nouveau modèle ne permet pas d’atteindre certaines voyelles, et par conséquent, on ne peut pas couvrir tout l’espace acoustique. Cela peut s’expliquer par une insuffisance de la formule de passage de la coupe sagittale à la fonction d’aire qui n’a pas été validée formellement faute de disposer de la troisième dimension. De plus, la technique d’acquisition des images n’est pas la même que celle qui a servi 8 1.4. Adaptation du modèle articulatoire de Maeda Paroi non modifiée Paroi modifiée F IG . 1.7 – Comparaison entre les deux parois. En trait continu, nous présentons la paroi modifiée et en trait discontinu, la paroi originale largement utilisée dans la modélisation articulatoire. La différence se situe principalement au niveau de la région palatale et de la région pharyngale. à l’élaboration du modèle. Enfin, la présence du bruit de la machine et la position anormale du locuteur SM dans la machine peuvent expliquer ce problème. Pour ces raisons, Mathieu [Mathieu, 1999] a proposé de perturber la forme de la paroi dure du conduit vocal. C’est un processus d’optimisation itératif du contour extérieur qui conduit à une meilleure adéquation entre la parole naturelle et celle du modèle. En apportant cette modification, l’espace acoustique du locuteur est entièrement couvert par le modèle. Néanmoins, nous avons quelques réserves sur cette méthode. Tout d’abord, la technique d’enregistrement des voyelles ne permet pas de reproduire les mêmes voyelles que celles produites lors de l’acquisition des images IRM. Il n’y a pas de garanties que le locuteur a prononcé la même voyelle tout au long de l’enregistrement des images. En effet, le locuteur doit prononcer une voyelle pendant quelques secondes, c’est-à-dire le temps de l’acquisition des images. Malgré l’entraînement de ce locuteur, cette contrainte n’a pas été totalement respectée. La modification de la paroi dure du conduit vocal du modèle présente certes des avantages concernant la couverture de l’espace acoustique, mais elle conduit aussi à des inconvénients substantiels. En effet, comme le montrent les Fig. 1.6 et Fig. 1.7, la paroi obtenue n’a rien de naturel et ne correspond à aucune image prise parmi les images IRM du locuteur SM. Toute étude concernant les lieux de constriction et la comparaison de ces lieux avec ce que l’on obtient dans d’autres travaux n’est pas envisageable dans de bonnes conditions. Cela limite donc l’utilisation du modèle à la seule tâche de la récupération des trajectoires articulatoires car l’étude des caractéristiques des voyelles est très difficile. Pour éviter ces problèmes, nous avons opté pour l’utilisation de la méthode d’adaptation proposée par Galván-Rdz [Galván-Rdz, 1997] qui permet d’assurer la couverture de l’espace acoustique du locuteur. 9 Chapitre 1. Production de la parole et modèles articulatoires 1.4.2 Adaptation par normalisation de l’espace acoustique Dans cette méthode, il s’agit de trouver les deux coefficients de l’élongation du pharynx et l’élongation de la partie orale (la bouche) à partir des formants des voyelles extrêmes. Ces derniers sont comparés à ceux du modèle de référence, pour pouvoir estimer les dimensions du conduit vocal du locuteur. Étant donné que la relation entre les formants et les dimensions du conduit vocal n’est pas simple, Galván-Rdz propose de faire un échantillonnage hexagonal de l’espace bouche-pharynx et d’obtenir les formants des voyelles extrêmes pour chacune des paires (bouche, pharynx). Pour chaque voyelle, seuls les trois premiers formants sont pris en compte. Cela donne, pour chaque point dans l’espace IR2 un point correspondant dans l’espace IR12 (quatre voyelles avec trois formants chacune). Ainsi, un maillage est construit dans l’espace IR2 et un maillage correspondant dans l’espace IR12 (voir Fig. 1.8). Maillage de l’espace R I2 1.5 Maillage de l’espace R I 12 0.4 1.4 coe f pharynx 0.2 1.3 0 1.2 −0.2 1.1 −0.4 1 1 0.9 0.75 0 0.8 0.85 0.9 0.95 1 1.05 coe fbouche 1.1 1.15 1.2 1.25 −1 −1 −0.5 0 0.5 1 F IG . 1.8 – Échantillonnage des coefficients coe fbouche (bouche) et coe f pharynx (pharynx) et le maillage correspondant en IR12 . Seules les trois composantes principales de l’espace IR12 sont représentées.(D’après [Galván-Rdz, 1997]) Les valeurs des coefficients correspondant au pharynx et à la bouche d’un locuteur quelconque sont calculées de la manière suivante (pour les détails, voir [Galván-Rdz, 1997]) : 1. Un point Pl dans l’espace IR12 est construit, correspondant aux trois formants de chacune des quatre voyelles extrêmes ; 2. Pl est projeté sur le maillage de l’espace IR12 ; 3. Les valeurs des coefficients (bouche-pharynx) constituent le point correspondant sur le maillage de l’espace IR2 . Nous avons utilisé cette méthode pour effectuer l’adaptation. En partant du modèle articulatoire de Maeda correspondant à une locutrice, nous avons obtenu les coefficients suivants pour un nouveau locuteur, qu’on désigne par YL : – coe fbouche = 1.039 (le pharynx) – coe f pharynx = 1.038 (la bouche) Ce qui revient à dire que le locuteur YL présente une cavité pharyngale 3.9% plus grande que le modèle de référence correspondant à une locutrice et une cavité orale 3.8% plus grande que le modèle 10 1.4. Adaptation du modèle articulatoire de Maeda de référence. Dans la Fig. 1.9, nous présentons la couverture acoustique du modèle adapté à notre locuteur. Nous présentons aussi les voyelles extrêmes du locuteur YL. Il est clair que l’espace acoustique du locuteur est entièrement couvert par le modèle. Malheureusement, cela ne permet pas de confirmer que ces facteurs d’échelles sont réalistes, c’est-à-dire la coupe sagittale obtenue par le modèle adapté au sujet YL ne correspond pas forcément à la coupe sagittale réelle du sujet YL. Nous utilisons ce modèle tout au long de ce document. 11 Chapitre 1. Production de la parole et modèles articulatoires F IG . 1.9 – La couverture acoustique du modèle dans les plans F1/F2, F1/F3 et F2/F3. 12 1.5. Le passage de la coupe sagittale à la fonction d’aire 1.5 Le passage de la coupe sagittale à la fonction d’aire À partir des paramètres articulatoires, le modèle articulatoire produit les coupes sagittales. Il s’agit maintenant de passer de la coupe sagittale du conduit vocal à sa fonction d’aire. Ce passage est difficile à cause de la forme irrégulière du conduit vocal. F IG . 1.10 – Coupes du conduit vocal réalisées dans un moulage de cadavre. (a) la coupe sagittale, (b) les sections transversales (D’après [Calliope, 1989]). En effet, dans la Fig. 1.10, nous présentons des coupes du conduit vocal réalisées dans un moulage de cadavre [Sanchez and Boë, 1984]. Ce moulage a été découpé transversalement en dix sections. Il est clair que les formes des dix sections sont irrégulières5 . Le modèle de passage influence directement la fidélité de la production des sons du synthétiseur par rapport à la production de parole d’un conduit vocal humain. L’information contenue dans la coupe sagittale est insuffisante pour obtenir une bonne estimation de la fonction d’aire. Ainsi, plusieurs études ont été consacrées au développement de modèles de passage de la coupe sagittale à la fonction d’aire. Heinz et Stevens [Heinz and Stevens, 1965] sont les précurseurs. La fonction d’aire A, c’est-à-dire l’aire transversale à chaque section de la coupe sagittale, est donné par : A(x) = α(x) · d(x)β(x) (1.2) où x est la position dans le conduit vocal depuis la glotte, d la distance sagittale dans une direction normale au flux d’air. α et β sont des coefficients empiriques variant suivant la région du conduit vocal et dépendant du locuteur. Par exemple, dans [Perrier et al., 1992], β = 1.5 et α dépend d’une part de la région du conduit vocal et d’autre part de la valeur de la variable d. Dans [Beautemps et al., 1995], un modèle plus élaboré a été 5 Un découpage en sections analogue à celui-ci a été présenté aussi dans [Baer et al., 1991] sur des images IRM. 13 Chapitre 1. Production de la parole et modèles articulatoires présenté. La fonction d’aire A est décrite sous la forme polynomiale suivante : A(x) = α1 (x) · d + α2 (x) · d 1.5 + α3 (x) · d 2 + α4 (x) · d 2.5 (1.3) avec αi des fonctions développées en séries de Fourrier au troisième ordre dont les coefficients sont optimisés pour minimiser la distance entre les formants calculés à partir des fonctions d’aires et ceux mesurés. Dans tous ces travaux le passage de la coupe sagittale à la fonction d’aire n’est qu’une approximation. Ceci explique pourquoi un certain nombre de spectres de parole produits par le locuteur ne peuvent pas être reproduits par le synthétiseur articulatoire. Une meilleure solution à ce problème est l’élaboration d’un modèle articulatoire tridimensionnel à condition qu’il soit suffisamment précis. De tels modèles sont en cours de développement en exploitant des images de résonance magnétique [Badin et al., 1998; Engwall, 1999; Yehia and Tiede, 1997]. 1.6 La simulation acoustique du système de production de la parole Dans cette section, nous présentons la simulation acoustique du système de production de la parole. Nous ne détaillons que le cas du conduit oral, permettant d’avoir une idée sur la méthode générale de simulation acoustique. Les sources et le conduit nasal sont évoqués brièvement. 1.6.1 Les sources Il existe trois types de sources : – au niveau des cordes vocales qui sont simulées, par exemple, par un modèle à deux masses vibrantes [Ishizaka and Flanagan, 1972], – au niveau d’une constriction très étroite dans le conduit vocal, ce sont les bruits de friction qui correspondent aux sons fricatifs, – au niveau d’une fermeture complète en un point (labial, dental ou palatal), créant une pression derrière l’occlusion, qui chute brusquement après l’ouverture du conduit vocal, en créant un écoulement de bruit turbulent au niveau de la constriction qui se relâche. Pour la simulation des bruits, il suffit de rajouter les sources au voisinage de la constriction. Pour les bruits accompagnant la rupture de l’occlusion, la simulation est plus difficile [Flanagan, 1972]. 1.6.2 La simulation acoustique du conduit vocal Vue la complexité de sa forme géométrique, le conduit vocal [Flanagan, 1972], est souvent approché par une série de tubes cylindriques élémentaires de section fixe (voir Fig. 1.11). Les caractéristiques du conduit vocal peuvent être représentées par la fonction d’aire qui spécifie la section transversale depuis la glotte jusqu’aux lèvres (voir Fig. 1.12). 14 1.6. La simulation acoustique du système de production de la parole Cavité nasale Nez (narines) Pharynx Bouche (lèvres) Cavité buccale F IG . 1.11 – Simulation du conduit vocal par des tubes. (cm²) Glotte Lèvres Pharynx Bouche (cm) F IG . 1.12 – Fonction d’aire caractérisant le conduit vocal. Soit A(x) cette fonction d’aire, où x est la position dans le conduit vocal (x = 0 pour la glotte et x = longueur du conduit vocal pour les lèvres). Soient P la pression dans le conduit vocal, U le débit volumique, ρ0 la densité de l’air et c la célérité du son. L’énergie des sons vocaliques étant principalement concentrée au-dessous de 5 kHz, le système acoustique peut être approché par l’équation d’onde unidimensionnelle : 1 ∂ ∂P 1 ∂2 P (1.4) A(x) + 2 2 =0 A(x) ∂x ∂x c ∂t Cette équation est connue sous le nom d’équation de Webster [Landau and Lifchitz, 1989]. La résolution de cette équation donne la pression en fonction de x et de t (pour les détails des équations de l’acoustique, voir [Landau and Lifchitz, 1989] pour les fondements physiques et [Calliope, 1989] pour le cas des tubes acoustiques). 15 Chapitre 1. Production de la parole et modèles articulatoires Quantités acoustiques P : pression U : débit volumique ρ/A : inductance acoustique ou inertance A/ρc2 : capacité acoustique ou compliance due à la compressibilité de l’air S A2 ωρµ 2 Quantités électriques analogues V : tension I : courant L : inductance C : capacité : pertes dues à la friction visqueuse des parois du R : résistance tube λω S η−1 2c p ρ : pertes thermiques ρc2 G : admittance TAB . 1.1 – Analogie acoustique - électrique [Flanagan, 1972]. Avec A l’aire du tube, S la circonférence, ρ la densité de l’air, c la célérité du son, µ le coefficient de viscosité, λ le coefficient de conduction de la chaleur, η la constante adiabatique et cρ la capacité calorifique à pression constante. Les caractéristiques de la propagation du son dans un tube sont facilement décrites en utilisant l’analogie entre les grandeurs électriques et acoustiques [Flanagan, 1972]. En effet, la pression et le débit volumique pour la propagation d’une onde plane dans un tube uniforme obéissent à la même équation d’onde que la tension et le courant électrique dans un quadripôle. Cela permet de faire l’analogie entre un tube et un quadripôle. L/2 dx R/2 I I+dI I P A P+dP E C E+dE G I+dI I L/2 R/2 I+dI dx F IG . 1.13 – L’analogie entre un tube acoustique élémentaire et un quadripôle électrique équivalent. Le quadripôle équivalent à une portion d’un tube avec pertes est représenté dans la Fig. 1.13. La Tab. 1.1 présente les correspondances des quantités dans l’analogie acoustique-électrique. Afin d’utiliser cette analogie, nous présentons d’abord les équations différentielles donnant la tension E et l’intensité I par unité de longueur dx (sous l’hypothèse que ces deux grandeurs varient sinusoïdalement (Ee jωt , Ie jωt ), avec ω la pulsation) : dI = −Eydx (1.5) dE = −Izdx Avec y = G + jωC et z = R + jLω. La tension et l’intensité vérifient alors le système suivant : 2 d E − yzE = 0 dx2 d2I − yzI = 0 dx2 16 (1.6) 1.6. La simulation acoustique du système de production de la parole Les solutions du système sont : E = A1 eγx + B1 e−γx I = A2 eγx + B2 e−γx (1.7) √ Avec γ = zy = α + jβ est la constante de propagation, les constantes A1 , A2 , B1 et B2 sont déterdI minées par l’expression des conditions aux limites sur E(x = 0), I(x = 0), dE dx (x = 0) et dx (x = 0). En considérant une section de longueur l de la ligne de transmission, les valeurs d’entrée du quadripôle E1 et I1 sont liées aux valeurs de sortie du quadripôle E2 et I2 par la relation : E2 = E1 coshγl − I1 yz sinhγl (1.8) I2 = I1 coshγl − E1 y sinhγl z que nous pouvons écrire sous la forme matricielle : z sinh γl cosh γl − y E1 E1 E2 E2 = ⇐⇒ =T · I2 I1 I2 I1 − y sinh γl cosh γl (1.9) z ou encore : E1 I1 cosh γl = y z sinh γl z y sinh γl cosh γl E2 I2 ⇐⇒ E1 I1 =T· E2 I2 (1.10) C’est une relation linéaire entre l’entrée et la sortie du quadripôle (par analogie, entre la pression acoustique et le débit volumique à l’entrée et à la sortie du tube). La matrice T (matrice de transfert) lie les vecteurs d’entrée et de sortie. Pour une succession de tubes, on obtient : Modélisation acoustique P Pg = T0 · T1 · T2 · · · · · Tn Ug U Modélisation électrique E Eg = T0 · T1 · T2 · · · · · Tn Ig I (1.11) (1.12) L’indice représente les lèvres et g la glotte. Pg indique la pression à la glotte, Eg la tension électrique au niveau du quadripôle simulant le premier tube au niveau de la glotte, etc. Le système peut être écrit de nouveau, en représentant le produit des matrices Ti par une matrice 2 × 2 dont les composantes sont A, B, C et D, comme suit : Dans le domaine électrique : Eg = AE + BI , Ig = CE + DI (1.13) 17 Chapitre 1. Production de la parole et modèles articulatoires Dans le domaine acoustique : Pg = AP + BU , Ug = CP + DU (1.14) U La pression acoustique étant nulle au niveau de la bouche, P = 0(E = 0), la fonction de transfert U g du conduit est donnée par : 1 U (1.15) = Ug D Les formants correspondent à la maximisation du rapport 1.6.3 U Ug , ce qui revient à minimiser D. La simulation acoustique du conduit nasal Le traitement des conduits oral et nasal est plus difficile à réaliser. Le couplage des deux cavités constitue un système complexe. Néanmoins, il peut être traité simplement par analogie acoustiqueélectrique ou simulation numérique. Il suffit de supposer que le conduit nasal est un tube acoustique branché en parallèle avec le tube correspondant au conduit buccal et au tube représentant le pharynx (voir Fig. 1.11). L’équivalent électrique est donné dans Fig. 1.14. Cavité nasale Zan Zan Zrn Zbn Zap Zg Zap Zab Zab Zbb Zbp Zrb Cavité buccale Pharynx Vélum F IG . 1.14 – L’équivalent électrique de la combinaison des conduits vocal et nasal (D’après [Flanagan, 1972]). Les Zi sont les impédances équivalentes de la représentation par quadripôles. Conclusion Nous avons vu dans ce chapitre comment le système de production humain peut être simulé numériquement. Le module fondamental de cette simulation est le modèle articulatoire. L’utilisation d’un modèle existant devrait être précédée par une phase d’adaptation. L’avantage d’une telle approche est d’utiliser un modèle articulatoire existant sans apporter de modifications très importantes. Pour cette adaptation, nous avons vérifié la bonne couverture de l’espace acoustique du locuteur. Néanmoins, nous pensons qu’il est plus intéressant d’étudier si les changements de taille du conduit vocal correspond bien au nouveau locuteur. Les méthodes d’inversion présentées dans les chapitres suivants, sont basées sur un synthétiseur articulatoire. Il est utilisé soit pour la construction d’un tableau de paires (une configuration articulatoire, une configuration acoustique) soit pour optimiser les résultats de l’inversion. En effet, cela est inévitable puisque la résolution du problème d’inversion exploite la synthèse articulatoire. 18 Chapitre 2 Méthodes d’inversion acoustico-articulatoire existantes Introduction L’inversion est difficile à cause de plusieurs problèmes qui sont principalement la non-unicité et la non-linéarité de la relation entre les domaines articulatoire et acoustique. Plusieurs méthodes ont été développées pour effectuer l’inversion. Ces méthodes comportent très souvent deux phases : la recherche d’une solution initiale suivie d’une phase d’optimisation. Les solutions initiales sont généralement récupérées à partir d’une table, appelé aussi codebook, et contenant un grand nombre de paires (vecteur articulatoire, vecteur acoustique) calculées par un synthétiseur articulatoire. Afin d’expérimenter trois des méthodes les plus utilisées pour construire un codebook, nous avons réalisé une étude comparative de ces méthodes. Nous présentons également les faiblesses de ces méthodes ainsi que les raisons expliquant les difficultés rencontrées lors de la construction de tels codebooks. 2.1 Étude de l’inversion acoustico-articulatoire en tant que problème malposé 2.1.1 L’inversion est un problème mal-posé Le problème de l’inversion acoustico-articulatoire peut être représenté par l’équation suivante : A(x) = b (2.1) Avec A : X → B est une transformation (opérateur) non-linéaire de X dans B, X le domaine des paramètres articulatoires et B le domaine des paramètres acoustiques. x est le vecteur articulatoire qui est inconnu et b son correspondant acoustique. La valeur de b est une approximation mesurée à partir du signal de la parole. En réalité, l’opérateur A exprimant la relation entre les deux domaines n’est également qu’une approximation. 19 Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes D’après Hadamard [Hadamard, 1923], un problème est dit bien posé s’il admet une solution (Existence), si elle est unique (Unicité) et si elle est stable (Stabilité). Le problème est dit mal posé si au moins une de ces trois propriétés n’est pas vérifiée. D’une façon générale, les problèmes d’inversion du conduit vocal sont mal-posés. La première propriété (existence) dépend de la fidélité du modèle mathématique de production de parole. Il est très difficile voire impossible de montrer si un modèle est capable de produire tous les vecteurs acoustiques du signal de la parole [Sorokin et al., 2000]. Concernant la seconde propriété (unicité), il est bien connu qu’il existe une infinité de fonctions d’aires qui produisent le même ensemble de formants [Atal et al., 1978] d’où la non-unicité de l’inversion dans le cas général. Pour ces raisons, l’inversion acoustico-articulatoire est considérée comme étant un problème malposé. 2.1.2 Le principe de résolution de l’inversion Pour la résolution des problèmes mal-posés, les méthodes d’optimisation sont souvent appliquées pour sélectionner une solution parmi un ensemble de « quasi-solutions ». On les appelle aussi solutions initiales, vu qu’elles initialisent le processus d’optimisation. Pour le problème d’inversion acoustico-articulatoire, ces « quasi-solutions » sont le résultat d’une recherche dans une mémoire associative qui peut être implémentée par un codebook ou un réseau de neurones artificiels. Dans le premier cas, il s’agit de réunir un certain nombre de vecteurs articulatoires et leurs correspondants acoustiques. Dans le deuxième cas, il s’agit de faire apprendre la relation articulatoire-acoustique par un réseau de neurones. Pour sélectionner une solution, on définit une fonctionnelle Ω(x). Il s’agit de trouver les solutions Ω-optimales, c’est-à-dire les éléments x ∈ X pour lesquels on a : Ω(x) = min{Ω(x) tel que x ∈ X ∗ } (2.2) où X ∗ est l’ensemble de toutes les « quasi-solutions ». Une quasi-solution Ω-optimale minimise la fonctionnelle Ω. Pour le problème de l’inversion, Shirai [Shirai, 1983] a utilisé la fonctionnelle : Ω(x) = ||x − x0 ||2 (2.3) où x0 est le vecteur articulatoire correspondant à la position neutre du conduit vocal. Sorokin [Sorokin, 1994], lui, a utilisé une distance pondérée. Notons que l’équation (2.3) peut être considérée comme l’énergie potentielle associée au problème. C’est le cas dans [Schoentgen and Ciocea, 1997] où l’on utilise l’énergie pseudo-potentielle et l’énergie pseudo-cinétique pour résoudre le problème d’inversion. Les méthodes de régularisation sont utilisées pour trouver la solution optimale x au sens de Ω. Les régulariseurs les plus utilisés sont les régulariseurs variationnels. Il s’agit d’approximer la solution sous certaines contraintes d’une manière itérative. La plupart des méthodes d’inversion existantes suivent ce principe général de résolution. On commence par récupérer les « quasi-solutions » à partir d’un codebook ou en utilisant des réseaux de neurones. Ensuite, une solution ou N solutions parmi les « quasi-solutions » sont sélectionnées selon un 20 2.2. Méthodes existantes critère de choix donné qui est généralement la régularité des trajectoires articulatoires. Lors de cette phase, on ajoute généralement des contraintes pour réduire le nombre de solutions. L’introduction des contraintes peut être faite lors de la première phase, lors de la construction du codebook ou lors de l’apprentissage par un réseau de neurones. 2.1.3 Résolution du problème de la non-unicité par l’introduction de contraintes Comme nous l’avons déjà dit, la relation articulatoire-acoustique n’est pas biunivoque. Afin de réduire cette ambiguïté, il est possible d’introduire des contraintes. Schroeder [Schroeder, 1967], par exemple, propose de contraindre le système d’inversion en approchant la fonction d’aire par son développement en série de Fourier à un ordre égal au nombre de formants fournis en basse fréquence. Néanmoins, il est intéressant d’avoir des contraintes « naturelles », c’est-à-dire liées au processus de production de parole. En effet, il est probable que de telles contraintes existent, puisque dans la théorie du contrôle moteur, l’organisme résoud très fréquemment des problèmes inverses. Pour cela, il faut trouver des contraintes, assez fortes, suffisantes et fondées d’un point de vue anthropomorphique, pour obtenir une solution optimale. Si de telles contraintes existent, le problème de l’inversion se rapproche alors d’un problème bien-posé. Certaines contraintes « naturelles » ont été identifiées. On peut citer, par exemple, des contraintes musculaires sur l’accélération des articulateurs, des contraintes physiques sur les variations des paramètres articulatoires (il existe des intervalles que ces paramètres ne peuvent pas dépasser), des contraintes de dépendance mutuelle entre les paramètres articulatoires et des contraintes sur les fonctions d’aire. Dans [Sorokin et al., 2000], les auteurs présentent sept familles de contraintes « naturelles ». Cela dit, il faut faire très attention au choix des contraintes. En effet, le choix de contraintes purement mathématiques non fondées physiologiquement peut éliminer des solutions réalistes pour l’inversion. En fait, ce que nous reprochons aux méthodes existantes est qu’elles exploitent, voire abusent, des effets compensatoires du conduit vocal ce qui peut fausser l’interprétation des résultats de l’inversion. Ceci résulte de l’absence d’un nombre de points suffisamment représentatifs des non-linéarités de la relation articulatoire-acoustique dans le codebook qui fournissant les solutions initiales (voir section 2.3). L’exigence d’un nombre suffisant de solutions initiales est très importante surtout si l’on veut conduire une étude minutieuse des différentes formes du conduit vocal associées à certains phonèmes et elle est impérative si l’on veut étudier les différentes trajectoires articulatoires réalistes, c’est-à-dire réalisables par le locuteur. Pour toutes ces raisons, et en absence de connaissances approfondies des contraintes « naturelles », il est plus prudent de garder un grand nombre de solutions récupérées à partir d’un codebook et de retarder l’introduction des contraintes. 2.2 Méthodes existantes Dans cette section, nous présentons des méthodes d’inversion acoustico-articulatoire utilisées pour résoudre le problème d’inversion en appliquant, sous diverses formes, le principe général de résolution présenté dans la section précédente. Dans la section suivante, nous entamons la présentation de l’une des premières méthodes d’inversion connue. D’autres méthodes ont pour but de récupérer des trajectoires articulatoires réalistes, c’est-à-dire réalisables par un locuteur humain, donc, qui varient lentement et régulièrement dans le temps. Nous les 21 Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes avons regroupé en deux classes pour les présenter : les méthodes par optimisation et les méthodes par réseaux de neurones. 2.2.1 L’inversion par une procédure de tri Nous commençons par présenter les travaux de Atal et ses collègues [Atal et al., 1978] qui sont parmi les premiers travaux de référence de l’inversion acoustique-articulatoire. Ils présentent une méthode d’inversion pour déterminer la fonction d’aire à partir des données acoustiques. Ils utilisent le modèle articulatoire de Stevens et House [Stevens and House, 1955] pour générer 30720 formes de conduit vocal et les formants correspondants. Ces paires de vecteurs articulatoires-acoustiques sont triées selon les vecteurs acoustiques et organisées dans des « cubes »6 de même volume dans l’espace acoustique (dont les dimensions sont les trois premiers formants). Pour déterminer les solutions inverses, Atal et ses collègues [Atal et al., 1978] proposent de linéariser localement la relation articulatoire-acoustique. Par conséquent, dans une région proche d’un point articulatoire x0 dont l’image acoustique est y0 , y (le vecteur acoustique correspondant à un point articulatoire x à trouver) est approché par l’application linéaire : y ≈ y0 + B(x − x0 ) (2.4) où B est une matrice des dérivées partielles de la relation articulatoire-acoustique. La résolution de cette équation, par des techniques de l’algèbre linéaire, permet de décrire les solutions de l’inversion. Dans [Atal et al., 1978], les auteurs ont étudié en particulier l’inversion des voyelles de l’anglais américain. Ils ont présenté les solutions par des fibres articulatoires, c’est-à-dire des régions dans lesquelles la variation articulatoire n’entraîne pas de variation acoustique. Les solutions constituants ces fibres sont choisies et organisées pour avoir des trajectoires lisses et non chaotiques. Malheureusement, ce travail n’a pas été poursuivi. En effet, il aurait été préférable d’appliquer cette méthode en utilisant d’autres modèles articulatoires plus réalistes, c’est-à-dire contrôlés par des paramètres articulatoires correspondants à des articulateurs physiologiques. De plus, cette méthode d’inversion n’a pas été appliquée sur des segments de parole réelle pour récupérer des trajectoires articulatoires réalistes au lieu de se restreindre à l’étude des voyelles. 2.2.2 Méthodes par optimisation Elles consistent à agir sur les paramètres articulatoires ou sur la fonction d’aire afin d’obtenir des paramètres acoustiques correspondant à ceux mesurés. Ces méthodes se basent sur la minimisation d’une fonction de coût définie par une distance spectrale ou acoustique entre les paramètres acoustiques générés et ceux mesurés. Un minimum local de la fonction de coût est atteint si son gradient s’annule Quand le nombre des paramètres articulatoires est plus grand que celui des paramètres acoustiques, la solution n’est pas unique [Atal et al., 1978] et il faut faire un choix parmi un grand nombre de vecteurs articulatoires correspondant à un même vecteur acoustique. La forme initiale du conduit vocal peut être choisie d’une manière aléatoire, par une méthode heuristique, ou par une recherche dans une liste 6 En réalité, ce sont des hexaèdres dont la longueur des deux cotés correspondant aux deux premiers formants est de 50 Hz et la longueur du troisième coté correspondant au troisième formant est de 100 Hz. 22 2.2. Méthodes existantes d’exemples (un tableau ou encore un codebook). La solution produite par une méthode par optimisation dépend fortement de la solution initiale. Ce problème se résoud généralement en ajoutant des contraintes ou en réévaluant les fonctions d’optimisation après une perturbation des paramètres du système, ou encore en utilisant des techniques de programmation dynamique. La forme la plus simple pour implémenter une méthode d’optimisation est d’utiliser la programmation dynamique à la suite d’un choix de solutions initiales. Ces dernières sont obtenues en utilisant un codebook [Schroeter and Sondhi, 1992; Richards et al., 1997] ou en utilisant un réseau de neurones [Rahim et al., 1993]. Dans certains cas, et après le choix des solutions initiales, on utilise un algorithme génétique combiné avec un modèle articulatoire dynamique [McGowan, 1994] ou plus généralement une méthode de régularisation [Sorokin and Trushkin, 1996]. Cette famille de méthodes est basée sur le calcul d’une distance qui sera le critère de jugement pour l’optimisation. La distance acoustique peut être une simple distance euclidienne, ou encore une distance perceptive [Ghitza and Sondhi, 1997]. La distance articulatoire peut être une distance euclidienne entre les différents paramètres articulatoires, ou bien la déformation entre deux coupes sagittales, ou encore une distance plus complexe qui tient compte de l’effort musculaire sous la forme de l’énergie produite pour passer d’une forme de conduit vocal à une autre [Sorokin, 1987]. Dans les travaux de Sorokin [Sorokin, 1992; Sorokin and Trushkin, 1996], on minimise l’effort des articulateurs pour passer d’une configuration à une autre. L’équation dynamique de chaque paramètre articulatoire si est donnée sous la forme d’une équation différentielle du second degré : mi si + χi si + ci si = Gi (2.5) Où mi est l’équivalent de la masse attachée à un organe articulatoire, χi le coefficient de la friction visqueuse correspondante, ci le coefficient de la résistance élastique correspondante et Gi la commande motrice. Dans ce processus d’optimisation, les coefficients ci cos ϕi sont utilisés au lieu de ci , avec ϕi l’angle entre la direction de l’effort musculaire Gi et la direction du mouvement de l’organe articulatoire. Les auteurs de la méthode proposent de minimiser l’effort, exprimé en travail énergitique Wi : Wi = ci (cos ϕi )s2i (2.6) Afin de tenir compte de l’effort acoustique, la valeur D de la distance entre les formants mesurés et les formants calculés pendant la procédure d’optimisation est ajoutée à l’expression (2.6). La quantité φ à minimiser, par une approximation linéaire progressive, est donc : N φ = ∑ ci (cos ϕi )s2i + D (2.7) i où N est le nombre de paramètres articulatoires. Cette méthode, comme les autres, requiert une solution initiale proche de la solution finale pour donner des résultats précis. 23 Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes 2.2.3 Méthodes par réseaux de neurones Un réseau de neurones est généralement organisé en plusieurs couches de neurones artificiels. Une couche peut être une couche d’entrée, une couche cachée ou bien une couche de sortie. La couche d’entrée reçoit les données et la couche de sortie fournit les résultats du traitement. Ces deux couches sont liées entre elles par l’intermédiaire d’une ou de plusieurs couches inaccessibles de l’extérieur appelées couches cachées. Les neurones sont interconnectés avec d’autres neurones de la même couche ou bien de couches différentes. Deux neurones i et j connectés entre eux ont un poids wi j qui exprime l’effet du signal émis par le neurone j sur le neurone i. Chaque neurone est caractérisé par une fonction d’activation qui détermine son état en fonction du niveau d’activation des entrées reçues par les neurones de la couche précédente. Un réseau de neurones doit passer par une phase d’apprentissage automatique pour pouvoir traiter correctement les données. Cette phase d’apprentissage consiste à ajuster les poids de chaque connexion jusqu’à ce que la sortie du réseau soit suffisamment cohérente vis-à-vis de la sortie demandée. Cela implique qu’il faut disposer d’un corpus d’apprentissage. Ce corpus contient les données qui vont être passées aux entrées des neurones et les réponses exactes, ou bien les sorties désirées, pour chaque neurone à la sortie du réseau. Cela est surtout valable pour les réseaux supervisés. Lors de la phase de rétro-propagation des erreurs, les poids des connexions sont réajustés pour minimiser les erreurs au niveau des neurones. La phase d’apprentissage est effectuée une fois pour toute. Le réseau de neurones sera utilisé en lui fournissant seulement les données à l’entrée du réseau. Les réseaux de neurones ont été utilisés pour l’inversion acoustico-articulatoire dans plusieurs travaux [Soquet et al., 1991; Rahim and Goodyear, 1990; Shirai and Kobayashi, 1991; Papcun et al., 1992; Atal and Rioul, 1989]. Ils sont utilisés pour améliorer une solution initiale obtenue par inversion en utilisant un codebook. Ils sont également utilisés pour effectuer un apprentissage à partir des données du codebook pour approcher la relation non-linéaire entre les domaines articulatoire et acoustique. Papcun et ses collègues [Papcun et al., 1992] ont présenté une méthode utilisant les réseaux de neurones par apprentissage sur des données humaines. En effet, au lieu d’avoir recours à un modèle articulatoire, ils utilisent directement des données récupérées à partir des images radiographiques. Le corpus contient les images et la parole correspondant à trois locuteurs. Les données, c’est-à-dire les positions des articulateurs récupérées à partir des images, sont structurées en vecteurs. Chaque vecteur est la combinaison des données de 25 images consécutives. Dans [Soquet et al., 1991], les auteurs ont expérimenté l’inversion en se basant sur un réseau neuronal à une seule couche cachée pour reproduire les 11 voyelles du français. Le réseau de neurones utilisé a appris à reproduire les voyelles dans 40% des cas. La même expérience a été refaite en ajoutant une contrainte sur le volume moyen du conduit vocal. Cette contrainte a permis d’avoir de meilleurs résultats et le réseau de neurones converge dans 80% des cas. Laboissière et Galvàn [Laboissièrre and Galvàn, 1995] ont développé une méthode qui peut être considérée comme relevant des réseaux de neurones (voir Fig. 2.1). Il s’agit de minimiser la distance entre les paramètres acoustiques désirés et les paramètres acoustiques calculés en trouvant les meilleurs paramètres de commande. C’est une technique issue de la théorie du contrôle avec un apprentissage d’un contrôleur boucle ouvert (feedforward). 24 2.3. Étude des méthodes existantes de construction de codebook y∗ erreur + − perturbation MODÈLE INV ERSE u̇ ũ u F(u) ŷ F̂(u) y G(u) backprojection proprioception exteroception F IG . 2.1 – Architecture du contrôleur articulatoire (D’après [Laboissiere et Galvàn, 1995]). Le « modèle inverse » permet d’inférer les entrées articulatoires u des sorties désirées y∗ . Ce modèle est composé (1) d’un modèle direct F̂(u) qui donne les estimations ŷ des sorties à partir des entrées articulatoires, obtenues à leur tour par « feedback » ou par « backprojection », et (2) le pseudo-inverse du jacobien de la transformation directe G(u). Ce modèle de contrôle pilote un modèle articulatoire (F(u) dans Fig. 2.1). L’inversion s’effectue en deux étapes. D’abord, un modèle direct7 (pour plus de détails sur les modèles directs voir [Jordan and Rumelhart, 1992]) du modèle articulatoire est appris (F̂(u)) afin de mimer le modèle articulatoire. Plus précisément, F̂(u) est une approximation analytique de la fonction F(u). Une combinaison d’experts linéaires entraînés par l’algorithme EM 8 a été utilisée pour retrouver ce modèle de régression. Le modèle direct implémente une fonction linéaire par morceaux entre les entrées u et les sorties y. L’intérêt d’utiliser une approximation linéaire par morceaux est d’avoir une expression simple du contrôleur G(u). Ce dernier implémente une matrice de transformation entre le vecteur d’erreur dans l’espace acoustique et les variations dans les commandes articulatoires. Pour cela, le jacobien inverse de la transformation directe est utilisé. D’après les auteurs, cette méthode favorise les solutions qui minimisent les distorsions dans les trajectoires articulatoires et acoustiques. Même si cela n’a pas été indiqué explicitement, ce modèle fait appel à un corpus de données articulatoiresacoustiques lors de la phase d’apprentissage. Si ce corpus ne contient pas un nombre de points suffisamment représentatifs des non-linéarités de la relation articulatoire-acoustique, ce modèle risque de ne pas réussir à fournir des trajectoires réalistes. 2.3 Étude des méthodes existantes de construction de codebook Nous avons vu dans la section précédente l’importance des solutions initiales pour la suite de l’inversion. Nous avons vu aussi que le concept de codebook est très utilisé pour trouver ces solutions initiales. Un codebook est la collection d’un grand nombre de formes du conduit vocal, représentées par des paramètres articulatoires choisis selon un critère donné, et les paramètres acoustiques associés. Ces der7 Le terme anglais est « forward model ». 8 Expectation-Maximisation 25 Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes niers sont calculés en utilisant un synthétiseur articulatoire. Le vecteur articulatoire est généralement composé par les paramètres de commande du modèle articulatoire. Le vecteur acoustique peut être formé des premiers formants ou bien des coefficients cepstraux par exemple. Nous avons choisi les trois premiers formants pour former les vecteurs acoustiques. Ainsi, nous entendons par paramètres acoustiques, valeurs acoustiques ou encore vecteurs acoustiques le vecteur dont les composantes sont les trois premiers formants. Pour l’étude des voyelles, cette représentation par les trois premiers formants est suffisante. Dans la littérature, un codebook peut être désigné par les termes dictionnaire, tableau ou liste d’exemples. Nous avons choisi le terme anglophone codebook pour lever toute ambiguïté. Pour évaluer les méthodes existantes de construction du codebook, nous avons implémenté et testé trois des méthodes les plus utilisées. 2.3.1 Codebook à échantillonnage régulier La méthode la plus simple de construction du codebook est de faire un échantillonnage régulier. Par exemple, pour avoir un échantillonnage régulier et fin des sept paramètres articulatoires du modèle de Maeda dans l’intervalle [−3σ, 3σ] (σ étant l’écart type) avec un pas d’échantillonnage relativement grossier de 1/3 · σ, nous obtiendrons 197 ≈ 900 millions de formes, ce qui est très coûteux pour les machines actuelles en espace de stockage et en temps d’accès. Pour faire les tests et avoir une idée approximative sur la couverture acoustique, nous avons construit un codebook encore plus grossier de seulement 6.800.000 formes. 2.3.2 Codebook à échantillonnage aléatoire Comme nous venons de le voir, un codebook à échantillonnage régulier s’avère coûteux en espace de stockage et en temps de calcul. Il est alors plus judicieux de choisir aléatoirement un nombre limité de points qui couvrent l’espace articulatoire et l’espace acoustique. Dans ce but, un échantillonnage aléatoire est obtenu en faisant varier les paramètres du modèle articulatoire aléatoirement. Un des inconvénients de cette méthode, en absence d’étude statistique sur les différents paramètres, est qu’elle donne la même distribution de probabilité pour toutes les formes du conduit vocal y compris les formes qui ne sont pas réalistes [Larar et al., 1988]. Qui plus est, un échantillonnage aléatoire de l’espace articulatoire ne tient pas compte des régions où la relation entre l’espace articulatoire et l’espace acoustique est non-linéaire. En effet, il existe des régions où une petite variation des paramètres articulatoires s’accompagne d’une forte variation dans l’espace acoustique (voir section 2.3.5). Par conséquent, ce codebook ne constitue pas une représentation fidèle de l’espace articulatoire. Ce que nous entendons par représentation fidèle est un échantillonnage fin dans les régions qui présentent des variations non-linéaires de la relation articulatoireacoustique. 2.3.3 Codebook à prototypes vocaliques Une troisième méthode pour générer un codebook est de faire une interpolation à partir de prototypes vocaliques [Larar et al., 1988]. Le principe est d’échantillonner l’espace articulatoire d’une manière nonuniforme et cela en échantillonnant les régions les plus probables, c’est-à-dire celles qui correspondent à des formes du conduit vocal réalisables par un être humain. 26 2.3. Étude des méthodes existantes de construction de codebook Pour cela, on réalise un échantillonnage autour des trajectoires entre deux prototypes vocaliques quelconques. Dans notre étude, nous avons pris pour prototypes les voyelles de la langue française. Bien entendu, d’autres prototypes vocaliques sont possibles [Larar et al., 1988]. L’avantage de cette méthode est qu’elle ne génère que des formes réalisables par le conduit vocal. Cependant, son inconvénient majeur est qu’il est difficile d’affirmer que les prototypes vocaliques soient les bons et que l’être humain ne s’écarte pas trop de ces solutions. Pour trouver de bons prototypes, il faut conduire une expérimentation très fine en l’absence de connaissances suffisantes sur les prototypes réellement utilisés par l’être humain. Cette expérimentation est coûteuse étant données les dimensions de l’espace articulatoire de notre modèle. Un deuxième inconvénient est qu’une transition linéaire d’une forme à une autre dans l’espace articulatoire, ne s’accompagne pas de variations linéaires dans l’espace acoustique, bien que le locuteur passe d’une forme à une autre dans l’espace acoustique d’une manière linéaire. L’explication est que le locuteur anticipe les mouvements de certains articulateurs pour conserver la linéarité dans l’espace acoustique. L’échantillonnage entre deux prototypes vocaliques devrait donc prendre en compte le déphasage qui existe entre les différents articulateurs. 2.3.4 Comparaison de la couverture des trois codebooks En comparant ces trois méthodes du point de vue couverture de l’espace acoustique, nous remarquons que les méthodes par échantillonnage aléatoire ou régulier couvrent mieux l’espace acoustique. Dans la Fig. 2.2, nous présentons les plans 1er formant/2ème formant, 1er formant/3ème formant, et formant/3ème formant de l’espace acoustique correspondant aux trois méthodes. Les codebooks à échantillonnage régulier et aléatoire présentent la même couverture acoustique globale, du moins au niveau de résolution de l’image, alors qu’il est clair que le codebook à prototypes vocaliques présente un sous-échantillonnage de l’espace acoustique. Malgré cette bonne couverture de l’espace acoustique, ces deux codebooks ne donnent aucune garantie sur la qualité de la couverture de l’espace articulatoire et il n’y a aucune prise en compte de la non-linéarité de la relation articulatoire-acoustique. 2ème 2.3.5 Problème de la non-linéarité La relation articulatoire-acoustique n’est pas uniformément linéaire [Fant, 1960; Stevens, 1972; Stevens, 1989; Charpentier, 1984]. En effet, il existe des régions pour lesquelles une petite variation d’un paramètre articulatoire entraîne une conséquence acoustique importante, et inversement, il existe des régions pour lesquelles une grande variation d’un paramètre articulatoire n’entraîne pas de conséquence acoustique significative. Trois raisons principales expliquent cette non-linéarité : la première est liée à la géométrie du conduit vocal, la deuxième aux propriétés physiques du conduit vocal (les effets des pertes) et la troisième à la modélisation articulatoire (l’affiliation cavité-formant). La géométrie du conduit vocal La première source de non-linéarité est due à la nature géométrique du conduit vocal. Nous pouvons observer cela en utilisant la simulation par tubes acoustiques ou encore la simulation électrique. Afin de simplifier la présentation, nous supposons que le conduit vocal est représenté par un système à deux 27 Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes F IG . 2.2 – Comparaison entre les trois codebooks dans les plans F1 − F2,F1 − F3 et F2 − F3. La région claire correspond au codebook à prototypes vocaliques. L’union de la région claire et de la région sombre correspond au codebook à échantillonnage aléatoire et au codebook à échantillonnage régulier. 28 2.3. Étude des méthodes existantes de construction de codebook tubes (Fig. 2.3). La relation entre l’espace acoustique et l’espace articulatoire est décrite par la fonction de transfert suivante (voir [Flanagan, 1972], p. 69–72) : Ub 1 = Ug (cosh γ l ) (cosh γ l ) 1 + A1 tanh γ l tanh γ l 1 1 2 2 1 1 2 2 A2 (2.8) où A1 l’aire du premier tube, A2 l’aire du deuxième tube, l1 et l2 les longueurs du premier et du deuxième tube et γ1 , γ2 tels qu’ils ont été définis dans la section 1.6 du chapitre précédent. D’après l’expression de la fonction de transfert, il est clair que cette fonction n’est pas linéaire même dans ce cas simple (système à deux tubes). Cela est encore plus visible sur la Fig. 2.4, dans laquelle, nous présentons le cas de deux tubes séparés par une constriction. Le graphe montre clairement la nature non-linéaire des variations acoustiques en fonction de la longueur du premier tube. A1 A2 l1 l2 Ub Ug F IG . 2.3 – Approximation du conduit vocal par deux tubes. Les effets des pertes au niveau des parois du conduit vocal Cette source de non-linéarité est inévitable puisqu’elle est due à la nature physique du conduit vocal. En effet, le conduit vocal présente des pertes de natures différentes : – pertes dues à la radiation aux lèvres : ces pertes affectent tous les formants ; – conduction thermique et viscosité : la présence de la friction visqueuse et la conduction thermique est perceptible particulièrement sur le premier formant (voir section 1.6 du chapitre précédent) ; – vibration des parois du conduit vocal : les surfaces de la langue, des joues et du pharynx ne sont pas rigides. Les effets acoustiques de ces surfaces peuvent être représentés par des impédances acoustiques qui sont plus importantes que l’impédance acoustique de l’air. Ceci entraîne une perte d’énergie dans le conduit vocal et introduit une perturbation sur le premier formant. L’affiliation cavité-formant Tout modèle articulatoire tient compte de la variation de la constriction formée au niveau de la langue. Ceci se traduit par la présence d’au moins deux cavités acoustiques dans le conduit vocal. Les fréquences des formants sont interprétées comme étant les résonances des deux cavités. Lorsque les résonances sont égales, on observe un point focal source d’une forte non-linéarité pour la fréquence du formant concerné, puisque le formant est affilié successivement à deux cavités. Nous pouvons voir cela dans le graphique de Fig. 2.4 [Stevens, 1999b] (Pour plus de détails sur ce phénomène, voir [Apostol, 2001]). Ce phénomène est clairement visible aussi dans les nomogrammes de Fant 9 [Fant, 1960]. 9 Les nomogrammes donnent l’évolution des formants au cours de la variation du lieu de constriction d’un modèle à quatre tubes. 29 Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes 4 Fréquence (khz) F4 F4 3 l1 l3 A1 F3 F3 l2 2 A2 F2 1 Tube 1 Cavité arrière Tube 2 Cavité avant 0 F1 0 2 4 6 8 10 12 14 Longueur de la cavité arrière l1 (cm) F IG . 2.4 – Relations entre les formants et la position de la constriction. Le graphique à droite correspond à un système à deux tubes séparés par une constriction présenté à gauche. On varie la position de la constriction, donc la longueur du premier tube et du deuxième changent tout en conservant la longueur totale constante. L’axe des abscisses représente la position de la constriction et l’axe des ordonnées représente les fréquences de résonance (les formants). Les courbes qui croissent vers la droite sont les formants correspondant au deuxième tube (cavité avant). Les courbes qui décroissent vers la droite sont les formants de la cavité arrière. Les courbes en trait épais correspondent aux formants en absence de couplage entre les deux cavités (c’est-à-dire que l’aire de la constriction est alors infiniment petite). Les traits discontinus montrent les lieux de changement d’affiliation des formants appelés aussi points focaux. Conclusion Nous venons de voir dans ce chapitre que la difficulté principale de l’inversion réside dans la nonlinéarité de la relation articulatoire-acoustique. Malheureusement, dans les travaux d’inversion existants, le problème de la non-linéarité est peu traité. En effet, nous trouvons des méthodes d’inversion qui traitent bien la phase d’optimisation par des outils mathématiques, mais la recherche de bonnes solutions initiales, très importantes pour les méthodes d’optimisation, a été négligée. Cette recherche s’effectue généralement par l’utilisation d’un codebook représentant la relation articulatoireacoustique. Pour tenir compte du problème de la non-linéarité, il faut avoir un échantillonnage fin pour ne pas omettre des régions de l’espace articulatoire qui peuvent contenir des solutions intéressantes. Un tel échantillonnage est cependant très coûteux, comme nous l’avons montré dans la section précédente. De plus, un échantillonnage dense pourrait entraîner un sur-échantillonnage dans des régions où la relation est quasi-linéaire. Il serait intéressant d’avoir un échantillonnage non-homogène de l’espace articulatoire, c’est-à-dire un échantillonnage dense dans les régions fortement non-linéaires et moins dense dans les régions plus linéaires [Charpentier, 1984]. En partant de cette idée, nous proposons, dans le chapitre suivant, une nouvelle méthode de construction de codebook. 30 Chapitre 3 Construction du codebook hypercubique Introduction Comme nous l’avons présenté dans le chapitre précédent, le problème majeur de la construction du codebook réside dans la non-linéarité de la relation articulatoire-acoustique. C’est un problème qui doit être pris en compte si nous voulons obtenir une couverture efficace de l’espace articulatoire. Pour cela, nous décomposons l’espace articulatoire d’une manière fine dans les régions où la relation articulatoire-acoustique est fortement non-linéaire. Dans ce but, nous avons choisi l’hypercube comme structure pour représenter les différentes régions de l’espace articulatoire. Dans ce chapitre10 , nous donnons la définition d’un hypercube et nous présentons en détail la méthode de construction du codebook qui exploite cette structure. Les méthodes d’évaluation de la linéarité dans un hypercube sont détaillées. Enfin, nous terminons par une évaluation expérimentale de l’efficacité de cette représentation et sa fidélité vis-à-vis du comportement de la relation articulatoire-acoustique. 3.1 Structure hypercubique 3.1.1 Définition Un hypercube d’ordre N est une généralisation dans l’espace de dimension N d’un carré dans l’espace de dimension 2 et d’un cube dans l’espace de dimension 3. Un hypercube de dimension N (noté Nhypercube) est un polytope convexe de dimension N (noté N-polytope). Un N-polytope convexe est une intersection finie de demi-espaces fermés de IRN . Cette intersection a un volume fini non nul dans IRN . Un polytope P est un ensemble borné de solutions d’un système de m inéquations linéaires. P = P(A, b) = {x ∈ IRN tel que aTi x ≤ bi pour i = 1..m} Où : A ∈ IRm×N une matrice réelle dont les lignes sont les aTi b ∈ IRm un vecteur réel avec bi comme composantes. Dans cette définition, borné veut dire qu’il existe une constante M telle que : ||x|| ≤ M pour tout x ∈ P. 10 Cette méthode de construction a été présentée en partie dans [Ouni and Laprie, 1999]. 31 (3.1) Chapitre 3. Construction du codebook hypercubique À partir de cette définition, on en déduit celle d’un hypercube Hc : Hc = {x ∈ IRN tel que − 1 ≤ xk ≤ 1 pour i = 1..N} (3.2) xk étant la kème composante de x. L’image d’un polytope par une application affine est un polytope équivalent [Henk et al., 1997]. Il est donc toujours possible de se ramener au cas général. Un N-hypercube est un sous-ensemble Hc ⊂ IRN . Un hypercube Hc est défini par un sommet origine U0 (c’est-à-dire le sommet ayant les valeurs des coordonnées les plus petites) et la longueur ∈ IR d’un coté de l’hypercube. Cet hypercube est noté Hc (U0 , ). On peut représenter Hc sous la forme : N Hc (U0 , ) = ∏ [u0 , u0 + ] j j (3.3) j=1 Où ∏ est le produit cartésien, est la longueur d’un coté de l’hypercube (dans la suite, est dite la j taille de l’hypercube) et u0 ∈ IR est la jème composante de U0 . C’est une expression compacte qui définit complètement l’hypercube. Un hypercube est représenté par ses sommets. Le convexe délimité par ces sommets est l’hypercube. j Soit Si ∈ Hc un de ces sommets. La jeme composante si de Si est définie comme suit : j j si = u0 + ϕi j (3.4) Où : ϕi j = (i div 2 j ) modulo 2, i = 0...(2N − 1), j = 0...(N − 1). Ainsi, pour déterminer totalement l’hypercube, les seules informations dont on a besoin sont les coordonnées du sommet origine et la taille de l’hypercube (voir Fig. 3.1). C’est une représentation compacte intéressante pour une utilisation informatique. 3.1.2 Pourquoi le choix d’une structure hypercubique ? Le choix de cette structure pour représenter une région de l’espace articulatoire est justifié par le fait que c’est une structure compacte et que l’espace articulatoire est bien adapté à cette dernière. En effet, le modèle articulatoire de Maeda est contrôlé par sept paramètres. Chacun de ces paramètres varie dans l’intervalle [−3σ, +3σ] (σ étant l’écart type autour de la moyenne). On peut dire que cet espace articulatoire est contenu dans un hypercube de dimension sept dont la taille est 6σ. Il est possible d’inclure toute région de l’espace articulatoire dans un hypercube ou une union d’hypercubes. Cette structure compacte se prête donc bien à l’élaboration de méthodes d’exploration de l’espace articulatoire. 3.2 3.2.1 La construction du codebook hypercubique Le principe Nous supposons que tout l’espace articulatoire est contenu dans un hypercube. Si la relation articulatoireacoustique est non-linéaire à l’intérieur de cet hypercube, ce dernier est décomposé en sous-hypercubes. Pour chaque sous-hypercube, nous testons de nouveau la linéarité. Si la relation est quasi-linéaire, nous conservons cet hypercube. On dit que le comportement de la relation articulatoire-acoustique est linéaire dans la région de l’espace articulatoire représenté par cet hypercube. Tant que la relation n’est pas suffisamment linéaire dans un hypercube donné, il est décomposé de nouveau, jusqu’à l’obtention 32 3.2. La construction du codebook hypercubique Z l l S6 S4 S5 S7 l U0 Y S2 S3 S1 X F IG . 3.1 – Un hypercube de dimension 3 est un cube. Il est défini par ses 8 = 23 sommets. La taille de ce cube est l (la longueur d’un coté). U0 est l’origine du cube. À partir de U0 et l seulement, on peut retrouver les autres sommets de l’hypercube. d’un hypercube de taille suffisamment petite pour pouvoir considérer que le comportement de la relation articulatoire-acoustique est linéaire. 3.2.2 La méthode de construction Soit Hc1 (U0 , ) l’hypercube initial. Cet hypercube contient tout l’espace articulatoire. La taille de cet hypercube est 6σ ( = 6σ). Nous testons la linéarité de la relation articulatoire-acoustique dans Hc1 (U0 , ). Si la relation est linéaire, nous conservons cet hypercube. Sinon, Hc1 (U0 , ) est décomposé en 2N soushypercubes Hc2i (U0i , /2), avec i = 1...2N . U0i est le nouveau sommet origine du sous-hypercube numéro i correspondant à l’ième sommet. On évalue, de nouveau, la linéarité pour chaque sous-hypercube. Cette procédure est répétée récursivement pour tous les sous-hypercubes(voir Fig. 3.2). 3.2.3 Le test de linéarité Le test proposé par Charpentier dans [Charpentier, 1984] consiste à calculer la courbure acoustique le long d’un chemin articulatoire à l’intérieur de la région à explorer. Cette méthode qui est acceptable dans le cas d’un modèle de fonction d’aire qui utilise peu de paramètres conduirait à des calculs trop longs dans notre cas. Au lieu de cette solution, nous proposons le test suivant. Pour tous les segments qui relient les sommets d’un hypercube, nous considérons leurs milieux et nous interpolons linéairement les formants correspondants. Ensuite, nous comparons ces valeurs avec celles calculées directement avec un synthétiseur articulatoire. Si la différence entre les formants synthétisés et les formants interpolés est inférieure à un seuil prédéfini ε, la relation articulatoire-acoustique dans cet hypercube est considérée comme linéaire. Nous disons que la relation articulatoire-acoustique est linéaire avec une marge d’erreur de ε dans le domaine acoustique. 33 Chapitre 3. Construction du codebook hypercubique Hc1 Relation Non-linéaire . . . Hc1_1 Hc1_2 Relation Non-linéaire Relation Linéaire . . . Hc1_3 Hc1_4 Relation Linéaire . . . . . . F IG . 3.2 – La linéarité est évaluée à l’intérieur de l’hypercube. Si la relation articulatoire-acoustique est nonlinéaire, l’hypercube est décomposé en 2N sous-hypercubes. On réitère l’opération jusqu’à ce que la relation soit suffisamment linéaire ou la taille minimale de l’hypercube soit atteinte. Nous pouvons formaliser cela comme suit : Soit f : ArN −→ AcM (3.5) ArN l’application représentant la relation entre l’espace articulatoire (de dimension N) et l’espace acousM tique Ac (de dimension M). L’application f représente le synthétiseur articulatoire. En effet, les paramètres correspondant au modèle articulatoire sont passés au synthétiseur articulatoire, et les valeurs acoustiques correspondantes sont obtenues en sortie. Soient Pa et Pb ∈ ArN deux sommets de l’hypercube. Soient Fa et Fb ∈ AcM les vecteurs acoustiques définis par : f (Pa ) = Fa et f (Pb ) = Fb . Ces vecteurs acoustiques ont pour composantes les trois premiers formants F1, F2 et F3. Le test de linéarité entre deux sommets est le suivant : Pa + Pb Fa + Fb − f( ) ) ≤ ∆ε (3.6) abs( 2 2 Où ε est le seuil au-delà duquel la relation articulatoire-acoustique n’est plus considérée comme linéaire. 34 3.2. La construction du codebook hypercubique ε peut être fixé pour le premier formant, le deuxième formant et le troisième à une valeur choisie expérimentalement ou arbitrairement. Par exemple, on peut fixer ε à 50Hz pour F1, 75Hz pour F2 et 100Hz pour F3 comme nous l’avons fait pour la construction d’un exemple de codebook. Ce test de linéarité est effectué entre tous les sommets de l’hypercube (voir Fig. 3.3). Pour un hypercube de dimension 7, nous avons 27 = 128 sommets et le nombre de segments possibles entre ces sommets est 8128, ce qui correspond au nombre de tests. Une région articulatoire représentée par un hypercube n’est considérée linéaire (c’est-à-dire la relation articulatoire-acoustique est linéaire) que si ces 8128 tests sont positifs, sinon, on considère que cette région est non linéaire. Nous supposons que ce test de linéarité est suffisant. En effet, nous pouvons envisager d’appliquer le test de linéarité en plusieurs points tout au long de ces segments, et ainsi, de renforcer la satisfaction de l’hypothèse de linéarité. Cependant, cela induit un nombre exagéré de points à tester, et donc à calculer par le synthétiseur articulatoire, ce qui rend le calcul de plus en plus long. Comme nous allons le voir par la suite, ce test de linéarité s’avère suffisant. α3 v4 v6 α3 α2 α1 ι 0 0 0 0 0 0 1 1 0 1 0 2 0 1 1 3 1 0 0 4 1 0 1 5 1 1 0 6 1 1 1 7 l v7 v5 α2 U = v0 o v2 l v3 v1 α1 l F IG . 3.3 – Nous représentons ici l’hypercube de dimension 7 par un cube de dimension 3. La taille de l’hypercube est l et le sommet origine est U0 . Vi (i = 0...7) sont les sommets de l’hypercube. Le test de linéarité est effectué entre les segments [Vi ,V j ] où i = j (segments représentés par des traits fins). Si le test échoue, l’hypercube est décomposé en 8 sous-hypercubes (8 = 23 est le nombre de sommets). Ces sous-hypercubes sont représentés par des traits en pointillés. Le tableau qui se trouve en haut de la figure donne les valeurs du paramètre ϕi j pour les 8 sommets indexés de 0 à 7. 35 Chapitre 3. Construction du codebook hypercubique 3.2.4 Le choix du seuil de linéarité Dans l’exemple présenté dans le paragraphe précédent, nous avons pris un seuil égal à 50Hz pour F1, 75Hz pour F2 et 100Hz pour F3. Le choix de l’échelle Hertz devrait être remis en cause si nous voulions utiliser un test de linéarité réaliste et fidèle vis-à-vis du comportement du système auditif périphérique. Il faudrait prendre en compte le comportement auditif humain pour fixer ce seuil. En effet, la résolution fréquentielle de l’oreille n’est pas linéaire [Zwicker and Feldtkeller, 1981], et on utilise donc une transformation perceptive qui modifie la représentation du signal acoustique de telle manière qu’elle soit approximativement équivalente au processus auditif humain. Le but est de ne conserver que l’information perceptivement pertinente. L’échelle psychoacoustique Bark est souvent utilisée dans le traitement de la parole. Dans la Fig. 3.4, nous présentons l’échelle Bark en fonction de l’échelle Hertz. Hertz/Bark 20 18 16 14 Bark 12 10 8 6 4 2 0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Hertz F IG . 3.4 – Échelle Bark : représentation de la transformation perceptive Bark exprimée en Hertz. La Fig.3.5 donne la valeur en Hertz d’un seuil d’erreur en Bark en fonction de la fréquence. Un seuil d’erreur en Bark permet donc d’avoir un seuil dynamique dans l’échelle Hertz. Nous avons fixé ε à 0.3 Bark. Ce seuil est ni grossier ni exagérément fin, et nous l’avons donc retenu afin de réduire la taille du codebook sans influencer la qualité de la linéarité. Dans l’expression (3.6), on applique une transformation vers l’échelle Bark pour les deux quantités à comparer. Cette expression devient alors : abs( bark( Fa + Fb pa + pb ) − bark( f ( )) ) ≤ ∆ε 2 2 (3.7) On peut aussi choisir un seuil de linéarité qui est sensible à la plus petite variation fréquentielle détectée par l’oreille humaine. En effet, l’idée est d’avoir un seuil assez fin dans des régions où la variation 36 3.2. La construction du codebook hypercubique Variation frequentielle dans l’echelle bark exprime en Hertz 400 350 0.5 bark Variation de la frequence (Hz) 300 250 0.4 bark 200 0.3 bark 150 0.2 bark 100 50 0 0 500 1000 1500 2000 2500 3000 3500 4000 Frequence (Hz) F IG . 3.5 – Variation fréquentielle dans l’échelle Bark exprimée en Hertz. On représente bark−1 bark(Fa ) − bark(Fb ) = k , avec k = 0.2 Bark, 0.3 Bark, 0.4 Bark, 0.5 Bark. fréquentielle perceptible est fine et moins fin dans les autres régions. Pour cela, on considère le seuil différentiel de fréquence. Pour mieux connaître les variations de fréquence, des études ont été faites [Zwicker and Feldtkeller, 1981] pour trouver la plus petite variation de fréquence que l’oreille peut percevoir. La courbe de la Fig. 3.6 représente les valeurs du seuil différentiel de fréquence f pour un stimulus d’intensité sonore de 70dB, en fonction de la fréquence du son modulé. En dessous de 500Hz, la valeur limite est à peu près indépendante de la fréquence et a une valeur de f = 1.8Hz. Au-delà de 500Hz, elle croît à peu près proportionnellement avec la fréquence et vaut approximativement f f = 3.5 · 10−3 . La courbe sépare les variations perceptibles des variations imperceptibles. Nous pouvons choisir ce seuil comme valeur du seuil de linéarité ε. Pour les fréquences qui sont inférieures à 500Hz, ε = 1.8 · τ et au-delà, le rapport de la variation fréquentielle sur la fréquence doit être supérieur à 3.5 · 10−3 · τ, avec τ, un seuil fréquentiel qui est une constante déterminée expérimentalement en fonction de la précision acoustique désirée pour évaluer la linéarité de la relation articulatoire-acoustique dans le codebook. Nous avons construit deux codebooks hypercubiques en utilisant pour l’un un seuil de linéarité fixe en Hertz pour les trois premiers formants (50Hz pour F1, 75Hz pour F2 et 100Hz pour F3) et pour l’autre un seuil en Bark fixé à 0.3 Bark. Pour les expériences d’inversion et pour toute la suite, seul le dernier codebook est utilisé. 3.2.5 Régions interdites Lors de la décomposition d’un hypercube, il arrive qu’on obtienne un sommet dans une région articulatoire pour laquelle il n’est pas possible de calculer les formants. Cela se produit dans le cas d’une forte constriction dans le conduit vocal. Comme Atal [Atal et al., 1978], nous appelons ces régions régions interdites. L’interdiction vient du fait qu’on est en dehors du domaine où il est possible de calculer les paramètres acoustiques à partir des paramètres articulatoires. 37 Chapitre 3. Construction du codebook hypercubique 100 Hz L=70dB 50 ∆f ∆f = 0.35% 20 f 10 5 2 ∆f = 1.8 Hz 1 0.05 0.1 0.2 0.5 1 2khz 5 10 20 f F IG . 3.6 – Seuil différentiel de fréquence f en fonction de la fréquence du son pur (D’après [Zwicker et Feldtkeller, 1981]). Ces régions se trouvent aux extrémités de l’espace articulatoire et elles définissent donc les limites de l’espace articulatoire auquel le locuteur peut accéder. L’existence de ce type de régions peut nuire à notre méthode de décomposition hypercubique, puisqu’on ne peut pas faire les tests de linéarité et par la suite on ne peut définir un hypercube si l’un des points est dans une région interdite. Cela pourrait d’ailleurs faire échouer l’algorithme de décomposition dès le départ puisque l’on part d’un hypercube qui contient l’espace articulatoire. Pour éviter cela, tout hypercube qui présente un de ses sommets dans une région interdite est automatiquement décomposé en sous-hypercubes sans faire les tests de linéarité. De cette façon, on affine les contours de la région interdite. En effet, à chaque étape de décomposition, on obtient des hypercubes de taille plus petite, et les limites de l’espace articulatoire sont donc connues. Néanmoins, il existe un inconvénient à affiner les limites de l’espace articulatoire. On obtient en effet un nombre très grand d’hypercubes qui délimitent les régions interdites. Ces hypercubes sont de très petite taille. Cela signifie qu’il y aura un grand nombre d’hypercubes dans des régions rarement exploitées par le locuteur, puisque ces régions se trouvent aux extrémités de l’espace articulatoire et que cela correspond donc à un effort articulatoire important pour atteindre de telles cibles. Par conséquent, nous n’essayons pas d’affiner énormément les limites dans ces régions et nous arrêtons donc la décomposition dès qu’on atteint un échantillonnage suffisamment fin pour délimiter ces régions sans perdre de points qui pourraient être intéressants par la suite. Afin d’illustrer la notion de régions interdites, nous présentons dans la Fig.3.7 une vue 2D du codebook hypercubique. Ceci constitue une vue partielle du codebook uniquement dans un but illustratif. Nous supposons que l’espace articulatoire du locuteur est la région colorée et nous appliquons notre 38 3.2. La construction du codebook hypercubique méthode de décomposition en hypercubes. Le résultat est une hiérarchie d’hypercubes de taille plus ou moins grande suivant l’importance de la non-linéarité. Si l’hypercube est grand, cela signifie que la relation articulatoire-acoustique est quasi-linéaire. Si la taille de l’hypercube est faible, cela veut dire que cette région présente une forte non-linéarité. Cela n’est pas forcément vrai pour les hypercubes qui délimitent l’espace articulatoire. Comme nous l’avons déjà dit, la décomposition dans ces régions est due à la présence de régions interdites, plus qu’à celle de non-linéarités. Pour cette raison, on voit bien que l’on pourrait aller plus loin dans la décomposition des régions proches des régions interdites, puisque l’on n’a pas atteint l’hypercube de taille minimale. Nous ne l’avons pas fait pour ne pas trop alourdir le codebook avec des hypercubes qui ne sont pas très utiles. Les régions qui ne sont pas colorées correspondent aux régions interdites. Les hypercubes marqués (×) sont conservés dans le codebook ; les autres sont éliminés. Dans la Fig. 3.8, nous présentons un codebook 2D pour lequel ε = 1Hz pour les trois premiers formants. Ce seuil très petit est choisi pour illustrer l’organisation des hypercubes dans le cas simple de la dimension deux et pour bien montrer les limites entre les régions interdites et les régions permises. ×× × × × × × × ×× × × × × × × × × × × ×× ××× × × ×× × ×× ××××××× × × × × ×× ×× × ×× × × × × ×× × × × × × × ×× × ×× × × ×××× ×× ×× F IG . 3.7 – La décomposition de l’espace articulatoire en hypercubes. La partie colorée est l’espace articulatoire réellement atteint par le modèle. Les parties non colorées sont les régions interdites. Les hypercubes marqués (×) sont ceux qu’on garde dans le codebook. L’espace articulatoire récupéré dans le codebook sous forme d’hypercubes est celui entouré par un trait épais. 39 Chapitre 3. Construction du codebook hypercubique F IG . 3.8 – Une représentation 2D partielle d’un codebook hypercubique. Afin de bien voir les hypercubes, nous n’avons représenté que les paramètres correspondant à la mâchoire et le corps de la langue (α1 , α2 ). On voit bien qu’il existe des régions qui sont plus ou moins linéaires (c’est-à-dire les hypercubes correspondants sont plus ou moins grands). Les zones hachurées sont les régions interdites. 3.2.6 La description du codebook hypercubique En résumé, un hypercube est défini par ses sommets qui sont des vecteurs de l’espace articulatoire. Dans un codebook hypercubique, un hypercube est représenté par un sommet origine, la taille de l’hypercube (c’est-à-dire la longueur d’un des côtés) et les valeurs acoustiques des sommets. Pour chaque hypercube articulatoire, nous reportons dans le codebook les informations suivantes : – U0 (u10 , u20 , u30 , u40 , u50 , u60 , u70 ) le sommet origine de l’hypercube. C’est un vecteur articulatoire représenté par les 7 paramètres articulatoires. – : la taille de l’hypercube (c’est la longueur d’un des côtés de l’hypercube). Avec ces deux informations, nous pouvons reconstruire l’hypercube dans l’espace articulatoire. – Fi (Fi1 , Fi2 , Fi3 ) pour i = 1...128(= 27 ). Les Fi sont les vecteurs acoustiques correspondant aux 128 sommets de l’hypercube. Un vecteur acoustique est représenté par les trois premiers formants. C’est une représentation compacte d’une région d’un espace de dimension 7. Grâce à cette structure, nous représentons une région où la relation articulatoire acoustique est suffisamment linéaire par un nombre très limité de points. Le codebook hypercubique constitue une nouvelle représentation complète de tout l’espace articulatoire par un nombre limité de points. Le codebook est représenté par des hypercubes plus ou moins fins, selon la linéarité de la relation articulatoire-acoustique dans la région représentée par l’hypercube. Plus l’hypercube est grand, plus la relation est linéaire. La méthode récursive de décomposition en hypercubes permet d’avoir une organisation simple des hypercubes sous une forme hiérarchique. L’avantage de cette organisation est d’accélérer la procédure de recherche dans le codebook. 40 3.3. Réalisation 3.3 Réalisation La tâche la plus coûteuse en temps de calcul est la synthèse articulatoire. Vu le nombre important de vecteurs qu’on calcule par synthèse pour chaque hypercube (les 128 sommets et les 8128 milieux des segments séparant chaque paire de sommets), l’évaluation de la linéarité nécessite un temps considérable. Une première évaluation du temps nécessaire pour la construction d’un codebook avec un seuil ε = 0.3 Bark a donné une période d’une centaine de jours (un PC pentium III, 500 Mhz). Pour cela, la parallélisation de l’algorithme de construction était donc nécessaire. Cela n’a pas présenté de problème majeur, puisque notre méthode de décomposition est naturellement adaptée pour une exécution parallèle. En effet, lors de la première décomposition en 128 sous-hypercubes, chaque sous-hypercube est passé à un processeur. Cela a permis un gain de temps très important (avec une vingtaine de processeurs, on passe d’une centaine de jours à une semaine). Nous avons construit un premier codebook avec un seuil ε = 50Hz pour F1, 75Hz pour F2 et 100Hz pour F3. Ce codebook est composé d’environ 390.000 hypercubes. Par la suite, un deuxième codebook a été construit avec un seuil ε = 0.3 Bark. Le nombre d’hypercubes de ce codebook est de 128.000. Notre codebook est certes encore volumineux, mais permet d’assurer que l’échantillonnage articulatoire n’a plus d’influence sur l’inversion, et que la résolution acoustique de l’échantillonnage est uniforme dans tout l’espace articulatoire. 3.4 Évaluation expérimentale du codebook hypercubique Afin d’étudier la qualité de la couverture de l’espace articulatoire par le codebook hypercubique et sa capacité de représentation à partir d’un nombre fini de points, nous allons essayer de retrouver les informations acoustiques correspondant à des vecteurs articulatoires. De cette façon, nous pouvons juger de la qualité de l’information qu’on récupère par interpolation. Nous évaluons aussi, la continuité de la relation articulatoire-acoustique. 3.4.1 L’interpolation dans un hypercube Nous pouvons récupérer toutes les informations dont nous avons besoin à partir des sommets de l’hypercube. En effet, la seule connaissance des vecteurs articulatoires et des paramètres acoustiques des sommets permet d’évaluer par interpolation les paramètres acoustiques pour tous les points articulatoires à l’intérieur de l’hypercube. Pour rendre l’interpolation plus robuste et plus précise, nous interpolons par rapport au sommet le plus proche du vecteur dont nous cherchons les paramètres acoustiques en calculant le gradient en ce sommet. Considérer le sommet le plus proche permet, en effet, de renforcer la satisfaction de l’hypothèse de linéarité. Soit Px le vecteur articulatoire dont nous cherchons l’image acoustique Fx par interpolation dans l’hypercube. Le développement limité par rapport au sommet le plus proche P0 est donné par l’équation suivante : Fx = F0 + (Px − P0 ).∇F (3.8) Où ∇F est le gradient de F calculé en P0 . 41 Chapitre 3. Construction du codebook hypercubique 3.4.2 Vérification expérimentale de l’interpolation Pour évaluer expérimentalement l’interpolation dans un hypercube, nous avons utilisé la première version du codebook utilisant un test de linéarité simple en fixant la marge d’erreur ε à 50Hz pour le premier formant, 75Hz pour le deuxième formant et 100Hz pour le troisième formant. Nous avons généré des vecteurs acoustiques qui ont été synthétisés avec le synthétiseur articulatoire à partir de vecteurs articulatoires. Par ailleurs, ces vecteurs sont interpolés à partir du codebook hypercubique. Nous comparons la proximité des vecteurs acoustiques obtenus par synthèse à ceux obtenus par interpolation. Nous avons généré 1850 vecteurs articulatoires choisis aléatoirement. L’erreur moyenne ne dépasse pas 10Hz pour les deux premiers formants et 20Hz pour le troisième formant. En comparant ces valeurs à la marge d’erreur autorisée (50Hz pour F1, 75Hz pour F2 et 100Hz pour F3), il est clair que cela constitue une bonne approximation formantique. Nous avons refait le test pour le codebook utilisant la distance en Bark, avec une marge d’erreur ε = 0.3 Bark. De même, nous avons généré 1650 vecteurs articulatoires choisis aléatoirement dont nous avons calculé les images acoustiques par le synthétiseur d’une part, et par interpolation dans le codebook d’autre part. Les résultats sont plus précis que pour le premier codebook. En effet, nous avons obtenu une erreur moyenne du premier formant de 16 Hz (0.132 Bark) avec un écart type de 12 Hz, pour le deuxième formant de 11 Hz (0.049 Bark) avec un écart type de 11 Hz et pour le troisième formant l’erreur moyenne est de 10 Hz(0.026 Bark) avec un écart type de 11 Hz. Nous avons été un peu surpris que l’erreur moyenne pour le premier formant soit plus grande que pour le deuxième et le troisième formant. La seule explication que nous trouvons pour le moment est lié à l’échantillonnage articulatoire pour F1 qui conduit peut être à un certain sur-échantillonnage pour F2 et F3. L’utilisation d’une échelle perceptive conduit à des résultats plus précis que l’échelle Hertz. De plus, le codebook conduit à une précision supérieure à celle fixée a priori que ce soit pour la première échelle ou la deuxième. Cela est rassurant à propos de la qualité de l’interpolation. 3.4.3 Vérification de la continuité de la relation articulatoire-acoustique Lors de ces mêmes expérimentations, nous avons vérifié la continuité de la relation articulatoireacoustique lors du passage d’un hypercube à un autre. En effet, si l’on passe d’un hypercube à un autre et que cela s’accompagne d’une variation importante, cela signifie que la linéarité n’est pas vérifiée et que la représentation ne tient pas compte de la non-linéarité de la relation articulatoire-acoustique. Si le cas se présente, on peut éventuellement y remédier en ajoutant des hypercubes contenant les frontières des hypercubes. Bien sûr cela impliquerait une certaine redondance, mais cela assurerait aussi la continuité de notre représentation dans tout l’espace articulatoire. Sur l’ensemble des trajectoires testées, nous n’avons pas remarqué de variation brusque. La Fig.3.9 présente une de ces trajectoires dans l’espace acoustique. La trajectoire articulatoire correspond à une variation linéaire du paramètre correspondant à la mâchoire tout en conservant les autres paramètres articulatoires constants. Il est clair qu’il n’y a pas de variation brusque le long de cette trajectoire, malgré le fait que la trajectoire articulatoire traverse plusieurs hypercubes. Cela montre bien que notre représentation garantit la linéarité de la relation articulatoire-acoustique. 42 3.4. Évaluation expérimentale du codebook hypercubique Comparaison entre les formants obtenus par calcul direct et les formants obtenus par interpolation 2500 3eme Formant Formants (Hz) 2000 1500 2eme Formant 1000 500 1er Formant 0 Temps F IG . 3.9 – Comparaison entre deux trajectoires acoustiques (chaque trajectoire est représentée par les trois premiers formants) correspondant à une même trajectoire articulatoire. La trajectoire articulatoire est une variation linéaire d’un paramètre tout en conservant les autres constants. La première est calculée directement par le synthétiseur articulatoire et la deuxième est calculée par interpolation à partir du codebook hypercubique. Les trajectoires se superposent. L’interpolation est très précise et on arrive bien à retrouver l’information de départ. Par ailleurs, la trajectoire interpolée ne présente pas de variation brusque. Conclusion Nous avons présenté dans ce chapitre une méthode de construction d’un codebook qui décompose l’espace articulatoire en régions où la relation articulatoire-acoustique est quasi-linéaire. La structure de base est l’hypercube et nous avons détaillé la méthode d’évaluation de la linéarité. Ce codebook présente une bonne couverture de l’espace articulatoire et le délimite correctement par rapport aux régions interdites. Enfin, nous avons présenté une évaluation expérimentale de la fidélité de la représentation de l’espace articulatoire par le codebook hypercubique. Les résultats sont bons et montrent donc que le codebook que nous avons construit représente fidèlement la relation articulatoire-acoustique. Le point fort est que nous pouvons assurer que l’intégralité du comportement acoustique du modèle articulatoire de Maeda est pris en compte par notre codebook. 43 Chapitre 3. Construction du codebook hypercubique 44 Chapitre 4 Inversion par un codebook hypercubique Introduction Après avoir modélisé l’espace articulatoire par des hypercubes et élaboré une méthode de construction du codebook hypercubique, nous présentons dans ce chapitre une méthode d’inversion acousticoarticulatoire qui exploite notre codebook 11 . Nous détaillons en particulier la façon d’obtenir toutes les solutions inverses à l’intérieur d’un hypercube. 4.1 La méthode d’inversion 4.1.1 Le principe Le signal acoustique est décomposé en segments de quelques millisecondes chacun (entre 16 ms et 32 ms généralement). Ces segments de parole permettent de calculer les paramètres acoustiques. Chaque segment est représenté par les trois premiers formants extraits à l’aide d’un algorithme de suivi de formants [Laprie and Berger, 1996]. Retrouver les formes du conduit vocal qui sont à l’origine de ce signal acoustique revient à récupérer tout d’abord tous les hypercubes dont les images, par la relation articulatoire-acoustique, contiennent ce signal acoustique, et ensuite, retrouver dans chaque hypercube la forme du conduit vocal correspondant à ce segment de parole. 4.1.2 Présentation du problème Soit F le vecteur acoustique, qui représente le segment de parole par les trois premiers formants, à inverser. Soit P un vecteur articulatoire à retrouver à partir de F. Pour chaque entrée acoustique F, nous récupérons tous les hypercubes de l’espace articulatoire dont l’image acoustique contient F (un triplet de formants peut en effet appartenir à plusieurs hypercubes puisque la relation articulatoire-acoustique n’est pas biunivoque). Soit Hc l’un de ces hypercubes : F ∈ Im(Hc ) (4.1) 11 Une grande partie de ce chapitre a été présentée dans [Ouni and Laprie, 2000b; Ouni and Laprie, 2000a; Ouni and Laprie, 2001a]. 45 Chapitre 4. Inversion par un codebook hypercubique À présent, nous nous intéressons à l’inversion dans Hc . Nous utilisons l’expression du jacobien en un point particulier P0 (un vecteur articulatoire), dans l’hypercube Hc : F = F0 + (P − P0 ).∇F (4.2) où ∇F est le jacobien de F calculé en P0 et F0 le vecteur acoustique correspondant à P0 · Pour effectuer l’inversion, c’est-à-dire trouver P, il faut résoudre l’équation suivante : F − F0 = ∇F.(P − P0 ) L’équation (4.3) est un système d’équations linéaires qui manière suivante : 1 1 1 ∂F ∂F ∂F 1 P − P01 . . . ∂α ∂α ∂α 7 2 2 12 22 ∂F ∂F . . . ∂F 2 P − P0 ∂α1 ∂α2 .. ∂α7 3 3 . ∂F ∂F ∂F 3 ∂α1 ∂α2 . . . ∂α7 P7 − P07 (4.3) peut être écrit sous la forme matricielle de la 1 F − F01 2 = F − F02 F 3 − F03 (4.4) où F i et F0i sont les composantes de F et de F0 , c’est-à-dire le ième formant, Pi et P0i les composantes de P et de P0 et αi les paramètres articulatoires. Le choix de P0 pour calculer les gradients est très important pour la précision de l’inversion. En effet, si P est en réalité très loin par rapport à P0 , le gradient est imprécis. Le point P0 devrait être le plus proche possible de P à déterminer. D’autre part, il est hors de question de calculer les points intervenant dans l’expression du gradient avec le synthétiseur articulatoire. En fait, l’utilisation du synthétiseur nécessite un temps (quelques millisecondes) qui serait rédhibitoire si ce calcul venait à être répété trop souvent. Le choix le plus simple que nous avons trouvé est de sélectionner P0 parmi les sommets de l’hypercube (qui sont déjà calculés). Cela pourrait être efficace si le point cherché se trouvait dans le voisinage immédiat de ce sommet. Malheureusement, la probabilité de se trouver dans ce cas est faible. Nous avons donc choisi le centre de l’hypercube pour calculer le gradient. Ce point a la particularité d’être, au pire des cas, à une distance inférieure au demi-diagonale de l’hypercube du point que l’on cherche. Les expériences préliminaires ont montré que le calcul du gradient par rapport à ce point donne de bons résultats en général et ce choix garantit que l’hypothèse de linéarité est approximativement vérifiée partout dans l’hypercube (voir Fig.4.1). 4.1.3 Résolution du système d’équations La singularité de la matrice A L’équation (4.4) est de la forme : A·x = b (4.5) où A est la matrice du gradient (M × N), b et x sont, respectivement, les vecteurs acoustiques et les vecteurs articulatoires. 46 4.1. La méthode d’inversion S1 Pc F IG . 4.1 – Choix du point P0 pour le calcul du gradient. Si l’on choisit pour P0 , le sommet S1 , le calcul du gradient est précis au voisinage de ce sommet, et devient de moins en moins précis quand on s’éloigne. Ici, dans la représentation en dimension deux, la probabilité d’être dans le cadran coloré est de 1/4 = (1/22 ), ce qui explique que pour un hypercube de dimension 7, la probabilité est de 1/128 = (1/27 ). Le centre de l’hypercube Pc est le point choisi pour calculer le gradient. La matrice A représente la transformation linéaire de l’espace X associé au vecteur articulatoire x (de dimension N) vers l’espace B associé au vecteur acoustique b (de dimension M). Comme A est une matrice singulière12 , alors, il existe un sous-espace X1 de l’espace X dont l’image est zéro dans B (A · x = 0). X1 est le noyau de l’application linéaire associée à A ou encore l’espace nul associé à A, qu’on note Ker(A). La dimension de l’espace nul, c’est-à-dire le nombre de vecteurs x linéairement indépendants qui se trouvent dans cet espace, est appelé la nullité de A. D’autre part, il existe un sous-espace B1 de l’espace B qui peut être atteint par A. Ce sous-espace est appelé image de A et noté Im(A). La dimension de l’image est appelée le rang de A. Le rang de A est inférieur à N, du moment qu’elle est singulière (d’où le théorème : rang + nullité = N). L’espace nul associé à A est de dimension N − M. Par conséquent, le système linéaire (4.5) admet une infinité de solutions. La résolution par la méthode SVD (décomposition en valeurs singulières) La solution générale de ce système est formée d’une solution particulière plus un vecteur quelconque de l’espace nul. Cela signifie que si l’on ajoute une combinaison linéaire de la base des vecteurs de l’espace nul, l’image, dans notre cas les formants, ne change pas (voir Fig. 4.2). Afin de résoudre ce système, nous utilisons la méthode SVD (la décomposition en valeurs singulières) telle qu’elle a été décrite dans [Golub and Loan, 1989]. En effet, la méthode SVD construit ex12 Formellement, A doit être une matrice carrée, ce qui peut être facilement réalisé, en rajoutant à la matrice initiale des vecteurs lignes dont les composantes sont toutes nulles. 47 Chapitre 4. Inversion par un codebook hypercubique plicitement une base orthonormale pour l’espace nul de A. En plus, cette méthode fournit une solution particulière, celle qui présente la plus petite longueur x 2 , ce qui revient à dire que x est le point de l’espace solution le plus proche de l’origine. Dans notre cas, l’origine est P0 . En conclusion, nous avons une description complète de l’ensemble des solutions. Pour notre problème, comme M = 3 (les 3 formants) et N = 7 (les 7 paramètres articulatoires), la dimension de l’espace nul est 4. Afin de retrouver toutes les solutions, la détermination de l’espace nul et son échantillonnage doivent être réalisés. A solutions de A.x=d image de A d solution donnée par SVD A.x=d Ker(A) F IG . 4.2 – Une matrice singulière A transforme un espace vectoriel en un autre de dimension plus petite que celle du premier. Ici, un plan est transformé en une droite, appelée l’image de A. L’espace nul est transformé en zéro. Les solutions de A.x = d sont constituées d’une solution particulière quelconque plus un vecteur quelconque de l’espace nul, ici c’est une droite qui est parallèle à l’espace nul. La méthode SVD choisit la solution particulière qui est la plus proche de zéro (D’après [Press et al., 1992] ). 4.1.4 L’échantillonnage de l’espace nul Soit Psvd la solution particulière fournie par la méthode SVD. La forme générale de la solution est : 4 Ps = Psvd + ∑ β j v j (4.6) j=1 Où : {v j } j=1..4 est une base orthonormale de l’espace nul, β j=1..4 les coordonnées dans cet espace. Afin de respecter l’hypothèse de linéarité, une solution est acceptable si : Ps ∈ Hc (4.7) Cela exprime que le vecteur acoustique à inverser doit appartenir à l’image acoustique de l’hypercube articulatoire, et inversement, on doit imposer que le vecteur articulatoire inversé appartienne à l’hypercube, de façon à ce que la linéarité de la relation articulatoire-acoustique soit respectée. 48 4.1. La méthode d’inversion Les équations (4.6 et 4.7) s’écrivent sous la forme : 4 i αiin f ≤ Psvd + ∑ β j vij ≤ αisup i = 1..7 (4.8) j=1 où : αiin f et αisup définissent les valeurs minimales et maximales du ième paramètre articulatoire dans l’hypercube, c’est-à-dire Hc = ∏7i=1 [αiin f , αisup ] (∏ est le produit cartésien) La forme matricielle de (4.8) est : 1 1 αin f Psvd α2 P 2 in f svd .. ≤ .. . . α7in f 7 Psvd + v11 v12 v13 v14 β1 v21 v22 v23 v24 β2 .. .. .. .. · β3 . . . . 7 7 7 7 β4 v1 v2 v3 v4 ≤ α1sup α2sup .. . (4.9) α7sup Ce système définit un 4-polytope (un polytope de dimension 4). Un polytope est l’intersection bornée d’un nombre fini de demi-espaces. Pour définir complètement ce 4-polytope, il faut trouver les points extrêmes de ce domaine, puisque le polytope est un convexe, et déterminer l’espace contenu dans ce polytope. À notre connaissance, ce problème qui est simple en dimension 2 (c’est-à-dire trouver l’intersection d’un carré et d’une droite), n’a pas de solution formelle dans le cas général au-delà de la dimension trois. Pour cela nous avons développé un algorithme en deux étapes : 1. Déterminer le plus petit hypercube de dimension 4 qui contient le 4-polytope, par programmation linéaire. 2. Cet hypercube de dimension 4 est échantillonné et on vérifie l’appartenance de chaque échantillon à l’hypercube Hc de dimension 7. Ce 4-hypercube est défini par ses sommets donnés par les valeurs minimales et les valeurs maximales de βi qui satisfont les inéquations (4.9). Les valeurs de βi peuvent être trouvées en résolvant ces huit programmes linéaires : – Quatre programmes linéaires pour maximiser βi (i = 1..4) inéquations (4.9) i = 1..4 z = maximise βi – Quatre programmes linéaires pour minimiser βi (i = 1..4) inéquations (4.9) i = 1..4 z = minimise βi (4.10) (4.11) 49 Chapitre 4. Inversion par un codebook hypercubique En trouvant tous les βi , on peut calculer les sommets du 4-hypercube en remplaçant les βi dans (4.6). Ensuite, nous échantillonnons l’espace contenu dans ce 4-hypercube et nous éliminons les solutions qui ne vérifient pas la condition (4.7), c’est-à-dire, l’appartenance des solutions au 7-hypercube Hc (voir Fig. 4.3). Grâce à cet algorithme d’échantillonnage, nous trouvons toutes les solutions pertinentes pour le problème d’inversion. Le nombre de solutions obtenues et leur précision dépendent du maillage dans le 4-polytope. p2 A B p1 C D F IG . 4.3 – Le 4-polytope (représenté ici par un carré) est le plus petit hypercube contenant le 4-polytope (le polygone). Il est défini par les sommets A, B, C et D. Une discrétisation du 4-hypercube est réalisé (les points représentent les solutions possibles). Les solutions qui n’appartiennent pas au 7-hypercube Hc sont éliminées (les points se trouvant à l’extérieur du polygone). 4.1.5 La précision de l’échantillonnage L’échantillonnage de l’espace nul est important puisqu’il contrôle directement la régularité des trajectoires articulatoires retrouvées à partir du signal acoustique original. En effet, malgré le fait que l’espace nul n’influence pas la proximité acoustique avec les données de départ, il contrôle la proximité des points dans l’espace articulatoire. Un échantillonnage grossier ne permet pas à l’inversion de connecter deux points articulatoires consécutifs qui devraient appartenir à la même trajectoire articulatoire. Nous avons procédé à une évaluation expérimentale de la qualité de l’échantillonnage de la manière suivante. Soit Porig le vecteur articulatoire qui produit un triplet de formants en utilisant le synthétiseur articulatoire. L’inversion est exécutée, et on cherche Porig parmi toutes les solutions obtenues en gardant le vecteur le plus proche de Porig . Dans l’exemple suivant, on considère un son proche de la voyelle /o/ (F1=376 Hz, F2=862 Hz et F3=2076 Hz) et un hypercube qui contient le vecteur articulatoire correspondant. La taille de l’hypercube est 0.75 σ (σ étant l’écart type), ce qui correspond à un hypercube assez grand, car la taille d’un hypercube varie entre 0.09375 σ et 1.5 σ. Nous présentons les résultats dans les tables Tab. 4.1 et Tab. 4.2 50 4.2. Quelques résultats Porig Pinv P -0.17 -0.250 0.080 2.20 2.288 0.088 2.20 2.111 0.089 0.27 0.265 0.005 -0.09 -0.009 0.081 2.20 2.320 0.120 -2.20 -2.173 0.027 TAB . 4.1 – La précision de l’inversion dans le cas où le nombre d’échantillons de l’espace nul est 256 Porig Pinv P -0.17 -0.167 0.003 2.20 2.181 0.019 2.20 2.168 0.032 0.27 0.277 0.007 -0.09 -0.101 0.011 2.20 2.163 0.037 -2.20 -2.230 0.030 TAB . 4.2 – La précision de l’inversion dans le cas où le nombre d’échantillons de l’espace nul est 10000 pour deux pas d’échantillonnage différents : 1. le nombre d’échantillons de l’espace nul est 256, le pas d’échantillonnage est 0.1875 σ, 2. le nombre d’échantillons de l’espace nul est 10.000, le pas d’échantillonnage est .075 σ. Dans le premier tableau, on donne les 7 paramètres articulatoires de Porig . Pinv est le vecteur le plus proche de Porig trouvé parmi toutes les solutions, dans le cas où le nombre d’échantillons est 256. P présente les erreurs entre les paramètres originaux et les paramètres inversés. Dans le deuxième tableau, on présente les mêmes données, dans le cas où le nombre d’échantillons est 10.000. En comparant les deux P, il est clair qu’on a une approximation précise du vecteur original si on est en présence d’un échantillonnage fin. Cela dit, le nombre d’échantillons nécessaires pour avoir de bons résultats d’inversion dépend des données à inverser et de la taille de l’hypercube (si la taille de l’hypercube était suffisamment petite, on aurait pu prendre le centre de l’hypercube). D’autre part, le nombre d’échantillons ne doit pas être trop grand parce que les formes du conduit vocal seront très proches et on pourrait les confondre puisque cela correspond, du point de vue phonétique, à la même forme. Cet exemple donne une bonne idée de la précision de l’inversion. Au-delà de cette vérification de la précision, cette expérimentation nous permet de nous assurer que l’algorithme donne les résultats attendus ce qui n’est pas facile à tester étant donnée la dimension élevée de l’espace articulatoire. En effet, la généralisation des résultats mathématiques des dimensions deux et trois n’est pas évidente pour les dimensions supérieures. 4.2 Quelques résultats Notre méthode d’inversion permet de retrouver avec précision toutes les formes possibles du conduit vocal correspondant à une entrée acoustique. Cela permet d’étudier l’influence articulatoire des contraintes ajoutées à l’inversion et de trouver une trajectoire réaliste qui peut produire le signal de parole original. L’ensemble des solutions de l’inversion peut être aussi utilisé pour étudier la variabilité de la production de la parole et les effets compensatoires exploités par le locuteur, comme nous allons le voir par la suite. À présent nous donnons un premier exemple d’inversion obtenu par notre méthode. 51 Chapitre 4. Inversion par un codebook hypercubique F IG . 4.4 – Représentation des solutions d’inversion dans l’espace acoustique. Les courbes en traits continus correspondent à la trajectoire acoustique à inverser. Trajectoire récupérée Solutions obtenues du codebook Trajectoire initiale Paramètre corps de la langue 4 3 2 1 0 -1 -2 -3 -4 500 510 520 530 540 550 Temps F IG . 4.5 – Représentation des solutions d’inversion dans l’espace articulatoire. Pour chaque segment de parole, nous obtenons plusieurs solutions (chaque colonne de points correspond à un segment de parole). La trajectoire initiale est représentée en trait discontinu. La trajectoire récupérée par inversion est représentée par un trait continu. Nous avons généré une trajectoire articulatoire en variant sinusoïdalement le paramètre correspondant au corps de la langue et en conservant tous les autres paramètres dans la position neutre. À l’aide du synthétiseur articulatoire, nous avons produit les formants lui correspondant. Nous avons effectué l’inversion des formants en utilisant la première version du codebook (avec un seuil fixe en Hertz pour F1, F2 et F3 à 50 Hz, 75 Hz et 100 Hz) correspondant au locuteur SM. Nous avons reproduit de nouveau les formants correspondant aux formes articulatoires obtenues par inversion. Dans la Fig. 4.4, nous présentons la trajectoire acoustique originale donnée par les trois premiers formants (les courbes en trait continu). Nous présentons sur le même graphe, les solutions de l’inversion 52 4.3. Évaluation expérimentale de la précision acoustique représentées par leurs valeurs acoustiques. Il est clair que l’inversion permet d’avoir une bonne proximité acoustique. Les points solutions de l’inversion sont très proches de la trajectoire originale à inverser. Dans la Fig. 4.5, nous montrons le résultat de l’inversion de la même trajectoire acoustique, mais présenté dans l’espace articulatoire. Pour chaque segment de parole, nous obtenons plusieurs solutions dont l’image acoustique est très proche du signal acoustique original. Pour cet exemple, nous obtenons en moyenne 500 formes articulatoires par segment de parole. Cette moyenne varie en fonction de la position des formants dans l’espace vocalique. Dans les Fig. 4.6 et 4.7, nous montrons les résultats de l’inversion de deux séquences /au/ et /ui/ dans l’espace articulatoire (paramètre mâchoire). Les graphes du haut de chaque figure représentent les solutions sans échantillonnage de l’espace nul, c’est-à-dire les solutions particulières obtenues par la méthode SVD. Les graphes du bas de chaque figure représentent les solutions en effectuant l’échantillonnage de l’espace nul (ici, 81 échantillons au maximum par solution). Nous remarquons clairement que les solutions obtenues en effectuant l’échantillonnage de l’espace nul couvrent plus finement l’espace articulatoire, ce qui permet d’obtenir des trajectoires articulatoires plus lisses. 4.3 Évaluation expérimentale de la précision acoustique Pour évaluer la précision acoustique des solutions obtenues après l’inversion, nous avons pris 489 entrées acoustiques extraites d’un signal de parole réelle. Nous avons utilisé notre méthode d’inversion pour récupérer l’ensemble des solutions dont le nombre est de l’ordre de 4.000.000. Nous avons calculé les valeurs acoustiques correspondant à ces solutions à l’aide du synthétiseur articulatoire. Ensuite, nous avons comparé les valeurs acoustiques des solutions obtenues avec les entrées acoustiques. L’erreur moyenne est de 8, 39 Hz avec un écart type de 10, 03 Hz pour F1, de 10, 86 Hz avec un écart type de 12, 11 Hz pour F2 et de 10, 45 Hz avec un écart type de 12, 53 Hz pour F3. Cette évaluation montre bien que notre méthode d’inversion permet d’obtenir une bonne précision acoustique. Conclusion Nous avons présenté dans ce chapitre notre méthode d’inversion point à point. C’est une méthode qui exploite la structure hypercubique du codebook pour retrouver toutes les solutions possibles de l’inversion. Pour cela, nous procédons à une première résolution d’un système d’équations en utilisant la méthode SVD puis nous explorons l’espace nul associé au problème. Cette exploration influence le degré de lissage des trajectoires articulatoires. Les solutions obtenues permettent de construire une trajectoire dans l’espace articulatoire, ce qui fait l’objet du chapitre suivant. L’avantage de notre méthode d’inversion est qu’elle ne contraint pas implicitement le processus d’inversion. Il est donc possible d’étudier très précisément comment l’introduction de contraintes d’origine physiologique ou acoustique ou encore biomécanique influence l’inversion de manière à récupérer les trajectoires articulatoires proches des trajectoires réalisées par le locuteur. 53 Chapitre 4. Inversion par un codebook hypercubique F IG . 4.6 – Représentation des solutions d’inversion de la séquence /au/ dans l’espace articulatoire (le paramètre mâchoire). Le graphe du haut présente toutes les solutions obtenues sans échantillonnage de l’espace nul. Celui du bas présente les solutions obtenues par échantillonnage de l’espace nul. 54 4.3. Évaluation expérimentale de la précision acoustique F IG . 4.7 – Représentation des solutions d’inversion de la séquence /ui/ dans l’espace articulatoire (le paramètre mâchoire). Le graphe du haut présente toutes les solutions obtenues sans échantillonnage de l’espace nul. Celui du bas présente les solutions obtenues par échantillonnage de l’espace nul. 55 Chapitre 4. Inversion par un codebook hypercubique 56 Chapitre 5 Récupération des trajectoires articulatoires Introduction Dans le chapitre précédent, nous avons présenté une méthode d’inversion. Pour chaque entrée acoustique, définie par les trois premiers formants, nous récupérons plusieurs solutions. À chaque instant, cette méthode retourne plusieurs solutions articulatoires compatible avec les formants. Étant donné un signal de parole, représenté par la séquence des triplets de formants mesurés à intervalle de temps régulier (16 ms), le problème est donc de choisir une trajectoire13 articulatoire en retenant à chaque instant une solution articulatoire (c’est-à-dire une forme de conduit vocal) parmi toutes celles fournies par l’inversion. Une trajectoire articulatoire réaliste est une trajectoire dont les différents paramètres articulatoires varient lentement avec le temps, et dont la trajectoire acoustique correspondante est très proche de celle de départ. Cela exige la satisfaction de deux critères : – la proximité avec les données acoustiques, – la régularité des paramètres articulatoires. Dans ce chapitre, nous présentons une méthode qui répond à ces exigences. Elle opère en deux phases : 1. Déterminer une solution initiale (une trajectoire articulatoire) à partir des solutions obtenues par inversion ; 2. Améliorer cette solution initiale par une méthode de régularisation variationnelle. La première phase est un algorithme de lissage non-linéaire qui choisit une séquence de formes qui n’est pas forcément définie à chaque instant. Pour ce faire, nous utilisons la programmation dynamique 13 Une trajectoire est la courbe décrite par un point matériel en mouvement ou le centre de gravité d’un mobile. Nous ne considérons pas directement les articulateurs mais sept paramètres qui représentent les directions privilégiées de déformation du conduit vocal. Le terme de trajectoire articulatoire pour représenter la courbe décrite par un paramètre articulatoire est donc inapproprié car il ne concerne pas directement un objet physique. Cependant, nous conservons ce terme qui reflète bien la nature mobile des articulateurs lors de la production de parole et qui est le terme classiquement utilisé. 57 Chapitre 5. Récupération des trajectoires articulatoires afin de trouver les points à conserver. La deuxième phase est un algorithme de régularisation variationnelle qui minimise une fonction de coût combinant la distance acoustique et l’évolution des paramètres articulatoires. 5.1 Algorithme de lissage non-linéaire Notre algorithme est dérivé de l’algorithme de lissage non-linéaire de Ney [Ney, 1983]. En effet, les techniques classiques de lissage linéaire ne donnent pas des résultats acceptables pour les courbes qui présentent de fortes discontinuités. L’algorithme non-linéaire proposé est basé sur un critère global de lissage de courbe. Ce critère est optimisé par une stratégie de programmation dynamique. Dans le cas de l’inversion acoustico-articulatoire, il s’agit de choisir une séquence de formes articulatoires, qui éventuellement n’est pas définie à chaque instant. Présentation de l’algorithme de lissage Soit s(i) un ensemble de formes du conduit vocal (c’est-à-dire un ensemble de vecteurs articulatoires) récupéré par inversion à l’instant i. L’objectif de l’algorithme est de trouver une trajectoire articulatoire à partir de l’ensemble des formes de la séquences S : S = (s(0)...s(i)...s(N)) (5.1) où i représente les instants et N est le dernier instant d’un segment de parole. La construction d’une trajectoire exige une double sélection : – le choix des instants auxquels la trajectoire est définie, c’est-à-dire, le choix d’une sous-séquence S de s définie par la fonction j telle que : S = (s( j(0))...s( j(k))...s( j(K))) (5.2) Avec K < N et j est une fonction positive strictement croissante : 0 ≤ j(k) < j(k + 1) ≤ N (5.3) – le choix d’une forme dans chaque ensemble appartenant à la séquence S. La forme choisie de l’ensemble s( j(k)) est notée α( j(k)), α( j(k)) ∈ IR7 , et la trajectoire articulatoire A est donc : A = (α( j(0)) ... α( j(k)) ... α( j(K)) Le coût C du choix de α( j(k)) après α( j(k − 1)) est donné par la fonction suivante : 58 (5.4) 5.2. Régularisation variationnelle 7 C(α( j(k)) , α( j(k − 1))) = λ ∑ mi (αi ( j(k)) − αi ( j(k − 1)))2 (5.5) i=1 où λ est une constante de normalisation et les mi sont les masses associées aux différents paramètres articulatoires. Les masses associées aux différents articulateurs peuvent être les masses réelles de ces articulateurs, ou bien une autre grandeur exprimant une réalité physique dans le système de production de la parole. Les valeurs des masses sont déterminées généralement expérimentalement, ou bien fixées à 1 faute d’expérimentation ou de connaissances a priori. Une fonction de coût global, basée sur le coût local, à minimiser pourrait être : K ∑ C(α( j(k)) , α( j(k − 1))) (5.6) k=1 Néanmoins, du moment que le coût local est positif, une solution qui minimise la fonction peut être réduite à un nombre très petit de formes, éventuellement une seule forme, ce qui n’est pas acceptable. Dans le cas du lissage non-linéaire, Ney [Ney, 1983] introduit donc un bonus strictement positif B obtenu pour chaque forme préservée dans la trajectoire lissée (trajectoire finale). Ce bonus est déterminé généralement expérimentalement. Le coût global devient donc : K D= ∑( C(α( j(k)) , α( j(k − 1))) − B(α( j(k − 1))) ) (5.7) k=1 La minimisation de D est obtenue par l’utilisation de la programmation dynamique qui donne lieu au calcul de mesures partielles de D pour chaque forme dans chaque ensemble de formes s(i). Ce calcul entraîne l’examen de toutes les formes dans tous les ensembles des formes qui précèdent s(i) car contrairement à l’application traditionnelle de la programmation dynamique, il s’agit d’un double mécanisme de sélection : trouver le « meilleur instant » qui précède l’instant qui est en cours d’examen et parmi les solutions articulatoires du « meilleur instant » trouver la meilleure solution articulatoire. Par conséquent, il y a vraisemblablement un grand nombre de cas examinés qui sont inutiles . En effet, il suffit de parcourir les ensembles de formes se trouvant dans une fenêtre de taille prédéfinie, ce qui permet de réduire le temps de calcul. L’algorithme de lissage évite les points bruités ou incorrects mais il ne fournit pas de méthode pour les remplacer, ce qui peut se faire par simple interpolation linéaire, ou encore, dans notre cas, lors de la phase de régularisation variationnelle. 5.2 Régularisation variationnelle L’algorithme de lissage non-linéaire, que nous venons de présenter permet d’obtenir des trajectoires lisses. Néanmoins, il n’y a pas de garanties que les trajectoires vont être parfaitement lisses, puisque cela dépend aussi de la qualité des points obtenus lors de l’inversion. En effet, pour certaines trajectoires, il 59 Chapitre 5. Récupération des trajectoires articulatoires arrive qu’on ne trouve pas de points de bonne qualité14 en tout point de la trajectoire. Cela peut être dû à un échantillonnage de l’espace nul qui n’est pas suffisamment fin. Pour cette raison, nous faisons suivre notre algorithme de lissage non-linéaire d’une phase d’optimisation présentée dans [Laprie and Mathieu, 1998b] qui repose sur le calcul variationnel. À partir de la solution initiale (la trajectoire obtenue par l’algorithme de lissage), on construit une suite de trajectoires articulatoires qui optimise la distance acoustique et l’évolution des paramètres articulatoires. Nous présentons le principe de la méthode (pour les détails voir l’annexe D) Cette méthode d’optimisation satisfait trois critères : 1. une bonne qualité acoustique, c’est-à-dire minimiser ∑3j=1 ( f j (t) − Fj (α(t))2 ; où f j (t) sont les trajectoires formantiques extraites de la parole (les données du problème) et Fj (α(t)) sont celles générées par le synthétiseur articulatoire ; 2. une trajectoire lisse, c’est-à-dire minimiser ∑7i=1 mi αi 2 (t) ; où mi est la masse de l’articulateur i, 3. une trajectoire articulatoire réaliste, dans le sens qu’elle minimise l’effort articulatoire, en minimisant ∑7i=1 ki α2i (t) ; où ki est la constante de raideur de l’articulateur i. Le premier critère exprime la proximité acoustique entre les trajectoires observées f j (t) et celles générées par le modèle articulatoire. Le deuxième critère exprime la vitesse de l’évolution des paramètres articulatoires. Enfin, le troisième pénalise les efforts articulatoires trop intenses et évite au conduit vocal d’atteindre des positions trop éloignées de la position de repos. Cette quantité représente l’énergie potentielle. La fonction de coût à minimiser est donc de la forme suivante : Z tf 3 I= ti ∑ ( f j (t) − Fj (α(t))) dt + λ j=1 2 Z tf 7 ti ∑ i=1 mi α2 i (t)dt + β Z tf 7 ti ∑ ki α2i (t)dt (5.8) i=1 où ti et t f définissent l’intervalle de temps sur lequel l’inversion a lieu, λ et β expriment le compromis entre la vitesse d’évolution des paramètres articulatoires, leur distance à la position de repos et la distance acoustique. La fonction I est minimisée avec le calcul variationnel, qui est basé sur un processus itératif. L’algorithme tend à améliorer la solution initiale dans l’optique d’avoir des trajectoires de plus en plus régulières et une bonne proximité entre la parole prononcée par un locuteur et la parole synthétisée. Malheureusement, il n’y a pas de garanties que le minimum atteint soit celui recherché, d’où, l’importance d’une bonne solution initiale. Pour cela, la première phase, c’est-à-dire la récupération d’une trajectoire articulatoire par le lissage non-linéaire, est indispensable. Nous présentons dans les Fig. 5.1 et 5.2 deux trajectoires obtenues par la méthode de lissage nonlinéaire (en trait continu) et ces mêmes trajectoires obtenues après l’optimisation variationnelle (en trait 14 “bonne qualité” veut dire qu’on n’arrive pas à trouver pour certains formants, les formes de conduit vocal pouvant faire partie d’une trajectoire lisse. 60 5.2. Régularisation variationnelle Paramètre apex de la langue 3 2 1 0 -1 -2 -3 2650 2700 2750 2800 2850 Temps 2900 2950 3000 F IG . 5.1 – Trajectoire articulatoire obtenue par lissage non-linéaire (trait continu). Trajectoire articulatoire obtenue en appliquant la méthode d’optimisation variationnelle (trait discontinu). 0.2 Paramètre mâchoire 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 10900 10950 11000 11050 Temps 11100 11150 11200 F IG . 5.2 – Trajectoire articulatoire obtenue par lissage non-linéaire (trait continu). Trajectoire articulatoire obtenue en appliquant la méthode d’optimisation variationnelle (trait discontinu). discontinu). Il est clair que la méthode d’optimisation donne une trajectoire lisse et tend à réduire les distorsions présentes dans les trajectoires initiales. Conclusion Dans ce chapitre, nous nous sommes intéressés à la récupération des trajectoires articulatoires. Nous avons présenté deux méthodes de lissage. La première est une méthode de lissage non-linéaire qui permet de récupérer une trajectoire qui sera une solution initiale pour la deuxième étape qui est une méthode de régularisation variationnelle. La seconde étape présente l’avantage d’effectuer une optimisation à la fois dans l’espace articulatoire et dans l’espace acoustique. Comme nous le verrons dans le chapitre suivant, ces deux méthodes complémentaires donnent de bons résultats. 61 Chapitre 5. Récupération des trajectoires articulatoires 62 Chapitre 6 Évaluations expérimentales de l’inversion acoustico-articulatoire Introduction Après avoir présenté les différents éléments de notre méthode d’inversion, nous allons les utiliser pour inverser des séquences acoustiques. En absence de données articulatoires réelles, nous ne pouvons qu’évaluer la régularité des trajectoires articulatoires obtenues par inversion, la proximité acoustique visà-vis des données de départ et vérifier la vraisemblance articulatoire par rapport à des connaissances a priori. Dans la deuxième partie de ce chapitre, nous présentons une étude sur la variabilité articulatoire des voyelles. En effet, étant donné que le codebook hypercubique permet une couverture complète de l’espace articulatoire, une étude exhaustive est possible. 6.1 Évaluations expérimentales : Récupération des trajectoires articulatoires Afin de tester et évaluer notre méthode d’inversion expérimentalement, nous avons procédé à l’inversion de plusieurs séquences voyelle-voyelle(V-V),voyelle-voyelle-voyelle (VVV) et voyelle-consonnevoyelle (VCV). Nous disposons du spectrogramme de chaque séquence prononcée par le locuteur YL et nous avons extrait les trajectoires des trois premiers formants. Notre méthode d’inversion nous a permis de récupérer, dans le codebook hypercubique, toutes les formes du conduit vocal correspondant à ces séquences. Plus précisément, pour chaque segment acoustique nous obtenons plusieurs centaines de formes articulatoires. Pour l’ensemble des séquences utilisées lors de l’évaluation expérimentale, ce nombre varie entre 500 et 8.000 formes en fonction du pas d’échantillonnage de l’espace nul associé. Pour ces expériences, nous avons pris un pas d’échantillonnage égal à 3, et donc un nombre d’échantillons inférieur ou égal à 81 = 34 . Ensuite, nous appliquons l’algorithme de lissage non-linéaire pour obtenir des trajectoires articulatoires régulières et réalistes. Pour utiliser cet algorithme nous devons fixer les masses15 associées aux articulateurs. Par défaut, nous pouvons affecter la même masse à tous les articulateurs, mais, nous avons aussi étudié leur influence sur le comportement de l’algorithme. 15 Par le terme « masse », nous entendons une pondération que l’on associe à un paramètre articulatoire. 63 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire Le processus de lissage se termine par la régularisation variationnelle de la trajectoire obtenue pour garantir simultanément une bonne proximité acoustique et la régularité des trajectoires articulatoires. Les valeurs des pseudo-masses des articulateurs et des constantes de raideur sont alors fixées à 1. 6.1.1 Inversion de séquences de voyelles Nous commençons par présenter un exemple d’inversion de la séquence / /. Dans la Fig. 6.2, nous présentons le spectrogramme, les formants mesurés et ceux des solutions de l’inversion. Nous remarquons que toutes les solutions présentent une bonne proximité acoustique, ce qui montre que la méthode d’inversion et le codebook hypercubique représentent bien le comportement acoustique du modèle articulatoire. Le schéma du bas de la Fig. 6.2 présente les trajectoires formantiques récupérées après le lissage non-linéaire et celles obtenues après la régularisation. Rappelons que la méthode d’optimisation variationnelle que nous utilisons effectue un lissage dans les deux espaces articulatoire et acoustique. Il apparaît clairement que la proximité acoustique est toujours bonne et les trajectoires formantiques obtenues sont lisses. Afin d’assurer l’interprétation des résultats dans l’espace articulatoire, la Fig. 6.1 donne la correspondance articulatoire pour tous les paramètres du modèle de Maeda. Larynx Mâchoire fermé +3 bas haut/arrière bas/avant +3 ouvertes/protruites fermées/non protruites Lèvres Langue -3 +3 ouvert -3 -3 +3 haut -3 F IG . 6.1 – Variation en écart type des paramètres articulatoires associés à la mâchoire, la langue, les lèvres et le larynx. Chaque paramètre varie dans l’intervalle [-3,3] écart type. Par exemple, le paramètre correspondant à la mâchoire varie entre +3 (fermeture de la mâchoire) et -3 (ouverture complète). Rappelons que dans le modèle articulatoire de Maeda, il y a 2 paramètres associés aux lèvres (ouverture et protrusion), trois paramètres associés à la langue ( position du corps de la langue, forme de la langue et position de l’apex), un paramètre pour la mâchoire et un dernier pour le larynx. La Fig. 6.3 donne les résultats de l’inversion de la séquence / / dans l’espace articulatoire pour chacun des sept paramètres articulatoires. Les trajectoires de tous les paramètres sont lisses. De plus ces trajectoires lisses sont réalistes. En effet, nous retrouvons dans ces trajectoires le déplacement de la langue vers l’arrière pour réaliser le passage de / / vers / / et inversement. De même, nous remarquons que les lèvres se ferment lorsque l’on passe de / / vers / /. La protrusion des lèvres est moins importante 64 6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires que les autres variations, mais elle existe. 3000 2500 Formants 2000 1500 1000 500 0 7300 7350 7400 7450 7500 7550 7600 7650 7700 7750 7800 F IG . 6.2 – L’inversion de la séquence / /. De haut en bas : le spectrogramme, les formants originaux et toutes les solutions trouvées dans le codebook et enfin les formants obtenus par l’algorithme de lissage non-linéaire et après régularisation (les trajectoires lisses ). Notre méthode de lissage non-linéaire permet d’obtenir des trajectoires articulatoires qui varient lentement dans le temps en minimisant l’effort articulatoire. À partir de ces trajectoires, la méthode d’optimisation variationnelle permet d’améliorer la régularité des trajectoires articulatoires et formantiques tout en respectant la proximité acoustique. 65 3 2500 2 2000 1 1500 -1 500 -2 7350 7400 7450 7500 7550 7600 7650 7700 7750 -3 7300 7800 3 3 2 2 1 0 -1 7350 7400 7450 7500 7550 7600 7650 7700 7750 7500 7550 7600 7650 7700 7750 7800 7350 7400 7450 7500 7550 7600 7650 7700 7750 7800 7350 7400 7450 7500 7550 7600 7650 7700 7750 7800 7350 7400 7450 7500 7550 7600 7650 7700 7750 7800 -1 3 2 2 1 0 -1 -2 1 0 -1 -2 7350 7400 7450 7500 7550 7600 7650 7700 7750 -3 7300 7800 3 2 2 Hauteur du larynx 3 1 0 -1 -2 -3 7300 7450 0 3 -3 7300 7400 1 -3 7300 7800 Ouverture des lèvres L’apex de la langue -3 7300 7350 -2 -2 Protrusion des lèvres 0 1000 0 7300 Position du corps de la langue Mâchoire 3000 Forme du corps de la langue Formants Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire 1 0 -1 -2 7350 7400 7450 7500 7550 7600 7650 7700 7750 7800 -3 7300 F IG . 6.3 – Trajectoires des différents paramètres articulatoires de la séquence / /. Présentation des trajectoires obtenues par l’algorithme de lissage non-linéaire et le résultat de l’optimisation variationnelle (les trajectoires lisses). Dans l’ annexe B, nous présentons plusieurs exemples complets d’inversion / /. Pour chaque cas, nous présentons les formants et les trajectoires des sept paramètres articulatoires. 66 6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires Dans cette section, nous présentons des exemples d’inversion de séquences V-V (Fig. 6.4, 6.5, 6.6, 6.7, 6.8 et 6.9). Afin de simplifier les figures, nous présentons seulement les paramètres articulatoires les plus caractéristiques de chaque séquence. Pour la séquence / /(Fig. 6.4), nous observons le déplacement de la mâchoire d’une position élevée vers une position ouverte pour réaliser le passage de la voyelle / / vers la voyelle / /. Ce déplacement est accompagné par un recul de la langue. [ia] [ia] 3000 P1 P2 P3 4 2500 3 2 Formants 2000 1 1500 0 1000 -1 500 -2 0 -3 1500 1550 1600 1650 1700 1750 1800 1850 1500 1550 1600 1650 1700 1750 1800 1850 F IG . 6.4 – Séquence /ia/. Représentation des trajectoires formantiques et les trajectoires articulatoires de trois paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P2 la position du corps de la langue et P3 la forme du corps de la langue. [ai] [ai] 3000 P1 P2 P3 4 2500 3 2 Formants 2000 1 1500 0 1000 -1 500 -2 0 -3 600 650 700 750 800 850 600 650 700 750 800 850 F IG . 6.5 – Séquence /ai/. Représentation des trajectoires formantiques et les trajectoires articulatoires de trois paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P2 la position du corps de la langue et P3 la forme du corps de la langue. Pour la séquence / / (Fig. 6.5), nous remarquons un déplacement de la mâchoire d’une position ouverte vers une position fermée. Les mouvements de la mâchoire et du corps de la langue se font pratiquement dans le sens inverse de ceux de la séquence / /. Néanmoins, il y a certaines différences. Tout d’abord, pour /a/ la mâchoire est plus ouverte pour /ai/ que pour la séquence / /. Mais la variation la plus 67 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire importante est celle de la forme de la langue. En effet, l’élévation du corps de la langue est faible pour la séquence / / et l’abaissement du corps de la langue est plus important pour la séquence / /. Cette différence de comportement peut être expliqué par le fait que l’élévation du corps de la langue est plus critique pour la voyelle / / que l’abaissement ne l’est pour la voyelle / /. Pour cela, on pourrait produire la séquence / / avec une voyelle / / moins ouverte. La Fig. 6.6 montre les résultats pour la séquence / /. Le passage du / / vers / / est réalisé principalement par l’élévation de la langue et la fermeture des lèvres. La séquence / / (Fig. 6.7) présente les mêmes variations, mais dans l’autre sens, c’est-à-dire le passage / / vers / /. Dans ces deux exemples, la protrusion des lèvres n’a pas été sollicitée. Cela n’est pas très naturel mais il est établi que la protrusion n’est pas toujours nécessaire pour la production du / /. [au] [au] 2400 P1 P3 P5 P6 4 2200 2000 3 1800 Formants 2 1600 1400 1 1200 0 1000 800 -1 600 -2 400 200 -3 3650 3700 3750 3800 3850 3900 3950 3650 3700 3750 3800 3850 3900 3950 F IG . 6.6 – Séquence /au/. Représentation des trajectoires formantiques et les trajectoires articulatoires de quatre paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P3 la forme du corps de la langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres. [ua] [ua] 2400 P1 P3 P5 P6 4 2200 2000 3 1800 Formants 2 1600 1 1400 1200 0 1000 -1 800 -2 600 400 -3 2650 2700 2750 2800 2850 2900 2950 3000 2650 2700 2750 2800 2850 2900 2950 3000 F IG . 6.7 – Séquence /ua/. Représentation des trajectoires formantiques et les trajectoires articulatoires de quatre paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P3 la forme du corps de la langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres. Pour la séquence / 68 / (Fig. 6.8), nous voyons que le passage de la voyelle / / vers la voyelle / / se 6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires fait principalement par l’avancement du corps de la langue et la fermeture des lèvres. De même que pour le cas du /u/, la protrusion pour la voyelle /y/ n’est pas très significative. [ay] [ay] 2400 P1 P2 P5 P6 4 2200 2000 3 1800 Formants 2 1600 1 1400 1200 0 1000 -1 800 -2 600 400 -3 7150 7200 7250 7300 7350 7400 7450 7150 7200 7250 7300 7350 7400 7450 F IG . 6.8 – Séquence /ay/. Représentation des trajectoires formantiques et les trajectoires articulatoires de quatre paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P2 la position du corps de la langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres. [iy] [iy] 3000 P1 P3 P5 P6 4 2500 3 2 Formants 2000 1 1500 0 1000 -1 500 -2 0 -3 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 F IG . 6.9 – Séquence /iy/. Représentation des trajectoires formantiques et les trajectoires articulatoires de quatre paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P3 la forme du corps de la langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres. Pour la séquence / / (Fig. 6.9), le seul paramètre qui semble changer est la forme de la langue alors que l’on devrait observer la protrusion des lèvres de /i/ à /y/. Il faut d’abord noter que mis à part la protrusion des lèvres, ces deux voyelles sont très proches dans l’espace articulatoire. Comme le montrent les figures 4.6 et 4.7 du chapitre 4, il existe un très grand nombre de points inverses possibles à chaque instant. L’algorithme de lissage choisit une solution parmi un grand nombre d’autres trajectoires qui donneraient exactement les mêmes paramètres acoustiques. La solution trouvée pour /iy/ minimise l’effort du locuteur puisqu’un seul paramètre varie notablement, mais il ne s’agit pas de la protrusion. Il est vraisemblable que la solution attendue qui nécessite le mouvement des lèvres est jugée plus coûteuse puisqu’elle implique à la fois l’ouverture et la protrusion des lèvres. Pour cette 69 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire raison, nous ajouterons à notre algorithme la possibilité de fixer l’allure de la trajectoire de l’un des paramètres (ici la protrusion) de manière à vérifier que la solution attendue est effectivement possible. Malgré tout il est clair qu’il faut considérer notre méthode d’inversion comme un banc d’essai pour évaluer le mérite de contraintes destinées à assurer que les solutions récupérées sont bien cohérentes avec les connaissances articulatoires actuelles. Nous ne développerons pas ici cette question importante qui fera l’objet de la suite de notre travail et nous décrivons seulement les investigations que nous avons conduites au sujet de l’influence des paramètres de masses sur l’inversion. Il reste que, même si les solutions récupérées ne respectent pas toujours les mouvements articulatoires attendues, elles sont infiniment plus réalistes que les trajectoires de la Fig. 6.10 tirées du travail de [Richards et al., 1997]. F IG . 6.10 – Trajectoires articulatoires retrouvées à partir d’un codebook en utilisant des contraintes dynamiques par la méthode d’inversion présentée dans [Richards et al., 1997]. 6.1.2 Choix des masses Dans ces expériences, nous avons affecté les mêmes masses aux articulateurs. En réalité, les différents articulateurs n’ont pas la même masse, celle de la langue par exemple est beaucoup plus importante que celle des lèvres. La masse seule ne suffit d’ailleurs pas à assurer la fidélité avec le comportement biomécanique des articulateurs car il faut plutôt prendre en compte la puissance musculaire des articulateurs. Considérant que les paramètres de pseudo-masse de l’algorithme peuvent représenter le compromis masse-puissance 70 6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires musculaire, nous avons étudié comment les résultats étaient influencés par les pseudo-masses. 3 P1 P2 P3 2 1 0 -1 -2 -3 1450 1500 1550 1600 1650 1700 1750 1800 1850 1900 F IG . 6.11 – Trajectoires articulatoires de la séquence /ia/ dans le cas où toutes les masses sont égales. P1 est la position de la mâchoire, P2 la position du corps de la langue et P3 la forme du corps de la langue. 3 P1 P2 P3 2 1 0 -1 -2 -3 1450 1500 1550 1600 1650 1700 1750 1800 1850 1900 F IG . 6.12 – Trajectoires articulatoires de la séquence /ia/ dans le cas où l’on affecte une masse importante à la mâchoire et moins importante pour les autres articulateurs. P1 est la position de la mâchoire, P2 la position du corps de la langue et P3 la forme du corps de la langue. Pour cela, nous avons réalisé une expérience d’inversion de la séquence / / en affectant une masse importante à l’articulateur mâchoire et des masses moins importantes pour le reste des articulateurs. Dans cette expérience, nous avons affecté une masse à la mâchoire 5 fois plus grande que les masses des autres articulateurs. Notons ici que le choix de la valeur 5 est absolument arbitraire : tout ce qui nous intéresse dans ce choix est d’étudier les répercutions sur les résultats. Afin de minimiser l’énergie de la fonctionnelle, notre méthode de régularisation va réduire les mouvements de la mâchoire. Nous observons en effet que le mouvement de la mâchoire est moins important dans la Fig. 6.12 que dans la Fig. 6.11. Ce changement de trajectoire est compensé par la réorganisation du mouvement des autres articulateurs. Remarquons en particulier que la variation de la position du corps de la langue dans le premier cas est moins importante que dans le deuxième cas, ce qui signifie que la langue a compensé le déplacement moindre de la mâchoire. Nous avons observé ce phénomène de compensation à plusieurs reprises (voir les exemples de l’annexe B, particulièrement les séquences / /). En changeant les valeurs des 71 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire masses, on agit donc sur les trajectoires. [ay] 4 P1 P5 P6 3 2 1 0 -1 -2 -3 7100 7150 7200 7250 7300 7350 7400 7450 F IG . 6.13 – Trajectoires articulatoires de la séquence /ay/ dans le cas où toutes les masses sont égales. P1 est la position de la mâchoire, P5 l’ouverture des lèvres et P6 la protrusion des lèvres. [ay] 4 P1 P5 P6 3 2 1 0 -1 -2 -3 7100 7150 7200 7250 7300 7350 7400 7450 F IG . 6.14 – Trajectoires articulatoires de la séquence /ay/ dans le cas où l’on affecte une masse importante à la mâchoire et moins importante pour les autres articulateurs. P1 est la position de la mâchoire, P5 l’ouverture des lèvres et P6 la protrusion des lèvres. Dans une autre expérience d’inversion de la séquence / /, nous avons affecté des masses très importantes à la mâchoire et aux lèvres (50 fois la masse des autres articulateurs). Ceci ne correspond pas à une réalité physique, mais nous avons réalisé cette expérience pour voir comment cela influence le comportement d’un articulateur assez « rapide » . Dans les Fig. 6.13 et 6.14, nous présentons les trajectoires articulatoires associées à la mâchoire (P1), l’ouverture (P5) et la protrusion (P6) des lèvres. Dans la Fig. 6.13, nous présentons le cas où toutes les masses sont égales. Enfin, dans la Fig. 6.14, nous présentons le cas où les masses associées à la mâchoire et aux lèvres sont plus importantes que celles associées aux autres articulateurs. Nous remarquons que dans le dernier cas les trajectoires associées à la mâchoire et aux lèvres varient faiblement (ce qu’il est aussi possible de voir dans les animations présentées à l’annexe E). La compensation implique ici principalement la langue et le larynx. En effet, le ventriloque immobilise sa mâchoire et ses lèvres quand il parle, ce que nous traduisons en affectant des masses importantes à la mâchoire et aux lèvres. Nous imposons ainsi à notre méthode de lissage de trouver une trajectoire articulatoire où la mâchoire et les lèvres bougent peu. 72 6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires [ua] P1 P3 P5 P6 4 3 2 1 0 -1 -2 -3 2650 2700 2750 2800 2850 2900 2950 3000 F IG . 6.15 – Trajectoires articulatoires de la séquence /ua/ dans le cas où l’on affecte des masses 5 fois plus importantes pour la mâchoire, la position du corps de la langue et le larynx que pour les autres articulateurs. P1 est la position de la mâchoire, P3 la forme du corps de la langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres. [iy] P1 P3 P5 P6 4 3 2 1 0 -1 -2 -3 8150 8200 8250 8300 8350 8400 8450 F IG . 6.16 – Trajectoires articulatoires de la séquence /iy/ dans le cas où l’on affecte des masses 5 fois plus importantes pour la mâchoire, l’apex de la langue et le larynx que pour les autres articulateurs. P1 est la position de la mâchoire, P3 la forme du corps de la langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres. Reprenons le cas de la séquence / /. Nous avons obtenu les trajectoires articulatoires de la Fig. 6.7 en affectant la même masse aux différents articulateurs. Nous avons vu que la protrusion des lèvres n’a pas été sollicitée pour la voyelle / /. Mais, nous remarquons que la voyelle / / est accompagnée en général par la protrusion, éventuellement faible, des lèvres. Peut-on retrouver une trajectoire où cette protrusion est réalisée ? Cela est possible, si on détermine la bonne combinaison des masses affectées aux articulateurs. Nous avons essayé de forcer l’algorithme de lissage pour obtenir une trajectoire ayant un mouvement des lèvres de l’avant vers l’arrière, pour cette séquence. Pour cela, nous avons varié les valeurs des masses. Nous avons obtenu la protrusion pour les valeurs de masses suivantes : les masses affectées à la mâchoire, au corps de la langue et au larynx sont 5 fois plus fortes que celles affectées aux autres articulateurs (voir Fig. 6.15). Nous avons fait la même manipulation pour la séquence / /, pour laquelle nous avons vu qu’il n’y avait pas de protrusion des lèvres si la même masse était attribuée à tous les articulateurs (voir Fig. 6.9). 73 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire Pour obtenir une trajectoire avec une protrusion des lèvres, il faudrait choisir des masses pour la mâchoire, l’apex de la langue et le larynx 5 fois plus importantes que celles affectées aux autres articulateurs (voir Fig. 6.16). Ces expériences nous permettent de tirer deux conclusions. La première est que notre méthode de lissage permet d’étudier plusieurs types de stratégies articulatoires en modifiant les masses associées aux articulateurs. Cela est intéressant, par exemple, pour étudier les effets compensatoires et les relations interarticulateurs, et en particulier pour trouver des alternatives d’articulation dans le cas d’un dysfonctionnement de l’un des organes du conduit vocal. La deuxième conclusion est que le choix des masses en fonction de l’importance apparente des articulateurs n’est pas vraiment une bonne solution. En effet, comme nous l’avons vu dans ces exemples, une masse importante tend à immobiliser l’articulateur. Par conséquent, si on associe une masse importante à la mâchoire, on obtient des trajectoires articulatoires pour lesquelles la mâchoire varie peu. Néanmoins, on constate en général que la mâchoire est souvent sollicitée dans la production de la parole. En effet, la masse de la mâchoire est importante, mais en contrepartie elle dispose d’une musculature assez puissante, ce qui rend son mouvement facile. La même remarque est aussi valable pour la langue dont les muscles ont comme vocation première d’assurer la mastication, activité plus exigeante d’un point de vue musculaire que la production de parole. D’après les deux dernières expériences, nous constatons que nous n’avons pas la même combinaison de masses pour produire une action précise. Cela renforce l’idée que ces masses représentent plutôt un rapport de masse-puissance musculaire que de simples masses des organes articulatoires. La recherche des bonnes valeurs de ces masses n’est pas simple. Nous pensons qu’il serait intéressant d’effectuer un apprentissage sur un grand nombre d’expériences d’inversion pour pouvoir choisir la bonne combinaison de masses. Lorsque nous disons une « bonne » combinaison de masses, nous voulons dire que les valeurs de masse retenues permettent de retrouver les trajectoires articulatoires qui sont généralement observées chez un locuteur humain. Cela ne veut d’ailleurs pas dire qu’un autre choix de masses serait forcément mauvais, puisque la variabilité articulatoire existe (voir la section 6.1.3). En absence de connaissances suffisantes sur les forces musculaires des articulateurs de la parole, nous conservons pour l’instant la même masse pour tous les articulateurs, pour obtenir des trajectoires articulatoires réalistes. Nous pensons, néanmoins, qu’il sera intéressant d’étudier ce problème en effectuant un apprentissage sur des trajectoires prototypes et en s’inspirant des travaux sur la modélisation biomécanique du conduit vocal et sur la théorie du contrôle moteur de la parole. Influence de la configuration de départ sur les trajectoires articulatoires Dans la section précédente, nous avons noté qu’avec notre méthode de lissage non-linéaire nous n’arrivons pas à trouver une trajectoire avec une protrusion des lèvres dans une séquence de voyelles contenant la voyelle /u/ sauf si l’on choisit une bonne combinaison de masses. Nous allons présenter dans ce paragraphe un moyen pour obtenir une trajectoire avec la protrusion des lèvres, sans modifier les masses. Prenons l’exemple de la transition /ui/. Dans Fig. 6.17, nous présentons les trajectoires articulatoires obtenues pour trois paramètres articulatoires (la mâchoire, la langue et la protrusion des lèvres), avec des masses qui sont toutes égales. Dans cette figure, on voit bien que la protrusion des lèvres est très faible pour la voyelle /u/. 74 6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires 3 2 1 0 -1 -2 -3 5950 6000 6050 6100 6150 6200 6250 F IG . 6.17 – Trajectoires articulatoires de la séquence /ui/ dans le cas où l’on affecte la même masse pour tous les articulateurs. Les trajectoires présentées sont : la mâchoire (+), la langue (×) et la protrusion des lèvres (∗). 3 2 1 0 -1 -2 -3 5950 6000 6050 6100 6150 6200 6250 F IG . 6.18 – Trajectoires articulatoires de la séquence /ui/ dans le cas où l’on affecte la même masse pour tous les articulateurs. Dans ce cas, on fixe la configuration du conduit vocal de départ (/u/ avec une protrusion importante et égale à 3σ) et on impose à la méthode de lissage non-linéaire de partir de cette configuration pour trouver une trajectoire lisse. Les trajectoires présentées sont : la mâchoire (+), la langue (×) et la protrusion des lèvres (∗). Afin de pouvoir trouver une trajectoire avec une protrusion importante des lèvres, nous avons imposé à la méthode de lissage non-linéaire de partir d’une configuration de conduit vocal où /u/ est accompagnée de la protrusion des lèvres. De cette façon, la méthode de lissage non-linéaire tend à retrouver la trajectoire la plus lisse, en prenant en compte cette configuration de départ. Le résultat de cette procédure est présenté dans la figure 6.18. En fixant la configuration de départ, nous obtenons une trajectoire où la protrusion est bien visible. Il faut noter que nous n’avons pas modifié l’ensemble des trajectoires articulatoires potentielles, mais le fait de forcer l’algorithme de programmation dynamique à partir d’une configuration articulatoire avec les lèvres très protruites permet de faire émerger la solution de la figure 6.18. Cette expérience montre l’importance du choix de la configuration de départ sur la nature de la trajectoire articulatoire obtenue. De plus, nous notons aussi la variabilité des trajectoires obtenues qui 75 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire sont toutes réalisables a priori. Maintenant, il reste à définir comment on peut introduire le choix de la configuration de départ dans nos algorithmes. 6.1.3 Quelles trajectoires articulatoires choisir : la variabilité articulatoire Nos méthodes d’inversion et de lissage permettent d’étudier les trajectoires articulatoires qui satisfont les critères de régularité et de proximité que nous avons fixés. À ce stade de notre travail, une question s’impose : le locuteur choisit-il effectivement une trajectoire parmi celles que nous avons trouvées ? Tout ce que nous pouvons dire est que ces trajectoires sont réalisables par le modèle articulatoire et vraisemblablement par un locuteur humain, éventuellement doté d’un contrôle moteur peu banal. En effet, nous avons développé un outil d’animation de conduit vocal pour pouvoir suivre l’évolution temporelle des formes du conduit vocal. Cet outil permet de juger visuellement le réalisme des formes obtenues. Seule une comparaison avec des données réelles permettrait d’évaluer le réalisme des trajectoires articulatoires. Mais cela est loin d’être simple. En effet, les données réelles sous formes d’images médicales ou de tracées électropalatographiques ne sont pas facilement disponibles et sont toujours très limitées en quantité. Qui plus est, la récupération des paramètres articulatoires à partir des images du conduit vocal nécessite elle même une étape d’optimisation qui peut être influencée par l’adéquation du modèle au locuteur étudié. Enfin, nous ne pouvons pas affirmer que si la trajectoire trouvée par l’inversion ne correspond pas à celle réalisée par le locuteur étudié, elle ne pourrait pas être réalisée par un autre locuteur. En présence de plusieurs trajectoires articulatoires réalisables se pose la question suivante : quelle trajectoire choisir ? Pourquoi un locuteur donné choisit-il une trajectoire plutôt qu’une autre ? Pourquoi un même locuteur change-t-il parfois de stratégie articulatoire ? Plusieurs travaux ont montré l’existence de la variabilité articulatoire interlocuteurs ou intralocuteur [Raphael and Bell-Berti, 1975; Maeda, 1990; Johnson et al., 1993]. Dans [Johnson et al., 1993], les auteurs ont observé des images aux rayons X de 5 locuteurs lors de la production de voyelles de l’anglais américain et ont trouvé que cette variabilité existe. Ils ont aussi montré que la variabilité intralocuteur dépend du rythme d’élocution mais que pour une même vitesse de locution chaque locuteur utilise la même stratégie d’articulation, même si cette stratégie peut varier suivant le locuteur. La variabilité articulatoire interlocuteurs peut être expliquée par les différences anatomiques du conduit vocal. Par exemple, [Edwards and Harris, 1990] ont montré que les locuteurs ayant le maxillaire en avant présentent un mouvement de translation de la mâchoire plus importante que les locuteurs moyens. En revanche, ces locuteurs positionnent la langue plus en arrière. Il existe d’autres explications possibles. La rapidité d’élocution entraîne une réorganisation articulatoire. La parole « bien articulée » correspond à des mouvements de la mâchoire plus importants que par la parole spontanée. Le contexte a aussi une influence sur la nature des trajectoires articulatoires : dans un contexte CV, par exemple, les trajectoires des voyelles peuvent varier suivant la consonne qui précède la voyelle. Mais la variabilité articulatoire peut aussi résulter du choix d’un style articulatoire par habitude personnelle ou par convention sociale [Johnson et al., 1993]. 76 6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires 6.1.4 Inversion de séquences V-C-V Nous avons procédé à l’inversion de séquences V-C-V, non pas dans le but d’inverser les consonnes puisque ceci n’est pas possible avec notre méthode tant que nos données acoustiques sont les formants et que le modèle articulatoire que nous utilisons ne correspond pas aux consonnes, mais pour vérifier si les trajectoires obtenues sont cohérentes avec la réalisation d’une constriction caractéristique du lieu d’articulation de la consonne. Dans l’annexe ??, nous présentons l’ensemble de nos expériences sur les séquences V-C-V. Les consonnes utilisées dans ces séquences sont /g/, /t/ et /b/ dont les articulateurs critiques sont respectivement, le corps de la langue, l’apex de la langue et les lèvres. Les formants correspondent aux voyelles, et il n’y a pas de formants pour les consonnes. L’inversion est donc faite de part et d’autre de la consonne. Les Fig. 6.19, 6.20, 6.21, 6.22 et 6.23 montrent les séquences pour lesquelles nous pouvons effectivement observer une variation des paramètres de manière à réaliser l’occlusion. En effet, pour la séquence /aba/ (Fig. 6.19), le paramètre ouverture des lèvres décroît, et donc, les lèvres se ferment pour réaliser l’occlusion au niveau de la consonne, et croît ensuite lorsque les lèvres s’ouvrent juste après la consonne. Nous remarquons le même phénomène pour la séquence /aga/ et /uga/ (Fig. 6.20 et 6.23), mais le paramètre critique cette fois est le corps de la langue. Pour les séquences /ata/ et /atu/ (Fig. 6.21 et 6.22), nous remarquons un mouvement de la langue vers le haut pour réaliser une occlusion, mais cela se remarque dans la trajectoire du corps de la langue plus que dans la trajectoire de l’apex de la langue. Toutefois, pour ces deux exemples, l’apex est positionné vers le haut, ce qui voudrait dire que l’avancement de la langue suffit pour produire l’occlusion pour la consonne /t/. D’autres expériences d’inversion de séquences V-C-V montrent aussi la formation de l’occlusion pour le triplet test de consonnes (voir les séquences /utu/, /uga/, /agu/, /atu/ et /uta/ à l’annexe ??), mais la formation de l’occlusion apparaît plus nettement dans les animations des trajectoires articulatoires que nous avons réalisées avec notre logiciel d’animation qui montre l’évolution de la forme du conduit vocal et non pas seulement les paramètres du modèle de Maeda. Pour les expériences restantes (voir les séquences /ibi/, /igi/, /iti/, /ubu/ et /ugu/ à l’annexe ??), le mouvement destiné à réaliser la constriction est difficile à interpréter. Cela s’explique, peut être, en partie par le fait que les formants correspondant aux formes de conduit présentant une forte constriction n’ont pas été calculés. Par conséquent, le codebook couvre mal les régions articulatoires qui décrivent les consonnes. Une autre explication est la brièveté de ces séquences pour lesquelles l’algorithme d’inversion ne s’appuie que sur un nombre de points insuffisant pour exploiter les contraintes de régularité. Enfin nous n’avons pas pris en compte l’énergie des spectres produits par le modèle de Maeda ce qui est important pour les consonnes. 77 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire 2400 3 2200 2 2000 1800 Mâchoire Formants 1 1600 1400 1200 0 -1 1000 800 -2 600 12700 12750 12800 12850 12900 12950 13000 -3 12650 13050 3 3 2 2 Forme du corps de la langue Position du corps de la langue 400 12650 1 0 -1 -2 12700 12750 12800 12850 12900 12950 13000 12900 12950 13000 13050 12700 12750 12800 12850 12900 12950 13000 13050 12700 12750 12800 12850 12900 12950 13000 13050 12700 12750 12800 12850 12900 12950 13000 13050 -1 -3 12650 13050 2 2 1 0 -1 -2 1 0 -1 -2 12700 12750 12800 12850 12900 12950 13000 -3 12650 13050 3 3 2 2 Hauteur du larynx Protrusion des lèvres 12850 0 3 1 0 -1 -2 -3 12650 12800 1 3 -3 12650 12750 -2 Ouverture des lèvres L’apex de la langue -3 12650 12700 1 0 -1 -2 12700 12750 12800 12850 12900 12950 13000 13050 -3 12650 F IG . 6.19 – Trajectoires articulatoires de la séquence /aba/ 78 6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires 2400 3 2200 2 2000 1800 Mâchoire Formants 1 1600 1400 1200 0 -1 1000 800 -2 600 17350 17400 17450 17500 17550 17600 17650 17700 -3 17300 17750 3 3 2 2 Forme du corps de la langue Position du corps de la langue 400 17300 1 0 -1 -2 17350 17400 17450 17500 17550 17600 17650 17700 17550 17600 17650 17700 17750 17350 17400 17450 17500 17550 17600 17650 17700 17750 17350 17400 17450 17500 17550 17600 17650 17700 17750 17350 17400 17450 17500 17550 17600 17650 17700 17750 -1 -3 17300 17750 2 2 1 0 -1 -2 1 0 -1 -2 17350 17400 17450 17500 17550 17600 17650 17700 -3 17300 17750 3 3 2 2 Hauteur du larynx Protrusion des lèvres 17500 0 3 1 0 -1 -2 -3 17300 17450 1 3 -3 17300 17400 -2 Ouverture des lèvres L’apex de la langue -3 17300 17350 1 0 -1 -2 17350 17400 17450 17500 17550 17600 17650 17700 17750 -3 17300 F IG . 6.20 – Trajectoires articulatoires de la séquence /aga/ 79 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire 2400 3 2200 2 2000 1800 Mâchoire Formants 1 1600 1400 1200 0 -1 1000 800 -2 600 21750 21800 21850 21900 21950 22000 22050 22100 -3 21700 22150 3 3 2 2 Forme du corps de la langue Position du corps de la langue 400 21700 1 0 -1 -2 21750 21800 21850 21900 21950 22000 22050 22100 22150 21950 22000 22050 22100 22150 22200 21750 21800 21850 21900 21950 22000 22050 22100 22150 22200 21750 21800 21850 21900 21950 22000 22050 22100 22150 22200 21750 21800 21850 21900 21950 22000 22050 22100 22150 22200 -1 -3 21700 22200 2 2 1 0 -1 -2 1 0 -1 -2 21750 21800 21850 21900 21950 22000 22050 22100 22150 -3 21700 22200 3 3 2 2 Hauteur du larynx Protrusion des lèvres 21900 0 3 1 0 -1 -2 -3 21700 21850 1 3 -3 21700 21800 -2 Ouverture des lèvres L’apex de la langue -3 21700 21750 1 0 -1 -2 21750 21800 21850 21900 21950 22000 22050 22100 22150 22200 -3 21700 F IG . 6.21 – Trajectoires articulatoires de la séquence /ata/ 80 6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires 2400 3 2200 2 2000 1800 Mâchoire Formants 1 1600 1400 1200 0 -1 1000 800 -2 600 28750 28800 28850 28900 28950 29000 29050 29100 -3 28700 29150 3 3 2 2 Forme du corps de la langue Position du corps de la langue 400 28700 1 0 -1 -2 28750 28800 28850 28900 28950 29000 29050 29100 28950 29000 29050 29100 29150 28750 28800 28850 28900 28950 29000 29050 29100 29150 28750 28800 28850 28900 28950 29000 29050 29100 29150 28750 28800 28850 28900 28950 29000 29050 29100 29150 -1 -3 28700 29150 2 2 1 0 -1 -2 1 0 -1 -2 28750 28800 28850 28900 28950 29000 29050 29100 -3 28700 29150 3 3 2 2 Hauteur du larynx Protrusion des lèvres 28900 0 3 1 0 -1 -2 -3 28700 28850 1 3 -3 28700 28800 -2 Ouverture des lèvres L’apex de la langue -3 28700 28750 1 0 -1 -2 28750 28800 28850 28900 28950 29000 29050 29100 29150 -3 28700 F IG . 6.22 – Trajectoires articulatoires de la séquence /atu/ 81 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire 2400 3 2200 2 2000 1800 1 Mâchoire Formants 1600 1400 1200 0 1000 -1 800 600 -2 400 31800 31850 31900 31950 32000 32050 32100 32150 -3 31750 32200 3 3 2 2 Forme du corps de la langue Position du corps de la langue 200 31750 1 0 -1 -2 31800 31850 31900 31950 32000 32050 32100 32150 32000 32050 32100 32150 32200 31800 31850 31900 31950 32000 32050 32100 32150 32200 31800 31850 31900 31950 32000 32050 32100 32150 32200 31800 31850 31900 31950 32000 32050 32100 32150 32200 -1 -3 31750 32200 2 2 1 0 -1 -2 1 0 -1 -2 31800 31850 31900 31950 32000 32050 32100 32150 -3 31750 32200 3 3 2 2 Hauteur du larynx Protrusion des lèvres 31950 0 3 1 0 -1 -2 -3 31750 31900 1 3 -3 31750 31850 -2 Ouverture des lèvres L’apex de la langue -3 31750 31800 1 0 -1 -2 31800 31850 31900 31950 32000 32050 32100 32150 32200 -3 31750 F IG . 6.23 – Trajectoires articulatoires de la séquence /uga/ 82 6.2. Évaluations expérimentales : Inversion des voyelles 6.2 Évaluations expérimentales : Inversion des voyelles Dans cette section nous présentons le résultat de l’inversion des voyelles du français ce qui constitue une autre application possible de notre travail. Étant donné que notre codebook hypercubique couvre l’espace articulatoire, nous pouvons étudier pour chaque voyelle toutes les formes possibles du conduit vocal. Nous avons ainsi procédé à l’inversion de six voyelles du français /a e i u y/. Voyelles a e i u y F1 601 375 317 418 390 257 F2 1526 1860 1857 1225 939 1818 F3 2266 2612 2675 2125 2115 2253 TAB . 6.1 – Valeurs en Hz des trois premiers formants de voyelles du français utilisées dans les expériences d’inversion. La Tab. 6.1 donne les valeurs des trois premiers formants de ces voyelles. Ces valeurs sont extraites d’un corpus de voyelles isolées prononcées par le locuteur YL. L’extraction de ces valeurs est faite à l’aide du logiciel Snorri [Laprie, 1988]. Le modèle articulatoire utilisé dans cette étude est le même que celui qui a servi pour la construction du codebook (avec un facteur d’échelle de 1.039 pour le pharynx et 1.038 pour la bouche par rapport au modèle de Maeda d’une locutrice avant la multiplication par 1.1 pour passer à un locuteur masculin moyen). Nous présentons les résultats de l’inversion sous trois formes. Pour chaque voyelle, nous donnons l’aire transversale (Ac , en cm2 ) de la constriction en fonction de sa position (Xc , en cm) dans le conduit vocal, l’aire aux lèvres (Al , en cm2 ) en fonction de (Xc ) et (Al ) en fonction de (Ac ). Le lieu de constriction principal est obtenue en récupérant la section du conduit vocal présentant l’aire transversale minimale. Nous ne tenons pas compte dans la recherche du lieu de constriction des sections qui sont en bas du pharynx (au niveau du larynx, à 2 cm environ de la glotte) et la constriction formée au niveau des lèvres. La constriction qui nous intéresse dans cette étude est celle formée par la langue et le contour extérieur du conduit vocal. Le choix de représenter les résultats sous cette forme s’explique par le fait que le lieu de la constriction principale et l’aire à la constriction sont deux paramètres essentiels pour la classification et la description des voyelles [Stevens, 1972; Wood, 1979]. De même, il existe une étroite relation entre l’aire aux lèvres et le lieu de constriction. Par le biais de ces exemples nous voulons retrouver des résultats de phonétique connus ou moins connus. La Fig. 6.24 présente les résultats pour la voyelle /a/. Nous remarquons que pour la plupart des configurations articulatoires de la voyelle /a/, la constriction est située en haut du pharynx et au niveau du vélum. Pour ces configurations, l’aire de la constriction est très variable. Il existe des configurations avec la constriction au niveau du palais dur, mais alors l’aire de la constriction doit être supérieure à 2 cm2 . Pour les deux premiers types de configurations l’aire aux lèvres est très variable, et pour le troisième, les lèvres doivent être assez ouvertes. 83 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire F IG . 6.24 – Représentation de la voyelle /a/ dans les plans Xc /Ac , Xc /Al et Ac /Al . Pour la voyelle /e/ (Fig. 6.25), la constriction est située entre le palais mou et le palais dur. Dans tous les cas, l’aire de la constriction ne dépasse pas 2, 7 cm2 . L’aire aux lèvres est très variable. Néanmoins, pour les cas où l’aire de la constriction est supérieure 1, 7 cm2 , l’aire aux lèvres ne dépasse pas 1, 8 cm2 . Pour cette voyelle, nous constatons qu’il existe une compensation entre les lèvres et la langue puisque la constriction est formée généralement par la modification de la forme de la langue. Les lieux de constriction de la voyelle /i/ (Fig. 6.26) sont situés au niveau du palais dur et ils sont moins étendus que pour la voyelle /e/. Si l’aire de la constriction est supérieure à 0, 9 cm2 , l’aire aux lèvres devient très petite. En effet, pour produire la voyelle /i/, il faut une forte constriction (l’aire est moins de 1 cm2 ). Si l’aire de la constriction est plus importante, l’ouverture des lèvres doit être fortement réduite. La voyelle / / (Fig. 6.27) est caractérisée par trois lieux de constriction : au niveau du pharynx, au niveau du vélum et au niveau du palais dur. Les formes articulatoires de / / dont la constriction est formée au niveau du palais dur sont peu nombreuses. L’aire aux lèvres pour les / / pharyngales et les / / palatales est très faible (l’aire ne dépasse pas 1 cm2 ). Par contre, les / / vélaires disposent d’une grande variabilité pour l’ouverture aux lèvres. Notons aussi que l’aire au niveau des lèvres ne dépasse pas 3, 2 cm2 si on est en présence d’une constriction dont l’aire est supérieure à 1 cm2 . D’après la Fig. 6.28, il existe trois classes pour la voyelle /u/ : /u/ palatale, /u/ vélaire et /u/ pharyngale [Ouni and Laprie, 2001b]. Cette classification dépend du lieu de constriction selon qu’elle est située au niveau du pharynx, au niveau du vélum ou bien au niveau du palais mou. La constriction au niveau du pharynx est réalisée en reculant la langue. Pour le vélum et le palais, la constriction est formée en 84 6.2. Évaluations expérimentales : Inversion des voyelles F IG . 6.25 – Représentation de la voyelle /e/ dans les plans Xc /Ac , Xc /Al et Ac /Al . avançant ou en levant le corps de la langue. Dans la Fig. 6.29, nous présentons un exemple de coupe sagittale de chaque classe. Parmi l’ensemble des formes trouvées, nous constatons que le nombre de formes associées à la classe /u/ pharyngale est très petit. Une grande partie des formes correspondent à la classe /u/ palatale. Pour les classes /u/ pharyngale et /u/ vélaire, l’aire aux lèvres ne dépasse pas 1 cm2 . Si l’aire de constriction est supérieure à 1 cm2 , l’ouverture des lèvres est fortement réduite. Cette dernière remarque concerne les voyelles /e/, /i/, / / et /u/. En effet, quand la constriction devient moins nette, ce sont les lèvres qui effectuent la compensation pour conserver les mêmes caractéristiques acoustiques. Cela permet de conclure qu’il existe une étroite relation entre l’aire de la constriction et l’aire aux lèvres. Dans la Fig. 6.30, nous représentons deux formes articulatoires correspondant à une même voyelle /u/ vélaire, ayant le même lieu de constriction mais avec des positions de la mâchoire très différentes. Ici, les lèvres et, avec un effet moins important, le larynx compensent les effets acoustiques de la variabilité de la position de la mâchoire. Nous terminons cette série d’expériences par la voyelle /y/. Le lieu de constriction (Fig. 6.32) est situé au niveau du palais dur. La voyelle /y/ est caractérisée par une forte constriction et une faible ouverture au niveau des lèvres. Néanmoins, nous pouvons détecter deux types de /y/ qui présentent des lieux de constriction légèrement différents, comme le montre la Fig. 6.31. Pour la première classe, le lieu de constriction est situé au niveau de la partie avant du palais dur et pour la deuxième classe, ce lieu est situé dans la partie arrière du palais dur. La première classe de /y/ s’accompagne d’une large ouverture des lèvres (l’aire aux lèvres est voisine de 2 cm2 ) et la deuxième par une ouverture très faible (l’aire aux 85 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire F IG . 6.26 – Représentation de la voyelle /i/ dans les plans Xc /Ac , Xc /Al et Ac /Al . lèvres est inférieure à 0, 5 cm2 ). Remarquons aussi la rareté des solutions pour la voyelle /y/, qui pourrait être une indication d’un ajustement imparfait du modèle. Les deux dernières voyelles nous montrent clairement comment le conduit vocal exploite les propriétés de la compensation articulatoire pour atteindre une cible acoustique. Dans toutes ces expériences effectuées sur les voyelles, nous remarquons que la variabilité des formes du conduit vocal est moindre que celle des paramètres articulatoires. En effet, les lieux de constriction sont localisés dans 4 régions distinctes pour la voyelle /a/, trois pour les voyelles / / et /u/ et une seule région pour les voyelles /e/, /i/ et /y/. Notons aussi l’aspect non continu de ces lieux de constriction. En effet, la séparation entre les classes des lieux de constriction selon la situation dans le conduit vocal est nette et ne se fait pas continuement. Prenons le cas de la voyelle /a/ par exemple. Les lieux de constriction situés dans le pharynx sont clairement séparés des lieux situés au niveau du vélum. Les lieux de constriction sont bien concentrés dans des régions précises du conduit vocal. Conclusion Les expériences d’inversion réalisées montrent que notre méthode d’inversion permet d’obtenir des trajectoires articulatoires régulières. Toutefois, cette validation reste partielle. En effet, il serait intéressant de faire une comparaison des résultats de l’inversion avec des données réelles. Dans les expériences d’inversion des séquences VV et VVV, nous avons montré l’influence du choix des masses associées aux articulateurs sur la nature des trajectoires articulatoires obtenues. Nous avons 86 6.2. Évaluations expérimentales : Inversion des voyelles F IG . 6.27 – Représentation de la voyelle / / dans les plans Xc /Ac , Xc /Al et Ac /Al . vu que ces trajectoires sont vraisemblablement réalisables par le conduit vocal humain, mais nous ne pouvons pas affirmer qu’elles sont choisies par un locuteur moyen. Afin de résoudre ce problème, des expérimentations avancées sur le choix des masses sont indispensables. Pour l’inversion des séquences VCV, nous avons réussi à obtenir des mouvements d’articulateurs compatibles avec la réalisation des constrictions. Néanmoins, cette expérimentation a échoué pour d’autres séquences peut être à cause de la construction de notre codebook qui pénalise les formes présentant une très forte constriction. Dans la deuxième partie de ce chapitre, l’inversion des voyelles du français nous a permis de trouver les caractéristiques phonétiques des voyelles et de les classer suivant le lieu de leur constriction principale. 87 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire F IG . 6.28 – Représentation de la voyelle /u/ dans les plans Xc /Ac , Xc /Al et Ac /Al . (a) (b) (c) F IG . 6.29 – Différents formes de conduit vocal pour la voyelle /u/ : (a) /u/ vélaire, (b) /u/ palatale et (c) /u/ pharyngale. 88 6.2. Évaluations expérimentales : Inversion des voyelles (a) (d) F IG . 6.30 – Deux formes du conduit vocal /u/ ayant le même lieu de constriction, mais la position de la mâchoire est très différente. (a) (b) F IG . 6.31 – Deux formes du conduit vocal de la voyelle /y/. F IG . 6.32 – Représentation de la voyelle /y/ dans les plans Xc /Ac , Xc /Al et Ac /Al . 89 Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire 90 Conclusions et perspectives Ces dernières années ont vu le développement très rapide des technologies de la parole. Outre leur intérêt théorique, les outils articulatoires permettront d’étendre les champs d’application de ces technologies du domaine purement acoustique à celui de l’audiovisuel. Parmi ces outils, l’inversion acousticoarticulatoire est, avec la synthèse articulatoire, l’un des deux verrous scientifiques à lever pour aller dans cette direction. Notre travail de thèse constitue une contribution à la résolution de ces problèmes. L’objectif est de développer une méthode d’inversion afin de récupérer toutes les formes réalisables du conduit vocal correspondant à un signal acoustique représenté par ses formants, et de récupérer l’évolution temporelle des paramètres articulatoires. Pour atteindre cet objectif, nous avons abordé trois problèmes : la modélisation de l’espace articulatoire par des hypercubes, la recherche de toutes les solutions dans cet espace et la récupération de l’évolution temporelle des articulateurs. Avant de travailler sur l’inversion proprement dite, il faut d’abord effectuer l’adaptation du modèle articulatoire. En effet, nous utilisons le modèle articulatoire de Maeda mais nous n’avons pas eu recours au sujet dont les images ont servi à développer le modèle. Nous avons donc été amenés à adapter ce modèle à un nouveau locuteur. L’adaptation est intéressante puisqu’elle permet de réutiliser un modèle existant. La méthode d’adaptation que nous avons utilisée a donné un modèle acceptable, au moins au niveau acoustique. En effet, nous arrivons à couvrir l’espace acoustique de notre sujet et les formes du conduit vocal des voyelles sont vraisemblables. Néanmoins, nous ne pouvons pas affirmer que l’adaptation a permis d’obtenir le modèle qui aurait été obtenu à partir des images du conduit vocal du nouveau locuteur. Pour cela, il faudrait comparer les coupes sagittales du modèle d’origine aux profils sagittaux du nouveau locuteur. Nous pensons qu’il faut encore étudier l’adaptation des modèles articulatoires, afin d’assurer la correspondance à la fois dans l’espace articulatoire et dans l’espace acoustique. Notre méthode d’inversion acoustico-articulatoire repose en grande partie sur la représentation de l’espace articulatoire sous la forme d’un codebook hypercubique. Ce codebook est constitué d’hypercubes représentant des régions de dimension sept par un nombre très limité de points. Ces hypercubes ont une taille qui dépend du degré de non-linéarité de la relation articulatoire-acoustique. Cette méthode de linéarisation de la relation articulatoire-acoustique permet de représenter l’espace articulatoire fidèlement, c’est-à-dire, en respectant les non-linéarités. Nous avons en particulier montré la précision de l’interpolation acoustique à partir des sommets des hypercubes auxquels appartiennent les paramètres de la trajectoire articulatoire. Le codebook hypercubique construit est volumineux, mais assure que l’échantillonnage n’a pas d’influence sur l’inversion. De plus, ce codebook représente tout l’espace articulatoire. Toutefois, nous en91 Conclusions et perspectives visageons la possibilité d’effectuer un apprentissage par des réseaux de neurones sur les hypercubes du codebook afin de savoir s’il est possible de récupérer les différentes solutions de l’inversion plus rapidement et aussi de réduire l’espace de stockage. L’exploitation de cette structure hypercubique pour récupérer toutes les solutions de l’inversion a prouvé son efficacité et sa grande précision. Pour décrire l’ensemble des solutions possibles à l’intérieur d’un hypercube donné, nous avons élaboré une méthode d’échantillonnage de l’espace nul associé à la restriction de la relation articulatoire-acoustique à cet hypercube. Arrivés à ce stade, nous avons pu exploiter la méthode d’inversion afin d’étudier les caractéristiques des voyelles comme cela a été fait dans le chapitre 6. Étant donné que la méthode d’inversion permet d’obtenir toutes les formes réalisables du conduit vocal associées à une entrée acoustique, une étude exhaustive des propriétés des voyelles est possible. Dans notre étude, nous avons considéré quelques voyelles du français et nous avons essayé de les caractériser et les classer suivant les lieux de la constriction principale. Nous avons remarqué grâce à cette étude l’étroite relation entre le lieu de constriction et l’aire aux lèvres, qui a aussi été notée dans d’autres travaux utilisant des données réelles. Avec cette étude, nous avons montré l’intérêt de l’inversion pour la phonétique et qu’une étude plus complète sur les voyelles du français pourrait sans doute apporter de nouveaux résultats. Après l’étape d’inversion point à point, il est possible de trouver les trajectoires articulatoires les plus vraisemblables c’est-à-dire celles qui correspondent à une variation lente des paramètres articulatoires et cohérentes d’un point de vue phonétique. Le choix d’une trajectoire est réalisé en utilisant un algorithme de lissage non-linéaire permettant de choisir une trajectoire minimisant l’effort articulatoire. Une méthode de régularisation permet ensuite d’obtenir des trajectoires régulières dans l’espace articulatoire tout en garantissant la proximité acoustique avec les données de départ. Cette méthode d’inversion donne des trajectoires lisses et réalisables par le modèle articulatoire. Il est très simple d’évaluer les qualités de lissage et de proximité acoustique avec les données de départ. En revanche, il est nettement plus ardu d’évaluer le réalisme de ces trajectoires. Nous nous sommes donc rabattu sur une évaluation qualitative des résultats en examinant l’évolution de la forme du conduit vocal plutôt que les seuls paramètres articulatoires. Nous avons retenu cette évaluation informelle en absence de données réelles pour lesquelles on dispose conjointement du modèle et d’un signal acoustique peu bruité. Cette évaluation expérimentale nous a permis de constater que les trajectoires articulatoires obtenues dépendent fortement du choix des masses utilisées dans la méthode de lissage non-linéaire : deux ensembles de masses différents peuvent donner des trajectoires complètement différentes. Cela, d’ailleurs, permet d’étudier plusieurs configurations de trajectoires possibles. En jouant sur les masses affectées aux articulateurs, il est possible d’étudier les facultés de compensation du conduit vocal. Cela peut servir à simuler des dysfonctionnements de l’appareil phonatoire puisqu’il suffit d’affecter une masse importante à un articulateur pour pénaliser les variations temporelles de ce paramètre. En fait, notre étude montre qu’il est d’ailleurs préférable d’aborder ce problème en considérant le rapport masse-puissance musculaire plutôt que seulement la masse. En effet, si seule la masse intervenait les mouvements des lèvres, par exemple, devraient être très fortement favorisés au détriment des mouvements de la mâchoire qui, elle, devrait être à peu près immobile, ce qui ne reflète pas la réalité 92 bien sûr. Nous avons aussi constaté que le choix d’un ensemble de masses pour les articulateurs peut conduire à des trajectoires articulatoires tout à fait acceptables pour une séquence de voyelles, et curieuses pour une autre séquence de voyelles. Nous envisageons d’étudier ce point en détail pour réaliser l’apprentissage des masses en fonction de mouvements récupérés pour des signaux réels. Pour cela, nous pourrons d’ailleurs nous inspirer des travaux sur les modèles biomécaniques et la synergie musculaire des différents articulateurs du conduit vocal. Dans la méthode de régularisation, nous avons fixé les constantes de raideur et de masse à 1, pour ne pas ajouter trop de variables qui auraient masquer l’influence des masses utilisées dans la méthode de lissage non-linéaire. Bien sûr, par la suite nous devrons effectuer une étude semblable à celle proposée juste au-dessus pour fixer les masses utilisées dans la méthode de lissage. Plus précisément, nous voudrions trouver une relation entre les masses utilisées dans la méthode de lissage non-linéaire et les constates de raideur et les masses utilisées dans la méthode de régularisation variationnelle. Le modèle articulatoire de Maeda est adapté à l’étude des voyelles mais s’avère insuffisant pour les consonnes. Une fois cet obstacle est levé (par exemple en développant un modèle plus général), l’inversion des consonnes nécessitera la prise en compte des paramètres de source, au moins quant à leur nature (source ponctuelle pour la barre d’explosion des occlusives, ou au contraire distribuée sur une région du conduit vocal dans le cas des bruits de friction). Dans ce mémoire, nous avons présenté les problèmes rencontrés au niveau de la modélisation articulatoire, sans mentionner les problèmes liés à la modélisation spectrale. Ce n’est pas parce que de tels problèmes n’existent pas, mais parce que ces problèmes dépassent largement le cadre de notre travail de thèse. Nous pensons en particulier à la représentation du signal acoustique par les formants. À partir des spectres de parole, nous utilisons un algorithme de suivi de formants qui fournit les données pour l’inversion. Cette phase est censée être automatique. Malheureusement, cela n’est pas absolument vrai. En effet, cet algorithme, comme d’autres que nous avons testés, ne réussit pas toujours à trouver les formants, et nous avons donc été amenés, à plusieurs reprises, à effectuer une correction manuelle des valeurs trouvées. En particulier, pour /u/ dont l’énergie du troisième formant F3 est très faible, il a souvent été nécessaire d’interpoler la trajectoire de F3 à partir de quelques points seulement. Il serait intéressant d’étudier ce problème et de trouver des orientations de recherche dans ce sens. Nous pouvons chercher une autre représentation acoustique qui remplacerait les formants (les coefficients cepstraux par exemple), mais il faudrait dans ce cas voir comment ces coefficients pourraient être utilisés pour l’inversion et la représentation du codebook. Nous pouvons aussi essayer de résoudre conjointement le problème du suivi des formants et de l’inversion. Plus précisément, nous pensons que l’on peut corriger les valeurs des formants lors de l’inversion : passant de l’instant i, où l’on connaît les valeurs des formants, à l’instant i + 1 où les valeurs des formants sont absentes ou erronées, nous pensons qu’il est possible de les corriger, ou au moins réduire les erreurs d’estimation, connaissant le sens de variation des différents articulateurs. Une autre piste à explorer est d’étudier le problème du suivi des formants et voir si la prise en compte d’autres informations acoustiques pourrait améliorer le suivi des formants (par exemple, les variations d’énergies entre deux formants successifs). Nous pensons que le recours aux avancées récentes dans le domaine de la perception de la parole pourraient aider à améliorer les méthodes de suivi automatique des formants. 93 Conclusions et perspectives 94 Annexe A Régularisation variationnelle des trajectoires articulatoires Après avoir obtenu une trajectoire articulatoire grossière considérée ici comme solution initiale, on régularise cette trajectoire par une méthode de calcul variationnel. Nous présentons dans cette annexe les détails de la méthode de [Laprie and Mathieu, 1998a]. Soit : α(t) = (α1 (t) . . . αi (t) . . . α7 (t)) avec t ∈ [ti ,t f ] (A.1) les sept paramètres du modèle articulatoire de Maeda qui sont exprimés en fonction du temps. Les trajectoires formantiques extraites de la parole f j (t), 1 ≤ j ≤ 3 sont les données du problème. Celles générées par la simulation acoustique sont notées Fj (α(t)) (1 ≤ j ≤ 3). La fonction de coût pour évaluer l’inversion comporte deux termes : – ∑3j=1 ( f j (t) − Fj (α(t)))2 qui exprime la proximité entre les trajectoires formantiques observées f j (t) et Fj (α(t)) celles générées par le modèle – ∑7i=1 mi α2 i (t) qui exprime la vitesse d’évolution des paramètres articulatoires. Pour pénaliser les efforts articulatoires trop intenses et éviter au conduit vocal d’atteindre des positions trop éloignées de la position de repos nous avons ajouté le terme ∑7i=1 ki α2i (t) qui représente l’énergie potentielle. La fonction de coût à minimiser est donc de la forme suivante : Z tf 3 I= ti ∑ ( f j (t) − Fj (α(t))) dt + λ 2 j=1 Z tf 7 ti ∑ mi α2 i (t)dt + β i=1 Z tf 7 ti ∑ ki α2i (t)dt (A.2) i=1 où ti and t f définissent l’intervalle de temps sur lequel l’inversion a lieu, λ et β expriment le compromis entre la vitesse d’évolution des paramètres articulatoires, leur distance à la position de repos et la distance acoustique. mi est la pseudo-masse du ième articulateur, et ki sa constante de raideur. L’équation (D.2) peut s’écrire Z tf I= ti Φ(α(t), α (t),t)dt Le calcul variationnel [Bonvalet, 1993] peut être utilisé pour minimiser I et les équations d’EulerLagrange expriment l’annulation de la dérivée de I par rapport à chacun des αi . Ces équations, qui sont une condition nécessaire pour assurer qu’un minimum de I a été atteint, s’écrivent 95 Annexe A. Régularisation variationnelle des trajectoires articulatoires ∂Φ ∂α1 ... ∂Φ ∂α7 ∂Φ − dtd ∂α = 0 1 (A.3) − d ∂Φ dt ∂α7 =0 En remplaçant Φ par sa définition dans l’équation (D.2), chacune des équations d’Euler-Lagrange devient : ∂F ∑3j=1 ( f j (t) − Fj (α(t)) ∂αji + βki αi (t) − λmi αi (t) = 0 (A.4) i = 1...7 où αi (t) est la dérivée seconde par rapport au temps de αi (t). À partir de maintenant nous ne considérerons qu’une seule des équations du système (D.3) pour ne pas alourdir les notations. Nous supposons que nous disposons d’une estimation grossière des trajectoires articulatoires αi . Nous pouvons alors définir un processus itératif ατi (t) tel que lim ατi (t) = αi (t) τ→∞ (où ατ=0 (t) i est la solution initiale) en utilisant l’équation d’évolution associée γ ∂ατi ∂τ 3 ∂Fj ∂ατi + βki ατi − λmi ατi = − ∑ ( f j (t) − Fj (ατ (t))) τ ∂τ ∂αi j=1 (A.5) représente l’évolution du paramètre αi au cours du processus itératif et γ un paramètre pour contrôler la vitesse d’évolution. Une solution à l’équation statique (D.4) est atteinte quand le terme γ ∂ατi ∂τ s’annule. Notons ατ = (ατi,0 , . . . ατi,k , . . . ατi,N ) la représentation discrète de αi (t), ατi,k représente la valeur de ατi t −t au temps discret t = ti + k f N i lors de l’itération τ. Puisque la résolution de l’équation (D.5) pour αi est indépendante des autres trajectoires articulatoires, ατi,k est noté ατk pour simplifier les notations. Notons ( f0 , . . . fk , . . . fN ) la trajectoire formantique observée et (F0 , . . . Fk , . . . FN ) la trajectoire formantique générée par la simulation acoustique. L’approximation aux différences finies de la dérivée α (t) conduit à l’équation suivante τ τ τ τ γ(ατk − ατ−1 k ) + βαk − λ(αk+1 − 2αk + αk−1 ) ∂Fj = − ∑ ( f j,k − Fj,k ) ∂α ατ j=1 3 (A.6) τ 1,k ...α7,k où τ représente l’itération en cours de traitement et k le temps discret. Le terme de dérivation ∂Fj ∂α ατ ...ατ 1,k 7,k est calculé pour le paramètre αi au point (ατ1,k . . . ατ7,k ) et intègre le comportement acoustique du modèle par rapport à l’évolution des paramètres articulatoires. Il faut ajouter des conditions aux limites pour assurer que l’équation (D.6) ait une solution unique. Puisque nous n’imposons aucune contrainte sur la position des extrémités de α(t) α (0) = α (N) = 0 sont donc les conditions aux limites naturelles. Soit B la matrice (N + 1) × (N + 1) γ+β+λ −λ 0 ··· 0 B= 96 −λ . . . 0 0 γ + β + 2λ −λ ··· .. .. .. . ... ··· . −λ 0 . γ + β + 2λ −λ 0 . . . −λ γ+β+λ ατ = (ατ0 , . . . ατk , . . . ατN )T cτ = ∂F j 3 γατ−1 0 − ∑ j=1 ( f j,0 − Fj,0 ) ∂α ∂F j 3 γατ−1 1 − ∑ j=1 ( f j,1 − Fj,1 ) ∂α ··· ∂F τ−1 3 γαN − ∑ j=1 ( f j,N − Fj,N ) ∂αj L’équation Eq. (D.6) peut s’écrire sous la forme matricielle suivante Bατ = cτ La résolution de l’équation (D.3) conduit à un processus itératif. ατ est calculé à chaque itération pour chacun des sept paramètres articulatoires αi . Pour garantir qu’il est possible d’atteindre un minimum de l’équation (D.2) if faut disposer d’une bonne solution initiale. 97 Annexe A. Régularisation variationnelle des trajectoires articulatoires 98 Annexe B Séquences V-V et V-V-V Dans cette annexe, nous présentons les résultats d’inversion d’une série d’exemples de séquences VV et V-V-V. Les séquences V-V présentées ici sont : /ai/, /ay/, /ua/, /au/, /ia/ et /iy/ et les séquences V-V-V sont : /iui/, /aua/ et /aia/. Pour chaque exemple, nous présentons les trois premiers formants et la variation temporelle des sept paramètres articulatoires. Le temps est exprimé en millisecondes. Ces trajectoires sont obtenues après l’application de la méthode de lissage non-linéaire et la méthode de régularisation variationnelle. Certaines figures présentent différentes trajectoires pour une même séquence. Pour cela, nous avons fait varier les masses attribuées aux articulateurs dans la méthode de lissage non-linéaire afin d’observer comment le comportement de cet algorithme était modifié. 99 Annexe B. Séquences V-V et V-V-V 3 2500 2 2000 1 Formants Mâchoire 3000 1500 1000 -1 500 -2 0 -3 700 750 800 850 3 600 650 700 750 800 850 600 650 700 750 800 850 600 650 700 750 800 850 600 650 700 750 800 850 3 2 1 0 -1 -2 -3 2 1 0 -1 -2 -3 600 650 700 750 800 850 3 3 2 2 Aperture des lèvres L’apex de la langue 650 Forme du corps de la langue Position du corps de la langue 600 1 0 -1 -2 -3 1 0 -1 -2 -3 600 650 700 750 800 850 3 3 2 2 Hauteur du larynx Protrusion des lèvres 0 1 0 -1 -2 1 0 -1 -2 -3 -3 600 650 700 750 800 850 F IG . B.1 – Trajectoires articulatoires de la transition /ai/. Toutes les masses sont égales. 100 2400 3 2200 2 2000 Formants Mâchoire 1800 1600 1400 1200 1 0 -1 1000 800 -2 600 400 -3 7250 7300 7350 7400 7450 2 1 0 -1 -2 -3 7200 7250 7300 7350 7400 7450 7150 7200 7250 7300 7350 7400 7450 7150 7200 7250 7300 7350 7400 7450 7150 7200 7250 7300 7350 7400 7450 2 1 0 -1 -2 -3 7200 7250 7300 7350 7400 7450 3 2 2 Aperture des lèvres 3 1 0 -1 -2 -3 1 0 -1 -2 -3 7150 7200 7250 7300 7350 7400 7450 3 3 2 2 Hauteur du larynx Protrusion des lèvres 7150 3 3 7150 L’apex de la langue 7200 Forme du corps de la langue Position du corps de la langue 7150 1 0 -1 1 0 -1 -2 -2 -3 -3 7150 7200 7250 7300 7350 7400 7450 F IG . B.2 – Trajectoires articulatoires de la transition /ay/. Masse 50 fois plus importante pour la mâchoire et les lèvres que pour les autres articulateurs. 101 Annexe B. Séquences V-V et V-V-V 2400 3 2200 2 2000 Mâchoire 1800 Formants 1600 1400 1200 1 0 -1 1000 800 -2 600 7150 7200 7250 7300 7350 7400 -3 7100 7450 2 1 0 -1 -2 -3 7100 7150 7200 7250 7300 7350 7400 7300 7350 7400 7450 7150 7200 7250 7300 7350 7400 7450 7150 7200 7250 7300 7350 7400 7450 7150 7200 7250 7300 7350 7400 7450 0 -1 -2 -3 7100 7450 2 Aperture des lèvres 2 1 0 -1 -2 Protrusion des lèvres 7250 1 3 7150 7200 7250 7300 7350 7400 1 0 -1 -2 -3 7100 7450 3 3 2 2 1 0 -1 -2 -3 7100 7200 2 3 -3 7100 7150 3 Forme du corps de la langue 3 Hauteur du larynx L’apex de la langue Position du corps de la langue 400 7100 1 0 -1 -2 7150 7200 7250 7300 7350 7400 7450 -3 7100 F IG . B.3 – Trajectoires articulatoires de la transition /ay/. La masse affectée à la mâchoire est 5 fois plus importante que les autres masses. 102 2400 3 2200 2 2000 Formants Mâchoire 1800 1600 1400 1200 1 0 -1 1000 800 -2 600 400 -3 2750 2800 2850 2900 2950 3000 3 2 1 0 -1 -2 -3 2700 2750 2800 2850 2900 2950 3000 2650 2700 2750 2800 2850 2900 2950 3000 2650 2700 2750 2800 2850 2900 2950 3000 2650 2700 2750 2800 2850 2900 2950 3000 2 1 0 -1 -2 -3 2700 2750 2800 2850 2900 2950 3000 3 2 2 Aperture des lèvres 3 1 0 -1 -2 -3 1 0 -1 -2 -3 2650 2700 2750 2800 2850 2900 2950 3000 3 3 2 2 Hauteur du larynx Protrusion des lèvres 2650 3 2650 L’apex de la langue 2700 Forme du corps de la langue Position du corps de la langue 2650 1 0 -1 -2 1 0 -1 -2 -3 -3 2650 2700 2750 2800 2850 2900 2950 3000 F IG . B.4 – Trajectoires articulatoires de la transition /ua/. Même masse pour tous les paramètres. 103 Annexe B. Séquences V-V et V-V-V 2400 3 2200 2 2000 Mâchoire 1800 FORMANT 1600 1400 1200 1 0 -1 1000 800 -2 600 400 -3 2700 2750 2800 2850 2900 2950 3000 3 2 1 0 -1 -2 -3 2650 2700 2750 2800 2850 2900 2950 3000 Forme du corps de la langue Position du corps de la langue 2650 2 1 0 -1 -2 -3 2750 2800 2850 2900 2950 3000 2650 2700 2750 2800 2850 2900 2950 3000 2650 2700 2750 2800 2850 2900 2950 3000 2650 2700 2750 2800 2850 2900 2950 3000 3 2 1 0 -1 -2 -3 2 1 0 -1 -2 -3 2650 2700 2750 2800 2850 2900 2950 3000 3 3 2 2 Hauteur du larynx Protrusion des lèvres 2700 3 Aperture des lèvres L’apex de la langue 3 2650 1 0 -1 -2 -3 1 0 -1 -2 -3 2650 2700 2750 2800 2850 2900 2950 3000 F IG . B.5 – Trajectoires articulatoires de la transition /ua/. Les masses affectées à la mâchoire, le corps de la langue et le larynx sont 5 fois plus importante que les autres masses. 104 2400 3 2200 2 2000 Formants Mâchoire 1800 1600 1400 1200 1000 1 0 -1 800 600 -2 400 200 -3 3750 3800 3850 3900 3950 3 2 1 0 -1 -2 -3 3700 3750 3800 3850 3900 3950 3650 3700 3750 3800 3850 3900 3950 3650 3700 3750 3800 3850 3900 3950 3650 3700 3750 3800 3850 3900 3950 2 1 0 -1 -2 -3 3700 3750 3800 3850 3900 3950 3 2 2 Aperture des lèvres 3 1 0 -1 -2 -3 1 0 -1 -2 -3 3650 3700 3750 3800 3850 3900 3950 3 3 2 2 Hauteur du larynx Protrusion des lèvres 3650 3 3650 L’apex de la langue 3700 Forme du corps de la langue Position du corps de la langue 3650 1 0 -1 -2 1 0 -1 -2 -3 -3 3650 3700 3750 3800 3850 3900 3950 F IG . B.6 – Trajectoires articulatoires de la transition /au/. Même masse pour tous les articulateurs. 105 Annexe B. Séquences V-V et V-V-V 2400 4 2200 2000 3 Formants Mâchoire 1800 1600 1400 1200 1000 800 2 1 0 -1 600 -2 400 200 -3 3750 3800 3850 3900 3950 3 2 1 0 -1 -2 -3 3700 3750 3800 3850 3900 3950 3650 3700 3750 3800 3850 3900 3950 3650 3700 3750 3800 3850 3900 3950 3650 3700 3750 3800 3850 3900 3950 2 1 0 -1 -2 -3 3700 3750 3800 3850 3900 3950 3 2 2 Aperture des lèvres 3 1 0 -1 -2 -3 1 0 -1 -2 -3 3650 3700 3750 3800 3850 3900 3950 3 3 2 2 Hauteur du larynx Protrusion des lèvres 3650 3 3650 L’apex de la langue 3700 Forme du corps de la langue Position du corps de la langue 3650 1 0 -1 -2 1 0 -1 -2 -3 -3 3650 3700 3750 3800 3850 3900 3950 F IG . B.7 – Trajectoires articulatoires de la transition /au/. Masse 5 fois plus importante pour la mâchoire et le larynx que pour les autres articulateurs. 106 3 2500 2 2000 1 Formants Mâchoire 3000 1500 1000 -1 500 -2 0 -3 1600 1650 1700 1750 1800 1850 3 1500 1550 1600 1650 1700 1750 1800 1850 1500 1550 1600 1650 1700 1750 1800 1850 1500 1550 1600 1650 1700 1750 1800 1850 1500 1550 1600 1650 1700 1750 1800 1850 3 2 1 0 -1 -2 -3 2 1 0 -1 -2 -3 1500 1550 1600 1650 1700 1750 1800 1850 3 3 2 2 Aperture des lèvres L’apex de la langue 1550 Forme du corps de la langue Position du corps de la langue 1500 1 0 -1 -2 -3 1 0 -1 -2 -3 1500 1550 1600 1650 1700 1750 1800 1850 3 3 2 2 Hauteur du larynx Protrusion des lèvres 0 1 0 -1 -2 1 0 -1 -2 -3 -3 1500 1550 1600 1650 1700 1750 1800 1850 F IG . B.8 – Trajectoires articulatoires de la transition /ia/. Même masse pour tous les articulateurs. 107 Annexe B. Séquences V-V et V-V-V 3 2500 2 2000 1 Formants Mâchoire 3000 1500 1000 -1 500 -2 0 -3 1600 1650 1700 1750 1800 1850 3 1500 1550 1600 1650 1700 1750 1800 1850 1500 1550 1600 1650 1700 1750 1800 1850 1500 1550 1600 1650 1700 1750 1800 1850 1500 1550 1600 1650 1700 1750 1800 1850 3 2 1 0 -1 -2 -3 2 1 0 -1 -2 -3 1500 1550 1600 1650 1700 1750 1800 1850 3 3 2 2 Aperture des lèvres L’apex de la langue 1550 Forme du corps de la langue Position du corps de la langue 1500 1 0 -1 -2 -3 1 0 -1 -2 -3 1500 1550 1600 1650 1700 1750 1800 1850 3 3 2 2 Hauteur du larynx Protrusion des lèvres 0 1 0 -1 -2 1 0 -1 -2 -3 -3 1500 1550 1600 1650 1700 1750 1800 1850 F IG . B.9 – Trajectoires articulatoires de la transition /ia/. Masse 5 fois plus importante pour la mâchoire et le larynx que les autres articulateurs. 108 3 2500 2 2000 1 Formants Mâchoire 3000 1500 1000 -1 500 -2 0 -3 4800 4850 4900 4950 5000 3 4700 4750 4800 4850 4900 4950 5000 4700 4750 4800 4850 4900 4950 5000 4700 4750 4800 4850 4900 4950 5000 4700 4750 4800 4850 4900 4950 5000 3 2 1 0 -1 -2 -3 2 1 0 -1 -2 -3 4700 4750 4800 4850 4900 4950 5000 3 3 2 2 Aperture des lèvres L’apex de la langue 4750 Forme du corps de la langue Position du corps de la langue 4700 1 0 -1 -2 -3 1 0 -1 -2 -3 4700 4750 4800 4850 4900 4950 5000 3 3 2 2 Hauteur du larynx Protrusion des lèvres 0 1 0 -1 -2 1 0 -1 -2 -3 -3 4700 4750 4800 4850 4900 4950 5000 F IG . B.10 – Trajectoires articulatoires de la transition /iu/. Même masse pour tous les articulatuers. 109 Annexe B. Séquences V-V et V-V-V 3 2500 2 2000 1 Formants Mâchoire 3000 1500 1000 -1 500 -2 0 -3 4800 4850 4900 4950 5000 3 4700 4750 4800 4850 4900 4950 5000 4700 4750 4800 4850 4900 4950 5000 4700 4750 4800 4850 4900 4950 5000 4700 4750 4800 4850 4900 4950 5000 3 2 1 0 -1 -2 -3 2 1 0 -1 -2 -3 4700 4750 4800 4850 4900 4950 5000 3 3 2 2 Aperture des lèvres L’apex de la langue 4750 Forme du corps de la langue Position du corps de la langue 4700 1 0 -1 -2 -3 1 0 -1 -2 -3 4700 4750 4800 4850 4900 4950 5000 3 3 2 2 Hauteur du larynx Protrusion des lèvres 0 1 0 -1 -2 1 0 -1 -2 -3 -3 4700 4750 4800 4850 4900 4950 5000 F IG . B.11 – Trajectoires articulatoires de la transition /iu/. Masse 5 fois plus importante pour la mâchoire et le larynx que pour les autres articulateurs. 110 3 2500 2 2000 1 Formants Mâchoire 3000 1500 1000 -1 500 -2 0 -3 8250 8300 8350 8400 8450 3 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 3 2 1 0 -1 -2 -3 2 1 0 -1 -2 -3 8150 8200 8250 8300 8350 8400 8450 3 3 2 2 Aperture des lèvres L’apex de la langue 8200 Forme du corps de la langue Position du corps de la langue 8150 1 0 -1 -2 -3 1 0 -1 -2 -3 8150 8200 8250 8300 8350 8400 8450 3 3 2 2 Hauteur du larynx Protrusion des lèvres 0 1 0 -1 -2 1 0 -1 -2 -3 -3 8150 8200 8250 8300 8350 8400 8450 F IG . B.12 – Trajectoires articulatoires de la transition /iy/. Même masse pour tous les articulateurs. 111 Annexe B. Séquences V-V et V-V-V 3 2500 2 2000 1 Formants Mâchoire 3000 1500 1000 -1 500 -2 0 -3 8250 8300 8350 8400 8450 3 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 3 2 1 0 -1 -2 -3 2 1 0 -1 -2 -3 8150 8200 8250 8300 8350 8400 8450 3 3 2 2 Aperture des lèvres L’apex de la langue 8200 Forme du corps de la langue Position du corps de la langue 8150 1 0 -1 -2 -3 1 0 -1 -2 -3 8150 8200 8250 8300 8350 8400 8450 3 3 2 2 Hauteur du larynx Protrusion des lèvres 0 1 0 -1 -2 1 0 -1 -2 -3 -3 8150 8200 8250 8300 8350 8400 8450 F IG . B.13 – Trajectoires articulatoires de la transition /iy/. Masse 5 fois plus importante pour la mâchoire et le larynx. 112 3 2500 2 Mâchoire 3000 FORMANT 2000 1500 1000 -2 0 -3 8200 8250 8300 8350 8400 8450 3 2 1 0 -1 -2 -3 8150 8200 8250 8300 8350 8400 8450 Forme du corps de la langue Position du corps de la langue 8150 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 8150 8200 8250 8300 8350 8400 8450 3 2 1 0 -1 -2 -3 3 Aperture des lèvres 3 L’apex de la langue 0 -1 500 2 1 0 -1 -2 -3 2 1 0 -1 -2 -3 8150 8200 8250 8300 8350 8400 8450 3 3 2 2 Hauteur du larynx Protrusion des lèvres 1 1 0 -1 -2 -3 1 0 -1 -2 -3 8150 8200 8250 8300 8350 8400 8450 F IG . B.14 – Trajectoires articulatoires de la transition /iy/. Les masses affectées à la mâchoire, l’apex de la langue et le larynx sont 5 fois plus importantes que les autres articulateurs. 113 Annexe B. Séquences V-V et V-V-V 3 2500 2 2000 1 Formants Mâchoire 3000 1500 1000 -1 500 -2 7350 7400 7450 7500 7550 7600 7650 7700 7750 -3 7300 7800 3 Forme du corps de la langue 2 1 0 -1 -2 -3 7300 7350 7400 7450 7500 7550 7600 7650 7700 7750 7500 7550 7600 7650 7700 7750 7800 7350 7400 7450 7500 7550 7600 7650 7700 7750 7800 7350 7400 7450 7500 7550 7600 7650 7700 7750 7800 7350 7400 7450 7500 7550 7600 7650 7700 7750 7800 0 -1 -2 -3 7300 7800 2 Aperture des lèvres 2 1 0 -1 -2 Protrusion des lèvres 7450 1 3 7350 7400 7450 7500 7550 7600 7650 7700 7750 1 0 -1 -2 -3 7300 7800 3 3 2 2 1 0 -1 -2 -3 7300 7400 2 3 -3 7300 7350 3 Hauteur du larynx L’apex de la langue Position du corps de la langue 0 7300 0 1 0 -1 -2 7350 7400 7450 7500 7550 7600 7650 7700 7750 7800 -3 7300 F IG . B.15 – Trajectoires articulatoires de la transition /iui/. Même masse pour tous les articulateurs. 114 2500 3 2 Formants Mâchoire 2000 1500 1000 1 0 -1 500 -2 4600 4700 4800 4900 5000 5100 -3 4500 5200 2 1 0 -1 -2 -3 4500 4600 4700 4800 4900 5000 5100 4900 5000 5100 5200 4600 4700 4800 4900 5000 5100 5200 4600 4700 4800 4900 5000 5100 5200 4600 4700 4800 4900 5000 5100 5200 0 -1 -2 -3 4500 5200 2 Aperture des lèvres 2 1 0 -1 -2 Protrusion des lèvres 4800 1 3 4600 4700 4800 4900 5000 5100 1 0 -1 -2 -3 4500 5200 3 3 2 2 1 0 -1 -2 -3 4500 4700 2 3 -3 4500 4600 3 Forme du corps de la langue 3 Hauteur du larynx L’apex de la langue Position du corps de la langue 0 4500 1 0 -1 -2 4600 4700 4800 4900 5000 5100 5200 -3 4500 F IG . B.16 – Trajectoires articulatoires de la transition /aua/. Même masse pour tous les articulateurs. 115 Annexe B. Séquences V-V et V-V-V 3 2500 2 2000 1 Formants Mâchoire 3000 1500 1000 -1 500 -2 2800 2900 3000 3100 3200 3300 -3 2700 3400 3 Forme du corps de la langue 2 1 0 -1 -2 -3 2700 2800 2900 3000 3100 3200 3300 3100 3200 3300 3400 2800 2900 3000 3100 3200 3300 3400 2800 2900 3000 3100 3200 3300 3400 2800 2900 3000 3100 3200 3300 3400 0 -1 -2 -3 2700 3400 2 Aperture des lèvres 2 1 0 -1 -2 Protrusion des lèvres 3000 1 3 2800 2900 3000 3100 3200 3300 1 0 -1 -2 -3 2700 3400 3 3 2 2 1 0 -1 -2 -3 2700 2900 2 3 -3 2700 2800 3 Hauteur du larynx L’apex de la langue Position du corps de la langue 0 2700 0 1 0 -1 -2 2800 2900 3000 3100 3200 3300 3400 -3 2700 F IG . B.17 – Trajectoires articulatoires de la transition /aia/. Même masse pour tous les articulateurs. 116 Annexe C La méthode SVD (décomposition en valeurs singulières) La décomposition en valeurs singulières est basée sur le théorème de l’algèbre linéaire suivant : Toute matrice A (M × N) tel que le nombre de lignes M est supérieur ou égal au nombre de colonnes N peut s’écrire sous la forme : A = U ·W ·V T (C.1) Où les matrices U et V sont orthonormées : U T ·U = V T ·V = Id (C.2) Et W matrice diagonale dont les seuls éléments sont les wi (i = 1..N). Il est toujours possible de faire cette décomposition quel que soit le degré de singularité de la matrice et celle-ci est unique. Pour les matrices singulières, les notions d’images et noyau sont très importantes. On considère le système linéaire suivant : A·x = b (C.3) Où A est une matrice carré, b et x sont deux vecteurs. L’équation (C.3) définit A comme étant une application linéaire de l’espace vectoriel associé à x, appelé noyau ou encore espace nul, qui est transformé en zéro, noté ker(A). Il y a aussi un sous-espace de b qui peut être atteint par A. Ce sous-espace est appelé image de A, noté Im(A). Si A est non singulière, alors son image est tous l’espace vectoriel associé à b, et donc, son rang est N. Si A est singulière, alors le rang est inférieur à N. On dit que : Im(A) + ker(A) = N La méthode SVD construit des bases orthonormales pour le noyau et l’image de A. Précisément, les colonnes de U qui correspondent à des indices j où w j est non nul forment une base orthonormal de l’espace nul ; les colonnes de V qui correspondent à des indices j où w j est nul forment une base orthonormal de l’espace image. L’ensemble des équations homogènes où b = 0 est résolu immédiatement par SVD : toute colonne de V dont le w j correspondant est nul est une solution. 117 Annexe C. La méthode SVD (décomposition en valeurs singulières) Quand le vecteur b est non nul, on se pose la question s’il est ou non dans Im(A). Si c’est le cas, alors l’ensemble des équations a une solution x. En effet, il a plus qu’une solution du fait que tout vecteur dans l’espace nul pourrait être rajouté à x dans une combinaison linéaire quelconque. Si on veut avoir un membre particulier de l’ensemble des vecteurs solutions comme représentant, on peut prendre celui qui présente la longueur la plus petite |x|2 . Pour le retrouver, on procède comme suit : il suffit de remplacer 1/w j par zéro, si w j = 0. Ensuite, on calcule l’expression suivante (le calcul est fait de droite vers la gauche) : x = V · [diag(1/w j )] · (U T · b) (C.4) C’est la solution ayant la plus petite longueur ; les colonnes de V qui sont dans l’espace nul complète la spécification de l’ensemble des solutions. Si b n’est pas dans l’espace image de la matrice singulière A, alors l’ensemble des équations (C.3) n’a pas de solution. Néanmoins, si b n’est pas dans Im(A) alors l’équation (C.4) reste valable pour construire un vecteur solution x. Ce vecteur ne résoud pas précisément A · x = b, mais parmi les vecteur x possible, on récupère le plus proche de la solution exacte, au sens des moindres carrés. En d’autres termes, l’équation (C.4) trouve x qui minimise la quantité r ≡ |A · x − b|. r est appelé le résidu de la solution. Nous résumons tout cela dans la figure (C.1). 118 A x b A.x=b (a) A solutions de A.x=d image de A solution donnée par SVD A.x=c c’ c d solution donnée par SVD A.x=d Ker(A) solutions de A.x=c’ (b) F IG . C.1 – (a) Une application linéaire transforme un espace vectoriel vers un autre espace de même dimension, si la matrice associé A est non singulière. Le vecteur x est transformé en b, donc x satisfait l’équation A · x = b. (b) Une matrice singulière A qui transforme un espace vectoriel en un autre de dimension inférieur, dans le cas présent un plan en une ligne, appelée Im(A). L’espace nul est transformé en zéro. Les solutions de A · x = d consiste en une solution particulière quelconque plus un vecteur quelconque de l’espace nul, dans le cas présent, ils forment une ligne parallèle à l’espace nul. La méthode SVD sélectionne une solution particulière la plus proche de zéro. Le point c se trouve à l’extérieur de Im(A) donc A · x = c n’a pas de solution. La méthode SVD permet de trouver la meilleure “solution” (ou pseudo solution) au sens des moindres carrés c . 119 Annexe C. La méthode SVD (décomposition en valeurs singulières) 120 Annexe D Méthode variationnelle d’optimisation des trajectoires articulatoires Après avoir obtenu une trajectoire articulatoire qu’on considère comme solution initiale, on optimise cette trajectoire par une méthode d’optimisation variationnelle. Nous présentons dans cette annexe les détails de la méthode. Soit : α(t) = (α1 (t) . . . αi (t) . . . α7 (t)) avec t ∈ [ti ,t f ] (D.1) les sept paramètres du modèle articulatoire de Maeda qui sont exprimés en fonction du temps. Les trajectoires formantiques extraites de la parole f j (t), 1 ≤ j ≤ 3 sont les données du problème. Celles générées par la simulation acoustique sont notées Fj (α(t)) (1 ≤ j ≤ 3). La fonction de coût pour évaluer l’inversion comporte deux termes : – ∑3j=1 ( f j (t) − Fj (α(t)))2 qui exprime la proximité entre les trajectoires formantiques observées f j (t) et Fj (α(t)) celles générées par le modèle – ∑7i=1 mi α2 i (t) qui exprime la vitesse d’évolution des paramètres articulatoires. Pour pénaliser les efforts articulatoires trop intenses et éviter au conduit vocal d’atteindre des positions trop éloignées de la position de repos nous avons ajouté le terme ∑7i=1 ki α2i (t) qui représente l’énergie potentielle. La fonction de coût à minimiser est donc de la forme suivante : Z tf 3 I= ti ∑ ( f j (t) − Fj (α(t))) dt + λ 2 j=1 Z tf 7 ti ∑ mi α2 i (t)dt + β i=1 Z tf 7 ti ∑ ki α2i (t)dt (D.2) i=1 où ti and t f définissent l’intervalle de temps sur lequel l’inversion a lieu, λ et β expriment le compromis entre la vitesse d’évolution des paramètres articulatoires, leur distance à la position de repos et la distance acoustique. mi est la pseudo-masse du ième articulateur, et ki sa constante de raideur. L’équation (D.2) peut s’écrire Z tf I= ti Φ(α(t), α (t),t)dt Le calcul variationnel [Bonvalet, 1993] peut être utilisé pour minimiser I et les équations d’EulerLagrange expriment l’annulation de la dérivée de I par rapport à chacun des αi . Ces équations, qui sont une condition nécessaire pour assurer qu’un minimum de I a été atteint, s’écrivent 121 Annexe D. Méthode variationnelle d’optimisation des trajectoires articulatoires ∂Φ ∂α1 ... ∂Φ ∂α7 ∂Φ − dtd ∂α = 0 1 (D.3) − d ∂Φ dt ∂α7 =0 En remplaçant Φ par sa définition dans l’équation (D.2), chacune des équations d’Euler-Lagrange devient : ∂F ∑3j=1 ( f j (t) − Fj (α(t)) ∂αji + βki αi (t) − λmi αi (t) = 0 (D.4) i = 1...7 où αi (t) est la dérivée seconde par rapport au temps de αi (t). À partir de maintenant nous ne considérerons qu’une seule des équations du système (D.3) pour ne pas alourdir les notations. Nous supposons que nous disposons d’une estimation grossière des trajectoires articulatoires αi (cf. § ??). Nous pouvons alors définir un processus itératif ατi (t) tel que lim ατi (t) = αi (t) τ→∞ (où ατ=0 (t) est la solution initiale) en utilisant l’équation d’évolution associée i γ ∂ατi ∂τ 3 ∂Fj ∂ατi + βki ατi − λmi ατi = − ∑ ( f j (t) − Fj (ατ (t))) τ ∂τ ∂αi j=1 (D.5) représente l’évolution du paramètre αi au cours du processus itératif et γ un paramètre pour contrôler la vitesse d’évolution. Une solution à l’équation statique (D.4) est atteinte quand le terme γ ∂ατi ∂τ s’annule. Notons ατ = (ατi,0 , . . . ατi,k , . . . ατi,N ) la représentation discrète de αi (t), ατi,k représente la valeur de ατi t −t au temps discret t = ti + k f N i lors de l’itération τ. Puisque la résolution de l’équation (D.5) pour αi est indépendante des autres trajectoires articulatoires, ατi,k est noté ατk pour simplifier les notations. Notons ( f0 , . . . fk , . . . fN ) la trajectoire formantique observée et (F0 , . . . Fk , . . . FN ) la trajectoire formantique générée par la simulation acoustique. L’approximation aux différences finies de la dérivée α (t) conduit à l’équation suivante τ τ τ τ γ(ατk − ατ−1 k ) + βαk − λ(αk+1 − 2αk + αk−1 ) ∂F = − ∑3j=1 ( f j,k − Fj,k ) ∂αj τ τ (D.6) α1,k ...α7,k où τ représente l’itération en cours de traitement et k le temps discret. Le terme de dérivation ∂Fj ∂α ατ ...ατ 1,k 7,k est calculé pour le paramètre αi au point (ατ1,k . . . ατ7,k ) et intègre le comportement acoustique du modèle par rapport à l’évolution des paramètres articulatoires. Il faut ajouter des conditions aux limites pour assurer que l’équation (D.6) ait une solution unique. Puisque nous n’imposons aucune contrainte sur la position des extrémités de α(t) α (0) = α (N) = 0 sont donc les conditions aux limites naturelles. Soit B la matrice (N + 1) × (N + 1) γ+β+λ −λ 0 ··· 0 B= 122 −λ . . . 0 0 γ + β + 2λ −λ ··· .. .. .. . ... ··· . −λ 0 . γ + β + 2λ −λ 0 . . . −λ γ+β+λ ατ = (ατ0 , . . . ατk , . . . ατN )T cτ = ∂F j 3 γατ−1 0 − ∑ j=1 ( f j,0 − Fj,0 ) ∂α ∂F j 3 γατ−1 1 − ∑ j=1 ( f j,1 − Fj,1 ) ∂α ··· ∂F τ−1 3 γαN − ∑ j=1 ( f j,N − Fj,N ) ∂αj L’équation Eq. (D.6) peut s’écrire sous la forme matricielle suivante Bατ = cτ La résolution de l’équation (D.3) conduit à un processus itératif. ατ est calculé à chaque itération pour chacun des sept paramètres articulatoires αi . Pour garantir qu’il est possible d’atteindre un minimum de l’équation (D.2) if faut disposer d’une bonne solution initiale. Pour cela nous avons utilisé une méthode issue de l’approche par tabulation. La solution initiale est ensuite transformée de telle manière que l’équation (D.2) soit minimisée. 123 Annexe D. Méthode variationnelle d’optimisation des trajectoires articulatoires 124 Annexe E Séquences : Formes du conduit vocal Dans cette annexe, nous présentons les formes du conduit vocal correspondant aux trajectoires articulatoires de quelques séquences de voyelles : /iui/, /ay/, /iu/, et /ua/. Les masses affectées aux articulateurs lors de la phase de lissage non-linéaire sont égales à 1. Pour la séquence /ay/ nous présentons le cas où les masses sont différentes. Un système d’animation permet de suivre l’évolution temporelle de ces formes. Nous pouvons remarquer que les variations d’une image à la suivante sont très minimes. 125 Annexe E. Séquences : Formes du conduit vocal 1/30 2/30 3/30 4/30 5/30 6/30 7/30 8/30 9/30 10/30 11/30 12/30 13/30 14/30 15/30 16/30 17/30 18/30 19/30 20/30 21/30 22/30 23/30 24/30 25/30 26/30 27/30 28/30 29/30 30/30 F IG . E.1 – Les formes du conduit vocal des trajectoires articulatoires pour [iui]. Même masse pour tous les articulateurs. 126 1/24 2/24 3/24 4/24 5/24 6/24 7/24 8/24 9/24 10/24 11/24 12/24 13/24 14/24 15/24 16/24 17/24 18/24 19/24 20/24 21/24 22/24 23/24 23/24 F IG . E.2 – Les formes du conduit vocal pour la transition [ay] dans le cas où tous les articulateurs ont la même masse. 127 Annexe E. Séquences : Formes du conduit vocal 1/24 2/24 3/24 4/24 5/24 6/24 7/24 8/24 9/24 10/24 11/24 12/24 13/24 14/24 15/24 16/24 17/24 18/24 19/24 20/24 21/24 22/24 23/24 23/24 F IG . E.3 – Les formes du conduit vocal pour la transition [ay] dans le cas où la mâchoire et les lèvres ont des masses 50 fois plus importantes que les autres articulateurs. 128 1/24 2/24 3/24 4/24 5/24 6/24 7/24 8/24 9/24 10/24 11/24 12/24 13/24 14/24 15/24 16/24 17/24 18/24 19/24 20/24 21/24 22/24 23/24 24/24 F IG . E.4 – Les formes du conduit vocal pour la transition [iu]. Tous les articulateurs ont la même masse. 129 Annexe E. Séquences : Formes du conduit vocal 1/24 2/24 3/24 4/24 5/24 6/24 7/24 8/24 9/24 10/24 11/24 12/24 13/24 14/24 15/24 16/24 17/24 18/24 19/24 20/24 21/24 22/24 23/24 24/24 F IG . E.5 – Les formes du conduit vocal pour la transition [ua]. Tous les articulateurs ont la même masse. 130 Bibliographie [Apostol, 2001] L. Apostol. Étude et simulation des caractéristiques individuelles des locuteurs par modélisation du processus de production de la parole. PhD thesis, Institut de la Communication Parlée, 2001. [Atal and Rioul, 1989] B.S. Atal and O. Rioul. Neural networks for estimating articulatory positions from speech. J. Acoust. Soc. Amer., 86(Supp. 1, S67) :123–131, 1989. [Atal et al., 1978] B. S. Atal, J. J. Chang, M. V. Mathews, and J. W. Tukey. Inversion of articulatoryto-acoustic transformation in the vocal tract by a computer-sorting technique. Journal of Acoustical Society of America, 63(5) :1535–1555, May 1978. [Badin et al., 1998] P. Badin, L. Pouchoy, G. Bailly, M. Raybaudi, C. Segebarth, JF. Lebas, M. Tiede, E. Vatikiotis-Bateson, and Y. Tohkura. Un modèle articulatoire tridimensionnel du conduit vocal basé sur des données irm. In Proc XXIImes JEPs, 1998. [Baer et al., 1991] T. Baer, J.C. Gore, L.C. Gracco, and P.W. Nye. Analysis of vocal tract shape and dimension using magnetic resonance imaging : Vowels. J. Acoust. Soc. Am., 90(2) :799–828, 1991. [Beautemps et al., 1995] D. Beautemps, P. Badin, and R. Laboissière. Deriving vocal tract area functions from midsagittal profiles and formant frequencies : a new model for vowels and fricative consonants based on experimental data. Speech Communication, 16 :27–47, 1995. [Beautemps et al., 1996] D. Beautemps, P. Badin, G. Bailly, A. Galván, and R. Laboissière. Evaluation of an articulatory-acoustic model based on a reference subject. In 1st ESCA Tutorial and research workshop on speech production - 4th Speech production seminar, pages 45–48. ESCA, 1996. [Benoit et al., 1998] C. Benoit, J. Martin, C. Pelachaud, L. Schomaker, and B. Suhm. Audio-visual and multimodal speech systems. In D. Gibbon, R. Moore, and R. Winski, editors, Handbook of Standards and Resources for Spoken Language Systems. Mouton de Gruyter, 1998. Volume supplémentaire. [Boë, 1997] L.-J. Boë. Modélisation de la croissance du conduit vocal. espace vocalique des nouveauxnés et des adultes. conséquences pour l’ontogenèse et la phylogenèse. In Journées d’Etudes Linguistiques : la voyelle dans tous ces états, pages 98–105, 1997. [Boë et al., 1992] L.-J. Boë, P. Perrier, and G. Bailly. The geometric vocal tract variables controlled for vowel production : proposals for constraining acoustic-to-articulatory inversion. Journal of Phonetics, 20 :27–38, 1992. [Bonvalet, 1993] M. Bonvalet. Les principes variationnels. Masson, Paris, 1993. [Calliope, 1989] Calliope. Description acoustique. In La parole et son traitement automatique, chapter 3. Masson, Paris, 1989. [Charpentier, 1984] F. Charpentier. Determination of the vocal tract shape from the formants by analysis of the articulatory-to-acoustic non-linearities. Speech Communication, 3 :291–308, 1984. [Ciocea et al., 1997] S. Ciocea, J. Schoentgen, and L. Crevier-Buchman. Analysis of dysarthric speech by means of formant-to-area mapping. In Eurospeech, pages 1799–1802, Rhodes, 1997. 131 Bibliographie [Cohen et al., 1998] M. Cohen, J. Beskow, and D. Massaro. Recent developments in facial animation : An inside view. In Proceedings AVSP’98, pages 201–206, Terrigal-Australie, 1998. [Dang and Honda, 1997] J. Dang and K. Honda. A physiological model of the tongue and jaw for simulating deformation in the midsagittal and parasagittal planes. J. Acoust. Soc. Am., 102(5) :3167, 1997. [Deng and Sun, 1993] L. Deng and D. Sun. Speech recognition using the atomic speech units constructed from overlapping articulatory features. In Eurospeech, pages 1635–1638, Berlin, 1993. [Edwards and Harris, 1990] J. Edwards and K.S. Harris. Rotation and translation of the jaw during speech. J. Speech and Hearing Research, 33 :550–562, 1990. [Engwall, 1999] O. Engwall. Modeling of the vocal tract in three dimensions. In Eurospeech, pages 113–116, Budapest, 1999. [Fant, 1960] G. Fant. Acoustic Theory of Speech Production. The Hague : Mouton & Co., 1960. [Fant, 1975] G. Fant. Vocal-tract area and length perturbations. STL-QPSR, pages 1–14, 1975. [Flanagan et al., 1980] J.L. Flanagan, K. Ishizaka, and K.L. Shipley. Signal models for low bit-rate coding of speech. J. Acoust. Soc. Amer., 68(3) :780–791, 1980. [Flanagan, 1972] J. L. Flanagan. Speech Analysis, Synthesis and Perception. Springer-Verlag, 2nd ed, New York, 1972. [Gabioud, 1994] B. Gabioud. Articulatory models in speech synthesis. In E. Keller, editor, Fundamentals of Speech Synthesis and Speech Recognition, chapter 10. John Wiley & Sons, West Sussex, Englan, 1994. [Galván-Rdz, 1997] A. Galván-Rdz. Etudes dans le cadre de l’inversion acoustico-articulatoire : Amélioration d’un modèle articulatoire, normalisation du locuteur et récupération du lieu de constriction des plosives. PhD thesis, Institut de la Communication Parlée, 1997. [Ghitza and Sondhi, 1997] O. Ghitza and M. M. Sondhi. On the perceptual distance between speech segments. J. Acoust. Soc. Amer., 101(1) :522–529, 1997. [Goldstein, 1980] U. G. Goldstein. An Articulatory Model for the Vocal Tracts of Growing Children. PhD thesis, Massachusetts Institute of Technology, 1980. [Golub and Loan, 1989] G.H. Golub and C.F. Van Loan. Matrix Computations. The Johns Hopkins University Press, 1989. [Hadamard, 1923] J. Hadamard. Lectures on the Cauchy Problem in Linear Partial Differential Equations. Yale University Press, New Haven, CT, 1923. [Harshman et al., 1977] R. Harshman, P. Ladefoged, and L. Goldstein. Factor analysis of tongue shapes. J. Acoust. Soc. Am., 62(3) :693–707, 1977. [Heinz and Stevens, 1965] J. M. Heinz and K. N. Stevens. On the relations between lateral cineradiographs, area functions and acoustic spectra of speech. In Proceedings of the 5th International Congress on Acoustics, page A44., 1965. [Henk et al., 1997] M. Henk, J. Richter-Gebert, and G. Ziegler. Basic properties of convex polytopes. In J.E. Goodman and J. O’Rourke, editors, Handbook of Discrete and Computational Geometry, CRC Press, 1997, chapter 13. 1997. [Ishizaka and Flanagan, 1972] K. Ishizaka and J. L. Flanagan. Acoustic properties of a two-mass model of the vocal cords. Bell Syst. Technol. J., 51 :1233–1268, 1972. [Jackson, 1988] M.T.T. Jackson. Analysis of tongue positions : language-specific and cross-linguistic models. J. Acoust. Soc. Am., 84(1) :124–143, 1988. 132 [Johnson et al., 1993] K. Johnson, P. Ladefoged, and M. Lindau. Individual differences in vowel production. J. Acoust. Soc. Amer., 94(2-pt. 1) :701–714, 1993. [Jordan and Rumelhart, 1992] M.I. Jordan and D.E. Rumelhart. Forward models : Supervised learning with a distal teacher. Cognitive Sci., 16 :307–354, 1992. [Kiritani et al., 1976] S. Kiritani, K. Miyawaki, O. Fujimura, and J.E. Miller. A computational model of the tongue. Ann. Bull. RILP, 10 :243–251, 1976. [Laboissièrre and Galvàn, 1995] R. Laboissièrre and A. Galvàn. Inferring the commands of an articulatory model from acoustical specifications of stop/vowel sequences. In Proceedings ICPhS, volume 1, pages 358–361, Stockholm, August 1995. [Landau and Lifchitz, 1989] L. Landau and E. Lifchitz. Mécanique des fluides, chapter 2, page 69. MIR, 1989. [Laprie and Berger, 1996] Y. Laprie and M.-O. Berger. Cooperation of regularization and speech heuristics to control automatic formant tracking. Speech Communication, 19(4) :255–270, October 1996. [Laprie and Mathieu, 1998a] Y. Laprie and B. Mathieu. Inversion acoustique articulatoire par une méthode variationnelle. In Actes des 22èmes Journ/’ees d’Etude su la Parole, pages 295–298, Martigny, Switzerland, Juin 1998. [Laprie and Mathieu, 1998b] Y. Laprie and B. Mathieu. A variational approach for estimating vocal tract shapes from the speech signal. In Proceedings of the International Conference on Acoustics, Speech and Signal Processing, volume 2, pages 929–932, Seattle, USA, May 1998. [Laprie, 1988] Y. Laprie. Snorri, un système d’étude interactif de la parole. In Actes des 17èmes Journées d’Etudes sur la Parole, pages 71–76, Nancy, 1988. [Larar et al., 1988] J. N. Larar, J. Schroeter, and M. M. Sondhi. Vector quantization of the articulatory space. IEEE Trans. Acoust., Speech, Signal Processing, ASSP-36(12) :1812–1818, December 1988. [Liljencrants, 1971] J. Liljencrants. Fourier series description of the tongue profile. Speech Transmission Laboratory, QPSR, 4 :9–18, 1971. [Lucero and Munhall, 1999] J.C. Lucero and K.G. Munhall. A model of facial biomechanics for speech production. J. Acoust. Soc. Am., 106(5) :2834–2842, 1999. [Maeda, 1979] S. Maeda. Un modèle articulatoire de la langue avec des composantes linéaires. In Actes 10èmes Journées d’Etude sur la Parole, pages 152–162, Grenoble, Mai 1979. [Maeda, 1990] S. Maeda. Compensatory articulation during speech : Evidence from the analysis and synthesis of vocal-tract shapes using an articulatory model. In W.J. Hardcastle and A. Marchal, editors, Speech production and speech modelling, pages 131–149. Kluwer Academic Publisher, Amsterdam, 1990. [Maeda, 1992] S. Maeda. SUPP.) :191–198, 1992. Modélisation articulatoire du conduit vocal. J. de Physique, IV(2 - [Massaro, 1998] D.W. Massaro. Perceiving Talking Faces : From Speech Perception to a Behavioral Principle. MIT Press, 1998. [Mathieu and Laprie, 1996] B. Mathieu and Y. Laprie. Speaker normalization of the Maeda’s model. In Proceeding of International Workshop on Speech and Computer, SPECOM’96, pages 167–170, St. Petersburg, Russia, 1996. [Mathieu and Laprie, 1997] B. Mathieu and Y. Laprie. Adaptation of Maeda’s model for acoustic to articulatory inversion. In Proceedings of the 5th European Conference on Speech Communication and Technology, volume 4, pages 2015–2018, Rhodes, Greece, 1997. 133 Bibliographie [Mathieu, 1999] B. Mathieu. Modèles de production de parole et reconnaissance à partir d’automates. PhD thesis, Université Henri Poincaré - Nancy I, Decembre 1999. [McGowan, 1994] R.S. McGowan. Recovering articulatory movement from formant frequency trajectories using task dynamics and a genetic algoritm : preliminary model tests. Speech Communication, 14 :19–48, 1994. [Mermelstein, 1973] P. Mermelstein. Articulatory model for the study of speech production. J. Acoust. Soc. Am., 53 :1070–1082, 1973. [Ney, 1983] H. Ney. A dynamic programmation algorithm for nonlinear smoothing. Signal Processing, 5(2) :163–173, March 1983. [Ouni and Laprie, 1999] Slim Ouni and Yves Laprie. Design of hypercube codebooks for the acousticto-articulatory inversion respecting the non-linearities of the articulatory-to-acoustic mapping. In EUROSPEECH’99, Budapest, Hongrie, volume 1, pages 141–144, September 1999. [Ouni and Laprie, 2000a] Slim Ouni and Yves Laprie. Improving acoustic-to-articulatory inversion by using hypercube codebooks. In International Conf. on Spoken Language Processing - ICSLP2000, Beijing, Chine, volume II, pages 178–181, October 2000. [Ouni and Laprie, 2000b] Slim Ouni and Yves Laprie. Utilisation d’un dictionnaire hypercubique pour l’inversion acoustico-articulatoire. In Actes des Journées d’Étude sur la parole, Aussois, June 2000. [Ouni and Laprie, 2001a] Slim Ouni and Yves Laprie. Exploring the Null Space of the Acoustic-toArticulatory Inversion Using a Hypercube Codebook. In Eurospeech, Aalborg, Danemark, volume 1, pages 277–280, September 2001. [Ouni and Laprie, 2001b] Slim Ouni and Yves Laprie. Studying articulatory effects through hypercube sampling of the articulatory space. In 17th International Congress on Acoustics , Rome, Italy, volume 4, September 2001. [Overall, 1962] J.E. Overall. Orthogonal factors and uncorrelated factor scores. In Psychological Reports, volume 10, pages 651–662, 1962. [Papcun et al., 1992] G. Papcun, J. Hochberg, T.R. Thomas, F. Laroche, J.Zacks, and S. Levy. Inferring articulation and recognizing gestures from acoustics with a neural network trained on x-ray microbeam data. J. Acoust. Soc. Amer., 92(2) :688–700, 1992. [Payan and Perrier, 1997] Y. Payan and P. Perrier. ynthesis of v-v sequences with a 2d biomechanical tongue model controlled by the equilibrium point hypothesis. Speech Commmunication, 22 :185–205, 1997. [Pelachaud and Prevost, 1995] C. Pelachaud and S. Prevost. Talking heads : Physical, linguistic and cognitive issues in facial animation. Cours d’infographie, Université de Rome et Université de Pennsylvania, 1995. [Perkell, 1974] J.S Perkell. A Physiologically-Oriented Model of Tongue Activity in Speech Production. PhD thesis, Massachusetts Institute of Technology, 1974. [Perrier et al., 1992] P. Perrier, L.-J. Boë, and R. Sock. Vocal tract area function estimation from midsagittal dimensions with ct scans and a vocal tract cast : modeling the transition with two sets of coefficients. J. Speech and Hearing Research, 35 :53–67, 1992. [Rahim and Goodyear, 1990] M.G. Rahim and C.C. Goodyear. Estimation of vocal tract filter parameters using a neural net. Speech Communication, 9 :49–55, 1990. [Rahim et al., 1993] M.G. Rahim, C.C. Goodyear, W.B. Kleijn, J. Schroeter, and M.M. Sondhi. On the use of neural networks for in articulatory speech synthesis. J. Acoust. Soc. Amer., 93(2) :1109–1121, 1993. 134 [Raphael and Bell-Berti, 1975] L.J. Raphael and F. Bell-Berti. Tongue musculature and the feature of tension in english vowels. Phonetica, 32 :61–73, 1975. [Richards et al., 1997] H. B. Richards, J. S. Bridle, M. J. Hunt, and J. S. Mason. Dynamic constraint weighting in the context of articulatory parameter estimation. In Proceedings of the 5th European Conference on Speech Communication and Technology, volume 5, pages 2535–2538, Rhodes, Greece, 1997. [Rose et al., 1994] R.C. Rose, J. Schroeter, and M.M. Sondhi. An investigation of the potential role of speech production models in automatic speech recognition. In Proceedings of International Conference on Spoken Language Processing, volume 2, pages 575–578, Yokohama, Japan, 1994. [Rubin et al., 1981] P.E. Rubin, T. Baer, and P. Mermelstein. An articulatory synthesizer for articulatory research. J. Acoust. Soc. Am., 70 :321–328, 1981. [Sanchez and Boë, 1984] H. Sanchez and L.-J. Boë. De la coupe sagittale à la fonction d’aire du conduit vocal. Bull. Inst. Phonétique de Grenoble, 13 :1–24, 1984. [Sanguineti et al., 1998] V. Sanguineti, R. Laboissiere, and D.J. Ostry. A dynamic biomechanical model for the neural control of speech production. J. Acoust. Soc. Am., 103 :1615–1627, 1998. [Schoentgen and Ciocea, 1997] J. Schoentgen and S. Ciocea. Kinematic formant-to-area mapping. Speech Communication, 21 :227–244, 1997. [Schroeder, 1967] M.R. Schroeder. Determination of the geometry of the human vocal tract by acoustic measurements. J. Acoust. Soc. Amer., 41 :1002–1010, 1967. [Schroeter and Sondhi, 1992] J. Schroeter and M. M. Sondhi. Speech coding based on physiological models of speech production. In S. Furui and M. M. Sondhi, editors, Advances in Speech Signal Processing, pages 231–267. Dekker, New York, 1992. [Shirai and Kobayashi, 1991] K. Shirai and T. Kobayashi. Estimating articulatory motion using neural networks. J. Phonetics, 19 :379–385, 1991. [Shirai, 1983] K. Shirai. Computer Analysis and Perception, chapter 2, pages 101–141. 1983. [Silva and Chennoukh, 1998] C. Silva and S. Chennoukh. Articulatory analysis using a codebook for articulatory based low bit-rate speech coding. In ICSLP98, 1998. [Sondhi and Schroeter, 1987] M.M. Sondhi and J. Schroeter. A hybrid time-frequency domain articulatory speech synthesizer. IEEE Trans. on Acoustic, Speech and Signal Processing, 35(7) :955–967, July 1987. [Soquet et al., 1991] A. Soquet, M. Saerens, and P. Jospa. Acoustic-articulatory inversion based on a neural controller of a vocal tract model : further results. In O. Simula T. Kohonen, K. Mokisara and J. Kangas, editors, Artificial Neural Networks, pages 371–376. North Holland : Elsevier, 1991. [Sorokin and Trushkin, 1996] V.N. Sorokin and A.V. Trushkin. Articulatory-to-acoustic mapping for inverse problem. Speech Communication, 19 :105–118, 1996. [Sorokin et al., 2000] V.N. Sorokin, A.S. Leonov, and A.V. Trushkin. Estimation of stability and accuracy of inverse problem solution for the vocal tract. Speech Communication, 30 :55–74, 2000. [Sorokin, 1987] V.N. Sorokin. Coordination of muscles and articulators. In ICPhS, volume 3, pages 382–384, 1987. [Sorokin, 1992] V.N. Sorokin. Determination of vocal tract shape for vowels. Speech Communication, 11 :71–85, 1992. [Sorokin, 1994] V.N. Sorokin. Inverse problem for fricatives. Speech Communication, 14 :249–262, 1994. 135 Bibliographie [Stevens and House, 1955] K.N. Stevens and A.S. House. Development of a quantitative description of vowel articulation. J. Acoust. Soc. Amer., 27 :484–493, 1955. [Stevens, 1972] K.N. Stevens. Human communication : A unified view, pages 51–66. McGraw Hill, 1972. [Stevens, 1989] K.N. Stevens. On the quantal nature of speech. J. Phonetics, 27 :3–45, 1989. [Stevens, 1999a] K.N. Stevens. Acoustic Phonetics, chapter 1. MIT Press, 1999. [Stevens, 1999b] K.N. Stevens. Acoustic Phonetics, chapter 3, page 145. MIT Press, 1999. [Wilhelms-Tricarico, 1995] R. Wilhelms-Tricarico. Physiological modeling of speech production : Methods for modeling soft-tissue articulators. J. Acoust. Soc. Am., 97(5) :3085–3098, 1995. [Wood, 1979] S. Wood. A radiographic analysis of constriction for vowels. Journal of Phonetics, 7 :25– 43, 1979. [Yehia and Tiede, 1997] H. Yehia and M. Tiede. A parametric three-dimensional model of the vocaltract based on MRI data. In Proc. ICASSP ’97, pages 1619–1622, Munich, Germany, 1997. [Zlokarnik, 1993] I. Zlokarnik. Experiments with an articulatory speech recognizer. In Eurospeech, pages 2215–2218, Berlin, 1993. [Zwicker and Feldtkeller, 1981] E. Zwicker and R. Feldtkeller. Psychoacoustique : l’oreille, récepteur d’information, chapter V, pages 63–66. Masson, 1981. 136 Résumé L’objectif de la thèse est de développer une méthode d’inversion afin de récupérer toutes les formes réalisables du conduit vocal correspondant à un signal acoustique représenté par ses formants, et de récupérer l’évolution temporelle des paramètres articulatoires. Notre méthode d’inversion repose en grande partie sur la représentation de l’espace articulatoire sous la forme d’un codebook hypercubique. Ce codebook est constitué d’hypercubes représentant des régions de dimension sept par un nombre très limité de points. Ces hypercubes ont une taille qui dépend du degré de non-linéarité de la relation articulatoire-acoustique. Lors de l’inversion, le codebook hypercubique est exploré afin de récupérer les formes articulatoires de tous les hypercubes possibles correspondant à une entrée acoustique. Nous proposons une méthode d’exploration de l’espace nul de l’hypercube qui permet alors d’obtenir une description complète de l’ensemble des solutions. Après l’étape d’inversion point à point, il est possible de trouver les trajectoires articulatoires qui correspondent à une variation lente des paramètres articulatoires et cohérentes d’un point de vue phonétique. Dans ce but, nous proposons une méthode de lissage non-linéaire basée sur une stratégie de programmation dynamique. Le résultat de ce lissage est ensuite régularisé à l’aide d’une méthode variationnelle qui minimise la distance acoustique et assure la régularité de l’évolution des paramètres articulatoires. Mots-clés: inversion, acoustique, articulatoire, codebook, hypercube, production de la parole, trajectoire articulatoire, variabilité articulatoire, voyelles, régularisation variationnelle, non-linéarité, lissage, SVD. Abstract Title : Articulatory space modelling using a hypercube codebook for acoustic-to-articulatory inversion In this thesis, we deal with the inversion of the articulatory-to-acoustic relation, i.e. given an acoustic signal we want to recover the trajectories of the corresponding articulatory parameters. For this purpose, we have to resolve three problems : modelling articulatory space by hypercubes, retrieving all the solutions, and recovering articulatory trajectories varying slowly. Our inversion method is based on the representation of the articulatory space by a hypercube codebook. This representation has the advantage of decomposing the articulatory space into regions where the mapping is quasilinear. Each region is represented by a hypercube. The inversion procedure retrieves articulatory vectors corresponding to an acoustic entry from the hypercube codebook. As the dimension of the articulatory space is greater than the dimension of the acoustic space, the corresponding null space is sampled by linear programming to retrieve all the possible solutions. Retrieving articulatory trajectories is performed in two steps. We use non-linear smoothing method based on dynamic programming followed by smoothing with a variational method. We have succeeded to retrieve smooth and realistic articulatory trajectories, which is confirmed by the experimental evaluation. Keywords: inversion, acoustic, articulatory, codebook, hypercube, speech production, articulatory trajectoiry, articulatoiry variability, vowels, variationnal regularization, non-linearity, smoothing, SVD.