These de doctorat : Modélisation de l`espace articulatoire par

Transcription

These de doctorat : Modélisation de l`espace articulatoire par
Département de formation doctorale en informatique
UFR STMIA
École doctorale IAEM Lorraine
Modélisation de l’espace articulatoire
par un codebook hypercubique pour
l’inversion acoustico-articulatoire
THÈSE
présentée et soutenue publiquement le 21 décembre 2001
pour l’obtention du
Doctorat de l’université Henri Poincaré – Nancy 1
(spécialité informatique)
par
Slim Ouni
Composition du jury
Président :
Jean-Paul Haton
IUF, Professeur, UHP - Nancy
Rapporteurs :
Shinji Maeda
Pascal Perrier
Marie-Claude Portmann
Directeur de recherche, CNRS, ENST - Paris
Professeur, INPG - Grenoble
Professeur, INPL - Nancy
Examinateurs :
Jean Schoentgen
Yves Laprie
Chercheur qualifié, FNRS, ULB - Belgique
Chargé de recherche, CNRS - Nancy
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503
Mis en page avec la classe thloria.
Résumé
L’objectif de la thèse est de développer une méthode d’inversion afin de récupérer toutes les formes
réalisables du conduit vocal correspondant à un signal acoustique représenté par ses formants, et de récupérer l’évolution temporelle des paramètres articulatoires.
Pour atteindre cet objectif, nous avons abordé trois problèmes : la modélisation de l’espace articulatoire par des hypercubes, la recherche de toutes les solutions dans cet espace et la récupération de
l’évolution temporelle des articulateurs.
Notre méthode d’inversion repose en grande partie sur la représentation de l’espace articulatoire sous
la forme d’un codebook hypercubique. Ce codebook est constitué d’hypercubes représentant des régions
de dimension sept par un nombre très limité de points. Ces hypercubes ont une taille qui dépend du degré
de non-linéarité de la relation articulatoire-acoustique.
Lors de l’inversion, le codebook hypercubique est exploré afin de récupérer les formes articulatoires
de tous les hypercubes possibles correspondant à une entrée acoustique. Nous proposons une méthode
d’exploration de l’espace nul de l’hypercube qui permet alors d’obtenir une description complète de
l’ensemble des solutions.
Les solutions obtenues à l’issue de l’exploration du codebook peuvent être utilisées directement pour
étudier la variabilité articulatoire des voyelles. Dans cette étude, nous avons considéré quelques voyelles
du français et nous avons essayé de les caractériser.
Après l’étape d’inversion point à point, il est possible de trouver les trajectoires articulatoires qui correspondent à une variation lente des paramètres articulatoires et cohérentes d’un point de vue phonétique.
Dans ce but, nous proposons une méthode de lissage non-linéaire basée sur une stratégie de programmation dynamique. Le résultat de ce lissage est ensuite régularisé à l’aide d’une méthode variationnelle qui
minimise la distance acoustique et assure la régularité de l’évolution des paramètres articulatoires.
Mots-clés: inversion, acoustique, articulatoire, codebook, hypercube, modèle de Maeda, production de
la parole, conduit vocal, trajectoire articulatoire, variabilité articulatoire, voyelles, régularisation variationnelle, non-linéarité, lissage, SVD.
Abstract
Title : Articulatory space modelling using a hypercube codebook for acoustic-to-articulatory inversion
In this thesis, we deal with the inversion of the articulatory-to-acoustic relation, i.e. given an acoustic
signal we want to recover the trajectories of the corresponding articulatory parameters. For this purpose,
we have to resolve three problems : modelling articulatory space by hypercubes, retrieving all the solutions, and recovering articulatory trajectories varying slowly.
Our inversion method is based on the representation of the articulatory space by a hypercube codebook. This representation has the advantage of decomposing the articulatory space into regions where
the mapping is quasi-linear. Each region is represented by a hypercube.
The inversion procedure retrieves articulatory vectors corresponding to an acoustic entry from the
hypercube codebook. As the dimension of the articulatory space is greater than the dimension of the
acoustic space, the corresponding null space is sampled by linear programming to retrieve all the possible solutions.
These solutions could be used directly to study vowel articulatory variabilities. For this purpose, we
considered principal constriction place in the vocal tract to distinguish different classes of French vowels.
Retrieving articulatory trajectories is performed in two steps. We use non-linear smoothing method
based on dynamic programming followed by smoothing with a variational method. We have succeeded to
retrieve smooth and realistic articulatory trajectories, which is confirmed by the experimental evaluation.
Keywords: inversion, acoustic, articulatory, codebook, hypercube, Maeda model, speech production,
vocal tract, articulatory trajectoiry, articulatoiry variability, vowels, variationnal regularization, nonlinearity, smoothing, SVD.
Remerciements
Je tiens tout d’abord à manifester ma profonde gratitude et ma sincère reconnaissance envers Yves Laprie, mon directeur de thèse, qui m’a encadré et orienté tout au long de ces années
de travail. Je le remercie aussi pour ses commentaires fructueux et la patience dont il a fait
preuve à mon égard au cours des nombreuses et enrichissantes rencontres de travail. Je le remercie aussi pour ses remarques et critiques qui ont contribué à l’élaboration de ce manuscrit.
Je remercie également Jean-Paul Haton qui m’a fait l’honneur de présider le jury de ma
thèse. Je le remercie de sa confiance et du grand intérêt qu’il a toujours portés à mes travaux.
Mes remerciements vont ensuite à mes rapporteurs Shinji Maeda, Pascal Perrier et
Marie-Claude Portmann qui ont bien voulu accepter d’évaluer le présent travail et ce malgré
toutes les responsabilités qu’ils assument. Qu’ils trouvent ici l’expression de ma gratitude pour
l’intérêt dont ils ont fait preuve à l’égard de ce travail.
Je remercie également Jean Schoentgen pour avoir bien voulu participer à ce jury et évaluer
ce travail. Je le remercie pour ses remarques qui m’ont été utiles pour améliorer la qualité de ce
manuscrit.
Un grand merci à Armelle Brun et Nizar Ben Youssef pour avoir accepté de relire à plusieurs
reprises et de corriger ce document ; leurs remarques ne furent point perdues.
Merci également à tous mes collègues de l’équipe PAROLE, et mes amis du LORIA, pour
l’environnement de travail sympathique dont j’ai bénéficié.
Enfin, je tiens à remercier vivement ma famille pour les encouragements et le soutien moral
qu’ils m’ont prodigués.
iii
iv
À ma famille.
v
vi
Table des matières
Introduction générale
xi
Chapitre 1 Production de la parole et modèles articulatoires
1
1.1
La physiologie de la production de la parole . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
La synthèse articulatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
Les modèles articulatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Adaptation du modèle articulatoire de Maeda . . . . . . . . . . . . . . . . . . . . . . .
7
1.4.1
Adaptation par utilisation des images IRM . . . . . . . . . . . . . . . . . . . .
8
1.4.2
Adaptation par normalisation de l’espace acoustique . . . . . . . . . . . . . . .
10
1.5
Le passage de la coupe sagittale à la fonction d’aire . . . . . . . . . . . . . . . . . . . .
13
1.6
La simulation acoustique du système de production de la parole . . . . . . . . . . . . .
14
Chapitre 2 Méthodes d’inversion acoustico-articulatoire existantes
2.1
2.2
2.3
19
Étude de l’inversion acoustico-articulatoire en tant que problème mal-posé . . . . . . . .
19
2.1.1
L’inversion est un problème mal-posé . . . . . . . . . . . . . . . . . . . . . . .
19
2.1.2
Le principe de résolution de l’inversion . . . . . . . . . . . . . . . . . . . . . .
20
2.1.3
Résolution du problème de la non-unicité par l’introduction de contraintes . . . .
21
Méthodes existantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.2.1
L’inversion par une procédure de tri . . . . . . . . . . . . . . . . . . . . . . . .
22
2.2.2
Méthodes par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.2.3
Méthodes par réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . .
24
Étude des méthodes existantes de construction de codebook . . . . . . . . . . . . . . . .
25
2.3.1
Codebook à échantillonnage régulier . . . . . . . . . . . . . . . . . . . . . . . .
26
2.3.2
Codebook à échantillonnage aléatoire . . . . . . . . . . . . . . . . . . . . . . .
26
2.3.3
Codebook à prototypes vocaliques . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.3.4
Comparaison de la couverture des trois codebooks . . . . . . . . . . . . . . . .
27
2.3.5
Problème de la non-linéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
vii
Table des matières
Chapitre 3 Construction du codebook hypercubique
3.1
Structure hypercubique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.1.1
Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.1.2
Pourquoi le choix d’une structure hypercubique? . . . . . . . . . . . . . . . . .
32
La construction du codebook hypercubique . . . . . . . . . . . . . . . . . . . . . . . .
32
3.2.1
Le principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
3.2.2
La méthode de construction . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.2.3
Le test de linéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.2.4
Le choix du seuil de linéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
3.2.5
Régions interdites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.2.6
La description du codebook hypercubique . . . . . . . . . . . . . . . . . . . . .
40
3.3
Réalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.4
Évaluation expérimentale du codebook hypercubique . . . . . . . . . . . . . . . . . . .
41
3.4.1
L’interpolation dans un hypercube . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.4.2
Vérification expérimentale de l’interpolation . . . . . . . . . . . . . . . . . . .
42
3.4.3
Vérification de la continuité de la relation articulatoire-acoustique . . . . . . . .
42
3.2
Chapitre 4 Inversion par un codebook hypercubique
4.1
45
La méthode d’inversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.1.1
Le principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.1.2
Présentation du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.1.3
Résolution du système d’équations . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.1.4
L’échantillonnage de l’espace nul . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.1.5
La précision de l’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . .
50
4.2
Quelques résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.3
Évaluation expérimentale de la précision acoustique . . . . . . . . . . . . . . . . . . . .
53
Chapitre 5 Récupération des trajectoires articulatoires
57
5.1
Algorithme de lissage non-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.2
Régularisation variationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
Chapitre 6 Évaluations expérimentales de l’inversion acoustico-articulatoire
6.1
6.2
viii
31
63
Évaluations expérimentales : Récupération des trajectoires articulatoires . . . . . . . . .
63
6.1.1
Inversion de séquences de voyelles . . . . . . . . . . . . . . . . . . . . . . . . .
64
6.1.2
Choix des masses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
6.1.3
Quelles trajectoires articulatoires choisir : la variabilité articulatoire . . . . . . .
76
6.1.4
Inversion de séquences V-C-V . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
Évaluations expérimentales: Inversion des voyelles . . . . . . . . . . . . . . . . . . . .
83
Conclusions et perspectives
91
Annexe A Régularisation variationnelle des trajectoires articulatoires
95
Annexe B Séquences V-V et V-V-V
99
Annexe C La méthode SVD (décomposition en valeurs singulières)
117
Annexe D Méthode variationnelle d’optimisation des trajectoires articulatoires
121
Annexe E Séquences: Formes du conduit vocal
125
Bibliographie
131
ix
Table des matières
x
Introduction générale
La production de la parole consiste à générer une onde acoustique qui porte le message que veut
diffuser un locuteur. C’est l’un des actes volontaires les plus complexes de l’activité humaine car la coordination des gestes des organes articulatoires fait intervenir plus d’une centaine de muscles. L’étude
de la production de la parole et des gestes articulatoires a donc conduit à l’élaboration de modèles numériques des organes impliqués dans la production de la parole (système respiratoire, cordes vocales,
larynx, pharynx, vélum, langue, mâchoire et lèvres) et des déformations du conduit vocal sous l’effet des
articulateurs. Pour ce dernier point, on utilise des modèles articulatoires, souvent le résultat d’analyses
statistiques de films cinéradiographiques, et qui décrivent la forme du conduit vocal en fonction d’un
nombre réduit de paramètres. Ces modèles complétés par une simulation acoustique permettent de passer de l’espace des commandes articulatoires à l’espace acoustique.
Depuis plus d’une trentaine d’années, on s’intéresse au passage inverse appelé inversion acousticoarticulatoire, c’est-à-dire, la récupération des gestes articulatoires à partir du signal de parole. Nous
allons maintenant présenter un certain nombre d’applications potentielles de l’inversion qui justifient
l’intérêt porté à ce problème.
La modélisation articulatoire suscite un intérêt croissant dans le domaine de la reconnaissance de
la parole. En effet, la représentation de la parole sous la forme d’un flux continu de mouvements articulatoires se prête naturellement mieux à la modélisation de la coarticulation que la concaténation de
segments acoustiques discrets [Rose et al., 1994]. Par ailleurs, les paramètres articulatoires permettent
de lever certaines ambiguïtés de l’information acoustique. Les sons de la parole présentent en effet une
variabilité plus faible pour le mouvement des articulateurs critiques1 que pour celui des articulateurs non
critiques [Rose et al., 1994]. Les effets de coarticulation concernant les articulateurs critiques sont donc
plus caractéristiques et par conséquent plus facilement interprétables.
Dans un système de reconnaissance automatique de parole, il est possible de compléter ou de remplacer les données acoustiques par des paramètres articulatoires. Dans ce cas, les modèles de Markov
cachés (HMM2 ) ne sont plus acoustiques mais articulatoires voire simultanément acoustiques et articulatoires. Pour développer de tels modèles il est nécessaire d’élaborer une méthode d’inversion acoustiquearticulatoire.
À notre connaissance, il n’existe pas de systèmes de reconnaissance de la parole opérationnels purement articulatoires. Dans les travaux de Deng et Sun [Deng and Sun, 1993] par exemple, les auteurs
imposent une correspondance entre les états des HMMs et les configurations articulatoires à l’aide de
la phonologie articulatoire. Les expériences faites à partir de données réelles sont encourageantes et
montrent l’intérêt d’une telle technique. Par ailleurs, l’utilisation des mesures articulatoires obtenues
1 Un articulateur critique pour un son donné est un articulateur qui est impérativement utilisé lors de la production de ce son.
Par exemple, l’articulateur critique des sons /k/ et /g/ est le corps de la langue, celui de /t/ et /d/ est l’apex de la langue et ceux
de /p/ et /b/ sont les lèvres.
2 Hidden Markov Model
xi
Introduction générale
avec un articulographe [Zlokarnik, 1993] ou par radiographie [Papcun et al., 1992] complétées par les
mesures acoustiques ont permis d’améliorer le taux de reconnaissance. Malheureusement, ces efforts
n’ont pas été poursuivis.
L’existence de méthodes d’inversion robustes (capables de fournir des trajectoires articulatoires réalistes et proches de celles effectivement produites par un locuteur) permettrait de relancer ces travaux de
reconnaissance.
Certains travaux dans le codage de la parole à faible débit ont exploité une approche articulatoire.
Outre le fait que les paramètres articulatoires évoluent lentement dans le temps, tous les modèles articulatoires font en effet appel à un petit nombre de paramètres, ce qui fait l’intérêt de l’approche [Flanagan
et al., 1980; Sondhi and Schroeter, 1987; Schroeter and Sondhi, 1992; Silva and Chennoukh, 1998].
Dans le domaine de la phonétique, l’inversion acoustico-articulatoire permettrait de remplacer dans
une large mesure les méthodes d’imagerie médicale soit trop peu rapides, soit nocives pour la santé humaine. Le travail de Ciocea et al. [Ciocea et al., 1997] relève en partie de cette démarche puisque les
auteurs ont utilisé leur procédure d’inversion afin de mesurer les facultés articulatoires de patients atteints de dysarthrie. Sans aller aussi loin Boë et al. [Boë et al., 1992] ont utilisé le modèle de Maeda pour
construire une table de paires de paramètres articulatoires et acoustiques afin d’étudier la formation des
systèmes vocaliques.
L’utilisation de l’inversion pour l’apprentissage des langues serait aussi très profitable. En effet, la
récupération des gestes articulatoires à partir du signal acoustique de l’apprenant permettrait de visualiser les erreurs et de proposer de meilleures stratégies articulatoires. Un système d’inversion audiovisuel
pourrait aussi être utilisé par les malentendants afin de suivre une « rééducation articulatoire ». Il s’agirait d’une tête humaine virtuelle parlante : une tête virtuelle représentée graphiquement par un modèle
tridimensionnel animé, dont l’animation serait synchronisée avec la parole synthétisée.
L’utilisation des têtes parlantes dans le domaine de la parole audiovisuelle est en effet en pleine expansion (apprentissage des langues, rééducation articulatoire, perception, multimédia, interaction hommemachine, etc..) [Pelachaud and Prevost, 1995; Benoit et al., 1998; Cohen et al., 1998; Massaro, 1998].
Toutes ces applications potentielles ont motivé les travaux sur l’inversion acoustico-articulatoire.
Malheureusement, l’inversion n’est pas un problème simple, en premier lieu parce qu’une infinité de
configurations du conduit vocal peuvent produire le même signal acoustique. À cette relation non biunivoque entre l’espace articulatoire et l’espace acoustique s’ajoute le problème de la non-linéarité de cette
relation [Fant, 1960; Stevens, 1972; Charpentier, 1984]. En effet, il existe des régions de l’espace articulatoire pour lesquelles une petite variation d’un paramètre articulatoire entraîne une variation importante
des paramètres acoustiques. Ce problème est principalement dû à la géométrie du conduit vocal et à ses
propriétés physiques (chapitre 2).
Les travaux sur l’inversion sont apparus il y a plus d’une vingtaine d’années avec notamment les travaux d’Atal et al. [Atal et al., 1978] qui ont essayé de résoudre le problème de non-linéarité en linéarisant
localement la relation entre l’espace articulatoire et l’espace acoustique.
La plupart des méthodes d’inversion part d’un ensemble de paires de vecteurs articulatoires et des
vecteurs acoustiques correspondants (ce qui constitue un dictionnaire que nous appelons désormais codebook pour éviter toute ambiguïté). Cela permet de retrouver des solutions initiales à partir desquelles
une méthode d’optimisation permet d’obtenir les trajectoires articulatoires. Malheureusement, il y a trop
xii
peu de travaux portant sur la construction des codebooks représentant fidèlement l’espace articulatoire,
c’est-à-dire respectant la non-linéarité de la relation entre l’espace articulatoire et l’espace acoustique.
Dans ce mémoire, nous présentons nos travaux dans ce domaine. Le but est d’élaborer une méthode
d’inversion respectant la non-linéarité de la relation articulatoire-acoustique et qui permette de récupérer
toutes les formes réalisables du conduit vocal, cela afin d’étudier les différentes trajectoires articulatoires
réalistes, et par la suite, de pouvoir construire une base de données pour l’étude des différents phénomènes de coarticulation et de variabilité articulatoire.
Dans ce cadre, nous proposons une méthode de construction du codebook qui respecte au mieux
la non-linéarité de cette relation. Pour ce faire, nous décomposons l’espace articulatoire d’une manière
fine dans les régions où la relation articulatoire-acoustique est fortement non-linéaire. Nous avons choisi
la structure d’hypercube pour représenter les différentes régions de l’espace articulatoire (chapitre 3).
Cette représentation de l’espace articulatoire par des hypercubes permet de prendre en compte les nonlinéarités.
Lors de l’inversion, le codebook hypercubique est exploré afin de récupérer les formes articulatoires
de tous les hypercubes possibles correspondant à une entrée acoustique. Nous proposons une méthode
d’exploration de l’espace nul de l’hypercube qui permet alors d’obtenir une description complète de
l’ensemble des solutions (chapitre 4).
Nous avons exploité la représentation hypercubique de l’espace articulatoire pour aborder deux problèmes. Les solutions obtenues à l’issue de l’exploration du codebook peuvent être en effet utilisées
directement pour étudier la variabilité articulatoire des voyelles. Nous pouvons aussi réaliser l’inversion
de séquences de voyelles afin d’obtenir des trajectoires articulatoires réalistes. Par « réaliste », nous
entendons des trajectoires régulières, qui varient lentement dans le temps et qui de plus doivent être réalisables par un locuteur humain. Pour cela, nous proposons une méthode de lissage non-linéaire basée sur
un critère global de lissage de courbe. Ce critère est optimisé par une stratégie de programmation dynamique. Le résultat de ce lissage est ensuite régularisé à l’aide d’une méthode variationnelle qui minimise
la distance acoustique et assure la régularité de l’évolution des paramètres articulatoires (chapitre 5).
Nous avons évalué expérimentalement notre méthode d’inversion afin de vérifier le lissage des trajectoires articulatoires et la proximité acoustique (chapitre 6) avant de donner les perspectives de notre
travail.
xiii
Introduction générale
xiv
Chapitre 1
Production de la parole et modèles
articulatoires
Introduction
La production de la parole et sa modélisation numérique grâce à un synthétiseur articulatoire permettent de passer des paramètres articulatoires au signal acoustique. Ce passage n’est pas simple. En
effet, il faut développer trois modèles : le modèle articulatoire, le modèle de passage de la coupe sagittale
à la fonction d’aire et le modèle acoustique.
Le modèle articulatoire permet d’interpréter en gestes articulatoires les déformations du conduit vocal. Il est donc très utile d’avoir des paramètres de contrôle du modèle correspondant à une réalité physique, c’est-à-dire à des articulateurs existant réellement dans le système humain de production de la
parole. Il faut noter qu’un modèle articulatoire correspond à un locuteur particulier, et tout changement
de locuteur devrait être accompagné par une adaptation du modèle au nouveau locuteur.
Le modèle de passage de la coupe sagittale à la fonction d’aire permet d’obtenir une représentation
du conduit vocal par une série de tubes qui sont pris en compte sous la forme de quadripôles électriques,
grâce à l’analogie acoustique électrique, pour calculer le spectre de parole.
Nous présentons d’abord un rapide aperçu de la physiologie du système de production de la parole,
suivi par la présentation des trois modèles qui permettent de construire un synthétiseur articulatoire.
Nous présentons comment l’adaptation d’un modèle articulatoire à un nouveau locuteur est réalisée dans
le paragraphe consacré à la modélisation articulatoire.
1.1 La physiologie de la production de la parole
Le système de production de la parole (voir Fig. 1.1) est composé de trois parties [Stevens, 1999a] :
– le système sous-glottique ;
– le larynx ;
– le système supra-glottique.
Durant la production de la parole voisée, une constriction dont l’aire varie périodiquement se forme
à la base du conduit vocal au niveau des cordes vocales, situées dans le larynx. Cette région est appelée
1
Chapitre 1. Production de la parole et modèles articulatoires
la glotte. Elle sépare les deux systèmes sous-glottique et supra-glottique.
Le système sous-glottique est composé des poumons et de la trachée. C’est un générateur de débit
d’air qui alimente le larynx. Ce dernier génère l’onde sonore, responsable de la production de la parole,
par vibration des cordes vocales.
Le système supra-glottique est constitué du conduit vocal et du conduit nasal. Le premier est composé du pharynx et de la bouche. Le pharynx est la partie verticale du conduit vocal située au-dessus du
larynx. Le pharynx forme approximativement un angle de 90 degrés (pour une posture normale) avec la
cavité buccale ou orale, qui se termine par les lèvres. À l’âge adulte, la longueur totale du conduit vocal
est de l’ordre de 17 cm et l’aire de la section transversale modifiée par les articulateurs varie de zéro
(fermeture complète) à 20 cm2 . Les articulateurs du conduit vocal sont principalement la mâchoire, la
langue, les lèvres, le vélum et le larynx.
Les cavités nasales peuvent se coupler en parallèle à la cavité orale. Elles sont comprises entre le
vélum et les narines. Le vélum est responsable de l’aiguillage d’une partie de l’air vers la cavité nasale
s’il est abaissé.
F IG . 1.1 – Schéma de l’anatomie du conduit vocal (D’après [Flanagan, 1972]).
1.2
La synthèse articulatoire
Le système de production humain a été largement étudié dans le but de le reproduire artificiellement,
en utilisant des synthétiseurs articulatoires qui imitent le comportement du conduit vocal humain. Pour
2
1.3. Les modèles articulatoires
construire un synthétiseur articulatoire, il faudrait élaborer les modèles suivants :
1. un modèle articulatoire capable de produire des coupes sagittales à partir des paramètres articulatoires,
2. un modèle de passage de la coupe sagittale à une fonction d’aire représentant le conduit vocal par
un ensemble de tubes acoustiques équivalents.
3. un modèle acoustique permettant de passer de la fonction d’aire au signal de parole.
Dans les sections suivantes nous présentons ces différents modèles. Vue l’importance de la modélisation articulatoire pour la synthèse articulatoire nous développons d’avantage cette partie et nous
détaillons plus particulièrement le modèle articulatoire de Maeda [Maeda, 1979] sur lequel nous avons
basé nos travaux. Nous présentons ce modèle ainsi que son adaptation pour un nouveau locuteur.
1.3 Les modèles articulatoires
On peut classer les modèles articulatoires en deux grandes familles. Les modèles dynamiques ou
biomécaniques et les modèles statiques.
1.3.1
Modèles biomécaniques
Le modèle de Perkell [Perkell, 1974] est un exemple de modèle biomécanique. La production de la
parole est décrite par la dynamique du système. Les structures musculaires sont simplifiées et modélisées
par un système de ressorts et de masses. Le modèle prend en compte plusieurs propriétés physiologiques
et biomécaniques de la langue : son anatomie musculaire, la conservation du volume musculaire, l’impénétrabilité de la paroi du conduit vocal, etc.
La masse de la langue est concentrée en 16 points mobiles : 10 points se trouvent sur la surface
de la langue et 6 à l’intérieur (voir Fig. 1.2). Ces points sont interconnectés entre eux et connectés aux
structures fixes (exemple : mandibule, paroi du pharynx) par des éléments de tension. La tension est dite
passive s’il s’agit de tissu connectif et active s’il s’agit de muscles. Les éléments de tension active représentent 10 muscles.
Cette organisation en éléments de tension passive et active est basée sur une étude anatomique et une
dissection de la langue. Les données géométriques permettant de déterminer la forme globale du conduit
vocal sont obtenues à partir d’images cinéradiographiques.
Dans [Kiritani et al., 1976], un modèle tridimensionnel a été proposé, permettant de mieux intégrer
les propriétés physiologiques et biomécaniques de la langue3 , en se basant sur la méthode des éléments
finis. Ce modèle a été amélioré, par la suite, en incluant le larynx et les lèvres.
Les travaux nous venons de citer constituent les travaux précurseurs dans le domaine de la modélisation biomécanique. Depuis, ce domaine a connu un grand succès et de nombreuses améliorations ont
été introduites (recours à des mesures des activités musculaires de plus en plus précises, modélisation
tridimensionnelle, méthodes par éléments finis, etc) [Wilhelms-Tricarico, 1995; Dang and Honda, 1997;
Payan and Perrier, 1997; Sanguineti et al., 1998; Lucero and Munhall, 1999].
3 Dans
le modèle de Perkell [Perkell, 1974], ces propriétés sont intégrées d’une manière approximative.
3
Chapitre 1. Production de la parole et modèles articulatoires
Processus
styloïde
Palais mou
Palais dur
Apex
Dos
Ventre
Corps
de la langue
Paroi
postérieure
du pharynx
Base
Mandibule
Os hyoïde
Epiglotte
F IG . 1.2 – Modèle biomécanique de Perkell. Les points mobiles sont représentés par les grands cercles noirs. Les
éléments de tension sont représentés par des lignes fines (continues et discontinues). (D’après [Perkell, 1996]).
Bien qu’ils permettent de modéliser très finement les mouvements musculaires, les modèles biomécaniques sont difficiles à utiliser car il faut un grand nombre de paramètres nécessaires à la définition de
la dynamique du modèle.
1.3.2
Modèles statiques
Les modèles statiques sont beaucoup plus nombreux. Ils se basent sur une description simple du
conduit vocal sans modéliser la structure interne complexe des articulateurs. En effet, le système musculaire du conduit vocal a plusieurs degrés de liberté, mais il est organisé en actions correspondant à très
peu de degrés de liberté [Maeda, 1992]. La forme du conduit vocal peut être décrite par un petit nombre
d’articulateurs fonctionnels commandés indépendamment. Les articulateurs fonctionnels peuvent être
représentés approximativement par un ensemble d’éléments géométriques simples, comme c’est le cas
dans le modèle de Mermelstein [Mermelstein, 1973], l’un des premiers modèles géométriques développés. Dans ce modèle, le corps de la langue est représenté par un arc circulaire de rayon constant. La
mâchoire fait un mouvement angulaire et l’apex de la langue a la forme d’un segment de droite (voir
Fig. 1.3). Ce modèle a permis de produire plusieurs variétés de sons voisés et non-voisés. Rubin et ses
collègues [Rubin et al., 1981] ont étendu le modèle de Mermelstein afin d’étudier les aspects perceptifs et linguistiques des évènements articulatoires. Les modèles géométriques présentent, en général, des
inconvénients liés à la mauvaise représentation de la réalité physique. La souplesse de la langue, par
exemple, n’est pas prise en compte.
Pour avoir un modèle reflétant une réalité physique, certains chercheurs ont utilisé des outils de traitement de signal sur des images radiographiques du conduit vocal. Dans le cas des travaux de [Liljencrants,
4
1.3. Les modèles articulatoires
V
+
+C
+
+ +J L
T
C - Centre du corps de la langue
H - Hyoïde
+H
L - Hauteur et protrusion des lèvres
J - Machoire
T - Apex de la langue
V - Vélum
F IG . 1.3 – Modèle géométrique de Mermelstein (D’après [Mermelstein, 1973]).
1971], la langue est représentée par les premiers coefficients de la décomposition en série de Fourier de
la forme de la langue dans un repère semi-polaire. Ce modèle met en évidence le fait que la géométrie
de la langue dans le plan sagittal peut être contrôlée par un nombre restreint de paramètres. Les deux
premiers coefficients de la série de Fourier suffisent à définir le contour du corps de la langue. L’apex
de la langue est modélisé en utilisant la seconde harmonique. Ce modèle permet une description simple
d’une grande variété des formes de la langue, mais il est peu probable que le cerveau pilote le conduit
vocal en utilisant les séries de Fourier. En effet, il est difficile de trouver une interprétation en termes
articulatoires des composantes extraites.
Néanmoins, l’idée de développer un modèle articulatoire par l’analyse d’images radiographiques est
à l’origine de plusieurs travaux utilisant des méthodes d’analyse factorielle et d’extraction de composantes principales. Dans le cas de Maeda [Maeda, 1979], la coupe sagittale du conduit exprimée dans un
repère semi-polaire est donnée par un vecteur qui est la somme de composantes linéaires :
z = A · y + z0
(1.1)
où y est le vecteur des paramètres articulatoires, z0 est le vecteur moyen de z correspondant à la position
neutre du conduit vocal et A est une matrice de coefficients de pondération, c’est-à-dire un ensemble de
patrons définissant comment chaque composante contribue à z. L’ensemble des coefficients est déterminé
à partir des matrices de corrélation calculées pour les vecteurs décrivant l’ensemble des observations sagittales. Les coefficients de pondération peuvent être déterminés en utilisant l’analyse factorielle, par
exemple l’analyse en composantes principales [Harshman et al., 1977; Jackson, 1988]. Toutefois, cette
méthode ne permet pas de forcer une ou plusieurs composantes à représenter explicitement l’un des articulateurs, en particulier la mâchoire. Dans [Maeda, 1979], ce problème a été résolu par une méthode
généralisée de décomposition en facteurs orthogonaux [Overall, 1962], suivie par l’analyse en composantes principales. Pour le modèle articulatoire de Maeda, les données sont composées de 1000 images
représentant le conduit vocal correspondant à 10 phrases énoncées par deux locutrices. Les images présentent la coupe sagittale du conduit vocal et une vue frontale de la forme des lèvres. Les contours de
la coupe sagittale ont été tracés à partir de cineradiographies et de labiofilms à raison de 50 images par
5
Chapitre 1. Production de la parole et modèles articulatoires
seconde [Maeda, 1990]. Le résultat de l’analyse est un modèle articulatoire décrit par sept paramètres
(voir Fig. 1.4 et Fig. 1.5) :
–
–
–
–
–
–
–
P1- Position de la mâchoire ;
P2- Position du corps de la langue ;
P3- Forme du corps de la langue ;
P4- Position de l’apex de la langue ;
P5- Ouverture des lèvres ;
P6- Protrusion des lèvres ;
P7- Hauteur du larynx.
P1
P2
P3
P5
P6
P7
P4
F IG . 1.4 – Les paramètres du modèle articulatoire de Maeda. Pour chaque paramètre Pi , nous présentons les
déformations extrêmes de l’articulateur correspondant et la position moyenne de cet articulateur.
Ces paramètres articulatoires varient entre plus ou moins trois écart type autour de leur moyenne. Ce
choix d’intervalle est déduit de l’inégalité de Chebychev4 . Ce modèle permet de reconstruire la forme
du conduit vocal avec une précision suffisante pour calculer les caractéristiques acoustiques de la parole.
Ces paramètres peuvent être interprétés comme des paramètres naturels, c’est-à-dire des organes réels.
Les modèles en composantes linéaires sont plus réalistes que ceux qui précèdent, car ils sont obtenus à partir de données radiographiques [Maeda, 1992]. Il existe plusieurs modèles dérivés de celui
de Maeda. Certains modifient la modélisation de l’apex de la langue [Galván-Rdz, 1997] pour pouvoir modéliser les fricatives, ou bien en apportant quelques modifications au modèle afin de l’adapter à
d’autres locuteurs [Mathieu and Laprie, 1997]. D’autres, s’inspirent du travail de Maeda pour créer un
nouveau modèle articulatoire en apportant certaines améliorations, pour mieux modéliser la langue par
exemple [Beautemps et al., 1996; Sorokin, 1992]. Dans [Sorokin, 1992], un modèle articulatoire basé
sur des images radiographiques d’un locuteur a été présenté. Il est décrit par 17 paramètres articulatoires
dont 5 décrivant la déformation élastique de la langue. Le modèle de Beautemps et ses collègues [Beaude Chebychev : pour tout nombre k supérieur à 1, au moins (1 − 1/k2 ) de la proportion des valeurs d’une
distribution quelconque se situent à l’intérieur de k écart type de leur moyenne. Exemple : pour k = 3, au moins 88.8% des
valeurs de la distribution se situent à l’intérieur de 3 écart type de la distribution. Cette valeur atteindra 99.7% si la distribution
est normale.
4 Inégalité
6
1.4. Adaptation du modèle articulatoire de Maeda
P6
P2
P5
P3
P1
P4
P7
F IG . 1.5 – Les paramètres du modèle articulatoire de Maeda. Les arcs orientés indiquent le sens de variation de
chaque articulateur.
temps et al., 1996] est décrit par 8 paramètres articulatoires. Dans ce modèle, la langue est contrôlée par
4 paramètres.
Pour notre travail d’inversion acoustico-articulatoire, nous avons choisi le modèle articulatoire de
Maeda. En effet, ce modèle est une représentation économique et réaliste des articulateurs du conduit
vocal. Certes, il faut adapter le modèle de Maeda à tout nouveau locuteur, mais cet effort est faible
par rapport à l’élaboration d’un nouveau modèle. Cependant, il est vrai qu’il présente un manque de
précision dans le calcul de la position de l’apex de la langue [Gabioud, 1994], mais cela a plus d’effet sur
les consonnes que sur les voyelles. Dans le cadre de notre travail de thèse, nous n’étudions que l’inversion
des voyelles, ce qui rend le modèle de Maeda suffisant. L’élaboration d’un nouveau modèle articulatoire
plus général tenant compte aussi bien de la production des voyelles que de celle des consonnes est
envisagée dans nos travaux futurs.
1.4 Adaptation du modèle articulatoire de Maeda
Le modèle articulatoire de Maeda a été construit à partir des images radiographiques d’une locutrice.
Néanmoins, les tailles du pharynx et de la bouche diffèrent selon que la personne est un homme, une
femme ou un enfant [Fant, 1975; Goldstein, 1980; Boë, 1997]. Le modèle est contrôlé par deux facteurs
d’échelle qui agissent sur la longueur du pharynx et la longueur de la bouche. Pour cela, une adaptation
du modèle passe par la détermination de ces deux facteurs. Nous présentons dans cette section deux
méthodes d’adaptation du modèle. Une première effectue un étirement de la coupe sagittale du modèle
articulatoire pour qu’il coïncide avec les images IRM du conduit vocal d’un nouveau locuteur. La seconde
consiste à projeter des cibles acoustiques du locuteur sur celui du modèle, afin de retrouver les facteurs
d’échelle.
7
Chapitre 1. Production de la parole et modèles articulatoires
1.4.1
Adaptation par utilisation des images IRM
Dans [Mathieu and Laprie, 1996; Mathieu and Laprie, 1997], les images IRM du conduit vocal du
sujet SM, ont été utilisées et la parole correspondante a été enregistrée. Trois séries d’images ont été
réalisées pour les voyelles du français : Une série de coupes sagittales passant par le sillon de la langue
et deux dans des plans parallèles à 5 mm de distance. À partir de ces images, les contours ont été extraits
manuellement et projetés sur la grille semi-polaire permettant de repérer les contours dans le modèle de
Maeda.
L’acquisition des images IRM produit un bruit très important qui empêche l’analyse de la parole produite. Pour effectuer l’enregistrement des voyelles prononcées par le locuteur, l’environnement acoustique de l’acquisition a été reproduit en faisant écouter au sujet l’enregistrement du bruit de la machine
IRM à l’aide d’un casque.
Les contours extraits ont été superposés sur la coupe sagittale du modèle de référence, ce qui a permis
de déterminer les deux coefficients d’échelle (longueur du pharynx, longueur de la bouche). Le pharynx
du sujet SM est supérieur de 18% à celui du modèle et la bouche est plus grande de 8%, ce qui est
conforme avec la littérature [Fant, 1975].
/a/
/u/
/y/
/i/
F IG . 1.6 – Contours de la coupe sagittale pour différentes voyelles du français. Ces contours sont extraits des
images IRM du locuteur SM. Les formes de la paroi dans chaque cas sont presque les mêmes, et correspondent à
la paroi dure trouvée dans les modèles existants.
Ce nouveau modèle ne permet pas d’atteindre certaines voyelles, et par conséquent, on ne peut pas
couvrir tout l’espace acoustique. Cela peut s’expliquer par une insuffisance de la formule de passage de
la coupe sagittale à la fonction d’aire qui n’a pas été validée formellement faute de disposer de la troisième dimension. De plus, la technique d’acquisition des images n’est pas la même que celle qui a servi
8
1.4. Adaptation du modèle articulatoire de Maeda
Paroi non modifiée
Paroi modifiée
F IG . 1.7 – Comparaison entre les deux parois. En trait continu, nous présentons la paroi modifiée et en trait discontinu, la paroi originale largement utilisée dans la modélisation articulatoire. La différence se situe principalement
au niveau de la région palatale et de la région pharyngale.
à l’élaboration du modèle. Enfin, la présence du bruit de la machine et la position anormale du locuteur
SM dans la machine peuvent expliquer ce problème. Pour ces raisons, Mathieu [Mathieu, 1999] a proposé de perturber la forme de la paroi dure du conduit vocal. C’est un processus d’optimisation itératif
du contour extérieur qui conduit à une meilleure adéquation entre la parole naturelle et celle du modèle.
En apportant cette modification, l’espace acoustique du locuteur est entièrement couvert par le modèle.
Néanmoins, nous avons quelques réserves sur cette méthode. Tout d’abord, la technique d’enregistrement des voyelles ne permet pas de reproduire les mêmes voyelles que celles produites lors de l’acquisition des images IRM. Il n’y a pas de garanties que le locuteur a prononcé la même voyelle tout au
long de l’enregistrement des images. En effet, le locuteur doit prononcer une voyelle pendant quelques
secondes, c’est-à-dire le temps de l’acquisition des images. Malgré l’entraînement de ce locuteur, cette
contrainte n’a pas été totalement respectée.
La modification de la paroi dure du conduit vocal du modèle présente certes des avantages concernant
la couverture de l’espace acoustique, mais elle conduit aussi à des inconvénients substantiels. En effet,
comme le montrent les Fig. 1.6 et Fig. 1.7, la paroi obtenue n’a rien de naturel et ne correspond à aucune
image prise parmi les images IRM du locuteur SM. Toute étude concernant les lieux de constriction et
la comparaison de ces lieux avec ce que l’on obtient dans d’autres travaux n’est pas envisageable dans
de bonnes conditions. Cela limite donc l’utilisation du modèle à la seule tâche de la récupération des
trajectoires articulatoires car l’étude des caractéristiques des voyelles est très difficile.
Pour éviter ces problèmes, nous avons opté pour l’utilisation de la méthode d’adaptation proposée par
Galván-Rdz [Galván-Rdz, 1997] qui permet d’assurer la couverture de l’espace acoustique du locuteur.
9
Chapitre 1. Production de la parole et modèles articulatoires
1.4.2
Adaptation par normalisation de l’espace acoustique
Dans cette méthode, il s’agit de trouver les deux coefficients de l’élongation du pharynx et l’élongation de la partie orale (la bouche) à partir des formants des voyelles extrêmes. Ces derniers sont comparés
à ceux du modèle de référence, pour pouvoir estimer les dimensions du conduit vocal du locuteur. Étant
donné que la relation entre les formants et les dimensions du conduit vocal n’est pas simple, Galván-Rdz
propose de faire un échantillonnage hexagonal de l’espace bouche-pharynx et d’obtenir les formants
des voyelles extrêmes pour chacune des paires (bouche, pharynx). Pour chaque voyelle, seuls les trois
premiers formants sont pris en compte. Cela donne, pour chaque point dans l’espace IR2 un point correspondant dans l’espace IR12 (quatre voyelles avec trois formants chacune). Ainsi, un maillage est construit
dans l’espace IR2 et un maillage correspondant dans l’espace IR12 (voir Fig. 1.8).
Maillage de l’espace R
I2
1.5
Maillage de l’espace R
I 12
0.4
1.4
coe f pharynx
0.2
1.3
0
1.2
−0.2
1.1
−0.4
1
1
0.9
0.75
0
0.8
0.85
0.9
0.95
1
1.05
coe fbouche
1.1
1.15
1.2
1.25
−1
−1
−0.5
0
0.5
1
F IG . 1.8 – Échantillonnage des coefficients coe fbouche (bouche) et coe f pharynx (pharynx) et le maillage correspondant en IR12 . Seules les trois composantes principales de l’espace IR12 sont représentées.(D’après [Galván-Rdz,
1997])
Les valeurs des coefficients correspondant au pharynx et à la bouche d’un locuteur quelconque sont
calculées de la manière suivante (pour les détails, voir [Galván-Rdz, 1997]) :
1. Un point Pl dans l’espace IR12 est construit, correspondant aux trois formants de chacune des quatre
voyelles extrêmes ;
2. Pl est projeté sur le maillage de l’espace IR12 ;
3. Les valeurs des coefficients (bouche-pharynx) constituent le point correspondant sur le maillage
de l’espace IR2 .
Nous avons utilisé cette méthode pour effectuer l’adaptation. En partant du modèle articulatoire de
Maeda correspondant à une locutrice, nous avons obtenu les coefficients suivants pour un nouveau locuteur, qu’on désigne par YL :
– coe fbouche = 1.039 (le pharynx)
– coe f pharynx = 1.038 (la bouche)
Ce qui revient à dire que le locuteur YL présente une cavité pharyngale 3.9% plus grande que le
modèle de référence correspondant à une locutrice et une cavité orale 3.8% plus grande que le modèle
10
1.4. Adaptation du modèle articulatoire de Maeda
de référence.
Dans la Fig. 1.9, nous présentons la couverture acoustique du modèle adapté à notre locuteur. Nous
présentons aussi les voyelles extrêmes du locuteur YL. Il est clair que l’espace acoustique du locuteur est
entièrement couvert par le modèle. Malheureusement, cela ne permet pas de confirmer que ces facteurs
d’échelles sont réalistes, c’est-à-dire la coupe sagittale obtenue par le modèle adapté au sujet YL ne
correspond pas forcément à la coupe sagittale réelle du sujet YL.
Nous utilisons ce modèle tout au long de ce document.
11
Chapitre 1. Production de la parole et modèles articulatoires
F IG . 1.9 – La couverture acoustique du modèle dans les plans F1/F2, F1/F3 et F2/F3.
12
1.5. Le passage de la coupe sagittale à la fonction d’aire
1.5 Le passage de la coupe sagittale à la fonction d’aire
À partir des paramètres articulatoires, le modèle articulatoire produit les coupes sagittales. Il s’agit
maintenant de passer de la coupe sagittale du conduit vocal à sa fonction d’aire. Ce passage est difficile
à cause de la forme irrégulière du conduit vocal.
F IG . 1.10 – Coupes du conduit vocal réalisées dans un moulage de cadavre. (a) la coupe sagittale, (b) les sections
transversales (D’après [Calliope, 1989]).
En effet, dans la Fig. 1.10, nous présentons des coupes du conduit vocal réalisées dans un moulage
de cadavre [Sanchez and Boë, 1984]. Ce moulage a été découpé transversalement en dix sections. Il
est clair que les formes des dix sections sont irrégulières5 . Le modèle de passage influence directement
la fidélité de la production des sons du synthétiseur par rapport à la production de parole d’un conduit
vocal humain. L’information contenue dans la coupe sagittale est insuffisante pour obtenir une bonne
estimation de la fonction d’aire. Ainsi, plusieurs études ont été consacrées au développement de modèles
de passage de la coupe sagittale à la fonction d’aire. Heinz et Stevens [Heinz and Stevens, 1965] sont les
précurseurs. La fonction d’aire A, c’est-à-dire l’aire transversale à chaque section de la coupe sagittale,
est donné par :
A(x) = α(x) · d(x)β(x)
(1.2)
où x est la position dans le conduit vocal depuis la glotte, d la distance sagittale dans une direction normale au flux d’air. α et β sont des coefficients empiriques variant suivant la région du conduit vocal et
dépendant du locuteur.
Par exemple, dans [Perrier et al., 1992], β = 1.5 et α dépend d’une part de la région du conduit vocal
et d’autre part de la valeur de la variable d. Dans [Beautemps et al., 1995], un modèle plus élaboré a été
5 Un
découpage en sections analogue à celui-ci a été présenté aussi dans [Baer et al., 1991] sur des images IRM.
13
Chapitre 1. Production de la parole et modèles articulatoires
présenté. La fonction d’aire A est décrite sous la forme polynomiale suivante :
A(x) = α1 (x) · d + α2 (x) · d 1.5 + α3 (x) · d 2 + α4 (x) · d 2.5
(1.3)
avec αi des fonctions développées en séries de Fourrier au troisième ordre dont les coefficients sont
optimisés pour minimiser la distance entre les formants calculés à partir des fonctions d’aires et ceux
mesurés.
Dans tous ces travaux le passage de la coupe sagittale à la fonction d’aire n’est qu’une approximation.
Ceci explique pourquoi un certain nombre de spectres de parole produits par le locuteur ne peuvent pas
être reproduits par le synthétiseur articulatoire. Une meilleure solution à ce problème est l’élaboration
d’un modèle articulatoire tridimensionnel à condition qu’il soit suffisamment précis. De tels modèles
sont en cours de développement en exploitant des images de résonance magnétique [Badin et al., 1998;
Engwall, 1999; Yehia and Tiede, 1997].
1.6
La simulation acoustique du système de production de la parole
Dans cette section, nous présentons la simulation acoustique du système de production de la parole.
Nous ne détaillons que le cas du conduit oral, permettant d’avoir une idée sur la méthode générale de
simulation acoustique. Les sources et le conduit nasal sont évoqués brièvement.
1.6.1
Les sources
Il existe trois types de sources :
– au niveau des cordes vocales qui sont simulées, par exemple, par un modèle à deux masses vibrantes [Ishizaka and Flanagan, 1972],
– au niveau d’une constriction très étroite dans le conduit vocal, ce sont les bruits de friction qui
correspondent aux sons fricatifs,
– au niveau d’une fermeture complète en un point (labial, dental ou palatal), créant une pression
derrière l’occlusion, qui chute brusquement après l’ouverture du conduit vocal, en créant un écoulement de bruit turbulent au niveau de la constriction qui se relâche.
Pour la simulation des bruits, il suffit de rajouter les sources au voisinage de la constriction. Pour les
bruits accompagnant la rupture de l’occlusion, la simulation est plus difficile [Flanagan, 1972].
1.6.2
La simulation acoustique du conduit vocal
Vue la complexité de sa forme géométrique, le conduit vocal [Flanagan, 1972], est souvent approché
par une série de tubes cylindriques élémentaires de section fixe (voir Fig. 1.11). Les caractéristiques du
conduit vocal peuvent être représentées par la fonction d’aire qui spécifie la section transversale depuis
la glotte jusqu’aux lèvres (voir Fig. 1.12).
14
1.6. La simulation acoustique du système de production de la parole
Cavité nasale
Nez
(narines)
Pharynx
Bouche
(lèvres)
Cavité buccale
F IG . 1.11 – Simulation du conduit vocal par des tubes.
(cm²)
Glotte
Lèvres
Pharynx
Bouche
(cm)
F IG . 1.12 – Fonction d’aire caractérisant le conduit vocal.
Soit A(x) cette fonction d’aire, où x est la position dans le conduit vocal (x = 0 pour la glotte et
x = longueur du conduit vocal pour les lèvres). Soient P la pression dans le conduit vocal, U le débit
volumique, ρ0 la densité de l’air et c la célérité du son. L’énergie des sons vocaliques étant principalement concentrée au-dessous de 5 kHz, le système acoustique peut être approché par l’équation d’onde
unidimensionnelle :
1 ∂
∂P
1 ∂2 P
(1.4)
A(x)
+ 2 2 =0
A(x) ∂x
∂x
c ∂t
Cette équation est connue sous le nom d’équation de Webster [Landau and Lifchitz, 1989]. La résolution de cette équation donne la pression en fonction de x et de t (pour les détails des équations de
l’acoustique, voir [Landau and Lifchitz, 1989] pour les fondements physiques et [Calliope, 1989] pour
le cas des tubes acoustiques).
15
Chapitre 1. Production de la parole et modèles articulatoires
Quantités acoustiques
P : pression
U : débit volumique
ρ/A : inductance acoustique ou inertance
A/ρc2 : capacité acoustique ou compliance due à la compressibilité
de l’air
S
A2
ωρµ
2
Quantités électriques analogues
V : tension
I : courant
L : inductance
C : capacité
: pertes dues à la friction visqueuse des parois du
R : résistance
tube λω
S η−1
2c p ρ : pertes thermiques
ρc2
G : admittance
TAB . 1.1 – Analogie acoustique - électrique [Flanagan, 1972]. Avec A l’aire du tube, S la circonférence, ρ la
densité de l’air, c la célérité du son, µ le coefficient de viscosité, λ le coefficient de conduction de la chaleur, η la
constante adiabatique et cρ la capacité calorifique à pression constante.
Les caractéristiques de la propagation du son dans un tube sont facilement décrites en utilisant l’analogie entre les grandeurs électriques et acoustiques [Flanagan, 1972]. En effet, la pression et le débit
volumique pour la propagation d’une onde plane dans un tube uniforme obéissent à la même équation
d’onde que la tension et le courant électrique dans un quadripôle. Cela permet de faire l’analogie entre
un tube et un quadripôle.
L/2
dx
R/2
I
I+dI
I
P
A
P+dP
E
C
E+dE
G
I+dI
I
L/2
R/2
I+dI
dx
F IG . 1.13 – L’analogie entre un tube acoustique élémentaire et un quadripôle électrique équivalent.
Le quadripôle équivalent à une portion d’un tube avec pertes est représenté dans la Fig. 1.13. La
Tab. 1.1 présente les correspondances des quantités dans l’analogie acoustique-électrique.
Afin d’utiliser cette analogie, nous présentons d’abord les équations différentielles donnant la tension E
et l’intensité I par unité de longueur dx (sous l’hypothèse que ces deux grandeurs varient sinusoïdalement
(Ee jωt , Ie jωt ), avec ω la pulsation) :
dI = −Eydx
(1.5)
dE = −Izdx
Avec y = G + jωC et z = R + jLω.
La tension et l’intensité vérifient alors le système suivant :
2
d E
− yzE = 0
dx2
d2I
− yzI = 0
dx2
16
(1.6)
1.6. La simulation acoustique du système de production de la parole
Les solutions du système sont :
E = A1 eγx + B1 e−γx
I = A2 eγx + B2 e−γx
(1.7)
√
Avec γ = zy = α + jβ est la constante de propagation, les constantes A1 , A2 , B1 et B2 sont déterdI
minées par l’expression des conditions aux limites sur E(x = 0), I(x = 0), dE
dx (x = 0) et dx (x = 0).
En considérant une section de longueur l de la ligne de transmission, les valeurs d’entrée du quadripôle E1 et I1 sont liées aux valeurs de sortie du quadripôle E2 et I2 par la relation :

 E2 = E1 coshγl − I1 yz sinhγl
(1.8)
 I2 = I1 coshγl − E1 y sinhγl
z
que nous pouvons écrire sous la forme matricielle :


z
sinh
γl
cosh
γl
−
y
E1
E1
E2
E2


=
⇐⇒
=T ·
I2
I1
I2
I1
− y sinh γl
cosh γl
(1.9)
z
ou encore :
E1
I1

cosh γl
=  y
z sinh γl
z
y
sinh γl
cosh γl


E2
I2
⇐⇒
E1
I1
=T·
E2
I2
(1.10)
C’est une relation linéaire entre l’entrée et la sortie du quadripôle (par analogie, entre la pression
acoustique et le débit volumique à l’entrée et à la sortie du tube).
La matrice T (matrice de transfert) lie les vecteurs d’entrée et de sortie. Pour une succession de tubes,
on obtient :
Modélisation acoustique
P
Pg
= T0 · T1 · T2 · · · · · Tn
Ug
U
Modélisation électrique
E
Eg
= T0 · T1 · T2 · · · · · Tn
Ig
I
(1.11)
(1.12)
L’indice représente les lèvres et g la glotte. Pg indique la pression à la glotte, Eg la tension électrique
au niveau du quadripôle simulant le premier tube au niveau de la glotte, etc.
Le système peut être écrit de nouveau, en représentant le produit des matrices Ti par une matrice 2 × 2
dont les composantes sont A, B, C et D, comme suit :
Dans le domaine électrique :
Eg = AE + BI , Ig = CE + DI
(1.13)
17
Chapitre 1. Production de la parole et modèles articulatoires
Dans le domaine acoustique :
Pg = AP + BU , Ug = CP + DU
(1.14)
U
La pression acoustique étant nulle au niveau de la bouche, P = 0(E = 0), la fonction de transfert U
g
du conduit est donnée par :
1
U
(1.15)
=
Ug D
Les formants correspondent à la maximisation du rapport
1.6.3
U
Ug ,
ce qui revient à minimiser D.
La simulation acoustique du conduit nasal
Le traitement des conduits oral et nasal est plus difficile à réaliser. Le couplage des deux cavités
constitue un système complexe. Néanmoins, il peut être traité simplement par analogie acoustiqueélectrique ou simulation numérique. Il suffit de supposer que le conduit nasal est un tube acoustique
branché en parallèle avec le tube correspondant au conduit buccal et au tube représentant le pharynx
(voir Fig. 1.11). L’équivalent électrique est donné dans Fig. 1.14.
Cavité nasale
Zan
Zan
Zrn
Zbn
Zap
Zg
Zap
Zab
Zab
Zbb
Zbp
Zrb
Cavité buccale
Pharynx
Vélum
F IG . 1.14 – L’équivalent électrique de la combinaison des conduits vocal et nasal (D’après [Flanagan, 1972]). Les
Zi sont les impédances équivalentes de la représentation par quadripôles.
Conclusion
Nous avons vu dans ce chapitre comment le système de production humain peut être simulé numériquement. Le module fondamental de cette simulation est le modèle articulatoire. L’utilisation d’un
modèle existant devrait être précédée par une phase d’adaptation. L’avantage d’une telle approche est
d’utiliser un modèle articulatoire existant sans apporter de modifications très importantes. Pour cette
adaptation, nous avons vérifié la bonne couverture de l’espace acoustique du locuteur. Néanmoins, nous
pensons qu’il est plus intéressant d’étudier si les changements de taille du conduit vocal correspond bien
au nouveau locuteur.
Les méthodes d’inversion présentées dans les chapitres suivants, sont basées sur un synthétiseur
articulatoire. Il est utilisé soit pour la construction d’un tableau de paires (une configuration articulatoire,
une configuration acoustique) soit pour optimiser les résultats de l’inversion. En effet, cela est inévitable
puisque la résolution du problème d’inversion exploite la synthèse articulatoire.
18
Chapitre 2
Méthodes d’inversion
acoustico-articulatoire existantes
Introduction
L’inversion est difficile à cause de plusieurs problèmes qui sont principalement la non-unicité et la
non-linéarité de la relation entre les domaines articulatoire et acoustique.
Plusieurs méthodes ont été développées pour effectuer l’inversion. Ces méthodes comportent très
souvent deux phases : la recherche d’une solution initiale suivie d’une phase d’optimisation. Les solutions initiales sont généralement récupérées à partir d’une table, appelé aussi codebook, et contenant un
grand nombre de paires (vecteur articulatoire, vecteur acoustique) calculées par un synthétiseur articulatoire.
Afin d’expérimenter trois des méthodes les plus utilisées pour construire un codebook, nous avons
réalisé une étude comparative de ces méthodes. Nous présentons également les faiblesses de ces méthodes ainsi que les raisons expliquant les difficultés rencontrées lors de la construction de tels codebooks.
2.1 Étude de l’inversion acoustico-articulatoire en tant que problème malposé
2.1.1
L’inversion est un problème mal-posé
Le problème de l’inversion acoustico-articulatoire peut être représenté par l’équation suivante :
A(x) = b
(2.1)
Avec A : X → B est une transformation (opérateur) non-linéaire de X dans B, X le domaine des
paramètres articulatoires et B le domaine des paramètres acoustiques.
x est le vecteur articulatoire qui est inconnu et b son correspondant acoustique. La valeur de b est
une approximation mesurée à partir du signal de la parole. En réalité, l’opérateur A exprimant la relation
entre les deux domaines n’est également qu’une approximation.
19
Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes
D’après Hadamard [Hadamard, 1923], un problème est dit bien posé s’il admet une solution (Existence), si elle est unique (Unicité) et si elle est stable (Stabilité). Le problème est dit mal posé si au moins
une de ces trois propriétés n’est pas vérifiée.
D’une façon générale, les problèmes d’inversion du conduit vocal sont mal-posés. La première propriété (existence) dépend de la fidélité du modèle mathématique de production de parole. Il est très
difficile voire impossible de montrer si un modèle est capable de produire tous les vecteurs acoustiques
du signal de la parole [Sorokin et al., 2000]. Concernant la seconde propriété (unicité), il est bien connu
qu’il existe une infinité de fonctions d’aires qui produisent le même ensemble de formants [Atal et al.,
1978] d’où la non-unicité de l’inversion dans le cas général.
Pour ces raisons, l’inversion acoustico-articulatoire est considérée comme étant un problème malposé.
2.1.2
Le principe de résolution de l’inversion
Pour la résolution des problèmes mal-posés, les méthodes d’optimisation sont souvent appliquées
pour sélectionner une solution parmi un ensemble de « quasi-solutions ». On les appelle aussi solutions
initiales, vu qu’elles initialisent le processus d’optimisation.
Pour le problème d’inversion acoustico-articulatoire, ces « quasi-solutions » sont le résultat d’une
recherche dans une mémoire associative qui peut être implémentée par un codebook ou un réseau de
neurones artificiels. Dans le premier cas, il s’agit de réunir un certain nombre de vecteurs articulatoires et leurs correspondants acoustiques. Dans le deuxième cas, il s’agit de faire apprendre la relation
articulatoire-acoustique par un réseau de neurones.
Pour sélectionner une solution, on définit une fonctionnelle Ω(x). Il s’agit de trouver les solutions
Ω-optimales, c’est-à-dire les éléments x ∈ X pour lesquels on a :
Ω(x) = min{Ω(x) tel que x ∈ X ∗ }
(2.2)
où X ∗ est l’ensemble de toutes les « quasi-solutions ». Une quasi-solution Ω-optimale minimise la fonctionnelle Ω.
Pour le problème de l’inversion, Shirai [Shirai, 1983] a utilisé la fonctionnelle :
Ω(x) = ||x − x0 ||2
(2.3)
où x0 est le vecteur articulatoire correspondant à la position neutre du conduit vocal. Sorokin [Sorokin, 1994], lui, a utilisé une distance pondérée. Notons que l’équation (2.3) peut être considérée comme
l’énergie potentielle associée au problème. C’est le cas dans [Schoentgen and Ciocea, 1997] où l’on utilise l’énergie pseudo-potentielle et l’énergie pseudo-cinétique pour résoudre le problème d’inversion.
Les méthodes de régularisation sont utilisées pour trouver la solution optimale x au sens de Ω. Les
régulariseurs les plus utilisés sont les régulariseurs variationnels. Il s’agit d’approximer la solution sous
certaines contraintes d’une manière itérative.
La plupart des méthodes d’inversion existantes suivent ce principe général de résolution. On commence par récupérer les « quasi-solutions » à partir d’un codebook ou en utilisant des réseaux de neurones. Ensuite, une solution ou N solutions parmi les « quasi-solutions » sont sélectionnées selon un
20
2.2. Méthodes existantes
critère de choix donné qui est généralement la régularité des trajectoires articulatoires. Lors de cette
phase, on ajoute généralement des contraintes pour réduire le nombre de solutions. L’introduction des
contraintes peut être faite lors de la première phase, lors de la construction du codebook ou lors de
l’apprentissage par un réseau de neurones.
2.1.3
Résolution du problème de la non-unicité par l’introduction de contraintes
Comme nous l’avons déjà dit, la relation articulatoire-acoustique n’est pas biunivoque. Afin de
réduire cette ambiguïté, il est possible d’introduire des contraintes. Schroeder [Schroeder, 1967], par
exemple, propose de contraindre le système d’inversion en approchant la fonction d’aire par son développement en série de Fourier à un ordre égal au nombre de formants fournis en basse fréquence.
Néanmoins, il est intéressant d’avoir des contraintes « naturelles », c’est-à-dire liées au processus de
production de parole. En effet, il est probable que de telles contraintes existent, puisque dans la théorie du
contrôle moteur, l’organisme résoud très fréquemment des problèmes inverses. Pour cela, il faut trouver
des contraintes, assez fortes, suffisantes et fondées d’un point de vue anthropomorphique, pour obtenir
une solution optimale. Si de telles contraintes existent, le problème de l’inversion se rapproche alors d’un
problème bien-posé.
Certaines contraintes « naturelles » ont été identifiées. On peut citer, par exemple, des contraintes
musculaires sur l’accélération des articulateurs, des contraintes physiques sur les variations des paramètres articulatoires (il existe des intervalles que ces paramètres ne peuvent pas dépasser), des contraintes
de dépendance mutuelle entre les paramètres articulatoires et des contraintes sur les fonctions d’aire.
Dans [Sorokin et al., 2000], les auteurs présentent sept familles de contraintes « naturelles ».
Cela dit, il faut faire très attention au choix des contraintes. En effet, le choix de contraintes purement
mathématiques non fondées physiologiquement peut éliminer des solutions réalistes pour l’inversion. En
fait, ce que nous reprochons aux méthodes existantes est qu’elles exploitent, voire abusent, des effets
compensatoires du conduit vocal ce qui peut fausser l’interprétation des résultats de l’inversion. Ceci
résulte de l’absence d’un nombre de points suffisamment représentatifs des non-linéarités de la relation
articulatoire-acoustique dans le codebook qui fournissant les solutions initiales (voir section 2.3). L’exigence d’un nombre suffisant de solutions initiales est très importante surtout si l’on veut conduire une
étude minutieuse des différentes formes du conduit vocal associées à certains phonèmes et elle est impérative si l’on veut étudier les différentes trajectoires articulatoires réalistes, c’est-à-dire réalisables par
le locuteur. Pour toutes ces raisons, et en absence de connaissances approfondies des contraintes « naturelles », il est plus prudent de garder un grand nombre de solutions récupérées à partir d’un codebook et
de retarder l’introduction des contraintes.
2.2 Méthodes existantes
Dans cette section, nous présentons des méthodes d’inversion acoustico-articulatoire utilisées pour
résoudre le problème d’inversion en appliquant, sous diverses formes, le principe général de résolution
présenté dans la section précédente. Dans la section suivante, nous entamons la présentation de l’une
des premières méthodes d’inversion connue.
D’autres méthodes ont pour but de récupérer des trajectoires articulatoires réalistes, c’est-à-dire réalisables par un locuteur humain, donc, qui varient lentement et régulièrement dans le temps. Nous les
21
Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes
avons regroupé en deux classes pour les présenter : les méthodes par optimisation et les méthodes par
réseaux de neurones.
2.2.1
L’inversion par une procédure de tri
Nous commençons par présenter les travaux de Atal et ses collègues [Atal et al., 1978] qui sont
parmi les premiers travaux de référence de l’inversion acoustique-articulatoire. Ils présentent une méthode d’inversion pour déterminer la fonction d’aire à partir des données acoustiques. Ils utilisent le modèle articulatoire de Stevens et House [Stevens and House, 1955] pour générer 30720 formes de conduit
vocal et les formants correspondants. Ces paires de vecteurs articulatoires-acoustiques sont triées selon
les vecteurs acoustiques et organisées dans des « cubes »6 de même volume dans l’espace acoustique
(dont les dimensions sont les trois premiers formants).
Pour déterminer les solutions inverses, Atal et ses collègues [Atal et al., 1978] proposent de linéariser
localement la relation articulatoire-acoustique. Par conséquent, dans une région proche d’un point articulatoire x0 dont l’image acoustique est y0 , y (le vecteur acoustique correspondant à un point articulatoire
x à trouver) est approché par l’application linéaire :
y ≈ y0 + B(x − x0 )
(2.4)
où B est une matrice des dérivées partielles de la relation articulatoire-acoustique.
La résolution de cette équation, par des techniques de l’algèbre linéaire, permet de décrire les solutions de l’inversion. Dans [Atal et al., 1978], les auteurs ont étudié en particulier l’inversion des voyelles
de l’anglais américain. Ils ont présenté les solutions par des fibres articulatoires, c’est-à-dire des régions
dans lesquelles la variation articulatoire n’entraîne pas de variation acoustique. Les solutions constituants
ces fibres sont choisies et organisées pour avoir des trajectoires lisses et non chaotiques.
Malheureusement, ce travail n’a pas été poursuivi. En effet, il aurait été préférable d’appliquer cette
méthode en utilisant d’autres modèles articulatoires plus réalistes, c’est-à-dire contrôlés par des paramètres articulatoires correspondants à des articulateurs physiologiques. De plus, cette méthode d’inversion n’a pas été appliquée sur des segments de parole réelle pour récupérer des trajectoires articulatoires
réalistes au lieu de se restreindre à l’étude des voyelles.
2.2.2
Méthodes par optimisation
Elles consistent à agir sur les paramètres articulatoires ou sur la fonction d’aire afin d’obtenir des paramètres acoustiques correspondant à ceux mesurés. Ces méthodes se basent sur la minimisation d’une
fonction de coût définie par une distance spectrale ou acoustique entre les paramètres acoustiques générés et ceux mesurés. Un minimum local de la fonction de coût est atteint si son gradient s’annule
Quand le nombre des paramètres articulatoires est plus grand que celui des paramètres acoustiques,
la solution n’est pas unique [Atal et al., 1978] et il faut faire un choix parmi un grand nombre de vecteurs articulatoires correspondant à un même vecteur acoustique. La forme initiale du conduit vocal peut
être choisie d’une manière aléatoire, par une méthode heuristique, ou par une recherche dans une liste
6 En réalité, ce sont des hexaèdres dont la longueur des deux cotés correspondant aux deux premiers formants est de 50 Hz
et la longueur du troisième coté correspondant au troisième formant est de 100 Hz.
22
2.2. Méthodes existantes
d’exemples (un tableau ou encore un codebook).
La solution produite par une méthode par optimisation dépend fortement de la solution initiale. Ce
problème se résoud généralement en ajoutant des contraintes ou en réévaluant les fonctions d’optimisation après une perturbation des paramètres du système, ou encore en utilisant des techniques de programmation dynamique.
La forme la plus simple pour implémenter une méthode d’optimisation est d’utiliser la programmation dynamique à la suite d’un choix de solutions initiales. Ces dernières sont obtenues en
utilisant un codebook [Schroeter and Sondhi, 1992; Richards et al., 1997] ou en utilisant un réseau de
neurones [Rahim et al., 1993]. Dans certains cas, et après le choix des solutions initiales, on utilise
un algorithme génétique combiné avec un modèle articulatoire dynamique [McGowan, 1994] ou plus
généralement une méthode de régularisation [Sorokin and Trushkin, 1996].
Cette famille de méthodes est basée sur le calcul d’une distance qui sera le critère de jugement pour
l’optimisation. La distance acoustique peut être une simple distance euclidienne, ou encore une distance
perceptive [Ghitza and Sondhi, 1997]. La distance articulatoire peut être une distance euclidienne entre
les différents paramètres articulatoires, ou bien la déformation entre deux coupes sagittales, ou encore
une distance plus complexe qui tient compte de l’effort musculaire sous la forme de l’énergie produite
pour passer d’une forme de conduit vocal à une autre [Sorokin, 1987].
Dans les travaux de Sorokin [Sorokin, 1992; Sorokin and Trushkin, 1996], on minimise l’effort des
articulateurs pour passer d’une configuration à une autre. L’équation dynamique de chaque paramètre
articulatoire si est donnée sous la forme d’une équation différentielle du second degré :
mi si + χi si + ci si = Gi
(2.5)
Où mi est l’équivalent de la masse attachée à un organe articulatoire, χi le coefficient de la friction visqueuse correspondante, ci le coefficient de la résistance élastique correspondante et Gi la commande
motrice.
Dans ce processus d’optimisation, les coefficients ci cos ϕi sont utilisés au lieu de ci , avec ϕi l’angle
entre la direction de l’effort musculaire Gi et la direction du mouvement de l’organe articulatoire. Les
auteurs de la méthode proposent de minimiser l’effort, exprimé en travail énergitique Wi :
Wi = ci (cos ϕi )s2i
(2.6)
Afin de tenir compte de l’effort acoustique, la valeur D de la distance entre les formants mesurés et
les formants calculés pendant la procédure d’optimisation est ajoutée à l’expression (2.6). La quantité φ
à minimiser, par une approximation linéaire progressive, est donc :
N
φ = ∑ ci (cos ϕi )s2i + D
(2.7)
i
où N est le nombre de paramètres articulatoires.
Cette méthode, comme les autres, requiert une solution initiale proche de la solution finale pour donner des résultats précis.
23
Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes
2.2.3
Méthodes par réseaux de neurones
Un réseau de neurones est généralement organisé en plusieurs couches de neurones artificiels. Une
couche peut être une couche d’entrée, une couche cachée ou bien une couche de sortie. La couche d’entrée reçoit les données et la couche de sortie fournit les résultats du traitement. Ces deux couches sont
liées entre elles par l’intermédiaire d’une ou de plusieurs couches inaccessibles de l’extérieur appelées
couches cachées. Les neurones sont interconnectés avec d’autres neurones de la même couche ou bien
de couches différentes. Deux neurones i et j connectés entre eux ont un poids wi j qui exprime l’effet du
signal émis par le neurone j sur le neurone i. Chaque neurone est caractérisé par une fonction d’activation qui détermine son état en fonction du niveau d’activation des entrées reçues par les neurones de la
couche précédente.
Un réseau de neurones doit passer par une phase d’apprentissage automatique pour pouvoir traiter
correctement les données. Cette phase d’apprentissage consiste à ajuster les poids de chaque connexion
jusqu’à ce que la sortie du réseau soit suffisamment cohérente vis-à-vis de la sortie demandée. Cela
implique qu’il faut disposer d’un corpus d’apprentissage. Ce corpus contient les données qui vont être
passées aux entrées des neurones et les réponses exactes, ou bien les sorties désirées, pour chaque neurone à la sortie du réseau. Cela est surtout valable pour les réseaux supervisés. Lors de la phase de
rétro-propagation des erreurs, les poids des connexions sont réajustés pour minimiser les erreurs au niveau des neurones.
La phase d’apprentissage est effectuée une fois pour toute. Le réseau de neurones sera utilisé en lui
fournissant seulement les données à l’entrée du réseau.
Les réseaux de neurones ont été utilisés pour l’inversion acoustico-articulatoire dans plusieurs travaux [Soquet et al., 1991; Rahim and Goodyear, 1990; Shirai and Kobayashi, 1991; Papcun et al., 1992;
Atal and Rioul, 1989]. Ils sont utilisés pour améliorer une solution initiale obtenue par inversion en
utilisant un codebook. Ils sont également utilisés pour effectuer un apprentissage à partir des données du
codebook pour approcher la relation non-linéaire entre les domaines articulatoire et acoustique.
Papcun et ses collègues [Papcun et al., 1992] ont présenté une méthode utilisant les réseaux de
neurones par apprentissage sur des données humaines. En effet, au lieu d’avoir recours à un modèle articulatoire, ils utilisent directement des données récupérées à partir des images radiographiques. Le corpus
contient les images et la parole correspondant à trois locuteurs. Les données, c’est-à-dire les positions
des articulateurs récupérées à partir des images, sont structurées en vecteurs. Chaque vecteur est la combinaison des données de 25 images consécutives.
Dans [Soquet et al., 1991], les auteurs ont expérimenté l’inversion en se basant sur un réseau neuronal à une seule couche cachée pour reproduire les 11 voyelles du français. Le réseau de neurones utilisé
a appris à reproduire les voyelles dans 40% des cas. La même expérience a été refaite en ajoutant une
contrainte sur le volume moyen du conduit vocal. Cette contrainte a permis d’avoir de meilleurs résultats
et le réseau de neurones converge dans 80% des cas.
Laboissière et Galvàn [Laboissièrre and Galvàn, 1995] ont développé une méthode qui peut être
considérée comme relevant des réseaux de neurones (voir Fig. 2.1). Il s’agit de minimiser la distance
entre les paramètres acoustiques désirés et les paramètres acoustiques calculés en trouvant les meilleurs
paramètres de commande. C’est une technique issue de la théorie du contrôle avec un apprentissage d’un
contrôleur boucle ouvert (feedforward).
24
2.3. Étude des méthodes existantes de construction de codebook
y∗
erreur
+
−
perturbation
MODÈLE INV ERSE
u̇
ũ
u
F(u)
ŷ
F̂(u)
y
G(u)
backprojection
proprioception
exteroception
F IG . 2.1 – Architecture du contrôleur articulatoire (D’après [Laboissiere et Galvàn, 1995]). Le « modèle inverse »
permet d’inférer les entrées articulatoires u des sorties désirées y∗ . Ce modèle est composé (1) d’un modèle direct
F̂(u) qui donne les estimations ŷ des sorties à partir des entrées articulatoires, obtenues à leur tour par « feedback »
ou par « backprojection », et (2) le pseudo-inverse du jacobien de la transformation directe G(u).
Ce modèle de contrôle pilote un modèle articulatoire (F(u) dans Fig. 2.1). L’inversion s’effectue en
deux étapes. D’abord, un modèle direct7 (pour plus de détails sur les modèles directs voir [Jordan and
Rumelhart, 1992]) du modèle articulatoire est appris (F̂(u)) afin de mimer le modèle articulatoire. Plus
précisément, F̂(u) est une approximation analytique de la fonction F(u). Une combinaison d’experts
linéaires entraînés par l’algorithme EM 8 a été utilisée pour retrouver ce modèle de régression. Le modèle direct implémente une fonction linéaire par morceaux entre les entrées u et les sorties y. L’intérêt
d’utiliser une approximation linéaire par morceaux est d’avoir une expression simple du contrôleur G(u).
Ce dernier implémente une matrice de transformation entre le vecteur d’erreur dans l’espace acoustique
et les variations dans les commandes articulatoires. Pour cela, le jacobien inverse de la transformation
directe est utilisé. D’après les auteurs, cette méthode favorise les solutions qui minimisent les distorsions
dans les trajectoires articulatoires et acoustiques.
Même si cela n’a pas été indiqué explicitement, ce modèle fait appel à un corpus de données articulatoiresacoustiques lors de la phase d’apprentissage. Si ce corpus ne contient pas un nombre de points suffisamment représentatifs des non-linéarités de la relation articulatoire-acoustique, ce modèle risque de ne pas
réussir à fournir des trajectoires réalistes.
2.3 Étude des méthodes existantes de construction de codebook
Nous avons vu dans la section précédente l’importance des solutions initiales pour la suite de l’inversion. Nous avons vu aussi que le concept de codebook est très utilisé pour trouver ces solutions initiales.
Un codebook est la collection d’un grand nombre de formes du conduit vocal, représentées par des
paramètres articulatoires choisis selon un critère donné, et les paramètres acoustiques associés. Ces der7 Le
terme anglais est « forward model ».
8 Expectation-Maximisation
25
Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes
niers sont calculés en utilisant un synthétiseur articulatoire.
Le vecteur articulatoire est généralement composé par les paramètres de commande du modèle articulatoire. Le vecteur acoustique peut être formé des premiers formants ou bien des coefficients cepstraux
par exemple. Nous avons choisi les trois premiers formants pour former les vecteurs acoustiques. Ainsi,
nous entendons par paramètres acoustiques, valeurs acoustiques ou encore vecteurs acoustiques le vecteur dont les composantes sont les trois premiers formants. Pour l’étude des voyelles, cette représentation
par les trois premiers formants est suffisante.
Dans la littérature, un codebook peut être désigné par les termes dictionnaire, tableau ou liste d’exemples.
Nous avons choisi le terme anglophone codebook pour lever toute ambiguïté.
Pour évaluer les méthodes existantes de construction du codebook, nous avons implémenté et testé
trois des méthodes les plus utilisées.
2.3.1
Codebook à échantillonnage régulier
La méthode la plus simple de construction du codebook est de faire un échantillonnage régulier.
Par exemple, pour avoir un échantillonnage régulier et fin des sept paramètres articulatoires du modèle
de Maeda dans l’intervalle [−3σ, 3σ] (σ étant l’écart type) avec un pas d’échantillonnage relativement
grossier de 1/3 · σ, nous obtiendrons 197 ≈ 900 millions de formes, ce qui est très coûteux pour les
machines actuelles en espace de stockage et en temps d’accès. Pour faire les tests et avoir une idée
approximative sur la couverture acoustique, nous avons construit un codebook encore plus grossier de
seulement 6.800.000 formes.
2.3.2
Codebook à échantillonnage aléatoire
Comme nous venons de le voir, un codebook à échantillonnage régulier s’avère coûteux en espace de
stockage et en temps de calcul. Il est alors plus judicieux de choisir aléatoirement un nombre limité de
points qui couvrent l’espace articulatoire et l’espace acoustique. Dans ce but, un échantillonnage aléatoire
est obtenu en faisant varier les paramètres du modèle articulatoire aléatoirement. Un des inconvénients
de cette méthode, en absence d’étude statistique sur les différents paramètres, est qu’elle donne la même
distribution de probabilité pour toutes les formes du conduit vocal y compris les formes qui ne sont pas
réalistes [Larar et al., 1988]. Qui plus est, un échantillonnage aléatoire de l’espace articulatoire ne tient
pas compte des régions où la relation entre l’espace articulatoire et l’espace acoustique est non-linéaire.
En effet, il existe des régions où une petite variation des paramètres articulatoires s’accompagne d’une
forte variation dans l’espace acoustique (voir section 2.3.5). Par conséquent, ce codebook ne constitue pas
une représentation fidèle de l’espace articulatoire. Ce que nous entendons par représentation fidèle est un
échantillonnage fin dans les régions qui présentent des variations non-linéaires de la relation articulatoireacoustique.
2.3.3
Codebook à prototypes vocaliques
Une troisième méthode pour générer un codebook est de faire une interpolation à partir de prototypes
vocaliques [Larar et al., 1988]. Le principe est d’échantillonner l’espace articulatoire d’une manière nonuniforme et cela en échantillonnant les régions les plus probables, c’est-à-dire celles qui correspondent
à des formes du conduit vocal réalisables par un être humain.
26
2.3. Étude des méthodes existantes de construction de codebook
Pour cela, on réalise un échantillonnage autour des trajectoires entre deux prototypes vocaliques
quelconques. Dans notre étude, nous avons pris pour prototypes les voyelles de la langue française. Bien
entendu, d’autres prototypes vocaliques sont possibles [Larar et al., 1988].
L’avantage de cette méthode est qu’elle ne génère que des formes réalisables par le conduit vocal.
Cependant, son inconvénient majeur est qu’il est difficile d’affirmer que les prototypes vocaliques soient
les bons et que l’être humain ne s’écarte pas trop de ces solutions. Pour trouver de bons prototypes, il
faut conduire une expérimentation très fine en l’absence de connaissances suffisantes sur les prototypes
réellement utilisés par l’être humain. Cette expérimentation est coûteuse étant données les dimensions
de l’espace articulatoire de notre modèle.
Un deuxième inconvénient est qu’une transition linéaire d’une forme à une autre dans l’espace articulatoire, ne s’accompagne pas de variations linéaires dans l’espace acoustique, bien que le locuteur passe
d’une forme à une autre dans l’espace acoustique d’une manière linéaire. L’explication est que le locuteur
anticipe les mouvements de certains articulateurs pour conserver la linéarité dans l’espace acoustique.
L’échantillonnage entre deux prototypes vocaliques devrait donc prendre en compte le déphasage qui
existe entre les différents articulateurs.
2.3.4
Comparaison de la couverture des trois codebooks
En comparant ces trois méthodes du point de vue couverture de l’espace acoustique, nous remarquons que les méthodes par échantillonnage aléatoire ou régulier couvrent mieux l’espace acoustique.
Dans la Fig. 2.2, nous présentons les plans 1er formant/2ème formant, 1er formant/3ème formant, et
formant/3ème formant de l’espace acoustique correspondant aux trois méthodes. Les codebooks à
échantillonnage régulier et aléatoire présentent la même couverture acoustique globale, du moins au
niveau de résolution de l’image, alors qu’il est clair que le codebook à prototypes vocaliques présente un
sous-échantillonnage de l’espace acoustique. Malgré cette bonne couverture de l’espace acoustique, ces
deux codebooks ne donnent aucune garantie sur la qualité de la couverture de l’espace articulatoire et il
n’y a aucune prise en compte de la non-linéarité de la relation articulatoire-acoustique.
2ème
2.3.5
Problème de la non-linéarité
La relation articulatoire-acoustique n’est pas uniformément linéaire [Fant, 1960; Stevens, 1972;
Stevens, 1989; Charpentier, 1984]. En effet, il existe des régions pour lesquelles une petite variation d’un
paramètre articulatoire entraîne une conséquence acoustique importante, et inversement, il existe des
régions pour lesquelles une grande variation d’un paramètre articulatoire n’entraîne pas de conséquence
acoustique significative.
Trois raisons principales expliquent cette non-linéarité : la première est liée à la géométrie du conduit
vocal, la deuxième aux propriétés physiques du conduit vocal (les effets des pertes) et la troisième à la
modélisation articulatoire (l’affiliation cavité-formant).
La géométrie du conduit vocal
La première source de non-linéarité est due à la nature géométrique du conduit vocal. Nous pouvons
observer cela en utilisant la simulation par tubes acoustiques ou encore la simulation électrique. Afin
de simplifier la présentation, nous supposons que le conduit vocal est représenté par un système à deux
27
Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes
F IG . 2.2 – Comparaison entre les trois codebooks dans les plans F1 − F2,F1 − F3 et F2 − F3. La région claire
correspond au codebook à prototypes vocaliques. L’union de la région claire et de la région sombre correspond au
codebook à échantillonnage aléatoire et au codebook à échantillonnage régulier.
28
2.3. Étude des méthodes existantes de construction de codebook
tubes (Fig. 2.3). La relation entre l’espace acoustique et l’espace articulatoire est décrite par la fonction
de transfert suivante (voir [Flanagan, 1972], p. 69–72) :
Ub
1
=
Ug (cosh γ l ) (cosh γ l ) 1 + A1 tanh γ l tanh γ l
1 1
2 2
1 1
2 2
A2
(2.8)
où A1 l’aire du premier tube, A2 l’aire du deuxième tube, l1 et l2 les longueurs du premier et du deuxième
tube et γ1 , γ2 tels qu’ils ont été définis dans la section 1.6 du chapitre précédent.
D’après l’expression de la fonction de transfert, il est clair que cette fonction n’est pas linéaire même
dans ce cas simple (système à deux tubes). Cela est encore plus visible sur la Fig. 2.4, dans laquelle,
nous présentons le cas de deux tubes séparés par une constriction. Le graphe montre clairement la nature
non-linéaire des variations acoustiques en fonction de la longueur du premier tube.
A1
A2
l1
l2
Ub
Ug
F IG . 2.3 – Approximation du conduit vocal par deux tubes.
Les effets des pertes au niveau des parois du conduit vocal
Cette source de non-linéarité est inévitable puisqu’elle est due à la nature physique du conduit vocal.
En effet, le conduit vocal présente des pertes de natures différentes :
– pertes dues à la radiation aux lèvres : ces pertes affectent tous les formants ;
– conduction thermique et viscosité : la présence de la friction visqueuse et la conduction thermique
est perceptible particulièrement sur le premier formant (voir section 1.6 du chapitre précédent) ;
– vibration des parois du conduit vocal : les surfaces de la langue, des joues et du pharynx ne sont
pas rigides. Les effets acoustiques de ces surfaces peuvent être représentés par des impédances
acoustiques qui sont plus importantes que l’impédance acoustique de l’air. Ceci entraîne une perte
d’énergie dans le conduit vocal et introduit une perturbation sur le premier formant.
L’affiliation cavité-formant
Tout modèle articulatoire tient compte de la variation de la constriction formée au niveau de la langue.
Ceci se traduit par la présence d’au moins deux cavités acoustiques dans le conduit vocal. Les fréquences
des formants sont interprétées comme étant les résonances des deux cavités. Lorsque les résonances sont
égales, on observe un point focal source d’une forte non-linéarité pour la fréquence du formant concerné,
puisque le formant est affilié successivement à deux cavités. Nous pouvons voir cela dans le graphique de
Fig. 2.4 [Stevens, 1999b] (Pour plus de détails sur ce phénomène, voir [Apostol, 2001]). Ce phénomène
est clairement visible aussi dans les nomogrammes de Fant 9 [Fant, 1960].
9 Les nomogrammes donnent l’évolution des formants au cours de la variation du lieu de constriction d’un modèle à quatre
tubes.
29
Chapitre 2. Méthodes d’inversion acoustico-articulatoire existantes
4
Fréquence
(khz)
F4
F4
3
l1
l3
A1
F3
F3
l2
2
A2
F2
1
Tube 1
Cavité arrière
Tube 2
Cavité avant
0 F1
0
2
4
6
8
10
12
14
Longueur de la cavité arrière l1 (cm)
F IG . 2.4 – Relations entre les formants et la position de la constriction. Le graphique à droite correspond à un
système à deux tubes séparés par une constriction présenté à gauche. On varie la position de la constriction, donc
la longueur du premier tube et du deuxième changent tout en conservant la longueur totale constante. L’axe des
abscisses représente la position de la constriction et l’axe des ordonnées représente les fréquences de résonance
(les formants). Les courbes qui croissent vers la droite sont les formants correspondant au deuxième tube (cavité
avant). Les courbes qui décroissent vers la droite sont les formants de la cavité arrière. Les courbes en trait épais
correspondent aux formants en absence de couplage entre les deux cavités (c’est-à-dire que l’aire de la constriction
est alors infiniment petite). Les traits discontinus montrent les lieux de changement d’affiliation des formants
appelés aussi points focaux.
Conclusion
Nous venons de voir dans ce chapitre que la difficulté principale de l’inversion réside dans la nonlinéarité de la relation articulatoire-acoustique. Malheureusement, dans les travaux d’inversion existants,
le problème de la non-linéarité est peu traité. En effet, nous trouvons des méthodes d’inversion qui
traitent bien la phase d’optimisation par des outils mathématiques, mais la recherche de bonnes solutions
initiales, très importantes pour les méthodes d’optimisation, a été négligée.
Cette recherche s’effectue généralement par l’utilisation d’un codebook représentant la relation articulatoireacoustique. Pour tenir compte du problème de la non-linéarité, il faut avoir un échantillonnage fin pour
ne pas omettre des régions de l’espace articulatoire qui peuvent contenir des solutions intéressantes. Un
tel échantillonnage est cependant très coûteux, comme nous l’avons montré dans la section précédente.
De plus, un échantillonnage dense pourrait entraîner un sur-échantillonnage dans des régions où la
relation est quasi-linéaire. Il serait intéressant d’avoir un échantillonnage non-homogène de l’espace articulatoire, c’est-à-dire un échantillonnage dense dans les régions fortement non-linéaires et moins dense
dans les régions plus linéaires [Charpentier, 1984].
En partant de cette idée, nous proposons, dans le chapitre suivant, une nouvelle méthode de construction de codebook.
30
Chapitre 3
Construction du codebook hypercubique
Introduction
Comme nous l’avons présenté dans le chapitre précédent, le problème majeur de la construction du
codebook réside dans la non-linéarité de la relation articulatoire-acoustique. C’est un problème qui doit
être pris en compte si nous voulons obtenir une couverture efficace de l’espace articulatoire.
Pour cela, nous décomposons l’espace articulatoire d’une manière fine dans les régions où la relation
articulatoire-acoustique est fortement non-linéaire. Dans ce but, nous avons choisi l’hypercube comme
structure pour représenter les différentes régions de l’espace articulatoire.
Dans ce chapitre10 , nous donnons la définition d’un hypercube et nous présentons en détail la méthode de construction du codebook qui exploite cette structure. Les méthodes d’évaluation de la linéarité
dans un hypercube sont détaillées. Enfin, nous terminons par une évaluation expérimentale de l’efficacité
de cette représentation et sa fidélité vis-à-vis du comportement de la relation articulatoire-acoustique.
3.1 Structure hypercubique
3.1.1
Définition
Un hypercube d’ordre N est une généralisation dans l’espace de dimension N d’un carré dans l’espace
de dimension 2 et d’un cube dans l’espace de dimension 3. Un hypercube de dimension N (noté Nhypercube) est un polytope convexe de dimension N (noté N-polytope). Un N-polytope convexe est une
intersection finie de demi-espaces fermés de IRN . Cette intersection a un volume fini non nul dans IRN .
Un polytope P est un ensemble borné de solutions d’un système de m inéquations linéaires.
P = P(A, b) = {x ∈ IRN tel que aTi x ≤ bi
pour i = 1..m}
Où :
A ∈ IRm×N une matrice réelle dont les lignes sont les aTi
b ∈ IRm un vecteur réel avec bi comme composantes.
Dans cette définition, borné veut dire qu’il existe une constante M telle que :
||x|| ≤ M pour tout x ∈ P.
10 Cette
méthode de construction a été présentée en partie dans [Ouni and Laprie, 1999].
31
(3.1)
Chapitre 3. Construction du codebook hypercubique
À partir de cette définition, on en déduit celle d’un hypercube Hc :
Hc = {x ∈ IRN tel que − 1 ≤ xk ≤ 1 pour i = 1..N}
(3.2)
xk étant la kème composante de x.
L’image d’un polytope par une application affine est un polytope équivalent [Henk et al., 1997]. Il
est donc toujours possible de se ramener au cas général.
Un N-hypercube est un sous-ensemble Hc ⊂ IRN . Un hypercube Hc est défini par un sommet origine
U0 (c’est-à-dire le sommet ayant les valeurs des coordonnées les plus petites) et la longueur ∈ IR d’un
coté de l’hypercube. Cet hypercube est noté Hc (U0 , ). On peut représenter Hc sous la forme :
N
Hc (U0 , ) = ∏ [u0 , u0 + ]
j
j
(3.3)
j=1
Où ∏ est le produit cartésien, est la longueur d’un coté de l’hypercube (dans la suite, est dite la
j
taille de l’hypercube) et u0 ∈ IR est la jème composante de U0 .
C’est une expression compacte qui définit complètement l’hypercube. Un hypercube est représenté
par ses sommets. Le convexe délimité par ces sommets est l’hypercube.
j
Soit Si ∈ Hc un de ces sommets. La jeme composante si de Si est définie comme suit :
j
j
si = u0 + ϕi j (3.4)
Où : ϕi j = (i div 2 j ) modulo 2, i = 0...(2N − 1), j = 0...(N − 1).
Ainsi, pour déterminer totalement l’hypercube, les seules informations dont on a besoin sont les coordonnées du sommet origine et la taille de l’hypercube (voir Fig. 3.1). C’est une représentation compacte
intéressante pour une utilisation informatique.
3.1.2
Pourquoi le choix d’une structure hypercubique ?
Le choix de cette structure pour représenter une région de l’espace articulatoire est justifié par le fait
que c’est une structure compacte et que l’espace articulatoire est bien adapté à cette dernière. En effet,
le modèle articulatoire de Maeda est contrôlé par sept paramètres. Chacun de ces paramètres varie dans
l’intervalle [−3σ, +3σ] (σ étant l’écart type autour de la moyenne). On peut dire que cet espace articulatoire est contenu dans un hypercube de dimension sept dont la taille est 6σ. Il est possible d’inclure toute
région de l’espace articulatoire dans un hypercube ou une union d’hypercubes. Cette structure compacte
se prête donc bien à l’élaboration de méthodes d’exploration de l’espace articulatoire.
3.2
3.2.1
La construction du codebook hypercubique
Le principe
Nous supposons que tout l’espace articulatoire est contenu dans un hypercube. Si la relation articulatoireacoustique est non-linéaire à l’intérieur de cet hypercube, ce dernier est décomposé en sous-hypercubes.
Pour chaque sous-hypercube, nous testons de nouveau la linéarité. Si la relation est quasi-linéaire, nous
conservons cet hypercube. On dit que le comportement de la relation articulatoire-acoustique est linéaire dans la région de l’espace articulatoire représenté par cet hypercube. Tant que la relation n’est
pas suffisamment linéaire dans un hypercube donné, il est décomposé de nouveau, jusqu’à l’obtention
32
3.2. La construction du codebook hypercubique
Z
l
l
S6
S4
S5
S7
l
U0
Y
S2
S3
S1
X
F IG . 3.1 – Un hypercube de dimension 3 est un cube. Il est défini par ses 8 = 23 sommets. La taille de ce cube
est l (la longueur d’un coté). U0 est l’origine du cube. À partir de U0 et l seulement, on peut retrouver les autres
sommets de l’hypercube.
d’un hypercube de taille suffisamment petite pour pouvoir considérer que le comportement de la relation
articulatoire-acoustique est linéaire.
3.2.2
La méthode de construction
Soit Hc1 (U0 , ) l’hypercube initial. Cet hypercube contient tout l’espace articulatoire. La taille de cet
hypercube est 6σ ( = 6σ). Nous testons la linéarité de la relation articulatoire-acoustique dans Hc1 (U0 , ).
Si la relation est linéaire, nous conservons cet hypercube. Sinon, Hc1 (U0 , ) est décomposé en 2N soushypercubes Hc2i (U0i , /2), avec i = 1...2N . U0i est le nouveau sommet origine du sous-hypercube numéro
i correspondant à l’ième sommet. On évalue, de nouveau, la linéarité pour chaque sous-hypercube. Cette
procédure est répétée récursivement pour tous les sous-hypercubes(voir Fig. 3.2).
3.2.3
Le test de linéarité
Le test proposé par Charpentier dans [Charpentier, 1984] consiste à calculer la courbure acoustique
le long d’un chemin articulatoire à l’intérieur de la région à explorer. Cette méthode qui est acceptable
dans le cas d’un modèle de fonction d’aire qui utilise peu de paramètres conduirait à des calculs trop
longs dans notre cas.
Au lieu de cette solution, nous proposons le test suivant. Pour tous les segments qui relient les sommets d’un hypercube, nous considérons leurs milieux et nous interpolons linéairement les formants correspondants. Ensuite, nous comparons ces valeurs avec celles calculées directement avec un synthétiseur
articulatoire. Si la différence entre les formants synthétisés et les formants interpolés est inférieure à un
seuil prédéfini ε, la relation articulatoire-acoustique dans cet hypercube est considérée comme linéaire.
Nous disons que la relation articulatoire-acoustique est linéaire avec une marge d’erreur de ε dans le
domaine acoustique.
33
Chapitre 3. Construction du codebook hypercubique
Hc1
Relation
Non-linéaire
.
.
.
Hc1_1
Hc1_2
Relation
Non-linéaire
Relation
Linéaire
.
.
.
Hc1_3
Hc1_4
Relation
Linéaire
.
.
.
.
.
.
F IG . 3.2 – La linéarité est évaluée à l’intérieur de l’hypercube. Si la relation articulatoire-acoustique est nonlinéaire, l’hypercube est décomposé en 2N sous-hypercubes. On réitère l’opération jusqu’à ce que la relation soit
suffisamment linéaire ou la taille minimale de l’hypercube soit atteinte.
Nous pouvons formaliser cela comme suit :
Soit
f : ArN −→ AcM
(3.5)
ArN
l’application représentant la relation entre l’espace articulatoire
(de dimension N) et l’espace acousM
tique Ac (de dimension M). L’application f représente le synthétiseur articulatoire. En effet, les paramètres correspondant au modèle articulatoire sont passés au synthétiseur articulatoire, et les valeurs
acoustiques correspondantes sont obtenues en sortie.
Soient Pa et Pb ∈ ArN deux sommets de l’hypercube. Soient Fa et Fb ∈ AcM les vecteurs acoustiques
définis par : f (Pa ) = Fa et f (Pb ) = Fb . Ces vecteurs acoustiques ont pour composantes les trois premiers
formants F1, F2 et F3.
Le test de linéarité entre deux sommets est le suivant :
Pa + Pb
Fa + Fb
− f(
) ) ≤ ∆ε
(3.6)
abs(
2
2
Où ε est le seuil au-delà duquel la relation articulatoire-acoustique n’est plus considérée comme linéaire.
34
3.2. La construction du codebook hypercubique
ε peut être fixé pour le premier formant, le deuxième formant et le troisième à une valeur choisie
expérimentalement ou arbitrairement. Par exemple, on peut fixer ε à 50Hz pour F1, 75Hz pour F2
et 100Hz pour F3 comme nous l’avons fait pour la construction d’un exemple de codebook. Ce test de
linéarité est effectué entre tous les sommets de l’hypercube (voir Fig. 3.3). Pour un hypercube de dimension 7, nous avons 27 = 128 sommets et le nombre de segments possibles entre ces sommets est 8128, ce
qui correspond au nombre de tests.
Une région articulatoire représentée par un hypercube n’est considérée linéaire (c’est-à-dire la relation
articulatoire-acoustique est linéaire) que si ces 8128 tests sont positifs, sinon, on considère que cette région est non linéaire.
Nous supposons que ce test de linéarité est suffisant. En effet, nous pouvons envisager d’appliquer le
test de linéarité en plusieurs points tout au long de ces segments, et ainsi, de renforcer la satisfaction de
l’hypothèse de linéarité. Cependant, cela induit un nombre exagéré de points à tester, et donc à calculer
par le synthétiseur articulatoire, ce qui rend le calcul de plus en plus long. Comme nous allons le voir par
la suite, ce test de linéarité s’avère suffisant.
α3
v4
v6
α3 α2 α1 ι
0 0 0 0
0 0 1 1
0 1 0 2
0 1 1 3
1 0 0 4
1 0 1 5
1 1 0 6
1 1 1 7
l
v7
v5
α2
U = v0
o
v2
l
v3
v1
α1
l
F IG . 3.3 – Nous représentons ici l’hypercube de dimension 7 par un cube de dimension 3. La taille de l’hypercube
est l et le sommet origine est U0 . Vi (i = 0...7) sont les sommets de l’hypercube. Le test de linéarité est effectué
entre les segments [Vi ,V j ] où i = j (segments représentés par des traits fins). Si le test échoue, l’hypercube est
décomposé en 8 sous-hypercubes (8 = 23 est le nombre de sommets). Ces sous-hypercubes sont représentés par
des traits en pointillés. Le tableau qui se trouve en haut de la figure donne les valeurs du paramètre ϕi j pour les 8
sommets indexés de 0 à 7.
35
Chapitre 3. Construction du codebook hypercubique
3.2.4
Le choix du seuil de linéarité
Dans l’exemple présenté dans le paragraphe précédent, nous avons pris un seuil égal à 50Hz pour F1,
75Hz pour F2 et 100Hz pour F3. Le choix de l’échelle Hertz devrait être remis en cause si nous voulions
utiliser un test de linéarité réaliste et fidèle vis-à-vis du comportement du système auditif périphérique.
Il faudrait prendre en compte le comportement auditif humain pour fixer ce seuil.
En effet, la résolution fréquentielle de l’oreille n’est pas linéaire [Zwicker and Feldtkeller, 1981],
et on utilise donc une transformation perceptive qui modifie la représentation du signal acoustique de
telle manière qu’elle soit approximativement équivalente au processus auditif humain. Le but est de
ne conserver que l’information perceptivement pertinente. L’échelle psychoacoustique Bark est souvent
utilisée dans le traitement de la parole. Dans la Fig. 3.4, nous présentons l’échelle Bark en fonction de
l’échelle Hertz.
Hertz/Bark
20
18
16
14
Bark
12
10
8
6
4
2
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
Hertz
F IG . 3.4 – Échelle Bark : représentation de la transformation perceptive Bark exprimée en Hertz.
La Fig.3.5 donne la valeur en Hertz d’un seuil d’erreur en Bark en fonction de la fréquence. Un seuil
d’erreur en Bark permet donc d’avoir un seuil dynamique dans l’échelle Hertz. Nous avons fixé ε à 0.3
Bark. Ce seuil est ni grossier ni exagérément fin, et nous l’avons donc retenu afin de réduire la taille du
codebook sans influencer la qualité de la linéarité.
Dans l’expression (3.6), on applique une transformation vers l’échelle Bark pour les deux quantités
à comparer. Cette expression devient alors :
abs( bark(
Fa + Fb
pa + pb
) − bark( f (
)) ) ≤ ∆ε
2
2
(3.7)
On peut aussi choisir un seuil de linéarité qui est sensible à la plus petite variation fréquentielle détectée par l’oreille humaine. En effet, l’idée est d’avoir un seuil assez fin dans des régions où la variation
36
3.2. La construction du codebook hypercubique
Variation frequentielle dans l’echelle bark exprime en Hertz
400
350
0.5 bark
Variation de la frequence (Hz)
300
250
0.4 bark
200
0.3 bark
150
0.2 bark
100
50
0
0
500
1000
1500
2000
2500
3000
3500
4000
Frequence (Hz)
F IG . 3.5 – Variation fréquentielle dans l’échelle Bark exprimée en Hertz. On représente bark−1 bark(Fa ) −
bark(Fb ) = k , avec k = 0.2 Bark, 0.3 Bark, 0.4 Bark, 0.5 Bark.
fréquentielle perceptible est fine et moins fin dans les autres régions. Pour cela, on considère le seuil
différentiel de fréquence.
Pour mieux connaître les variations de fréquence, des études ont été faites [Zwicker and Feldtkeller,
1981] pour trouver la plus petite variation de fréquence que l’oreille peut percevoir. La courbe de la Fig.
3.6 représente les valeurs du seuil différentiel de fréquence f pour un stimulus d’intensité sonore de
70dB, en fonction de la fréquence du son modulé. En dessous de 500Hz, la valeur limite est à peu près
indépendante de la fréquence et a une valeur de f = 1.8Hz. Au-delà de 500Hz, elle croît à peu près
proportionnellement avec la fréquence et vaut approximativement f f = 3.5 · 10−3 . La courbe sépare les
variations perceptibles des variations imperceptibles. Nous pouvons choisir ce seuil comme valeur du
seuil de linéarité ε. Pour les fréquences qui sont inférieures à 500Hz, ε = 1.8 · τ et au-delà, le rapport
de la variation fréquentielle sur la fréquence doit être supérieur à 3.5 · 10−3 · τ, avec τ, un seuil fréquentiel
qui est une constante déterminée expérimentalement en fonction de la précision acoustique désirée pour
évaluer la linéarité de la relation articulatoire-acoustique dans le codebook.
Nous avons construit deux codebooks hypercubiques en utilisant pour l’un un seuil de linéarité fixe
en Hertz pour les trois premiers formants (50Hz pour F1, 75Hz pour F2 et 100Hz pour F3) et pour
l’autre un seuil en Bark fixé à 0.3 Bark. Pour les expériences d’inversion et pour toute la suite, seul le
dernier codebook est utilisé.
3.2.5
Régions interdites
Lors de la décomposition d’un hypercube, il arrive qu’on obtienne un sommet dans une région articulatoire pour laquelle il n’est pas possible de calculer les formants. Cela se produit dans le cas d’une forte
constriction dans le conduit vocal. Comme Atal [Atal et al., 1978], nous appelons ces régions régions
interdites. L’interdiction vient du fait qu’on est en dehors du domaine où il est possible de calculer les
paramètres acoustiques à partir des paramètres articulatoires.
37
Chapitre 3. Construction du codebook hypercubique
100
Hz
L=70dB
50
∆f
∆f = 0.35%
20
f
10
5
2
∆f = 1.8 Hz
1
0.05
0.1
0.2
0.5
1
2khz
5
10
20
f
F IG . 3.6 – Seuil différentiel de fréquence f en fonction de la fréquence du son pur (D’après [Zwicker et
Feldtkeller, 1981]).
Ces régions se trouvent aux extrémités de l’espace articulatoire et elles définissent donc les limites
de l’espace articulatoire auquel le locuteur peut accéder.
L’existence de ce type de régions peut nuire à notre méthode de décomposition hypercubique, puisqu’on ne peut pas faire les tests de linéarité et par la suite on ne peut définir un hypercube si l’un des
points est dans une région interdite. Cela pourrait d’ailleurs faire échouer l’algorithme de décomposition
dès le départ puisque l’on part d’un hypercube qui contient l’espace articulatoire.
Pour éviter cela, tout hypercube qui présente un de ses sommets dans une région interdite est automatiquement décomposé en sous-hypercubes sans faire les tests de linéarité. De cette façon, on affine les
contours de la région interdite. En effet, à chaque étape de décomposition, on obtient des hypercubes de
taille plus petite, et les limites de l’espace articulatoire sont donc connues.
Néanmoins, il existe un inconvénient à affiner les limites de l’espace articulatoire. On obtient en effet
un nombre très grand d’hypercubes qui délimitent les régions interdites. Ces hypercubes sont de très
petite taille. Cela signifie qu’il y aura un grand nombre d’hypercubes dans des régions rarement exploitées par le locuteur, puisque ces régions se trouvent aux extrémités de l’espace articulatoire et que cela
correspond donc à un effort articulatoire important pour atteindre de telles cibles.
Par conséquent, nous n’essayons pas d’affiner énormément les limites dans ces régions et nous arrêtons donc la décomposition dès qu’on atteint un échantillonnage suffisamment fin pour délimiter ces
régions sans perdre de points qui pourraient être intéressants par la suite.
Afin d’illustrer la notion de régions interdites, nous présentons dans la Fig.3.7 une vue 2D du codebook hypercubique. Ceci constitue une vue partielle du codebook uniquement dans un but illustratif.
Nous supposons que l’espace articulatoire du locuteur est la région colorée et nous appliquons notre
38
3.2. La construction du codebook hypercubique
méthode de décomposition en hypercubes. Le résultat est une hiérarchie d’hypercubes de taille plus ou
moins grande suivant l’importance de la non-linéarité. Si l’hypercube est grand, cela signifie que la relation articulatoire-acoustique est quasi-linéaire. Si la taille de l’hypercube est faible, cela veut dire que
cette région présente une forte non-linéarité.
Cela n’est pas forcément vrai pour les hypercubes qui délimitent l’espace articulatoire. Comme nous
l’avons déjà dit, la décomposition dans ces régions est due à la présence de régions interdites, plus qu’à
celle de non-linéarités. Pour cette raison, on voit bien que l’on pourrait aller plus loin dans la décomposition des régions proches des régions interdites, puisque l’on n’a pas atteint l’hypercube de taille
minimale. Nous ne l’avons pas fait pour ne pas trop alourdir le codebook avec des hypercubes qui ne
sont pas très utiles.
Les régions qui ne sont pas colorées correspondent aux régions interdites. Les hypercubes marqués
(×) sont conservés dans le codebook ; les autres sont éliminés.
Dans la Fig. 3.8, nous présentons un codebook 2D pour lequel ε = 1Hz pour les trois premiers
formants. Ce seuil très petit est choisi pour illustrer l’organisation des hypercubes dans le cas simple de
la dimension deux et pour bien montrer les limites entre les régions interdites et les régions permises.
××
×
×
× ×
× ×
×× × × × × × × × ×
× × ×× ××× × × ××
×
××
×××××××
×
×
× ×
××
×× ×
×× × ×
× × ××
×
×
×
×
× × ××
× ×× ×
×
××××
×× ××
F IG . 3.7 – La décomposition de l’espace articulatoire en hypercubes. La partie colorée est l’espace articulatoire
réellement atteint par le modèle. Les parties non colorées sont les régions interdites. Les hypercubes marqués (×)
sont ceux qu’on garde dans le codebook. L’espace articulatoire récupéré dans le codebook sous forme d’hypercubes
est celui entouré par un trait épais.
39
Chapitre 3. Construction du codebook hypercubique
F IG . 3.8 – Une représentation 2D partielle d’un codebook hypercubique. Afin de bien voir les hypercubes, nous
n’avons représenté que les paramètres correspondant à la mâchoire et le corps de la langue (α1 , α2 ). On voit bien
qu’il existe des régions qui sont plus ou moins linéaires (c’est-à-dire les hypercubes correspondants sont plus ou
moins grands). Les zones hachurées sont les régions interdites.
3.2.6
La description du codebook hypercubique
En résumé, un hypercube est défini par ses sommets qui sont des vecteurs de l’espace articulatoire.
Dans un codebook hypercubique, un hypercube est représenté par un sommet origine, la taille de l’hypercube (c’est-à-dire la longueur d’un des côtés) et les valeurs acoustiques des sommets. Pour chaque
hypercube articulatoire, nous reportons dans le codebook les informations suivantes :
– U0 (u10 , u20 , u30 , u40 , u50 , u60 , u70 ) le sommet origine de l’hypercube. C’est un vecteur articulatoire représenté par les 7 paramètres articulatoires.
– : la taille de l’hypercube (c’est la longueur d’un des côtés de l’hypercube).
Avec ces deux informations, nous pouvons reconstruire l’hypercube dans l’espace articulatoire.
– Fi (Fi1 , Fi2 , Fi3 ) pour i = 1...128(= 27 ). Les Fi sont les vecteurs acoustiques correspondant aux 128
sommets de l’hypercube. Un vecteur acoustique est représenté par les trois premiers formants.
C’est une représentation compacte d’une région d’un espace de dimension 7. Grâce à cette structure, nous représentons une région où la relation articulatoire acoustique est suffisamment linéaire par
un nombre très limité de points. Le codebook hypercubique constitue une nouvelle représentation complète de tout l’espace articulatoire par un nombre limité de points. Le codebook est représenté par des
hypercubes plus ou moins fins, selon la linéarité de la relation articulatoire-acoustique dans la région
représentée par l’hypercube. Plus l’hypercube est grand, plus la relation est linéaire.
La méthode récursive de décomposition en hypercubes permet d’avoir une organisation simple des
hypercubes sous une forme hiérarchique. L’avantage de cette organisation est d’accélérer la procédure
de recherche dans le codebook.
40
3.3. Réalisation
3.3 Réalisation
La tâche la plus coûteuse en temps de calcul est la synthèse articulatoire. Vu le nombre important
de vecteurs qu’on calcule par synthèse pour chaque hypercube (les 128 sommets et les 8128 milieux
des segments séparant chaque paire de sommets), l’évaluation de la linéarité nécessite un temps considérable. Une première évaluation du temps nécessaire pour la construction d’un codebook avec un seuil
ε = 0.3 Bark a donné une période d’une centaine de jours (un PC pentium III, 500 Mhz). Pour cela, la
parallélisation de l’algorithme de construction était donc nécessaire. Cela n’a pas présenté de problème
majeur, puisque notre méthode de décomposition est naturellement adaptée pour une exécution parallèle.
En effet, lors de la première décomposition en 128 sous-hypercubes, chaque sous-hypercube est passé
à un processeur. Cela a permis un gain de temps très important (avec une vingtaine de processeurs, on
passe d’une centaine de jours à une semaine).
Nous avons construit un premier codebook avec un seuil ε = 50Hz pour F1, 75Hz pour F2 et
100Hz pour F3. Ce codebook est composé d’environ 390.000 hypercubes. Par la suite, un deuxième
codebook a été construit avec un seuil ε = 0.3 Bark. Le nombre d’hypercubes de ce codebook est
de 128.000. Notre codebook est certes encore volumineux, mais permet d’assurer que l’échantillonnage
articulatoire n’a plus d’influence sur l’inversion, et que la résolution acoustique de l’échantillonnage est
uniforme dans tout l’espace articulatoire.
3.4 Évaluation expérimentale du codebook hypercubique
Afin d’étudier la qualité de la couverture de l’espace articulatoire par le codebook hypercubique et
sa capacité de représentation à partir d’un nombre fini de points, nous allons essayer de retrouver les
informations acoustiques correspondant à des vecteurs articulatoires. De cette façon, nous pouvons juger
de la qualité de l’information qu’on récupère par interpolation. Nous évaluons aussi, la continuité de la
relation articulatoire-acoustique.
3.4.1
L’interpolation dans un hypercube
Nous pouvons récupérer toutes les informations dont nous avons besoin à partir des sommets de
l’hypercube. En effet, la seule connaissance des vecteurs articulatoires et des paramètres acoustiques des
sommets permet d’évaluer par interpolation les paramètres acoustiques pour tous les points articulatoires
à l’intérieur de l’hypercube. Pour rendre l’interpolation plus robuste et plus précise, nous interpolons par
rapport au sommet le plus proche du vecteur dont nous cherchons les paramètres acoustiques en calculant le gradient en ce sommet. Considérer le sommet le plus proche permet, en effet, de renforcer la
satisfaction de l’hypothèse de linéarité.
Soit Px le vecteur articulatoire dont nous cherchons l’image acoustique Fx par interpolation dans
l’hypercube. Le développement limité par rapport au sommet le plus proche P0 est donné par l’équation
suivante :
Fx = F0 + (Px − P0 ).∇F
(3.8)
Où ∇F est le gradient de F calculé en P0 .
41
Chapitre 3. Construction du codebook hypercubique
3.4.2
Vérification expérimentale de l’interpolation
Pour évaluer expérimentalement l’interpolation dans un hypercube, nous avons utilisé la première
version du codebook utilisant un test de linéarité simple en fixant la marge d’erreur ε à 50Hz pour le
premier formant, 75Hz pour le deuxième formant et 100Hz pour le troisième formant. Nous avons généré
des vecteurs acoustiques qui ont été synthétisés avec le synthétiseur articulatoire à partir de vecteurs articulatoires. Par ailleurs, ces vecteurs sont interpolés à partir du codebook hypercubique. Nous comparons
la proximité des vecteurs acoustiques obtenus par synthèse à ceux obtenus par interpolation.
Nous avons généré 1850 vecteurs articulatoires choisis aléatoirement. L’erreur moyenne ne dépasse
pas 10Hz pour les deux premiers formants et 20Hz pour le troisième formant. En comparant ces valeurs
à la marge d’erreur autorisée (50Hz pour F1, 75Hz pour F2 et 100Hz pour F3), il est clair que cela constitue une bonne approximation formantique.
Nous avons refait le test pour le codebook utilisant la distance en Bark, avec une marge d’erreur
ε = 0.3 Bark. De même, nous avons généré 1650 vecteurs articulatoires choisis aléatoirement dont
nous avons calculé les images acoustiques par le synthétiseur d’une part, et par interpolation dans le
codebook d’autre part. Les résultats sont plus précis que pour le premier codebook. En effet, nous avons
obtenu une erreur moyenne du premier formant de 16 Hz (0.132 Bark) avec un écart type de 12 Hz, pour
le deuxième formant de 11 Hz (0.049 Bark) avec un écart type de 11 Hz et pour le troisième formant
l’erreur moyenne est de 10 Hz(0.026 Bark) avec un écart type de 11 Hz.
Nous avons été un peu surpris que l’erreur moyenne pour le premier formant soit plus grande que
pour le deuxième et le troisième formant. La seule explication que nous trouvons pour le moment est lié
à l’échantillonnage articulatoire pour F1 qui conduit peut être à un certain sur-échantillonnage pour F2
et F3.
L’utilisation d’une échelle perceptive conduit à des résultats plus précis que l’échelle Hertz. De plus,
le codebook conduit à une précision supérieure à celle fixée a priori que ce soit pour la première échelle
ou la deuxième. Cela est rassurant à propos de la qualité de l’interpolation.
3.4.3
Vérification de la continuité de la relation articulatoire-acoustique
Lors de ces mêmes expérimentations, nous avons vérifié la continuité de la relation articulatoireacoustique lors du passage d’un hypercube à un autre. En effet, si l’on passe d’un hypercube à un autre et
que cela s’accompagne d’une variation importante, cela signifie que la linéarité n’est pas vérifiée et que
la représentation ne tient pas compte de la non-linéarité de la relation articulatoire-acoustique. Si le cas
se présente, on peut éventuellement y remédier en ajoutant des hypercubes contenant les frontières des
hypercubes. Bien sûr cela impliquerait une certaine redondance, mais cela assurerait aussi la continuité
de notre représentation dans tout l’espace articulatoire.
Sur l’ensemble des trajectoires testées, nous n’avons pas remarqué de variation brusque. La Fig.3.9
présente une de ces trajectoires dans l’espace acoustique. La trajectoire articulatoire correspond à une
variation linéaire du paramètre correspondant à la mâchoire tout en conservant les autres paramètres articulatoires constants. Il est clair qu’il n’y a pas de variation brusque le long de cette trajectoire, malgré
le fait que la trajectoire articulatoire traverse plusieurs hypercubes. Cela montre bien que notre représentation garantit la linéarité de la relation articulatoire-acoustique.
42
3.4. Évaluation expérimentale du codebook hypercubique
Comparaison entre les formants obtenus par calcul direct et les formants obtenus par interpolation
2500
3eme Formant
Formants (Hz)
2000
1500
2eme Formant
1000
500
1er Formant
0
Temps
F IG . 3.9 – Comparaison entre deux trajectoires acoustiques (chaque trajectoire est représentée par les trois premiers formants) correspondant à une même trajectoire articulatoire. La trajectoire articulatoire est une variation
linéaire d’un paramètre tout en conservant les autres constants. La première est calculée directement par le synthétiseur articulatoire et la deuxième est calculée par interpolation à partir du codebook hypercubique. Les trajectoires
se superposent. L’interpolation est très précise et on arrive bien à retrouver l’information de départ. Par ailleurs, la
trajectoire interpolée ne présente pas de variation brusque.
Conclusion
Nous avons présenté dans ce chapitre une méthode de construction d’un codebook qui décompose
l’espace articulatoire en régions où la relation articulatoire-acoustique est quasi-linéaire. La structure de
base est l’hypercube et nous avons détaillé la méthode d’évaluation de la linéarité. Ce codebook présente une bonne couverture de l’espace articulatoire et le délimite correctement par rapport aux régions
interdites. Enfin, nous avons présenté une évaluation expérimentale de la fidélité de la représentation
de l’espace articulatoire par le codebook hypercubique. Les résultats sont bons et montrent donc que le
codebook que nous avons construit représente fidèlement la relation articulatoire-acoustique.
Le point fort est que nous pouvons assurer que l’intégralité du comportement acoustique du modèle
articulatoire de Maeda est pris en compte par notre codebook.
43
Chapitre 3. Construction du codebook hypercubique
44
Chapitre 4
Inversion par un codebook hypercubique
Introduction
Après avoir modélisé l’espace articulatoire par des hypercubes et élaboré une méthode de construction du codebook hypercubique, nous présentons dans ce chapitre une méthode d’inversion acousticoarticulatoire qui exploite notre codebook 11 . Nous détaillons en particulier la façon d’obtenir toutes les
solutions inverses à l’intérieur d’un hypercube.
4.1 La méthode d’inversion
4.1.1
Le principe
Le signal acoustique est décomposé en segments de quelques millisecondes chacun (entre 16 ms et
32 ms généralement). Ces segments de parole permettent de calculer les paramètres acoustiques. Chaque
segment est représenté par les trois premiers formants extraits à l’aide d’un algorithme de suivi de formants [Laprie and Berger, 1996].
Retrouver les formes du conduit vocal qui sont à l’origine de ce signal acoustique revient à récupérer
tout d’abord tous les hypercubes dont les images, par la relation articulatoire-acoustique, contiennent ce
signal acoustique, et ensuite, retrouver dans chaque hypercube la forme du conduit vocal correspondant
à ce segment de parole.
4.1.2
Présentation du problème
Soit F le vecteur acoustique, qui représente le segment de parole par les trois premiers formants, à
inverser. Soit P un vecteur articulatoire à retrouver à partir de F.
Pour chaque entrée acoustique F, nous récupérons tous les hypercubes de l’espace articulatoire dont
l’image acoustique contient F (un triplet de formants peut en effet appartenir à plusieurs hypercubes
puisque la relation articulatoire-acoustique n’est pas biunivoque). Soit Hc l’un de ces hypercubes :
F ∈ Im(Hc )
(4.1)
11 Une grande partie de ce chapitre a été présentée dans [Ouni and Laprie, 2000b; Ouni and Laprie, 2000a; Ouni and Laprie,
2001a].
45
Chapitre 4. Inversion par un codebook hypercubique
À présent, nous nous intéressons à l’inversion dans Hc . Nous utilisons l’expression du jacobien en
un point particulier P0 (un vecteur articulatoire), dans l’hypercube Hc :
F = F0 + (P − P0 ).∇F
(4.2)
où ∇F est le jacobien de F calculé en P0 et F0 le vecteur acoustique correspondant à P0 ·
Pour effectuer l’inversion, c’est-à-dire trouver P, il faut résoudre l’équation suivante :
F − F0 = ∇F.(P − P0 )
L’équation (4.3) est un système d’équations linéaires qui
manière suivante :
 1
 1 1
∂F ∂F
∂F 1
P − P01
.
.
.
∂α
∂α
∂α
7 
2
2
 12 22
 ∂F ∂F . . . ∂F 2   P − P0
 ∂α1 ∂α2
..
∂α7  

 3 3
.
∂F ∂F
∂F 3
∂α1 ∂α2 . . . ∂α7
P7 − P07
(4.3)
peut être écrit sous la forme matricielle de la


 1
F − F01

  2
 = F − F02 

F 3 − F03
(4.4)
où F i et F0i sont les composantes de F et de F0 , c’est-à-dire le ième formant, Pi et P0i les composantes de
P et de P0 et αi les paramètres articulatoires.
Le choix de P0 pour calculer les gradients est très important pour la précision de l’inversion. En effet,
si P est en réalité très loin par rapport à P0 , le gradient est imprécis. Le point P0 devrait être le plus proche
possible de P à déterminer. D’autre part, il est hors de question de calculer les points intervenant dans
l’expression du gradient avec le synthétiseur articulatoire. En fait, l’utilisation du synthétiseur nécessite
un temps (quelques millisecondes) qui serait rédhibitoire si ce calcul venait à être répété trop souvent.
Le choix le plus simple que nous avons trouvé est de sélectionner P0 parmi les sommets de l’hypercube (qui sont déjà calculés). Cela pourrait être efficace si le point cherché se trouvait dans le voisinage
immédiat de ce sommet. Malheureusement, la probabilité de se trouver dans ce cas est faible. Nous avons
donc choisi le centre de l’hypercube pour calculer le gradient. Ce point a la particularité d’être, au pire
des cas, à une distance inférieure au demi-diagonale de l’hypercube du point que l’on cherche. Les expériences préliminaires ont montré que le calcul du gradient par rapport à ce point donne de bons résultats
en général et ce choix garantit que l’hypothèse de linéarité est approximativement vérifiée partout dans
l’hypercube (voir Fig.4.1).
4.1.3
Résolution du système d’équations
La singularité de la matrice A
L’équation (4.4) est de la forme :
A·x = b
(4.5)
où A est la matrice du gradient (M × N), b et x sont, respectivement, les vecteurs acoustiques et les
vecteurs articulatoires.
46
4.1. La méthode d’inversion
S1
Pc
F IG . 4.1 – Choix du point P0 pour le calcul du gradient. Si l’on choisit pour P0 , le sommet S1 , le calcul du
gradient est précis au voisinage de ce sommet, et devient de moins en moins précis quand on s’éloigne. Ici, dans la
représentation en dimension deux, la probabilité d’être dans le cadran coloré est de 1/4 = (1/22 ), ce qui explique
que pour un hypercube de dimension 7, la probabilité est de 1/128 = (1/27 ). Le centre de l’hypercube Pc est le
point choisi pour calculer le gradient.
La matrice A représente la transformation linéaire de l’espace X associé au vecteur articulatoire x (de
dimension N) vers l’espace B associé au vecteur acoustique b (de dimension M).
Comme A est une matrice singulière12 , alors, il existe un sous-espace X1 de l’espace X dont l’image
est zéro dans B (A · x = 0). X1 est le noyau de l’application linéaire associée à A ou encore l’espace nul
associé à A, qu’on note Ker(A). La dimension de l’espace nul, c’est-à-dire le nombre de vecteurs x linéairement indépendants qui se trouvent dans cet espace, est appelé la nullité de A. D’autre part, il existe
un sous-espace B1 de l’espace B qui peut être atteint par A. Ce sous-espace est appelé image de A et noté
Im(A). La dimension de l’image est appelée le rang de A.
Le rang de A est inférieur à N, du moment qu’elle est singulière (d’où le théorème : rang + nullité
= N). L’espace nul associé à A est de dimension N − M. Par conséquent, le système linéaire (4.5) admet
une infinité de solutions.
La résolution par la méthode SVD (décomposition en valeurs singulières)
La solution générale de ce système est formée d’une solution particulière plus un vecteur quelconque
de l’espace nul. Cela signifie que si l’on ajoute une combinaison linéaire de la base des vecteurs de l’espace nul, l’image, dans notre cas les formants, ne change pas (voir Fig. 4.2).
Afin de résoudre ce système, nous utilisons la méthode SVD (la décomposition en valeurs singulières) telle qu’elle a été décrite dans [Golub and Loan, 1989]. En effet, la méthode SVD construit ex12 Formellement, A doit être une matrice carrée, ce qui peut être facilement réalisé, en rajoutant à la matrice initiale des
vecteurs lignes dont les composantes sont toutes nulles.
47
Chapitre 4. Inversion par un codebook hypercubique
plicitement une base orthonormale pour l’espace nul de A. En plus, cette méthode fournit une solution
particulière, celle qui présente la plus petite longueur x 2 , ce qui revient à dire que x est le point de
l’espace solution le plus proche de l’origine. Dans notre cas, l’origine est P0 .
En conclusion, nous avons une description complète de l’ensemble des solutions. Pour notre problème, comme M = 3 (les 3 formants) et N = 7 (les 7 paramètres articulatoires), la dimension de l’espace
nul est 4.
Afin de retrouver toutes les solutions, la détermination de l’espace nul et son échantillonnage doivent
être réalisés.
A
solutions de A.x=d
image de A
d
solution donnée par SVD
A.x=d
Ker(A)
F IG . 4.2 – Une matrice singulière A transforme un espace vectoriel en un autre de dimension plus petite que celle
du premier. Ici, un plan est transformé en une droite, appelée l’image de A. L’espace nul est transformé en zéro.
Les solutions de A.x = d sont constituées d’une solution particulière quelconque plus un vecteur quelconque de
l’espace nul, ici c’est une droite qui est parallèle à l’espace nul. La méthode SVD choisit la solution particulière
qui est la plus proche de zéro (D’après [Press et al., 1992] ).
4.1.4
L’échantillonnage de l’espace nul
Soit Psvd la solution particulière fournie par la méthode SVD. La forme générale de la solution est :
4
Ps = Psvd + ∑ β j v j
(4.6)
j=1
Où :
{v j } j=1..4 est une base orthonormale de l’espace nul,
β j=1..4 les coordonnées dans cet espace.
Afin de respecter l’hypothèse de linéarité, une solution est acceptable si :
Ps ∈ Hc
(4.7)
Cela exprime que le vecteur acoustique à inverser doit appartenir à l’image acoustique de l’hypercube
articulatoire, et inversement, on doit imposer que le vecteur articulatoire inversé appartienne à l’hypercube, de façon à ce que la linéarité de la relation articulatoire-acoustique soit respectée.
48
4.1. La méthode d’inversion
Les équations (4.6 et 4.7) s’écrivent sous la forme :
4
i
αiin f ≤ Psvd
+ ∑ β j vij ≤ αisup
i = 1..7
(4.8)
j=1
où : αiin f et αisup définissent les valeurs minimales et maximales du ième paramètre articulatoire dans
l’hypercube, c’est-à-dire Hc = ∏7i=1 [αiin f , αisup ] (∏ est le produit cartésien)
La forme matricielle de (4.8) est :
 1   1
αin f
Psvd
 α2   P 2
 in f   svd
 ..  ≤  ..
 .   .
α7in f
7
Psvd


 
 
+
 
 
v11 v12 v13 v14
β1
v21 v22 v23 v24 
β2
 
..
..
..
..  · 

β3
.
.
.
. 
7
7
7
7
β4
v1 v2 v3 v4


 
≤
 

α1sup
α2sup
..
.





(4.9)
α7sup
Ce système définit un 4-polytope (un polytope de dimension 4). Un polytope est l’intersection bornée d’un nombre fini de demi-espaces. Pour définir complètement ce 4-polytope, il faut trouver les points
extrêmes de ce domaine, puisque le polytope est un convexe, et déterminer l’espace contenu dans ce polytope.
À notre connaissance, ce problème qui est simple en dimension 2 (c’est-à-dire trouver l’intersection
d’un carré et d’une droite), n’a pas de solution formelle dans le cas général au-delà de la dimension trois.
Pour cela nous avons développé un algorithme en deux étapes :
1. Déterminer le plus petit hypercube de dimension 4 qui contient le 4-polytope, par programmation
linéaire.
2. Cet hypercube de dimension 4 est échantillonné et on vérifie l’appartenance de chaque échantillon
à l’hypercube Hc de dimension 7.
Ce 4-hypercube est défini par ses sommets donnés par les valeurs minimales et les valeurs maximales
de βi qui satisfont les inéquations (4.9). Les valeurs de βi peuvent être trouvées en résolvant ces huit programmes linéaires :
– Quatre programmes linéaires pour maximiser βi (i = 1..4)
inéquations (4.9)
i = 1..4
z = maximise βi
– Quatre programmes linéaires pour minimiser βi (i = 1..4)
inéquations (4.9)
i = 1..4
z = minimise βi
(4.10)
(4.11)
49
Chapitre 4. Inversion par un codebook hypercubique
En trouvant tous les βi , on peut calculer les sommets du 4-hypercube en remplaçant les βi dans (4.6).
Ensuite, nous échantillonnons l’espace contenu dans ce 4-hypercube et nous éliminons les solutions qui
ne vérifient pas la condition (4.7), c’est-à-dire, l’appartenance des solutions au 7-hypercube Hc (voir Fig.
4.3).
Grâce à cet algorithme d’échantillonnage, nous trouvons toutes les solutions pertinentes pour le problème d’inversion. Le nombre de solutions obtenues et leur précision dépendent du maillage dans le
4-polytope.
p2
A
B
p1
C
D
F IG . 4.3 – Le 4-polytope (représenté ici par un carré) est le plus petit hypercube contenant le 4-polytope (le
polygone). Il est défini par les sommets A, B, C et D. Une discrétisation du 4-hypercube est réalisé (les points
représentent les solutions possibles). Les solutions qui n’appartiennent pas au 7-hypercube Hc sont éliminées (les
points se trouvant à l’extérieur du polygone).
4.1.5
La précision de l’échantillonnage
L’échantillonnage de l’espace nul est important puisqu’il contrôle directement la régularité des trajectoires articulatoires retrouvées à partir du signal acoustique original. En effet, malgré le fait que l’espace
nul n’influence pas la proximité acoustique avec les données de départ, il contrôle la proximité des points
dans l’espace articulatoire. Un échantillonnage grossier ne permet pas à l’inversion de connecter deux
points articulatoires consécutifs qui devraient appartenir à la même trajectoire articulatoire.
Nous avons procédé à une évaluation expérimentale de la qualité de l’échantillonnage de la manière
suivante. Soit Porig le vecteur articulatoire qui produit un triplet de formants en utilisant le synthétiseur
articulatoire. L’inversion est exécutée, et on cherche Porig parmi toutes les solutions obtenues en gardant
le vecteur le plus proche de Porig .
Dans l’exemple suivant, on considère un son proche de la voyelle /o/ (F1=376 Hz, F2=862 Hz et
F3=2076 Hz) et un hypercube qui contient le vecteur articulatoire correspondant. La taille de l’hypercube est 0.75 σ (σ étant l’écart type), ce qui correspond à un hypercube assez grand, car la taille d’un
hypercube varie entre 0.09375 σ et 1.5 σ. Nous présentons les résultats dans les tables Tab. 4.1 et Tab. 4.2
50
4.2. Quelques résultats
Porig
Pinv
P
-0.17
-0.250
0.080
2.20
2.288
0.088
2.20
2.111
0.089
0.27
0.265
0.005
-0.09
-0.009
0.081
2.20
2.320
0.120
-2.20
-2.173
0.027
TAB . 4.1 – La précision de l’inversion dans le cas où le nombre d’échantillons de l’espace nul est 256
Porig
Pinv
P
-0.17
-0.167
0.003
2.20
2.181
0.019
2.20
2.168
0.032
0.27
0.277
0.007
-0.09
-0.101
0.011
2.20
2.163
0.037
-2.20
-2.230
0.030
TAB . 4.2 – La précision de l’inversion dans le cas où le nombre d’échantillons de l’espace nul est 10000
pour deux pas d’échantillonnage différents :
1. le nombre d’échantillons de l’espace nul est 256, le pas d’échantillonnage est 0.1875 σ,
2. le nombre d’échantillons de l’espace nul est 10.000, le pas d’échantillonnage est .075 σ.
Dans le premier tableau, on donne les 7 paramètres articulatoires de Porig . Pinv est le vecteur le plus
proche de Porig trouvé parmi toutes les solutions, dans le cas où le nombre d’échantillons est 256. P
présente les erreurs entre les paramètres originaux et les paramètres inversés. Dans le deuxième tableau,
on présente les mêmes données, dans le cas où le nombre d’échantillons est 10.000. En comparant les
deux P, il est clair qu’on a une approximation précise du vecteur original si on est en présence d’un
échantillonnage fin.
Cela dit, le nombre d’échantillons nécessaires pour avoir de bons résultats d’inversion dépend des
données à inverser et de la taille de l’hypercube (si la taille de l’hypercube était suffisamment petite, on
aurait pu prendre le centre de l’hypercube). D’autre part, le nombre d’échantillons ne doit pas être trop
grand parce que les formes du conduit vocal seront très proches et on pourrait les confondre puisque
cela correspond, du point de vue phonétique, à la même forme. Cet exemple donne une bonne idée de la
précision de l’inversion.
Au-delà de cette vérification de la précision, cette expérimentation nous permet de nous assurer que
l’algorithme donne les résultats attendus ce qui n’est pas facile à tester étant donnée la dimension élevée
de l’espace articulatoire. En effet, la généralisation des résultats mathématiques des dimensions deux et
trois n’est pas évidente pour les dimensions supérieures.
4.2 Quelques résultats
Notre méthode d’inversion permet de retrouver avec précision toutes les formes possibles du conduit
vocal correspondant à une entrée acoustique. Cela permet d’étudier l’influence articulatoire des contraintes
ajoutées à l’inversion et de trouver une trajectoire réaliste qui peut produire le signal de parole original.
L’ensemble des solutions de l’inversion peut être aussi utilisé pour étudier la variabilité de la production
de la parole et les effets compensatoires exploités par le locuteur, comme nous allons le voir par la suite.
À présent nous donnons un premier exemple d’inversion obtenu par notre méthode.
51
Chapitre 4. Inversion par un codebook hypercubique
F IG . 4.4 – Représentation des solutions d’inversion dans l’espace acoustique. Les courbes en traits continus
correspondent à la trajectoire acoustique à inverser.
Trajectoire récupérée
Solutions obtenues du codebook
Trajectoire initiale
Paramètre corps de la langue
4
3
2
1
0
-1
-2
-3
-4
500
510
520
530
540
550
Temps
F IG . 4.5 – Représentation des solutions d’inversion dans l’espace articulatoire. Pour chaque segment de parole,
nous obtenons plusieurs solutions (chaque colonne de points correspond à un segment de parole). La trajectoire
initiale est représentée en trait discontinu. La trajectoire récupérée par inversion est représentée par un trait continu.
Nous avons généré une trajectoire articulatoire en variant sinusoïdalement le paramètre correspondant au corps de la langue et en conservant tous les autres paramètres dans la position neutre. À l’aide
du synthétiseur articulatoire, nous avons produit les formants lui correspondant.
Nous avons effectué l’inversion des formants en utilisant la première version du codebook (avec un
seuil fixe en Hertz pour F1, F2 et F3 à 50 Hz, 75 Hz et 100 Hz) correspondant au locuteur SM.
Nous avons reproduit de nouveau les formants correspondant aux formes articulatoires obtenues par
inversion.
Dans la Fig. 4.4, nous présentons la trajectoire acoustique originale donnée par les trois premiers
formants (les courbes en trait continu). Nous présentons sur le même graphe, les solutions de l’inversion
52
4.3. Évaluation expérimentale de la précision acoustique
représentées par leurs valeurs acoustiques. Il est clair que l’inversion permet d’avoir une bonne proximité acoustique. Les points solutions de l’inversion sont très proches de la trajectoire originale à inverser.
Dans la Fig. 4.5, nous montrons le résultat de l’inversion de la même trajectoire acoustique, mais
présenté dans l’espace articulatoire. Pour chaque segment de parole, nous obtenons plusieurs solutions
dont l’image acoustique est très proche du signal acoustique original. Pour cet exemple, nous obtenons
en moyenne 500 formes articulatoires par segment de parole. Cette moyenne varie en fonction de la position des formants dans l’espace vocalique.
Dans les Fig. 4.6 et 4.7, nous montrons les résultats de l’inversion de deux séquences /au/ et /ui/
dans l’espace articulatoire (paramètre mâchoire). Les graphes du haut de chaque figure représentent les
solutions sans échantillonnage de l’espace nul, c’est-à-dire les solutions particulières obtenues par la
méthode SVD. Les graphes du bas de chaque figure représentent les solutions en effectuant l’échantillonnage de l’espace nul (ici, 81 échantillons au maximum par solution). Nous remarquons clairement
que les solutions obtenues en effectuant l’échantillonnage de l’espace nul couvrent plus finement l’espace articulatoire, ce qui permet d’obtenir des trajectoires articulatoires plus lisses.
4.3 Évaluation expérimentale de la précision acoustique
Pour évaluer la précision acoustique des solutions obtenues après l’inversion, nous avons pris 489
entrées acoustiques extraites d’un signal de parole réelle. Nous avons utilisé notre méthode d’inversion
pour récupérer l’ensemble des solutions dont le nombre est de l’ordre de 4.000.000. Nous avons calculé
les valeurs acoustiques correspondant à ces solutions à l’aide du synthétiseur articulatoire. Ensuite, nous
avons comparé les valeurs acoustiques des solutions obtenues avec les entrées acoustiques. L’erreur
moyenne est de 8, 39 Hz avec un écart type de 10, 03 Hz pour F1, de 10, 86 Hz avec un écart type
de 12, 11 Hz pour F2 et de 10, 45 Hz avec un écart type de 12, 53 Hz pour F3. Cette évaluation montre
bien que notre méthode d’inversion permet d’obtenir une bonne précision acoustique.
Conclusion
Nous avons présenté dans ce chapitre notre méthode d’inversion point à point. C’est une méthode
qui exploite la structure hypercubique du codebook pour retrouver toutes les solutions possibles de l’inversion. Pour cela, nous procédons à une première résolution d’un système d’équations en utilisant la
méthode SVD puis nous explorons l’espace nul associé au problème. Cette exploration influence le degré de lissage des trajectoires articulatoires.
Les solutions obtenues permettent de construire une trajectoire dans l’espace articulatoire, ce qui fait
l’objet du chapitre suivant. L’avantage de notre méthode d’inversion est qu’elle ne contraint pas implicitement le processus d’inversion. Il est donc possible d’étudier très précisément comment l’introduction
de contraintes d’origine physiologique ou acoustique ou encore biomécanique influence l’inversion de
manière à récupérer les trajectoires articulatoires proches des trajectoires réalisées par le locuteur.
53
Chapitre 4. Inversion par un codebook hypercubique
F IG . 4.6 – Représentation des solutions d’inversion de la séquence /au/ dans l’espace articulatoire (le paramètre
mâchoire). Le graphe du haut présente toutes les solutions obtenues sans échantillonnage de l’espace nul. Celui du
bas présente les solutions obtenues par échantillonnage de l’espace nul.
54
4.3. Évaluation expérimentale de la précision acoustique
F IG . 4.7 – Représentation des solutions d’inversion de la séquence /ui/ dans l’espace articulatoire (le paramètre
mâchoire). Le graphe du haut présente toutes les solutions obtenues sans échantillonnage de l’espace nul. Celui du
bas présente les solutions obtenues par échantillonnage de l’espace nul.
55
Chapitre 4. Inversion par un codebook hypercubique
56
Chapitre 5
Récupération des trajectoires
articulatoires
Introduction
Dans le chapitre précédent, nous avons présenté une méthode d’inversion. Pour chaque entrée acoustique, définie par les trois premiers formants, nous récupérons plusieurs solutions. À chaque instant, cette
méthode retourne plusieurs solutions articulatoires compatible avec les formants. Étant donné un signal
de parole, représenté par la séquence des triplets de formants mesurés à intervalle de temps régulier (16
ms), le problème est donc de choisir une trajectoire13 articulatoire en retenant à chaque instant une solution articulatoire (c’est-à-dire une forme de conduit vocal) parmi toutes celles fournies par l’inversion.
Une trajectoire articulatoire réaliste est une trajectoire dont les différents paramètres articulatoires
varient lentement avec le temps, et dont la trajectoire acoustique correspondante est très proche de celle
de départ. Cela exige la satisfaction de deux critères :
– la proximité avec les données acoustiques,
– la régularité des paramètres articulatoires.
Dans ce chapitre, nous présentons une méthode qui répond à ces exigences. Elle opère en deux
phases :
1. Déterminer une solution initiale (une trajectoire articulatoire) à partir des solutions obtenues par
inversion ;
2. Améliorer cette solution initiale par une méthode de régularisation variationnelle.
La première phase est un algorithme de lissage non-linéaire qui choisit une séquence de formes qui
n’est pas forcément définie à chaque instant. Pour ce faire, nous utilisons la programmation dynamique
13 Une trajectoire est la courbe décrite par un point matériel en mouvement ou le centre de gravité d’un mobile. Nous ne
considérons pas directement les articulateurs mais sept paramètres qui représentent les directions privilégiées de déformation
du conduit vocal. Le terme de trajectoire articulatoire pour représenter la courbe décrite par un paramètre articulatoire est donc
inapproprié car il ne concerne pas directement un objet physique. Cependant, nous conservons ce terme qui reflète bien la nature
mobile des articulateurs lors de la production de parole et qui est le terme classiquement utilisé.
57
Chapitre 5. Récupération des trajectoires articulatoires
afin de trouver les points à conserver. La deuxième phase est un algorithme de régularisation variationnelle qui minimise une fonction de coût combinant la distance acoustique et l’évolution des paramètres
articulatoires.
5.1
Algorithme de lissage non-linéaire
Notre algorithme est dérivé de l’algorithme de lissage non-linéaire de Ney [Ney, 1983]. En effet, les
techniques classiques de lissage linéaire ne donnent pas des résultats acceptables pour les courbes qui
présentent de fortes discontinuités. L’algorithme non-linéaire proposé est basé sur un critère global de
lissage de courbe. Ce critère est optimisé par une stratégie de programmation dynamique.
Dans le cas de l’inversion acoustico-articulatoire, il s’agit de choisir une séquence de formes articulatoires, qui éventuellement n’est pas définie à chaque instant.
Présentation de l’algorithme de lissage
Soit s(i) un ensemble de formes du conduit vocal (c’est-à-dire un ensemble de vecteurs articulatoires)
récupéré par inversion à l’instant i. L’objectif de l’algorithme est de trouver une trajectoire articulatoire
à partir de l’ensemble des formes de la séquences S :
S = (s(0)...s(i)...s(N))
(5.1)
où i représente les instants et N est le dernier instant d’un segment de parole.
La construction d’une trajectoire exige une double sélection :
– le choix des instants auxquels la trajectoire est définie, c’est-à-dire, le choix d’une sous-séquence
S de s définie par la fonction j telle que :
S = (s( j(0))...s( j(k))...s( j(K)))
(5.2)
Avec K < N et j est une fonction positive strictement croissante :
0 ≤ j(k) < j(k + 1) ≤ N
(5.3)
– le choix d’une forme dans chaque ensemble appartenant à la séquence S.
La forme choisie de l’ensemble s( j(k)) est notée α( j(k)), α( j(k)) ∈ IR7 , et la trajectoire articulatoire A
est donc :
A = (α( j(0)) ... α( j(k)) ... α( j(K))
Le coût C du choix de α( j(k)) après α( j(k − 1)) est donné par la fonction suivante :
58
(5.4)
5.2. Régularisation variationnelle
7
C(α( j(k)) , α( j(k − 1))) = λ ∑ mi (αi ( j(k)) − αi ( j(k − 1)))2
(5.5)
i=1
où λ est une constante de normalisation et les mi sont les masses associées aux différents paramètres
articulatoires.
Les masses associées aux différents articulateurs peuvent être les masses réelles de ces articulateurs,
ou bien une autre grandeur exprimant une réalité physique dans le système de production de la parole.
Les valeurs des masses sont déterminées généralement expérimentalement, ou bien fixées à 1 faute d’expérimentation ou de connaissances a priori.
Une fonction de coût global, basée sur le coût local, à minimiser pourrait être :
K
∑ C(α( j(k)) , α( j(k − 1)))
(5.6)
k=1
Néanmoins, du moment que le coût local est positif, une solution qui minimise la fonction peut être
réduite à un nombre très petit de formes, éventuellement une seule forme, ce qui n’est pas acceptable.
Dans le cas du lissage non-linéaire, Ney [Ney, 1983] introduit donc un bonus strictement positif B obtenu pour chaque forme préservée dans la trajectoire lissée (trajectoire finale). Ce bonus est déterminé
généralement expérimentalement. Le coût global devient donc :
K
D=
∑(
C(α( j(k)) , α( j(k − 1))) − B(α( j(k − 1))) )
(5.7)
k=1
La minimisation de D est obtenue par l’utilisation de la programmation dynamique qui donne lieu
au calcul de mesures partielles de D pour chaque forme dans chaque ensemble de formes s(i). Ce calcul
entraîne l’examen de toutes les formes dans tous les ensembles des formes qui précèdent s(i) car contrairement à l’application traditionnelle de la programmation dynamique, il s’agit d’un double mécanisme
de sélection : trouver le « meilleur instant » qui précède l’instant qui est en cours d’examen et parmi les
solutions articulatoires du « meilleur instant » trouver la meilleure solution articulatoire. Par conséquent,
il y a vraisemblablement un grand nombre de cas examinés qui sont inutiles . En effet, il suffit de parcourir les ensembles de formes se trouvant dans une fenêtre de taille prédéfinie, ce qui permet de réduire
le temps de calcul.
L’algorithme de lissage évite les points bruités ou incorrects mais il ne fournit pas de méthode pour
les remplacer, ce qui peut se faire par simple interpolation linéaire, ou encore, dans notre cas, lors de la
phase de régularisation variationnelle.
5.2 Régularisation variationnelle
L’algorithme de lissage non-linéaire, que nous venons de présenter permet d’obtenir des trajectoires
lisses. Néanmoins, il n’y a pas de garanties que les trajectoires vont être parfaitement lisses, puisque cela
dépend aussi de la qualité des points obtenus lors de l’inversion. En effet, pour certaines trajectoires, il
59
Chapitre 5. Récupération des trajectoires articulatoires
arrive qu’on ne trouve pas de points de bonne qualité14 en tout point de la trajectoire. Cela peut être dû à
un échantillonnage de l’espace nul qui n’est pas suffisamment fin.
Pour cette raison, nous faisons suivre notre algorithme de lissage non-linéaire d’une phase d’optimisation présentée dans [Laprie and Mathieu, 1998b] qui repose sur le calcul variationnel. À partir de la
solution initiale (la trajectoire obtenue par l’algorithme de lissage), on construit une suite de trajectoires
articulatoires qui optimise la distance acoustique et l’évolution des paramètres articulatoires. Nous présentons le principe de la méthode (pour les détails voir l’annexe D)
Cette méthode d’optimisation satisfait trois critères :
1. une bonne qualité acoustique, c’est-à-dire minimiser ∑3j=1 ( f j (t) − Fj (α(t))2 ;
où f j (t) sont les trajectoires formantiques extraites de la parole (les données du problème) et
Fj (α(t)) sont celles générées par le synthétiseur articulatoire ;
2. une trajectoire lisse, c’est-à-dire minimiser ∑7i=1 mi αi 2 (t) ;
où mi est la masse de l’articulateur i,
3. une trajectoire articulatoire réaliste, dans le sens qu’elle minimise l’effort articulatoire, en minimisant ∑7i=1 ki α2i (t) ; où ki est la constante de raideur de l’articulateur i.
Le premier critère exprime la proximité acoustique entre les trajectoires observées f j (t) et celles générées par le modèle articulatoire. Le deuxième critère exprime la vitesse de l’évolution des paramètres
articulatoires. Enfin, le troisième pénalise les efforts articulatoires trop intenses et évite au conduit vocal
d’atteindre des positions trop éloignées de la position de repos. Cette quantité représente l’énergie potentielle.
La fonction de coût à minimiser est donc de la forme suivante :
Z tf 3
I=
ti
∑ ( f j (t) − Fj (α(t))) dt + λ
j=1
2
Z tf 7
ti
∑
i=1
mi α2
i (t)dt + β
Z tf 7
ti
∑ ki α2i (t)dt
(5.8)
i=1
où ti et t f définissent l’intervalle de temps sur lequel l’inversion a lieu, λ et β expriment le compromis
entre la vitesse d’évolution des paramètres articulatoires, leur distance à la position de repos et la distance
acoustique.
La fonction I est minimisée avec le calcul variationnel, qui est basé sur un processus itératif. L’algorithme tend à améliorer la solution initiale dans l’optique d’avoir des trajectoires de plus en plus
régulières et une bonne proximité entre la parole prononcée par un locuteur et la parole synthétisée. Malheureusement, il n’y a pas de garanties que le minimum atteint soit celui recherché, d’où, l’importance
d’une bonne solution initiale. Pour cela, la première phase, c’est-à-dire la récupération d’une trajectoire
articulatoire par le lissage non-linéaire, est indispensable.
Nous présentons dans les Fig. 5.1 et 5.2 deux trajectoires obtenues par la méthode de lissage nonlinéaire (en trait continu) et ces mêmes trajectoires obtenues après l’optimisation variationnelle (en trait
14 “bonne qualité” veut dire qu’on n’arrive pas à trouver pour certains formants, les formes de conduit vocal pouvant faire
partie d’une trajectoire lisse.
60
5.2. Régularisation variationnelle
Paramètre apex de la langue
3
2
1
0
-1
-2
-3
2650
2700
2750
2800
2850
Temps
2900
2950
3000
F IG . 5.1 – Trajectoire articulatoire obtenue par lissage non-linéaire (trait continu). Trajectoire articulatoire obtenue
en appliquant la méthode d’optimisation variationnelle (trait discontinu).
0.2
Paramètre mâchoire
0.1
0
-0.1
-0.2
-0.3
-0.4
-0.5
10900
10950
11000
11050
Temps
11100
11150
11200
F IG . 5.2 – Trajectoire articulatoire obtenue par lissage non-linéaire (trait continu). Trajectoire articulatoire obtenue
en appliquant la méthode d’optimisation variationnelle (trait discontinu).
discontinu). Il est clair que la méthode d’optimisation donne une trajectoire lisse et tend à réduire les
distorsions présentes dans les trajectoires initiales.
Conclusion
Dans ce chapitre, nous nous sommes intéressés à la récupération des trajectoires articulatoires. Nous
avons présenté deux méthodes de lissage. La première est une méthode de lissage non-linéaire qui permet
de récupérer une trajectoire qui sera une solution initiale pour la deuxième étape qui est une méthode de
régularisation variationnelle. La seconde étape présente l’avantage d’effectuer une optimisation à la fois
dans l’espace articulatoire et dans l’espace acoustique. Comme nous le verrons dans le chapitre suivant,
ces deux méthodes complémentaires donnent de bons résultats.
61
Chapitre 5. Récupération des trajectoires articulatoires
62
Chapitre 6
Évaluations expérimentales de l’inversion
acoustico-articulatoire
Introduction
Après avoir présenté les différents éléments de notre méthode d’inversion, nous allons les utiliser
pour inverser des séquences acoustiques. En absence de données articulatoires réelles, nous ne pouvons
qu’évaluer la régularité des trajectoires articulatoires obtenues par inversion, la proximité acoustique visà-vis des données de départ et vérifier la vraisemblance articulatoire par rapport à des connaissances a
priori. Dans la deuxième partie de ce chapitre, nous présentons une étude sur la variabilité articulatoire
des voyelles. En effet, étant donné que le codebook hypercubique permet une couverture complète de
l’espace articulatoire, une étude exhaustive est possible.
6.1 Évaluations expérimentales : Récupération des trajectoires articulatoires
Afin de tester et évaluer notre méthode d’inversion expérimentalement, nous avons procédé à l’inversion de plusieurs séquences voyelle-voyelle(V-V),voyelle-voyelle-voyelle (VVV) et voyelle-consonnevoyelle (VCV). Nous disposons du spectrogramme de chaque séquence prononcée par le locuteur YL
et nous avons extrait les trajectoires des trois premiers formants. Notre méthode d’inversion nous a permis de récupérer, dans le codebook hypercubique, toutes les formes du conduit vocal correspondant à
ces séquences. Plus précisément, pour chaque segment acoustique nous obtenons plusieurs centaines
de formes articulatoires. Pour l’ensemble des séquences utilisées lors de l’évaluation expérimentale, ce
nombre varie entre 500 et 8.000 formes en fonction du pas d’échantillonnage de l’espace nul associé.
Pour ces expériences, nous avons pris un pas d’échantillonnage égal à 3, et donc un nombre d’échantillons inférieur ou égal à 81 = 34 .
Ensuite, nous appliquons l’algorithme de lissage non-linéaire pour obtenir des trajectoires articulatoires régulières et réalistes. Pour utiliser cet algorithme nous devons fixer les masses15 associées aux
articulateurs. Par défaut, nous pouvons affecter la même masse à tous les articulateurs, mais, nous avons
aussi étudié leur influence sur le comportement de l’algorithme.
15 Par
le terme « masse », nous entendons une pondération que l’on associe à un paramètre articulatoire.
63
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
Le processus de lissage se termine par la régularisation variationnelle de la trajectoire obtenue pour
garantir simultanément une bonne proximité acoustique et la régularité des trajectoires articulatoires. Les
valeurs des pseudo-masses des articulateurs et des constantes de raideur sont alors fixées à 1.
6.1.1
Inversion de séquences de voyelles
Nous commençons par présenter un exemple d’inversion de la séquence / /. Dans la Fig. 6.2, nous
présentons le spectrogramme, les formants mesurés et ceux des solutions de l’inversion.
Nous remarquons que toutes les solutions présentent une bonne proximité acoustique, ce qui montre
que la méthode d’inversion et le codebook hypercubique représentent bien le comportement acoustique
du modèle articulatoire. Le schéma du bas de la Fig. 6.2 présente les trajectoires formantiques récupérées après le lissage non-linéaire et celles obtenues après la régularisation. Rappelons que la méthode
d’optimisation variationnelle que nous utilisons effectue un lissage dans les deux espaces articulatoire
et acoustique. Il apparaît clairement que la proximité acoustique est toujours bonne et les trajectoires
formantiques obtenues sont lisses.
Afin d’assurer l’interprétation des résultats dans l’espace articulatoire, la Fig. 6.1 donne la correspondance articulatoire pour tous les paramètres du modèle de Maeda.
Larynx
Mâchoire
fermé
+3
bas
haut/arrière
bas/avant
+3
ouvertes/protruites
fermées/non protruites
Lèvres
Langue
-3
+3
ouvert
-3
-3
+3
haut
-3
F IG . 6.1 – Variation en écart type des paramètres articulatoires associés à la mâchoire, la langue, les lèvres et
le larynx. Chaque paramètre varie dans l’intervalle [-3,3] écart type. Par exemple, le paramètre correspondant à
la mâchoire varie entre +3 (fermeture de la mâchoire) et -3 (ouverture complète). Rappelons que dans le modèle
articulatoire de Maeda, il y a 2 paramètres associés aux lèvres (ouverture et protrusion), trois paramètres associés à
la langue ( position du corps de la langue, forme de la langue et position de l’apex), un paramètre pour la mâchoire
et un dernier pour le larynx.
La Fig. 6.3 donne les résultats de l’inversion de la séquence / / dans l’espace articulatoire pour
chacun des sept paramètres articulatoires. Les trajectoires de tous les paramètres sont lisses. De plus
ces trajectoires lisses sont réalistes. En effet, nous retrouvons dans ces trajectoires le déplacement de la
langue vers l’arrière pour réaliser le passage de / / vers / / et inversement. De même, nous remarquons
que les lèvres se ferment lorsque l’on passe de / / vers / /. La protrusion des lèvres est moins importante
64
6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires
que les autres variations, mais elle existe.
3000
2500
Formants
2000
1500
1000
500
0
7300
7350
7400
7450
7500
7550
7600
7650
7700
7750
7800
F IG . 6.2 – L’inversion de la séquence / /. De haut en bas : le spectrogramme, les formants originaux et toutes les
solutions trouvées dans le codebook et enfin les formants obtenus par l’algorithme de lissage non-linéaire et après
régularisation (les trajectoires lisses ).
Notre méthode de lissage non-linéaire permet d’obtenir des trajectoires articulatoires qui varient lentement dans le temps en minimisant l’effort articulatoire. À partir de ces trajectoires, la méthode d’optimisation variationnelle permet d’améliorer la régularité des trajectoires articulatoires et formantiques
tout en respectant la proximité acoustique.
65
3
2500
2
2000
1
1500
-1
500
-2
7350
7400
7450
7500
7550
7600
7650
7700
7750
-3
7300
7800
3
3
2
2
1
0
-1
7350
7400
7450
7500
7550
7600
7650
7700
7750
7500
7550
7600
7650
7700
7750
7800
7350
7400
7450
7500
7550
7600
7650
7700
7750
7800
7350
7400
7450
7500
7550
7600
7650
7700
7750
7800
7350
7400
7450
7500
7550
7600
7650
7700
7750
7800
-1
3
2
2
1
0
-1
-2
1
0
-1
-2
7350
7400
7450
7500
7550
7600
7650
7700
7750
-3
7300
7800
3
2
2
Hauteur du larynx
3
1
0
-1
-2
-3
7300
7450
0
3
-3
7300
7400
1
-3
7300
7800
Ouverture des lèvres
L’apex de la langue
-3
7300
7350
-2
-2
Protrusion des lèvres
0
1000
0
7300
Position du corps de la langue
Mâchoire
3000
Forme du corps de la langue
Formants
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
1
0
-1
-2
7350
7400
7450
7500
7550
7600
7650
7700
7750
7800
-3
7300
F IG . 6.3 – Trajectoires des différents paramètres articulatoires de la séquence / /. Présentation des trajectoires
obtenues par l’algorithme de lissage non-linéaire et le résultat de l’optimisation variationnelle (les trajectoires
lisses).
Dans l’ annexe B, nous présentons plusieurs exemples complets d’inversion /
/. Pour chaque cas, nous présentons les formants et les trajectoires des sept paramètres articulatoires.
66
6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires
Dans cette section, nous présentons des exemples d’inversion de séquences V-V (Fig. 6.4, 6.5, 6.6,
6.7, 6.8 et 6.9). Afin de simplifier les figures, nous présentons seulement les paramètres articulatoires les
plus caractéristiques de chaque séquence.
Pour la séquence / /(Fig. 6.4), nous observons le déplacement de la mâchoire d’une position élevée
vers une position ouverte pour réaliser le passage de la voyelle / / vers la voyelle / /. Ce déplacement est
accompagné par un recul de la langue.
[ia]
[ia]
3000
P1
P2
P3
4
2500
3
2
Formants
2000
1
1500
0
1000
-1
500
-2
0
-3
1500
1550
1600
1650
1700
1750
1800
1850
1500
1550
1600
1650
1700
1750
1800
1850
F IG . 6.4 – Séquence /ia/. Représentation des trajectoires formantiques et les trajectoires articulatoires de trois
paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P2 la position du corps de la
langue et P3 la forme du corps de la langue.
[ai]
[ai]
3000
P1
P2
P3
4
2500
3
2
Formants
2000
1
1500
0
1000
-1
500
-2
0
-3
600
650
700
750
800
850
600
650
700
750
800
850
F IG . 6.5 – Séquence /ai/. Représentation des trajectoires formantiques et les trajectoires articulatoires de trois
paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P2 la position du corps de la
langue et P3 la forme du corps de la langue.
Pour la séquence / / (Fig. 6.5), nous remarquons un déplacement de la mâchoire d’une position
ouverte vers une position fermée. Les mouvements de la mâchoire et du corps de la langue se font pratiquement dans le sens inverse de ceux de la séquence / /. Néanmoins, il y a certaines différences. Tout
d’abord, pour /a/ la mâchoire est plus ouverte pour /ai/ que pour la séquence / /. Mais la variation la plus
67
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
importante est celle de la forme de la langue. En effet, l’élévation du corps de la langue est faible pour
la séquence / / et l’abaissement du corps de la langue est plus important pour la séquence / /. Cette
différence de comportement peut être expliqué par le fait que l’élévation du corps de la langue est plus
critique pour la voyelle / / que l’abaissement ne l’est pour la voyelle / /. Pour cela, on pourrait produire
la séquence / / avec une voyelle / / moins ouverte.
La Fig. 6.6 montre les résultats pour la séquence / /. Le passage du / / vers / / est réalisé principalement par l’élévation de la langue et la fermeture des lèvres. La séquence / / (Fig. 6.7) présente les
mêmes variations, mais dans l’autre sens, c’est-à-dire le passage / / vers / /. Dans ces deux exemples, la
protrusion des lèvres n’a pas été sollicitée. Cela n’est pas très naturel mais il est établi que la protrusion
n’est pas toujours nécessaire pour la production du / /.
[au]
[au]
2400
P1
P3
P5
P6
4
2200
2000
3
1800
Formants
2
1600
1400
1
1200
0
1000
800
-1
600
-2
400
200
-3
3650
3700
3750
3800
3850
3900
3950
3650
3700
3750
3800
3850
3900
3950
F IG . 6.6 – Séquence /au/. Représentation des trajectoires formantiques et les trajectoires articulatoires de quatre
paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P3 la forme du corps de la
langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres.
[ua]
[ua]
2400
P1
P3
P5
P6
4
2200
2000
3
1800
Formants
2
1600
1
1400
1200
0
1000
-1
800
-2
600
400
-3
2650
2700
2750
2800
2850
2900
2950
3000
2650
2700
2750
2800
2850
2900
2950
3000
F IG . 6.7 – Séquence /ua/. Représentation des trajectoires formantiques et les trajectoires articulatoires de quatre
paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P3 la forme du corps de la
langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres.
Pour la séquence /
68
/ (Fig. 6.8), nous voyons que le passage de la voyelle / / vers la voyelle / / se
6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires
fait principalement par l’avancement du corps de la langue et la fermeture des lèvres. De même que pour
le cas du /u/, la protrusion pour la voyelle /y/ n’est pas très significative.
[ay]
[ay]
2400
P1
P2
P5
P6
4
2200
2000
3
1800
Formants
2
1600
1
1400
1200
0
1000
-1
800
-2
600
400
-3
7150
7200
7250
7300
7350
7400
7450
7150
7200
7250
7300
7350
7400
7450
F IG . 6.8 – Séquence /ay/. Représentation des trajectoires formantiques et les trajectoires articulatoires de quatre
paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P2 la position du corps de la
langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres.
[iy]
[iy]
3000
P1
P3
P5
P6
4
2500
3
2
Formants
2000
1
1500
0
1000
-1
500
-2
0
-3
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
F IG . 6.9 – Séquence /iy/. Représentation des trajectoires formantiques et les trajectoires articulatoires de quatre
paramètres parmi les sept du modèle articulatoire. P1 est la position de la mâchoire, P3 la forme du corps de la
langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres.
Pour la séquence / / (Fig. 6.9), le seul paramètre qui semble changer est la forme de la langue alors
que l’on devrait observer la protrusion des lèvres de /i/ à /y/. Il faut d’abord noter que mis à part la protrusion des lèvres, ces deux voyelles sont très proches dans l’espace articulatoire.
Comme le montrent les figures 4.6 et 4.7 du chapitre 4, il existe un très grand nombre de points
inverses possibles à chaque instant. L’algorithme de lissage choisit une solution parmi un grand nombre
d’autres trajectoires qui donneraient exactement les mêmes paramètres acoustiques. La solution trouvée
pour /iy/ minimise l’effort du locuteur puisqu’un seul paramètre varie notablement, mais il ne s’agit pas
de la protrusion. Il est vraisemblable que la solution attendue qui nécessite le mouvement des lèvres
est jugée plus coûteuse puisqu’elle implique à la fois l’ouverture et la protrusion des lèvres. Pour cette
69
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
raison, nous ajouterons à notre algorithme la possibilité de fixer l’allure de la trajectoire de l’un des paramètres (ici la protrusion) de manière à vérifier que la solution attendue est effectivement possible.
Malgré tout il est clair qu’il faut considérer notre méthode d’inversion comme un banc d’essai pour
évaluer le mérite de contraintes destinées à assurer que les solutions récupérées sont bien cohérentes
avec les connaissances articulatoires actuelles. Nous ne développerons pas ici cette question importante
qui fera l’objet de la suite de notre travail et nous décrivons seulement les investigations que nous avons
conduites au sujet de l’influence des paramètres de masses sur l’inversion.
Il reste que, même si les solutions récupérées ne respectent pas toujours les mouvements articulatoires attendues, elles sont infiniment plus réalistes que les trajectoires de la Fig. 6.10 tirées du travail de
[Richards et al., 1997].
F IG . 6.10 – Trajectoires articulatoires retrouvées à partir d’un codebook en utilisant des contraintes dynamiques
par la méthode d’inversion présentée dans [Richards et al., 1997].
6.1.2
Choix des masses
Dans ces expériences, nous avons affecté les mêmes masses aux articulateurs. En réalité, les différents articulateurs n’ont pas la même masse, celle de la langue par exemple est beaucoup plus importante
que celle des lèvres.
La masse seule ne suffit d’ailleurs pas à assurer la fidélité avec le comportement biomécanique des
articulateurs car il faut plutôt prendre en compte la puissance musculaire des articulateurs. Considérant
que les paramètres de pseudo-masse de l’algorithme peuvent représenter le compromis masse-puissance
70
6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires
musculaire, nous avons étudié comment les résultats étaient influencés par les pseudo-masses.
3
P1
P2
P3
2
1
0
-1
-2
-3
1450
1500
1550
1600
1650
1700
1750
1800
1850
1900
F IG . 6.11 – Trajectoires articulatoires de la séquence /ia/ dans le cas où toutes les masses sont égales. P1 est la
position de la mâchoire, P2 la position du corps de la langue et P3 la forme du corps de la langue.
3
P1
P2
P3
2
1
0
-1
-2
-3
1450
1500
1550
1600
1650
1700
1750
1800
1850
1900
F IG . 6.12 – Trajectoires articulatoires de la séquence /ia/ dans le cas où l’on affecte une masse importante à la
mâchoire et moins importante pour les autres articulateurs. P1 est la position de la mâchoire, P2 la position du
corps de la langue et P3 la forme du corps de la langue.
Pour cela, nous avons réalisé une expérience d’inversion de la séquence / / en affectant une masse
importante à l’articulateur mâchoire et des masses moins importantes pour le reste des articulateurs. Dans
cette expérience, nous avons affecté une masse à la mâchoire 5 fois plus grande que les masses des autres
articulateurs. Notons ici que le choix de la valeur 5 est absolument arbitraire : tout ce qui nous intéresse
dans ce choix est d’étudier les répercutions sur les résultats. Afin de minimiser l’énergie de la fonctionnelle, notre méthode de régularisation va réduire les mouvements de la mâchoire. Nous observons en
effet que le mouvement de la mâchoire est moins important dans la Fig. 6.12 que dans la Fig. 6.11. Ce
changement de trajectoire est compensé par la réorganisation du mouvement des autres articulateurs.
Remarquons en particulier que la variation de la position du corps de la langue dans le premier cas est
moins importante que dans le deuxième cas, ce qui signifie que la langue a compensé le déplacement
moindre de la mâchoire. Nous avons observé ce phénomène de compensation à plusieurs reprises (voir
les exemples de l’annexe B, particulièrement les séquences /
/). En changeant les valeurs des
71
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
masses, on agit donc sur les trajectoires.
[ay]
4
P1
P5
P6
3
2
1
0
-1
-2
-3
7100
7150
7200
7250
7300
7350
7400
7450
F IG . 6.13 – Trajectoires articulatoires de la séquence /ay/ dans le cas où toutes les masses sont égales. P1 est la
position de la mâchoire, P5 l’ouverture des lèvres et P6 la protrusion des lèvres.
[ay]
4
P1
P5
P6
3
2
1
0
-1
-2
-3
7100
7150
7200
7250
7300
7350
7400
7450
F IG . 6.14 – Trajectoires articulatoires de la séquence /ay/ dans le cas où l’on affecte une masse importante à la
mâchoire et moins importante pour les autres articulateurs. P1 est la position de la mâchoire, P5 l’ouverture des
lèvres et P6 la protrusion des lèvres.
Dans une autre expérience d’inversion de la séquence / /, nous avons affecté des masses très importantes à la mâchoire et aux lèvres (50 fois la masse des autres articulateurs). Ceci ne correspond pas
à une réalité physique, mais nous avons réalisé cette expérience pour voir comment cela influence le
comportement d’un articulateur assez « rapide » . Dans les Fig. 6.13 et 6.14, nous présentons les trajectoires articulatoires associées à la mâchoire (P1), l’ouverture (P5) et la protrusion (P6) des lèvres.
Dans la Fig. 6.13, nous présentons le cas où toutes les masses sont égales. Enfin, dans la Fig. 6.14, nous
présentons le cas où les masses associées à la mâchoire et aux lèvres sont plus importantes que celles
associées aux autres articulateurs. Nous remarquons que dans le dernier cas les trajectoires associées
à la mâchoire et aux lèvres varient faiblement (ce qu’il est aussi possible de voir dans les animations
présentées à l’annexe E). La compensation implique ici principalement la langue et le larynx. En effet,
le ventriloque immobilise sa mâchoire et ses lèvres quand il parle, ce que nous traduisons en affectant
des masses importantes à la mâchoire et aux lèvres. Nous imposons ainsi à notre méthode de lissage de
trouver une trajectoire articulatoire où la mâchoire et les lèvres bougent peu.
72
6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires
[ua]
P1
P3
P5
P6
4
3
2
1
0
-1
-2
-3
2650
2700
2750
2800
2850
2900
2950
3000
F IG . 6.15 – Trajectoires articulatoires de la séquence /ua/ dans le cas où l’on affecte des masses 5 fois plus
importantes pour la mâchoire, la position du corps de la langue et le larynx que pour les autres articulateurs. P1
est la position de la mâchoire, P3 la forme du corps de la langue, P5 l’ouverture des lèvres et P6 la protrusion des
lèvres.
[iy]
P1
P3
P5
P6
4
3
2
1
0
-1
-2
-3
8150
8200
8250
8300
8350
8400
8450
F IG . 6.16 – Trajectoires articulatoires de la séquence /iy/ dans le cas où l’on affecte des masses 5 fois plus
importantes pour la mâchoire, l’apex de la langue et le larynx que pour les autres articulateurs. P1 est la position
de la mâchoire, P3 la forme du corps de la langue, P5 l’ouverture des lèvres et P6 la protrusion des lèvres.
Reprenons le cas de la séquence / /. Nous avons obtenu les trajectoires articulatoires de la Fig. 6.7
en affectant la même masse aux différents articulateurs. Nous avons vu que la protrusion des lèvres
n’a pas été sollicitée pour la voyelle / /. Mais, nous remarquons que la voyelle / / est accompagnée en
général par la protrusion, éventuellement faible, des lèvres. Peut-on retrouver une trajectoire où cette
protrusion est réalisée ? Cela est possible, si on détermine la bonne combinaison des masses affectées
aux articulateurs. Nous avons essayé de forcer l’algorithme de lissage pour obtenir une trajectoire ayant
un mouvement des lèvres de l’avant vers l’arrière, pour cette séquence. Pour cela, nous avons varié les
valeurs des masses. Nous avons obtenu la protrusion pour les valeurs de masses suivantes : les masses
affectées à la mâchoire, au corps de la langue et au larynx sont 5 fois plus fortes que celles affectées aux
autres articulateurs (voir Fig. 6.15).
Nous avons fait la même manipulation pour la séquence / /, pour laquelle nous avons vu qu’il n’y
avait pas de protrusion des lèvres si la même masse était attribuée à tous les articulateurs (voir Fig. 6.9).
73
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
Pour obtenir une trajectoire avec une protrusion des lèvres, il faudrait choisir des masses pour la mâchoire, l’apex de la langue et le larynx 5 fois plus importantes que celles affectées aux autres articulateurs
(voir Fig. 6.16).
Ces expériences nous permettent de tirer deux conclusions. La première est que notre méthode de
lissage permet d’étudier plusieurs types de stratégies articulatoires en modifiant les masses associées aux
articulateurs. Cela est intéressant, par exemple, pour étudier les effets compensatoires et les relations
interarticulateurs, et en particulier pour trouver des alternatives d’articulation dans le cas d’un dysfonctionnement de l’un des organes du conduit vocal.
La deuxième conclusion est que le choix des masses en fonction de l’importance apparente des articulateurs n’est pas vraiment une bonne solution. En effet, comme nous l’avons vu dans ces exemples, une
masse importante tend à immobiliser l’articulateur. Par conséquent, si on associe une masse importante à
la mâchoire, on obtient des trajectoires articulatoires pour lesquelles la mâchoire varie peu. Néanmoins,
on constate en général que la mâchoire est souvent sollicitée dans la production de la parole. En effet,
la masse de la mâchoire est importante, mais en contrepartie elle dispose d’une musculature assez puissante, ce qui rend son mouvement facile. La même remarque est aussi valable pour la langue dont les
muscles ont comme vocation première d’assurer la mastication, activité plus exigeante d’un point de vue
musculaire que la production de parole.
D’après les deux dernières expériences, nous constatons que nous n’avons pas la même combinaison
de masses pour produire une action précise. Cela renforce l’idée que ces masses représentent plutôt un
rapport de masse-puissance musculaire que de simples masses des organes articulatoires. La recherche
des bonnes valeurs de ces masses n’est pas simple. Nous pensons qu’il serait intéressant d’effectuer un
apprentissage sur un grand nombre d’expériences d’inversion pour pouvoir choisir la bonne combinaison
de masses. Lorsque nous disons une « bonne » combinaison de masses, nous voulons dire que les valeurs
de masse retenues permettent de retrouver les trajectoires articulatoires qui sont généralement observées
chez un locuteur humain. Cela ne veut d’ailleurs pas dire qu’un autre choix de masses serait forcément
mauvais, puisque la variabilité articulatoire existe (voir la section 6.1.3).
En absence de connaissances suffisantes sur les forces musculaires des articulateurs de la parole,
nous conservons pour l’instant la même masse pour tous les articulateurs, pour obtenir des trajectoires
articulatoires réalistes. Nous pensons, néanmoins, qu’il sera intéressant d’étudier ce problème en effectuant un apprentissage sur des trajectoires prototypes et en s’inspirant des travaux sur la modélisation
biomécanique du conduit vocal et sur la théorie du contrôle moteur de la parole.
Influence de la configuration de départ sur les trajectoires articulatoires
Dans la section précédente, nous avons noté qu’avec notre méthode de lissage non-linéaire nous
n’arrivons pas à trouver une trajectoire avec une protrusion des lèvres dans une séquence de voyelles
contenant la voyelle /u/ sauf si l’on choisit une bonne combinaison de masses. Nous allons présenter
dans ce paragraphe un moyen pour obtenir une trajectoire avec la protrusion des lèvres, sans modifier les
masses.
Prenons l’exemple de la transition /ui/. Dans Fig. 6.17, nous présentons les trajectoires articulatoires
obtenues pour trois paramètres articulatoires (la mâchoire, la langue et la protrusion des lèvres), avec des
masses qui sont toutes égales. Dans cette figure, on voit bien que la protrusion des lèvres est très faible
pour la voyelle /u/.
74
6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires
3
2
1
0
-1
-2
-3
5950
6000
6050
6100
6150
6200
6250
F IG . 6.17 – Trajectoires articulatoires de la séquence /ui/ dans le cas où l’on affecte la même masse pour tous les
articulateurs. Les trajectoires présentées sont : la mâchoire (+), la langue (×) et la protrusion des lèvres (∗).
3
2
1
0
-1
-2
-3
5950
6000
6050
6100
6150
6200
6250
F IG . 6.18 – Trajectoires articulatoires de la séquence /ui/ dans le cas où l’on affecte la même masse pour tous les
articulateurs. Dans ce cas, on fixe la configuration du conduit vocal de départ (/u/ avec une protrusion importante
et égale à 3σ) et on impose à la méthode de lissage non-linéaire de partir de cette configuration pour trouver une
trajectoire lisse. Les trajectoires présentées sont : la mâchoire (+), la langue (×) et la protrusion des lèvres (∗).
Afin de pouvoir trouver une trajectoire avec une protrusion importante des lèvres, nous avons imposé
à la méthode de lissage non-linéaire de partir d’une configuration de conduit vocal où /u/ est accompagnée de la protrusion des lèvres. De cette façon, la méthode de lissage non-linéaire tend à retrouver la
trajectoire la plus lisse, en prenant en compte cette configuration de départ. Le résultat de cette procédure est présenté dans la figure 6.18. En fixant la configuration de départ, nous obtenons une trajectoire
où la protrusion est bien visible. Il faut noter que nous n’avons pas modifié l’ensemble des trajectoires
articulatoires potentielles, mais le fait de forcer l’algorithme de programmation dynamique à partir d’une
configuration articulatoire avec les lèvres très protruites permet de faire émerger la solution de la figure
6.18.
Cette expérience montre l’importance du choix de la configuration de départ sur la nature de la
trajectoire articulatoire obtenue. De plus, nous notons aussi la variabilité des trajectoires obtenues qui
75
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
sont toutes réalisables a priori. Maintenant, il reste à définir comment on peut introduire le choix de la
configuration de départ dans nos algorithmes.
6.1.3
Quelles trajectoires articulatoires choisir : la variabilité articulatoire
Nos méthodes d’inversion et de lissage permettent d’étudier les trajectoires articulatoires qui satisfont les critères de régularité et de proximité que nous avons fixés.
À ce stade de notre travail, une question s’impose : le locuteur choisit-il effectivement une trajectoire
parmi celles que nous avons trouvées ?
Tout ce que nous pouvons dire est que ces trajectoires sont réalisables par le modèle articulatoire
et vraisemblablement par un locuteur humain, éventuellement doté d’un contrôle moteur peu banal. En
effet, nous avons développé un outil d’animation de conduit vocal pour pouvoir suivre l’évolution temporelle des formes du conduit vocal. Cet outil permet de juger visuellement le réalisme des formes obtenues.
Seule une comparaison avec des données réelles permettrait d’évaluer le réalisme des trajectoires
articulatoires. Mais cela est loin d’être simple. En effet, les données réelles sous formes d’images médicales ou de tracées électropalatographiques ne sont pas facilement disponibles et sont toujours très
limitées en quantité. Qui plus est, la récupération des paramètres articulatoires à partir des images du
conduit vocal nécessite elle même une étape d’optimisation qui peut être influencée par l’adéquation du
modèle au locuteur étudié. Enfin, nous ne pouvons pas affirmer que si la trajectoire trouvée par l’inversion ne correspond pas à celle réalisée par le locuteur étudié, elle ne pourrait pas être réalisée par un autre
locuteur.
En présence de plusieurs trajectoires articulatoires réalisables se pose la question suivante : quelle
trajectoire choisir ? Pourquoi un locuteur donné choisit-il une trajectoire plutôt qu’une autre ? Pourquoi
un même locuteur change-t-il parfois de stratégie articulatoire ?
Plusieurs travaux ont montré l’existence de la variabilité articulatoire interlocuteurs ou intralocuteur [Raphael and Bell-Berti, 1975; Maeda, 1990; Johnson et al., 1993]. Dans [Johnson et al., 1993], les
auteurs ont observé des images aux rayons X de 5 locuteurs lors de la production de voyelles de l’anglais
américain et ont trouvé que cette variabilité existe. Ils ont aussi montré que la variabilité intralocuteur
dépend du rythme d’élocution mais que pour une même vitesse de locution chaque locuteur utilise la
même stratégie d’articulation, même si cette stratégie peut varier suivant le locuteur.
La variabilité articulatoire interlocuteurs peut être expliquée par les différences anatomiques du
conduit vocal. Par exemple, [Edwards and Harris, 1990] ont montré que les locuteurs ayant le maxillaire en avant présentent un mouvement de translation de la mâchoire plus importante que les locuteurs
moyens. En revanche, ces locuteurs positionnent la langue plus en arrière.
Il existe d’autres explications possibles. La rapidité d’élocution entraîne une réorganisation articulatoire. La parole « bien articulée » correspond à des mouvements de la mâchoire plus importants que
par la parole spontanée. Le contexte a aussi une influence sur la nature des trajectoires articulatoires :
dans un contexte CV, par exemple, les trajectoires des voyelles peuvent varier suivant la consonne qui
précède la voyelle. Mais la variabilité articulatoire peut aussi résulter du choix d’un style articulatoire
par habitude personnelle ou par convention sociale [Johnson et al., 1993].
76
6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires
6.1.4
Inversion de séquences V-C-V
Nous avons procédé à l’inversion de séquences V-C-V, non pas dans le but d’inverser les consonnes
puisque ceci n’est pas possible avec notre méthode tant que nos données acoustiques sont les formants
et que le modèle articulatoire que nous utilisons ne correspond pas aux consonnes, mais pour vérifier
si les trajectoires obtenues sont cohérentes avec la réalisation d’une constriction caractéristique du lieu
d’articulation de la consonne.
Dans l’annexe ??, nous présentons l’ensemble de nos expériences sur les séquences V-C-V. Les
consonnes utilisées dans ces séquences sont /g/, /t/ et /b/ dont les articulateurs critiques sont respectivement, le corps de la langue, l’apex de la langue et les lèvres. Les formants correspondent aux voyelles,
et il n’y a pas de formants pour les consonnes. L’inversion est donc faite de part et d’autre de la consonne.
Les Fig. 6.19, 6.20, 6.21, 6.22 et 6.23 montrent les séquences pour lesquelles nous pouvons effectivement observer une variation des paramètres de manière à réaliser l’occlusion.
En effet, pour la séquence /aba/ (Fig. 6.19), le paramètre ouverture des lèvres décroît, et donc, les
lèvres se ferment pour réaliser l’occlusion au niveau de la consonne, et croît ensuite lorsque les lèvres
s’ouvrent juste après la consonne. Nous remarquons le même phénomène pour la séquence /aga/ et /uga/
(Fig. 6.20 et 6.23), mais le paramètre critique cette fois est le corps de la langue. Pour les séquences /ata/
et /atu/ (Fig. 6.21 et 6.22), nous remarquons un mouvement de la langue vers le haut pour réaliser une
occlusion, mais cela se remarque dans la trajectoire du corps de la langue plus que dans la trajectoire de
l’apex de la langue. Toutefois, pour ces deux exemples, l’apex est positionné vers le haut, ce qui voudrait
dire que l’avancement de la langue suffit pour produire l’occlusion pour la consonne /t/.
D’autres expériences d’inversion de séquences V-C-V montrent aussi la formation de l’occlusion
pour le triplet test de consonnes (voir les séquences /utu/, /uga/, /agu/, /atu/ et /uta/ à l’annexe ??), mais
la formation de l’occlusion apparaît plus nettement dans les animations des trajectoires articulatoires que
nous avons réalisées avec notre logiciel d’animation qui montre l’évolution de la forme du conduit vocal
et non pas seulement les paramètres du modèle de Maeda.
Pour les expériences restantes (voir les séquences /ibi/, /igi/, /iti/, /ubu/ et /ugu/ à l’annexe ??), le
mouvement destiné à réaliser la constriction est difficile à interpréter. Cela s’explique, peut être, en
partie par le fait que les formants correspondant aux formes de conduit présentant une forte constriction
n’ont pas été calculés. Par conséquent, le codebook couvre mal les régions articulatoires qui décrivent les
consonnes. Une autre explication est la brièveté de ces séquences pour lesquelles l’algorithme d’inversion
ne s’appuie que sur un nombre de points insuffisant pour exploiter les contraintes de régularité. Enfin
nous n’avons pas pris en compte l’énergie des spectres produits par le modèle de Maeda ce qui est
important pour les consonnes.
77
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
2400
3
2200
2
2000
1800
Mâchoire
Formants
1
1600
1400
1200
0
-1
1000
800
-2
600
12700
12750
12800
12850
12900
12950
13000
-3
12650
13050
3
3
2
2
Forme du corps de la langue
Position du corps de la langue
400
12650
1
0
-1
-2
12700
12750
12800
12850
12900
12950
13000
12900
12950
13000
13050
12700
12750
12800
12850
12900
12950
13000
13050
12700
12750
12800
12850
12900
12950
13000
13050
12700
12750
12800
12850
12900
12950
13000
13050
-1
-3
12650
13050
2
2
1
0
-1
-2
1
0
-1
-2
12700
12750
12800
12850
12900
12950
13000
-3
12650
13050
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
12850
0
3
1
0
-1
-2
-3
12650
12800
1
3
-3
12650
12750
-2
Ouverture des lèvres
L’apex de la langue
-3
12650
12700
1
0
-1
-2
12700
12750
12800
12850
12900
12950
13000
13050
-3
12650
F IG . 6.19 – Trajectoires articulatoires de la séquence /aba/
78
6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires
2400
3
2200
2
2000
1800
Mâchoire
Formants
1
1600
1400
1200
0
-1
1000
800
-2
600
17350
17400
17450
17500
17550
17600
17650
17700
-3
17300
17750
3
3
2
2
Forme du corps de la langue
Position du corps de la langue
400
17300
1
0
-1
-2
17350
17400
17450
17500
17550
17600
17650
17700
17550
17600
17650
17700
17750
17350
17400
17450
17500
17550
17600
17650
17700
17750
17350
17400
17450
17500
17550
17600
17650
17700
17750
17350
17400
17450
17500
17550
17600
17650
17700
17750
-1
-3
17300
17750
2
2
1
0
-1
-2
1
0
-1
-2
17350
17400
17450
17500
17550
17600
17650
17700
-3
17300
17750
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
17500
0
3
1
0
-1
-2
-3
17300
17450
1
3
-3
17300
17400
-2
Ouverture des lèvres
L’apex de la langue
-3
17300
17350
1
0
-1
-2
17350
17400
17450
17500
17550
17600
17650
17700
17750
-3
17300
F IG . 6.20 – Trajectoires articulatoires de la séquence /aga/
79
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
2400
3
2200
2
2000
1800
Mâchoire
Formants
1
1600
1400
1200
0
-1
1000
800
-2
600
21750
21800
21850
21900
21950
22000
22050
22100
-3
21700
22150
3
3
2
2
Forme du corps de la langue
Position du corps de la langue
400
21700
1
0
-1
-2
21750
21800
21850
21900
21950
22000
22050
22100
22150
21950
22000
22050
22100
22150
22200
21750
21800
21850
21900
21950
22000
22050
22100
22150
22200
21750
21800
21850
21900
21950
22000
22050
22100
22150
22200
21750
21800
21850
21900
21950
22000
22050
22100
22150
22200
-1
-3
21700
22200
2
2
1
0
-1
-2
1
0
-1
-2
21750
21800
21850
21900
21950
22000
22050
22100
22150
-3
21700
22200
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
21900
0
3
1
0
-1
-2
-3
21700
21850
1
3
-3
21700
21800
-2
Ouverture des lèvres
L’apex de la langue
-3
21700
21750
1
0
-1
-2
21750
21800
21850
21900
21950
22000
22050
22100
22150
22200
-3
21700
F IG . 6.21 – Trajectoires articulatoires de la séquence /ata/
80
6.1. Évaluations expérimentales : Récupération des trajectoires articulatoires
2400
3
2200
2
2000
1800
Mâchoire
Formants
1
1600
1400
1200
0
-1
1000
800
-2
600
28750
28800
28850
28900
28950
29000
29050
29100
-3
28700
29150
3
3
2
2
Forme du corps de la langue
Position du corps de la langue
400
28700
1
0
-1
-2
28750
28800
28850
28900
28950
29000
29050
29100
28950
29000
29050
29100
29150
28750
28800
28850
28900
28950
29000
29050
29100
29150
28750
28800
28850
28900
28950
29000
29050
29100
29150
28750
28800
28850
28900
28950
29000
29050
29100
29150
-1
-3
28700
29150
2
2
1
0
-1
-2
1
0
-1
-2
28750
28800
28850
28900
28950
29000
29050
29100
-3
28700
29150
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
28900
0
3
1
0
-1
-2
-3
28700
28850
1
3
-3
28700
28800
-2
Ouverture des lèvres
L’apex de la langue
-3
28700
28750
1
0
-1
-2
28750
28800
28850
28900
28950
29000
29050
29100
29150
-3
28700
F IG . 6.22 – Trajectoires articulatoires de la séquence /atu/
81
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
2400
3
2200
2
2000
1800
1
Mâchoire
Formants
1600
1400
1200
0
1000
-1
800
600
-2
400
31800
31850
31900
31950
32000
32050
32100
32150
-3
31750
32200
3
3
2
2
Forme du corps de la langue
Position du corps de la langue
200
31750
1
0
-1
-2
31800
31850
31900
31950
32000
32050
32100
32150
32000
32050
32100
32150
32200
31800
31850
31900
31950
32000
32050
32100
32150
32200
31800
31850
31900
31950
32000
32050
32100
32150
32200
31800
31850
31900
31950
32000
32050
32100
32150
32200
-1
-3
31750
32200
2
2
1
0
-1
-2
1
0
-1
-2
31800
31850
31900
31950
32000
32050
32100
32150
-3
31750
32200
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
31950
0
3
1
0
-1
-2
-3
31750
31900
1
3
-3
31750
31850
-2
Ouverture des lèvres
L’apex de la langue
-3
31750
31800
1
0
-1
-2
31800
31850
31900
31950
32000
32050
32100
32150
32200
-3
31750
F IG . 6.23 – Trajectoires articulatoires de la séquence /uga/
82
6.2. Évaluations expérimentales : Inversion des voyelles
6.2 Évaluations expérimentales : Inversion des voyelles
Dans cette section nous présentons le résultat de l’inversion des voyelles du français ce qui constitue
une autre application possible de notre travail. Étant donné que notre codebook hypercubique couvre
l’espace articulatoire, nous pouvons étudier pour chaque voyelle toutes les formes possibles du conduit
vocal. Nous avons ainsi procédé à l’inversion de six voyelles du français /a e i
u y/.
Voyelles
a
e
i
u
y
F1
601
375
317
418
390
257
F2
1526
1860
1857
1225
939
1818
F3
2266
2612
2675
2125
2115
2253
TAB . 6.1 – Valeurs en Hz des trois premiers formants de voyelles du français utilisées dans les expériences
d’inversion.
La Tab. 6.1 donne les valeurs des trois premiers formants de ces voyelles. Ces valeurs sont extraites
d’un corpus de voyelles isolées prononcées par le locuteur YL. L’extraction de ces valeurs est faite à
l’aide du logiciel Snorri [Laprie, 1988]. Le modèle articulatoire utilisé dans cette étude est le même que
celui qui a servi pour la construction du codebook (avec un facteur d’échelle de 1.039 pour le pharynx
et 1.038 pour la bouche par rapport au modèle de Maeda d’une locutrice avant la multiplication par 1.1
pour passer à un locuteur masculin moyen).
Nous présentons les résultats de l’inversion sous trois formes. Pour chaque voyelle, nous donnons
l’aire transversale (Ac , en cm2 ) de la constriction en fonction de sa position (Xc , en cm) dans le conduit
vocal, l’aire aux lèvres (Al , en cm2 ) en fonction de (Xc ) et (Al ) en fonction de (Ac ). Le lieu de constriction
principal est obtenue en récupérant la section du conduit vocal présentant l’aire transversale minimale.
Nous ne tenons pas compte dans la recherche du lieu de constriction des sections qui sont en bas du
pharynx (au niveau du larynx, à 2 cm environ de la glotte) et la constriction formée au niveau des lèvres.
La constriction qui nous intéresse dans cette étude est celle formée par la langue et le contour extérieur
du conduit vocal.
Le choix de représenter les résultats sous cette forme s’explique par le fait que le lieu de la constriction principale et l’aire à la constriction sont deux paramètres essentiels pour la classification et la description des voyelles [Stevens, 1972; Wood, 1979]. De même, il existe une étroite relation entre l’aire
aux lèvres et le lieu de constriction. Par le biais de ces exemples nous voulons retrouver des résultats de
phonétique connus ou moins connus.
La Fig. 6.24 présente les résultats pour la voyelle /a/. Nous remarquons que pour la plupart des configurations articulatoires de la voyelle /a/, la constriction est située en haut du pharynx et au niveau du
vélum. Pour ces configurations, l’aire de la constriction est très variable. Il existe des configurations avec
la constriction au niveau du palais dur, mais alors l’aire de la constriction doit être supérieure à 2 cm2 .
Pour les deux premiers types de configurations l’aire aux lèvres est très variable, et pour le troisième, les
lèvres doivent être assez ouvertes.
83
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
F IG . 6.24 – Représentation de la voyelle /a/ dans les plans Xc /Ac , Xc /Al et Ac /Al .
Pour la voyelle /e/ (Fig. 6.25), la constriction est située entre le palais mou et le palais dur. Dans tous
les cas, l’aire de la constriction ne dépasse pas 2, 7 cm2 . L’aire aux lèvres est très variable. Néanmoins,
pour les cas où l’aire de la constriction est supérieure 1, 7 cm2 , l’aire aux lèvres ne dépasse pas 1, 8 cm2 .
Pour cette voyelle, nous constatons qu’il existe une compensation entre les lèvres et la langue puisque la
constriction est formée généralement par la modification de la forme de la langue.
Les lieux de constriction de la voyelle /i/ (Fig. 6.26) sont situés au niveau du palais dur et ils sont
moins étendus que pour la voyelle /e/. Si l’aire de la constriction est supérieure à 0, 9 cm2 , l’aire aux
lèvres devient très petite. En effet, pour produire la voyelle /i/, il faut une forte constriction (l’aire est
moins de 1 cm2 ). Si l’aire de la constriction est plus importante, l’ouverture des lèvres doit être fortement
réduite.
La voyelle / / (Fig. 6.27) est caractérisée par trois lieux de constriction : au niveau du pharynx, au
niveau du vélum et au niveau du palais dur. Les formes articulatoires de / / dont la constriction est formée
au niveau du palais dur sont peu nombreuses. L’aire aux lèvres pour les / / pharyngales et les / / palatales
est très faible (l’aire ne dépasse pas 1 cm2 ). Par contre, les / / vélaires disposent d’une grande variabilité
pour l’ouverture aux lèvres. Notons aussi que l’aire au niveau des lèvres ne dépasse pas 3, 2 cm2 si on est
en présence d’une constriction dont l’aire est supérieure à 1 cm2 .
D’après la Fig. 6.28, il existe trois classes pour la voyelle /u/ : /u/ palatale, /u/ vélaire et /u/ pharyngale [Ouni and Laprie, 2001b]. Cette classification dépend du lieu de constriction selon qu’elle est située
au niveau du pharynx, au niveau du vélum ou bien au niveau du palais mou. La constriction au niveau
du pharynx est réalisée en reculant la langue. Pour le vélum et le palais, la constriction est formée en
84
6.2. Évaluations expérimentales : Inversion des voyelles
F IG . 6.25 – Représentation de la voyelle /e/ dans les plans Xc /Ac , Xc /Al et Ac /Al .
avançant ou en levant le corps de la langue. Dans la Fig. 6.29, nous présentons un exemple de coupe
sagittale de chaque classe. Parmi l’ensemble des formes trouvées, nous constatons que le nombre de
formes associées à la classe /u/ pharyngale est très petit. Une grande partie des formes correspondent à
la classe /u/ palatale. Pour les classes /u/ pharyngale et /u/ vélaire, l’aire aux lèvres ne dépasse pas 1 cm2 .
Si l’aire de constriction est supérieure à 1 cm2 , l’ouverture des lèvres est fortement réduite.
Cette dernière remarque concerne les voyelles /e/, /i/, / / et /u/. En effet, quand la constriction devient
moins nette, ce sont les lèvres qui effectuent la compensation pour conserver les mêmes caractéristiques
acoustiques. Cela permet de conclure qu’il existe une étroite relation entre l’aire de la constriction et
l’aire aux lèvres.
Dans la Fig. 6.30, nous représentons deux formes articulatoires correspondant à une même voyelle
/u/ vélaire, ayant le même lieu de constriction mais avec des positions de la mâchoire très différentes. Ici,
les lèvres et, avec un effet moins important, le larynx compensent les effets acoustiques de la variabilité
de la position de la mâchoire.
Nous terminons cette série d’expériences par la voyelle /y/. Le lieu de constriction (Fig. 6.32) est
situé au niveau du palais dur. La voyelle /y/ est caractérisée par une forte constriction et une faible ouverture au niveau des lèvres. Néanmoins, nous pouvons détecter deux types de /y/ qui présentent des lieux
de constriction légèrement différents, comme le montre la Fig. 6.31. Pour la première classe, le lieu de
constriction est situé au niveau de la partie avant du palais dur et pour la deuxième classe, ce lieu est
situé dans la partie arrière du palais dur. La première classe de /y/ s’accompagne d’une large ouverture
des lèvres (l’aire aux lèvres est voisine de 2 cm2 ) et la deuxième par une ouverture très faible (l’aire aux
85
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
F IG . 6.26 – Représentation de la voyelle /i/ dans les plans Xc /Ac , Xc /Al et Ac /Al .
lèvres est inférieure à 0, 5 cm2 ). Remarquons aussi la rareté des solutions pour la voyelle /y/, qui pourrait
être une indication d’un ajustement imparfait du modèle.
Les deux dernières voyelles nous montrent clairement comment le conduit vocal exploite les propriétés de la compensation articulatoire pour atteindre une cible acoustique.
Dans toutes ces expériences effectuées sur les voyelles, nous remarquons que la variabilité des formes
du conduit vocal est moindre que celle des paramètres articulatoires. En effet, les lieux de constriction
sont localisés dans 4 régions distinctes pour la voyelle /a/, trois pour les voyelles / / et /u/ et une seule
région pour les voyelles /e/, /i/ et /y/. Notons aussi l’aspect non continu de ces lieux de constriction.
En effet, la séparation entre les classes des lieux de constriction selon la situation dans le conduit vocal
est nette et ne se fait pas continuement. Prenons le cas de la voyelle /a/ par exemple. Les lieux de
constriction situés dans le pharynx sont clairement séparés des lieux situés au niveau du vélum. Les lieux
de constriction sont bien concentrés dans des régions précises du conduit vocal.
Conclusion
Les expériences d’inversion réalisées montrent que notre méthode d’inversion permet d’obtenir des
trajectoires articulatoires régulières. Toutefois, cette validation reste partielle. En effet, il serait intéressant de faire une comparaison des résultats de l’inversion avec des données réelles.
Dans les expériences d’inversion des séquences VV et VVV, nous avons montré l’influence du choix
des masses associées aux articulateurs sur la nature des trajectoires articulatoires obtenues. Nous avons
86
6.2. Évaluations expérimentales : Inversion des voyelles
F IG . 6.27 – Représentation de la voyelle / / dans les plans Xc /Ac , Xc /Al et Ac /Al .
vu que ces trajectoires sont vraisemblablement réalisables par le conduit vocal humain, mais nous ne
pouvons pas affirmer qu’elles sont choisies par un locuteur moyen. Afin de résoudre ce problème, des
expérimentations avancées sur le choix des masses sont indispensables.
Pour l’inversion des séquences VCV, nous avons réussi à obtenir des mouvements d’articulateurs
compatibles avec la réalisation des constrictions. Néanmoins, cette expérimentation a échoué pour d’autres
séquences peut être à cause de la construction de notre codebook qui pénalise les formes présentant une
très forte constriction.
Dans la deuxième partie de ce chapitre, l’inversion des voyelles du français nous a permis de trouver
les caractéristiques phonétiques des voyelles et de les classer suivant le lieu de leur constriction principale.
87
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
F IG . 6.28 – Représentation de la voyelle /u/ dans les plans Xc /Ac , Xc /Al et Ac /Al .
(a)
(b)
(c)
F IG . 6.29 – Différents formes de conduit vocal pour la voyelle /u/ : (a) /u/ vélaire, (b) /u/ palatale et (c) /u/
pharyngale.
88
6.2. Évaluations expérimentales : Inversion des voyelles
(a)
(d)
F IG . 6.30 – Deux formes du conduit vocal /u/ ayant le même lieu de constriction, mais la position de la mâchoire
est très différente.
(a)
(b)
F IG . 6.31 – Deux formes du conduit vocal de la voyelle /y/.
F IG . 6.32 – Représentation de la voyelle /y/ dans les plans Xc /Ac , Xc /Al et Ac /Al .
89
Chapitre 6. Évaluations expérimentales de l’inversion acoustico-articulatoire
90
Conclusions et perspectives
Ces dernières années ont vu le développement très rapide des technologies de la parole. Outre leur
intérêt théorique, les outils articulatoires permettront d’étendre les champs d’application de ces technologies du domaine purement acoustique à celui de l’audiovisuel. Parmi ces outils, l’inversion acousticoarticulatoire est, avec la synthèse articulatoire, l’un des deux verrous scientifiques à lever pour aller dans
cette direction.
Notre travail de thèse constitue une contribution à la résolution de ces problèmes. L’objectif est de
développer une méthode d’inversion afin de récupérer toutes les formes réalisables du conduit vocal correspondant à un signal acoustique représenté par ses formants, et de récupérer l’évolution temporelle des
paramètres articulatoires.
Pour atteindre cet objectif, nous avons abordé trois problèmes : la modélisation de l’espace articulatoire par des hypercubes, la recherche de toutes les solutions dans cet espace et la récupération de
l’évolution temporelle des articulateurs.
Avant de travailler sur l’inversion proprement dite, il faut d’abord effectuer l’adaptation du modèle
articulatoire. En effet, nous utilisons le modèle articulatoire de Maeda mais nous n’avons pas eu recours
au sujet dont les images ont servi à développer le modèle. Nous avons donc été amenés à adapter ce
modèle à un nouveau locuteur. L’adaptation est intéressante puisqu’elle permet de réutiliser un modèle
existant. La méthode d’adaptation que nous avons utilisée a donné un modèle acceptable, au moins au
niveau acoustique. En effet, nous arrivons à couvrir l’espace acoustique de notre sujet et les formes du
conduit vocal des voyelles sont vraisemblables. Néanmoins, nous ne pouvons pas affirmer que l’adaptation a permis d’obtenir le modèle qui aurait été obtenu à partir des images du conduit vocal du nouveau
locuteur. Pour cela, il faudrait comparer les coupes sagittales du modèle d’origine aux profils sagittaux
du nouveau locuteur. Nous pensons qu’il faut encore étudier l’adaptation des modèles articulatoires, afin
d’assurer la correspondance à la fois dans l’espace articulatoire et dans l’espace acoustique.
Notre méthode d’inversion acoustico-articulatoire repose en grande partie sur la représentation de
l’espace articulatoire sous la forme d’un codebook hypercubique. Ce codebook est constitué d’hypercubes représentant des régions de dimension sept par un nombre très limité de points. Ces hypercubes
ont une taille qui dépend du degré de non-linéarité de la relation articulatoire-acoustique. Cette méthode
de linéarisation de la relation articulatoire-acoustique permet de représenter l’espace articulatoire fidèlement, c’est-à-dire, en respectant les non-linéarités. Nous avons en particulier montré la précision de
l’interpolation acoustique à partir des sommets des hypercubes auxquels appartiennent les paramètres de
la trajectoire articulatoire.
Le codebook hypercubique construit est volumineux, mais assure que l’échantillonnage n’a pas d’influence sur l’inversion. De plus, ce codebook représente tout l’espace articulatoire. Toutefois, nous en91
Conclusions et perspectives
visageons la possibilité d’effectuer un apprentissage par des réseaux de neurones sur les hypercubes du
codebook afin de savoir s’il est possible de récupérer les différentes solutions de l’inversion plus rapidement et aussi de réduire l’espace de stockage.
L’exploitation de cette structure hypercubique pour récupérer toutes les solutions de l’inversion a
prouvé son efficacité et sa grande précision. Pour décrire l’ensemble des solutions possibles à l’intérieur
d’un hypercube donné, nous avons élaboré une méthode d’échantillonnage de l’espace nul associé à la
restriction de la relation articulatoire-acoustique à cet hypercube.
Arrivés à ce stade, nous avons pu exploiter la méthode d’inversion afin d’étudier les caractéristiques
des voyelles comme cela a été fait dans le chapitre 6. Étant donné que la méthode d’inversion permet
d’obtenir toutes les formes réalisables du conduit vocal associées à une entrée acoustique, une étude
exhaustive des propriétés des voyelles est possible. Dans notre étude, nous avons considéré quelques
voyelles du français et nous avons essayé de les caractériser et les classer suivant les lieux de la constriction principale. Nous avons remarqué grâce à cette étude l’étroite relation entre le lieu de constriction
et l’aire aux lèvres, qui a aussi été notée dans d’autres travaux utilisant des données réelles. Avec cette
étude, nous avons montré l’intérêt de l’inversion pour la phonétique et qu’une étude plus complète sur
les voyelles du français pourrait sans doute apporter de nouveaux résultats.
Après l’étape d’inversion point à point, il est possible de trouver les trajectoires articulatoires les plus
vraisemblables c’est-à-dire celles qui correspondent à une variation lente des paramètres articulatoires et
cohérentes d’un point de vue phonétique.
Le choix d’une trajectoire est réalisé en utilisant un algorithme de lissage non-linéaire permettant
de choisir une trajectoire minimisant l’effort articulatoire. Une méthode de régularisation permet ensuite
d’obtenir des trajectoires régulières dans l’espace articulatoire tout en garantissant la proximité acoustique avec les données de départ.
Cette méthode d’inversion donne des trajectoires lisses et réalisables par le modèle articulatoire. Il
est très simple d’évaluer les qualités de lissage et de proximité acoustique avec les données de départ. En
revanche, il est nettement plus ardu d’évaluer le réalisme de ces trajectoires. Nous nous sommes donc
rabattu sur une évaluation qualitative des résultats en examinant l’évolution de la forme du conduit vocal
plutôt que les seuls paramètres articulatoires. Nous avons retenu cette évaluation informelle en absence
de données réelles pour lesquelles on dispose conjointement du modèle et d’un signal acoustique peu
bruité.
Cette évaluation expérimentale nous a permis de constater que les trajectoires articulatoires obtenues
dépendent fortement du choix des masses utilisées dans la méthode de lissage non-linéaire : deux ensembles de masses différents peuvent donner des trajectoires complètement différentes. Cela, d’ailleurs,
permet d’étudier plusieurs configurations de trajectoires possibles. En jouant sur les masses affectées aux
articulateurs, il est possible d’étudier les facultés de compensation du conduit vocal. Cela peut servir à
simuler des dysfonctionnements de l’appareil phonatoire puisqu’il suffit d’affecter une masse importante
à un articulateur pour pénaliser les variations temporelles de ce paramètre.
En fait, notre étude montre qu’il est d’ailleurs préférable d’aborder ce problème en considérant le
rapport masse-puissance musculaire plutôt que seulement la masse. En effet, si seule la masse intervenait les mouvements des lèvres, par exemple, devraient être très fortement favorisés au détriment des
mouvements de la mâchoire qui, elle, devrait être à peu près immobile, ce qui ne reflète pas la réalité
92
bien sûr.
Nous avons aussi constaté que le choix d’un ensemble de masses pour les articulateurs peut conduire
à des trajectoires articulatoires tout à fait acceptables pour une séquence de voyelles, et curieuses pour
une autre séquence de voyelles. Nous envisageons d’étudier ce point en détail pour réaliser l’apprentissage des masses en fonction de mouvements récupérés pour des signaux réels. Pour cela, nous pourrons
d’ailleurs nous inspirer des travaux sur les modèles biomécaniques et la synergie musculaire des différents articulateurs du conduit vocal.
Dans la méthode de régularisation, nous avons fixé les constantes de raideur et de masse à 1, pour ne
pas ajouter trop de variables qui auraient masquer l’influence des masses utilisées dans la méthode de lissage non-linéaire. Bien sûr, par la suite nous devrons effectuer une étude semblable à celle proposée juste
au-dessus pour fixer les masses utilisées dans la méthode de lissage. Plus précisément, nous voudrions
trouver une relation entre les masses utilisées dans la méthode de lissage non-linéaire et les constates de
raideur et les masses utilisées dans la méthode de régularisation variationnelle.
Le modèle articulatoire de Maeda est adapté à l’étude des voyelles mais s’avère insuffisant pour les
consonnes. Une fois cet obstacle est levé (par exemple en développant un modèle plus général), l’inversion des consonnes nécessitera la prise en compte des paramètres de source, au moins quant à leur nature
(source ponctuelle pour la barre d’explosion des occlusives, ou au contraire distribuée sur une région du
conduit vocal dans le cas des bruits de friction).
Dans ce mémoire, nous avons présenté les problèmes rencontrés au niveau de la modélisation articulatoire, sans mentionner les problèmes liés à la modélisation spectrale. Ce n’est pas parce que de
tels problèmes n’existent pas, mais parce que ces problèmes dépassent largement le cadre de notre travail de thèse. Nous pensons en particulier à la représentation du signal acoustique par les formants. À
partir des spectres de parole, nous utilisons un algorithme de suivi de formants qui fournit les données
pour l’inversion. Cette phase est censée être automatique. Malheureusement, cela n’est pas absolument
vrai. En effet, cet algorithme, comme d’autres que nous avons testés, ne réussit pas toujours à trouver
les formants, et nous avons donc été amenés, à plusieurs reprises, à effectuer une correction manuelle
des valeurs trouvées. En particulier, pour /u/ dont l’énergie du troisième formant F3 est très faible, il a
souvent été nécessaire d’interpoler la trajectoire de F3 à partir de quelques points seulement.
Il serait intéressant d’étudier ce problème et de trouver des orientations de recherche dans ce sens.
Nous pouvons chercher une autre représentation acoustique qui remplacerait les formants (les coefficients
cepstraux par exemple), mais il faudrait dans ce cas voir comment ces coefficients pourraient être utilisés
pour l’inversion et la représentation du codebook.
Nous pouvons aussi essayer de résoudre conjointement le problème du suivi des formants et de
l’inversion. Plus précisément, nous pensons que l’on peut corriger les valeurs des formants lors de l’inversion : passant de l’instant i, où l’on connaît les valeurs des formants, à l’instant i + 1 où les valeurs des
formants sont absentes ou erronées, nous pensons qu’il est possible de les corriger, ou au moins réduire
les erreurs d’estimation, connaissant le sens de variation des différents articulateurs.
Une autre piste à explorer est d’étudier le problème du suivi des formants et voir si la prise en compte
d’autres informations acoustiques pourrait améliorer le suivi des formants (par exemple, les variations
d’énergies entre deux formants successifs). Nous pensons que le recours aux avancées récentes dans le
domaine de la perception de la parole pourraient aider à améliorer les méthodes de suivi automatique des
formants.
93
Conclusions et perspectives
94
Annexe A
Régularisation variationnelle des
trajectoires articulatoires
Après avoir obtenu une trajectoire articulatoire grossière considérée ici comme solution initiale, on
régularise cette trajectoire par une méthode de calcul variationnel. Nous présentons dans cette annexe les
détails de la méthode de [Laprie and Mathieu, 1998a].
Soit :
α(t) = (α1 (t) . . . αi (t) . . . α7 (t)) avec t ∈ [ti ,t f ]
(A.1)
les sept paramètres du modèle articulatoire de Maeda qui sont exprimés en fonction du temps. Les trajectoires formantiques extraites de la parole f j (t), 1 ≤ j ≤ 3 sont les données du problème. Celles générées
par la simulation acoustique sont notées Fj (α(t)) (1 ≤ j ≤ 3). La fonction de coût pour évaluer l’inversion comporte deux termes :
– ∑3j=1 ( f j (t) − Fj (α(t)))2 qui exprime la proximité entre les trajectoires formantiques observées
f j (t) et Fj (α(t)) celles générées par le modèle
– ∑7i=1 mi α2
i (t) qui exprime la vitesse d’évolution des paramètres articulatoires. Pour pénaliser les
efforts articulatoires trop intenses et éviter au conduit vocal d’atteindre des positions trop éloignées
de la position de repos nous avons ajouté le terme ∑7i=1 ki α2i (t) qui représente l’énergie potentielle.
La fonction de coût à minimiser est donc de la forme suivante :
Z tf 3
I=
ti
∑ ( f j (t) − Fj (α(t))) dt + λ
2
j=1
Z tf 7
ti
∑
mi α2
i (t)dt + β
i=1
Z tf 7
ti
∑ ki α2i (t)dt
(A.2)
i=1
où ti and t f définissent l’intervalle de temps sur lequel l’inversion a lieu, λ et β expriment le compromis
entre la vitesse d’évolution des paramètres articulatoires, leur distance à la position de repos et la distance
acoustique. mi est la pseudo-masse du ième articulateur, et ki sa constante de raideur. L’équation (D.2)
peut s’écrire
Z
tf
I=
ti
Φ(α(t), α (t),t)dt
Le calcul variationnel [Bonvalet, 1993] peut être utilisé pour minimiser I et les équations d’EulerLagrange expriment l’annulation de la dérivée de I par rapport à chacun des αi . Ces équations, qui sont
une condition nécessaire pour assurer qu’un minimum de I a été atteint, s’écrivent
95
Annexe A. Régularisation variationnelle des trajectoires articulatoires





∂Φ
∂α1
...
∂Φ
∂α7
∂Φ
− dtd ∂α
= 0
1
(A.3)
−
d ∂Φ
dt ∂α7
=0
En remplaçant Φ par sa définition dans l’équation (D.2), chacune des équations d’Euler-Lagrange
devient :
∂F
∑3j=1 ( f j (t) − Fj (α(t)) ∂αji + βki αi (t) − λmi αi (t) = 0
(A.4)
i = 1...7
où αi (t) est la dérivée seconde par rapport au temps de αi (t). À partir de maintenant nous ne considérerons qu’une seule des équations du système (D.3) pour ne pas alourdir les notations. Nous supposons que
nous disposons d’une estimation grossière des trajectoires articulatoires αi . Nous pouvons alors définir
un processus itératif ατi (t) tel que
lim ατi (t) = αi (t)
τ→∞
(où
ατ=0
(t)
i
est la solution initiale) en utilisant l’équation d’évolution associée
γ
∂ατi
∂τ
3
∂Fj
∂ατi
+ βki ατi − λmi ατi = − ∑ ( f j (t) − Fj (ατ (t))) τ
∂τ
∂αi
j=1
(A.5)
représente l’évolution du paramètre αi au cours du processus itératif et γ un paramètre pour contrôler
la vitesse d’évolution. Une solution à l’équation statique (D.4) est atteinte quand le terme γ
∂ατi
∂τ
s’annule.
Notons ατ = (ατi,0 , . . . ατi,k , . . . ατi,N ) la représentation discrète de αi (t), ατi,k représente la valeur de ατi
t −t
au temps discret t = ti + k f N i lors de l’itération τ. Puisque la résolution de l’équation (D.5) pour αi est
indépendante des autres trajectoires articulatoires, ατi,k est noté ατk pour simplifier les notations.
Notons ( f0 , . . . fk , . . . fN ) la trajectoire formantique observée et (F0 , . . . Fk , . . . FN ) la trajectoire formantique générée par la simulation acoustique. L’approximation aux différences finies de la dérivée
α (t) conduit à l’équation suivante
τ
τ
τ
τ
γ(ατk − ατ−1
k ) + βαk − λ(αk+1 − 2αk + αk−1 )
∂Fj = − ∑ ( f j,k − Fj,k )
∂α ατ
j=1
3
(A.6)
τ
1,k ...α7,k
où τ représente l’itération en cours de traitement et k le temps discret. Le terme de dérivation
∂Fj ∂α ατ ...ατ
1,k
7,k
est calculé pour le paramètre αi au point (ατ1,k . . . ατ7,k ) et intègre le comportement acoustique du modèle
par rapport à l’évolution des paramètres articulatoires.
Il faut ajouter des conditions aux limites pour assurer que l’équation (D.6) ait une solution unique.
Puisque nous n’imposons aucune contrainte sur la position des extrémités de α(t)
α (0) = α (N) = 0
sont donc les conditions aux limites naturelles. Soit B la matrice (N + 1) × (N + 1)

 γ+β+λ
−λ
0
···
0

B=
96
−λ
.
.
.
0
0
γ + β + 2λ
−λ
···
..
..
..
.
...
···
.
−λ
0
.
γ + β + 2λ
−λ
0
.
.
.
−λ
γ+β+λ


ατ = (ατ0 , . . . ατk , . . . ατN )T



cτ = 

∂F
j
3
γατ−1
0 − ∑ j=1 ( f j,0 − Fj,0 ) ∂α
∂F
j
3
γατ−1
1 − ∑ j=1 ( f j,1 − Fj,1 ) ∂α
···
∂F
τ−1
3
γαN − ∑ j=1 ( f j,N − Fj,N ) ∂αj





L’équation Eq. (D.6) peut s’écrire sous la forme matricielle suivante Bατ = cτ
La résolution de l’équation (D.3) conduit à un processus itératif. ατ est calculé à chaque itération pour
chacun des sept paramètres articulatoires αi . Pour garantir qu’il est possible d’atteindre un minimum de
l’équation (D.2) if faut disposer d’une bonne solution initiale.
97
Annexe A. Régularisation variationnelle des trajectoires articulatoires
98
Annexe B
Séquences V-V et V-V-V
Dans cette annexe, nous présentons les résultats d’inversion d’une série d’exemples de séquences VV et V-V-V. Les séquences V-V présentées ici sont : /ai/, /ay/, /ua/, /au/, /ia/ et /iy/ et les séquences V-V-V
sont : /iui/, /aua/ et /aia/. Pour chaque exemple, nous présentons les trois premiers formants et la variation
temporelle des sept paramètres articulatoires. Le temps est exprimé en millisecondes. Ces trajectoires
sont obtenues après l’application de la méthode de lissage non-linéaire et la méthode de régularisation
variationnelle. Certaines figures présentent différentes trajectoires pour une même séquence. Pour cela,
nous avons fait varier les masses attribuées aux articulateurs dans la méthode de lissage non-linéaire afin
d’observer comment le comportement de cet algorithme était modifié.
99
Annexe B. Séquences V-V et V-V-V
3
2500
2
2000
1
Formants
Mâchoire
3000
1500
1000
-1
500
-2
0
-3
700
750
800
850
3
600
650
700
750
800
850
600
650
700
750
800
850
600
650
700
750
800
850
600
650
700
750
800
850
3
2
1
0
-1
-2
-3
2
1
0
-1
-2
-3
600
650
700
750
800
850
3
3
2
2
Aperture des lèvres
L’apex de la langue
650
Forme du corps de la langue
Position du corps de la langue
600
1
0
-1
-2
-3
1
0
-1
-2
-3
600
650
700
750
800
850
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
0
1
0
-1
-2
1
0
-1
-2
-3
-3
600
650
700
750
800
850
F IG . B.1 – Trajectoires articulatoires de la transition /ai/. Toutes les masses sont égales.
100
2400
3
2200
2
2000
Formants
Mâchoire
1800
1600
1400
1200
1
0
-1
1000
800
-2
600
400
-3
7250
7300
7350
7400
7450
2
1
0
-1
-2
-3
7200
7250
7300
7350
7400
7450
7150
7200
7250
7300
7350
7400
7450
7150
7200
7250
7300
7350
7400
7450
7150
7200
7250
7300
7350
7400
7450
2
1
0
-1
-2
-3
7200
7250
7300
7350
7400
7450
3
2
2
Aperture des lèvres
3
1
0
-1
-2
-3
1
0
-1
-2
-3
7150
7200
7250
7300
7350
7400
7450
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
7150
3
3
7150
L’apex de la langue
7200
Forme du corps de la langue
Position du corps de la langue
7150
1
0
-1
1
0
-1
-2
-2
-3
-3
7150
7200
7250
7300
7350
7400
7450
F IG . B.2 – Trajectoires articulatoires de la transition /ay/. Masse 50 fois plus importante pour la mâchoire
et les lèvres que pour les autres articulateurs.
101
Annexe B. Séquences V-V et V-V-V
2400
3
2200
2
2000
Mâchoire
1800
Formants
1600
1400
1200
1
0
-1
1000
800
-2
600
7150
7200
7250
7300
7350
7400
-3
7100
7450
2
1
0
-1
-2
-3
7100
7150
7200
7250
7300
7350
7400
7300
7350
7400
7450
7150
7200
7250
7300
7350
7400
7450
7150
7200
7250
7300
7350
7400
7450
7150
7200
7250
7300
7350
7400
7450
0
-1
-2
-3
7100
7450
2
Aperture des lèvres
2
1
0
-1
-2
Protrusion des lèvres
7250
1
3
7150
7200
7250
7300
7350
7400
1
0
-1
-2
-3
7100
7450
3
3
2
2
1
0
-1
-2
-3
7100
7200
2
3
-3
7100
7150
3
Forme du corps de la langue
3
Hauteur du larynx
L’apex de la langue
Position du corps de la langue
400
7100
1
0
-1
-2
7150
7200
7250
7300
7350
7400
7450
-3
7100
F IG . B.3 – Trajectoires articulatoires de la transition /ay/. La masse affectée à la mâchoire est 5 fois plus
importante que les autres masses.
102
2400
3
2200
2
2000
Formants
Mâchoire
1800
1600
1400
1200
1
0
-1
1000
800
-2
600
400
-3
2750
2800
2850
2900
2950
3000
3
2
1
0
-1
-2
-3
2700
2750
2800
2850
2900
2950
3000
2650
2700
2750
2800
2850
2900
2950
3000
2650
2700
2750
2800
2850
2900
2950
3000
2650
2700
2750
2800
2850
2900
2950
3000
2
1
0
-1
-2
-3
2700
2750
2800
2850
2900
2950
3000
3
2
2
Aperture des lèvres
3
1
0
-1
-2
-3
1
0
-1
-2
-3
2650
2700
2750
2800
2850
2900
2950
3000
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
2650
3
2650
L’apex de la langue
2700
Forme du corps de la langue
Position du corps de la langue
2650
1
0
-1
-2
1
0
-1
-2
-3
-3
2650
2700
2750
2800
2850
2900
2950
3000
F IG . B.4 – Trajectoires articulatoires de la transition /ua/. Même masse pour tous les paramètres.
103
Annexe B. Séquences V-V et V-V-V
2400
3
2200
2
2000
Mâchoire
1800
FORMANT
1600
1400
1200
1
0
-1
1000
800
-2
600
400
-3
2700
2750
2800
2850
2900
2950
3000
3
2
1
0
-1
-2
-3
2650
2700
2750
2800
2850
2900
2950
3000
Forme du corps de la langue
Position du corps de la langue
2650
2
1
0
-1
-2
-3
2750
2800
2850
2900
2950
3000
2650
2700
2750
2800
2850
2900
2950
3000
2650
2700
2750
2800
2850
2900
2950
3000
2650
2700
2750
2800
2850
2900
2950
3000
3
2
1
0
-1
-2
-3
2
1
0
-1
-2
-3
2650
2700
2750
2800
2850
2900
2950
3000
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
2700
3
Aperture des lèvres
L’apex de la langue
3
2650
1
0
-1
-2
-3
1
0
-1
-2
-3
2650
2700
2750
2800
2850
2900
2950
3000
F IG . B.5 – Trajectoires articulatoires de la transition /ua/. Les masses affectées à la mâchoire, le corps
de la langue et le larynx sont 5 fois plus importante que les autres masses.
104
2400
3
2200
2
2000
Formants
Mâchoire
1800
1600
1400
1200
1000
1
0
-1
800
600
-2
400
200
-3
3750
3800
3850
3900
3950
3
2
1
0
-1
-2
-3
3700
3750
3800
3850
3900
3950
3650
3700
3750
3800
3850
3900
3950
3650
3700
3750
3800
3850
3900
3950
3650
3700
3750
3800
3850
3900
3950
2
1
0
-1
-2
-3
3700
3750
3800
3850
3900
3950
3
2
2
Aperture des lèvres
3
1
0
-1
-2
-3
1
0
-1
-2
-3
3650
3700
3750
3800
3850
3900
3950
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
3650
3
3650
L’apex de la langue
3700
Forme du corps de la langue
Position du corps de la langue
3650
1
0
-1
-2
1
0
-1
-2
-3
-3
3650
3700
3750
3800
3850
3900
3950
F IG . B.6 – Trajectoires articulatoires de la transition /au/. Même masse pour tous les articulateurs.
105
Annexe B. Séquences V-V et V-V-V
2400
4
2200
2000
3
Formants
Mâchoire
1800
1600
1400
1200
1000
800
2
1
0
-1
600
-2
400
200
-3
3750
3800
3850
3900
3950
3
2
1
0
-1
-2
-3
3700
3750
3800
3850
3900
3950
3650
3700
3750
3800
3850
3900
3950
3650
3700
3750
3800
3850
3900
3950
3650
3700
3750
3800
3850
3900
3950
2
1
0
-1
-2
-3
3700
3750
3800
3850
3900
3950
3
2
2
Aperture des lèvres
3
1
0
-1
-2
-3
1
0
-1
-2
-3
3650
3700
3750
3800
3850
3900
3950
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
3650
3
3650
L’apex de la langue
3700
Forme du corps de la langue
Position du corps de la langue
3650
1
0
-1
-2
1
0
-1
-2
-3
-3
3650
3700
3750
3800
3850
3900
3950
F IG . B.7 – Trajectoires articulatoires de la transition /au/. Masse 5 fois plus importante pour la mâchoire
et le larynx que pour les autres articulateurs.
106
3
2500
2
2000
1
Formants
Mâchoire
3000
1500
1000
-1
500
-2
0
-3
1600
1650
1700
1750
1800
1850
3
1500
1550
1600
1650
1700
1750
1800
1850
1500
1550
1600
1650
1700
1750
1800
1850
1500
1550
1600
1650
1700
1750
1800
1850
1500
1550
1600
1650
1700
1750
1800
1850
3
2
1
0
-1
-2
-3
2
1
0
-1
-2
-3
1500
1550
1600
1650
1700
1750
1800
1850
3
3
2
2
Aperture des lèvres
L’apex de la langue
1550
Forme du corps de la langue
Position du corps de la langue
1500
1
0
-1
-2
-3
1
0
-1
-2
-3
1500
1550
1600
1650
1700
1750
1800
1850
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
0
1
0
-1
-2
1
0
-1
-2
-3
-3
1500
1550
1600
1650
1700
1750
1800
1850
F IG . B.8 – Trajectoires articulatoires de la transition /ia/. Même masse pour tous les articulateurs.
107
Annexe B. Séquences V-V et V-V-V
3
2500
2
2000
1
Formants
Mâchoire
3000
1500
1000
-1
500
-2
0
-3
1600
1650
1700
1750
1800
1850
3
1500
1550
1600
1650
1700
1750
1800
1850
1500
1550
1600
1650
1700
1750
1800
1850
1500
1550
1600
1650
1700
1750
1800
1850
1500
1550
1600
1650
1700
1750
1800
1850
3
2
1
0
-1
-2
-3
2
1
0
-1
-2
-3
1500
1550
1600
1650
1700
1750
1800
1850
3
3
2
2
Aperture des lèvres
L’apex de la langue
1550
Forme du corps de la langue
Position du corps de la langue
1500
1
0
-1
-2
-3
1
0
-1
-2
-3
1500
1550
1600
1650
1700
1750
1800
1850
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
0
1
0
-1
-2
1
0
-1
-2
-3
-3
1500
1550
1600
1650
1700
1750
1800
1850
F IG . B.9 – Trajectoires articulatoires de la transition /ia/. Masse 5 fois plus importante pour la mâchoire
et le larynx que les autres articulateurs.
108
3
2500
2
2000
1
Formants
Mâchoire
3000
1500
1000
-1
500
-2
0
-3
4800
4850
4900
4950
5000
3
4700
4750
4800
4850
4900
4950
5000
4700
4750
4800
4850
4900
4950
5000
4700
4750
4800
4850
4900
4950
5000
4700
4750
4800
4850
4900
4950
5000
3
2
1
0
-1
-2
-3
2
1
0
-1
-2
-3
4700
4750
4800
4850
4900
4950
5000
3
3
2
2
Aperture des lèvres
L’apex de la langue
4750
Forme du corps de la langue
Position du corps de la langue
4700
1
0
-1
-2
-3
1
0
-1
-2
-3
4700
4750
4800
4850
4900
4950
5000
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
0
1
0
-1
-2
1
0
-1
-2
-3
-3
4700
4750
4800
4850
4900
4950
5000
F IG . B.10 – Trajectoires articulatoires de la transition /iu/. Même masse pour tous les articulatuers.
109
Annexe B. Séquences V-V et V-V-V
3
2500
2
2000
1
Formants
Mâchoire
3000
1500
1000
-1
500
-2
0
-3
4800
4850
4900
4950
5000
3
4700
4750
4800
4850
4900
4950
5000
4700
4750
4800
4850
4900
4950
5000
4700
4750
4800
4850
4900
4950
5000
4700
4750
4800
4850
4900
4950
5000
3
2
1
0
-1
-2
-3
2
1
0
-1
-2
-3
4700
4750
4800
4850
4900
4950
5000
3
3
2
2
Aperture des lèvres
L’apex de la langue
4750
Forme du corps de la langue
Position du corps de la langue
4700
1
0
-1
-2
-3
1
0
-1
-2
-3
4700
4750
4800
4850
4900
4950
5000
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
0
1
0
-1
-2
1
0
-1
-2
-3
-3
4700
4750
4800
4850
4900
4950
5000
F IG . B.11 – Trajectoires articulatoires de la transition /iu/. Masse 5 fois plus importante pour la mâchoire
et le larynx que pour les autres articulateurs.
110
3
2500
2
2000
1
Formants
Mâchoire
3000
1500
1000
-1
500
-2
0
-3
8250
8300
8350
8400
8450
3
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
3
2
1
0
-1
-2
-3
2
1
0
-1
-2
-3
8150
8200
8250
8300
8350
8400
8450
3
3
2
2
Aperture des lèvres
L’apex de la langue
8200
Forme du corps de la langue
Position du corps de la langue
8150
1
0
-1
-2
-3
1
0
-1
-2
-3
8150
8200
8250
8300
8350
8400
8450
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
0
1
0
-1
-2
1
0
-1
-2
-3
-3
8150
8200
8250
8300
8350
8400
8450
F IG . B.12 – Trajectoires articulatoires de la transition /iy/. Même masse pour tous les articulateurs.
111
Annexe B. Séquences V-V et V-V-V
3
2500
2
2000
1
Formants
Mâchoire
3000
1500
1000
-1
500
-2
0
-3
8250
8300
8350
8400
8450
3
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
3
2
1
0
-1
-2
-3
2
1
0
-1
-2
-3
8150
8200
8250
8300
8350
8400
8450
3
3
2
2
Aperture des lèvres
L’apex de la langue
8200
Forme du corps de la langue
Position du corps de la langue
8150
1
0
-1
-2
-3
1
0
-1
-2
-3
8150
8200
8250
8300
8350
8400
8450
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
0
1
0
-1
-2
1
0
-1
-2
-3
-3
8150
8200
8250
8300
8350
8400
8450
F IG . B.13 – Trajectoires articulatoires de la transition /iy/. Masse 5 fois plus importante pour la mâchoire
et le larynx.
112
3
2500
2
Mâchoire
3000
FORMANT
2000
1500
1000
-2
0
-3
8200
8250
8300
8350
8400
8450
3
2
1
0
-1
-2
-3
8150
8200
8250
8300
8350
8400
8450
Forme du corps de la langue
Position du corps de la langue
8150
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
8150
8200
8250
8300
8350
8400
8450
3
2
1
0
-1
-2
-3
3
Aperture des lèvres
3
L’apex de la langue
0
-1
500
2
1
0
-1
-2
-3
2
1
0
-1
-2
-3
8150
8200
8250
8300
8350
8400
8450
3
3
2
2
Hauteur du larynx
Protrusion des lèvres
1
1
0
-1
-2
-3
1
0
-1
-2
-3
8150
8200
8250
8300
8350
8400
8450
F IG . B.14 – Trajectoires articulatoires de la transition /iy/. Les masses affectées à la mâchoire, l’apex de
la langue et le larynx sont 5 fois plus importantes que les autres articulateurs.
113
Annexe B. Séquences V-V et V-V-V
3
2500
2
2000
1
Formants
Mâchoire
3000
1500
1000
-1
500
-2
7350
7400
7450
7500
7550
7600
7650
7700
7750
-3
7300
7800
3
Forme du corps de la langue
2
1
0
-1
-2
-3
7300
7350
7400
7450
7500
7550
7600
7650
7700
7750
7500
7550
7600
7650
7700
7750
7800
7350
7400
7450
7500
7550
7600
7650
7700
7750
7800
7350
7400
7450
7500
7550
7600
7650
7700
7750
7800
7350
7400
7450
7500
7550
7600
7650
7700
7750
7800
0
-1
-2
-3
7300
7800
2
Aperture des lèvres
2
1
0
-1
-2
Protrusion des lèvres
7450
1
3
7350
7400
7450
7500
7550
7600
7650
7700
7750
1
0
-1
-2
-3
7300
7800
3
3
2
2
1
0
-1
-2
-3
7300
7400
2
3
-3
7300
7350
3
Hauteur du larynx
L’apex de la langue
Position du corps de la langue
0
7300
0
1
0
-1
-2
7350
7400
7450
7500
7550
7600
7650
7700
7750
7800
-3
7300
F IG . B.15 – Trajectoires articulatoires de la transition /iui/. Même masse pour tous les articulateurs.
114
2500
3
2
Formants
Mâchoire
2000
1500
1000
1
0
-1
500
-2
4600
4700
4800
4900
5000
5100
-3
4500
5200
2
1
0
-1
-2
-3
4500
4600
4700
4800
4900
5000
5100
4900
5000
5100
5200
4600
4700
4800
4900
5000
5100
5200
4600
4700
4800
4900
5000
5100
5200
4600
4700
4800
4900
5000
5100
5200
0
-1
-2
-3
4500
5200
2
Aperture des lèvres
2
1
0
-1
-2
Protrusion des lèvres
4800
1
3
4600
4700
4800
4900
5000
5100
1
0
-1
-2
-3
4500
5200
3
3
2
2
1
0
-1
-2
-3
4500
4700
2
3
-3
4500
4600
3
Forme du corps de la langue
3
Hauteur du larynx
L’apex de la langue
Position du corps de la langue
0
4500
1
0
-1
-2
4600
4700
4800
4900
5000
5100
5200
-3
4500
F IG . B.16 – Trajectoires articulatoires de la transition /aua/. Même masse pour tous les articulateurs.
115
Annexe B. Séquences V-V et V-V-V
3
2500
2
2000
1
Formants
Mâchoire
3000
1500
1000
-1
500
-2
2800
2900
3000
3100
3200
3300
-3
2700
3400
3
Forme du corps de la langue
2
1
0
-1
-2
-3
2700
2800
2900
3000
3100
3200
3300
3100
3200
3300
3400
2800
2900
3000
3100
3200
3300
3400
2800
2900
3000
3100
3200
3300
3400
2800
2900
3000
3100
3200
3300
3400
0
-1
-2
-3
2700
3400
2
Aperture des lèvres
2
1
0
-1
-2
Protrusion des lèvres
3000
1
3
2800
2900
3000
3100
3200
3300
1
0
-1
-2
-3
2700
3400
3
3
2
2
1
0
-1
-2
-3
2700
2900
2
3
-3
2700
2800
3
Hauteur du larynx
L’apex de la langue
Position du corps de la langue
0
2700
0
1
0
-1
-2
2800
2900
3000
3100
3200
3300
3400
-3
2700
F IG . B.17 – Trajectoires articulatoires de la transition /aia/. Même masse pour tous les articulateurs.
116
Annexe C
La méthode SVD (décomposition en
valeurs singulières)
La décomposition en valeurs singulières est basée sur le théorème de l’algèbre linéaire suivant :
Toute matrice A (M × N) tel que le nombre de lignes M est supérieur ou égal au nombre de colonnes
N peut s’écrire sous la forme :
A = U ·W ·V T
(C.1)
Où les matrices U et V sont orthonormées :
U T ·U = V T ·V = Id
(C.2)
Et W matrice diagonale dont les seuls éléments sont les wi (i = 1..N).
Il est toujours possible de faire cette décomposition quel que soit le degré de singularité de la matrice et
celle-ci est unique.
Pour les matrices singulières, les notions d’images et noyau sont très importantes. On considère le système linéaire suivant :
A·x = b
(C.3)
Où A est une matrice carré, b et x sont deux vecteurs.
L’équation (C.3) définit A comme étant une application linéaire de l’espace vectoriel associé à x, appelé noyau ou encore espace nul, qui est transformé en zéro, noté ker(A). Il y a aussi un sous-espace de
b qui peut être atteint par A. Ce sous-espace est appelé image de A, noté Im(A).
Si A est non singulière, alors son image est tous l’espace vectoriel associé à b, et donc, son rang est
N. Si A est singulière, alors le rang est inférieur à N. On dit que : Im(A) + ker(A) = N
La méthode SVD construit des bases orthonormales pour le noyau et l’image de A. Précisément, les
colonnes de U qui correspondent à des indices j où w j est non nul forment une base orthonormal de
l’espace nul ; les colonnes de V qui correspondent à des indices j où w j est nul forment une base orthonormal de l’espace image.
L’ensemble des équations homogènes où b = 0 est résolu immédiatement par SVD : toute colonne de V
dont le w j correspondant est nul est une solution.
117
Annexe C. La méthode SVD (décomposition en valeurs singulières)
Quand le vecteur b est non nul, on se pose la question s’il est ou non dans Im(A). Si c’est le cas, alors
l’ensemble des équations a une solution x. En effet, il a plus qu’une solution du fait que tout vecteur
dans l’espace nul pourrait être rajouté à x dans une combinaison linéaire quelconque. Si on veut avoir un
membre particulier de l’ensemble des vecteurs solutions comme représentant, on peut prendre celui qui
présente la longueur la plus petite |x|2 . Pour le retrouver, on procède comme suit : il suffit de remplacer
1/w j par zéro, si w j = 0. Ensuite, on calcule l’expression suivante (le calcul est fait de droite vers la
gauche) :
x = V · [diag(1/w j )] · (U T · b)
(C.4)
C’est la solution ayant la plus petite longueur ; les colonnes de V qui sont dans l’espace nul complète la
spécification de l’ensemble des solutions.
Si b n’est pas dans l’espace image de la matrice singulière A, alors l’ensemble des équations (C.3) n’a pas
de solution. Néanmoins, si b n’est pas dans Im(A) alors l’équation (C.4) reste valable pour construire un
vecteur solution x. Ce vecteur ne résoud pas précisément A · x = b, mais parmi les vecteur x possible, on
récupère le plus proche de la solution exacte, au sens des moindres carrés. En d’autres termes, l’équation
(C.4) trouve x qui minimise la quantité r ≡ |A · x − b|. r est appelé le résidu de la solution. Nous résumons
tout cela dans la figure (C.1).
118
A
x
b
A.x=b
(a)
A
solutions de A.x=d
image de A
solution donnée par SVD
A.x=c
c’
c
d
solution donnée par SVD
A.x=d
Ker(A)
solutions de A.x=c’
(b)
F IG . C.1 – (a) Une application linéaire transforme un espace vectoriel vers un autre espace de même
dimension, si la matrice associé A est non singulière. Le vecteur x est transformé en b, donc x satisfait
l’équation A · x = b. (b) Une matrice singulière A qui transforme un espace vectoriel en un autre de
dimension inférieur, dans le cas présent un plan en une ligne, appelée Im(A). L’espace nul est transformé
en zéro. Les solutions de A · x = d consiste en une solution particulière quelconque plus un vecteur
quelconque de l’espace nul, dans le cas présent, ils forment une ligne parallèle à l’espace nul. La méthode
SVD sélectionne une solution particulière la plus proche de zéro. Le point c se trouve à l’extérieur de
Im(A) donc A · x = c n’a pas de solution. La méthode SVD permet de trouver la meilleure “solution” (ou
pseudo solution) au sens des moindres carrés c .
119
Annexe C. La méthode SVD (décomposition en valeurs singulières)
120
Annexe D
Méthode variationnelle d’optimisation des
trajectoires articulatoires
Après avoir obtenu une trajectoire articulatoire qu’on considère comme solution initiale, on optimise
cette trajectoire par une méthode d’optimisation variationnelle. Nous présentons dans cette annexe les
détails de la méthode.
Soit :
α(t) = (α1 (t) . . . αi (t) . . . α7 (t)) avec t ∈ [ti ,t f ]
(D.1)
les sept paramètres du modèle articulatoire de Maeda qui sont exprimés en fonction du temps. Les trajectoires formantiques extraites de la parole f j (t), 1 ≤ j ≤ 3 sont les données du problème. Celles générées
par la simulation acoustique sont notées Fj (α(t)) (1 ≤ j ≤ 3). La fonction de coût pour évaluer l’inversion comporte deux termes :
– ∑3j=1 ( f j (t) − Fj (α(t)))2 qui exprime la proximité entre les trajectoires formantiques observées
f j (t) et Fj (α(t)) celles générées par le modèle
– ∑7i=1 mi α2
i (t) qui exprime la vitesse d’évolution des paramètres articulatoires. Pour pénaliser les
efforts articulatoires trop intenses et éviter au conduit vocal d’atteindre des positions trop éloignées
de la position de repos nous avons ajouté le terme ∑7i=1 ki α2i (t) qui représente l’énergie potentielle.
La fonction de coût à minimiser est donc de la forme suivante :
Z tf 3
I=
ti
∑ ( f j (t) − Fj (α(t))) dt + λ
2
j=1
Z tf 7
ti
∑
mi α2
i (t)dt + β
i=1
Z tf 7
ti
∑ ki α2i (t)dt
(D.2)
i=1
où ti and t f définissent l’intervalle de temps sur lequel l’inversion a lieu, λ et β expriment le compromis
entre la vitesse d’évolution des paramètres articulatoires, leur distance à la position de repos et la distance
acoustique. mi est la pseudo-masse du ième articulateur, et ki sa constante de raideur. L’équation (D.2)
peut s’écrire
Z
tf
I=
ti
Φ(α(t), α (t),t)dt
Le calcul variationnel [Bonvalet, 1993] peut être utilisé pour minimiser I et les équations d’EulerLagrange expriment l’annulation de la dérivée de I par rapport à chacun des αi . Ces équations, qui sont
une condition nécessaire pour assurer qu’un minimum de I a été atteint, s’écrivent
121
Annexe D. Méthode variationnelle d’optimisation des trajectoires articulatoires





∂Φ
∂α1
...
∂Φ
∂α7
∂Φ
− dtd ∂α
= 0
1
(D.3)
−
d ∂Φ
dt ∂α7
=0
En remplaçant Φ par sa définition dans l’équation (D.2), chacune des équations d’Euler-Lagrange
devient :
∂F
∑3j=1 ( f j (t) − Fj (α(t)) ∂αji + βki αi (t) − λmi αi (t) = 0
(D.4)
i = 1...7
où αi (t) est la dérivée seconde par rapport au temps de αi (t). À partir de maintenant nous ne considérerons qu’une seule des équations du système (D.3) pour ne pas alourdir les notations. Nous supposons
que nous disposons d’une estimation grossière des trajectoires articulatoires αi (cf. § ??). Nous pouvons
alors définir un processus itératif ατi (t) tel que
lim ατi (t) = αi (t)
τ→∞
(où ατ=0
(t) est la solution initiale) en utilisant l’équation d’évolution associée
i
γ
∂ατi
∂τ
3
∂Fj
∂ατi
+ βki ατi − λmi ατi = − ∑ ( f j (t) − Fj (ατ (t))) τ
∂τ
∂αi
j=1
(D.5)
représente l’évolution du paramètre αi au cours du processus itératif et γ un paramètre pour contrôler
la vitesse d’évolution. Une solution à l’équation statique (D.4) est atteinte quand le terme γ
∂ατi
∂τ
s’annule.
Notons ατ = (ατi,0 , . . . ατi,k , . . . ατi,N ) la représentation discrète de αi (t), ατi,k représente la valeur de ατi
t −t
au temps discret t = ti + k f N i lors de l’itération τ. Puisque la résolution de l’équation (D.5) pour αi est
indépendante des autres trajectoires articulatoires, ατi,k est noté ατk pour simplifier les notations.
Notons ( f0 , . . . fk , . . . fN ) la trajectoire formantique observée et (F0 , . . . Fk , . . . FN ) la trajectoire formantique générée par la simulation acoustique. L’approximation aux différences finies de la dérivée
α (t) conduit à l’équation suivante
τ
τ
τ
τ
γ(ατk − ατ−1
k ) + βαk − λ(αk+1 −
2αk + αk−1 )
∂F = − ∑3j=1 ( f j,k − Fj,k ) ∂αj τ
τ
(D.6)
α1,k ...α7,k
où τ représente l’itération en cours de traitement et k le temps discret. Le terme de dérivation
∂Fj ∂α ατ ...ατ
1,k
7,k
est calculé pour le paramètre αi au point (ατ1,k . . . ατ7,k ) et intègre le comportement acoustique du modèle
par rapport à l’évolution des paramètres articulatoires.
Il faut ajouter des conditions aux limites pour assurer que l’équation (D.6) ait une solution unique.
Puisque nous n’imposons aucune contrainte sur la position des extrémités de α(t)
α (0) = α (N) = 0
sont donc les conditions aux limites naturelles. Soit B la matrice (N + 1) × (N + 1)
 γ+β+λ

−λ
0
···
0

B=
122
−λ
.
.
.
0
0
γ + β + 2λ
−λ
···
..
..
..
.
...
···
.
−λ
0
.
γ + β + 2λ
−λ
0
.
.
.
−λ
γ+β+λ


ατ = (ατ0 , . . . ατk , . . . ατN )T



cτ = 

∂F
j
3
γατ−1
0 − ∑ j=1 ( f j,0 − Fj,0 ) ∂α
∂F
j
3
γατ−1
1 − ∑ j=1 ( f j,1 − Fj,1 ) ∂α
···
∂F
τ−1
3
γαN − ∑ j=1 ( f j,N − Fj,N ) ∂αj





L’équation Eq. (D.6) peut s’écrire sous la forme matricielle suivante Bατ = cτ
La résolution de l’équation (D.3) conduit à un processus itératif. ατ est calculé à chaque itération
pour chacun des sept paramètres articulatoires αi . Pour garantir qu’il est possible d’atteindre un minimum de l’équation (D.2) if faut disposer d’une bonne solution initiale. Pour cela nous avons utilisé une
méthode issue de l’approche par tabulation. La solution initiale est ensuite transformée de telle manière
que l’équation (D.2) soit minimisée.
123
Annexe D. Méthode variationnelle d’optimisation des trajectoires articulatoires
124
Annexe E
Séquences : Formes du conduit vocal
Dans cette annexe, nous présentons les formes du conduit vocal correspondant aux trajectoires articulatoires de quelques séquences de voyelles : /iui/, /ay/, /iu/, et /ua/. Les masses affectées aux articulateurs
lors de la phase de lissage non-linéaire sont égales à 1. Pour la séquence /ay/ nous présentons le cas où les
masses sont différentes. Un système d’animation permet de suivre l’évolution temporelle de ces formes.
Nous pouvons remarquer que les variations d’une image à la suivante sont très minimes.
125
Annexe E. Séquences : Formes du conduit vocal
1/30
2/30
3/30
4/30
5/30
6/30
7/30
8/30
9/30
10/30
11/30
12/30
13/30
14/30
15/30
16/30
17/30
18/30
19/30
20/30
21/30
22/30
23/30
24/30
25/30
26/30
27/30
28/30
29/30
30/30
F IG . E.1 – Les formes du conduit vocal des trajectoires articulatoires pour [iui]. Même masse pour tous
les articulateurs.
126
1/24
2/24
3/24
4/24
5/24
6/24
7/24
8/24
9/24
10/24
11/24
12/24
13/24
14/24
15/24
16/24
17/24
18/24
19/24
20/24
21/24
22/24
23/24
23/24
F IG . E.2 – Les formes du conduit vocal pour la transition [ay] dans le cas où tous les articulateurs ont la
même masse.
127
Annexe E. Séquences : Formes du conduit vocal
1/24
2/24
3/24
4/24
5/24
6/24
7/24
8/24
9/24
10/24
11/24
12/24
13/24
14/24
15/24
16/24
17/24
18/24
19/24
20/24
21/24
22/24
23/24
23/24
F IG . E.3 – Les formes du conduit vocal pour la transition [ay] dans le cas où la mâchoire et les lèvres
ont des masses 50 fois plus importantes que les autres articulateurs.
128
1/24
2/24
3/24
4/24
5/24
6/24
7/24
8/24
9/24
10/24
11/24
12/24
13/24
14/24
15/24
16/24
17/24
18/24
19/24
20/24
21/24
22/24
23/24
24/24
F IG . E.4 – Les formes du conduit vocal pour la transition [iu]. Tous les articulateurs ont la même masse.
129
Annexe E. Séquences : Formes du conduit vocal
1/24
2/24
3/24
4/24
5/24
6/24
7/24
8/24
9/24
10/24
11/24
12/24
13/24
14/24
15/24
16/24
17/24
18/24
19/24
20/24
21/24
22/24
23/24
24/24
F IG . E.5 – Les formes du conduit vocal pour la transition [ua]. Tous les articulateurs ont la même masse.
130
Bibliographie
[Apostol, 2001] L. Apostol. Étude et simulation des caractéristiques individuelles des locuteurs par
modélisation du processus de production de la parole. PhD thesis, Institut de la Communication
Parlée, 2001.
[Atal and Rioul, 1989] B.S. Atal and O. Rioul. Neural networks for estimating articulatory positions
from speech. J. Acoust. Soc. Amer., 86(Supp. 1, S67) :123–131, 1989.
[Atal et al., 1978] B. S. Atal, J. J. Chang, M. V. Mathews, and J. W. Tukey. Inversion of articulatoryto-acoustic transformation in the vocal tract by a computer-sorting technique. Journal of Acoustical
Society of America, 63(5) :1535–1555, May 1978.
[Badin et al., 1998] P. Badin, L. Pouchoy, G. Bailly, M. Raybaudi, C. Segebarth, JF. Lebas, M. Tiede,
E. Vatikiotis-Bateson, and Y. Tohkura. Un modèle articulatoire tridimensionnel du conduit vocal basé
sur des données irm. In Proc XXIImes JEPs, 1998.
[Baer et al., 1991] T. Baer, J.C. Gore, L.C. Gracco, and P.W. Nye. Analysis of vocal tract shape and
dimension using magnetic resonance imaging : Vowels. J. Acoust. Soc. Am., 90(2) :799–828, 1991.
[Beautemps et al., 1995] D. Beautemps, P. Badin, and R. Laboissière. Deriving vocal tract area functions
from midsagittal profiles and formant frequencies : a new model for vowels and fricative consonants
based on experimental data. Speech Communication, 16 :27–47, 1995.
[Beautemps et al., 1996] D. Beautemps, P. Badin, G. Bailly, A. Galván, and R. Laboissière. Evaluation
of an articulatory-acoustic model based on a reference subject. In 1st ESCA Tutorial and research
workshop on speech production - 4th Speech production seminar, pages 45–48. ESCA, 1996.
[Benoit et al., 1998] C. Benoit, J. Martin, C. Pelachaud, L. Schomaker, and B. Suhm. Audio-visual and
multimodal speech systems. In D. Gibbon, R. Moore, and R. Winski, editors, Handbook of Standards
and Resources for Spoken Language Systems. Mouton de Gruyter, 1998. Volume supplémentaire.
[Boë, 1997] L.-J. Boë. Modélisation de la croissance du conduit vocal. espace vocalique des nouveauxnés et des adultes. conséquences pour l’ontogenèse et la phylogenèse. In Journées d’Etudes Linguistiques : la voyelle dans tous ces états, pages 98–105, 1997.
[Boë et al., 1992] L.-J. Boë, P. Perrier, and G. Bailly. The geometric vocal tract variables controlled for
vowel production : proposals for constraining acoustic-to-articulatory inversion. Journal of Phonetics,
20 :27–38, 1992.
[Bonvalet, 1993] M. Bonvalet. Les principes variationnels. Masson, Paris, 1993.
[Calliope, 1989] Calliope. Description acoustique. In La parole et son traitement automatique, chapter 3. Masson, Paris, 1989.
[Charpentier, 1984] F. Charpentier. Determination of the vocal tract shape from the formants by analysis
of the articulatory-to-acoustic non-linearities. Speech Communication, 3 :291–308, 1984.
[Ciocea et al., 1997] S. Ciocea, J. Schoentgen, and L. Crevier-Buchman. Analysis of dysarthric speech
by means of formant-to-area mapping. In Eurospeech, pages 1799–1802, Rhodes, 1997.
131
Bibliographie
[Cohen et al., 1998] M. Cohen, J. Beskow, and D. Massaro. Recent developments in facial animation :
An inside view. In Proceedings AVSP’98, pages 201–206, Terrigal-Australie, 1998.
[Dang and Honda, 1997] J. Dang and K. Honda. A physiological model of the tongue and jaw for
simulating deformation in the midsagittal and parasagittal planes. J. Acoust. Soc. Am., 102(5) :3167,
1997.
[Deng and Sun, 1993] L. Deng and D. Sun. Speech recognition using the atomic speech units constructed from overlapping articulatory features. In Eurospeech, pages 1635–1638, Berlin, 1993.
[Edwards and Harris, 1990] J. Edwards and K.S. Harris. Rotation and translation of the jaw during
speech. J. Speech and Hearing Research, 33 :550–562, 1990.
[Engwall, 1999] O. Engwall. Modeling of the vocal tract in three dimensions. In Eurospeech, pages
113–116, Budapest, 1999.
[Fant, 1960] G. Fant. Acoustic Theory of Speech Production. The Hague : Mouton & Co., 1960.
[Fant, 1975] G. Fant. Vocal-tract area and length perturbations. STL-QPSR, pages 1–14, 1975.
[Flanagan et al., 1980] J.L. Flanagan, K. Ishizaka, and K.L. Shipley. Signal models for low bit-rate
coding of speech. J. Acoust. Soc. Amer., 68(3) :780–791, 1980.
[Flanagan, 1972] J. L. Flanagan. Speech Analysis, Synthesis and Perception. Springer-Verlag, 2nd ed,
New York, 1972.
[Gabioud, 1994] B. Gabioud. Articulatory models in speech synthesis. In E. Keller, editor, Fundamentals of Speech Synthesis and Speech Recognition, chapter 10. John Wiley & Sons, West Sussex,
Englan, 1994.
[Galván-Rdz, 1997] A. Galván-Rdz. Etudes dans le cadre de l’inversion acoustico-articulatoire : Amélioration d’un modèle articulatoire, normalisation du locuteur et récupération du lieu de constriction
des plosives. PhD thesis, Institut de la Communication Parlée, 1997.
[Ghitza and Sondhi, 1997] O. Ghitza and M. M. Sondhi. On the perceptual distance between speech
segments. J. Acoust. Soc. Amer., 101(1) :522–529, 1997.
[Goldstein, 1980] U. G. Goldstein. An Articulatory Model for the Vocal Tracts of Growing Children.
PhD thesis, Massachusetts Institute of Technology, 1980.
[Golub and Loan, 1989] G.H. Golub and C.F. Van Loan. Matrix Computations. The Johns Hopkins
University Press, 1989.
[Hadamard, 1923] J. Hadamard. Lectures on the Cauchy Problem in Linear Partial Differential Equations. Yale University Press, New Haven, CT, 1923.
[Harshman et al., 1977] R. Harshman, P. Ladefoged, and L. Goldstein. Factor analysis of tongue shapes.
J. Acoust. Soc. Am., 62(3) :693–707, 1977.
[Heinz and Stevens, 1965] J. M. Heinz and K. N. Stevens. On the relations between lateral cineradiographs, area functions and acoustic spectra of speech. In Proceedings of the 5th International
Congress on Acoustics, page A44., 1965.
[Henk et al., 1997] M. Henk, J. Richter-Gebert, and G. Ziegler. Basic properties of convex polytopes.
In J.E. Goodman and J. O’Rourke, editors, Handbook of Discrete and Computational Geometry, CRC
Press, 1997, chapter 13. 1997.
[Ishizaka and Flanagan, 1972] K. Ishizaka and J. L. Flanagan. Acoustic properties of a two-mass model
of the vocal cords. Bell Syst. Technol. J., 51 :1233–1268, 1972.
[Jackson, 1988] M.T.T. Jackson. Analysis of tongue positions : language-specific and cross-linguistic
models. J. Acoust. Soc. Am., 84(1) :124–143, 1988.
132
[Johnson et al., 1993] K. Johnson, P. Ladefoged, and M. Lindau. Individual differences in vowel production. J. Acoust. Soc. Amer., 94(2-pt. 1) :701–714, 1993.
[Jordan and Rumelhart, 1992] M.I. Jordan and D.E. Rumelhart. Forward models : Supervised learning
with a distal teacher. Cognitive Sci., 16 :307–354, 1992.
[Kiritani et al., 1976] S. Kiritani, K. Miyawaki, O. Fujimura, and J.E. Miller. A computational model of
the tongue. Ann. Bull. RILP, 10 :243–251, 1976.
[Laboissièrre and Galvàn, 1995] R. Laboissièrre and A. Galvàn. Inferring the commands of an articulatory model from acoustical specifications of stop/vowel sequences. In Proceedings ICPhS, volume 1,
pages 358–361, Stockholm, August 1995.
[Landau and Lifchitz, 1989] L. Landau and E. Lifchitz. Mécanique des fluides, chapter 2, page 69. MIR,
1989.
[Laprie and Berger, 1996] Y. Laprie and M.-O. Berger. Cooperation of regularization and speech heuristics to control automatic formant tracking. Speech Communication, 19(4) :255–270, October 1996.
[Laprie and Mathieu, 1998a] Y. Laprie and B. Mathieu. Inversion acoustique articulatoire par une méthode variationnelle. In Actes des 22èmes Journ/’ees d’Etude su la Parole, pages 295–298, Martigny,
Switzerland, Juin 1998.
[Laprie and Mathieu, 1998b] Y. Laprie and B. Mathieu. A variational approach for estimating vocal
tract shapes from the speech signal. In Proceedings of the International Conference on Acoustics,
Speech and Signal Processing, volume 2, pages 929–932, Seattle, USA, May 1998.
[Laprie, 1988] Y. Laprie. Snorri, un système d’étude interactif de la parole. In Actes des 17èmes Journées
d’Etudes sur la Parole, pages 71–76, Nancy, 1988.
[Larar et al., 1988] J. N. Larar, J. Schroeter, and M. M. Sondhi. Vector quantization of the articulatory
space. IEEE Trans. Acoust., Speech, Signal Processing, ASSP-36(12) :1812–1818, December 1988.
[Liljencrants, 1971] J. Liljencrants. Fourier series description of the tongue profile. Speech Transmission
Laboratory, QPSR, 4 :9–18, 1971.
[Lucero and Munhall, 1999] J.C. Lucero and K.G. Munhall. A model of facial biomechanics for speech
production. J. Acoust. Soc. Am., 106(5) :2834–2842, 1999.
[Maeda, 1979] S. Maeda. Un modèle articulatoire de la langue avec des composantes linéaires. In Actes
10èmes Journées d’Etude sur la Parole, pages 152–162, Grenoble, Mai 1979.
[Maeda, 1990] S. Maeda. Compensatory articulation during speech : Evidence from the analysis and
synthesis of vocal-tract shapes using an articulatory model. In W.J. Hardcastle and A. Marchal, editors, Speech production and speech modelling, pages 131–149. Kluwer Academic Publisher, Amsterdam, 1990.
[Maeda, 1992] S. Maeda.
SUPP.) :191–198, 1992.
Modélisation articulatoire du conduit vocal.
J. de Physique, IV(2 -
[Massaro, 1998] D.W. Massaro. Perceiving Talking Faces : From Speech Perception to a Behavioral
Principle. MIT Press, 1998.
[Mathieu and Laprie, 1996] B. Mathieu and Y. Laprie. Speaker normalization of the Maeda’s model.
In Proceeding of International Workshop on Speech and Computer, SPECOM’96, pages 167–170, St.
Petersburg, Russia, 1996.
[Mathieu and Laprie, 1997] B. Mathieu and Y. Laprie. Adaptation of Maeda’s model for acoustic to
articulatory inversion. In Proceedings of the 5th European Conference on Speech Communication
and Technology, volume 4, pages 2015–2018, Rhodes, Greece, 1997.
133
Bibliographie
[Mathieu, 1999] B. Mathieu. Modèles de production de parole et reconnaissance à partir d’automates.
PhD thesis, Université Henri Poincaré - Nancy I, Decembre 1999.
[McGowan, 1994] R.S. McGowan. Recovering articulatory movement from formant frequency trajectories using task dynamics and a genetic algoritm : preliminary model tests. Speech Communication,
14 :19–48, 1994.
[Mermelstein, 1973] P. Mermelstein. Articulatory model for the study of speech production. J. Acoust.
Soc. Am., 53 :1070–1082, 1973.
[Ney, 1983] H. Ney. A dynamic programmation algorithm for nonlinear smoothing. Signal Processing,
5(2) :163–173, March 1983.
[Ouni and Laprie, 1999] Slim Ouni and Yves Laprie. Design of hypercube codebooks for the acousticto-articulatory inversion respecting the non-linearities of the articulatory-to-acoustic mapping. In
EUROSPEECH’99, Budapest, Hongrie, volume 1, pages 141–144, September 1999.
[Ouni and Laprie, 2000a] Slim Ouni and Yves Laprie. Improving acoustic-to-articulatory inversion by
using hypercube codebooks. In International Conf. on Spoken Language Processing - ICSLP2000,
Beijing, Chine, volume II, pages 178–181, October 2000.
[Ouni and Laprie, 2000b] Slim Ouni and Yves Laprie. Utilisation d’un dictionnaire hypercubique pour
l’inversion acoustico-articulatoire. In Actes des Journées d’Étude sur la parole, Aussois, June 2000.
[Ouni and Laprie, 2001a] Slim Ouni and Yves Laprie. Exploring the Null Space of the Acoustic-toArticulatory Inversion Using a Hypercube Codebook. In Eurospeech, Aalborg, Danemark, volume 1,
pages 277–280, September 2001.
[Ouni and Laprie, 2001b] Slim Ouni and Yves Laprie. Studying articulatory effects through hypercube
sampling of the articulatory space. In 17th International Congress on Acoustics , Rome, Italy, volume 4, September 2001.
[Overall, 1962] J.E. Overall. Orthogonal factors and uncorrelated factor scores. In Psychological Reports, volume 10, pages 651–662, 1962.
[Papcun et al., 1992] G. Papcun, J. Hochberg, T.R. Thomas, F. Laroche, J.Zacks, and S. Levy. Inferring
articulation and recognizing gestures from acoustics with a neural network trained on x-ray microbeam data. J. Acoust. Soc. Amer., 92(2) :688–700, 1992.
[Payan and Perrier, 1997] Y. Payan and P. Perrier. ynthesis of v-v sequences with a 2d biomechanical
tongue model controlled by the equilibrium point hypothesis. Speech Commmunication, 22 :185–205,
1997.
[Pelachaud and Prevost, 1995] C. Pelachaud and S. Prevost. Talking heads : Physical, linguistic and
cognitive issues in facial animation. Cours d’infographie, Université de Rome et Université de Pennsylvania, 1995.
[Perkell, 1974] J.S Perkell. A Physiologically-Oriented Model of Tongue Activity in Speech Production.
PhD thesis, Massachusetts Institute of Technology, 1974.
[Perrier et al., 1992] P. Perrier, L.-J. Boë, and R. Sock. Vocal tract area function estimation from midsagittal dimensions with ct scans and a vocal tract cast : modeling the transition with two sets of
coefficients. J. Speech and Hearing Research, 35 :53–67, 1992.
[Rahim and Goodyear, 1990] M.G. Rahim and C.C. Goodyear. Estimation of vocal tract filter parameters using a neural net. Speech Communication, 9 :49–55, 1990.
[Rahim et al., 1993] M.G. Rahim, C.C. Goodyear, W.B. Kleijn, J. Schroeter, and M.M. Sondhi. On the
use of neural networks for in articulatory speech synthesis. J. Acoust. Soc. Amer., 93(2) :1109–1121,
1993.
134
[Raphael and Bell-Berti, 1975] L.J. Raphael and F. Bell-Berti. Tongue musculature and the feature of
tension in english vowels. Phonetica, 32 :61–73, 1975.
[Richards et al., 1997] H. B. Richards, J. S. Bridle, M. J. Hunt, and J. S. Mason. Dynamic constraint
weighting in the context of articulatory parameter estimation. In Proceedings of the 5th European
Conference on Speech Communication and Technology, volume 5, pages 2535–2538, Rhodes, Greece,
1997.
[Rose et al., 1994] R.C. Rose, J. Schroeter, and M.M. Sondhi. An investigation of the potential role of
speech production models in automatic speech recognition. In Proceedings of International Conference on Spoken Language Processing, volume 2, pages 575–578, Yokohama, Japan, 1994.
[Rubin et al., 1981] P.E. Rubin, T. Baer, and P. Mermelstein. An articulatory synthesizer for articulatory
research. J. Acoust. Soc. Am., 70 :321–328, 1981.
[Sanchez and Boë, 1984] H. Sanchez and L.-J. Boë. De la coupe sagittale à la fonction d’aire du conduit
vocal. Bull. Inst. Phonétique de Grenoble, 13 :1–24, 1984.
[Sanguineti et al., 1998] V. Sanguineti, R. Laboissiere, and D.J. Ostry. A dynamic biomechanical model
for the neural control of speech production. J. Acoust. Soc. Am., 103 :1615–1627, 1998.
[Schoentgen and Ciocea, 1997] J. Schoentgen and S. Ciocea. Kinematic formant-to-area mapping.
Speech Communication, 21 :227–244, 1997.
[Schroeder, 1967] M.R. Schroeder. Determination of the geometry of the human vocal tract by acoustic
measurements. J. Acoust. Soc. Amer., 41 :1002–1010, 1967.
[Schroeter and Sondhi, 1992] J. Schroeter and M. M. Sondhi. Speech coding based on physiological
models of speech production. In S. Furui and M. M. Sondhi, editors, Advances in Speech Signal
Processing, pages 231–267. Dekker, New York, 1992.
[Shirai and Kobayashi, 1991] K. Shirai and T. Kobayashi. Estimating articulatory motion using neural
networks. J. Phonetics, 19 :379–385, 1991.
[Shirai, 1983] K. Shirai. Computer Analysis and Perception, chapter 2, pages 101–141. 1983.
[Silva and Chennoukh, 1998] C. Silva and S. Chennoukh. Articulatory analysis using a codebook for
articulatory based low bit-rate speech coding. In ICSLP98, 1998.
[Sondhi and Schroeter, 1987] M.M. Sondhi and J. Schroeter. A hybrid time-frequency domain articulatory speech synthesizer. IEEE Trans. on Acoustic, Speech and Signal Processing, 35(7) :955–967,
July 1987.
[Soquet et al., 1991] A. Soquet, M. Saerens, and P. Jospa. Acoustic-articulatory inversion based on a
neural controller of a vocal tract model : further results. In O. Simula T. Kohonen, K. Mokisara and
J. Kangas, editors, Artificial Neural Networks, pages 371–376. North Holland : Elsevier, 1991.
[Sorokin and Trushkin, 1996] V.N. Sorokin and A.V. Trushkin. Articulatory-to-acoustic mapping for
inverse problem. Speech Communication, 19 :105–118, 1996.
[Sorokin et al., 2000] V.N. Sorokin, A.S. Leonov, and A.V. Trushkin. Estimation of stability and accuracy of inverse problem solution for the vocal tract. Speech Communication, 30 :55–74, 2000.
[Sorokin, 1987] V.N. Sorokin. Coordination of muscles and articulators. In ICPhS, volume 3, pages
382–384, 1987.
[Sorokin, 1992] V.N. Sorokin. Determination of vocal tract shape for vowels. Speech Communication,
11 :71–85, 1992.
[Sorokin, 1994] V.N. Sorokin. Inverse problem for fricatives. Speech Communication, 14 :249–262,
1994.
135
Bibliographie
[Stevens and House, 1955] K.N. Stevens and A.S. House. Development of a quantitative description of
vowel articulation. J. Acoust. Soc. Amer., 27 :484–493, 1955.
[Stevens, 1972] K.N. Stevens. Human communication : A unified view, pages 51–66. McGraw Hill,
1972.
[Stevens, 1989] K.N. Stevens. On the quantal nature of speech. J. Phonetics, 27 :3–45, 1989.
[Stevens, 1999a] K.N. Stevens. Acoustic Phonetics, chapter 1. MIT Press, 1999.
[Stevens, 1999b] K.N. Stevens. Acoustic Phonetics, chapter 3, page 145. MIT Press, 1999.
[Wilhelms-Tricarico, 1995] R. Wilhelms-Tricarico. Physiological modeling of speech production : Methods for modeling soft-tissue articulators. J. Acoust. Soc. Am., 97(5) :3085–3098, 1995.
[Wood, 1979] S. Wood. A radiographic analysis of constriction for vowels. Journal of Phonetics, 7 :25–
43, 1979.
[Yehia and Tiede, 1997] H. Yehia and M. Tiede. A parametric three-dimensional model of the vocaltract based on MRI data. In Proc. ICASSP ’97, pages 1619–1622, Munich, Germany, 1997.
[Zlokarnik, 1993] I. Zlokarnik. Experiments with an articulatory speech recognizer. In Eurospeech,
pages 2215–2218, Berlin, 1993.
[Zwicker and Feldtkeller, 1981] E. Zwicker and R. Feldtkeller. Psychoacoustique : l’oreille, récepteur
d’information, chapter V, pages 63–66. Masson, 1981.
136
Résumé
L’objectif de la thèse est de développer une méthode d’inversion afin de récupérer toutes les formes réalisables
du conduit vocal correspondant à un signal acoustique représenté par ses formants, et de récupérer l’évolution
temporelle des paramètres articulatoires.
Notre méthode d’inversion repose en grande partie sur la représentation de l’espace articulatoire sous la forme
d’un codebook hypercubique. Ce codebook est constitué d’hypercubes représentant des régions de dimension sept
par un nombre très limité de points. Ces hypercubes ont une taille qui dépend du degré de non-linéarité de la
relation articulatoire-acoustique.
Lors de l’inversion, le codebook hypercubique est exploré afin de récupérer les formes articulatoires de tous
les hypercubes possibles correspondant à une entrée acoustique. Nous proposons une méthode d’exploration de
l’espace nul de l’hypercube qui permet alors d’obtenir une description complète de l’ensemble des solutions.
Après l’étape d’inversion point à point, il est possible de trouver les trajectoires articulatoires qui correspondent
à une variation lente des paramètres articulatoires et cohérentes d’un point de vue phonétique. Dans ce but, nous
proposons une méthode de lissage non-linéaire basée sur une stratégie de programmation dynamique. Le résultat
de ce lissage est ensuite régularisé à l’aide d’une méthode variationnelle qui minimise la distance acoustique et
assure la régularité de l’évolution des paramètres articulatoires.
Mots-clés: inversion, acoustique, articulatoire, codebook, hypercube, production de la parole, trajectoire articulatoire, variabilité articulatoire, voyelles, régularisation variationnelle, non-linéarité, lissage, SVD.
Abstract
Title : Articulatory space modelling using a hypercube codebook for acoustic-to-articulatory inversion
In this thesis, we deal with the inversion of the articulatory-to-acoustic relation, i.e. given an acoustic signal we
want to recover the trajectories of the corresponding articulatory parameters. For this purpose, we have to resolve
three problems : modelling articulatory space by hypercubes, retrieving all the solutions, and recovering articulatory trajectories varying slowly.
Our inversion method is based on the representation of the articulatory space by a hypercube codebook. This
representation has the advantage of decomposing the articulatory space into regions where the mapping is quasilinear. Each region is represented by a hypercube.
The inversion procedure retrieves articulatory vectors corresponding to an acoustic entry from the hypercube
codebook. As the dimension of the articulatory space is greater than the dimension of the acoustic space, the
corresponding null space is sampled by linear programming to retrieve all the possible solutions.
Retrieving articulatory trajectories is performed in two steps. We use non-linear smoothing method based on
dynamic programming followed by smoothing with a variational method. We have succeeded to retrieve smooth
and realistic articulatory trajectories, which is confirmed by the experimental evaluation.
Keywords: inversion, acoustic, articulatory, codebook, hypercube, speech production, articulatory trajectoiry,
articulatoiry variability, vowels, variationnal regularization, non-linearity, smoothing, SVD.