Speech Group INRIA Lorraine

Name: Speech Group INRIA Lorraine
Uploaded: 2017-12-15T19:35:10+00:00
Duration: PTM22S7
Channel: Marianna O’Brien’
Description: Speech Group INRIA Lorraine

Speech Group INRIA Lorraine
Acoustic to articulatory inversion of speech Yves Laprie Speech Group INRIA Lorraine

Layout Introduction Our approach The table lookup procedure
Construction of the hypercube table Inversion with the hypercube table Recovering articulatory trajectories Experiments

What is acoustic to articulatory inversion ?
Recovering the temporal evolution of the vocal tract shape from the acoustic signal. Acoustical signal represented by the three first resonance frequencies (formants). The vocal tract shape is given by seven articulatory parameters (jaw, tongue position and shape, apex, lip aperture and protrusion and larynx). These parameters correspond to the articulatory model of Maeda. L’objectif de ce travail est de développer une méthode d’inversion afin de récupérer toutes les formes vraisemblables du conduit vocal correspondant à un signal acoustique représenté par ses formants, et de récupérer l’évolution temporelle des paramètres articulatoires. C’est l’inversion acoustico-articulatoire.

Why is inversion useful ?
Theoretical interests: A better knowledge of speech production A better comprehension of audio-visual integration Applicative interests: Very low bit rate speech coding Automatic speech recognition A feedback for language learning L’inversion acoustico-articulatoire est un domaine important de la recherche sur la communication parlée et sur les technologies de la parole. En effet, récupérer les paramètres articulatoires à partir du seul signal de parole permettrait de mieux connaître les stratégies articulatoires utilisées lors de la production de parole ce qui pourrait être très important pour la phonétique, la rééducation orthophonique, l’apprentissage des langues et le codage phonétique. L’inversion pourrait être utilisée aussi dans le domaine de la reconnaissance de parole et cela en intégrant l’information articulatoire dans les systèmes probabilistes de reconnaissance de parole comme les HMM, par exemple.

Why inversion is difficult?
There is no one-to-one mapping between vocal tract shapes and speech spectra (recovering more articulatory parameters than acoustic parameters measured from speech). An analysis by synthesis method to limit the space of inverse solutions. Articulatory parameters saggital slice L’inversion est difficile à cause de plusieurs problèmes qui sont principalement liés à la non-unicité et la non-linéarité de la relation entre les domaines articulatoire et acoustique. En effet, de nombreuses formes différentes du conduit vocal peuvent être associées au même signal de parole d’où la relation n’est pas biunivoque. D’autre part, il existe des régions pour lesquelles une petite variation d’un paramètre articulatoire entraîne une conséquence acoustique importante et inversement. Area function Speech spectrum Model of saggital to area transformation Acoustic simulation: Acoustic/electrical analogy (acoustic tubes –electrical quadripoles) Articulatory model inversion

How the vocal tract can be represented ?
Two extreme solutions: A drastically simplified representation of the vocal tract (e.g. 6 uniform tubes). does not ensure that the evolution of the vocal tract shape is realistic. A more realistic 3D representation of the vocal tract obtained by PCA methods applied to MRI images. how constraints consistent with the vocal tract dynamics can be incorporated in the inversion ? Plusieurs méthodes ont été développées pour effectuer l’inversion. On peut citer: Les méthodes par optimisation: Elles consistent à agir sur les paramètres articulatoires ou sur la fonction d’aire afin d’obtenir des paramètres acoustiques correspondant à ceux mesurés. Ces méthodes se basent sur la minimisation d’une fonction de coût définie par une distance spectrale ou acoustique entre les paramètres acoustiques générés et ceux mesurés. La solution produite par une méthode d’optimisation dépend fortement de la solution initiale qui est obtenue par une méthode heuristique ou par une recherche dans un tableau ou encore un codebook.

Our position We want to interpret inversion results in terms of articulator movements, so that a phonetic representation of sounds can be exploited later. Articulatory model (that of Maeda) We want to prevent the inversion method from influencing inversion results implicitly. An inversion method as neutral as possible (keep all the inverse solutions). Adding constraints or a learning phase to study their influence on the inversion. Une deuxième famille de méthodes sont les méthodes par réseaux de neurones. Les réseaux de neurones ont été utilisés pour améliorer une solution initiale obtenue par inversion en utilisant un codebook ou bien pour effectuer un apprentissage à partir des données du codebook pour approcher la relation non-linéaire entre les domaines articulatoire et acoustique.

Our approach A table lookup procedure to find inverse solutions at each time of the speech signal to be inversed. An exploration algorithm to build articulatory trajectories along the time interval of the speech signal. A regularization method to improve the regularity of articulatory trajectories as well as their acoustic proximity with acoustical data.

Articulatory parameters chosen according to some criterion
Table lookup procedure Requires the construction of an articulatory table. Articulatory parameters chosen according to some criterion Acoustical parameters Articulatory synthesizer Application f: A  Ac A articulatory space Ac acoustic space N M Articulatory parameters indexed by acoustical parameters Table Un codebook est la collection d’un grand nombre de formes du conduit vocal, représentées par des paramètres articulatoires choisis selon un critère donné, et les paramètres acoustiques associés qui sont calculés par le synthétiseur articulatoire. Difficulties: The dimension of the articulatory space is 7. The articulatory to acoustic mapping is not linear.

Some methods for constructing articulatory tables
Regularly spaced sampling Seven parameters, each of them varies between -3 and +3 ! Random sampling tables A (very) limited number of shapes without any control on the location of the articulatory parameters in the articulatory space. Random sampling in the vicinity of paths between two root shapes corresponding to vowels Requires very consistent root shapes in terms of articulatory parameters. Je présente ici trois méthodes de construction de codebook que nous avons testées: Codebook à échantillonnage régulier Codebook à échantillonnage aléatoire: choisir aléatoirement un nombre limité de formes en éliminant les formes qui ne sont pas plausibles. Codebook à prototypes vocaliques Certaines méthodes utilisent un Codebook implicite, comme les méthodes par réseaux de neurones, lors de la phase d’apprentissage.

A hypercubic articulatory table
Adaptative sampling of the articulatory space to account for non-linearities of the articulatory-to-acoustic mapping denoted ℳ. Construction: The articulary space is included in a 7 dimensional root hypercube. If the mapping ℳ is not linear inside this hypercube, this hypercube is subdivided into (27 = 128) sub-hypercubes. A hypercube is kept only if the mapping is sufficiently linear. The table is a hierarchy of hypercubes. En effet, pour pallier les inconvénients des méthodes existantes, nous présentons une méthode de construction de codebook qui permet d’avoir un échantillonnage moins coûteux mais précis et de respecter la non-linéarité de la relation articulatoire acoustique.

Linearity evaluation in a 3 dimesional hypercube.
Comparing formant values (acoustical parameters) interpolated against those calculated by synthesis. Pour illustrer la méthode de construction, je présente le cas d’un hypercube de dimension 3 qui est un cube. Le test de linéarité est effectué entre tous les sommets (les segments en trait continu) . Si le test échoue, on décompose l’hypercube en 8 sous-hypercubes. Le test de linéarité entre deux sommets a et b est le suivant: c’est la comparaison entre la valeur acoustique du milieu du segment ab calculé par synthèse articulatoire et celle trouvé par interpolation par rapport aux sommets a et b. Cette différence doit être inférieure à un seuil prédéfini.

Experimental evaluation of the interpolation accuracy
Comparing formant values interpolated from the hypercubes with those synthesized for 2000 random articulatory points. We get a better precision than that imposed during hypercube construction. F1 F2 F3 Threshold (linearity test) 50 Hz 75 Hz 100 Hz Average error (interpolation) 10 Hz 20 Hz Afin d’étudier la qualité de la couverture de l’espace articulatoire par le codebook hypercubique, nous avons essayé de retrouver les informations acoustiques correspondantes à des vecteurs articulatoires en utilisant le calcul du gradient par rapport à un sommet de l’hypercube. Sur l’ensemble des expériences effectuées, nous avons obtenus de bons résultats du point de vue proximité acoustique. En effet, la marge d’erreur pour le test de linéarité lors de la construction du codebook est de (50HzF1, 75HzF2, 100HzF3) alors que l’erreur moyenne pour l’interpolation ne dépasse pas les 10Hz pour F1 et F2, et 20Hz pour F3. Ceci est rassurant à propos de la qualité de l’interpolation.

Inversion based on the hypercube table
For one acoustic vector (3-tuple of formants F1, F2 and F3) at a time : finding all the hypercubes whose acoustical images given by the mapping ℳ contain the 3-tuple of formants. finding all the inverse solutions in each of these hypercubes. Retrouver les formes du conduit vocal qui sont à l’origine d’un signal de parole revient à récupérer tout d’abord tous les hypercubes dont les images, par la relation articulatoire-acoustique, contiennent ce signal de parole, et ensuite, retrouver dans chaque hypercube la forme du conduit vocal correspondant à ce segment. Formant vector measured Formant vector at P0 Hypercube center Jacobian of ℳ Inverse points More unknowns (7) than know data (3).

Sampling the intersection of the null space of F and the hypercube Hc (1)
SVD provides a particular solution (Psvd) plus a basis of the null space (a 4 dimensional space for F). (Null space of F) Each P must belong to Hc, i.e. for each coordinate i : Ce système présente un nombre d’équations < nombre d’inconnues. La matrice A est donc singulière d’où il existe un sous-espace de l’espace articulatoire dont l’image est zéro, appelé noyau ou encore espace nul. Donc, ce système a plusieurs solutions: On a en effet, une famille de solutions de dimension N-M qui correspondent à la dimension de l’espace nul. Dans l’espace nul, une variation articulatoire ne modifie pas l’image acoustique. Pour notre problème M=3 les trois premiers formants. N=7 les paramètres du modèle articulatoire D’où l’espace nul est de dimension 4. and are the lower and higher boundaries of the ith coordinate of the hypercube.

Sampling the intersection of the null space of F and the hypercube Hc (2)
There is no exact solution of the problem beyond dimension 3. Linear programming to find lower and higher values of j (4 programs for the lower values and 4 for the higher values). Regular sampling the j and verifying that the corresponding points belong to the hypercube. Sous la forme matricielle , nous avons ce système: __ (un polytope est l’intersection bornée d’un nombre fini de demi-espaces.) Sampling of the null space Intersection with the hypercube

Linear programs to find lower and higher values of i
From the equations which express that a point belongs to the hypercube: 8 linear programs are built: 4 to minimize i (i=1…4) 4 to maximize i (i=1…4) Déterminer le plus petit hypercube de dimension 4 contenant le polytope se fait par la résolution de ces 8 programmes linéaires: -- Déterminer les betai permet de déterminer l’hypercube 4D.

? Recovering articulatory trajectories
Standard deviation of one of the articulatory parameters Time ? Je présente maintenant l’ensemble des solutions de la transition /ui/. Dans cette figure, l’axe horizontal correspond au temps et l’axe vertical correspond à une valeur d’un paramètre articulatoire exprimé en écart type Grâce à l’échantillonnage de l’espace nul, l’espace articulatoire est couvert plus finement, ce qui permet d’obtenir des trajectoires articulatoires plus lisses. Parmi toutes ces solutions, il faut chercher quelle trajectoire articulatoire choisir. /ui/ – All the inverse solutions for the /ui/ speech signal with a 30Hz precision for the three first formants.

Recovering articulatory trajectories
A method which operates in two steps: A dynamic programming that minimizes articulatory efforts along articulatory trajectories. A regularizing method that incorporates the acoustic behavior of the articulatory model and uses solutions of step 1 as initial solutions. Two criteria are combined : acoustical proximity between original and synthesized formants. Regularity of articulatory trajectories. Notre méthode opére en deux étapes: tout d’abord Déterminer une trajectoire articulatoire à partir des solutions obtenues. puis Améliorer cette trajectoire par une méthode de régularisation variationnelle. Ceci afin de répondre à deux critères: La proximité avec les données acoustiques La régularité des paramètres articulatoires

Re-synthesized vs. original formants
Experiments Transition /yi/ F3 F2 F1 F3 Re-synthesized vs. original formants Frequency (Hz) F2 Le but de cette partie est de montrer les capacités de la méthode d’inversion à retrouver un grand nombre de solutions et de choisir des trajectoires articulatoires lisses et réalistes. Ici, je présente le spectre correspondant à la transition /ui/ et l’ensemble des solutions de l’inversion dans l’espace acoustique représenté par les trois premiers formants. L’axe horizontale correspond au temps et l’axe vertical aux fréquence. Nous remarquons que toutes les solutions présentent une bonne proximité acoustique, comme nous l’avons présenté auparavant. F1 Time (ms)

Inverse articulatory trajectories
With a constraint on the protrusion of the first point. With a constraint on the protrusion and the jaw of the first point. Without any constraint Je présente ici les trajectoires correspondant aux trois paramètres articulatoires de la transition /ui/. Ces trajectoires sont obtenues à l’issue du lissage non-linéaire et la régularisation variationnelle. Il est clair que les trajectoires sont lisses et ne présentent pas de variations brusques. Ce qui peut être confirmé par l’animation du conduit vocal correspondant à ces trajectoires.

Comparison of the vocal tract shapes
Both solutions produce exactly the same formants, i.e. the same acoustical signal. Only the strategy for exploiting acoustical properties of the articulatory model differ. Without any constraint. With a constraint on the protrusion and the jaw of the first point.

Conclusions All the inverse solutions are potentially explored, i.e. the inversion procedure does not influence solutions. The accuracy of inversion can be decreased so that errors on the model adaptation do not influence inversion. Learning probabilities of articulatory shapes from real data to guide inversion towards articulatory trajectories realized by real speakers. Audio-visual inversion: Incorporating constraints through the recovering of visible articulators (jaw and lips) to reduce the dimension of the solution space.

Speech Group INRIA Lorraine

Similar presentations

Presentation on theme: "Speech Group INRIA Lorraine"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

Speech Group INRIA Lorraine

Similar presentations

Presentation on theme: "Speech Group INRIA Lorraine"— Presentation transcript:

Similar presentations

About project

Feedback