Une équipe de chercheurs du laboratoire GIPSA-lab (CNRS/Université Grenoble Alpes/Grenoble INP) et dInria Grenoble Rhône-Alpes vient de mettre au point un système permettant de visualiser, en temps réel, nos propres mouvements de langue. Capturés à laide dune sonde échographique placée sous la mâchoire, ces mouvements sont traités par un algorithme dapprentissage automatique qui permet de piloter une « tête parlante articulatoire ». En plus du visage et des lèvres, cet avatar fait apparaître la langue, le palais et les dents habituellement cachés à lintérieur de lappareil vocal. Ce système de « retour visuel », qui devrait permettre de mieux comprendre et donc de mieux corriger sa prononciation, pourra servir à la rééducation orthophonique ou lapprentissage dune langue étrangère. Ces travaux sont publiés dans la revue Speech Communication doctobre 2017.
La rééducation orthophonique dune personne atteinte dun trouble de larticulation sappuie en partie sur la répétition dexercices : le praticien analyse qualitativement les prononciations du patient et lui explique oralement ou à laide de schémas comment placer ses articulateurs, et notamment sa langue, dont il na généralement que peu conscience. Lefficacité de la rééducation repose donc sur la bonne intégration par le patient des indications qui lui sont données. Cest à ce stade que peuvent intervenir les systèmes de « retour articulatoire visuel» qui permettent au patient de visualiser en temps réel ses propres mouvements articulatoires (et notamment les mouvements de sa langue) afin de mieux en prendre conscience et donc de corriger plus rapidement ses défauts de prononciation.
Depuis quelques années, des chercheurs anglo-saxons semblent privilégier la technique de léchographie pour la conception de ces systèmes de retour visuel. Limage de la langue est alors obtenue en plaçant sous la mâchoire dun locuteur une sonde analogue à celle classiquement utilisée pour limagerie du cur ou du ftus. Cette image est parfois jugée difficile à exploiter par le patient car elle nest pas de très bonne qualité et ne donne aucune information sur la place du palais et des dents. Dans ces nouveaux travaux, les chercheurs français proposent daméliorer ce retour visuel en animant automatiquement et en temps réel une tête parlante articulatoire à partir des images échographiques. Ce clone virtuel dun véritable locuteur, en développement depuis de nombreuses années au GIPSA-lab, permet une visualisation plus intuitive, car contextualisée, des mouvements articulatoires.
La force de ce nouveau système repose sur un algorithme dapprentissage automatique (machine learning), sur lequel les chercheurs travaillent depuis plusieurs années. Cet algorithme permet (dans une certaine limite) de traiter des mouvements articulatoires que lutilisateur ne maîtrise pas encore lorsquil commence à utiliser le système. Cette propriété est indispensable pour les applications thérapeutiques visées. Pour atteindre une telle performance, lalgorithme exploite un modèle probabiliste construit à partir dune grande base de données articulatoires acquises sur un locuteur dit « expert », capable de prononcer lensemble des sons dune ou plusieurs langues. Ce modèle est adapté automatiquement à la morphologie de chaque nouvel utilisateur, lors dune courte phase détalonnage du système, au cours de laquelle le patient doit prononcer quelques phrases.
Ce système, validé en laboratoire pour des locuteurs sains, est aujourdhui testé dans une version simplifiée dans une étude clinique pour des patients ayant subi une intervention chirurgicale de la langue. Par ailleurs, les chercheurs développent aussi une autre version du système dans laquelle la tête parlante articulatoire est animée automatiquement, non pas à partir déchographie, mais directement à partir de la voix de lutilisateur[1].
###
Une vidéo est également disponible sur : https://www.youtube.com/watch?v=u8jb4b0fMsE
[1] Voir Speaker-Adaptive Acoustic-Articulatory Inversion using Cascaded Gaussian Mixture Regression. Hueber, T., Girin, L., Alameda-Pineda, X., Bailly, G. (2015), in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 12, pp. 2246-2259.
Journal
Speech Communication