Partenaires

Modèles acoustiques compacts pour les systèmes embarqués

C. LEVY, Université d’Avignon de des Pays de Vaucluse, 2006
jeudi 15 février 2007.
 

Résumé : Depuis le lancement des téléphones portables au milieu des années 90, leurs ventes n’ont cessé de progresser. Leur taille, comme celle de l’ensemble des systèmes embarqués (téléphone, GPS, PDA...), a constamment été réduite, quand, dans le même temps, le nombre de services offerts n’a fait qu’augmenter. D’une manière générale, la plupart des systèmes embarqués offre aujourd’hui une interface homme-machine complexe et peu conviviale. L’intégration d’un moteur de reconnaissance de la parole dans ces systèmes offre une voie intéressante pour améliorer leur ergonomie.

Cette thèse s’inscrit dans le cadre de la Reconnaissance Automatique de la Parole (RAP) intégrée dans les systèmes embarqués. Les ressources disponibles dans ces systèmes sont nettement inférieures à celles des ordinateurs généralement utilisés pour la RAP, tant du point de vue de la puissance de calcul que de la quantité de mémoire. Les travaux que nous présentons s’inscrivent dans cette problématique de la RAP en situation de ressources réduites et plus particulièrement dans le cadre de la réduction de la taille des modèles acoustiques.

En RAP les unités phonétiques sont, généralement, représentées par des modèles de Markov cachés gauche-droit à trois états. Afin d’améliorer les performances des systèmes, la tendance va vers l’utilisation de modèles contextuels et vers l’apprentissage de GMM complexes pour la modélisation acoustique. Cette approche nécessite une quantité de mémoire très importante qui n’est pas en adéquation avec les ressources disponibles dans les systèmes embarqués.

Dans ce travail, nous présentons une approche alternative dans laquelle une seule mixture de gaussiennes (le GMM général) représente l’ensemble de l’espace acoustique. Chaque état est ensuite estimé relativement au GMM général par une transformation, simple et compacte. Deux techniques sont proposées pour estimer les transformations permettant de caractériser les fonctions de densité de probabilité des différents états. Dans un premier temps, nous proposons de ré-estimer le poids de chacune des composantes du GMM général avec un critère maximisant la vraisemblance ou avec un critère discriminant. Ensuite, nous présentons une seconde fonction de transformation combinant une transformation linéaire et globale du GMM général (par modification des moyennes et variances) et la ré-estimation des poids citée précédemment.



Forum

Contact : webmaster-afcp@afcp-parole.org - Hébergement : Université d'Avignon
Développé sous SPIP