Partenaires

Structuration de l’espace acoustique par le modèle générique pour la vérification du locuteur

N. SCHEFFER, Université d’Avignon et des Pays de Vaucluse, 2006
vendredi 8 juin 2007.
 

Résumé :

La Vérification Automatique du Locuteur (VAL) consiste à confirmer ou infirmer par sa voix l’identité proclamée d’un individu. Pour cette tâche, il est nécessaire d’estimer la probabilité pour qu’un locuteur ne corresponde pas à l’identité qui a été proclamée. Dans le paradigme de modélisation par GMM, un modèle générique (ou modèle du monde) est employé à cet effet. Cependant, son utilisation va bien au delà de cette simple estimation. Il joue, en effet, un rôle structurant pour l’espace acoustique, à travers l’estimation des modèles de locuteur et les calculs de statistiques.

Les travaux présentés dans cette thèse s’inscrivent dans le cadre de la VAL et sont orientés autour d’un axe principal : l’intégration du modèle générique au sein des nouveaux formalismes apparus ces dernières années. Parmi ceux-ci, deux catégories ont retenu notre attention, les systèmes s’appuyant sur une approche discriminante et les systèmes modélisant des caractéristiques du locuteur autres que celles issues de l’enveloppe spectrale à court terme (appelés systèmes « haut-niveau »).

La première contribution de nos travaux consiste à représenter le signal par des événements acoustiques issus du modèle générique et à analyser la séquence de ces événements dont la dynamique est spécifique du locuteur. Ces événements acoustiques sont, de fait, indépendants de la structure de la langue et n’ont pas de signification linguistique propre. Ce système, nommé AES (Acoustic Event Sequences), présente des performances similaires aux systèmes haut niveau basés sur une analyse phonétique ou lexicale. La seconde contribution vise à l’élaboration d’un système employant une modélisation discriminante structurée par le modèle générique. Notre contribution se distingue par l’expression du problème de vérification dans une faible dimension et exploitant la capacité de modélisation du modèle générique. Les performances du système, nommé SVM-UBM, obtenues sont proches des systèmes standards. Les contributions proposées ouvrent de nombreuses perspectives attrayantes notamment l’unification des deux approches majeures présentées dans ce document, perspective qui représente une prochaine étape vers un paradigme riche en informations, dynamiques et discriminantes.



Forum

Contact : webmaster-afcp@afcp-parole.org - Hébergement : Université d'Avignon
Développé sous SPIP