Partenaires

Thèse

Telechargement Approches robustes pour la vérification du locuteur par normalisation et adaptation hiérarchique.

M. BEN, Université Rennes I, 2004
mardi 26 avril 2005.
 

Résumé :

La vérification automatique du locuteur (VAL) consiste à authentifier l’identité d’une personne en analysant les caractéristiques de sa voix. Ses applications vont du contrôle d’accès à l’authentification d’enregistrements sonores, en passant par des tâches d’étiquetage automatique de documents audio en fonction des locuteurs.

Lorsqu’ils sont utilisés en situation réelle et dans des environnements perturbés, comme les applications téléphoniques notamment, les systèmes de VAL peuvent être confrontés à de fortes variations de conditions d’utilisation, entraînant une augmentation importante des erreurs de reconnaissance. Pour diminuer ce type d’erreurs, les systèmes actuels doivent intégrer des techniques de compensation dont l’objectif est d’atténuer les effets des disparités entre les données d’apprentissage et celles de test. En particulier, les techniques de normalisation et d’adaptation Bayésienne de modèles ont montré leur intérêt pour améliorer la robustesse des systèmes de VAL. Cependant, les approches courantes de normalisation demandent souvent une mise en oeuvre contraignante. L’adaptation Bayésienne classique trouve quant à elle ses limites lorsque la quantité de données d’apprentissage est très limitée. L’objectif de cette thèse est de développer des techniques destinées à remédier à certaines de ces limitations. Nos travaux s’inscrivent dans l’approche probabiliste pour la VAL. Les locuteurs sont modélisés par des modèles de mélange de Gaussiennes et l’étape de décision est basée sur un test d’hypothèses Bayésien qui utilise le rapport de vraisemblances entre le modèle du locuteur ``client’’, et le modèle ``imposteur’’ représenté par un modèle du monde.

Dans un premier temps, nous élaborons de nouvelles techniques de normalisation qui utilisent des divergences de Kullback-Leibler (KL) entre les modèles de locuteur et le modèle du monde. Nous nous appuyons pour cela sur le lien formel que nous mettons en évidence entre les divergences KL et le log-rapport de vraisemblances : l’espérance mathématique du log-rapport de vraisemblance peut s’écrire comme une différence entre deux divergences KL faisant intervenir le modèle du locuteur, le modèle du monde et le modèle du test. En pratique, ce lien s’est traduit par l’observation d’une forte corrélation entre les divergences KL et la moyenne des scores imposteurs. Les techniques de normalisation qui en découlent agissent au niveau des scores de vérification et au niveau des modèles et permettent un allègement significatif de la procédure de normalisation. La première technique, appelée D-norm, normalise les scores en compensant la corrélation observée. La seconde technique, appelée D-MAP, normalise directement les modèles vis-à-vis de leur divergence KL. Elle joue pour cela sur le procédé d’adaptation Bayésienne des modèles en déterminant un facteur d’adaptation propre à chaque locuteur, ce qui permet de ``placer’’ tous les modèles à une même distance du modèle du monde. Nous formalisons également un nouveau cadre pour la vérification du locuteur en plaçant le test d’hypothèses dans un espace des modèles. Cet espace est défini à partir d’une mesure de similarité simple, dérivée des divergences KL, entre modèles GMM de locuteur, et qui s’exprime directement à partir des paramètres des modèles. Cette mesure peut s’interpréter comme une distance Euclidienne dans l’espace des modèles que nous avons défini. Cet espace conduit à un calcul simplifié des scores de vérification et autorise une manipulation efficace des modèles, offrant ainsi de nombreuses possibilités de normalisation. Les résultats expérimentaux montrent que les approches de normalisation proposées sont valides et peuvent avantageusement remplacer les techniques courantes. L’espace des modèles a également été mis à profit pour une tâche de regroupement en locuteur de segments de parole dans un enregistrement radiophonique. Le système utilise un procédé de classification hiérarchique ascendant des segments de parole, basé sur la mesure de distance entre GMM dans l’espace des modèles. Cette même distance a aussi été utilisée pour une tâche de sélection de locuteur représentatifs d’un ensemble de personnes.

Dans un deuxième temps, nous concevons un schéma d’adaptation Bayésienne hiérarchique qui a pour but d’améliorer l’estimation des modèles de locuteurs lorsque la quantité de données d’apprentissage est faible. La technique proposée, appelée H-MAP, généralise l’approche MAP classiquement utilisée en VAL, en offrant de plus la possibilité d’intégrer des dépendances entre différentes régions acoustiques occupées par la voix d’un locuteur. Ces dépendances sont capturées de façon hiérarchique par un arbre binaire qui établit des corrélations entre les moyennes de GMM dans différents niveaux de résolution. La structure obtenues est de type réseau Bayésien gaussien et permet d’apapter les moyennes d’un GMM dans un niveau donné de l’arbre, en tenant compte de l’estimation des moyennes parents dans les niveaux supérieurs (propagation des dépendance du haut de l’arbre vers le bas). Si le cadre théorique proposé est attrayant, la mise en oeuvre de cette technique est délicate et elle n’a pas montré d’avantage décisif pour l’instant. Néanmoins, les résultats obtenus sont encourrageant et les perpectives offertes sont nombreuses.

L’ensemble des techniques étudiées dans le cadre de cette thèse a été évalué sur des bases de données téléphoniques en parole naturelle, dans le cadre des évaluations NIST en reconnaissance du locuteur.



Forum

Contact : webmaster-afcp@afcp-parole.org - Hébergement : Université d'Avignon
Développé sous SPIP