Partenaires

Mesures de confiance en traitement automatique de la parole et applications.

J. MAUCLAIR, Université du Mans, 2006.
mardi 1er mai 2007.
 

Résumé : Ce travail de thèse se place dans le contexte de la campagne d’évaluation ESTER (Evaluation des Systèmes de Transcription enrichie d’Emissions Radiophonique).

L’objectif de ce travail de thèse consiste dans un premier temps à proposer des indicateurs ou mesures de confiance permettant de distinguer les zones correctes ou erronées au sein des hypothèses de reconnaissance fournies par un système de transcription automatique de la parole (STAP).

Dans un second temps, deux types d’applications utilisant des mesures de confiance sont appréhendées :
- la collecte de corpora de transcriptions automatiques fiables alignés sur de la parole enregistrée, par exemple pour augmenter la taille des corpora d’apprentissage disponibles pour l’estimation de modèles acoustiques ;
- l’identification nommée automatique du locuteur, qui consiste à extraire des transcriptions automatiques des noms de locuteurs et à les associer aux étiquettes anonymes utilisées par un système d’indexation.

Trois mesures de confiance seront proposées, une mesure de confiance dérivée des sorties acoustiques du STAP, une mesure de confiance basée sur le repli du modèle de langage et une mesure de confiance provenant de la probabilité a posteriori d’un mot. A l’aide de métriques d’évaluation de mesures de confiance, ces trois mesures sont comparées et la meilleure combinaison des trois est calculée. Cette combinaison permet d’accroître les performances de chacunes des trois mesures dans la détection des zones erronées ou correctes.

La première application vise à accroître les performances du STAP utilisé par le LIUM en augmentant de manière non supervisée les données d’apprentissage des modèles acoustiques. Ainsi, les zones de parole ayant un degré de confiance élevé dans un deuxième corpus transcrit automatiquement sont prélevées et ajoutées au corpus d’apprentissage initial transcrit manuellement. Grâce à cet ajout, les performances du STAP sont significativement améliorées en termes de taux d’erreur sur les mots.

Enfin, dans le cadre de l’identification du locuteur d’un document sonore, des scores de confiance sont utilisés pour déterminer le nom du locuteur directement à partir de la transcription. Environ 70% de la durée totale des émissions est correctement indexée en locuteur sur un corpus de test.



Forum

Contact : webmaster-afcp@afcp-parole.org - Hébergement : Université d'Avignon
Développé sous SPIP