Partenaires

Elaboration et comparaison de systèmes adaptatifs multi-flux de reconnaissance robuste de la parole : incorporation des indices de voisement et de localisation

H. Glotin, ICP-INP Grenoble & IDIAP-EPF Lausanne, 2001
samedi 30 juin 2001.
 

Cette thèse effectuée à l’ICP et à l’IDIAP, dans le champ de la communication homme-machine et des projets EU. RESPITE & SPHEAR, contribue à augmenter la robustesse de reconnaisseurs automatiques de la parole dans le cadre original de l’analyse de scènes auditives. Deux voies sont traitées simultanément : (1) l’extraction d’indices fiables du signal et (2) la fusion de données dans le cadre multi-flux.

(1) est fondée sur des mesures temps-fréquences de corrélations, relatives au taux de voisement ou aux localisations de sources. Nous montrons comment l’indice de voisement renforce le prétraitement de référence " Jrasta ".

(2) est proposée via un modèle "combinaison complète" qui intègre par combinaisons de sous-bandes du spectre les redondances spectrales de la parole. Ce modèle est approximé avec une hypothèse faible d’indépendance des observations des sous-flux du spectre.

La robustesse d’un système de reconnaissance hybride ANN/HMM, de chiffres téléphonés (NB95), est alors renforcée dans le cas de paroles simultanées (enregistrements stéréo), ou contre des bruits non stationnaires focalisés. Nous validons dans le cas de bruit de cafétéria, l’apport de l’indice de voisement pour la reconnaissance audiovisuelle grand vocabulaire (base Via Voice-IBM,MMG asynchrone).

Nous proposons de plus un modèle de " Prédiction des Biais des Posteriors " guidé par les indices dont les premiers tests sont prometteurs. Nous comparons finalement ces différentes architectures, et en proposons une, dite " proactive ", qui permet l’intégration d’informations complémentaires.

Mots-clés : reconnaissance automatique de la parole, IHM, robustesse au bruit, cocktail party, multi-bande, multi-flux, fusion de données, analyse de scène auditive, harmonicité, voisement, audiovisuel, Via Voice, IBM, MMG, localisation, HMM, modèle hybride, calcul bayesien, perceptron, ANN, réseau de neurones, Jrasta.



Forum

Contact : webmaster-afcp@afcp-parole.org - Hébergement : Université d'Avignon
Développé sous SPIP