Partenaires

La traduction automatique dans un contexte multimodal

H. AFLI, Université du Maine, 2014
jeudi 19 février 2015.
 

Résumé : Les performances des systèmes de traduction automatique statistique dépendent de la disponibilité de textes parallèles bilingues, appelés aussi bitextes. Cependant, les textes parallèles librement disponibles sont aussi des ressources rares : la taille est souvent limitée, la couverture linguistique insuffisante ou le domaine des textes n’est pas approprié. Il y a relativement peu de paires de langues pour lesquelles des corpus parallèles de tailles raisonnables sont disponibles pour certains domaines. L’une des façons pour pallier au manque de données parallèles est d’exploiter les corpus comparables qui sont plus abondants.

Les travaux précédents dans ce domaine n’ont été appliqués que pour la modalité texte. La question que nous nous sommes posée durant cette thèse est de savoir si un corpus comparable multimodal permet d’apporter des solutions au manque de données parallèles dans le domaine de la traduction automatique.

Dans cette thèse, nous avons étudié comment utiliser des ressources provenant de différentes modalités (texte ou parole) pour le développement d’un système de traduction automatique statistique. Une première partie des contributions consiste à proposer une technique pour l’extraction des données parallèles à partir d’un corpus comparable multimodal (audio et texte). Les enregistrements sont transcrits avec un système de reconnaissance automatique de la parole et traduits avec un système de traduction automatique. Ces traductions sont ensuite utilisées comme requêtes d’un système de recherche d’information pour sélectionner des phrases parallèles sans erreur et générer un bitexte.

Dans la deuxième partie des contributions, nous visons l’amélioration de notre méthode en exploitant les entités sous-phrastiques créant ainsi une extension à notre système en vue de générer des segments parallèles. Nous améliorons aussi le module de filtrage. Enfin, nous présentons plusieurs manières d’aborder l’adaptation des systèmes de traduction avec les données extraites.

Nos expériences ont été menées sur les données des sites web TED et Euronews qui montrent la faisabilité de nos approches.



Forum

Contact : webmaster-afcp@afcp-parole.org - Hébergement : Université d'Avignon
Développé sous SPIP