Accueil du site Accueil du site Adhésion Contact Plan du site

PARADOCS : l’entremetteur de documents parallèles indépendant de la langue

Alexandre Patry* **, Philippe Langlais**

Les corpus parallèles sont la pierre angulaire de plusieurs technologies de traduction automatique et des efforts conséquents sont régulièrement portés afin d’en réunir de nouveaux. L’expérience montre que la stratégie visant à réduire l’intervention manuelle dans cet exercice n’est jamais la même d’un corpus à l’autre. Ce constat nous a amené à développer PARADOCS, un entremetteur de documents parallèles qui utilise les entités numériques des documents afin de les apparier. Un classificateur est entraîné à décider des documents parallèles et un moteur de recherche d’information est utilisé afin de réduire l’espace de recherche des paires de documents parallèles. Nous montrons l’efficacité de PARADOCS sur de nombreuses tâches avec de nombreuses paires de langues.


* KeaText 845
Boulevard Décarie bureau 202
Saint-Laurent
Canada H4L 3L7
alexandre.patry@keatext.com

** Département d’Informatique et de Recherche Opérationnelle
Université de Montréal
CP. 6128 Succ. Centre-Ville
Montréal
Canada H3C 3J7
[patryale,felipe]@iro.umontreal.ca

Télécharger:
Fichier PDF
Alexandre Patry , Philippe Langlais
333.1 ko

TAL Volume 51 2010 . 2. Multilinguisme et TAL

Date de dernière mise à jour : 11 avril 2011, auteur : Rédacteurs en chef.