Extraction de lexiques bilingues à partir de corpus comparables spécialisés : étude du contexte lexical

Amir Hazem* et Emmanuel Morin*
*Université de Nantes, LINA UMR CNRS 6241 2 rue de la Houssinière, BP 92208 F-44322 Nantes cedex 3 amir.hazem,emmanuel.morin@univ-nantes.fr
Résumé
Ce travail s’intéresse à la notion de contexte lexical qui est au cœur de l’approche fondatrice en extraction de lexiques bilingues à partir de corpus comparables spécialisés. D’une part, nous revenons sur les deux principales stratégies, dédiées à la caractérisation du contexte lexical, qui reposent sur l’exploitation de représentations graphique ou syntaxique. Nous montrons que l’exploitation conjointe de ces deux représentations a un intérêt particulier pour la tâche de construction de lexiques bilingues. D’autre part, nous abordons la difficulté de disposer d’observations significatives du contexte des mots en corpus comparables spécialisés. Pour répondre à cette difficulté, nous proposons de mettre en œuvre des stratégies de réestimation des observations de cooccurrences de mots par méthode de lissage ou par prédiction. Les différentes contributions associées à ce travail engendrent une amélioration significative de la qualité des lexiques extraits.
Paru dans
Document
Rank
1