Extraction de lexiques bilingues à partir de corpus comparables spécialisés : étude du contexte lexical

Amir Hazem^* et Emmanuel Morin^*

^*Université de Nantes, LINA UMR CNRS 6241 2 rue de la Houssinière, BP 92208 F-44322 Nantes cedex 3 amir.hazem,emmanuel.morin@univ-nantes.fr

Résumé

Ce travail s’intéresse à la notion de contexte lexical qui est au cœur de l’approche fondatrice en extraction de lexiques bilingues à partir de corpus comparables spécialisés. D’une part, nous revenons sur les deux principales stratégies, dédiées à la caractérisation du contexte lexical, qui reposent sur l’exploitation de représentations graphique ou syntaxique. Nous montrons que l’exploitation conjointe de ces deux représentations a un intérêt particulier pour la tâche de construction de lexiques bilingues. D’autre part, nous abordons la difficulté de disposer d’observations significatives du contexte des mots en corpus comparables spécialisés. Pour répondre à cette difficulté, nous proposons de mettre en œuvre des stratégies de réestimation des observations de cooccurrences de mots par méthode de lissage ou par prédiction. Les différentes contributions associées à ce travail engendrent une amélioration significative de la qualité des lexiques extraits.

Paru dans

Varia

Document

TAL_55_1_1.pdf

Rank