Accueil du site Accueil du site Adhésion Contact Plan du site

Comparabilité de corpus et fouille terminologique multilingue

Emmanuel Morin - Béatrice Daille

Université de Nantes, LINA - FRE CNRS 2729
2, rue de la Houssinière, BP 92208
F-44322 Nantes cedex 03
emmanuel.morin,beatrice.daille@univ-nantes.fr

Les principaux travaux en fouille textuelle privilégient communément la taille du corpus sur sa qualité. Ainsi dans le cadre de l’alignement lexical à partir de corpus comparables, les meilleurs résultats sont obtenus pour des corpus de grande taille (plusieurs millions de mots). Pour les domaines de spécialité, et pour de nombreuses paires de langues, il n’est pas possible de disposer de corpus textuels aussi volumineux. Dans le cadre de ce travail, nous soutenons l’hypothèse que la qualité des données textuelles peut non seulement suppléer à leur quantité mais garantit aussi celle des ressources lexicales extraites. En particulier, nous montrons l’intérêt de prendre en compte le type du discours lors de la constitution du corpus comparable pour obtenir des listes terminologiques de qualité.


Télécharger:
Fichier PDF
Emmanuel Morin - Béatrice Daille
197.1 ko


Date de dernière mise à jour : 24 août 2007, auteur : Rédacteurs en chef.