Accueil du site Accueil du site Adhésion Contact Plan du site

Extraction de collocations et leurs équivalents de traduction à partir de corpus parallèles

Violeta Seretan

Laboratoire d’analyse et de technologie du langage, Université de Genève
2, rue de Candolle, CH-1205 Genève, Suisse
Violeta.Seretan@unige.ch

Identifier les collocations dans le texte source (par exemple, break record) et les traduire correctement (battre record contre *casser record) constituent un réel défi pour la traduction automatique, d’autant plus que ces expressions sont très nombreuses et très flexibles du point de vue syntaxique. Cet article présente une méthode permettant de repérer des équivalents de traduction pour les collocations à partir de corpus parallèles, qui sera utilisée pour augmenter la base de données lexicales d’un système de traduction. La méthode est fondée sur une approche syntaxique « profonde », dans laquelle les collocations et leurs équivalents potentiels sont extraits à partir de phrases alignées à l’aide d’un analyseur multilingue. L’article présente également les outils qui sont utilisés par cette méthode. Il se concentre en particulier sur les efforts déployés afin de rendre compte des divergences structurelles entre les langues et d’optimiser la performance de la méthode, notamment en ce qui concerne la couverture.


Télécharger:
Fichier PDF
Violeta Seretan
311.9 ko


Date de dernière mise à jour : 8 janvier 2010, auteur : Rédacteurs en chef.