Extraction de collocations et leurs équivalents de traduction à partir de corpus parallèles

Violeta Seretan*
*Laboratoire d’analyse et de technologie du langage, Université de Genève; 2, rue de Candolle, CH-1205 Genève, Suisse; violeta.seretan@unige.ch
Résumé
Identifier les collocations dans le texte source (par exemple, break record) et les traduire correctement (battre record contre *casser record) constituent un réel défi pour la traduction automatique, d’autant plus que ces expressions sont très nombreuses et très flexibles du point de vue syntaxique. Cet article présente une méthode permettant de repérer des équivalents de traduction pour les collocations à partir de corpus parallèles, qui sera utilisée pour augmenter la base de données lexicales d’un système de traduction. La méthode est fondée sur une approche syntaxique « profonde », dans laquelle les collocations et leurs équivalents potentiels sont extraits à partir de phrases alignées à l’aide d’un analyseur multilingue. L’article présente également les outils qui sont utilisés par cette méthode. Il se concentre en particulier sur les efforts déployés afin de rendre compte des divergences structurelles entre les langues et d’optimiser la performance de la méthode, notamment en ce qui concerne la couverture.
Paru dans
Document
Rank
12