Hervé Blanchon* et Christian Boitet*
*Laboratoire LIG, équipe GETALP; BP 53; 38041 Grenoble Cedex 9; herve.blanchon@imag.fr, christian.boitet@imag.fr
Résumé
Les méthodes externes d’évaluation de systèmes de TA définissent des mesures de qualité à partir des résultats de TA et de leur usage. Alors que les systèmes opérationnels sont depuis longtemps le plus souvent évalués par des méthodes fondées sur la tâche, les campagnes d’évaluation des dernières années utilisent (parcimonieusement) des méthodes subjectives assez chères fondées sur des jugements humains peu fiables, et (pour la plus grande part) des méthodes basées sur des traductions de référence, impossibles à utiliser lors de l’utilisation réelle d’un système, d’autant moins corrélées aux jugements humains que la qualité augmente, et totalement irréalistes en ce qu’elles forcent à mesurer les progrès sur des corpus fixes, sans cesse retraduits, et non sur de nouveaux textes à traduire pour des besoins réels. Il y a aussi de nombreux biais introduits par le désir de diminuer les coûts, en particulier l’utilisation de corpus parallèles dans le sens inverse de leur production et l’utilisation de juges monolingues au lieu de bilingues. Nous prouvons cela par une analyse de l’histoire de l’évaluation en TA, des méthodes d’évaluation du « courant dominant », et de certaines récentes campagnes d’évaluation. Nous proposons d’abandonner les méthodes fondées sur des traductions de référence en évaluation externe, et de les remplacer par des méthodes strictement fondées sur la tâche, en les réservant à l’évaluation interne.
Document
Rank
1