Marco Dinarelli*, Dimitra Niaouri*, Fabien Lopez*, Gabriela Gonzalez-Saez*, Mariam Nakhlé*,**, Emmanuelle Esperança-Rodier*, Caroline Rossi***, Didier Schwab* et Nicolas Ballier****
*Univ. Grenoble Alpes, CNRS, Grenoble INP*, LIG, Grenoble, France
**Lingua Custodia
***Univ. Grenoble Alpes, ILCEA4
****Université Paris Cité, LLF & CLILLAC-ARP, Paris, France
Résumé
L’explicabilité des modèles est devenue un champ de recherche très actif. Beaucoup de travaux ont vu le jour, à la fois soutenant et critiquant l’utilisation de l’attention comme explication du comportement des modèles. Dans cet article, nous adhérons au premier type de travaux et analysons l’attention pour interpréter le comportement des modèles de traduction neuronale en contexte (CA-NMT). Puisque cette évaluation concerne souvent la résolution de l’ambiguïté des phénomènes discursifs, nous effectuons des analyses et évaluations sur les liens de coréférence annotés dans un corpus parallèle. Nous proposons une évaluation humaine sur des heatmaps, renforcée par une évaluation quantitative basée sur les poids d’attention des liens de coréférence, avec trois métriques conçues explicitement pour ce travail. Celles-ci constituent une évaluation plus directe des modèles pour la CA-NMT que celles fondées sur les test suite contrastives.
Résumé (en anglais)
Model explainability has recently become an active research field. Many works are published supporting or criticizing attention weights as model explanation. In this work we adhere to the former and analyze attention as explanation for Context-Aware Neural Machine Translation (CA-NMT). Since its evaluation often concerns the evaluation of models in resolving discourse phenomena ambiguity, we perform analyses and evaluations over coreference links in a parallel corpus. We propose a human evaluation over heatmaps, strengthened by a quantitative evaluation based on attention weights over coreference links and with different metrics purposely designed for this work. Such metrics provide a more explicit evaluation of the CA-NMT models than evaluations using contrastive test suites.
Paru dans
Document
Rank
3