Guillaume Wisniewski*, Lichao Zhu*, Nicolas Ballier** et François Yvon***
*LLF, Université Paris Cité, CNRS
**CLILLAC-ARP, Université Paris Cité
***Université Paris-Saclay, CNRS, LISN
Résumé
Cet article a pour objectif de mettre en évidence les biais de genre dans les systèmes de traduction automatique et de rechercher leurs causes en étudiant les différentes manières dont l’information de genre peut circuler entre le décodeur et l’encodeur. Pour cela, nous décrivons un corpus minimal et contrôlé pour mesurer l’intensité de ces biais dans les traductions de l’anglais vers le français et du français vers l’anglais. Grâce à des méthodes de sondage et des interventions sur les représentations internes de l’encodeur, nos expériences montrent que l’information de genre est distribuée sur l’ensemble des représentations des tokens sources et cibles et que la sélection du genre en langue cible résulte d’une multiplicité d’interactions entre les diverses unités impliquées dans la traduction.
Résumé (en anglais)
This paper describes a study on gender bias in French/English neural machine translation (MT) systems. We introduce a controlled corpus to measure the intensity of such biases in the two translation directions (from and into English). This corpus also allows us to investigate the information flow in a encoder-decoder architecture and to identify how gender information can be transfered between languages. Considering both probing as well as interventions on the internal representations of the MT system, we show that gender information is encoded in all token representations built by the encoder and the decoder and that there are multiple paths to transfer gender.
Paru dans
Document
Rank
2