La recherche sur les biais dans les modèles de langue est biaisée : état de l’art en abyme

Fanny Ducel*, Aurélie Névéol* et Karën Fort**
*Université Paris-Saclay, CNRS, LISN (France)
**Sorbonne-Université, LORIA (France)
Résumé
L’équité et l’absence de biais stéréotypés deviennent des critères de qualité importants à prendre en compte dans les applications de traitement automatique des langues. Il est donc crucial de mieux les comprendre afin de les maîtriser. Cet article présente une revue des travaux récents sur l’étude des biais stéréotypés dans les modèles de langue. Les articles inclus dans notre étude sont identifiés à l’aide de requêtes dans des moteurs de recherche d’articles scientifiques (principalement l’ACL anthology) et par rebond (snowballing). Notre analyse révèle que la recherche sur les biais porte principalement sur les méthodes de définition, de mesure et d’atténuation des biais. Nous dégageons également des biais inhérents à la recherche sur les biais stéréotypés dans les modèles de langue et concluons en appelant à davantage de diversité linguistique, culturelle et typologique, et en incitant à une meilleure transparence quant à ces éléments potentiellement porteurs de biais.
Résumé (en anglais)
Fairness and independence from bias are emerging as major quality criteria for Natural Language Processing applications. It is therefore crucial to provide a better understanding and control of these biases. This survey paper presents a review of recent research addressing the study of bias in language models. We use queries to scientific articles search engines (mainly the ACL anthology) and snowballing to identify a wide range of articles. Our analysis reveals that bias research mainly addresses methods for defining, measuring and mitigating bias. We highlight biases inherent to research on stereotypical biases in language models and conclude by calling for greater linguistic, cultural and typological diversity, and for greater transparency regarding these potentially biasing elements.
Document
Rank
5