Sensibilité des explications à l’aléa des grands modèles de langage : le cas de la classification de textes journalistiques

Jérémie Bogaert*, Marie-Catherine de Marneffe**, Antonin Descampe**, Louis Escouflaire**, Cédrick Fairon** et François-Xavier Standaert*
*Université catholique de Louvain, ICTEAM Institute, Louvain-la-Neuve, Belgium
**Université catholique de Louvain, ILC Institute, Louvain-la-Neuve, Belgium
Résumé
Les grands modèles de langage sont performants en traitement automatique du langage mais posent des défis d’explicabilité. Nous examinons l’effet des éléments aléatoires de leur entraînement sur l’explicabilité de leurs prédictions en nous focalisant sur une tâche de classification de textes journalistiques d’opinion en français. Utilisant un modèle CamemBERT peaufiné et une méthode d’explication basée sur la propagation de pertinence, nous constatons que des entraînements avec différentes graines aléatoires produisent des modèles aux performances similaires mais aux explications variables. Nous affirmons dès lors que caractériser la distribution statistique des explications est nécessaire pour une explicabilité satisfaisante de ce type de modèle. Nous explorons ensuite un modèle basé sur des traits textuels qui offre des explications stables mais une précision moindre. Celui-ci correspond donc à un compromis différent entre exactitude et explicabilité et nous montrons qu’il est possible de l’améliorer en intégrant des traits extraits des explications de CamemBERT. Nous discutons enfin de pistes de recherche que nos résultats suggèrent, en particulier sur l’origine de la sensibilité à l’aléa observée.
Résumé (en anglais)
Large language models perform well in natural language processing but raise explainability challenges. We examine the effect of random elements in their training on the explainability of their predictions by focusing on a task of opinionated journalistic text classification in french. Using a fine-tuned CamemBERT model and an explanation method based on relevance propagation, we find that training with different random seeds produces models with similar accuracies but variable explanations. We therefore claim that characterizing the explanations’ statistical distribution is needed for this type of model to be explainable. We then explore a simpler model based on textual features which offers stable explanations but is less accurate. Hence, this model corresponds to a different tradeoff between accuracy and explainability and we show that it can be improved by inserting features derived from CamemBERT’s explanations. We finally discuss new research directions suggested by our results, in particular regarding the origin of the observed sensitivity to the training randomness.
Document
Rank
1