Expliquer une boîte noire sans boîte noire

Julien Delaunay*, Luis Galárraga* et Christine Largouët**
*Université de Rennes, Inria/IRISA Rennes, France
**Université de Rennes, Institut Agro/IRISA Rennes, France
Résumé
Les méthodes d’explication contrefactuelle sont des approches populaires pour expliquer les algorithmes d’apprentissage automatique. Ces explications encodent les modifications nécessaires dans un document cible pour modifier la prédiction d’un classificateur. La plupart de ces méthodes trouvent ces explications en perturbant de manière itérative le document cible jusqu’à ce qu’il soit classifié différemment par la boîte noire. Nous identifions deux principales familles d’approches contrefactuelles dans la littérature, à savoir (a) les méthodes « transparentes » qui perturbent la cible en ajoutant, en supprimant ou en remplaçant des mots, et (b) les techniques « opaques » qui projettent le document cible dans un espace latent non interprétable dans lequel la perturbation est ensuite effectuée. Cet article propose une étude comparative des performances de ces deux familles de méthodes sur trois tâches classiques en traitement du langage naturel. Nos résultats montrent que pour les applications telles que la détection de fausses informations ou l’analyse des sentiments, les approches contrefactuelles opaques peuvent rajouter un niveau de complexité sans amélioration significative.
Résumé (en anglais)
Counterfactual Explanation Methods are popular approaches to explain ML blackbox classifiers. A counterfactual explanation encodes the smallest changes required in a target document to modify a classifier’s output. Most counterfactual methods find those explanations by iteratively perturbing the target document until it is classified differently by the black box. We identify two main families of counterfactual approaches in the literature, namely, (a) transparent methods that perturb the target by adding, removing, or replacing words, and (b) opaque techniques that project the target document onto a latent space where the perturbation is carried out subsequently. This article offers a comparative study of the performance of these two families of methods on three classical NLP tasks. Our empirical evidence shows that opaque counter-factual approaches can be overkill for applications such as fake news detection or sentiment analysis since they add a supplementary level of complexity with no significant improvement.
Document
Rank
4