Approche multimodale par plongement de texte et de graphes pour la détection de messages abusifs

Noé Cécillon*, Richard Dufour** et Vincent Labatut*
**Laboratoire Informatique d’Avignon - LIA EA 4128, Avignon Université, France 
****Laboratoire des Sciences Numériques de Nantes (LS2N), Equipe TALN, Nantes Université, France
Résumé
Les comportements abusifs sont de plus en plus courants sur les plateformes d’échange en ligne, ce qui oblige leurs propriétaires à trouver de nouvelles solutions de modération. Des méthodes automatiques utilisant le contenu textuel ou la structure de la conversation ont alors été proposées. Par ailleurs, de nouvelles méthodes génériques de représentation de texte et de graphes sont apparues, fondées sur la notion de plongement (ou embedding), tirant notamment profit de l’augmentation drastique des données et de la puissance de calcul disponibles. Dans ce travail, nous évaluons cinq méthodes de plongement lexical et quatre méthodes de plongement de graphes sur une tâche de détection de messages abusifs. Ces deux types d’approches ne s’appuyant pas sur les mêmes informations, nous étudions également différentes combinaisons de ces plongements. Nous obtenons des résultats comparables, voire supérieurs, pour le texte, à des approches classiques avec sélection manuelle de caractéristiques. La combinaison des plongements de texte et de graphes apporte enfin une nette amélioration des performances.
Résumé (en anglais)
Abusive behaviors are common on online social networks, forcing hosts of such platforms to find new moderation tools. Various methods based on the textual content or the structure of the conversation have thus emerged. Furthermore, new generic embedding methods have been proposed to represent text and graphs. Those approaches benefit the current exponential growth in available data and computing power. In this work, we evaluate five text embedding methods and four graph embedding methods on an abusive message detection task. These two types of embedding are not based on the same information, therefore we also study various combinations of these methods. Our results are comparable, and even better for text, to standard approaches based on feature engineering. The combination of text and graph embeddings finally brings a clear improvement in performance.
Document
Rank
1