Laurence Devillers*,**, Marie Tahon*,***, Mohamed A. Sehili* et Agnes Delaborde*,**
*LIMSI-CNRS, 91403 Orsay, France
**Université Paris-Sorbonne IV, 28 rue Serpente, 75006 Paris, France
***Conservatoire national des arts et métiers, 292 rue St Martin, 75141 Paris Cedex 3, France laurence.devillers, marie.tahon, mohamed.sehili, agnes.delaborde@limsi.fr
Résumé
Dans un contexte d’interaction homme-machine, les systèmes de détection des émotions dans la voix doivent être robustes aux variabilités et efficaces en temps de calcul. Cet article présente les performances que nous pouvons obtenir en utilisant uniquement des indices paraverbaux (nonverbaux). Nous proposons une méthodologie pour sélectionner les familles de paramètres robustes, en étudiant trois ensembles de descripteurs testés sur trois corpus de données spontanées collectés dans des contextes d’interaction homme-machine. Le résultat de notre étude met en avant les paramètres perceptifs liés à l’énergie spectrale (énergie par bandes de Bark), en obtenant des performances de détection sur quatre émotions au niveau de l’ensemble des descripteurs de référence du Challenge Interspeech 2009.
Résumé (en anglais)
In a Human-Machine Interaction context, automatic in-voice affective state detection systems have to be robust to variabilities and computationally efficient. This paper presents the performance that can be reached using para-verbal (non-verbal) cues. We propose a methodology to select robust parameters families, based on the study of three sets of descriptors, and tested on three different corpora of spontaneous data collected in Human-Machine Interaction contexts. The key finding of our study puts forward perceptive parameters linked to spectral energy, particularly energy on Bark bands, which yield the same performance on a four-emotion detection task as the reference set of descriptors used in the Interspeech 2009 challenge.
Paru dans
Document
Rank
5