Fillers in Spoken Language Understanding: Computational and Psycholinguistic Perspectives

Tanvi Dinkar*, Chloé Clavel** et Ioana Vasilescu***
*Heriot Watt University
**Télécom Paris
***University Paris-Saclay
Résumé
Les disfluences sont omniprésentes dans le discours, et les fillers ("euh", ...) sont le type de disfluence le plus fréquent. Pourtant, il n’existe aucune ressource qui rassemble les perspectives de recherche sur ces événements discursifs dans le cadre de la compréhension de la langue parlée (CLP). L’objectif de cet article est de synthétiser un large éventail de perspectives de manière holistique, comprenant la théorie (psycho-)linguistique des fillers, leur annotation et leur prise en compte dans les systèmes de reconnaissance automatique de la parole et de CLP, ainsi que leur étude dans le cadre de la génération. L’article a pour but de présenter ces perspectives de manière accessible à la communauté de la CLP et des systèmes conversationnels, et de discuter de ce que nous voyons comme les tendances et défis de chaque domaine.
Résumé (en anglais)
Disfluencies are ubiquitous to spoken discourse. Fillers (“uh”, “um”, . . . ) occur the most frequently compared to other kinds of disfluencies. Yet, to the best of our knowledge, there isn’t a resource that brings together the research perspectives influencing Spoken Language Understanding (SLU) on these speech events. The aim of this article is to synthesise a breadth of perspectives in a holistic way; i.e. from underlying (psycho)linguistic theory on fillers, to their annotation and consideration in Automatic Speech Recognition (ASR) and SLU systems, to lastly, their study from a generation and Text-to-Speech (TTS) standpoint. The article aims to present the perspectives in an approachable way to the SLU and Conversational AI community, and discuss what we believe are the trends and challenges in each area.
Document
Rank
2