Détection de la nasalité en parole à partir de wav2vec 2.0

Lila Kim* et Cédric Gendrot*
*Laboratoire de Phonétique et Phonologie (CNRS & U. Sorbonne Nouvelle)
Résumé
La nasalité s’observe à l’oral sur les consonnes et les voyelles (par exemple, « balle » vs « malle » ; « bas » vs « banc »). Elle peut s’étudier dans une optique linguistique (e.g. coarticulation) mais aussi pour la caractérisation du locuteur et la détection de pathologies de la parole. Du fait de la difficulté à analyser la nasalité par des mesures acoustiques traditionnelles, nous proposons une mesure basée sur des techniques de Deep Learning, que nous évaluons en comparant avec des mesures aérodynamiques prises directement sur le locuteur. Les représentations vectorielles du signal sonore sont extraites à l’aide de deux encodages différents du modèle wav2vec 2.0, XLSR et Lebenchmark, en faisant varier la taille de la séquence extraite ainsi que l’utilisation finale de ces représentations vectorielles. Les résultats obtenus montrent des classifications allant jusqu’à 99 %. L’utilisation de séquences courtes montre une meilleure détection de la nasalité phonétique avec ses variations dues au contexte ou au locuteur ; les séquences longues sont plus performantes pour la détection de la nasalité phonémique.
Résumé (en anglais)
Nasality can be observed in languages on consonants (e.g. "balle" vs "malle") and on vowels ("bas" vs "banc"). It can be studied from a linguistic perspective, but also for speaker characterization or speech pathologies. Given the difficulty of analyzing nasality with traditional acoustic measurements, we propose a measurement based on Deep Learning techniques, which we compare with aerodynamic data directly measured from the speaker. Vector representations of the sound signal are extracted using two different encodings of the wav2vec 2.0 model, varying the size of the extraction as well as the final use of these vector representations. The results obtained show classifications of up to 99%. The use of short sequences shows a better detection of phonetic nasality with its variations due to context or speaker; long sequences perform better for the detection of phoneme nasality.
Document
Rank
3