Zied Elloumi*,**, Benjamin Lecouteux**, Olivier Galibert* et Laurent Besacier**
*Laboratoire national de métrologie et d’essais (LNE), France
**Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, F-38000 Grenoble, France
Résumé
Dans ce travail, nous nous intéressons à la tâche de prédiction de performance des systèmes de transcription de la parole. Nous comparons deux approches de prédiction: une approche de l’état de l’art fondée sur l’extraction explicite de traits et une nouvelle approche fondée sur des caractéristiques entraînées implicitement à l’aide des réseaux neuronaux convolutifs (CNN). Nous essayons ensuite de comprendre quelles informations sont capturées par notre modèle neuronal et leurs liens avec différents facteurs. Pour tirer profit de cette analyse, nous proposons un système multitâche qui se montre légèrement plus efficace sur la tâche de prédiction de performance.
Document
Rank
2