Génération Automatique de la Prosodie pour la Synthèse à Partir du Texte

Di Cristo Philippe

Équipe: Laboratoire Parole et Langage

Contenu

Mots-clés: TALN, normalisation / segmentation, synthèse, prosodie, intonation, phonologie, langage, modélisation
Résumé
Cette thèse a pour thème la problématique de la synthèse vocale et propose de décrire la réalisation de deux systèmes complets de synthèse de la parole à partir du texte. La visée ultime de notre étude est de produire un signal dont le niveau de qualité prosodique puisse être comparable à celui d’une voix humaine. La qualité de la prosodie est en effet essentielle pour la compréhension, ainsi que pour l’acceptabilité de la synthèse, en particulier dans le cas de longs textes lus.

Notre objectif est également de contribuer à l’élaboration d’un système de synthèse indépendant de la langue, bien que notre thèse soit consacrée à la synthèse du français.

Nous présentons donc dans cette thèse l’élaboration de deux systèmes complets de génération de la prosodie pour la synthèse de la parole. Le premier est basé sur une approche probabiliste tandis que le deuxième s’appuie des représentations linguistiques (phonologiques et phonétiques) de l’accentuation, du rythme et de l’intonation. Pour permettre, dans des expérimentations futures, l’étude de la complémentarité de ces deux méthodes, nous nous proposons d’avoir recours à une méthode commune de codage de la prosodie, en l’occurrence le système INTSINT. Nous pensons, en effet et bien que cela reste à démontrer, qu’un système à base de connaissances linguistiques peut être appliqué sur les résultats d’un modèle probabiliste (qui nécessite pour sa part peu d’informations prosodiques) afin d’améliorer les performances de la synthèse à partir du texte. Nous proposons d’ailleurs en conclusion de ce travail, un prolongement possible qui contribuerait à étendre les possibilités des systèmes actuels.

Nous présentons également un environnement pour le traitement de textes. Il se compose d’un segmenteur (dont le but est de découper le texte en constituants : mots, phrases, paragraphes), d’un module d’accès lexical (permettant d’accéder aux catégories morpho-syntaxique du texte), d’un désambiguïsateur morpho-syntaxique (dont le rôle est de sélectionner une catégorie parmi le choix possible en fonction du contexte) et d’un module de phonémisation (dont la tâche est de transcrire les éléments du texte en alphabet phonétique)  

Informations administratives

Jury
  • Pr. Jean Véronis, Directeur de thèse (Président)
  • Pr. Guy Pérennou, Rapporteur
  • M. Christophe d’Alessandro, Rapporteur
  • M. Daniel Hirst, Examinateur
Université: Université de Provence
Discipline: Informatique
Date de soutenance: 03 novembre 1998
Lieu de soutenance: Aix-en-Provence