Méthodes Statistiques pour la Modélisation du Langage Naturel

Vert Jean-Philippe

Équipe: Département de Mathématiques et Applications, Ecole Normale Supérieure de Paris

Courriel: Jean-Philippe.Vert@mines.org

Contenu

Mots-clés: modèle statistique du langage naturel, estimation adaptative, risque de Kullback, recodage, arbres de contexte, classification de textes

Keywords: statistical language modelling, adaptive estimation, kullback risk, recoding, context trees, text classification

Résumé

Nous étudions des méthodes d’estimation pour la construction de modèles statistiques du langage naturel, et proposons des applications en classification automatique de textes. La première méthode, appelée ``arbres contextes adaptatifs’’, permet d’estimer un processus stochastique discret sur un alphabet fini à l’aide de modèles Markovien dont l’ordre dépend du passé. En utilisant des procédures d’aggrégation d’experts nous montrons que l’estimateur résultant satisfait une inégalité ``oracle’’ par rapport à cette famille de modèles Markoviens, quand sa perte est mesurée en terme de distance de Kullback conditionnelle moyenne. Dans un deuxième temps nous étudions une méthode d’estimation par ``double mélange’’ qui vérifie aussi une inégalité oracle, et qui nous permet d’établir un lien avec des méthodes de compression universelle utilisant des modèles d’arbres contextes. Nous proposons ensuite une méthode itérative de recodage du passé permettant d’améliorer l’estimation de la loi conditionnelle du futur, en concentrant l’information du passé dans les bits utilisés par l’estimateur pour prédire le futur. Nous étudions parallèlement des procédures de rééchantillonage lorsque l’estimation du processus se base sur l’observation d’une seule réalisation, et non sur un ensemble d’observations indépendentes et identiquement distribuées. Ces études théoriques sont illustrées par des résultats expérimentaux en classification supervisée et non supervisée de textes.

Abstract

We study estimation methods to build statistical language models and propose applications in automatic text classification. The first method, called ``adaptive context trees’’, is a way to estimate a discrete-time stochastic process on a finite alphabet with the help of Markov models whose order depends on the past. Using expert aggregation procedures we show that the resulting estimator satisfies an ``oracle’’ inequality with respect to the family of Markov models when the loss is measured in terms of average conditional Kullback distance. Secondly we study a ``double mixture’’ estimation procedure which also satisfies an oracle inequality, and highlight the link with universal compression algorithms using context tree models. We then propose an iterative method to recode the past and enable a better estimation of the conditional law of the future given the past, by concentrating the information contained in the past in the bits used by the estimator to predict the future. We also study resampling schemes when the process estimation is based on the observation of a single realization and not on independent and identically distributed samples. These theoretical studies are illustrated with experimental results of supervised and unsupervised text classification.

Informations administratives

Jury

Robert Azencott (President)
Lucien Birgé
Olivier Catoni (Directeur de thèse)
Gabor Lugosi (Rapporteur)
Stéphane Mallat
Pascal Massart (Rapporteur)
Bernard Prum
Alain Trouvé

Université: Paris 6

Discipline: Mathématiques

Date de soutenance: 30 mars 2001

Lieu de soutenance: Ecole Normale Supérieure de Paris