Modèles Dynamiques d'Apprentissage Numériquepour l'Accès à l'Information Textuelle

Zaragoza Hugo

Équipe: LIP6

Contenu

Mots-clés:
Résumé
Le nombre d’informations textuelles accessibles sous forme électronique augmente très rapidement, ce qui génère de nouveaux besoins pour exploiter de façon automatique ces informations. Dans ce travail nous explorons le traitement de l’information textuelle, par l’application de modèles dynamiques d’apprentissage numérique. Ces modèles nous permettent d’aborder de nombreuses tâches d’analyse textuelle et de considérer de nouvell problématiques.

Nous introduisons tout d’abord les différentes disciplines de traitement de l’information textuelle. Nous présenterons ensuite les techniques de représentation, et proposons une nouvelle méthode adaptée à un traitement dynamique. Nous introduisons ensuite la théorie de l’apprentissage statistique, les modèles temporels d’apprentissage et, en particulier les Modèles de Markov Cachés et les modèles à base de Réseaux de Neurones. Nous abordons ensuite l’application de ces modèles à différentes tâches de l’accès à l’Information Textuelle : catégorisation, filtrage et routage de documents, surlignage, et extraction d’informations de surface. L’évaluation de nos modèles est faite sur deux tâches distinctes : le routage et le surlignage de courrier électronique, à partir du corpus 20-newsgroups, et l’extraction d’informations de surface, à partir du corpus MUC-6.

Abstract
"Dynamic Numerical Learning Models for Textual Information Access"

The amount of electronically accessible textual information is growing rapidly, and this has incurred a new need for tools capable of exploiting this information. We explore a new approach to textual data processing, based on the application of dynamic numerical learning models. These models allow us to tackle a wide range of existing and novel information access tasks.

We first introduce the different textual data processing disciplines. We develop the existent text representation techniques, and we propose a new representation formalism which is adapted to our dynamic approach. We then present the theory of statistical learning and temporal learning models, in particular Hidden Markov Models and Neural Networks. We then apply these models to different information access tasks : classification, filtering and routing of documents, highlighting and surface information extraction. Model evaluation is carried out on two distinct tasks : routing and highlighting of electronic mail, using the 20-newgroups corpus, and surface information extraction, using the MUC-6 corpus.  

Informations administratives

Jury
  • Marc EL-BEZE
  • Yves CHIARAMELLA
  • Patrick GALLINARI Directeur de Thèse
  • Alain GRUMBACH
  • Laurent MICLET Rapporteur
  • Martin RAJMAN Rapporteur
Université: Université Paris 6
Discipline: Informatique
Date de soutenance: 08 juillet 1999
Lieu de soutenance: LIP6