Accueil du site Accueil du site Adhésion Contact Plan du site

Modèles Dynamiques d’Apprentissage Numérique pour l’Accès à l’Information Textuelle

Hugo Zaragoza

Equipe : LIP6
Courriel : Hugo.Zaragoza@lip6.fr
Page : http://www-poleia.lip6.fr/~zaragoza/

Contenu

Résumé
Le nombre d’informations textuelles accessibles sous forme électronique augmente très rapidement, ce qui génère de nouveaux besoins pour exploiter de façon automatique ces informations. Dans ce travail nous explorons le traitement de l’information textuelle, par l’application de modèles dynamiques d’apprentissage numérique. Ces modèles nous permettent d’aborder de nombreuses tâches d’analyse textuelle et de considérer de nouvell problématiques.

Nous introduisons tout d’abord les différentes disciplines de traitement de l’information textuelle. Nous présenterons ensuite les techniques de représentation, et proposons une nouvelle méthode adaptée à un traitement dynamique. Nous introduisons ensuite la théorie de l’apprentissage statistique, les modèles temporels d’apprentissage et, en particulier les Modèles de Markov Cachés et les modèles à base de Réseaux de Neurones. Nous abordons ensuite l’application de ces modèles à différentes tâches de l’accès à l’Information Textuelle : catégorisation, filtrage et routage de documents, surlignage, et extraction d’informations de surface. L’évaluation de nos modèles est faite sur deux tâches distinctes : le routage et le surlignage de courrier électronique, à partir du corpus 20-newsgroups, et l’extraction d’informations de surface, à partir du corpus MUC-6.

Abstract
"Dynamic Numerical Learning Models for Textual Information Access"

The amount of electronically accessible textual information is growing rapidly, and this has incurred a new need for tools capable of exploiting this information. We explore a new approach to textual data processing, based on the application of dynamic numerical learning models. These models allow us to tackle a wide range of existing and novel information access tasks.

We first introduce the different textual data processing disciplines. We develop the existent text representation techniques, and we propose a new representation formalism which is adapted to our dynamic approach. We then present the theory of statistical learning and temporal learning models, in particular Hidden Markov Models and Neural Networks. We then apply these models to different information access tasks : classification, filtering and routing of documents, highlighting and surface information extraction. Model evaluation is carried out on two distinct tasks : routing and highlighting of electronic mail, using the 20-newgroups corpus, and surface information extraction, using the MUC-6 corpus.

Informations administratives

Jury Université : Université Paris 6

Discipline : Informatique

Date de soutenance : 8 juillet 1999

Lieu de soutenance : LIP6


Ces renseignement ont été saisis le 28/09/1999 par Pierre Zweigenbaum.

Date de dernière mise à jour : 8 février 2005, auteur : .