Accueil du site Accueil du site Adhésion Contact Plan du site

ANTHAPSI : un système d’analyse thématique et d’apprentissage de connaissances pragmatiques fondé sur l’amorçage

ANTHAPSI : a system for thematic analysis and learning pragmatic knowledge which relies on bootstrapping

Olivier Ferret

Equipe : LIMSI
Courriel : ferret@limsi.fr
Page : http://www.limsi.fr/Individu/ferret/
Cette thèse est téléchargeable à : http://www.limsi.fr/Individu/ferret/These/presentationThese.html

Contenu

Mots-clés : Traitement automatique du langage naturel écrit, compréhension de textes, analyse thématique, apprentissage automatique, apprentissage de connaissances à partir de textes

Keywords : Natural language processing, text understanding systems, thematic analysis, machine learning, knowledge learning from texts

Résumé
Le système ANTHAPSI a été conçu dans le but d’apprendre de manière automatique des connaissances sur les situations prototypiques du monde à partir de textes. Afin que ce processus d’apprentissage soit le plus général possible, ANTHAPSI se place dans un cadre minimisant le recours à des connaissances pragmatiques fournies a priori. Pour mener sa tâche à bien, il met l’accent sur la nécessité d’associer étroitement l’analyse des textes, en l’occurrence une analyse de nature thématique, et l’apprentissage de connaissances. Cette association repose sur un modèle de mémoire spécifique, chargé de servir de trait d’union entre ces deux processus. Cette mémoire joue en effet le rôle de réceptacle actif pour les connaissances nécessaires au fonctionnement de l’analyse thématique, ces connaissances étant produites par le processus d’apprentissage à partir des représentations des textes construites par l’analyse thématique. De cette manière, l’association entre l’analyse des textes et l’apprentissage de connaissances permet de développer progressivement un noyau initial de connaissances et met en oeuvre par là même la première forme d’amorçage présente dans ANTHAPSI, appelée amorçage intra-niveau. ANTHAPSI explore également la façon dont ce noyau initial peut être constitué à partir d’un niveau de connaissances moins précises et moins structurées. Il est ainsi formé de deux composantes fonctionnellement similaires mais utilisant des connaissances et des représentations de niveaux différents : MLK applique les principes de l’amorçage intra-niveau en manipulant des représentations composées de graphes conceptuels tandis que ROSA le fait avec des représentations simplement composées de mots. L’amorçage inter-niveau montre en l’occurrence comment ROSA peut contribuer, au moins sur le plan thématique, à la mise en opération de MLK.

Abstract
The ANTHAPSI system aims at automatically learning knowledge about prototypical situations of the world from texts. For making this learning process the most general as possible, the use of a priori pragmatic knowledge in ANTHAPSI is reduced as much as possible. In order to reach its goal, ANTHAPSI stresses the necessity for tightly associating text analysis, here a thematic analysis, and knowledge learning. This association relies on a particular memory model, in charge of linking the two processes. This memory actively stores the knowledge that is necessary for the thematic analysis to work and that is produced by the learning process from the text representations built by the thematic analysis. This way, the association between thematic analysis and knowledge learning makes an initial core of knowledge to expand possible and implements the first form of bootstrapping of ANTHAPSI, which is called in-level boostrapping. ANTHAPSI also tackles the way this initial core can be built from less precise and less structured knowledge. Thus, it is composed of two parts which are similar on the functional point of view but use knowledge and representations of two different levels : MLK applies the principles of the in-level boostrapping by using representations made of conceptual graphs while ROSA applies the same principles but with representations only made of words. The inter-level boostrapping here shows more specifically how ROSA can make MLK start working, at least on the thematic point of view.

Informations administratives

Jury Université : Université Paris 11

Discipline : Informatique

Date de soutenance : 22 décembre 1998

Lieu de soutenance : LIMSI (Orsay)


Ces renseignement ont été saisis le 12/10/1999 par Pierre Zweigenbaum.

Date de dernière mise à jour : 8 février 2005, auteur : .