Accueil du site Accueil du site Adhésion Contact Plan du site

Construction de modèles de connaissances par analyse linguistique de relations lexicales dans les documents techniques

Patrick Séguéla

Equipe : IRIT/SMI
Courriel : patrick.seguela@free.fr
Page : http://patrick.seguela.free.fr/
Cette thèse est téléchargeable à : http://patrick.seguela.free.fr/these_seguela.html

Contenu

Mots-clés : Extraction de connaissances, ontologie, relations sémantiques.

Résumé
Cette thèse traite de la problématique de l’acquisition et de la structuration de connaissances à partir de textes techniques, puis de l’utilisation de ces connaissances dans la construction de modèles. La première partie de notre travail expose la méthode Caméléon dont l’objectif est d’extraire des relations lexicales binaires entre termes à partir de textes techniques. Cette méthode est basée sur la technique de repérage de marqueurs linguistiques. Elle permet notamment la mesure et la prise en compte de la spécificité du corpus analysé pour en extraire un maximum de relations, les plus fiables possibles. Pour ce faire, Caméléon propose deux processus. Le premier vise, à partir d’une évaluation en corpus, à critiquer et adapter des connaissances linguistiques générales associées aux relations structurantes d’hyponymie et de méronymie. Le second assiste l’acquisition de marqueurs spécifiques par recherche de récurrences à partir de couples de termes entre lesquels la relation a été identifiée, dans le corpus ou dans un modèle du domaine. L’outil Caméléon supporte intégralement la méthode. A la fois simple et souple, il nous a permis d’expérimenter concrètement l’apport et la complexité de la méthode sur différents corpus techniques. Les résultats obtenus permettent d’évaluer la complémentarité d’une approche hypothético-déductive et d’une approche empirique pour l’extraction de relations sémantiques à partir de marqueurs.

Les relations candidates extraites par la méthode Caméléon peuvent être utilisées pour la construction de modèles conceptuels et nous proposons, dans une seconde partie de la thèse, une méthode très générale d’utilisation de relations candidates pour la modélisation s’appuyant sur des ressources textuelles. Cette méthode organise précisément les étapes et modèles nécessaires au passage de relations syntagmatiques à un réseau terminologique, puis au modèle conceptuel, dédié à une application. Elle définit ensuite le rôle des relations candidates extraites automatiquement dans la construction cyclique d’un modèle. Nous proposons enfin une spécification des modèles informatiques inhérents à cette méthode qui permettent son implémentation dans tout contexte de modélisation à partir de textes.

Effectuée dans le cadre d’une convention CTCI entre le Commissariat à l’Energie Atomique (CEA) et la Société de Service en Ingénierie Informatique Euriware, cette thèse a produit des résultats méthodologiques et logiciels qui ont été intégrés dans la méthode de gestion des connaissances Rex conçue et commercialisée par ces deux entreprises. Une validation concrète de la méthode de modélisation a été réalisée pour la mise à jour de modèles conceptuels dédiés à l’indexation au CEA.

Informations administratives

Jury Université : Université Paul Sabatier - Toulouse III

Discipline : Informatique

Date de soutenance : 24 avril 2001

Lieu de soutenance : IRIT, Toulouse


Ces renseignement ont été saisis le 06/02/2002 par Patrick Séguéla.

Date de dernière mise à jour : 8 février 2005, auteur : .