Construction de modèles de connaissances par analyse linguistique de relations lexicales dans les documents techniques

Séguéla Patrick

Équipe: IRIT/SMI

Contenu

Mots-clés: extraction de connaissances, ontologie, relations sémantiques.
Résumé
Cette thèse traite de la problématique de l’acquisition et de la structuration de connaissances à partir de textes techniques, puis de l’utilisation de ces connaissances dans la construction de modèles. La première partie de notre travail expose la méthode Caméléon dont l’objectif est d’extraire des relations lexicales binaires entre termes à partir de textes techniques. Cette méthode est basée sur la technique de repérage de marqueurs linguistiques. Elle permet notamment la mesure et la prise en compte de la spécificité du corpus analysé pour en extraire un maximum de relations, les plus fiables possibles. Pour ce faire, Caméléon propose deux processus. Le premier vise, à partir d’une évaluation en corpus, à critiquer et adapter des connaissances linguistiques générales associées aux relations structurantes d’hyponymie et de méronymie. Le second assiste l’acquisition de marqueurs spécifiques par recherche de récurrences à partir de couples de termes entre lesquels la relation a été identifiée, dans le corpus ou dans un modèle du domaine. L’outil Caméléon supporte intégralement la méthode. A la fois simple et souple, il nous a permis d’expérimenter concrètement l’apport et la complexité de la méthode sur différents corpus techniques. Les résultats obtenus permettent d’évaluer la complémentarité d’une approche hypothético-déductive et d’une approche empirique pour l’extraction de relations sémantiques à partir de marqueurs.

Les relations candidates extraites par la méthode Caméléon peuvent être utilisées pour la construction de modèles conceptuels et nous proposons, dans une seconde partie de la thèse, une méthode très générale d’utilisation de relations candidates pour la modélisation s’appuyant sur des ressources textuelles. Cette méthode organise précisément les étapes et modèles nécessaires au passage de relations syntagmatiques à un réseau terminologique, puis au modèle conceptuel, dédié à une application. Elle définit ensuite le rôle des relations candidates extraites automatiquement dans la construction cyclique d’un modèle. Nous proposons enfin une spécification des modèles informatiques inhérents à cette méthode qui permettent son implémentation dans tout contexte de modélisation à partir de textes.

Effectuée dans le cadre d’une convention CTCI entre le Commissariat à l’Energie Atomique (CEA) et la Société de Service en Ingénierie Informatique Euriware, cette thèse a produit des résultats méthodologiques et logiciels qui ont été intégrés dans la méthode de gestion des connaissances Rex conçue et commercialisée par ces deux entreprises. Une validation concrète de la méthode de modélisation a été réalisée pour la mise à jour de modèles conceptuels dédiés à l’indexation au CEA.  

Informations administratives

Jury
  • Mme Nathalie AUSSENAC-GILLES - Chargé de recherche au CNRS - IRIT
  • M Mario BORILLO - Directeur de recherche au CNRS - IRIT - Directeur de la thèse
  • M Claude CHRISMENT - Professeur a l’Université Paul Sabatier, Toulouse
  • Mme Rose DIENG - chef du projet ACACIA - INRIA Sophia Antipolis - Rapporteur
  • Mme Christiane EICHENBAUM - Ingénieur au CEA Cadarache
  • M Pierre ZWEIGENBAUM - Ingénieur - Chercheur - AP-HP Paris - Rapporteur
Université: Université Paul Sabatier - Toulouse III
Discipline: Informatique
Date de soutenance: 24 avril 2001
Lieu de soutenance: IRIT, Toulouse