Accueil du site Accueil du site Adhésion Contact Plan du site

Construction d’ontologies à partir de textes techniques - Application aux systèmes documentaires

Houssem Assadi

Equipe : Laboratoire IMA-TIEM (EDF-GDF)
Courriel : Houssem.Assadi@bnf.fr

Contenu

Mots-clés : Ingénierie des connaissances, ontologie régionale, traitement automatique des langues, sémantique, hypertexte.

Résumé
Notre thèse traite de la problématique de construction d’ontologies régionales, c’est à dire relatives à un domaine donné, à partir de textes techniques. Nous proposons un modèle de l’ontologie régionale documentée : il s’agit d’un réseau conceptuel décrivant un domaine bien déterminé, dans lequel les concepts sont reliés à des expressions linguistiques et au corpus à partir duquel ils ont été construits. Nous avons conçu une méthodologie et des outils pour la construction d’une ontologie régionale à partir d’une documentation technique, en adoptant des principes issus de la sémantique différentielle de F. Rastier.

Notre méthodologie, baptisée « analyse conceptuelle interactive » (ACI), donne une place centrale à la documentation technique et s’appuie sur les résultats d’outils informatiques d’analyse de textes. L’ACI comporte deux phases : une phase d’amorçage, l’analyse macroscopique, et une phase itérative de raffinement, l’analyse microscopique. L’ACI intègre efficacement la dimension humaine représentée par le binôme cogniticien - expert. Notre méthodologie est entièrement fondée sur le corpus, dans le sens où elle ne fait pas appel à des ressources sémantiques ou conceptuelles externes.

L’un des outils utilisés dans notre démarche existait déjà (LEXTER, logiciel d’extraction de candidats termes développé par D. Bourigault) et d’autres ont été développés dans le cadre de la thèse. Il s’agit de  : (1) LEXICLASS, outil de classification automatique d’expressions linguistiques en fonction de leurs relations syntaxiques, ces dernières sont obtenues grâce à une analyse morpho-syntaxique préalable, par exemple celle effectuée par LEXTER ; (2) les outils «  d’induction de structures conceptuelles » qui s’appuient à la fois sur les résultats d’une analyse morpho-syntaxique et sur la version courante de l’ontologie pour proposer de nouvelles structures conceptuelles susceptibles d’enrichir cette ontologie. Ces outils, indépendants du domaine, ont été validés sur plusieurs corpus concernant des domaines techniques différents (planification des réseaux électriques, génie logiciel, conception des centrales nucléaires).

La thèse s’est déroulée à la Direction des Etudes et Recherches d’EDF dans le cadre des recherches sur les « Systèmes de Consultation de Documentation Technique » (SCDT). Ces systèmes permettent la consultation de documents techniques de taille moyenne (quelques centaines de pages) utilisés par les ingénieurs et techniciens dans le cadre d’une activité bien déterminée. Un SCDT se présente sous la forme d’un hypertexte contenant quatre modes d’accès à l’information : une table des matières, une recherche en texte intégral et deux index, l’un représentant les concepts du domaine et l’autre les tâches de l’utilisateur. La construction de ces index nécessite, au préalable, une phase d’ingénierie des connaissances pour produire une ontologie du domaine et une modélisation des tâches.

Notre méthodologie et nos outils ont été mis en ?uvre dans le cadre d’un projet de construction d’un SCDT dans le domaine de la planification des réseaux électriques. L’ontologie régionale que nous avons construite a servi à élaborer un index du domaine qui a été intégré dans le système documentaire. Notre contribution est une réponse aux lacunes méthodologiques et au manque d’outils dans le domaine de création de systèmes hypermédias à base de connaissances, domaine associant l’intelligence artificielle et les technologies des hypertextes et des hypermédias.

Informations administratives

Université : Université Paris 6

Discipline : Informatique

Date de soutenance : 19 octobre 1998

Lieu de soutenance : Salle 303 - Tour 55-65 (Jussieu)


Ces renseignement ont été saisis le 22/10/1999 par Catherine Maksud.

Date de dernière mise à jour : 8 février 2005, auteur : .