Étude d'outils informatiques et linguistiques pour l'aide à la recherche automatique d'information dans un corpus documentaire

Domingues Catherine

Équipe: Institut Gaspard Monge /LADL

Contenu

Mots-clés: recherche automatique d’information, mot composé, dictionnaire de spécialité, grammaire locale, automate, coordination, grammaire de reformulation
Résumé
Le point de départ de ce travail est l’examen détaillé des résultats d’une étude réelle menée par le centre scientifique et technique du bâtiment (CSTB). Cette étude avait pour objectif d’évaluer l’intérêt d’utiliser des outils linguistiques pour effectuer des recherches automatiques d’information dans un corpus documentaire (en l’occurrence, la réglementation concernant la sécurité dans les établissements recevant du public). Ce travail a permis de mettre à jour certaines faiblesses des outils existants sur le marché, et a donné des pistes de recherche. Précédée d’une présentation de l’évolution des systèmes de recherche d’information et d’extraction de texte, cette étude constitue le premier chapitre de la thèse.

Dans le deuxième chapitre, nous présentons une étude du corpus destinée à identifier le vocabulaire du domaine et à l’organiser sous forme de listes de mots simples et de mots composés. Ce travail constitue un préalable à tout traitement linguistique dans un domaine spécifique.

Le troisième chapitre s’intéresse aux variantes lexicales qui permettent de désigner un même objet (ou notion) et aux expressions qui, bien qu’employées dans le même corpus, désignent des objets ou notions différents. Ces variantes sont décrites à l’aide de grammaires locales.

Nous présentons d’abord les mécanismes de construction de noms composés dont le nom tête est l’un des quatre classifieurs appareil, dispositif, installation et système, et destinés à désigner des objets concrets utilisés dans le domaine de la sécurité incendie.

Puis nous étudions les mots type et catégorie qui cumulent, dans le corpus considéré, les définitions du vocabulaire courant et celles spécifiques au domaine de la sécurité incendie.

Enfin, nous précisons les différentes formulations du type et de la catégorie d’un établissement (notions caractéristiques pour l’application de la réglementation) en présentant des transducteurs qui permettent de passer d’une formulation à d’autres.

L’étude liminaire a montré que la sélection des documents répondant à une recherche d’informations se fait par rapprochement des mots de la question et de ceux du texte. Dans ces conditions, les causes de silence sont multiples, nous en avons choisi deux sur lesquelles nous proposons des développements. Le quatrième chapitre concerne l’utilisation d’une conjonction de coordination à l’intérieur des groupes nominaux : une question contenant l’expression établissements présentant des risques particuliers d’incendie devra identifier comme pertinents des textes comportant établissements et locaux présentant des risques particuliers d’incendie. Nous proposons des règles, écrites sous forme de transducteurs, qui permettent de développer l’expression elliptique initiale en une expression complète, ou plus complète : établissements présentant des risques particuliers d’incendie et locaux présentant des risques particuliers d’incendie.

Le cinquième et dernier chapitre présente les transformations syntaxiques classiques des grammaires transformationnelles, augmentées des constructions propres au vocabulaire et à la syntaxe du domaine de spécialité, qui permettent d’exprimer un invariant de sens, en l’occurrence la phrase : la porte est stable au feu 1 h. L’objectif est d’identifier ces variations et de les ramener à une expression canonique plus facile à traiter et à comparer.

Enfin, nous présentons des conclusions en confrontant les résultats obtenus avec les différents outils mis au point, aux intentions initiales€ ; puis nous resituons notre travail par rapport aux tendances observées dans les systèmes que nous avons étudiés dans le premier chapitre et nous concluons sur les prolongements de ce travail.  

Informations administratives

Jury
  • Bruno Bachimont (Institut National de l’Audiovisuel)
  • Marc Bourdeau (Centre Scientifique et Technique du Bâtiment)
  • Pierre Lafon (ENS Lyon)
  • Éric Laporte (Institut Gaspard Monge)
  • Maurice Gross (Institut Gaspard Monge)
  • Max Silberztein (IBM et université de Franche-Comté)
Université: Université de Marne-la-Vallée
Discipline: Informatique
Date de soutenance: 16 mars 2001
Lieu de soutenance: Université de Marne-la-Vallée