Recensement et description des mots composés - méthodes et applications

Savary Agata

Équipe: LADL

Contenu

Mots-clés: traitement automatique du langage naturel, analyse lexicale automatique, dictionnaires électroniques, mots composés, acquisition de terminologie, aide à la traduction, correction orthographique
Keywords: natural language processing, lexical analysis, electronic dictionaries, compounds, acquisition of terminology, computer aided translation, spelling correction
Résumé
Ce mémoire décrit les recherches en informatique linguistique menées dans le domaine des mots composés, et plus spécialement de la composition nominale en anglais général et spécialisé, au sein de deux organismes : le Laboratoire d’Automatique Documentaire et Linguistique (LADL) de l’Université Paris 7, et la société LCI Informatique. Le point de départ pour toutes les recherches que nous présentons a été le système de traitement automatique de grands corpus INTEX.

Nous nous sommes penchée sur le problème du recensement des mots composés à grande échelle. Nous avons essayé de répondre aux questions suivantes :

1)Comment ce recensement peut être effectué ?

2)Est-il utile de le réaliser ?

La réponse à la première question est donnée dans le contexte de la création de dictionnaires électroniques, sous formats disponibles dans le système INTEX. Nous avons d’abord analysé certaines propriétés linguistiques des mots composés, et plus particulièrement des noms composés, du point de vue de leur morphologie flexionnelle en trois langues : le français, l’anglais et le polonais. Cette analyse nous a permis de proposer une méthode formelle de description du comportement flexionnel des composés, et de mettre au point un algorithme qui génère leurs formes fléchies. Ensuite, nous avons décrit la construction du dictionnaire électronique de mots composés anglais. Le format bien adapté au recensement des mots composés productifs étant celui d’automates et de transducteurs finis, nous avons illustré ceci par les déterminants numéraux cardinaux et ordinaux de l’anglais. Finalement, nous avons décrit la création d’un dictionnaire électronique terminologique du domaine de l’informatique.

Une fois que des ressources lexicographiques et terminologiques existent sous un format adapté au traitement automatique, leur emploi améliore en principe la qualités de nombreuses applications du TALN. Nous avons choisi deux types d’applications pour vérifier cette hypothèse. Premièrement, nous avons élaboré une méthode d’extraction terminologique basée sur l’hypothèse que des séquences contiguës de termes connus ont de grandes chances d’être de nouveaux termes. Cette hypothèse pouvait être vérifiée grâce aux dictionnaires électroniques, généraux et spécialisés, décrits dans la première partie du mémoire. Les résultats obtenus s’avèrent, de certains points de vue, meilleurs de ceux obtenus par un extracteur terminologique de référence, Acabit, qui est basé sur un calcul statistique et n’emploie pas de ressources terminologiques initiales.

Deuxièmement, nous avons élaboré un algorithme de correction orthographique, indépendant en principe de la langue, basé sur la consultation d’un dictionnaire sous format d’automate fini. D’habitude les outils de correction orthographique recherchent les mots simples inconnus d’un texte, et proposent leurs corrections étant aussi des mots simples. Nous avons étendu cette stratégie à des mots composés, i.e. pour les mots simples inconnus nous avons cherché des mots composés proches existant dans notre dictionnaire (VisualAge - Visual Age), puis pour des séquences de mots non reconnues comme mots composés, nous avons aussi cherché des mots composés proches (compile options - compiler options). Les résultats de cette expérience sont faibles du point de vue de la précision.

Abstract
This dissertation describes a natural language processing research in the field of nominal compounds in general and technical English. The starting point for the studies presented was INTEX, a tool for automatic treatment of large corpora.

While analyzing the problem of large coverage listing and describing of compounds, we addressed the following issues :

1)Which methods of compound description should be used ?

2)For what kind of applications is this description useful ?

The first issue is treated in the context of electronic lexical databases such as they are admitted in the INTEX system. We analyze the inflectional morphology of compounds in French, English and Polish. We propose a method of automatic generation of their inflected forms. We describe the construction of two electronic dictionaries : one for general English compounds, and the other for simple and compound terms of the computer science technical English. We also present a library of finite-state automata and transducers for the recognition of English cardinal and ordinal numerals.

The utility of large coverage compound dictionaries is verified through their application to two kinds of natural language processing tasks. First, we describe a method of acquisition of terms based on initial terminological resources. Secondly, we propose an automatic spelling checking algorithm of simple and compound words in a finite-state automaton dictionary.  

Informations administratives

Jury
  • Gaston Gross (rapporteur)
  • Maurice Gross (président du jury)
  • Franz Guenthner
  • John Humbley
  • Christian Jacquemin (rapporteur)
  • Eric Laporte
  • Max Silberztein (directeur de thèse)
Université: Université de Marne-la-Vallée
Discipline: Informatique fondamentale
Date de soutenance: 14 décembre 2000
Lieu de soutenance: IGM, Université de Marne-la-Vallée