Accueil du site Accueil du site Adhésion Contact Plan du site

Recensement et description des mots composés - méthodes et applications

Listing and description of compounds - methods and applications

Agata Savary

Equipe : LADL
Courriel : savary@univ-tours.fr

Contenu

Mots-clés : traitement automatique du langage naturel, analyse lexicale automatique, dictionnaires électroniques, mots composés, acquisition de terminologie, aide à la traduction, correction orthographique

Keywords : natural language processing, lexical analysis, electronic dictionaries, compounds, acquisition of terminology, computer aided translation, spelling correction

Résumé
Ce mémoire décrit les recherches en informatique linguistique menées dans le domaine des mots composés, et plus spécialement de la composition nominale en anglais général et spécialisé, au sein de deux organismes : le Laboratoire d’Automatique Documentaire et Linguistique (LADL) de l’Université Paris 7, et la société LCI Informatique. Le point de départ pour toutes les recherches que nous présentons a été le système de traitement automatique de grands corpus INTEX.

Nous nous sommes penchée sur le problème du recensement des mots composés à grande échelle. Nous avons essayé de répondre aux questions suivantes :

1)Comment ce recensement peut être effectué ?

2)Est-il utile de le réaliser ?

La réponse à la première question est donnée dans le contexte de la création de dictionnaires électroniques, sous formats disponibles dans le système INTEX. Nous avons d’abord analysé certaines propriétés linguistiques des mots composés, et plus particulièrement des noms composés, du point de vue de leur morphologie flexionnelle en trois langues : le français, l’anglais et le polonais. Cette analyse nous a permis de proposer une méthode formelle de description du comportement flexionnel des composés, et de mettre au point un algorithme qui génère leurs formes fléchies. Ensuite, nous avons décrit la construction du dictionnaire électronique de mots composés anglais. Le format bien adapté au recensement des mots composés productifs étant celui d’automates et de transducteurs finis, nous avons illustré ceci par les déterminants numéraux cardinaux et ordinaux de l’anglais. Finalement, nous avons décrit la création d’un dictionnaire électronique terminologique du domaine de l’informatique.

Une fois que des ressources lexicographiques et terminologiques existent sous un format adapté au traitement automatique, leur emploi améliore en principe la qualités de nombreuses applications du TALN. Nous avons choisi deux types d’applications pour vérifier cette hypothèse. Premièrement, nous avons élaboré une méthode d’extraction terminologique basée sur l’hypothèse que des séquences contiguës de termes connus ont de grandes chances d’être de nouveaux termes. Cette hypothèse pouvait être vérifiée grâce aux dictionnaires électroniques, généraux et spécialisés, décrits dans la première partie du mémoire. Les résultats obtenus s’avèrent, de certains points de vue, meilleurs de ceux obtenus par un extracteur terminologique de référence, Acabit, qui est basé sur un calcul statistique et n’emploie pas de ressources terminologiques initiales.

Deuxièmement, nous avons élaboré un algorithme de correction orthographique, indépendant en principe de la langue, basé sur la consultation d’un dictionnaire sous format d’automate fini. D’habitude les outils de correction orthographique recherchent les mots simples inconnus d’un texte, et proposent leurs corrections étant aussi des mots simples. Nous avons étendu cette stratégie à des mots composés, i.e. pour les mots simples inconnus nous avons cherché des mots composés proches existant dans notre dictionnaire (VisualAge - Visual Age), puis pour des séquences de mots non reconnues comme mots composés, nous avons aussi cherché des mots composés proches (compile options - compiler options). Les résultats de cette expérience sont faibles du point de vue de la précision.

Abstract
This dissertation describes a natural language processing research in the field of nominal compounds in general and technical English. The starting point for the studies presented was INTEX, a tool for automatic treatment of large corpora.

While analyzing the problem of large coverage listing and describing of compounds, we addressed the following issues :

1)Which methods of compound description should be used ?

2)For what kind of applications is this description useful ?

The first issue is treated in the context of electronic lexical databases such as they are admitted in the INTEX system. We analyze the inflectional morphology of compounds in French, English and Polish. We propose a method of automatic generation of their inflected forms. We describe the construction of two electronic dictionaries : one for general English compounds, and the other for simple and compound terms of the computer science technical English. We also present a library of finite-state automata and transducers for the recognition of English cardinal and ordinal numerals.

The utility of large coverage compound dictionaries is verified through their application to two kinds of natural language processing tasks. First, we describe a method of acquisition of terms based on initial terminological resources. Secondly, we propose an automatic spelling checking algorithm of simple and compound words in a finite-state automaton dictionary.

Informations administratives

Jury Université : Université de Marne-la-Vallée

Discipline : Informatique fondamentale

Date de soutenance : 14 décembre 2000

Lieu de soutenance : IGM, Université de Marne-la-Vallée


Ces renseignement ont été saisis le 06/05/2003 par Agata Savary.

Date de dernière mise à jour : 8 février 2005, auteur : .