Techniques génériques d'accumulation d'ensembles lexicaux structurés à partir de ressources dictionnairiques informatisées multilingues hétérogènes

Doan Nguyen Hai

Équipe: GETA-CLIPS-IMAG

Contenu

Mots-clés: accumulation, récupération, production, ressource dictionnairique, ensemble lexical, lexicographie computationnelle, linguistique computationelle

Keywords: accumulation, acquisition, production, dictionary resource, lexical set, computational lexicography, computational linguistics

Résumé

Cette thèse étudie l’accumulation d’ensembles lexicaux structurés à partir de ressources dictionnairiques informatisées multilingues hétérogènes, et propose des techniques génériques pour sa réalisation.

La récupération de ressources dictionnairiques, l’aspect passif de l’accumulation, consiste à convertir une ressource vers une forme computationnelle structurée, ce qui est primordial pour toute future exploitation. La difficulté vient de la complexité inhérente du dictionnaire, de la probabilité d’erreurs, de l’hétérogénéité des ressources, etc. Après une étude des travaux précédents, et d’importantes expérimentations, nous avons conçu et réalisé RÉCUPDIC, un système spécialisé pour la récupération dictionnairique, qui se compose de méthodes et d’outils puissants et faciles à utiliser. Il s’est montré efficace et pratique, lors de la récupération d’une grande quantité de ressources de diverse complexité (environ 33 ressources, soit au total 1,7 millions d’articles dans 12 langues).

La production de nouveaux ensembles lexicaux est l’aspect actif de l’accumulation : il s’agit de fabriquer automatiquement des unités lexicales organisées selon de nouvelles structures linguistiques, en masse, et à bon marché. Il ne semble pas qu’une approche générique à ce problème ait été proposée dans des travaux antérieurs. Notre système PRODUCDIC a été conçu et implémenté pour spécifier et réaliser des processus de production de façon générique et efficace. Comme résultat d’expérimentation, 12 « brouillons de dictionnaire » ont été fabriqués, avec un total de plus de 540 000 articles.

Nous élaborons ensuite le concept d’accumulation en ligne : il s’agit de fabriquer des unités lexicales à la demande. Nous proposons aussi plusieurs niveaux d’abstraction pour la notion d’ensemble lexical. Cela nous permet de proposer un modèle d’organisation dynamique d’un système lexical.

Abstract

This Ph.D. dissertation studies the accumulation of structured lexical sets from heterogeneous multilingual computerized dictionary resources, and proposes generic techniques for such accumulation.

Acquisition of dictionary resources, the passive aspect of accumulation, consists in converting a resource into a structured computational form, which is essential for all future exploitation of the resource. The difficulty comes from the inherent complexity of dictionaries, the probability of errors, the heterogeneity of the resources, etc. After study of previous work and extensive experimentation, we have designed and implemented RÉCUPDIC, a system specialized for dictionary acquisition, which contains powerful and easy-to-use methods and tools. It has proved efficient and practical, and has helped us accumulate numerous resources with varying degrees of complexity (about 33 resources, with a total of 1.7 million entries in 12 languages).

Production of new lexical sets is the active aspect of accumulation, through which lexical units of new linguistic structures are produced automatically, en masse, and cheaply. Apparently, no generic solution has yet been proposed for this problem. Our system PRODUCDIC has been designed and implemented for specifying and carrying out production processes generically and efficiently. As the results of our experiments, 12 dictionary drafts were produced, with a total of more than 540 000 entries.

We then develop the concept of on-line accumulation, in which lexical units are supplied when required. We also introduce several levels of abstraction for the notion of lexical sets. This permits us to propose a dynamic organization model for lexical systems.

Informations administratives

Jury

M. Augustin LUX, Prof. des Univ —Président du jury.
M. Guy PERENNOU, Prof. des Univ — Rapporteur.
M. Paul SABATIER, Chargé de Recherche au CNRS — Rapporteur.
M. NGUYEN HUY XUONG, Prof. des Univ. — Examinateur.
M. Mathieu LAFOURCADE, Maître de Conf. — Examinateur.
M. Christian BOITET, Prof. des Univ. — Directeur de thèse.
M. Gilles SÉRASSET, Maître de Conf. — Co-directeur de thèse.

Université: Université de Grenoble

Discipline: Informatique

Date de soutenance: 23 décembre 1998

Lieu de soutenance: Campus Grenoble