Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue

Mangeot-Lerebours Mathieu

Équipe: Équipe GETA-CLIPS & Laboratoire XRCE

Contenu

Mots-clés: lexicologie, lexicographie, dictionnairique, bases lexicales multilingues, XML, schémas XML
Keywords: lexicology, lexicography, dictionaries, multilingual lexical databases, XML, XML schemata
Résumé
Les besoins croissants en ressources lexicales et le succès des projets de développement coopératif comme LINUX convergent vers l’idée d’accumuler des données lexicales multilingues de grande taille et de grande richesse par construction coopérative sur la Toile et utilisation "mutualisée" : les données seraient disponibles en "présentation" pour consultation gratuite par quiconque, mais fournies en "source balisée" seulement contre des "points" correspondant à des contributions préalables (ou très chers). Les contributeurs fourniraient eux-mêmes ces informations, ou les corrigeraient et les compléteraient, sous une forme standardisée, grâce à un environnement adapté.

L’étude du contexte actuel de la dictionnairique nous a conduit à l’identification de problèmes difficiles tels que la structuration et la manipulation de données hétérogènes, la visualisation d’une grande quantité de données lexicales multilingues et la construction en coopération par des personnes aux compétences diverses.

Des prototypages et des expérimentations portant sur la consultation de ressources hétérogènes, l’enrichissement et personnalisation du résultat, la construction de ressources en ligne et la rédaction d’articles avec un éditeur standard nous ont permis de résoudre séparément ces problèmes.

Cela nous a permis de concevoir ensuite un environnement complet de "bases lexicales" répondant à tous ces problèmes. Il se place au dessus des bases de données utilisées pour le stockage. Il intègre un serveur pour la construction coopérative. Son noyau inclut un formalisme générique de définition de structures lexicales inspiré de SUBLIM de G.Sérasset, mais complété et réexprimé en XML.

Cet environnement estactuellement appliqué au projet Papillon de développement par des bénévoles sur Internet d’une base lexicale comprenant cinq langues. L’architecture de la base est constituée d’un dictionnaire monolingue pour chaque langue et d’un dictionnaire pivot d’acceptions interlingues (axies) reliant les articles monolingues (lexies). La structure des lexies provient de la lexicologie combinatoire. Il est prévu d’augmenter rapidement le nombre de langues.

Enfin, l’architecture du serveur est assez générique et devrait être réutilisée rapidement dans d’autres contextes (serveurs de mémoires de traduction et d’outils pour traducteurs, serveurs de communication et RI multilingue via UNL, serveurs d’annotations multimédia).

Abstract
The growing needs in lexical resources and the success of the cooperative development projects such as LINUX lead to the idea of accumulating large amounts of very rich multilingual lexical data by cooperative construction on the Web and "mutualized" use : the data would be freely available on line for consultation purposes, and supplied as a tagged source file in exchange for coupons corresponding to prior contributions. Contributions to data improvement would be standardized and made available thanks to an adapted environment.

While studying of the current context of the dictionaries domain, we were led to identifying difficult problems such as heterogeneous data structuring and manipulation, as well as large amount of multilingual lexical data and visualization or construction in cooperation by people with different skills.

Prototypes and experiments on consultation of heterogeneous resources, enrichment and personalization of the result, on-line resource building, and entries writing with a standard editor enabled us to solve these problems separately.

It allowed us then to design a complete lexical databases environment addressing all these problems as a specific layer directly above the DBMS tools It integrates a server for cooperative building. Its kernel includes a generic formalism for the definition of lexical structures derived from SUBLIM of G. Sérasset, but completed and translated in XML.

This environment is currently applied to the Papillon project of a five-language lexical database development by voluntary contributors on the Internet. The architecture of the database is made up of a monolingual dictionary for each language and a pivot dictionary of interlingual acceptions (axies) linking the monolingual entries (lexies). The structure of the lexies comes from the combinatory lexicology. Extra languages are planned to be added soon.

The architecture of the server is quite generic and could be reused rapidly in other contexts (servers for translation memories and tools for translators, servers for communication and multilingual IR via UNL, servers of multimedia annotations).  

Informations administratives

Jury
  • M. Laurent Trilling Président
  • M. Laurent Romary Rapporteur
  • M. Jacques Chauché Rapporteur
  • M. Alain Polguère Examinateur
  • M. Frédéric Andrès Examinateur
  • M. Christian Boitet Directeur
  • M. Gilles Sérasset Co-directeur
  • M. Jean-Pierre Chanod Co-directeur
Université: Université Joseph Fourier, Grenoble
Discipline: Informatique
Date de soutenance: 27 septembre 2001
Lieu de soutenance: Amphi MJK Domaine Universitaire Grenoble