Accueil du site Accueil du site Adhésion Contact Plan du site

CELINE, vers un correcteur lexico-syntaxique, adaptatif et semi-automatique

CELINE, TOWARDS AN ADAPTATIVE AND SEMI-AUTOMATIC LEXICAL AND SYNTACTIC CORRECTOR

Jacques Menézo

Equipe : Equipe TRILAN
Courriel : jacques.menezo@imag.fr
Page : http://www-clips.imag.fr/personnes.html
Cette thèse est téléchargeable à : http://www-mediatheque.imag.fr/Mediatheque.IMAG/collections-electroniques/publications/theses/1999/index.html

Contenu

Mots-clés : Traitement automatique des langues naturelles ; Correcteur lexico-syntaxique ; Vérification des accords en nombre et en genre ; Intelligence artificielle distribuée ; Systèmes multi-agents ; Blackboards parallèles

Keywords : Natural Language Processing ; Lexico-syntatic Error Correction ; Language Industrial Applications ; Distributed Artificial Intelligence ; Multi-agent architecture ; Parallel Blackboard

Résumé

Cette thèse aborde la conception et la mise en oeuvre d’un outil de détection-correction des erreurs basé sur une nouvelle architecture à deux niveaux :

La détection correction des erreurs fait intervenir la langue, le mode d’expression (écrit ou oral), le rédacteur et le système matériel assurant l’interface entre le texte mental et le texte électronique. Ce quadruple niveau multiplie le nombre d’approches possibles ainsi que le nombre et la complexité des difficultés à résoudre.

Différentes modalités de correction peuvent s’envisager, en commençant par les possibilités d’une correction automatique ou d’une correction interactive avec le rédacteur. Ce choix introduit l’aspect cognitif de la prise de décision face à un inattendu représentant une suspicion de fautes.

La finalité de notre travail, dans le cadre de la détection-correction des erreurs, était la recherche d’une approche permettant de prendre en compte aussi bien les aspects contextuels que l’aspect multi-niveaux dans les prises de décision du système.

Première partie : Introduction, Problématique, Taxinomie des erreurs et méthodes de correction, Prototypes du domaine, Modèles Humains, Apprentissage et modèles de Markov, Le Modèle Linguistique Partiel Suffisant, La méthode des structures

La problématique des langues naturelles avec, en particulier, le morcellement des connaissances et la problématique de la détection-correction d’erreurs a guidé notre démarche dans la recherche d’une solution. Le cahier des charges de CELINE est établi tout le long de cette première partie

La recherche d’un système universel de grande robustesse quel que soit le rédacteur nous a entraîné sur la piste du multi-modules, avec l’hypothèse simplificatrice pour un rédacteur particulier du modèle linguistique partiel suffisant (MPLS).

Le multi-modules pouvait se résoudre par une architecture de type client-serveur mais la nécessité de décisions contextuelles multi-niveaux nous a lancé sur la voie d’une architecture multi-agents. Concernant le mode de communication, notre option fondamentale a été de choisir une communication par tableau noir parallèle pour la tâche principale de détection-correction des erreurs. La structure de données nécessaire mémorisé par le tableau noir se complète tout le long de cette première partie. Une communication directe par messages complète le premier mode pour des tâches comme l’activation d’agents et certains échanges d’informations. Certains points de l’architecture (pilotes, communications secondaires par messages) ont été justifiés par le souci d’une optimisation dans la gestion du flot d’informations au niveau du tableau noir.

Les prises de décisions sont appuyées par des observations statistiques permettant de prendre de calculer un ensemble de probabilités et coefficients divers. Les agents du domaine lexical sont affectés de coefficients d’utilisation. Les agents de même domaine d’expertise sont affectés d’un coefficient de crédibilité. La méthode des structures permet de quantifier les prises de décision dans le cas des accords en nombre, genre, temps etc.

Deuxième partie : la réalisation, le système CELINE

. Le système final possède deux facettes distinctes et une option fondamentale :

Ce double aspect coïncide avec une solution futuriste envisagée par de nombreux développeurs professionnels misant sur les réseaux. D’une manière générale, les logiciels deviennent de plus en plus complexes et demandent de la part des fabricants de gros investissements se traduisant par des prix de vente élevés incompatibles avec une utilisation non professionnelle. L’idée est donc de faire payer l’utilisation du logiciel et non le logiciel.

Pour cela :

Le système CELINE se moule bien dans cette approche : connexion obligatoire à l’ordinateur central (les royalties ?). Les transferts sont minimisés : seuls l’activation du logiciel implanté sur le site utilisateur et les recherches de renseignements ne faisant pas partie du MPLS de l’utilisateur implique une utilisation du réseau. Après une approche des systèmes multi-agents, nous présentons une synthèse de l’architecture de CELINE et du fonctionnement des pilotes et de quelques agents.

Un bilan rapide, précèdera en conclusion, une mise en situation du système proposé dans le cadre des industries de la langue et dans un environnement réseau du type Internet.



Abstract
This thesis presents the specification and implementation of CELINE, a tool for correcting errors based on a two level multi-agent architecture :

1) A heavy system, embedding a complete body of linguistic knowledge (multi-domain, independent of the universe discourse), and generating tailored systems. In the first instance, the agents may be considered coude or partially inadapted. Tailoring is achieved through competition among agents according to their domain of expertise.

2) A light system installed on the writer’s site. This system is built by the central system which learns from writer’s productions.

The complete system specification is progressively built by successive chapters of this thesis.

Error correcting issues, and the aim of an almost automatic corrector, whose decisions are based on fine-grained and multi-level information, leads us to the need for cooperation and hence to a multi-agent architecture.

Error taxonomy and some insights from linguistic analysis allow us to specify a first version of the blackboard structure of the system. We strengthen our choices by comparing our approach with some alternative prototypes for lexico-syntactic error correction. We go on to study the social behaviour of the two agents respectively in charge of defining : a partial linguistic model of the writer and of a pertinent subset of the global system. We finally describe the communication model between agents and we augment our data structure through validity marks.

The structure method employed by CELINE permits a quantitative analysis of its correction errors, including those made at the blackboard level.

After presenting our multi-agent system approach, we go on to describe a synthesis of CELINE’s architecture with agent and supervisor functions.

Finally, after a short sum up, as a conclusion, we will see how CELINE could be used in the context of an internet-type networked environnement within language industries.

Informations administratives

Jury Université : Institut National Polytechnique de Grenoble

Discipline : Informatique, Système et communication.

Date de soutenance : 05 juillet 1999

Lieu de soutenance : ENSIMAG - Grenoble


Ces renseignement ont été saisis le 23/03/2000 par Jacques Menézo.

Date de dernière mise à jour : 8 février 2005, auteur : .