CELINE, vers un correcteur lexico-syntaxique, adaptatif et semi-automatique

Menézo Jacques

Équipe: Equipe TRILAN

Contenu

Mots-clés: traitement automatique des langues naturelles, correcteur lexico-syntaxique, vérification des accords en nombre et en genre, intelligence artificielle distribuée, systèmes multi-agents, blackboards parallèles

Keywords: natural langage processing, lexico-syntatic error correction, langage industrial applications, distributed artificial Intelligence, multi-agent architecture, parallel blackboard

Résumé

Cette thèse aborde la conception et la mise en oeuvre d’un outil de détection-correction des erreurs basé sur une nouvelle architecture à deux niveaux : Un ensemble d’agents réparti qui coopèrent. Considérés comme imparfaits, ils sont mis en concurrence par domaine d’expertise.; Un système léger sur le site de l’utilisateur (le rédacteur), système adapté au rédacteur et construit par apprentissage par le système central à partir des travaux de ce rédacteur.; La détection correction des erreurs fait intervenir la langue, le mode d’expression (écrit ou oral), le rédacteur et le système matériel assurant l’interface entre le texte mental et le texte électronique. Ce quadruple niveau multiplie le nombre d’approches possibles ainsi que le nombre et la complexité des difficultés à résoudre.

Différentes modalités de correction peuvent s’envisager, en commençant par les possibilités d’une correction automatique ou d’une correction interactive avec le rédacteur. Ce choix introduit l’aspect cognitif de la prise de décision face à un inattendu représentant une suspicion de fautes.

La finalité de notre travail, dans le cadre de la détection-correction des erreurs, était la recherche d’une approche permettant de prendre en compte aussi bien les aspects contextuels que l’aspect multi-niveaux dans les prises de décision du système.

Première partie : Introduction, Problématique, Taxinomie des erreurs et méthodes de correction, Prototypes du domaine, Modèles Humains, Apprentissage et modèles de Markov, Le Modèle Linguistique Partiel Suffisant, La méthode des structures La problématique des langues naturelles avec, en particulier, le morcellement des connaissances et la problématique de la détection-correction d’erreurs a guidé notre démarche dans la recherche d’une solution. Le cahier des charges de CELINE est établi tout le long de cette première partie

La recherche d’un système universel de grande robustesse quel que soit le rédacteur nous a entraîné sur la piste du multi-modules, avec l’hypothèse simplificatrice pour un rédacteur particulier du modèle linguistique partiel suffisant (MPLS).

Le multi-modules pouvait se résoudre par une architecture de type client-serveur mais la nécessité de décisions contextuelles multi-niveaux nous a lancé sur la voie d’une architecture multi-agents. Concernant le mode de communication, notre option fondamentale a été de choisir une communication par tableau noir parallèle pour la tâche principale de détection-correction des erreurs. La structure de données nécessaire mémorisé par le tableau noir se complète tout le long de cette première partie. Une communication directe par messages complète le premier mode pour des tâches comme l’activation d’agents et certains échanges d’informations. Certains points de l’architecture (pilotes, communications secondaires par messages) ont été justifiés par le souci d’une optimisation dans la gestion du flot d’informations au niveau du tableau noir.

Les prises de décisions sont appuyées par des observations statistiques permettant de prendre de calculer un ensemble de probabilités et coefficients divers. Les agents du domaine lexical sont affectés de coefficients d’utilisation. Les agents de même domaine d’expertise sont affectés d’un coefficient de crédibilité. La méthode des structures permet de quantifier les prises de décision dans le cas des accords en nombre, genre, temps etc.

Deuxième partie : la réalisation, le système CELINE Le système final possède deux facettes distinctes et une option fondamentale : Une « grosse machine » éventuellement répartie, renfermant l’ensemble du savoir linguistique, permettant une grande robustesse, et faisant office de génératrice de systèmes individualisés.; Un système léger implanté sur le site de l’utilisateur, système devenant, au fur et à mesure de l’apprentissage, de plus en plus autonome et donc indépendant de la machine centrale.; Intégration à la demande de l’agent humain permettant une correction interactive soit sur le site de l’utilisateur (le rédacteur) soit sur la machine centrale (correcteurs professionnels d’une société de service).; Ce double aspect coïncide avec une solution futuriste envisagée par de nombreux développeurs professionnels misant sur les réseaux. D’une manière générale, les logiciels deviennent de plus en plus complexes et demandent de la part des fabricants de gros investissements se traduisant par des prix de vente élevés incompatibles avec une utilisation non professionnelle. L’idée est donc de faire payer l’utilisation du logiciel et non le logiciel.

Pour cela : Un ordinateur du réseau fait office de serveur de logiciels.; Les logiciels ne sont plus vendus mais loués à chaque utilisation.; Chaque utilisateur ne paye que ce qu’il consomme (en téléchargeant à chaque utilisation le logiciel ou les parties du logiciel nécessaires et en payant en fonction par exemple de la durée d’utilisation).; Bien entendu cette solution ne devient possible qu’avec une amélioration des vitesses de transmissions des réseaux et en réduisant les besoins de transferts.; Le système CELINE se moule bien dans cette approche : connexion obligatoire à l’ordinateur central (les royalties ?). Les transferts sont minimisés : seuls l’activation du logiciel implanté sur le site utilisateur et les recherches de renseignements ne faisant pas partie du MPLS de l’utilisateur implique une utilisation du réseau. Après une approche des systèmes multi-agents, nous présentons une synthèse de l’architecture de CELINE et du fonctionnement des pilotes et de quelques agents.

Un bilan rapide, précèdera en conclusion, une mise en situation du système proposé dans le cadre des industries de la langue et dans un environnement réseau du type Internet.

Abstract

This thesis presents the specification and implementation of CELINE, a tool for correcting errors based on a two level multi-agent architecture :

1) A heavy system, embedding a complete body of linguistic knowledge (multi-domain, independent of the universe discourse), and generating tailored systems. In the first instance, the agents may be considered coude or partially inadapted. Tailoring is achieved through competition among agents according to their domain of expertise.

2) A light system installed on the writer’s site. This system is built by the central system which learns from writer’s productions.

The complete system specification is progressively built by successive chapters of this thesis.

Error correcting issues, and the aim of an almost automatic corrector, whose decisions are based on fine-grained and multi-level information, leads us to the need for cooperation and hence to a multi-agent architecture.

Error taxonomy and some insights from linguistic analysis allow us to specify a first version of the blackboard structure of the system. We strengthen our choices by comparing our approach with some alternative prototypes for lexico-syntactic error correction. We go on to study the social behaviour of the two agents respectively in charge of defining : a partial linguistic model of the writer and of a pertinent subset of the global system. We finally describe the communication model between agents and we augment our data structure through validity marks.

The structure method employed by CELINE permits a quantitative analysis of its correction errors, including those made at the blackboard level.

After presenting our multi-agent system approach, we go on to describe a synthesis of CELINE’s architecture with agent and supervisor functions.

Finally, after a short sum up, as a conclusion, we will see how CELINE could be used in the context of an internet-type networked environnement within language industries.

Informations administratives

Jury

M. Jacques COURTIN Directeur
M. Damien GENTHIAL Co-directeur
M. Jacques-Henri JAYEZ Rapporteur
M. Guy PÉRENNOU Rapporteur
M. Augustin LUX Président du jury
Me. Catherine GARBAY Examinatrice

Université: Institut National Polytechnique de Grenoble

Discipline: Informatique, Système et communication.

Date de soutenance: 05 juillet 1999

Lieu de soutenance: ENSIMAG - Grenoble