Accueil du site Accueil du site Adhésion Contact Plan du site

Identification des reprises et interprétation automatique des expressions pronominales dans des textes en français

Identity relations identification and automatic interpretation of pronominal expressions in French texts

François Trouilleux

Equipe : Groupe de recherche dans les industries de la langue (GRIL)
Courriel : ftrouilleux@yahoo.fr
Page : http://perso.numericable.fr/~ftroille/
Cette thèse est téléchargeable à : http://perso.numericable.fr/~ftroille/

Contenu

Mots-clés : reprise, anaphore, coréférence, évaluation, pronom

Keywords : identity relation, anaphora, coreference, evaluation, pronoun

Résumé

Le travail présenté dans la thèse a été réalisé dans le cadre d’une Convention industrielle de formation par la recherche en entreprise (CIFRE) au Centre de recherche européen de Xerox (XRCE), le laboratoire universitaire associé étant le Groupe de recherche dans les industries de la langue (GRIL) de l’université Blaise-Pascal à Clermont-Ferrand.

La thèse est organisée en deux parties : nous présentons, dans une première partie, une étude générale des « phénomènes de reprises », et, dans une deuxième partie, l’implantation d’un système d’interprétation automatique des pronoms personnels et déterminants possessifs de troisième personne. La thèse a en outre pour objectif d’illustrer une méthode de travail qui exige que les descriptions linguistiques que nous proposerons puissent être et soient évaluées, c’est-à-dire confrontées à la réalité observable des textes.

Identification des reprises

La première partie de la thèse a pour double objectif de présenter une étude générale des phénomènes de reprise et d’illustrer une méthodologie, qui met l’accent sur la nécessité de tester les hypothèses par rapport au réel observable.

Le premier chapitre est consacré à la délimitation des phénomènes de reprise. Il y a reprise lorsqu’entre deux expressions d’un même texte existe un lien sémantique caractérisé en ayant recours à une relation d’identité. La notion de reprise recouvre la relation de coréférence, mais également d’autres relations. Elle recouvre également certains phénomènes d’anaphore, mais, contrairement à cette dernière, elle ne met pas en jeu une caractérisation du phénomène par la forme des expressions. La caractérisation des différents types de liens de reprise fait l’objet du chapitre 2.

Ces deux chapitres ont pour vocation de spécifier un système d’organisation des données linguistiques : on définit les objets qui devront être observés, et comment ils devront l’être. Étant donné un texte quelconque et les définitions des chapitres 1 et 2, un observateur quelconque doit pouvoir spécifier quels sont les liens de reprise à l’intérieur de ce texte.

Les chapitres 3 et 4 abordent la problématique de l’évaluation. Le chapitre 3 est plus particulièrement dédié à la définition de critères et de mesures d’évaluation pour les phénomènes relevant de la coréférence au sens strict. Des critères et mesures d’évaluation pour la coréférence existaient préalablement à cette thèse ; nous en proposons de nouveaux, en les justifiant.

Pour attester l’existence de conditions d’évaluation externes à un système d’hypothèses, il est nécessaire de montrer que l’observation des phénomènes visés est inter-subjective. Le chapitre 4 présente les résultats d’une expérience visant à évaluer cette inter-subjectivité sur l’observation des différentes relations à distance qui peuvent être observées entre les expressions d’un même texte. Cinq étudiants du GRIL ont noté les relations qu’ils observaient sur trois articles de journaux, observations que nous comparons avec les observations que nous-mêmes avions faites sur ces textes. L’existence des conditions d’évaluation dépendra du degré d’accord entre les observations faites par les étudiants et nos propres observations.

Interprétation automatique des expressions pronominales

Si la première partie de la thèse donne une vue générale des phénomènes de reprise, la seconde partie a un caractère plus applicatif : on y décrit l’implantation d’un système d’interprétation automatique des pronoms personnels et déterminants possessifs de troisième personne dans les textes en français.

Le chapitre 5 décrit notre objectif pour cette seconde partie de la thèse, l’environnement de travail et la méthodologie adoptée.

Le chapitre 6 présente les approches possibles du problème que nous voulons résoudre. On recense d’abord les différentes sources d’information qui peuvent entrer en jeu dans les mécanismes d’interprétation des expressions pronominales (syntaxe, sémantique, etc.), puis on décrit quelques-uns des principaux systèmes d’interprétation automatique des pronoms, par rapport auxquels nous mettons notre propre système en perspective.

Le chapitre 7 décrit les données sur lesquelles seront exprimées nos hypothèses sur l’interprétation des pronoms. Il s’agit essentiellement d’une représentation de la structure syntaxique des phrases, telle que produite par l’analyseur syntaxique développé au Centre de recherche de Xerox (XRCE).

Nos hypothèses sur l’interprétation des expressions pronominales retenues ont été implantées dans le formalisme de l’outil XIP, développé à XRCE. La description de ce formalisme fait l’objet du chapitre 8.

Notre système d’hypothèses sur l’interprétation des expressions pronominales est présenté plus spécifiquement dans les chapitres 9 (organisation globale du système), 10 et 11 (description précise des hypothèses). Il est ensuite évalué dans le chapitre suivant. Le système donne une interprétation correcte pour 75% des expressions pronominales visées, évaluation effectuée sur un ensemble de 417 expressions apparaissant dans un recueil d’articles de presse traitant du domaine de la finance.



Abstract

The work described in the PhD thesis has been performed jointly at Xerox Research Center Europe and Groupe de recherches dans les industries de la langue, Université Blaise-Pascal, Clermont-Ferrand, within the framework of a CIFRE convention.

The dissertation is organized in two parts : the first part introduces a general study of denotational and descriptive identity relations between the expressions occurring in a text, the second part describes the implementation of a system for automatic interpretation of third person personal pronouns and possessive determiners in French texts. The dissertation also aims at illustrating a methodology which requires that the linguistic description to be proposed may be evaluated, i.e. confronted to the reality of actual corpora.

Identity Relations Identification

The objective of the first part of the PhD dissertation is to propose a general study of denotational and descriptive identity relations between expressions and illustrate a methodology in which the stress in laid on the necessity to effectively test hypotheses with respect to observable reality.

The first chapter is devoted to the delimitation of identity relations as they are to be observed in texts. The notion of identity relation covers the notion of coreference, but also other referential relations (e.g. type identity, subset/set relation). It also covers some anaphoric relations but, contrary to the notion of anaphora, identity relations are not characterized by conditions on the forms of expressions. Different types of identity relations are characterized in chapter 2.

In the first two chapters, we specify a system to organize the linguistic data : we define the objects to be observed and how they are to be observed. Given a text and the definitions of chapters 1 and 2, any observer must be able to specify the identity relations in this text.

Chapter 3 and 4 deal with the problematics of evaluation. In chapter 3, we define new evaluation criteria and measures for the identification of coreference relations and justify them against the previously existing methods.

In order to attest that evaluation conditions exist, it is necessary to show that the observation of the phenomena to be dealt with by some future system of hypotheses is inter-subjective. Chapter 4 details the results of an experiment aiming at attesting the inter-subjectivity of observations on various long-distance relations to be observed between expressions in the same text. Five students from the Groupe de recherche dans les industries de la langue have been asked to write down the observations they made on three newspaper articles. We compare these five sets of observations with the observations we made ourselves. The existence of evaluation conditions will depend on the degree of agreement between the five students and us.

Automatic Interpretation of Pronominal Expressions

While the first part of the dissertation provides a general view of identity relations in texts, the second part deals with a more specific task : we describe the implementation of a pronoun resolution system for French.

Chapter 5 sets out our objective for this second part of the dissertation and introduces the software environment and the methodology we adopted.

Chapter 6 reviews possible approaches of the problem we want to solve. We first review the different information sources which may be relevant to pronoun interpretation (syntax, semantics, etc.), and then describe some of the major existing pronoun resolution systems.

Chapter 7 details the data over which our hypotheses on pronoun interpretation will be formulated. It essentially consists in a description of the syntactic representation of sentence as provided by the Xerox robust parser for French.

Our hypotheses on pronoun interpretation have been implemented within the Xerox Incremental Parser (XIP) platform. The description of the XIP formalism is given in chapter 8.

Our pronoun resolution system is described more specifically in chapters 9 (global system organization), 10 and 11 (precise description of our hypotheses). It is evaluated in the following chapter. The system outputs a correct interpretation for 75 % of the in-scope pronouns, an evaluation performed over a set of 417 pronoun occurrences in newspaper articles in the finance domain.



Informations administratives

Jury Université : Université Clermont 2

Discipline : Sciences du langage, Linguistique et Informatique

Date de soutenance : 21 décembre 2001

Lieu de soutenance : Université Blaise-Pascal, Clermont-Ferrand


Ces renseignement ont été saisis le 11/05/2003 par François Trouilleux.

Date de dernière mise à jour : 8 février 2005, auteur : .