Accueil du site Accueil du site Adhésion Contact Plan du site

La résolution des anaphores en Traitement Automatique des Langues

Date : 16 juin 2007.
Organisation : Dominique Dutoit, Michel Dupont (Mémodata), Georges Kleiber (Université Marc Bloch).
Lieu : ENST Amphi Emeraude (accès par le 49 rue Vergniaud), Paris 13ème (bus 57, 62, 67).

La plupart des applications de TAL profiteraient de progrès en résolution des anaphores. Prenons quelques exemples :
-  recherche documentaire : meilleure détection des topics ;
-  traduction automatique : choix des bons pronoms ;
-  système à questions-réponses et extraction d’information : constitution de bases de connaissances.

Actuellement, certaines applications ne comportent pas de modules spécialisés pour cette tâche et le plus souvent les modules spécialisés sont conçus selon des principes qui n’ont guère évolué au cours des dernières décennies. La conception de ces modules reste un verrou pour le TAL. C’est du moins le cas dès que les applications doivent faire un calcul du sens qui ne se limite pas à quelques mots mais doit prendre en compte plusieurs phrases pouvant contenir plusieurs propositions. Les performances globales des applications de compréhension automatique de texte et des systèmes qui construisent des bases de connaissances à partir de textes semblent en grande partie limitée par les performances de leur module de résolution des anaphores. On a pu observer cela avec la campagne des conférences MUC. Les résultats des épreuves de remplissage de fiches sont en effet corrélées avec les épreuves de calcul des chaînes de coréférence. Il semble donc que, même si d’autres obstacles subsistent, un effort de recherche tout particulier doit être fait sur ce point.

Les études sur ce sujet sont pourtant nombreuses. On observe d’ailleurs qu’elles consacrent la distinction entre linguistique traditionnelle, linguistique cognitive, linguistique formelle et Traitement Automatique des Langues.

Pour la linguistique traditionnelle, plusieurs linguistes français s’intéressent depuis plusieurs décennies à cette question et ont accumulé une somme de connaissance qui n’est guère actuellement exploitée en TAL. Pour la linguistique cognitive, c’est assurément la théorie de l’accessibilité, laquelle se situe dans le courant de la théorie de la Pertinence, qui est la plus connue. En linguistique formelle, on évoque actuellement le plus souvent la théorie du centrage mais il en existe d’autres comme la théorie du focus tandis qu’en TAL les travaux actuellement les plus en vogue font appel à des calculs de score.

La journée d’étude se proposera de faire un point sur l’ensemble de ces travaux dans la perspective de faire sauter ce verrou pour le TAL. On essaiera notamment de voir si les connaissances accumulées par les linguistes sur les différents marqueurs référentiels sont utiles pour le TAL. Comment faire pour les utiliser ? Les approches cognitives comme la théorie de l’accessibilité peuvent-elles être un apport pour le TAL ? Les modèles de la linguistique formelle sont-ils opérationnels en TAL ? Sinon peuvent-ils le devenir ? Dans quelle mesure peut-on considérer que ces modèles sont validés par des réalisations informatiques ?

Ce sera aussi le moment de faire un point sur les applications de Compréhension Automatique, de systèmes à questions-réponses et d’Extraction d’Information en regardant comment la résolution des anaphores y est traitée (sous quelle forme, avec quels apports théoriques). On cherchera sur ce point à être le plus concret possible en examinant les applications élaborées par les laboratoires français. Les concepteurs confirment-ils que le traitement des anaphores constitue un verrou ? Si oui, qu’envisagent-ils comme solution pour faire sauter ce verrou ?

Soumissions :

Toute proposition en rapport avec les thématiques de la journée sera examinée. Il peut s’agir d’une comparaison entre plusieurs approches faisant ressortir les avantages et les inconvénients de chacune d’elles. Il peut s’agir aussi de la présentation d’un module de résolution des anaphores dans une application avec évaluation des performances du module et de l’impact sur les performances globales du système puis présentation de propositions pour améliorer les performances. Il peut s’agir encore de la présentation d’une application dédiée au calcul des chaînes de coréférence avec là aussi une évaluation et des propositions pour améliorer les performances. Plus généralement, toute contribution permettant d’apporter des éléments de réponse aux questions que soulève la nécessité de faire sauter ce verrou technologique sera la bienvenue étant bien entendu que la question même de savoir si c’est un verrou reste ouverte à la discussion.

Format et envoi des soumissions :

Résumés entre 2 et 4 pages pour une intervention de 30 ou 45mn. Les soumissions devront être transmises sous format électronique de préférence, au format Word, Pdf ou fichier-texte. Les résumés devront être envoyés à : Georges.Kleiber@umb.u-strasbg.fr et michel_dupont@voila.fr en mentionnant : journée ATALA dans le sujet. En cas de problème, vous pouvez également transmettre une version papier, adressée aux organisateurs, à

MEMODATA (journée ATALA),
17 rue Dumont d’Urville,
14000 CAEN (FRANCE)

Tél. (+33)(0)2.31.35.75.20

Dates importantes :

30/04/2007date limite pour les soumissions
30/05/2007notification aux auteurs
16/06/2007journée

Comité d’organisation :

-  Dominique Dutoit (Société Mémodata, France
-  Michel Dupont (Société Mémodata, France)
-  Georges Kleiber (Université Marc Bloch, Strasbourg, France)

Date de dernière mise à jour : 21 août 2007, auteur : .