Accueil du site Accueil du site Adhésion Contact Plan du site

Identifier les relations discursives implicites en combinant données naturelles et données artificielles

Chloé Braud, Pascal Denis

ALPAGE, Université Paris Diderot & INRIA Paris-Rocquencourt chloe.braud@inria.fr MAGNET, INRIA Lille Nord Europe pascal.denis@inria.fr

Cet article présente les premières expériences sur le français d’identification automatique des relations discursives implicites (i.e., non marquées par un connecteur). Nos systèmes exploitent des exemples implicites annotés, ainsi que des exemples implicites artificiels obtenus à partir d’exemples explicites par suppression du connecteur, une méthode introduite par Marcuet Echihabi (2002). Les précédentes études sur l’anglais montrent que l’utilisation à l’entraînement des données artificielles dégrade largement les performances sur les données naturelles, ce qui reflète des différences importantes en termes de distribution. Ce constat, qui tient aussi pour le français, nous a amenés à envisager différentes méthodes, inspirées de l’adaptation de domaine, visant à combiner plus efficacement les données. Nous évaluons ces méthodes sur le corpus ANNODIS : notre meilleur système obtient 41,7 % d’exactitude, soit un gain significatif de 4,4 % par rapport à un modèle n’utilisant que les données naturelles.


Télécharger:
Fichier PDF
Chloé Braud, Pascal Denis
327.7 ko


Date de dernière mise à jour : 5 décembre 2014, auteur : Rédacteurs en chef.