Accueil du site Accueil du site Adhésion Contact Plan du site

Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique

Didier Bourigault*, Cécile Frérot**

* CLLE-ERSS
CNRS et Université Toulouse Le Mirail
5, allées Antonio-Machado
F-31058 Toulouse cedex 9

** Université Stendhal Grenoble 3
Domaine universitaire BP 25
F-38040 Grenoble cedex 9


Nous présentons une expérience d’utilisation d’informations de sous-catégorisation par un analyseur syntaxique pour la résolution d’ambiguïtés de rattachement prépositionnel. Le lexique de sous-catégorisation est constitué de probabilités associées à des couples (mot, préposition). Il a été construit automatiquement à partir d’un corpus de 200 millions de mots. Pour évaluer ce lexique, nous utilisons quatre corpus de test de genres variés. Nous testons plusieurs stratégies de désambiguïsation, et montrons qu’une stratégie mixte, utilisant à la fois des probabilités de sous-catégorisation spécifiques acquises à partir du corpus en cours de traitement et les probabilités de sous-catégorisation génériques donne les meilleurs résultats : les performances en précision de l’analyseur sur la tâche de désambiguïsation des rattachements prépositionnels varient selon les corpus de 79,4% à 87,2%.


Télécharger:
Fichier PDF
Didier Bourigault, Cécile Frérot
158.2 ko


Date de dernière mise à jour : 25 octobre 2007, auteur : Rédacteurs en chef.