Accueil du site Accueil du site Adhésion Contact Plan du site

Stratégies discriminantes pour intégrer la reconnaissance des mots composés dans un analyseur syntaxique en constituants

Matthieu Constant*, Anthony Sigogne*, Patrick Watrin**

* Université Paris-Est
LIGM, CNRS
[mconstan,sigogne]@univ-mlv.fr

** Knowbel Technologies
patrick.watrin@knowbel.com


Nous proposons deux stratégies discriminantes d’intégration des mots composés dans un processus d’analyse syntaxique en constituants : (i) présegmentation lexicale avant analyse, (ii) postsegmentation lexicale après analyse au moyen d’un réordonnanceur. Le segmenteur de l’approche (i) se fonde sur les champs aléatoires markoviens. Le réordonnanceur de l’approche (ii) repose sur un modèle de maximum d’entropie. Tous ces modèles intègrent des traits dédiés aux mots composés, dont certains sont calculés à partir de ressources lexicales externes. Nous montrons que l’approche par présegmentation atteint des performances dépassant l’état de l’art, alors que celle par postsegmentation est un peu en dessous de nos espérances. Les différentes expériences menées ouvrent de nombreuses pistes de recherche.


Télécharger:
Fichier PDF
Matthieu Constant, Anthony Sigogne, Patrick Watrin
179.4 ko


Date de dernière mise à jour : 8 octobre 2013, auteur : Rédacteurs en chef.