Fouille de règles d’annotation pour la reconnaissance d’entités nommées

Damien Nouvel*, Jean-Yves Antoine*, Nathalie Friburger* et Arnaud Soulet*
*Université François Rabelais Tours - Laboratoire d’informatique damien.nouvel@limsi.fr, jean-yves.antoine, nathalie.friburger, arnaud.soulet@univ-tours.fr
Résumé
Comme pour de nombreuses autres problématiques TAL, la reconnaissance d’entités nommées met en jeu aussi bien des systèmes à base de connaissances que des systèmes guidés par les données. Dans cet article, nous proposons une approche médiane par l’adaptation de méthodes issues de l’extraction de connaissances. Notre système, mXS, intègre des techniques de fouille séquentielle hiérarchique pour la détection des entités nommées. Le système adopte une démarche centrée sur les données pour extraire des motifs symboliques. Il repose par ailleurs sur une stratégie originale qui consiste à rechercher séparément le début et la fin des entités. Cette approche présente l’intérêt de conserver une certaine robustesse par rapport aux bruit et disfluences. Elle est adaptée au cadre applicatif visé par le système : la détection d’entités nommées au sein de flux de parole conversationnelle transcrite automatiquement. À ce titre, mXS a participé à la campagne d’évaluation ETAPE où il a présenté de bons résultats. Cet article présente le fonctionnement de mXS et ses performances sur les jeux de données issus de deux campagnes d’évaluation francophones (ESTER 2 et ETAPE)
Paru dans
Document
Rank
1