Accueil du site Accueil du site Adhésion Contact Plan du site

SxPipe 2 : architecture pour le traitement présyntaxique de corpus bruts

Benoît Sagot, Pierre Boullier

INRIA Paris-Rocquencourt - Projet ALPAGE
Domaine de Voluceau
Rocquencourt, B.P. 105
F-78153 Le Chesnay cedex
(benoit.sagot,pierre.boullier)@inria.fr

Cet article présente SxPipe 2, chaîne modulaire et paramétrable dont le rôle est d’appliquer à des corpus bruts une cascade de traitements de surface. Préalable nécessaire à une possible analyse syntaxique, ils peuvent également servir à préparer d’autres tâches. Développé pour le français mais également pour d’autres langues, SxPipe 2 comprend, entre autres, divers modules de reconnaissances d’entités nommées dans du texte brut, un segmenteur en phrases et en tokens, un correcteur orthographique et reconnaisseur de mots composés, ainsi qu’une architecture originale de reconnaissance de motifs non contextuels, utilisée par différentes grammaires spécialisées (nombres, constructions impersonnelles...). Nous présentons les fondements théoriques des différents modules, leur mise en œuvre pour le français et pour certains une évaluation quantitative.


Télécharger:
Fichier PDF
Benoît Sagot, Pierre Boullier
974.5 ko

TAL Volume 49 2008 . 2. Plate-formes pour le traitement automatique des langues

Date de dernière mise à jour : 17 juin 2009, auteur : Rédacteurs en chef.