Accueil du site Accueil du site Adhésion Contact Plan du site

Fouille de données séquentielles pour l’extraction d’information dans les textes

Thierry Charnois*, Marc Plantevit**, Christophe Rigotti***, Bruno Crémilleux*

* Université de Caen Basse Normandie
GREYC, CNRS, UMR6072
F-14032, France
thierry.charnois,bruno.cremilleux@info.unicaen.fr

** Université de Lyon, CNRS, Université Lyon 1
LIRIS, UMR5205
F-69622, France
marc.plantevit@liris.cnrs.fr

*** Université de Lyon, CNRS, INSA-Lyon
LIRIS, UMR5205
F-69621, France _christophe.rigotti@insa-lyon.fr


Cet article montre l’intérêt d’utiliser les motifs issus des méthodes de fouille de données dans le domaine du TAL appliqué à la biologie médicale et génétique, et plus particulièrement dans les tâches d’extraction d’information. Nous proposons une approche pour apprendre les patrons linguistiques par une méthode de fouille de données fondée sur les motifs séquentiels et sur une fouille dite récursive des motifs eux-mêmes. Une originalité de notre approche est de s’affranchir de l’analyse syntaxique tout en permettant de produire des résultats symboliques, intelligibles pour l’utilisateur, a contrario des méthodes numériques qui restent difficilement interprétables. Elle ne nécessite pas de ressources linguistiques autres que le corpus d’apprentissage. Pour la reconnaissance d’entités biologiques nommées, nous proposons une méthode fondée sur un nouveau type de motifs intégrant une séquence et son contexte.


Télécharger:
Fichier PDF
Thierry Charnois, Marc Plantevit, Christophe Rigotti, Bruno Crémilleux
451.5 ko

TAL Volume 50 2009 . 3. Apprentissage automatique pour le TAL

Date de dernière mise à jour : 29 septembre 2010, auteur : Rédacteurs en chef.