Asma Ben Abacha* et Pierre Zweigenbaum*
*LIMSI-CNRS,; BP 133 91403 Orsay cedex; abacha@limsi.fr, pz@limsi.fr
Résumé
De nombreux travaux se sont attaqués à la reconnaissance des entités médicales à partir de textes. Cependant il n’y a pas eu, à notre connaissance, d’études comparant deux stratégies pour traiter cette tâche : (i) l’extraction en amont des syntagmes nominaux, suivie d’une étape de catégorisation de leur type et (ii) la détermination simultanée des frontières et des types des entités. C’est la question que nous nous posons ici. Nous testons ces deux stratégies en utilisant des méthodes à base de règles et/ou à base d’apprentissage. Nous comparons leur robustesse et aussi leur portabilité en les évaluant sur deux corpus médicaux standard de genres différents. Les résultats obtenus confirment que les méthodes statistiques sont plus robustes que celles à base de règles à condition qu’un nombre suffisant d’exemples soit disponible. À cette contrainte s’ajoute le manque de portabilité des méthodes à base d’apprentissage sur des corpus différents. Les méthodes hybrides combinant les aspects sémantiques et statistiques permettent d’améliorer davantage les performances obtenues par apprentissage.
Paru dans
Document
Rank
2