Assaf Urieli*
*CLLE-ERSS, CNRS, université de Toulouse
Résumé
Les outils statistiques robustes en TAL, tels que les étiqueteurs morphosyntaxiques et les analyseurs syntaxiques, utilisent souvent des descripteurs ’’pauvres’’, qui peuvent être appliqués facilement à n’importe quelle langue, mais ne prennent pas en compte les particularités de la langue. Dans cette étude, nous cherchons à améliorer l’analyse de deux phénomènes en français en injectant des connaissances plus riches : l’étiquetage morphosyntaxique du mot ’’que’’ et l’analyse syntaxique de la coordination. Nous comparons plusieurs techniques : la transformation automatique du corpus vers d’autres normes d’annotation avant l’entraînement, l’ajout de descripteurs ciblés et riches lors de l’entraînement, et l’ajout de règles symboliques qui contournent le modèle statistique lors de l’analyse. Nous atteignons une réduction du taux d’erreur de 55 % pour l’étiquetage de ’’que’’, et de 37 % pour les structures coordonnées.
Paru dans
Document
Rank
3