Méta-Étiqueteur Adaptatif : vers une utilisation pragmatique des ressources linguistiques

Auteurs

Illouz, Gabriel

Résumé

Le traitement automatique du langage requiert des corpus textuels de plus en plus volumineux, entre autres pour les étiqueteurs morpho-syntaxiques. Ces processus de traitement ne sont pas exempts d’erreurs. Dans l’optique d’améliorer cet étiquetage de corpus hétérogènes (composés de textes tout-venant), une approche adaptative au type de texte utilisant les ressources produites par une campagne d’évaluation sera proposée. Les résultats d’une première validation seront présentés sur les données MULTITAG. Les faits suivants sont constatés : les textes ne sont pas homogènes en terme de distribution de parties du discours, les classifications a priori ne fournissent pas une homogénéité en terme de performance et un même texte peut produire des variations positives pour un système et négatives pour un autre. De plus, il existe une relation entre la typologie de textes obtenue de façon non supervisée sur le jeu de caractères et les variations de performance.

Mots-clés

méta-étiqueteur

variation

corpus

pragmatique

Conférence

TALN 99 : 6e conférence annuelle sur le Traitement Automatique des Langues Naturelles

Document

AC_0016.pdf