Accueil du site Accueil du site Adhésion Contact Plan du site

Variations langagières et annotation morphosyntaxique du latin classique

Céline Poudat*, Dominique Longrée**

* « Bases, corpus, langage » (BCL) - UMR6039 - CNRS - Université de Nice
Faculté des lettres
98, bd. Édouard-Herriot,
BP 3209 ; 06204 Nice CEDEX 3
celine.poudat@unice.fr

** Laboratoire d’analyse statistique des langues anciennes (LASLA)
Université de Liège - Bâtiment A4
Quai Roosevelt 1B
B 4000 Liège
dominique.longree@ulg.ac.be


Le présent article évalue les performances de trois étiqueteurs morphosyntaxiques entraînables (MBT, TnT et TreeTagger) pour l’annotation morphosyntaxique de textes latins classiques. Pour ce faire, les textes-tests et les corpus d’entraînement ont été choisis au sein de la banque de données du Laboratoire d’analyse statistique des langues anciennes (LASLA) de manière à mettre les étiqueteurs à l’épreuve de variations stylistiques, diachroniques, génériques ou discursive. Cette recherche a permis non seulement de préciser les divers taux de réussite de chacun des étiqueteurs selon les corpus retenus, mais aussi de montrer que ceux-ci constituent de véritables instruments heuristiques pouvant permettre d’améliorer de manière significative la description des corpus.


Télécharger:
Fichier PDF
Céline Poudat, Dominique Longrée
134.6 ko

TAL Volume 50 2009 . 2. Traitement automatique des langues et langues anciennes

Date de dernière mise à jour : 8 janvier 2010, auteur : Rédacteurs en chef.