L’identification de langue, un outil au service du corse et de l’évaluation des ressources linguistiques

Laurent Kevers*
*UMR CNRS 6240 LISA, Università di Corsica - Pasquale Paoli
Résumé
La constitution de corpus est une des premières priorités que rencontrent les langues peu dotées. L’émergence de ressources issues d’Internet, de tailles de plus en plus imposantes et couvrant de nombreuses langues, peut laisser penser que ce point est désormais résolu, ce qui n’est pas le cas. À la suite de Caswell et al. (2021), qui ont évalué plusieurs ressources de grande envergure, dont une disposant de contenu corse, nous avons mené une analyse de deux corpus incluant cette langue : An Crúbadán et W2C. Parallèlement à une évaluation manuelle, nous avons estimé la possibilité d’utiliser un ou plusieurs modules d’identification de langue afin de filtrer le contenu de ces ressources, ce qui s’avère possible mais au prix d’un rappel peu élevé. Pour cette tâche, nous avons testé et réentraîné divers systèmes afin de les adapter au mieux au corse. Ce travail nous permet de mettre à disposition un modèle capable d’identifier le corse ainsi que 17 autres langues européennes.
Résumé (en anglais)
The constitution of corpora is one of the first priorities faced by less-resourced languages. The emergence of Internet-based resources of increasing size and covering more and more languages may suggest that this issue has been resolved, but this is not the case. Following Caswell et al. (2021), who evaluated several large resources, including one with Corsican content, we conducted an analysis of two corpora including this language: An Crúbadán and W2C. In parallel to a manual evaluation, we considered the possibility of using one or more language identification modules to filter the content of these resources, which turns out to be possible but at the cost of low recall. For this task, we tested and re-trained various systems in order to adapt them to Corsican. This work makes it possible to provide a model allowing the identification of 17 European languages as well as Corsican.
Document
Rank
1