LGeRM : Lemmatisation des mots en moyen français

Gilles Souvay* et Jean-Marie Pierrel*
*ATILF/CNRS & Nancy-Université; 44, avenue de la Libération; B.P. 30687; F 54063 NANCY CEDEX; gilles.souvay@atilf.fr, jean-marie.pierrel@atilf.fr
Résumé
Contrairement à la plupart des langues modernes, le moyen français est une langue dont l’orthographe n’est pas encore stabilisée. Il existe de très nombreuses variantes pour un même mot et en conséquence les méthodes classiques de lemmatisation ne peuvent pas s’appliquer. LGeRM (lemmes, graphies et règles morphologiques) propose une solution qui s’appuie sur une base de formes connues lemmatisées et sur un ensemble de règles graphémiques et morphologiques spécifiques de la langue médiévale. Il permet ainsi de faciliter la consultation d’un dictionnaire, l’interrogation et la lemmatisation de textes médiévaux et trouve des applications dans l’édition électronique de manuscrits et la construction automatique de glossaires. Cet outil polyvalent est accessible sur Internet à l’adresse http://www.atilf.fr/dmf
Document
Rank
6