Objectifs : Apparu à la fin des années 50, tout d’abord dans une optique de traduction automatique, le traitement automatique du langage naturel (TAL) a assez tôt fait l’objet d’applications dans les langues anciennes, en particulier dans le domaine de l’analyse morphologique et pour la réalisation de corpora électroniques. Depuis une quinzaine d’années, avec la généralisation de l’outil informatique et d’internet, les applications du TAL au sens large du terme se multiplient dans les disciplines philologiques. La présente journée d’étude se propose de faire un tour d’horizon de ces pratiques.
Thèmes essentiels :
- Analyse morphologique et/ou syntaxique automatique des langues anciennes ;
- Corpus informatiques (constitution du corpus, recherches, et exploitation du corpus), comme par exemple le projet Perseus ;
- Dictionnaires ;
- Codage des langues ancienne (définition du signe d’écriture, représentation du texte) ; XML, TEI et langues anciennes (formalismes XML pour représenter les documents anciens, structuration de corpus en XML, DTD ou schémas pour les dictionnaires) ;
- Acquisition de textes, OCR, et langues anciennes (reconnaissance de caractères, recherche de mots dans des documents scannés, liens entre corpus d’images et corpus structurés) ;
- Le TAL comme outil pour le philologue (emploi effectif de techniques de TAL en philologie, segmentation, lemmatisation) ;
- TAL et pédagogie des langues anciennes ;
- ...
Organisation : Communications : nous proposons une gamme de participation :
- exposés standard (30mn de présentation, proposition sur 2 pages),
- notes de projet, pour un travail en cours (15mn, texte de 1 page),
- propositions de démo (1 page).
Communications à envoyer à Serge Rosmorduc. Textes en français pour les francophones, ouvert aux participants de tous pays (anglais autorisé).
09h00 - 09h15 | Présentation de la journée | |
09h15 - 09h45 | J. Denooz (U. Liège) | La littérature latine et la banque de données du L.A.S.L.A. |
09h55 - 10h25 | S. Mellet CNRS, (UMR 6039 Bases, Corpus et Langage, Nice) | Le logiciel HYPERBASE-LATIN : un outil de traitement automatique des textes latins lemmatisés et étiquetés |
10h25 - 10h55 | Pause café | |
10h55 - 11h25 | J. Ebeling et G. Cunningham (Oriental Institute , Oxford) | Lemmatising the Electronic Text Corpus of Sumerian Literature |
11h35 - 12h05 | B. Kindt et L. Tuerlinckx (Institut orientaliste, U. Catholique de Louvain) | Traitement automatisé du grec ancien et de l’arabe non classique |
12h15 - 14h00 | PAUSE DÉJEÛNER | |
14H00 - 14h30 | G. Huet (INRIA) | Une base de donnée sur le Sanskrit |
14h40 - 15h10 | F. Barthélémy (INRIA) | Un Analyseur morphologique pour les verbes forts en Akkadien |
15h20 - 15h40 | Pause café | |
15h40 - 16h00 | E. J. M. (Smith Dept. of Linguistics, U. of Toronto) | Using Optimality Theory to Learn Elamite Phonology |
16h10 - 16h40 | S. Rosmorduc (équipe langue et littérature égyptienne, EPHE) | Translittération automatique de l’égyptien hiéroglyphique dans le logiciel tksesh |
16h50 - 17h20 | J.-F. Luc, S. Bruel, R. Mugnaioni (Institut de Recherche et d’Études du Monde Arabe et Musulman) | TAL et Assyriologie : outils développés à l’IREMAM |
17h20 - 17h40 | Table ronde |