Accueil du site Accueil du site Adhésion Contact Plan du site

Traitement automatique des entités nommées en arabe : détection et traduction

Souhir Gahbiche-Braham, Hélène Bonneau-Maynard, François Yvon

Université Paris Sud & LIMSI-CNRS BP 133 - 91403 ORSAY Cedex - France souhir@limsi.fr, hbm@limsi.fr, yvon@limsi.fr

La détection des entités nommées (EN) en langue arabe est un prétraitement potentiellement utile pour de nombreuses applications du traitement des langues, en particulier pour la traduction automatique. Cette tâche représente un sérieux défi, compte tenu des spécificités de l’arabe. Dans cet article, nous présentons une étude détaillée des entités nommées en arabe dans le cadre d’une application de traduction automatique statistique. Nous présentons notre système de détection des EN en arabe (NERAr), dans sa configuration de base, puis dans ses diverses évolutions. Dans notre architecture, NERAr est utilisé comme un prétraitement apportant des connaissances externes au système de traduction. Plusieurs stratégies d’intégration de ces connaissances sont considérées ; dans la configuration la plus favorable, une évaluation automatique, corroborée par des analyses manuelles, permet d’observer une légère amélioration de la traduction des EN et une réduction des erreurs induites par les mots inconnus.


Télécharger:
Fichier PDF
Souhir Gahbiche-Braham, Hélène Bonneau-Maynard, François Yvon
378.8 ko

TAL Volume 54 2013 . 2. Entités Nommées

Date de dernière mise à jour : 5 décembre 2014, auteur : Rédacteurs en chef.