Accueil du site Accueil du site Adhésion Contact Plan du site

Du bruit dans le signal : gestion des erreurs en traitement automatique des langues

2012 Volume 53 Number 3.

Direction : Robert Dale et François Yvon.

La langue que les applications de traitement automatique des langues ont à traiter ressemble assez peu aux exemples parfaitement grammaticaux que l’on rencontre dans les livres de grammaire. Dans l’usage quotidien, les énoncés à traiter se présentent sous une forme imparfaite : les textes dactylographiés contiennent des erreurs de saisie, ainsi que de fautes d’orthographe et de grammaire ; les énoncés oraux correspondent souvent à des phrases incomplètes et contiennent des disfluences ; les sorties des systèmes d’OCR contiennent de multiples confusion entre caractères, et celles des systèmes de reconnaissance vocale contiennent des transcriptions inexactes de ce qui a réellement été prononcé.

Le bruit est donc inhérent au données langagières et ignorer cette réalité ne peut que nuire à la qualité de nos systèmes de traitement. Pour certaines applications, l’enjeu est de développer des mécanismes robustes vis-à-vis de ces erreurs. Par exemple, un système de dialogue pourra utiliser des mesures de confiance portant sur les hypothèses de reconnaissance vocale pour décider s’il doit demander à l’utilisateur de répéter. Pour d’autres applications, il sera nécessaire de faire appel à des techniques de correction automatique des erreurs ; ainsi, par exemple, un système d’OCR pourra post-traiter les textes avec des modèles de correction contextuels pour valider l’orthographe des mots.

Ce numéro spécial vise à rassembler des contributions portant sur la gestion des erreurs en traitement des langues. De nombreux sous-domaines du TAL ont besoin de prendre en compte le bruit et les erreurs dans les signaux linguistiques qu’ils considèrent, mais il est rare que des chercheurs issus de ces diverses communautés aient l’occasion de comparer leurs méthodes et leurs résultats. Notre ambition est de mettre en perspective des travaux issus de ces différents domaines de manière à encourager la fertilisation croisée des idées.

Pour ce numéro spécial, nous considérons donc comme pertinent tout travail touchant au traitement automatique de données bruitées. Les sous-domaines les plus développés sont probablement la correction orthographique, et, dans une moindre mesure, la correction grammaticale ; aucun de ces problèmes n’est pourtant complètement résolu, et la situation est encore moins satisfaisante quand on considère des erreurs plus profondes, touchant par exemple au style ou à l’organisation du discours. Les traitements robustes, qui visent à extraire le maximum d’informations utiles d’entrées potentiellement erronées, seront aussi favorablement considérés, que ces entrées se présentent sous forme écrite ou orale ; plus généralement, les études portant sur les stratégies de réparation d’erreur, par exemple dans les systèmes de dialogue ou d’autres systèmes analogues, sont également pertinentes pour ce numéro.

Nous invitons donc les contributions portant sur tout aspect relatif au traitement des erreurs en TAL, et en particulier (liste non exclusive) :
-  correction automatique de l’orthographe et de la grammaire
-  erreurs sémantiques et logiques
-  correction d’erreurs dans le style ou l’organisation du discours
-  correction d’erreurs "artificielles" (OCR, reconnaissance vocale, etc.)
-  correction automatique de requêtes à des moteurs de recherche
-  acquisition, annotation et analyse d’erreurs dans les textes réels
-  corpus d’erreurs
-  traitement des erreurs dans les langages contrôlés
-  erreurs en apprentissage des langues
-  erreurs de performance
-  normalisation d’écrits non standards
-  TAL robuste
-  traitement de parole disfluente
-  traitement des erreurs en reconnaissance vocale
-  apprendre avec des données bruitées
-  mesures de la gravité des erreurs
-  mesures de confiance
-  fouille et analyse d’erreurs
-  auto-évaluation et diagnostic d’erreurs

ÉDITEURS INVITÉS
-  Robert Dale (Macquarie University, Australia)
-  François Yvon (LIMSI/CNRS and Univ. Paris Sud, France)

COMITÉ SCIENTIFIQUE (TBA)

DATES IMPORTANTES
-  soumission des contributions : 15 octobre 2012
-  première notification aux auteurs : 15 décembre 2012
-  date limite pour les versions révisées : 1er février 2013
-  décisions finales : 15 avril 2013
-  versions finales : 15 juin 2013
-  publication : été 2013

LE JOURNAL

Depuis 40 ans, TAL (Traitement Automatique des Langues) est un journal international publié par l’ATALA (Association pour le Traitement Automatique des Langues) avec le soutien du CNRS. Depuis quelques années, il s’agit d’un journal en ligne, des versions papier pouvant être obtenues sur commande. Ceci n’affecte en rien le processus de relecture et de sélection.

INFORMATIONS PRATIQUES

Les articles (25 pages environ, format PDF) doivent être déposés sur la plateforme http://tal-53-3.sciencesconf.org/ Les feuilles de style sont disponibles sur le site web du journal (http://www.atala.org/-Revue-TAL). Le journal ne publie que des contributions originales, en français ou en anglais.


Date de dernière mise à jour : 5 avril 2013, auteur : .