Accueil du site Accueil du site Adhésion Contact Plan du site

Typologies de textes pour le traitement automatique

Date : 9 décembre 2006.
Organisation : Maria Zimina-Poirot , Marie-Paule Jacques,Thierry Poibeau, Françoise Gayral (LIPN, France), Patrick Saint-Dizier (IRIT, France) .
Lieu : ENST, 46 rue Barrault, Paris 13ème Salle B310 (accès par le 49 rue Vergniaud).

Depuis quelques années, avec le développement de l’accès aux documents numériques, de nouveaux besoins émergent concernant l’exploitation des documents :
-  besoin de catégoriser les documents par thème, par genre,... pour faciliter la recherche documentaire et regrouper les documents par catégorie,
-  besoin d’isoler des zones de documents plutôt que des documents, pour montrer, par exemple, des parties pertinentes par rapport à une question posée,
-  besoin de naviguer à l’intérieur des documents, pour guider l’utilisateur dans sa recherche,
-  ...

Ces besoins nécessitent d’avoir à la fois une vision globale du document afin de prendre en considération son organisation discursive, sa structuration thématique ou rhétorique,... et aussi une vision « locale » puisque ce sont souvent des marques linguistiques qui permettent de mettre à jour ces différents plans organisationnels.

Du point de vue du traitement automatique de la langue et de la linguistique textuelle, une dynamique de recherche s’est instaurée autour de ces besoins et de ces visions complémentaires avec la journée ATALA « Modéliser et décrire l’organisation discursive à l’heure du document numérique » de juin 2004, le colloque « discours et document » de Caen en juin dernier et l’appel de la revue TAL « Discours et document : traitements automatiques ». La part de « traitement automatique » est très variable suivant les approches.

Une autre communauté scientifique, « apprentissage à partir de textes » est aussi concernée par ces problématiques quand elle s’assigne des tâches de catégorisation automatique, de classification automatique, segmentation automatique de textes... La représentation du texte est souvent extrêmement simplifiée mais les solutions proposées sont implémentées et leur efficacité peut être testée et comparée.

La journée ATALA proposée s’inscrit dans ce cadre général mais souhaite concentrer les exposés sur la notion de typologie textuelle c’est à dire le rattachement d’un document à tel ou tel type de textes (ou genre ou registre, vu la terminologie fluctuante) : manuel technique, texte de loi, constat d’accident, rapport de stage, recommandation médicale, documentation technique, éditorial, article scientifique,... Si cette approche typologique fait l’hypothèse de types de textes définis a priori, l’appel concerne aussi, mais dans une moindre mesure, une typologie a posteriori où les catégories émergent en fonction de l’examen et du regroupement de traits linguistiques ou autres.

Dans cet éventail de recherches allant du plus théorique ou plus pratique, cette journée se veut un lieu d’échange et de discussions entre des chercheurs qui abordent le texte avec des points de vue très divers mais qui envisagent une automatisation des traitements.

Cette journée abordera en particulier les points suivants :
-  quelles mesures de distances pour calculer des proximités/ oppositions entre textes ? Quels facteurs, quels traits (lexical, syntaxique, sémantique, pragmatique) utiliser ?
-  les systèmes de TAL existants utilisent les mêmes outils, les mêmes ressources, réalisent les mêmes traitements quel que soit le type du texte. Est-ce pertinent ? Si non, est-il possible de traiter la circularité apparente : l’efficacité des outils dépend du type de textes mais la détection du type de textes nécessite l’utilisation d’outils ?
-  Les deux façons de définir une typologie a priori (avec des catégories pré-établies de genres, de domaines, de contextes de production) ou a posteriori (où les catégories émergent en fonction de l’examen et du regroupement de traits linguistiques), concordent- elles ?
-  Un texte est-il entièrement d’un certain type ou peut-il comporter des parties relevant chacune de types différents ? Quels moyens de repérage ?
-  En quoi les documents structurés renouvellent la problématique de typologie des textes ?
-  ou toute autre proposition de communication en relation avec les thèmes de la journée.

Les propositions de communication (de 1 à 5 pages) au format WORD ou PDF devront parvenir aux organisateurs pour le 10 novembre 2006.

pour une journée le 9 décembre.

CONTACTS :
-  francoise.gayral@lipn.univ-paris13.fr
-  maria.zimina@lipn.univ-paris13.fr

Comité d’organisation :
-  Maria Zimina-Poirot (LIPN, France)
-  Marie-Paule Jacques (LIPN, France)
-  Patrick Saint-Dizier (IRIT, France)
-  Thierry Poibeau (LIPN, France)
-  Françoise Gayral (LIPN, France)

Comité de lecture :
-  Anne Condamines (ERSS, France)
-  Patrice Enjalbert (GREYC, France)
-  Serge Fleury (SYLED, France)
-  Nicolas Hernandez (GREYC, France)
-  Gabriel Illouz (LIMSI, France)
-  Denise Malrieu (MoDyCO, France)
-  Jean-Luc Minel (MoDyCO, France)
-  Marie-Paule Péry-Woodley (ERSS, France)
-  Horacio Saggion (U. Sheffield, UK)
-  Marina Santini (U. Brighton, UK)

Date de dernière mise à jour : 20 février 2007, auteur : .