Accueil du site Accueil du site Adhésion Contact Plan du site

Le Web comme ressource pour le TAL

Date : 20 février 2006.
Organisation : Nuria Gala (DELIC), Gregory Grefenstette (CEA).
Lieu : ENST 46 r Barrault, 75634 Paris Cedex 13 ou 49 rue Vergnaud, 75 013 Paris.

Date de la Journée : 11 mars 2006

Conférencier Invité : Adam Kilgarriff, ITRI, University of Brighton

Date Limite de Soumission : 20 janvier 2006
Date de Notification aux Auteurs : 24 février 2006
Date pour les Versions Finales : 7 mars 2006

Objectifs

L’utilisation du World Wide Web comme grande base d’exemples, pour différentes tâches liées au traitement automatique du langage, est une idée exploitée depuis peu. On peut citer les travaux de [Grefenstette 99] pour la traduction de noms composés, ceux de [Jacquemin et Bush 00] pour l’acquisition d’entités nommées, ceux de [Banko, Brill, Dumais et Lin 02] pour la réponse aux questions, ou encore ceux de [Volk 01] ou [Gala 03] pour la désambiguïsation du rattachement prépositionnel. Tous ces travaux, ainsi que d’autres plus récents, démontrent l’utilité du Web pour différentes tâches linguistiques, montrant une amélioration des résultats bien au-delà de ceux obtenus avec des ressources plus petites. Ceci, en dépit des critiques sur la qualité des données du Web. Cette journée ATALA donnera une vision générale des recherches actuelles qui utilisent le Web comme ressource pour différentes tâches liées au traitement automatique et se situera, aussi, dans la lignée d’autres événements scientifiques faisant preuve de l’essor de la thématique autour du Web comme ressource : Workshop on Web as a Corpus, Corpus Linguistics 05 ; Workshop on Deep Lexical Acquisition, ACL-SIGLEX 05 ; et des sessions sur l’analyse de texte dans la 14e International World Wide Web Conference WWW’2005.

Thèmes de la journée

La journée commencera avec un conférencier invité (Adam Kilgarriff) qui donnera une perspective globale des travaux en cours ainsi que des possibilités offertes par le Web. La journée se poursuivra par des exposés et démos parmi les thèmes suivants :
-   construction de corpus à partir du web
-   outils, interfaces, etc. de « butinage du web » (Web crawling) à des fins linguistiques
-   création d’ontologies et de bases terminologiques à partir du web
-   extraction de connaissances
-   utilisation du web dans des systèmes question-réponse
-   indexation et extraction d’information à partir de grandes collections de données
-   quantité et la qualité des données disponible sur le Web
-   exploitation de données bruitées

Cette journée montrera aussi des applications utilisant ces données et pourra traiter d’autres aspects du WWW comme ressource linguistique. Organisation
-   communications orales (environ 30mn de présentation, proposition sur deux à quatre pages),
-   démonstrations (une ou deux pages présentant les caractéristiques de la ressource : architecture, couverture, type d’information, etc.)

Les propositions seront à envoyer à Nuria Gala (nuria.gala@up.univ-aix.fr) au plus tard le 20 janvier (textes en français pour les francophones, ouvert aux participants de tous les pays -anglais autorisé). Les résumés seront publiés après la Journée sur le site de l’ATALA (http://www.atala.org/rubrique.php3 ?id_rubrique=2).

Date de dernière mise à jour : 9 janvier 2006, auteur : .