Accueil du site Accueil du site Adhésion Contact Plan du site

Fouille de données textuelles : complexité, algorithmique et passage à l’échelle

2005 Volume 46 Numéro 2.

Direction : Gaël Dias, Simão Melo de Sousa et Maxime Crochemore.
appel_complexite
PASSAGE A L'ECHELLE DU TRAITEMENT AUTOMATIQUE DES LANGUES:
COMPLEXITE, ALGORITHMIQUE ET ARCHITECTURES

NUMERO SPECIAL DE LA REVUE TAL 2005


Date limite de soumission : 05/09/2005



DIRECTION

Gaël Dias, Simão Melo de Sousa et Maxime Crochemore.

DESCRIPTION DU NUMERO

L'emploi globalisé des techniques du Traitement Automatique des Langues (TAL) dans le quotidien des usagers ne se fera que par l'efficacité algorithmique des systèmes proposés. De fait, les défis propres à ce domaine nous ammènent à innover autant du point de vue théorique que de proposer des systèmes qui puissent être également deployés dans un cadre d'utilisation réelle. En effet, l'avènement des ressources gigantesques de la Toile aidant, le TAL doit être capable de répondre aux défis posés par le passage à l'échelle. Ces considérations, loin d'être stériles, définiront son succès ou son échec commercial.

Malheureusement, il n'existe que peu de solutions algorithmiques complètes capables de traiter efficacement, en temps et en espace, les problèmes posés par l'explosion des données disponibles, souvent de l'ordre du Giga octets comme sur la Toile. Jusqu'à présent, peu de domaines se sont préoccupés de la définition d'algorithmes, de structures de données et d'architectures qui permettent des traitements avec des temps de réponse acceptables.

Aujourd'hui, au moment où le TAL se transforme de plus en plus en Ingénierie des Langues, il est opportun de cerner au mieux les limites théoriques des problèmes que soulève cette nouvelle discipline, comme il est important de se préoccuper des différents facteurs qui pèsent sur l'efficacité des systèmes proposés c'est-à-dire leur complexité et leurs algorithmes.

Ainsi, cet appel à proposition vise à fédérer les communautés travaillant ou intéressées par l'algorithmique, l'informatique fondamentale et le passage à l'échelle d'applications du TAL. Dans ce sens, nous retiendrons les contributions allant de la présentation de travaux théoriques à l'implémentation de solutions algorithmiques performantes dans le cadre de logiciels applicables aux conditions de grandes masses de données de textuelles.

LISTE DE SUJETS POSSIBLES


La liste suivante, non exhaustive, énumère divers thèmes pertinents pour cet appel et relatifs aux fondements et aux techniques algorithmiques permettant de traiter de grandes quantités de données textuelles :

  • Structures de données avancées (arbres des suffixes, tableau des suffixes, etc.),
  • Algorithmique avancée (méthodes de recherche, algorithmes de tri, programmation dynamique, etc.),
  • Algorithmique des séquences (recherche approchée, motifs courts, répétitions, etc.),
  • Indexation (recherche, répétitions, hachage, etc.),
  • Alignement (en espace linéaire, sous-quadratique, etc.),
  • Automates (automates finis, automates des suffixes, transducteurs, etc.),
  • Compression (théorie de l'information, décompression rapide, transducteurs de compressions, etc.),
  • Graphes (algorithmique des grands graphes, graphes du web, etc.),
  • Programmation dynamique,
  • Tabulation,
  • Parallélisme et systèmes distribués,
  • Grilles de calcul,
  • Complexité (en espace et en temps, complexité des algorithmes parallèles, etc.),
  • Fondements théoriques.

Nous attendons des soumissions incluant ces techniques dans les domaines classiques du TAL que sont l'analyse morphologique, morpho-syntaxique, syntaxique, sémantique et pragmatique. Nous sommes également intéressés par les applications suivantes:

  • Traitement des Ressources Linguistiques (Corpora, Corpora à Structures non Linéaires),
  • Traitement des Lexiques, Thesaurus, Ontologies,
  • Recherche d'Information,
  • Systèmes de Question-Réponse,
  • Veille Technologique,
  • Extraction d'Information,
  • Fouille de Données Textuelles,
  • Systèmes Intégrés ou Chaînes de Traitement Automatique des Langues,
  • Systèmes Collaboratifs.

LA REVUE


La revue TAL (Traitement Automatique des Langues : http://tal.revuesonline.com/) est une revue internationale éditée depuis 1960 par l'ATALA (Association pour le Traitement Automatique des Langues, http://www.atala.org) avec le concours du CNRS. Elle est publiée et diffusée par les éditions Hermès Lavoisier.

FORMAT

Les articles (25 pages maximum) seront soumis au format PDF. Les feuilles de style sont disponibles en ligne sur le site: http://tal.e-revues.com/appel.jsp

LANGUE

Les articles sont écrits en français ou en anglais. Les soumissions en anglais ne sont acceptées que pour les auteurs non francophones.

CALENDRIER

Date limite de soumission : 05/09/2005

ENVOI DES ARTICLES

Les articles doivent être envoyés par voie électronique à l'adresse suivante: tal2005@di.ubi.pt.

COMITE DE LECTURE SPECIFIQUE

Ricardo Baeza-Yates (Univeristé du Chili, Santiago, Chili)
Tilman Becker (DFKI, Saarbrücken, Allemagne)
Jean Berstel (Université de Marne-la-Vallée, France)
Nieves Brisaboa (Université de la Corogne, Espagne)
Maxime Crochemor (Université de Marne-la-Vallée, France)
Gaël Dias (Université de la Beira Interior, Covilhã, Portugal)
Patrick Gallinari (Université Paris 6, France)
Martin Jansche (Université de Columbia, New York, USA)
Éric Laporte (Université de Marne-la-Vallée, France)
Thierry Lecroq (Université de Rouen, France)
Gabriel Lopes (Nouvelle Université de Lisbonne, Portugal)
Nuno Mamede (INESC-ID, Lisbonne, Portugal)
Mehryar Mohri (Université de New York, USA)
Alexis Nasr (Université Paris 7, France)
Arlindo Oliveira (INESC-ID, Lisbonne, Portugal)
Ted Pedersen (Université du Minnesota, Duluth, USA)
Dominique Revuz (Université de Marne-la-Vallée, France)
André Salem (Université Paris 3, France)
Richard Sproat (Université de l'Illinois, Urbana, USA)
Simão Sousa (Université de la Beira Interior, Covilhã, Portugal)
Mikio Yamamoto (Université de Tsukuba, Japon)





SCALING OF NATURAL LANGUE PROCESSING:
COMPLEXITY, ALGORITHMS AND ARCHITECTURES

SPECIAL ISSUE OF THE TAL JOURNAL 2005

Submission Deadline: 05/09/2005

EDITORS

Gaël Dias, Simão Melo de Sousa and Maxime Crochemore

DESCRIPTION

The global use of Natural Language Processing (NLP) applications depends crucially upon the proposed systems' algorithmic efficiency. Current considerations of how NLP systems will be applied suggest new challenges that require both theoretical innovations as well as systems that can be put to real use. The advent of the Web and its huge resources requires that the field of NLP be increasingly sensitive to the importance of scalability. Such considerations are not sterile academic issues: rather they will define the commercial success or failure of future NLP applications.

Unfortunately, there are but few algorithmic solutions that are sufficiently efficient in both space and time to be able to handle problems that arise from the explosion of the gigabyte-sized data now available on the Web. Until now, only the field of Information Retrieval has been concerned with the definition of algorithms, data structures and architectures that allow treatments with acceptable response times.

Today, as NLP moves more and more towards Natural Language Engineering, it is appropriate to determine the theoretical limits of the problems which this new discipline raises, as well as the factors that relate to system effectiveness, namely complexity and algorithms.

Thus, this Call for Papers aims to bring together communities that are working on or interested in algorithms, theoretical computer science, and scalable NLP applications. To this end, we solicit publications that range from the presentation of theoretical work, to the implementation of powerful algorithmic solutions, as related to software that is capable of dealing with huge textual databases.

LIST OF POSSIBLE SUBJECTS

The following list is non-exhaustive and lists various topics that are relevant to this call, and which relate to fundamental algorithmic techniques that are capable of dealing with large textual databases.

  • Advanced data structures (suffix trees, suffix arrays, etc).
  • Advanced algorithms (search, sorting algorithms, dynamic programming, etc).
  • Sequence Algorithms (search, short patterns, repetitions, etc)
  • Indexing (search, repetitions, hashing, etc).
  • Alignment (linear space, sub-quadratic, etc).
  • Automata (finite-state machines, suffix automata, transducers, etc).
  • Compression (information theory, fast decompression, compression transducers, etc).
  • Graphs (large graph algorithms, Web graphs, etc).
  • Dynamic programming.
  • Tabulation.
  • Distributed and Parallel systems.
  • Grid Computing.
  • Complexity (space/time, complexity of parallel algorithms, etc.).
  • Theoretical Foundations.

We intend to receive submissions including these techniques in the classical domains of NLP i.e. morphology, syntax, semantics and pragmatics. We are also interested by all submissions tackling the following applications:

  • Linguistic Resources Processing (Corpora, Non-linearly Structured Corpora),
  • Lexicon/Thesaurus/Ontology-based NLP,
  • Information Retrieval,
  • Question-Answering Systems,
  • Topic Tracking,
  • Information Extraction,
  • Text Mining,
  • Integrated Systems,
  • Collaborative Systems.

THE JOURNAL

The TAL journal (Traitement Automatique des Langues: http://tal.revuesonline.com/) is an international journal published since 1960 by the French association ATALA (Association pour le Traitement Automatique des Langues: http://www.atala.org) with the collaboration of the CNRS (Centre National de la Recherche Scientifique : http://www.cnrs.fr/). The journal is published and distributed by Hermès Lavoisier.

FORMAT

Submitted papers must be no longer than 25 pages, and must be in PDF format. Style sheets are available online at http://tal.e-revues.com/appel.jsp

LANGUAGE

Papers may be written in French or English. English submissions are accepted only for non French-speaking authors.

IMPORTANT DATES

Submission Deadline: 05/09/2005

SUBMISSION


The papers must be sent electronically to the following address: tal2005@di.ubi.pt.

SCIENTIFIC COMMITTEE

Ricardo Baeza-Yates (Univeristy of Chile, Santiago, Chile)
Tilman Becker (DFKI, Saarbrücken, Germany)
Jean Berstel (University of Marne-la-Vallée, France)
Nieves Brisaboa (University of La Coroña, Spain)
Maxime Crochemore (University of Marne-la-Vallée, France)
Gaël Dias (University of Beira Interior, Covilhã, Portugal)
Patrick Gallinari (University of Paris 6, France)
Martin Jansche (Columbia University, New York, USA)
Éric Laporte (University of Marne-la-Vallée, France)
Thierry Lecroq (University of Rouen, France)
Gabriel Lopes (New University of Lisbon, Portugal)
Nuno Mamede (INESC-ID, Lisbon, Portugal)
Mehryar Mohri (New York University, USA)
Alexis Nasr (University of Paris 7, France)
Arlindo Oliveira (INESC-ID, Lisbon, Portugal)
Ted Pedersen (University of Minnesota, Duluth, USA)
Dominique Revuz (University of Marne-la-Vallée, France)
André Salem (University of Paris 3, France)
Richard Sproat (University of Illinois, Urbana, USA)
Simão Sousa (University of Beira Interior, Covilhã, Portugal)
Mikio Yamamoto (University of Tsukuba, Japan)



Date de dernière mise à jour : 26 septembre 2007, auteur : Béatrice Daille.