Accueil du site Accueil du site Adhésion Contact Plan du site

Apprentissage automatique pour le TAL

Volume 50 numéro 3.

Direction : Isabelle Tellier et Mark Steedman.

La revue TAL lance un appel à contribution sur le sujet de l’apprentissage automatique pour le TAL. L’apprentissage automatique (ou apprentissage artificiel) est l’étude des algorithmes qui permettent aux programmes de s’améliorer automatiquement par expérience (définition de Tom Mitchell dans son livre "Machine Learning"). Le domaine a connu ces dernières années un développement considérable, et ses interactions avec le TAL sont de plus en plus étroites et fréquentes.

Du côté des linguistes, les intérêts de ce rapprochement sont nombreux. En effet, la constitution manuelle de ressources est en général longue et coûteuse, et doit être recommencée pour chaque langue différente, et pour chaque sous-domaine spécifique d’une langue. L’apprentissage automatique offre une alternative séduisante, en permettant d’obtenir ou d’améliorer à moindre frais de telles ressources, et de s’assurer qu’elles sont robustes et à large couverture. La démarche inductive, employée depuis longtemps en linguistique de corpus, peut ainsi être opérationnalisée à grande échelle, et ses résultats testés de façon systématique. Quant aux théories formelles de l’apprentissage, elles contribuent aussi à alimenter le débat sur l’acquisition des langues naturelles, récurrent depuis les années 50.

De leur côté, les spécialistes de l’apprentissage automatique voient dans le TAL un domaine d’application privilégié, pourvoyeur de problèmes nombreux et difficiles, et de données en grande quantité. Mais la prudence est souvent de mise quant à l’interprétabilité des résultats obtenus. Les méthodes employées sont de plus en plus fondées sur des mathématiques raffinées, réservées aux spécialistes : dans ce contexte, la linguistique a-t-elle encore son mot à dire ? Quelle confiance un linguiste peut-il accorder au résultat d’un programme d’apprentissage automatique ?

La revue TAL consacre un numéro aux relations entre apprentissage automatique et traitement de la langue, particulièrement dans sa dimension textuelle. Au delà de compte-rendus d’expériences visant à appliquer telle méthode d’apprentissage automatique à tel domaine de la linguistique, nous souhaitons encourager une réflexion plus large sur les enjeux théoriques et méthodologiques de la démarche. Quelle que soit l’approche décrite, un effort devra donc être fait pour expliciter les hypothèses tant linguistiques qu’informatiques des techniques mises en oeuvre.

Les approches de l’apprentissage automatique choisies peuvent être :
-  théoriques, liées à l’apprenabilité/non apprenabilité suivant des critères formels de classes d’objets
-  empiriques, s’appuyant sur un protocole expérimental exploitant des données annotées (apprentissage supervisé) ou non annotées (apprentissage non supervisé)

Les méthodes d’apprentissage mises en oeuvre peuvent être :
-  symbolique (inférence grammaticale, PLI...)
-  à base de modèles probabilistes (génératifs ou discriminants)
-  à base de similarités (voisinages, analogie, "memory-based learning"...)

Les domaines d’applications peuvent être :
-  l’acquisition ou l’amélioration de ressources linguistiques (y compris : automates, grammaires, cadres de sous-catégorisations, ontologies de concepts...)
-  l’analyse de la parole
-  l’annotation de corpus (étiquetage lexical, syntaxique, fonctionnel, thématique, sémantique...)
-  le clustering et la classification de textes (suivant différents critères possibles : auteur, contenu, opinion...)
-  la recherche d’information
-  l’extraction d’information (y compris : extraction et typage des entités nommées)
-  les systèmes questions/réponses
-  le résumé automatique
-  la traduction automatique

Rédacteurs en chef invités :

Isabelle Tellier, LIFO, Université d’Orléans Mark Steedman, ICCS, Université d’Edimbourg, Ecosse

Modalités pratiques :

Les articles sont écrits en français ou en anglais. Les soumissions en anglais ne sont acceptées que pour les auteurs non francophones. Les articles (maximum 25 pages, format PDF) seront envoyés à l’adresse suivante : (isabelle point tellier at univ tiret orleans point fr). Les feuilles de style sont disponibles ici.

Calendrier prévisionnel :
-  01/07/2009 Résumé détaillé (1p)
-  06/07/2009 Date limite de soumission.
-  04/09/2009 Notification aux auteurs
-  02/10/2009 Soumission des versions révisées
-  10/11/2009 Décision finale
-  February 2010 publication en ligne.

Comité de lecture spécifique :

-  Pieter Adriaans, HSC Lab, Université d’Amsterdam, Pays-Bas
-  Massih Amini, LIP6, Paris et ITI-CNRC, Canada
-  Walter Daelemans, CNTS, Université d’Anvers, Belgique
-  Pierre Dupont, Université Catholique de Louvain, Belgique
-  Alexander Clark, Royal Holloway, Université de Londres, Grande-Bretagne
-  Hervé Dejean, Xerox Center, Grenoble
-  George Foster, ITI-CNRC, Canada
-  Colin de la Higuera, Laboratoire Hubert Curien, Université de St Etienne
-  François Denis, LIF, Université de Marseille
-  Patrick Gallinari, LIP6, Université de Paris 6
-  Cyril Goutte, ITI-CNRC, Canada
-  Laurent Miclet, Enssat, Lannion
-  Richard Moot, CNRS, Bordeaux
-  Emmanuel Morin, LINA, Université de Nantes
-  Jose Oncina, PRAI Group, Université d’Alicante, Espagne
-  Pascale Sébillot, IRISA, INSA Rennes
-  Marc Tommasi, LIFL-Inria, Université de Lille
-  Menno van Zaanen, ILK, University of Tilburg, Pays-Bas


Date de dernière mise à jour : 11 juillet 2009, auteur : Rédacteurs en chef.