Workshop et Journée ATALA : CRF pour le TAL
25-26 mars 2010 à Telecom ParisTech
http://www.telecom-paristech.fr/en/...
Thème
Les CRF ("Conditional Random Fields" ou "Champs Markoviens Conditionnels") sont une famille de modèles graphiques discriminants introduits récemment (Lafferty, McCallum et Pereira 2001, Sutton et McCallum 2006). Ils permettent d’apprendre à annoter des données, en se basant sur un ensemble d’exemples déjà annotés. Les CRF ont le plus souvent été utilisés dans le domaine du TAL, pour étiqueter des séquences d’unités linguistiques. Ils ont ainsi donné d’excellents résultats (souvent les meilleurs) pour la reconnaissance d’entités nommées (McCallum et Li, 2003), l’extraction d’informations (Pinto et al., 2003), l’étiquetage en partie de discours (Altun et al., 2003) ou l’analyse syntaxique peu profonde (Sha et Pereira, 2003). Ils peuvent aussi être employés pour l’étiquetage de données structurées, comme les corpus arborés (Cohn et Blunsom 2005, Jousse 2007, Moreau et al 2009, Moreau et Tellier 2009) et inspirer la conception de nouveaux analyseurs syntaxiques (Finkel, Kleeman & Manning 2008) .
Le projet ANR CRoTAL (Conditional Random Fields pour le TAL), qui a débuté en 2008, a pour but d’étudier les CRF, dans leurs dimensions à la fois théoriques et pratiques. L’objectif de ces journées est de rendre compte de ses premiers résultats auprès de la communauté du TAL, et de faire le point sur les travaux en cours utilisant les CRF. Il est ouvert à tous, qu’ils aient ou non participé au projet CRoTAL :
- La première journée prendra la forme d’une série de "tutoriaux" assurés par les membres du projet, portant sur la théorie des CRF, mais aussi sur l’utilisation de bibliothèques logicielles existantes pour les appliquer sur des données. Les participants seront invités à proposer des corpus qu’ils souhaitent traiter avec des CRF.
- Le deuxième jour sera consacré à des exposés scientifiques, parmi lesquels celui d’Andrew McCallum, un des inventeurs des CRF, et d’autres invités. Il se déroulera dans le cadre d’une journée ATALA ouverte à soumissions.
Les journées seront gratuites, des bourses de l’ATALA seront disponibles pour permettre à des étudiants provinciaux de financer leur transport et leur logement.
Références bibliographiques :
Altun Y. , Johnson M. & Hofmann T. (2003). Investigating loss functions and optimization methods for discriminative learning of label sequences. In Proceedings of EMNLP.
Cohn T. & Blunsom P. (2005). Semantic role labelling with tree conditional random fields. In (Carreras & Marquez, 2005).
Finkel J. R., Kleeman A. & Manning C. D. (2008). Efficient, Feature-based, Conditional Random Field Parsing, Proceedings of ACL/HLT-2008, pp. 959-967.
Jousse F. (2007). Transformations d’Arbres XML avec des Modèles Probabilistes pour l’Annotation, thèse de l’Université Charles de Gaulle - Lille 3.
Lafferty J . , McCallum A. & Pereira F. (2001). Conditional random fields : Probabilistic models for segmenting and labeling sequence data. In Proceedings of ICML’01, p. 282-289.
McCallum A. & Li W. (2003). Early results for named entity recognition with conditional random fields. In Proceedings of CoNLL 2003.
Moreau E. & Tellier I . (2009). The crotal srl system : a generic tool based on tree-structured crf. In proceedings of CoNNL 2009.
Moreau E., Tellier I., Balvet A., Laurence G., Rozenknop A. & Poibeau T. : Annotation fonctionnelle de corpus arborés avec des Champs Aléatoires Conditionnels, TALN 2009, Senlis.
Sha F. & Pereira F. (2003). Shallow parsing with conditional random fields. In Technical Report CIS TR MS-CIS-02-35, University of Pennsylvania, 2003.
Sutton C. & McCallum A. (2006). An Introduction to Conditional Random Fields for Relational Learning, In L. Getoor & B. Taskar, Eds., Introduction to Statistical Relational Learning. MIT Press.
Conférenciers invités :
- Andrew McCallum, university of Massachussets, actuellement chercheur invité à Xérox Grenoble
- Phil Blunsom, university of Oxford
- Trevor Cohn , university of Sheffield
- Thierry Paquet, université de Rouen
Soumission :
Les soumissions sous la forme de résumés de 2p au format pdf devront être envoyées à : isabelle.tellier@univ-orleans.fr
date limite de soumission : 21 février 2010
date de notification : 8 mars 2010
versions finales : 22 mars 2010
Comité de lecture :
- Alexandre Allauzen, LIMSI et université Paris 11
- Olivier Cappé, Telecom ParisTech
- Pascal Denis, INRIA, projet Alpage
- Erwan Moreau, LIPN et université Paris 13
- Thierry Paquet, LITIS, université de Rouen
- Antoine Rozenknop, LIPN et université Paris 13
- Isabelle Tellier, LIFO et université d’Orléans
- Marc Tommasi, LIFL Inria-Lille-Nord Europe et université Lille3
- Guillaume Wisniewski, LIMSI et université Paris 11
- François Yvon, LIMSI et université Paris 11 »
Comité d’organisation :
- responsable : Isabelle Tellier, LIFO, université d’Orléans
- Thomas Lavergne, LIMSI-CNRS
- Antoine Rozenknop, LIPN et université Paris 13
Jeudi 25 mars, amphi B310 : tutoriels (en français) sur les CRF
Aucun pré-requis n’est nécessaire pour suivre cette journée. Le matin sera consacré à des cours d’introduction, l’après-midi à des TD sur machine. Les participants sont invités à venir avec un ordinateur portable sur lequel sera préalablement installé le logiciel crf++ :
http://crfpp.sourceforge.net/.
Les enseignants auront à disposition des corpus d’exemples sur lesquels travailler. Si vous avez vous-même un corpus et une tâche à tester, précisez-le lors de votre inscription.
- 09:15-09:30 : accueil
- 09:30-10:30 : Introduction aux CRF (I. Tellier)
- 10:30-11:00 : pause
- 11:00-11:45 : Entraînement et Optimisation (F. Yvon)
- 11:45-12:30 : Inférence (M. Tommasi)
- 12:30-14:00 : Lunch
- 14:00-15:00 : Travaux Pratiques-I (T. Lavergne, N. Sokolovska)
- 15:00-16:00 : Travaux Pratiques-II (S. Taalab, S. Billot)
- 16:00-16:30 : Pause
- 16:30-17:30 : Travaux Pratiques-III : XCRF ou données perso (E. Moreau, J.P. Prost)
Vendredi 26, amphi Thevenin : journée ATALA
Programme-des...
Cette deuxième journée sera consacrée aux perspectives de recherche actuelles sur les CRF pour le TAL.
- 09:00-09:15 : Welcome
- 09:15-10:15 : invited 1 : Scaling Conditional Random Fields using Error Correcting Output Coding (Trevor Cohn)
- 10:15-10:35 : Morpho-syntactic labelling of an oral corpus by decomposing labels (I. Tellier, I. Eshkol, S. Taalab, S. Billot)
- 10:35-10:55 : Utilisation des CRFs pour la segmentation événementielle des textes (J.L. Ludovic, R. Besançon, O. Ferret)
- 10:55-11:15 : Pause
- 11:15-11:35 : Modèles discriminants mot à mot (A. Allauzen, G. Wiesniewski)
- 11:35-12:35 : invited 2 : Conditional Undirected Graphical Models in Machine Translation (Phil Blunsom)
- 12:35-14:00 : lunch
- 14:00-15:00 : invited 3 : Markov and Discriminative Random Fields applied to Information Extraction in Document Images (Thierry Paque)
- 15:00-15:20 : Annotation de corpus arborés avec XCRF : problèmes et solutions envisagées (E. Moreau)
- 15:20-15:45 : pause
- 15:45-16:45 : invited 4 : Probabilistic Programming via Imperatively Defined Factor Graphs (Andrew McCallum)
- 16:45-17:05 : Blockwise Coordinate descent for Elastic Net Penalized CRFs (N. Sokoloska)
- 17:05-17:25 : Implementation efficace des modèles CRFs linéaires (T. Lavergne)
Inscription
L’inscription est gratuite, il suffit d’envoyer avant le 18 mars un mail à lavergne-AT-limsi-POINT-fr en précisant : - si vous venez le 25 et/ou le 26 mars - si vous avez un corpus et une tâche d’annotation à tester sur celui-ci
Vous retrouverez toutes ces informations (et d’autres) sur le site : http://crotal.gforge.inria.fr/wiki/...
Voir : Le site de CROTAL
Telecom ParisTech
46 rue Barrault
75013 Paris
France