Accueil du site Accueil du site Adhésion Contact Plan du site

Des ressources sémantiques existantes à un FrameNet français ? (Contre-)arguments, ressources, methodes et outils

Date : 13 mai 2006.
Organisation : Susanne Alt (ATILF), Guillaume Pitel (LORIA).

Lieu : ENST, 46 rue Barrault, Paris 13ème (accès par le 49 rue Vergniaud)

Dates importantes

* Date de la journée : 13 mai 2006 * Date limite de soumission : 13 mars 2006 * Date de notification aux auteurs : 5 avril 2006 * Date pour les versions finales : 26 avril 2006

Contexte

Actuellement, l’anglais est la seule langue dotée d’un éventail de ressources sémantiques à large couverture, librement accessibles et représentant différentes approches théoriques et méthodologiques : parmi celles à fort impact pour le TAL, citons WordNet et FrameNet. Le premier (115000 synsets, 203000 entrées lexicales) a été développé à partir de 1985 en se fondant sur une théorie inspirée des recherches en psychologie. Le second (8900 entrées, 620 cadres, 130000 exemples annotés) est fondé sur la sémantique des cadres ("frame semantics") et a pour objectif de documenter la combinatoire syntaxique et sémantique pour chacun des sens d’une entrée lexicale à travers une annotation manuelle d’exemples choisis dans des corpus sur des critères de représentativité lexicographique. Les annotations sont ensuite synthétisées automatiquement dans des tables, qui résument pour chaque mot les cadres avec leur actants sémantiques et arguments syntaxiques. La totalité des outils et données résultantes - la description et la hiérarchisation des cadres et des actants sémantiques (620 cadres), la description des unités lexicales (8900 entrées) ainsi que la base des exemples annotés (130000 phrases) - est distribuée librement et fournit un point de départ intéressant pour des développements sémantiques en TAL, tels que l’étiquetage sémantique, la recherche d’information, l’inférence pour la compréhension automatique de textes ou la résolution d’anaphores.

Au vu de l’importance de telles ressources lexico-sémantiques non seulement pour le TAL, mais plus largement en sémantique des langues naturelles dans un perspective comparative, des initiatives de constitution de bases similaires ont vu le jour pour d’autres langues. A côté des réseaux sémantiques inspirés de WordNet (BalkanNet et EuroWordNet), des initatives partant du FrameNet anglais sont apparues, notamment pour l’espagnol, le japonais, le tchèque, le chinois et l’allemand. Ces initiatives expérimentent différentes approches : quasi reprise à l’identique de la chaîne éditoriale, induction du lexique à partir d’une annotation exhaustive d’un corpus de référence, approches statistiques ou symboliques à partir de corpus parallèles ou traduction du corpus des exemples anglais et appariement des cadres. Le choix parmi ces approches se fait toujours en fonction des données initialement disponibles (corpus bruts ou annotés syntaxiquement, qualité et taille de lexiques mono- ou bilingues) et se traduit différemment en termes d’investissement et de qualité lexicographique des ressources résultantes.

Notre proposition repose sur la conviction que l’absence de ressources sémantiques comparables - c’est-à-dire librement accessibles, de bonne qualité lexicographique, suffisamment structurées pour être exploitables et de large couverture - risque à moyen terme de pénaliser l’avancée du TAL de l’espace francophone. Actuellement, aucune des ressources sémantiques dont nous disposons ne remplit tous ces critères : à titre d’exemple, le DiCo est de bonne qualité lexicographique et suffisamment structuré, mais ne présente pas pour l’instant, une couverture suffisante. Le TLFi couvre une large partie du lexique français, mais les informations sémantiques sont difficilement exploitables dans leur structuration actuelle. L’acquisition automatique de connaissances sémantiques à partir de corpus peut être une piste intéressante à explorer, mais dans l’état actuel des choses, les travaux dans ce domaine restent majoritairement orientés vers des domaines techniques particuliers et sont souvent conduits dans une perspective d’acquisition terminologique ou ontologique. Par ailleurs, en l’absence de ressources de référence, leur évaluation n’est pas aisée. Pour l’instant, les ressources obtenues par des approches endogènes ne sont donc pas encore à considérer comme concurrentes aux ressources dictionnairiques, mais plutôt comme complémentaires.

Appel à contributions

Dans l’optique de constituer des ressources sémantiques pour le Français qui soit pérennes et évolutives, de bonne qualité linguistique et comparables avec des ressources existantes pour l’anglais, au moins deux projets s’inspirant du FrameNet anglais sont actuellement en cours ou en préparation : le projet FR.FrameNet (collaboration ATILF/LORIA, ICSI Berkeley et Université de Saarbrücken) qui évalue les ressources et méthodologies pour un FrameNet français ( http://libresource.inria.fr/projects/framenet/ ) ; le projet "Romance FrameNet" qui vise à la construction parallèle d’un lexique sémantique pour les principales langues romanes. Dans ce cadre, nous souhaitons ouvrir la discussion plus largement à la communauté francophone (de TAL et de sémantique) lors d’une journée d’étude qui fasse le point sur les (contre-)arguments théoriques et pratiques concernant un FrameNet français. D’un point de vue théorique, nous invitons des contributions sur les fondements de la sémantique des cadres et/ou son articulation avec des approches alternatives ou complémentaires. D’un point de vue pratique, nous invitons des contributions sur les ressources, outils et méthodes pour la construction de ressources sémantiques et leur (im)possible articulation avec les bases de données constituant le FrameNet. Ces contributions pourraient par exemple porter sur :

* les ressources sémantiques du Français : lexiques et corpus ; * les méthodes et outils d’acquisition automatique d’informations sémantiques à partir de corpus ou de lexiques ; * les techniques de projection d’informations sémantiques dans des corpus alignés ; * le positionnement de la sémantique des cadres ("frame semantics") par rapport à d’autres approches théoriques (lexique génératif, sémantique différentielle, sémantique compositionnelle) ; * les scénarios d’utilisation et d’interfaçage d’un lexique de type FrameNet dans des applications TAL ; * des études de cas lexico-sémantiques appliquées au français (cf. les travaux de S. Atkins pour l’anglais). Comité de Programme

* Katrin Erk (Université de Saarbrücken) * Joseph Ruppenhofer (ISCI, Berkeley) * Pierrette Bouillon (ISSCO) * Jean Véronis (DELIC) * Guillaume Pitel (LORIA) * Susanne Alt (ATILF)

Instructions pour la soumission

Les auteurs sont invités à soumettre leurs articles portant sur les thématiques abordées par cette journée d’étude. Les articles devront être formatés selon le style des conférences TALN (modifié en enlevant les informations relatives à la conférence) et ne devront pas être anonymes. Les articles soumis devront faire environ 6 pages. La langue officielle de l’atelier est le Français, mais il est possible de soumettre un article en Anglais si aucun des auteurs ne parle le Français. Les fichiers décrivant le style TALN 2006 sont disponibles ici : http://www.taln.be/index.php ?lang=fr&page=96

Les articles devront être envoyés en format PDF, au plus tard le 13 mars 2006 à salt@atilf.fr et Guillaume.Pitel@gmail.com

Voir : Site Inria
Date de dernière mise à jour : 17 février 2006, auteur : .