Sur l’interface lexique-grammaire et les lexiques syntaxiques

Date limite des soumissions : 23 février.

Ce projet de journée concerne le lexique en tant que composante d’un modèle linguistique formel. Il envisage donc essentiellement le lexique dans son interfaçage avec une grammaire. Nous excluons les lexiques morphologiques (mettant en relation formes flexionnelles et lemmes) pour lesquels les standards sont mieux établis et davantage de ressources libres existent, pour nous concentrer sur les lexiques syntaxiques et sémantiques.

Les entrées de ces lexiques sont les unités lexicales de la langue, y compris les locutions et collocations. Le lexique sémantique contient la description des sens des unités lexicales, par exemple par l’intermédiaire d’une décomposition en sèmes ou d’une définition formalisée. Le lexique syntaxique contient les particularités syntaxiques des unités lexicales, du point de vue de l’ordre des mots ou de la compatibilité avec des constructions syntaxiques particulières, et en particulier les informations concernant les caractéristiques syntaxiques des arguments (la sous-catégorisation). Les deux lexiques sont fortement liés, notamment à travers la délimitation des unités lexicales et des arguments syntaxiques et sémantiques de ces unités lexicales.

Sans exclure le reste de la communauté scientifique, la journée est surtout tournée vers la communauté francophone et vise à inventorier les ressources disponibles pour le français et à définir des formats d’échange pour les lexiques (et les grammaires). La communauté francophone ne dispose pas aujourd’hui de lexiques syntaxiques ou sémantiques librement accessibles et interfacés avec une grammaire. Il existe néanmoins de nombreuses ressources développées pour le français, souvent pionnières au niveau international, comme le lexique-grammaire initié par Maurice Gross et maintenant développé par l’IGM, le Dictionnaire Explicatif et Combinatoire, initié par Igor Mel’cuk et développé par l’OLST ou le Trésor de la Langue Francaise Informatisé développé par l’ATILF.

Nous nous fixons plusieurs objectifs. Sur le plan théorique, il s’agit d’évaluer la qualité des lexiques actuels, de réfléchir sur le type d’informations que doivent contenir ces lexiques et surtout de proposer un encodage de ces informations qui les rendent utilisables par une vaste panoplie de formalismes. Des travaux de normalisation en cours, comme le sous-comité RNIL « Lexiques Pour Le Tal » dans le cadre de la définition de la norme LMF (Lexical Markup Framework ISO WD 24613), montrent qu’un travail théorique préalable est nécessaire, lequel travail ne peut être mené sans une réflexion globale sur le modèle linguistique et la façon dont lexique et grammaire s’interfacent. Outre l’interfaçage avec la grammaire, le développement de lexiques syntaxiques et sémantiques pose la question de l’organisation des données à l’intérieur du lexique (par exemple par un découpage en classes syntaxiques et un graphe d’héritage de propriétés associées aux classes) et donc de la « grammaire » du lexique (ou métalexique).

Sur le plan pratique, il s’agit d’abord fédérer les différents projets de développement de modèles linguistiques et tout particulièrement les projets de développement de lexiques syntaxiques et sémantiques, qui constituent la tâche la plus lourde. Pour pouvoir proposer des modèles du français à large couverture, il est nécessaire d’œuvrer au partage des ressources actuelles.

Thèmes possibles pour une proposition de communication :

  • présentation de ressources existantes : lexiques syntaxiques et sémantiques, et éventuellement grammaires (si la présentation est orientée vers l’interfaçage avec le lexique)
  • standardisation et normalisation des lexiques syntaxiques et sémantiques (et éventuellement des grammaires)
  • travaux théoriques sur la pertinence de la distinction lexique/grammaire ou sur l’interface lexique-grammaire

Proposition de communication orale (environ 30 mn) : deux à quatre pages.

Proposition de démo : une ou deux pages présentant les caractéristiques de la ressource (architecture, couverture, type d’information, etc.) et un exemple d’entrée lexicale.

Adressez vos propositions à Sylvain Kahane en fichier pdf attaché.

Date limite de soumission : 23 janvier.

Notification aux auteurs : 13 février.

Date de la journée : 12 mars.

Date
12 mars 2005
Lieu

ENST
46, rue Barrault
75013 Paris
France

E-mail de contact
sk@ccr.jussieu.fr
Organisation
Sylvain Kahane