Accueil du site Accueil du site Adhésion Contact Plan du site
Cinquantenaire de l’ATALA - 23 juin 2009

XIP, FactSpotter et Sybille

Démonstration du Xerox Research Center Europe - Frédérique Segond

Xerox Incremental Parser (XIP)

Le formalisme de XIP est à la croisée de nombreuses théories linguistiques. Il emprunte par exemple à HPSG (Head Phrase Structure Grammar) sa riche représentation en catégories et en traits ainsi que son mécanisme de règles de domination immédiate couplées à des règles de précédence linéaire (ID/LP). Mais, comme l’ont montré les différentes expériences d’écriture de grammaires formelles, une seule forme de règles est rarement suffisante pour traiter l’ensemble des phénomènes linguistiques.

XIP s’est donc enrichi au fur et à mesure des années de types nouveaux de règle pour traiter des cas particuliers que le formalisme initial rendait difficile à décrire. XIP offre ainsi des règles hors-contextes, des règles de désambigüisation catégorielle, des règles de manipulation d’arbre proche de TAG ainsi que des règles extrayant ou manipulant les dépendances sous la forme d’expression Booléenne.

L’ensemble de ces règles est réparti par le linguiste en couches numérotées, qui définissent l’ordre d’application de celles-ci sur la phrase. L’application d’une règle est effectuée une fois pour toute. Si aucune règle ne peut s’appliquer dans une couche donnée, le moteur passe simplement à la couche suivante sans qu’aucun mécanisme de backtracking ne soit engagé.

Contact : Frederique Segond

FactSpotter

FactSpotter modifie la recherche traditionnelle en rajoutant une dose précieuse de compréhension de la nature des mots et des termes présents dans les documents. Cela permet de naviguer à travers de grosses collections de documents en se concentrant sur la nature des éléments que l’on recherche. FactSpotter analyse d’abord l’ensemble des textes qu’il doit indexer en utilisant les grammaires XIP qui permettent d’examiner finement le contenu des textes. FactSpotter intègre aussi un algorithme de coréférence qui lie entre eux les pronoms et les noms dans un document.

SYBILLE (CELI FRANCE utilisant XEROX Incremental Parser)

La démonstration est centrée autour de l’opinion mining et l’analyse de sentiments. L’analyse de sentiments est faite par le biais de grammaires manuellement configurées. En particulier une première couche d’analyse de dépendances générique du français a été enrichie avec une couche sémantique dévouée spécialement à l’identification d’opinions et de sentiments. La démo se focalise sur l’extraction d’opinions sur des imprimantes et montre le résultat de l’analyse d’environ 100.000 messages de différents forums et groupes ayant comme sujet les ordinateurs. Afin d’améliorer l’utilisation et la navigation, les résultats de l’analyse ont été intégrés dans un système de navigation basé sur des facettes (et sur la technologie RDF) de source publique développé au Massachussets Institute of Technology.

Lien vers CELI FRANCE



Date de dernière mise à jour : 1er juillet 2009, auteur : Marie-Laure Guénot.