UPERY : un outil d’analyse distributionnelle étendue pour la construction d’ontologies à partir de corpus

Auteurs
Bourigault, Didier
Résumé
Nous présentons un module mettant en oeuvre une méthode d’analyse distributionnelle dite "étendue". L’analyseur syntaxique de corpus SYNTEX effectue l’analyse en dépendance de chacune des phrases du corpus, puis construit un réseau de mots et syntagmes, dans lequel chaque syntagme est relié à sa tête et à ses expansions. A partir de ce réseau, le module d’analyse distributionnelle UPERY construit pour chaque terme du réseau l’ensemble de ses contextes syntaxiques. Les termes et les contextes syntaxiques peuvent être simples ou complexes. Le module rapproche ensuite les termes, ainsi que les contextes syntaxiques, sur la base de mesures de proximité distributionnelle. L’ensemble de ces résultats est utilisé comme aide à la construction d’ontologie à partir de corpus spécialisés.
Mots-clés
analyse distributionnelle
syntagme
syntagme maximal
corpus
relation de dépendance
Document