Wei Wang*, Romaric Besançon*, Olivier Ferret* et Brigitte Grau**
*CEA, LIST, Laboratoire Vision et Ingénierie des Contenus 91191 Gif-sur-Yvette Cedex, France wei.wang@lip6.fr, romaric.besancon,olivier.ferret@cea.fr
**LIMSI, UPR-3251 CNRS-DR4, Bât. 508, BP 133, 91403 Orsay Cedex; brigitte.grau@limsi.fr
Résumé
Cet article se situe dans le cadre de l’extraction d’information non supervisée en domaine ouvert en se concentrant sur l’extraction et le regroupement à large échelle de relations entre entités nommées de type non défini a priori. L’étape d’extraction combine l’utilisation de critères simples mais efficaces et une procédure de filtrage à base d’apprentissage. L’étape de regroupement organise quant à elle les relations extraites pour en caractériser le type selon une stratégie multiniveau permettant de prendre en compte à la fois un volume important et des critères de regroupement élaborés. Les évaluations menées montrent que cette approche a la capacité d’extraire des relations avec une bonne précision et de les grouper selon leurssimilarités sémantique et thématique.
Résumé (en anglais)
This article takes place in the context of unsupervised information extraction in opendomain and focuses on the extraction and the clustering at a large scale of relations betweennamed entities without defining their type a priori. The extraction step combines the use of basicbut efficient criteria and a filtering procedure based on machine learning. The clustering steporganizes extracted relations into clusters to characterize their type according to a multi-levelstrategy that takes into account both large volumes of relations and sophisticated clusteringcriteria. Experiments show that our approach is able to extract relations with a good precisionand to organize them according to their semantic and topical similarity.
Paru dans
Document
Rank
3