Accueil du site Accueil du site Adhésion Contact Plan du site

Approches endogène et exogène pour améliorer la segmentation thématique de documents

Olivier Ferret

CEA-LIST/LIC2M
18, route du Panorama - B.P. 6
F-92265 Fontenay-aux-Roses Cedex
ferreto@zoe.cea.fr

La segmentation thématique de documents a fait l’objet d’un nombre important de travaux dont il n’est pas toujours facile de dégager des conclusions claires, en particulier en ce qui concerne l’utilisation de connaissances. Dans cet article, nous proposons d’examiner deux voies se situant dans le même cadre pour améliorer une méthode de segmentation fondée sur la simple récurrence lexicale. La première est endogène. Elle exploite la similarité distributionnelle des mots au sein des documents pour en découvrir les thèmes. Ces thèmes sont ensuite utilisés pour faciliter l’identification des similarités thématiques entre unités de discours. La seconde réalise le même but en faisant appel à une ressource externe, en l’occurrence un réseau de cooccurrences lexicales construit à partir d’un large corpus. Ces deux approches sont également combinées. Une évaluation de ces deux approches et de leur combinaison est réalisée dans un même cadre et illustre l’intérêt de cette combinaison.


Télécharger:
Fichier PDF
Olivier Ferret
147.3 ko

TAL Volume 47 2006 . 2. Discours et document : traitements automatiques

Date de dernière mise à jour : 20 septembre 2007, auteur : Rédacteurs en chef.