Accueil du site Accueil du site Adhésion Contact Plan du site

RECONNAISSANCE AUTOMATIQUE DES NOMS PROPRES Application à la classification automatique de textes journalistiques

Automatic Recognition of Proper Names An Application in Automatic Clustering of Journalistic Texts

Nathalie Friburger

Equipe : BdTln
Courriel : friburger@univ-tours.fr

Contenu

Mots-clés : Extraction d’information, entités nommées, TAL, classification non supervisée

Keywords : Information Extraction, named entities, NLP, clustering

Résumé
Dans les textes journalistiques, les noms propres sont très importants pour une compréhension précise du sens des textes, mais ils sont très peu représentés dans les ressources lexicales disponibles. Le travail réalisé ici cherche à automatiser leur extraction et leur catégorisation. Nous avons implanté le système CasSys qui permet l’utilisation de cascade de transducteurs et peut ainsi réaliser de l’analyse syntaxique d’un texte ou de l’extraction d’information. Le système d’extraction de noms propres créé, extracNP, utilise casSys ; les phénomènes d’ambiguïtés, de segmentation et de catégorisation des noms propres sont ainsi gérés par la cascade. Par cette méthode, nous avons obtenu une précision de 94% avec un rappel de plus de 93%. Puis, nous avons montré que les noms propres sont porteurs d’une information qui les rend particulièrement intéressants pour obtenir une classification de qualité.

Abstract
In the journalistic texts, proper names are very important for a precise understanding of the texts, but they are rarely presented in the available lexical resources. The work realized here tries to automate their extraction and their categorization. We have created the system CasSys that allows the use of transducer cascades. CasSys allows the syntactic analysis or information extraction on a text. Our proper name extraction system, extracNP, uses casSys and allows to manage the phenomena of ambiguities, segmentation and categorization of the proper nouns. By this method, we obtained a precision of 94 % with a recall of more than 93 %. As an application, we tested the use of the proper names in the clustering of journalistic texts : the information they carry makes them particularly interesting to obtain a clustering of quality. We tested various measures of similarity, based on the proper names, by estimating them through a hierarchical clustering.

Informations administratives

Jury Université : Université de Tours

Discipline : Informatique

Date de soutenance : 02 décembre 2002

Lieu de soutenance : Laboratoire d’informatique de Tours


Ces renseignement ont été saisis le 03/07/2003 par Nathalie Friburger.

Date de dernière mise à jour : 8 février 2005, auteur : .