Accueil du site Accueil du site Adhésion Contact Plan du site

Extraction et Impact des connaissances sur les performances des Systèmes de Recherche d’Information

Hatem Haddad

Equipe : Modélisation et Recherche d'Information Multimédia
Courriel : Haddad@imag.fr
Page : http://www-clips.imag.fr/mrim/User/hatem.haddad/

Contenu

Résumé
Dans un contexte riche d’information, un système de recherche d’information doit être capable de trouver les meilleurs résultats possibles dans un océan d’information. Notre étude s’intéresse aux connaissances qui peuvent être extraites du contenu textuel des documents en associant la finesse d’analyse d’une approche linguistique (extraction et structuration) à la capacité d’une approche statistique de traiter de gros corpus. L’approche statistique se base sur la fouille de données textuelles et principalement la technique de règles d’association. L’approche linguistique se base sur les syntagmes nominaux que nous considérons comme des entités textuelles plus susceptibles de représenter l’information contenue dans le texte que les termes simples. Elle explicite les contraintes linguistiques nécessaires à l’extraction des syntagmes nominaux et défini les rapports syntagmatiques entre les composantes d’un syntagme nominal. Ces relations syntagmatiques sont exploitées pour la structuration des syntagmes nominaux. Une mesure, appelée ``quantité d’information’’, est proposée pour évaluer le pouvoir évocateur de chaque syntagme nominal, filtrer et comparer les syntagmes nominaux. Le modèle proposé démontre que la combinaison d’une approche statistique et d’une approche linguistique affine les connaissances extraites et améliore les performances d’un système de recherche d’information.

Abstract
An information retrieval system is dedicated to find the best possible results in a rich information context. Our study is interested in the knowledge which can be extracted from textual documents contents by associating a linguistic approach to the capacity of a statistical approach to analyze big corpus. The statistical approach is based on Text Data Mining, more precisely on the association rule technique. The linguistic approach is based on noun phrases considered as more adequate to represent document content than single words. It clarifies the needed linguistic constraints for the extraction of noun phrases and explicits the syntagmatic relations between words in noun phrases. These phrasal relations are exploited to structure noun phrases. A measure, namely ``information quantity’’, is proposed to estimate the suggestive power of every noun phrase, to filter and compare noun phrases. The proposed model demonstrates that the combination of a statistical approach and a linguistic approach refines the extracted knowledge and increases the performances of an information retrieval system.

Informations administratives

Jury Université : Université Joseph-Fourier, Grenoble

Discipline : Informatique

Date de soutenance : 24 septembre 2002

Lieu de soutenance : Salle F309 de l’UFR IMA, Grenoble


Ces renseignement ont été saisis le 13/09/2002 par Hatem Haddad.

Date de dernière mise à jour : 8 février 2005, auteur : .