Accueil du site Accueil du site Adhésion Contact Plan du site

Apprentissage et Filtrage Syntaxico-Sémantique de Syntagmes Nominaux Pertinents pour La Recherche Documentaire

Elie Naulleau

Equipe : Laboratoire E.L.I., ENS de Fontenay St Cloud
Courriel : Elie.Naulleau@free.fr
Page : http://semiosys.free.fr/Semio-Sys/archives.html
Cette thèse est téléchargeable à : http://semiosys.free.fr/Semio-Sys/archives.html

Contenu

Mots-clés : linguistique informatique, analyse syntaxique, désambiguïsation sémantique, extraction de terminologie, filtrage symbolique d’information, apprentissage symbolique, indexation automatique, recherche documentaire

Keywords : computationnal linguistics, semantic disambiguation, nominal phrase extraction, symbolic information filtering, symbolic learning, automatic indexing, information retrieval, IR

Résumé
Nous proposons un système d’extraction de groupes nominaux qui s’appuie sur des informations syntaxiques et sémantiques, et qui aide à la mise à jour de thesaurus ou la création d’index libres. L’originalité du système tient à la possibilité de faire varier la forme des groupes nominaux recherchés, relativement à un centre d’intérêt. Ce dernier est concrétisé par un profil de filtrage. Il est ainsi possible de définir plusieurs points de vue sur le même document, qui se traduisent par autant d’ensembles différents de groupes nominaux extraits du document. Le système doit donc être calibré pour un champ d’investigation déterminé (domaine d’activité, type de document) avant d’être exploité. Il requiert de l’opérateur (documentaliste, terminographe, ...) une participation active pour la mise au point des profils de filtrage. Ces profils sont définis en fournissant au système des exemples de groupes nominaux recherchés (dits pertinents) et de groupes nominaux non pertinents. Une procédure d’apprentissage construit ensuite une modélisation linguistique des syntagmes considérés pertinents. L’évaluation de la pertinence des syntagmes nominaux repose sur une description syntaxico-sémantique de leurs dépendances lexico-syntaxiques élémentaires. Le filtrage des dépendances syntaxiques non pertinentes est effectué en procédant à des élagages syntaxiques dans les arbres des syntagmes à filtrer. Les groupes nominaux sont ainsi dépouillés de propriétés linguistiques déclarées non pertinentes dans le profil de filtrage.

Notre expérimentation montre que l’utilisation d’informations sémantiques combinées avec des informations de structure syntaxique accroît notablement les performances du filtrage des syntagmes nominaux.

Abstract
We present a nominal phrase filtering system which relies on syntactic and semantic information and we show that the use of semantic information enhances the performance of the system. The system extracts and filters nominal phrases that can be used to update thesaurus or create l ists of free index. Because a given nominal phrase may be relevant for a particular task or person and may not be re levant for another one, the filtering process depends on specific points of view. A point of view is made of linguistic material. To built it, the user has to declare some phrases that he/she considers to be relevant and some other phrases that he/she considers as non relevant phrases. Theses examples are processed as a training set by a learning procedure.

The result is a filtering profile, i.e. a modelization of what is a relevant nominal phrase, in term of elementary syntactic dependancies enriched with semantic categories. Each nominal phrase to filter is splited into its elementary dependencies which are evaluated ac cording to the profile. As a result, a filtered nominal phrase is yielded and corresponds to the initial nominal phrase, rebuilt with the dependencies which have not been fired.

Informations administratives

Jury Université : Université Paris 13 - Villetaneuse

Discipline : Informatique

Date de soutenance : 05 janvier 1998

Lieu de soutenance : Salle L322, Institut Galilée, Université Paris-Nord.


Ces renseignement ont été saisis le 01/08/2001 par Elie Naulleau.

Date de dernière mise à jour : 8 février 2005, auteur : .