Accueil du site Accueil du site Adhésion Contact Plan du site

Approches catégoriques et non catégoriques en linguistique des corpus spécialisés, application à un système de filtrage d ?information.

Categorical and non categorical approaches to specialised corpus studies, application to an information filtering system

Antonio Balvet

Equipe : UMR MoDyCo
Courriel : antonio.balvet@u-paris10.fr
Cette thèse est téléchargeable à : http://antonio.balvet1.free.fr

Contenu

Mots-clés : linguistique de corpus, traitement automatique des langues, filtrage d’information, statistique linguistique

Keywords : corpus linguistics, information retrieval, information filtering, natural language processing

Résumé
Cette thèse s ?inscrit dans le cadre des études linguistiques sur corpus, centrées sur les productions effectives, dans des domaines de spécialité. La thèse reprend les présupposés théoriques et les méthodes des approches guidées par les observables linguistiques, afin d ?extraire des corpus étudiés des unités lexicales complexes fortement corrélées à des sous-thèmes clairement identifiés. Ainsi, la thèse aboutit à une description et à un recensement de ces unités lexicales complexes, appelées signatures thématiques, pour un sous-thème du domaine financier : les cessions et acquisitions de sociétés. Le travail d ?analyse des corpus, faisant principalement appel à une approche distributionnelle classique, tente également d ?évaluer l ?apport d ?approches non catégoriques et non logiques (essentiellement des approches statistiques) dans la détection de signatures thématiques. Les signatures identifiées servent de base à un système de filtrage d ?information, déployé en milieu industriel : le système CORAIL, issu d ?un projet de recherches financé par le Ministère de la Recherche et de l ?Industrie.

Abstract
This thesis is set in the framework of corpus linguistic studies, centered on actual utterances, in specialised domains. By building on the theoretical and methodological grounding of data-oriented approaches in linguistics, this thesis aims at identifying and describing complex lexical units which are strongly correlated with well defined sub-topics : topical signatures. One of the achievements of this work is the description of a set of topical signatures for a sub-topic of financial news extracts : corporate financial activities. The approach described in this thesis, building on classical distributional methods, also aims at evaluating non categorical and non logic-centered approaches, such as stochastic ones, in the process of identifying topical signatures. The extracted signatures serve as lexical resources, put to use by a selective information dissemination system : CORAIL. This system is the achievement of an industrial research project, funded by the French Ministry for Research and Industry.

Informations administratives

Jury Université : Université Paris 10 - Nanterre

Discipline : Sciences du langage

Date de soutenance : 11 décembre 2002

Lieu de soutenance : Paris X, salle BO15

Informations complémentaires

: La thèse est disponible à l’adresse suivante : http://antonio.balvet1.free.fr


Ces renseignement ont été saisis le 14/01/2003 par Antonio Balvet.

Date de dernière mise à jour : 8 février 2005, auteur : .