Accueil du site Accueil du site Adhésion Contact Plan du site

Diffusion ciblée automatique d’informations : conception et mise en oeuvre d’une linguistique textuelle pour la caractérisation des destinataires et des documents

Application of text linguistics to document routing

Bénédicte Bommier-Pincemin

Equipe : CNRS-INaLF, équipe Sémantique des Textes & EDF-DRD
Courriel : benedicte.pincemin@centraliens.net

Contenu

Mots-clés : Sémantique interprétative, textualité, genres textuels, Traitements Automatiques des Langues, recherche d’informations, profils, pertinence, ergonomie hypertexte, textes électroniques, structuration et codage SGML, statistiques texuelles, similarité texte-texte.

Keywords : interpretative semantic, textuality, Natural Language Processing, information retrieval, profiles, relevance, hypertext, electronic texts, SGML, textual statistics, lexicometry, text-text similarity.

Résumé
Le serveur DECID (Diffusion Electronique Ciblée d’Informations et de Documents), sur l’Intranet EDF, est utilisé pour trouver les personnes les plus concernées par un document ou les experts sur un sujet. La diffusion ciblée repose sur trois principes fondateurs : (i) l’automatisation et la robustesse des traitements ; (ii) le texte, aussi bien comme mode d’interrogation du système (les documents sont soumis tels quels, sans passer par des mots clés), que comme moyen de caractériser des intérêts et compétences des personnes (les profils sont calculés à partir d’un corpus de textes) ; (iii) la base formée par les profils des destinataires potentiels : toutes les activités de l’organisme sont systématiquement prises en compte. Dans le contexte de documents écrits à dominante scientifique et technique, quatre facettes textuelles sont définies pour guider la conception des traitements : (i) la matière linguistique du texte ; (ii) son organisation interne, structurée, close et orientée ; (iii) l’intertextualité ; (iv) le rôle constitutif des lectures et la dynamique de l’interprétation. Ce modèle motive des innovations à toutes les étapes du traitement. Un format de codage (DTD SGML) est construit, pour être à la fois robuste et général, mais aussi enregistrer des structurations significatives. Pour la caractérisation des textes, des unités descriptives, plus contextuelles que des mots clés, sont définies. Elles prennent en compte la détermination du local par le global et la formation des isotopies sémantiques. Ces unités descriptives sont adaptées à la recherche en texte intégral. Une grille d’analyse est établie et appliquée à l’interprétation des formules de calcul et de mesures sur les textes. L’ergonomie Web est adaptée à l’affichage de textes : vue simultanément globale et focalisée, points saillants, contextualisations multiples. Une représentation différentielle de la pertinence facilite le parcours des réponses du système et leur appropriation.

Abstract
This study is part of the DECID project (Diffusion Electronique Ciblée d’Informations et de Documents, "targeted electronic distribution of information and documents"). The DECID team is building a document routing system for selective dissemination of information troughout the research center of the french electric power company. The three main features of targeted distribution are : (i) automatic processing ; (ii) the use of texts both for querying (instead of keywords), and for characterizing people interests and skills (profiles are based on a corpus of research program texts) ; (iii) the set of profiles represents thoroughly the research center activities. In the scope of technical and scientifical written documents, four textual dimensions are defined. They are used as guidelines in the processing development. These dimensions are : (i) the linguistical material of text ; (ii) its internal structure ; (iii) intertextuality ; (iv) the reading and hermeneutic activity as part of the text nature. Each stage of the processing is concerned by these dimensions. A coding frame has been developped (a SGML Document Type Definition called Corpus). It enables both robust and general encoding, and also takes into account meaningful structures. For text analysis, descriptive units are defined which are more contextual than keywords. They take into account the preeminence of global semantics in order to interpret local phenomena, and the presence of ’isotopies’ (semantical recurrences). These descriptive units fit full-text search engines. An analysis grid is established and applied to the interpretation of measurements and formula on texts. Web interface is adapted to texts visualization. Relevance is expressed through a dynamic tree of topics. This helps the user in perceiving the results more efficiently.

Informations administratives

Jury Université : Paris-Sorbonne

Discipline : Linguistique

Date de soutenance : 06 avril 1999

Lieu de soutenance : Université Paris IV - Sorbonne


Ces renseignement ont été saisis le 02/05/2001 par Bénédicte Pincemin.

Date de dernière mise à jour : 8 février 2005, auteur : .