Diffusion ciblée automatique d'informations : conception et mise en oeuvre d'une linguistique textuellepour la caractérisation des destinataires et des documents

Bommier-Pincemin Bénédicte

Équipe: CNRS-INaLF, équipe Sémantique des Textes & EDF-DRD

Contenu

Mots-clés: sémantique interprétative, textualité, genres textuels, traitements automatiques des langues, recherche d’informations, profils, pertinence, ergonomie hypertexte, textes électroniques, structuration et codage SGML, statistiques texuelles, similarité texte-texte
Keywords: interpretative semantic, textuality, natural language processing, information retrieval, profiles, relevance, hypertext, electronic texts, SGML, textual statistics, lexicometry, text-text similarity
Résumé
Le serveur DECID (Diffusion Electronique Ciblée d’Informations et de Documents), sur l’Intranet EDF, est utilisé pour trouver les personnes les plus concernées par un document ou les experts sur un sujet. La diffusion ciblée repose sur trois principes fondateurs : (i) l’automatisation et la robustesse des traitements ; (ii) le texte, aussi bien comme mode d’interrogation du système (les documents sont soumis tels quels, sans passer par des mots clés), que comme moyen de caractériser des intérêts et compétences des personnes (les profils sont calculés à partir d’un corpus de textes) ; (iii) la base formée par les profils des destinataires potentiels : toutes les activités de l’organisme sont systématiquement prises en compte. Dans le contexte de documents écrits à dominante scientifique et technique, quatre facettes textuelles sont définies pour guider la conception des traitements : (i) la matière linguistique du texte ; (ii) son organisation interne, structurée, close et orientée ; (iii) l’intertextualité ; (iv) le rôle constitutif des lectures et la dynamique de l’interprétation. Ce modèle motive des innovations à toutes les étapes du traitement. Un format de codage (DTD SGML) est construit, pour être à la fois robuste et général, mais aussi enregistrer des structurations significatives. Pour la caractérisation des textes, des unités descriptives, plus contextuelles que des mots clés, sont définies. Elles prennent en compte la détermination du local par le global et la formation des isotopies sémantiques. Ces unités descriptives sont adaptées à la recherche en texte intégral. Une grille d’analyse est établie et appliquée à l’interprétation des formules de calcul et de mesures sur les textes. L’ergonomie Web est adaptée à l’affichage de textes : vue simultanément globale et focalisée, points saillants, contextualisations multiples. Une représentation différentielle de la pertinence facilite le parcours des réponses du système et leur appropriation.

Abstract
This study is part of the DECID project (Diffusion Electronique Ciblée d’Informations et de Documents, "targeted electronic distribution of information and documents"). The DECID team is building a document routing system for selective dissemination of information troughout the research center of the french electric power company. The three main features of targeted distribution are : (i) automatic processing ; (ii) the use of texts both for querying (instead of keywords), and for characterizing people interests and skills (profiles are based on a corpus of research program texts) ; (iii) the set of profiles represents thoroughly the research center activities. In the scope of technical and scientifical written documents, four textual dimensions are defined. They are used as guidelines in the processing development. These dimensions are : (i) the linguistical material of text ; (ii) its internal structure ; (iii) intertextuality ; (iv) the reading and hermeneutic activity as part of the text nature. Each stage of the processing is concerned by these dimensions. A coding frame has been developped (a SGML Document Type Definition called Corpus). It enables both robust and general encoding, and also takes into account meaningful structures. For text analysis, descriptive units are defined which are more contextual than keywords. They take into account the preeminence of global semantics in order to interpret local phenomena, and the presence of ’isotopies’ (semantical recurrences). These descriptive units fit full-text search engines. An analysis grid is established and applied to the interpretation of measurements and formula on texts. Web interface is adapted to texts visualization. Relevance is expressed through a dynamic tree of topics. This helps the user in perceiving the results more efficiently.  

Informations administratives

Jury
  • Mme Monique SLODZIAN (rapporteur)
  • MM. Ioannis KANELLOS
  • Xavier LEMESLE
  • Robert MARTIN (président)
  • Jean-Marie PIERREL (rapporteur)
  • François RASTIER (directeur)
Université: Paris-Sorbonne
Discipline: Linguistique
Date de soutenance: 06 avril 1999
Lieu de soutenance: Université Paris IV - Sorbonne