Accueil du site Accueil du site Adhésion Contact Plan du site

Les réseaux collocationnels dans la construction et l’exploitation d’un corpus dans le cadre d’une communauté de discours scientifique

Collocational networks in the construction and exploitation of a corpus within the framework of a scientific discourse community

Geoffrey Williams

Courriel : Geoffrey.Williams@univ-ubs.fr

Contenu

Mots-clés : Corpus, Collocation, balisage TEI, Communauté de Discours, Lexicographie computationnelle, Linguistique de corpus

Keywords : Corpus, collocation, TEI markup, Discourse community, Computational lexicography, corpus linguistics

Résumé

Les corpus sont de plus en plus utilisés dans la lexicographie, en particulier pour les dictionnaires à utilisation pédagogique. Bien que de nombreuses études basées sur des corpus spécialisés aient été entreprises, les résultats sont obérés par la difficulté à définir clairement la représentativité de tels corpus. Les Communautés de Discours (C.D.) définies par Swales offrent un modèle intéressant puisqu’elles sont définies par rapport à leurs membres. Au lieu de faire appel à la notion abstraite de "représentativité", le contenu peut être justifié comme étant "représentatif" d’une communauté définissable.

Pour exploiter un corpus, il est nécessaire de le baliser en SGML afin de retenir les éléments importants de l’aspect physique des textes publiés et de souligner les éléments à analyser. Notre corpus a été balisé suivant les recommandations de la TEI. L’interprétation du balisage est proposée comme norme minimale pour le balisage de ce genre de corpus.

L’étude exploite surtout la notion distributionnelle de collocation comme facteur de cohérence textuelle. Les différentes théories actuelles de collocation sont illustrées avant de développer une définition plus textuelle des collocations et d’introduire les réseaux de collocations. La mesure statistique d’information mutuelle est employée pour extraire les réseaux d’un corpus sous-divisé par thème. Dans un corpus balisé selon la TEI, la balise sert de pivot pour l’utilisation de collocations dans le développement de critères de sélection internes. L’hypothèse est qu’en regroupant certains éléments lexicaux par leur balisage, les thèmes majeurs d’un corpus peuvent être isolés par la collocation et la théorie des indices de polysémie de Clear. Des réseaux de collocation sont extraits des sous-corpus afin d’illustrer les thèmes majeurs de la communauté de discours et les disciplines concernées.



Abstract

Corpora have become increasingly used in lexicography, in particular for general purpose pedagogical lexicography. Whilst numerous studies of specialised corpora have been undertaken, the results are hampered by the difficulty of defining representativity in such a corpus. The Discourse Community as defined by John Swales is adopted as a suitable corpus model since the field is defined by its members. Selection of texts is carried out following set criteria in conjunction with members of the community rather than by arbitrary statistical methods. In this way, rather than appealing to the illusive notion of ’representativity’, the content can be justified as being ’representative’ of a definable community.

This corpus is annotated following the Text Encoding Initiative guidelines, each text is regarded as an individual entity rather than a constituent of a corpus which explains the use of the TEI as opposed to the Corpus Encoding Standard. The mark-up interpretation is given as a minimal standard for this type of corpus.

The phenomenon of collocation is discussed as a powerful tool in textual coherence The different prevalent theories of collocation are introduced with examples from the BIVEG corpus before moving to a more textual definition of collocation developing the theory of collocational networks. The statistical measure of mutual information is used in the extraction of networks from the thematically subdivided corpus. The tag is central to the use of collocation in the development of internal selection criteria. The premise is that in grouping certain lexical elements by tagging, the major themes of a corpus can be isolated by collocation and the adaptation of Clear’s clue theory for polysemy. Networks of collocation are then extracted from subset to reflect the major themes of both the discourse community and the contributing disciplines.

The ultimate outcome will be an electronic specialised pedagogical dictionary, the corpus is built exclusively from the genre to be demonstrated in the dictionary, the scientific research article.



Informations administratives

Jury Université : Université de Nantes

Discipline : Anglais : linguistique de corpus

Date de soutenance : 10 décembre 1999

Lieu de soutenance : IUP Chimie-Biologie, Université de Nantes


Ces renseignement ont été saisis le 12/11/2000 par Geoffrey Clive Williams.

Date de dernière mise à jour : 8 février 2005, auteur : .