Accueil du site Accueil du site Adhésion Contact Plan du site

Expérience de couplage entre bases de données factuelles et bases de données bibliographiques : Identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations sur les interactions génétiques ou moléculaires à partir de publications

Experiment in integration of factual databases and bibliographical databases : Gene identification in Medline from Flybase description and application in information extraction about genetics or molecular interaction in publications

Ambroise Ingold

Equipe : CRRM
Courriel : ingoldRetirezCaPourUneAdresseValide@free.fr
Page : ingold.free.fr
Cette thèse est téléchargeable à : http://ingold.free.fr

Contenu

Mots-clés : Extraction d’informations, informatique documentaire, couplage de bases de données, statistique textuelle, terminologie, nomenclature, gènes, interaction génétique, interaction moléculaire, bioinformatique, Drosophila Melanogaster, Medline, Flybase

Keywords : Information extraction, information retrieval, natural language processing, text processing, terminology, nomenclature, genes, genetics interaction, molecular interaction, bioinformatics, Drosophila melanogaster, Medline, Flybase

Résumé
La thèse propose des solutions pour mettre automatiquement en relation des informations bibliographiques avec des informations factuelles. Les bases de données bibliographiques donne accès à l’information la plus exhaustive et la plus précise tandis que les bases de données factuelles organisent le savoir accumulé dans des encyclopédies électronique ou dans des banques de résultats d’expériences. Coupler ces deux types de bases de données est nécessaire. Il s’agit soit de documenter des bases de données factuelles avec des références bibliographiques, soit d’extraire de l’information directement à partir de la littérature scientifique.

Nous avons pris l’exemple des gènes et de leurs interactions chez la Drosophile. La Drosophile est un organisme modèle en génétique et l’analyse des interactions génétiques ou moléculaires permet de comprendre comment plusieurs gènes collaborent à une même fonction.

Dans un premier temps, nous avons construit un système qui permet de créer des liens entre Flybase et Medline. Flybase est une encyclopédie électronique sur la Drosophile. Medline est la plus grande base de données bibliographiques dans le domaine des sciences de la vie. Ces liens consistent à identifier dans Medline des gènes décrit dans Flybase. Cette tâche est difficile à automatiser en raison de la complexité de la nomenclature (existence d’alias, d’abréviations et de termes vagues, composition de termes utilisant des noms de gènes, etc.) et de la confusion possible entre certains noms de gènes et des mots du vocabulaire courant.

Dans un second temps, notre travail a consisté à établir une liste d’interactions probables à partir d’un ensemble de résumés issus de Medline. Cela a été fait par l’analyse statistique du vocabulaire utilisé.

La méthode a été testée avec succès et le détail de la mise en ’uvre est donné dans le document.

Abstract
Databases have become an essential working tool for research in genetics. Factual databases organize the knowledge accumulated in electronics encyclopedias and in experimental-results databanks. Bibliographical databases give access to the most precise and comprehensive information. It is necessary to completely couple these two types of databases to allow automatic interaction.

The question is either to document factual databases with bibliographical references, or to extract information directly from scientific publications.

To explain clearly the difficulty of working between the two types and also offer a solution, we took the genes, and their interactions, of the Drosophila as a study case. The genetic interactions are essential phenomena in understanding the way the genes collaborate in one function. We chose the model genetic organism Drosophila because its genes are well described in the electronic encyclopedia Flybase and their interactions are well described in the bibliographic database Medline.

First, we built a system that makes it possible to create links between Flybase and Medline. These links consist in documenting every gene described in Flybase by Medline bibliographical references. It is thus a question of identifying the genes in Medline’s summaries. This task is difficult to undertake automatically because of the complexity of the naming (existence of alias, of abbreviations and vague terms, composition of terms using names of genes, etc.) and of the possible confusion between some gene names and some words of the common vocabulary such as abdominal, labial, early, N, etc.

In the second instance, our work consisted of establishing a list of likely interactions from a set of Medline’s summaries. We have done this work by statistical analysis of the vocabulary in the summaries.

Informations administratives

Jury Université : Université Aix-Marseille 3

Discipline : Sciences de l’information et de la communication

Date de soutenance : 4 janvier 2002

Lieu de soutenance : Centre scientifique de Saint Jérôme, Marseille


Ces renseignement ont été saisis le 30/05/2003 par Ambroise Ingold.

Date de dernière mise à jour : 8 février 2005, auteur : .