Accueil du site Accueil du site Adhésion Contact Plan du site

Analyse informatique des signes typographiques pour la segmentation de textes et l’extraction automatique de citations. Réalisation des Applications informatiques : SegATex et CitaRE

Computer processing of typographical marks for text segmentation and automatic extraction of quotations. Carrying out computer applications : SegATex and CitaRE

Ghassan Mourad

Equipe : LaLICC (Langage,Logique, Informatique, Cognition et Communication
Courriel : Ghassan.Mourad@paris4.sorbonne.fr
Page : http://www.lalic.paris4.sorbonne.fr/

Contenu

Mots-clés : balisage, segmentation de texte, citation, classification sémantique, discours rapporté, exploration contextuelle, extraction de connaissances, filtrage sémantique, ponctuation, verbe de communication, virgule, signe typographique

Keywords : text segmentation, quotations, semantic filtering of a text, quotation introducers, quotations extraction, reported speech, contextual exploration, speech verbs, punctuation, comma, typographic marks

Résumé
Ce travail s’inscrit dans le cadre d’un projet mené au sein de l’équipe LaLIC (Langage, Logique, Informatique et Cognition). Il est opérationnel d’un point de vue informatique et a pour objectif de définir le besoin en terme de segmentation de texte, et d’interprétation sémantique de marqueurs typographiques, pour le filtrage d’information. Il a abouti à la réalisation de deux applications SegATex et CitaRE. Nous avons défini les valeurs des signes de ponctuation, et nous nous sommes intéressé à l’étude historique de la ponctuation en particulier à l’origine de la forme graphique de la virgule et son éventuelle relation avec une autre particule (le waw) dans la langue arabe. L’application SegATex (Segmentation Automatique de Textes) est destinée en tant que module informatique à préparer (baliser) le texte pour un traitement automatique de langue. Parmi ces traitements, figurent la segmentation de textes en sections, sous-sections, paragraphes, phrases, titres et énumérations. La troisième partie de cette thèse traite de " l’extraction automatique de la citation " qui a abouti à la réalisation du système CitaRE (Citation : Repérage et Extraction). Afin de répondre aux besoins de filtrage et d’extraction de connaissances (la citation), nous avons adopté la méthode d’exploration contextuelle.

Abstract
The present work comes within the scope of a project carried out by the LaLIC research team (Langage, Logique, Informatique et Cognition). From a computer perspective this work is of an operational value and it aims at defining the requirements in terms of text segmentation and semantic interpretation of typographic marks for filtering information. The final outcome of this work are the SegATex and CitaRE applications. We proceeded in defining the value of punctuation marks and followed with a historical study of punctuation. We took special interest in the origins of the graphical form of the comma and its eventual relation with the waw, a particle in Arabic language. The SegATex application (Automatic Segmentation of Texts), as a computer module, is intended to prepare (to tag) a text for an automatic language processing which includes text segmentation in sections, sub sections, paragraphs, sentences, titles and enumeration. In the third part of the thesis we treat the "automatic extraction of quotations". The outcome of this part is the CitaRE system (Citation : Repérage et Extraction). We have followed the method of contextual exploration in order to comply with the requirements for filtering and extracting knowledge (the quotation).

Informations administratives

Jury Université : Paris-Sorbonne

Discipline : Traitement Automatique des Langues

Date de soutenance : 02 novembre 2001

Lieu de soutenance : ISHA, 96 bd, Raspail Paris 06


Ces renseignement ont été saisis le 21/12/2001 par Ghassan Mourad.

Date de dernière mise à jour : 8 février 2005, auteur : .