TALN 1999
Adda, Gilles ; Mariani, Joseph ; Paroubek, Patrick ; Rajman, Martin ; Lecomte, Josette (1999). Métrique et premiers résultats de l’évaluation GRACE des étiqueteurs morphosyntaxiques pour le français
RÉSUMÉ : L’action GRACE est le premier exemple d’application du paradigme d’évaluation aux étiqueteurs morphosyntaxiques pour le français dans le cadre d’une campagne d’évaluation formelle, à participation ouverte et utilisant des données de grande taille. Après une rapide description de l’organisation et du déroulement de l’action ainsi que des problèmes posés par la nécessaire mise en place d’un référentiel commun pour l’évaluation, nous présenterons en détail la métrique Précision-Décision qui a été développée dans le cadre de GRACE pour la mesure quantitative des performances des systèmes d’étiquetage. Nous nous intéresserons ensuite aux résultats obtenus pour les participants à la phase de test de la campagne et indiquerons les aspects du protocole d’évaluation qui restent encore à valider sur les données recueillies. Enfin, nous conclurons en soulignant les incidences positives d’une campagne d’évaluation comme GRACE sur le domaine de l’ingénierie linguistique.Biskri
MOTS-CLÉS : unité lexicale ; étiquetage ; table de correspondance ; segmentation
Chappelier, Jean-Cédric ; Rajman, Martin ; Aragües, R. ; Rozenknop, Antoine (1999). Lattice Parsing for Speech Recognition
MOTS-CLÉS :
Tanguy, Ludovic ; Armstrong, Susan ; Walker, Derek (1999). Isotopies sémantiques pour la vérification de traduction
RÉSUMÉ : A des fins d’automatisation de la vérification de traduction, les méthodes traditionnelles se basent généralement sur un fort niveau de littéralité dans le style de la traduction. En faisant appel à des bases terminologiques multilingues et des algorithmes d’alignement de textes parallèles, il est possible de vérifier dans un travail de traduction le respect de normes strictes, sous la forme d’une liste de possibilités de traduction pour un terme donné. Nous proposons ici une méthode alternative basée sur le repérage, dans les deux textes, de structures sémantiques générales, ou isotopies, et la comparaison des schémas qu’elles présentent au niveau du texte et non plus de la phrase ou du paragraphe, permettant ainsi une plus grande tolérance dans le style de traduction à vérifier.
MOTS-CLÉS : isotopie ; unité lexicale ; sémantique ; sémantique structurale ; algorithme d’alignement ; classe d’équivalence
Basili, Roberto ; Pazienza, Maria Tereza ; Zanzotto, Fabio Massimo (1999). Lexicalizing a shallow parser
MOTS-CLÉS :
Béchet, Frédéric ; Nasr, Alexis ; Spriet, Thierry ; de Mori, Renato (1999). Modèles de langage à portée variable : Application au traitement des homophones
RÉSUMÉ : L’objectif de cette étude concerne le traitement d’homophones singulier/pluriel dans un Système de Reconnaissance de la Parole en exploitant les contraintes d’accord dans la phrase à reconnaître. Un certain nombre de ces contraintes ne peut être traité par les modèles de langage à portée locale de type n-gram utilisés habituellement. Les deux modèles proposés, le modèle à base de syntagme et le modèle Homophone-Cache, permettent de résoudre certains cas d’homophonie par deux méthodes différentes : le modèle à base de syntagme permet d’introduire des contraintes syntaxiques ; le modèle Homophone-Cache a pour objet de discriminer les homophones singulier/pluriel, de manière robuste, en étant peu sensible à la mauvaise reconnaissance d’un mot au sein de la phrase.
MOTS-CLÉS : groupe nominal ; homophone ; modèle de langage ; corpus ; corpus d’apprentissage ; système de reconnaissance
Bès, Gabriel ; Blache, Philippe (1999). Propriétés et analyse d’un langage
RÉSUMÉ : Nous présentons dans cet article une nouvelle approche, que nous appelons 5P, permettant la description des propriétés d’un langage et son utilisation pour une analyse automatique. Nous montrons comment cette approche permet la prise en compte de la dimension descriptive de la linguistique. Par ailleurs, nous présentons une technique d’analyse, appelée analyse par Filtrage et Fusion, qui tire parti de cette description en propriétés. Nous montrons en quoi ces deux projets (description d’une langue et analyse automatique) convergent et ouvrent de nouvelles perspectives.
MOTS-CLÉS : arbre ; relation de dépendance ; fléchage ; analyse par filtrage ; langue ; langue naturelle
Biskri, Ismaïl ; Delisle, Sylvain (1999). Un modèle hybride pour le textual data mining : un mariage de raison entre le numérique et le linguistique
RÉSUMÉ : Une des recherches de pointe menée actuellement en informatique est l’extraction des connaissances dans un texte électronique (textual data mining). Ce thème de recherche est de première importance pour les technologies de l’information qui sont confrontées à des marées de documents électroniques. Pour résoudre ce problème, plusieurs stratégies sont possibles : les unes relèvent des mathématiques et les autres de l’informatique linguistique. Nous présentons dans cet article un modèle hybride, à la fois robuste et fin, qui s’inspire des modèles neuronaux et de l’analyse linguistique informatique.
MOTS-CLÉS : structure prédicative ; groupe nominal ; extraction ; extraction de connaissances ; représentation matricielle
Bès, Gabriel ; Blache, Philippe (1999). Propriétés et analyse d’un langage
RÉSUMÉ : Nous présentons dans cet article une nouvelle approche, que nous appelons 5P, permettant la description des propriétés d’un langage et son utilisation pour une analyse automatique. Nous montrons comment cette approche permet la prise en compte de la dimension descriptive de la linguistique. Par ailleurs, nous présentons une technique d’analyse, appelée analyse par Filtrage et Fusion, qui tire parti de cette description en propriétés. Nous montrons en quoi ces deux projets (description d’une langue et analyse automatique) convergent et ouvrent de nouvelles perspectives.
MOTS-CLÉS : arbre ; relation de dépendance ; fléchage ; analyse par filtrage ; langue ; langue naturelle
Bouchou, Béatrice ; Maurel, Denis (1999). Une bibliothèque d’opérateurs linguistiques pour la consultation de base de données en langue naturelle
RÉSUMÉ : L’interrogation de bases de données en langue naturelle est une application directe du traitement automatique des langues naturelles. Son utilité va en s’accroissant avec le développement d’outils d’information accessibles au grand public à travers la Toile Internet. L’approche que nous proposons s’appuie d’une part sur les fondations linguistiques établies par la théorie de Z. S. Harris (dans l’élaboration du dictionnaire, et surtout dans la définition des opérateurs linguistiques), et d’autre part sur un outil informatique précis (les transducteurs). Elle représente une alternative aux traitements syntaxico-sémantiques habituellement développés dans des formalismes logiques. Elle s’appuie sur la constitution d’une bibliothèque d’opérateurs linguistiques pour les domaines d’application.
MOTS-CLÉS : langue ; langue naturelle ; base de données ; transducteur
Caudal, Patrick (1999). Accomplishments vs. Achievements : a computational treatment of the so-called punctuality vs. durativity of events, and perhaps of event structure
MOTS-CLÉS :
Chappelier, Jean-Cédric ; Rajman, Martin ; Aragües, R. ; Rozenknop, Antoine (1999). Lattice Parsing for Speech Recognition
MOTS-CLÉS :
Miclet, Laurent ; Chodorowski, Jacques (1999). Apprentissage et Evaluation de Modèles de Langage par des Techniques de Correction d’Erreurs
RÉSUMÉ : Cet article a pour but de décrire la mise au point et l’expérimentation de méthodes d’apprentissage de syntaxe à partir d’exemples positifs, en particulier pour des applications de Reconnaissance de la Parole et de Dialogue Oral. Les modèles syntaxiques, destinés à être intégrés dans une chaîne de traitement de la parole, sont extraits des données par des méthodes d’inférence grammaticale symbolique et stochastique. Ils sont fondés sur des techniques de correction d’erreurs dans les séquences. L’ensemble de ce travail a été réalisé dans le cadre du contrat 97-1B-004 avec France-Telecom (Centre National d’Etudes des Télécommunications). Dans la première partie de cet article, nous rappelons les distances entre séquences basées sur des opérations élémentaires de correction d’erreur. Nous décrivons ensuite un algorithme classique d’inférence grammaticale fondé sur cette notion, et nous en proposons une amélioration. Nous abordons à cet endroit le problème de l’évaluation d’un concept appris seulement à partir d’exemples positifs, sans contre-exemples. Par la suite, le modèle syntaxique est étendu en attribuant des probabilités (apprises à partir des données) aux règles de la grammaire. On dispose dans ce cadre d’un outil d’évaluation de la qualité de l’apprentissage : la perplexité ; cependant pour obtenir des résultats significatifs, il faut être capable de probabiliser l’espace entier des séquences, ce qui implique de lisser la grammaire stochastique apprise. Une technique de lissage est proposée, qui permet alors d’évaluer l’apprentissage sur le corpus de données issues de l’expérimentation en dialogue oral.
MOTS-CLÉS : dérivation ; dérivation corrective ; inférence grammaticale ; grammaire ; correction d’erreur ; corpus ; corpus d’apprentissage
Daille, Béatrice (1999). Identification des adjectifs relationnels en corpus
RÉSUMÉ : Cet article présente l’identification en corpus des adjectifs relationnels considérés par les linguistes comme hautement dénominatifs. Notre approche utilise un programme d’extraction terminologique qui s’applique sur un corpus préalablement étiqueté et lemmatisé. Après avoir rappelé quelques propriétés linguistiques des adjectifs relationnels, nous présenterons le programme d’extraction de terminologie et les modifications apportées à celui-ci pour effectuer cette identification. Nous évaluerons le caractère dénominatif de ces adjectifs et des termes nominaux où ils apparaissent en les comparant à un thesaurus. Nous conclurons sur l’intérêt de ces adjectifs à la fois pour l’extraction de terminologie mais aussi pour d’autres problématiques comme l’extraction de connaissances à partir de corpus ou la mise à jour d’un thesaurus.
MOTS-CLÉS : adjectif ; adjectif relationnel ; groupe prépositionnel ; variation ; terme ; candidat-terme
Dal, Georgette ; Hathout, Nabil ; Namer, Fiammetta (1999). Construire un lexique dérivationnel : théorie et réalisations
RÉSUMÉ : Le travail qui suit teste différentes façons de concevoir et de construire un lexique dérivationnel. Afin de mener à bien cette tâche, nous centrerons l’analyse sur les suffixations par -able et -ité du français (et les dérivés qu’elles forment), et nous les soumettrons à des éclairages différents : un éclairage proprement théorique et deux éclairages plus finalisés, DériF et DéCor, qui présentent des techniques différentes pour le traitement automatique de la morphologie. Au terme de ce travail, nous comparerons les résultats obtenus.
MOTS-CLÉS : unité lexicale ; lexique ; lexique dérivationnel ; nom ; nom recteur ; suffixe
Béchet, Frédéric ; Nasr, Alexis ; Spriet, Thierry ; de Mori, Renato (1999). Modèles de langage à portée variable : Application au traitement des homophones
RÉSUMÉ : L’objectif de cette étude concerne le traitement d’homophones singulier/pluriel dans un Système de Reconnaissance de la Parole en exploitant les contraintes d’accord dans la phrase à reconnaître. Un certain nombre de ces contraintes ne peut être traité par les modèles de langage à portée locale de type n-gram utilisés habituellement. Les deux modèles proposés, le modèle à base de syntagme et le modèle Homophone-Cache, permettent de résoudre certains cas d’homophonie par deux méthodes différentes : le modèle à base de syntagme permet d’introduire des contraintes syntaxiques ; le modèle Homophone-Cache a pour objet de discriminer les homophones singulier/pluriel, de manière robuste, en étant peu sensible à la mauvaise reconnaissance d’un mot au sein de la phrase.
MOTS-CLÉS : groupe nominal ; homophone ; modèle de langage ; corpus ; corpus d’apprentissage ; système de reconnaissance
Biskri, Ismaïl ; Delisle, Sylvain (1999). Un modèle hybride pour le textual data mining : un mariage de raison entre le numérique et le linguistique
RÉSUMÉ : Une des recherches de pointe menée actuellement en informatique est l’extraction des connaissances dans un texte électronique (textual data mining). Ce thème de recherche est de première importance pour les technologies de l’information qui sont confrontées à des marées de documents électroniques. Pour résoudre ce problème, plusieurs stratégies sont possibles : les unes relèvent des mathématiques et les autres de l’informatique linguistique. Nous présentons dans cet article un modèle hybride, à la fois robuste et fin, qui s’inspire des modèles neuronaux et de l’analyse linguistique informatique.
MOTS-CLÉS : structure prédicative ; groupe nominal ; extraction ; extraction de connaissances ; représentation matricielle
Djioua, Brahim (1999). DISCC : Un outil de construction et d’utilisation d’une Base de Connaissances Sémantico-Cognitives des verbes
RÉSUMÉ : Cette communication décrit un outil informatique de construction et de consultation d’un lexique verbal saisi sur des supports informatiques en vue d’une utilisation par des linguistes et qui peut être appelé à certaines étapes d’un traitement automatique de textes écrits. L’analyse du lexique verbal s’inscrit dans un modèle, celui de la Grammaire Applicative et Cognitive (GAC) développé dans l’équipe LaLIC. Le formalisme utilisé est celui du l-calcul typé et de la logique combinatoire typée avec ses combinateurs. Le lexique verbal est organisé à l’aide d’un langage de représentation sémantico-cognitif (LRSC) s’appuyant sur un ensemble de relateurs et de primitives sémantico-cognitives typées. Dans un premier temps nous présentons un outil informatique (DISCC) qui a pour tâche d’aider un sémanticien à construire des représentations sémantico-cognitives associées aux significations des verbes ; et dans un second temps, nous montrons comment il est possible de consulter les différentes significations d’un vocable verbal polysémique représenté sous forme d’un réseau. La présentation ne présente pas un dictionnaire mais développe une méthodologie de construction et de manipulation d’une base de connaissances sémantico-cognitives des verbes.
MOTS-CLÉS : lexique ; lexique verbal ; langage ; langage formel ; terme ; terme nominal ; grammaire ; grammaire fonctionnelle ; base de connaissances ; sémantique
Fairon, Cédrick ; Senellart, Jean (1999). Réflexions sur la localisation, l’étiquetage, la reconnaissance et la traduction d’expressions linguistiques complexes.
MOTS-CLÉS : groupe nominal ; graphe ; expression composée ; traduction
Lopez, Patrice ; Fay-Varnier, Christine ; Roussanaly, Azim (1999). Sous-langages d’application et LTAG : le système EGAL
RÉSUMÉ : Nous présentons un système dédié à la conception et au test d’un sous-language d’application pour un système de Dialogue Homme-Machine. EGAL se base sur une grammaire LTAG générale de la langue qui est spécialisée à une application donnée à l’aide d’un corpus d’entraînement. Un double effort a porté premièrement sur la définition d’une méthodologie précise passant par une expérimentation de type Magicien d’Oz pour le recueil des corpus et des estimations de la représentativité du corpus de conception, et, deuxièmement, sur la spécification des composants du système en vue de mettre en oeuvre des outils conviviaux, génériques et ouverts.
MOTS-CLÉS : grammaire ; sémantique ; sémantique prédicative ; langage ; langage naturel ; corpus ; sous langage
Palomar, M. ; Ferrández, A. ; Moreno, L. ; Saiz-Noeda, M. ; Muñoz, R. ; Martinez-Barco, P. ; Peral, J. ; Navarro, B. (1999). A Robust Partial Parsing Strategy based on the Slot Unification Grammars
MOTS-CLÉS :
Gayral, Françoise ; Saint-Dizier, Patrick (1999). Peut-on couper à la polysémie verbale ?
RÉSUMÉ : Dans ce bref document, nous présentons des résultats préliminaires d’une méthode de description de la sémantique des formes prédicatives dans un cadre génératif. Nous proposons une méthode pour découper les sens, en identifiant les types d’inférences qu’ils entraînent. Nous proposons une analyse intégrée des métaphores et des métonymies, ainsi qu’une représentation des sens sous forme typée et sous-spécifiée.
MOTS-CLÉS : information ; information lexicale ; polysémie ; polysémie verbale ; sémantique ; restriction de sélection ; prédicat
Goldman, Jean-Philippe ; Laenzlinger, Christopher ; Wehrli, Eric (1999). La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique
RÉSUMÉ : En synthèse automatique de la parole, la phonétisation est une étape cruciale pour une bonne intelligibilité et une bonne qualité de voix. Elle consiste à convertir une suite de mots en chaîne phonétique, qui sera par la suite utilisée pour générer le signal sonore. Les homographes hétérophones et les ajustements phonologiques tels que la liaison et l’élision sont les sources d’erreurs les plus courantes. De plus, des mots comme ’plus’ , ’tous’ et certains nombres (’cinq’, ’six’, ’dix’,...) pour lesquels plusieurs réalisations phonétiques sont possibles, peuvent également être problématiques. Nous proposons ici une résolution de ces cas complexes par l’utilisation d’une analyse syntaxique.
MOTS-CLÉS : consonne finale ; phonétisation ; variante régionale ; syntagme
Grabar, Natalia ; Zweigenbaum, Pierre (1999). Acquisition automatique de connaissances morphologiques sur le vocabulaire médical
RÉSUMÉ : La morphologie médicale est riche et productive. À côté de la simple flexion, dérivation et composition sont d’autres moyens pour créer des mots nouveaux. La connaissance morphologique se révèle par conséquent très importante pour toute application dans le traitement automatique du langage médical. Nous proposons une méthode simple et puissante pour l’acquisition automatique d’une telle connaissance. Cette méthode tire avantage de listes de termes synonymes disponibles afin d’amorcer le processus d’acquisition. Nous l’avons expérimentée dans le domaine médical sur le Microglossaire de Pathologie SNOMED. Les familles de mots morphologiquement reliés que nous avons obtenues sont correctes à 95 %. Utilisées dans un outil d’aide au codage avec expansion de requête, elles permettent d’en améliorer les performances.
MOTS-CLÉS : terminologie ; terminologie médicale ; morphologie ; morphologie médicale ; suffixe ; suffixe grammatical ; synonymie
Dal, Georgette ; Hathout, Nabil ; Namer, Fiammetta (1999). Construire un lexique dérivationnel : théorie et réalisations
RÉSUMÉ : Le travail qui suit teste différentes façons de concevoir et de construire un lexique dérivationnel. Afin de mener à bien cette tâche, nous centrerons l’analyse sur les suffixations par -able et -ité du français (et les dérivés qu’elles forment), et nous les soumettrons à des éclairages différents : un éclairage proprement théorique et deux éclairages plus finalisés, DériF et DéCor, qui présentent des techniques différentes pour le traitement automatique de la morphologie. Au terme de ce travail, nous comparerons les résultats obtenus.
MOTS-CLÉS : unité lexicale ; lexique ; lexique dérivationnel ; nom ; nom recteur ; suffixe
Illouz, Gabriel (1999). Méta-Étiqueteur Adaptatif : vers une utilisation pragmatique des ressources linguistiques
RÉSUMÉ : Le traitement automatique du langage requiert des corpus textuels de plus en plus volumineux, entre autres pour les étiqueteurs morpho-syntaxiques. Ces processus de traitement ne sont pas exempts d’erreurs. Dans l’optique d’améliorer cet étiquetage de corpus hétérogènes (composés de textes tout-venant), une approche adaptative au type de texte utilisant les ressources produites par une campagne d’évaluation sera proposée. Les résultats d’une première validation seront présentés sur les données MULTITAG. Les faits suivants sont constatés : les textes ne sont pas homogènes en terme de distribution de parties du discours, les classifications a priori ne fournissent pas une homogénéité en terme de performance et un même texte peut produire des variations positives pour un système et négatives pour un autre. De plus, il existe une relation entre la typologie de textes obtenue de façon non supervisée sur le jeu de caractères et les variations de performance.
MOTS-CLÉS : méta-étiqueteur ; variation ; corpus ; pragmatique
Kinyon, Alexandra (1999). Hiérarchisation d’analyses basée sur des informations dépendancielles dans le cadre des LTAGs
RÉSUMÉ : Depuis [Kimball 73], les préférences d’attachement telles que "l’association droite" et "l’attachement minimal" ont essentiellement été formulées en termes d’arbres de constituants (e.g. forme, nombre de noeuds ...) . Nous présentons 2 principes de préférence d’attachement formulés en termes d’arbres de dérivation (i.e. d’information dépendancielle) dans le cadre du formalisme des Grammaires d’Arbres Adjoints Lexicalisées (LTAG) . Nous montrons pourquoi ce type d’approche permet de remédier aux défauts des approches structurales exprimées en termes d’arbres de constituants et rendent compte d’heuristiques largement acceptées (i.e. argument / modifieur, idiomes).
MOTS-CLÉS : approche structurale ; arbre ; entrée lexicale ; dépendance ; dérivation ; arbre ; arbre de dérivation
Kraif, Olivier (1999). Identification des cognats et alignement bi-textuel : une étude empirique
RÉSUMÉ : Nous nous intéressons ici aux méthodes d’alignement automatique destinées à produire des corpus bi-textuels, utiles au traducteur, au terminologue ou au linguistique. Certaines techniques ont obtenu des résultats probants en s’appuyant sur la détermination empirique des " cognats " (de l’anglais " cognate "), des mots qui se traduisent l’un par l’autre et qui présentent une ressemblance graphique. Or les cognats sont généralement captés au moyen d’une approximation abrupte, de nature opératoire : on considère tous les 4-grammes (mots possédants 4 lettres en commun) comme cognats potentiels. Aucune étude n’a été faite, à notre connaissance, à propos de la validité de cette approximation. Afin d’en démontrer les possibilités et les limites, nous avons cherché à déterminer empiriquement la qualité de cette simplification, en termes de bruit et de silence (ou de manière complémentaire, de précision et de rappel). Nous avons ensuite essayé de développer un filtrage plus efficace, basé sur l’utilisation des sous-chaînes maximales. Enfin, nous avons corrélé les améliorations du filtrage avec les résultats de l’alignement, en nous basant sur une méthode générale développée par nous : nous avons pu constater un net progrès en terme de rappel et de précision de l’alignement.
MOTS-CLÉS : cognat ; distribution lexicale ; corpus ; corpus bi-textuel ; alignement ; information ; information mutuelle ; correspondance lexicale
Goldman, Jean-Philippe ; Laenzlinger, Christopher ; Wehrli, Eric (1999). La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique
RÉSUMÉ : En synthèse automatique de la parole, la phonétisation est une étape cruciale pour une bonne intelligibilité et une bonne qualité de voix. Elle consiste à convertir une suite de mots en chaîne phonétique, qui sera par la suite utilisée pour générer le signal sonore. Les homographes hétérophones et les ajustements phonologiques tels que la liaison et l’élision sont les sources d’erreurs les plus courantes. De plus, des mots comme ’plus’ , ’tous’ et certains nombres (’cinq’, ’six’, ’dix’,...) pour lesquels plusieurs réalisations phonétiques sont possibles, peuvent également être problématiques. Nous proposons ici une résolution de ces cas complexes par l’utilisation d’une analyse syntaxique.
MOTS-CLÉS : consonne finale ; phonétisation ; variante régionale ; syntagme
Laï, Claude ; Pasero, Robert (1999). Technique de résolution de proformes enchâssées
RÉSUMÉ : Nous présentons une technique de résolution de proformes enchâssées à l’aide des métastructures Prolog. Nous montrons tout d’abord un exemple d’utilisation de ces métastructures pour contrôler l’appartenance d’un élément à un domaine. Une plus grande utilité est ensuite démontrée dans la résolution de contraintes contextuelles dynamiques, qui sont particulières dans le sens où elles interviennent en fonction des contraintes déjà existantes sur les éléments considérés. Une application utile de ces contraintes est d’éviter les redondances dans la recherche des possibilités de référents pour un discours considéré, notamment dans le cas de proformes enchâssées.
MOTS-CLÉS : résolution de proforme ; enchâssement ; prédicat ; programmation ; programmation par contrainte
Adda, Gilles ; Mariani, Joseph ; Paroubek, Patrick ; Rajman, Martin ; Lecomte, Josette (1999). Métrique et premiers résultats de l’évaluation GRACE des étiqueteurs morphosyntaxiques pour le français
RÉSUMÉ : L’action GRACE est le premier exemple d’application du paradigme d’évaluation aux étiqueteurs morphosyntaxiques pour le français dans le cadre d’une campagne d’évaluation formelle, à participation ouverte et utilisant des données de grande taille. Après une rapide description de l’organisation et du déroulement de l’action ainsi que des problèmes posés par la nécessaire mise en place d’un référentiel commun pour l’évaluation, nous présenterons en détail la métrique Précision-Décision qui a été développée dans le cadre de GRACE pour la mesure quantitative des performances des systèmes d’étiquetage. Nous nous intéresserons ensuite aux résultats obtenus pour les participants à la phase de test de la campagne et indiquerons les aspects du protocole d’évaluation qui restent encore à valider sur les données recueillies. Enfin, nous conclurons en soulignant les incidences positives d’une campagne d’évaluation comme GRACE sur le domaine de l’ingénierie linguistique.Biskri
MOTS-CLÉS : unité lexicale ; étiquetage ; table de correspondance ; segmentation
Lopez, Patrice ; Fay-Varnier, Christine ; Roussanaly, Azim (1999). Sous-langages d’application et LTAG : le système EGAL
RÉSUMÉ : Nous présentons un système dédié à la conception et au test d’un sous-language d’application pour un système de Dialogue Homme-Machine. EGAL se base sur une grammaire LTAG générale de la langue qui est spécialisée à une application donnée à l’aide d’un corpus d’entraînement. Un double effort a porté premièrement sur la définition d’une méthodologie précise passant par une expérimentation de type Magicien d’Oz pour le recueil des corpus et des estimations de la représentativité du corpus de conception, et, deuxièmement, sur la spécification des composants du système en vue de mettre en oeuvre des outils conviviaux, génériques et ouverts.
MOTS-CLÉS : grammaire ; sémantique ; sémantique prédicative ; langage ; langage naturel ; corpus ; sous langage
Adda, Gilles ; Mariani, Joseph ; Paroubek, Patrick ; Rajman, Martin ; Lecomte, Josette (1999). Métrique et premiers résultats de l’évaluation GRACE des étiqueteurs morphosyntaxiques pour le français
RÉSUMÉ : L’action GRACE est le premier exemple d’application du paradigme d’évaluation aux étiqueteurs morphosyntaxiques pour le français dans le cadre d’une campagne d’évaluation formelle, à participation ouverte et utilisant des données de grande taille. Après une rapide description de l’organisation et du déroulement de l’action ainsi que des problèmes posés par la nécessaire mise en place d’un référentiel commun pour l’évaluation, nous présenterons en détail la métrique Précision-Décision qui a été développée dans le cadre de GRACE pour la mesure quantitative des performances des systèmes d’étiquetage. Nous nous intéresserons ensuite aux résultats obtenus pour les participants à la phase de test de la campagne et indiquerons les aspects du protocole d’évaluation qui restent encore à valider sur les données recueillies. Enfin, nous conclurons en soulignant les incidences positives d’une campagne d’évaluation comme GRACE sur le domaine de l’ingénierie linguistique.Biskri
MOTS-CLÉS : unité lexicale ; étiquetage ; table de correspondance ; segmentation
Palomar, M. ; Ferrández, A. ; Moreno, L. ; Saiz-Noeda, M. ; Muñoz, R. ; Martinez-Barco, P. ; Peral, J. ; Navarro, B. (1999). A Robust Partial Parsing Strategy based on the Slot Unification Grammars
MOTS-CLÉS :
Bouchou, Béatrice ; Maurel, Denis (1999). Une bibliothèque d’opérateurs linguistiques pour la consultation de base de données en langue naturelle
RÉSUMÉ : L’interrogation de bases de données en langue naturelle est une application directe du traitement automatique des langues naturelles. Son utilité va en s’accroissant avec le développement d’outils d’information accessibles au grand public à travers la Toile Internet. L’approche que nous proposons s’appuie d’une part sur les fondations linguistiques établies par la théorie de Z. S. Harris (dans l’élaboration du dictionnaire, et surtout dans la définition des opérateurs linguistiques), et d’autre part sur un outil informatique précis (les transducteurs). Elle représente une alternative aux traitements syntaxico-sémantiques habituellement développés dans des formalismes logiques. Elle s’appuie sur la constitution d’une bibliothèque d’opérateurs linguistiques pour les domaines d’application.
MOTS-CLÉS : langue ; langue naturelle ; base de données ; transducteur
Mertens, Piet (1999). Un algorithme pour la génération de l’intonation dans la parole de synthèse
RÉSUMÉ : L’article décrit l’implémentation d’un modèle d’intonation dans son application à la synthèse de la parole pour le français. Le modèle se caractérise par l’importance accordée à la syntaxe et par une approche analytique de l’intonation qui, en synthèse, permet une manipulation explicite et compositionnelle du sens intonatif. Le traitement proprement dit est précédé d’une analyse syntaxique identifiant les constituants, certains rapports de dépendance ou certaines constructions qui demandent une intonation particulière. Ces aspects intonatifs sont représentés par des marqueurs symboliques. À partir de l’arborescence sont constitués les groupes intonatifs, tout en tenant compte du rythme. Dans certaines conditions, des réajustements de la structure syntaxique seront effectués. Les tons mélodiques sont attribués aux groupes en fonction des marqueurs et des rapports syntaxiques.
MOTS-CLÉS : regroupement intonatif ; intonation ; accent initial ; accent lexical
Meunier, Frédéric (1999). Modélisation des ressources linguistiques d’une application industrielle
RÉSUMÉ : Cet article présente les avantages qu’apporte la modélisation des ressources linguistiques utilisées dans une application. Le lecteur trouvera également dans cet article une présentation rapide de deux méthodes répandues dans le monde de l’informatique (Merise et UML) et leur modèle associé (entité relation et objet). Enfin, nous donnerons un exemple de modélisation des ressources linguistiques d’une application en cours de développement.
MOTS-CLÉS : entrée lexicale ; structure formelle ; arbre ; génération de textes
Miclet, Laurent ; Chodorowski, Jacques (1999). Apprentissage et Evaluation de Modèles de Langage par des Techniques de Correction d’Erreurs
RÉSUMÉ : Cet article a pour but de décrire la mise au point et l’expérimentation de méthodes d’apprentissage de syntaxe à partir d’exemples positifs, en particulier pour des applications de Reconnaissance de la Parole et de Dialogue Oral. Les modèles syntaxiques, destinés à être intégrés dans une chaîne de traitement de la parole, sont extraits des données par des méthodes d’inférence grammaticale symbolique et stochastique. Ils sont fondés sur des techniques de correction d’erreurs dans les séquences. L’ensemble de ce travail a été réalisé dans le cadre du contrat 97-1B-004 avec France-Telecom (Centre National d’Etudes des Télécommunications). Dans la première partie de cet article, nous rappelons les distances entre séquences basées sur des opérations élémentaires de correction d’erreur. Nous décrivons ensuite un algorithme classique d’inférence grammaticale fondé sur cette notion, et nous en proposons une amélioration. Nous abordons à cet endroit le problème de l’évaluation d’un concept appris seulement à partir d’exemples positifs, sans contre-exemples. Par la suite, le modèle syntaxique est étendu en attribuant des probabilités (apprises à partir des données) aux règles de la grammaire. On dispose dans ce cadre d’un outil d’évaluation de la qualité de l’apprentissage : la perplexité ; cependant pour obtenir des résultats significatifs, il faut être capable de probabiliser l’espace entier des séquences, ce qui implique de lisser la grammaire stochastique apprise. Une technique de lissage est proposée, qui permet alors d’évaluer l’apprentissage sur le corpus de données issues de l’expérimentation en dialogue oral.
MOTS-CLÉS : dérivation ; dérivation corrective ; inférence grammaticale ; grammaire ; correction d’erreur ; corpus ; corpus d’apprentissage
Palomar, M. ; Ferrández, A. ; Moreno, L. ; Saiz-Noeda, M. ; Muñoz, R. ; Martinez-Barco, P. ; Peral, J. ; Navarro, B. (1999). A Robust Partial Parsing Strategy based on the Slot Unification Grammars
MOTS-CLÉS :
Palomar, M. ; Ferrández, A. ; Moreno, L. ; Saiz-Noeda, M. ; Muñoz, R. ; Martinez-Barco, P. ; Peral, J. ; Navarro, B. (1999). A Robust Partial Parsing Strategy based on the Slot Unification Grammars
MOTS-CLÉS :
Dal, Georgette ; Hathout, Nabil ; Namer, Fiammetta (1999). Construire un lexique dérivationnel : théorie et réalisations
RÉSUMÉ : Le travail qui suit teste différentes façons de concevoir et de construire un lexique dérivationnel. Afin de mener à bien cette tâche, nous centrerons l’analyse sur les suffixations par -able et -ité du français (et les dérivés qu’elles forment), et nous les soumettrons à des éclairages différents : un éclairage proprement théorique et deux éclairages plus finalisés, DériF et DéCor, qui présentent des techniques différentes pour le traitement automatique de la morphologie. Au terme de ce travail, nous comparerons les résultats obtenus.
MOTS-CLÉS : unité lexicale ; lexique ; lexique dérivationnel ; nom ; nom recteur ; suffixe
Béchet, Frédéric ; Nasr, Alexis ; Spriet, Thierry ; de Mori, Renato (1999). Modèles de langage à portée variable : Application au traitement des homophones
RÉSUMÉ : L’objectif de cette étude concerne le traitement d’homophones singulier/pluriel dans un Système de Reconnaissance de la Parole en exploitant les contraintes d’accord dans la phrase à reconnaître. Un certain nombre de ces contraintes ne peut être traité par les modèles de langage à portée locale de type n-gram utilisés habituellement. Les deux modèles proposés, le modèle à base de syntagme et le modèle Homophone-Cache, permettent de résoudre certains cas d’homophonie par deux méthodes différentes : le modèle à base de syntagme permet d’introduire des contraintes syntaxiques ; le modèle Homophone-Cache a pour objet de discriminer les homophones singulier/pluriel, de manière robuste, en étant peu sensible à la mauvaise reconnaissance d’un mot au sein de la phrase.
MOTS-CLÉS : groupe nominal ; homophone ; modèle de langage ; corpus ; corpus d’apprentissage ; système de reconnaissance
Palomar, M. ; Ferrández, A. ; Moreno, L. ; Saiz-Noeda, M. ; Muñoz, R. ; Martinez-Barco, P. ; Peral, J. ; Navarro, B. (1999). A Robust Partial Parsing Strategy based on the Slot Unification Grammars
MOTS-CLÉS :
Palomar, M. ; Ferrández, A. ; Moreno, L. ; Saiz-Noeda, M. ; Muñoz, R. ; Martinez-Barco, P. ; Peral, J. ; Navarro, B. (1999). A Robust Partial Parsing Strategy based on the Slot Unification Grammars
MOTS-CLÉS :
Panissod, Christiane (1999). Quantification et anaphore : entité anaphorique complexe (méronymique, processuelle, situationnelle)
RÉSUMÉ : Quels types d’informations sont nécessaires à l’interprétation de référents évolutifs et de référents associés ? Nous verrons que les anaphores évolutives et associatives sont construites à partir de processus et de situations, et que leur interprétation nécessite une représentation lexicale complexe. Les approches atomiques peuvent par conséquent difficilement rendre compte de ce type d’anaphores : cependant les propriétés des quantificateurs semblent jouer un rôle dans ces phénomènes.
MOTS-CLÉS : anaphore ; quantification ; représentation lexicale ; méronymie
Adda, Gilles ; Mariani, Joseph ; Paroubek, Patrick ; Rajman, Martin ; Lecomte, Josette (1999). Métrique et premiers résultats de l’évaluation GRACE des étiqueteurs morphosyntaxiques pour le français
RÉSUMÉ : L’action GRACE est le premier exemple d’application du paradigme d’évaluation aux étiqueteurs morphosyntaxiques pour le français dans le cadre d’une campagne d’évaluation formelle, à participation ouverte et utilisant des données de grande taille. Après une rapide description de l’organisation et du déroulement de l’action ainsi que des problèmes posés par la nécessaire mise en place d’un référentiel commun pour l’évaluation, nous présenterons en détail la métrique Précision-Décision qui a été développée dans le cadre de GRACE pour la mesure quantitative des performances des systèmes d’étiquetage. Nous nous intéresserons ensuite aux résultats obtenus pour les participants à la phase de test de la campagne et indiquerons les aspects du protocole d’évaluation qui restent encore à valider sur les données recueillies. Enfin, nous conclurons en soulignant les incidences positives d’une campagne d’évaluation comme GRACE sur le domaine de l’ingénierie linguistique.Biskri
MOTS-CLÉS : unité lexicale ; étiquetage ; table de correspondance ; segmentation
Laï, Claude ; Pasero, Robert (1999). Technique de résolution de proformes enchâssées
RÉSUMÉ : Nous présentons une technique de résolution de proformes enchâssées à l’aide des métastructures Prolog. Nous montrons tout d’abord un exemple d’utilisation de ces métastructures pour contrôler l’appartenance d’un élément à un domaine. Une plus grande utilité est ensuite démontrée dans la résolution de contraintes contextuelles dynamiques, qui sont particulières dans le sens où elles interviennent en fonction des contraintes déjà existantes sur les éléments considérés. Une application utile de ces contraintes est d’éviter les redondances dans la recherche des possibilités de référents pour un discours considéré, notamment dans le cas de proformes enchâssées.
MOTS-CLÉS : résolution de proforme ; enchâssement ; prédicat ; programmation ; programmation par contrainte
Basili, Roberto ; Pazienza, Maria Tereza ; Zanzotto, Fabio Massimo (1999). Lexicalizing a shallow parser
MOTS-CLÉS :
Palomar, M. ; Ferrández, A. ; Moreno, L. ; Saiz-Noeda, M. ; Muñoz, R. ; Martinez-Barco, P. ; Peral, J. ; Navarro, B. (1999). A Robust Partial Parsing Strategy based on the Slot Unification Grammars
MOTS-CLÉS :
Pichon, Ronan ; Sébillot, Pascale (1999). Différencier les sens des mots à l’aide du thème et du contexte de leurs occurrences : une expérience
RÉSUMÉ : Dans cet article, nous montrons, à travers l’exposé de résultats d’une expérience menée sur corpus, comment la connaissance des thèmes dans lesquels apparaissent des mots et la mise en évidence de similarités et de différences entre les voisinages de leurs occurrences dans les parties de textes abordant ces thèmes permettent de mettre au jour des différences fines dans les acceptions associées aux mots dans chacun de ces thèmes. La méthode proposée pour ce faire est presque entièrement automatique et est basée sur le calcul d’intersections et de différences ensemblistes entre des séquences de mots constituant des contextes.
MOTS-CLÉS : acquisition lexicale ; ressource lexicale ; corpus
Chappelier, Jean-Cédric ; Rajman, Martin ; Aragües, R. ; Rozenknop, Antoine (1999). Lattice Parsing for Speech Recognition
MOTS-CLÉS :
Adda, Gilles ; Mariani, Joseph ; Paroubek, Patrick ; Rajman, Martin ; Lecomte, Josette (1999). Métrique et premiers résultats de l’évaluation GRACE des étiqueteurs morphosyntaxiques pour le français
RÉSUMÉ : L’action GRACE est le premier exemple d’application du paradigme d’évaluation aux étiqueteurs morphosyntaxiques pour le français dans le cadre d’une campagne d’évaluation formelle, à participation ouverte et utilisant des données de grande taille. Après une rapide description de l’organisation et du déroulement de l’action ainsi que des problèmes posés par la nécessaire mise en place d’un référentiel commun pour l’évaluation, nous présenterons en détail la métrique Précision-Décision qui a été développée dans le cadre de GRACE pour la mesure quantitative des performances des systèmes d’étiquetage. Nous nous intéresserons ensuite aux résultats obtenus pour les participants à la phase de test de la campagne et indiquerons les aspects du protocole d’évaluation qui restent encore à valider sur les données recueillies. Enfin, nous conclurons en soulignant les incidences positives d’une campagne d’évaluation comme GRACE sur le domaine de l’ingénierie linguistique.Biskri
MOTS-CLÉS : unité lexicale ; étiquetage ; table de correspondance ; segmentation
Lopez, Patrice ; Fay-Varnier, Christine ; Roussanaly, Azim (1999). Sous-langages d’application et LTAG : le système EGAL
RÉSUMÉ : Nous présentons un système dédié à la conception et au test d’un sous-language d’application pour un système de Dialogue Homme-Machine. EGAL se base sur une grammaire LTAG générale de la langue qui est spécialisée à une application donnée à l’aide d’un corpus d’entraînement. Un double effort a porté premièrement sur la définition d’une méthodologie précise passant par une expérimentation de type Magicien d’Oz pour le recueil des corpus et des estimations de la représentativité du corpus de conception, et, deuxièmement, sur la spécification des composants du système en vue de mettre en oeuvre des outils conviviaux, génériques et ouverts.
MOTS-CLÉS : grammaire ; sémantique ; sémantique prédicative ; langage ; langage naturel ; corpus ; sous langage
Chappelier, Jean-Cédric ; Rajman, Martin ; Aragües, R. ; Rozenknop, Antoine (1999). Lattice Parsing for Speech Recognition
MOTS-CLÉS :
Gayral, Françoise ; Saint-Dizier, Patrick (1999). Peut-on couper à la polysémie verbale ?
RÉSUMÉ : Dans ce bref document, nous présentons des résultats préliminaires d’une méthode de description de la sémantique des formes prédicatives dans un cadre génératif. Nous proposons une méthode pour découper les sens, en identifiant les types d’inférences qu’ils entraînent. Nous proposons une analyse intégrée des métaphores et des métonymies, ainsi qu’une représentation des sens sous forme typée et sous-spécifiée.
MOTS-CLÉS : information ; information lexicale ; polysémie ; polysémie verbale ; sémantique ; restriction de sélection ; prédicat
Palomar, M. ; Ferrández, A. ; Moreno, L. ; Saiz-Noeda, M. ; Muñoz, R. ; Martinez-Barco, P. ; Peral, J. ; Navarro, B. (1999). A Robust Partial Parsing Strategy based on the Slot Unification Grammars
MOTS-CLÉS :
Pichon, Ronan ; Sébillot, Pascale (1999). Différencier les sens des mots à l’aide du thème et du contexte de leurs occurrences : une expérience
RÉSUMÉ : Dans cet article, nous montrons, à travers l’exposé de résultats d’une expérience menée sur corpus, comment la connaissance des thèmes dans lesquels apparaissent des mots et la mise en évidence de similarités et de différences entre les voisinages de leurs occurrences dans les parties de textes abordant ces thèmes permettent de mettre au jour des différences fines dans les acceptions associées aux mots dans chacun de ces thèmes. La méthode proposée pour ce faire est presque entièrement automatique et est basée sur le calcul d’intersections et de différences ensemblistes entre des séquences de mots constituant des contextes.
MOTS-CLÉS : acquisition lexicale ; ressource lexicale ; corpus
Fairon, Cédrick ; Senellart, Jean (1999). Réflexions sur la localisation, l’étiquetage, la reconnaissance et la traduction d’expressions linguistiques complexes.
MOTS-CLÉS : groupe nominal ; graphe ; expression composée ; traduction
Béchet, Frédéric ; Nasr, Alexis ; Spriet, Thierry ; de Mori, Renato (1999). Modèles de langage à portée variable : Application au traitement des homophones
RÉSUMÉ : L’objectif de cette étude concerne le traitement d’homophones singulier/pluriel dans un Système de Reconnaissance de la Parole en exploitant les contraintes d’accord dans la phrase à reconnaître. Un certain nombre de ces contraintes ne peut être traité par les modèles de langage à portée locale de type n-gram utilisés habituellement. Les deux modèles proposés, le modèle à base de syntagme et le modèle Homophone-Cache, permettent de résoudre certains cas d’homophonie par deux méthodes différentes : le modèle à base de syntagme permet d’introduire des contraintes syntaxiques ; le modèle Homophone-Cache a pour objet de discriminer les homophones singulier/pluriel, de manière robuste, en étant peu sensible à la mauvaise reconnaissance d’un mot au sein de la phrase.
MOTS-CLÉS : groupe nominal ; homophone ; modèle de langage ; corpus ; corpus d’apprentissage ; système de reconnaissance
Tanguy, Ludovic ; Armstrong, Susan ; Walker, Derek (1999). Isotopies sémantiques pour la vérification de traduction
RÉSUMÉ : A des fins d’automatisation de la vérification de traduction, les méthodes traditionnelles se basent généralement sur un fort niveau de littéralité dans le style de la traduction. En faisant appel à des bases terminologiques multilingues et des algorithmes d’alignement de textes parallèles, il est possible de vérifier dans un travail de traduction le respect de normes strictes, sous la forme d’une liste de possibilités de traduction pour un terme donné. Nous proposons ici une méthode alternative basée sur le repérage, dans les deux textes, de structures sémantiques générales, ou isotopies, et la comparaison des schémas qu’elles présentent au niveau du texte et non plus de la phrase ou du paragraphe, permettant ainsi une plus grande tolérance dans le style de traduction à vérifier.
MOTS-CLÉS : isotopie ; unité lexicale ; sémantique ; sémantique structurale ; algorithme d’alignement ; classe d’équivalence
Tanguy, Ludovic ; Armstrong, Susan ; Walker, Derek (1999). Isotopies sémantiques pour la vérification de traduction
RÉSUMÉ : A des fins d’automatisation de la vérification de traduction, les méthodes traditionnelles se basent généralement sur un fort niveau de littéralité dans le style de la traduction. En faisant appel à des bases terminologiques multilingues et des algorithmes d’alignement de textes parallèles, il est possible de vérifier dans un travail de traduction le respect de normes strictes, sous la forme d’une liste de possibilités de traduction pour un terme donné. Nous proposons ici une méthode alternative basée sur le repérage, dans les deux textes, de structures sémantiques générales, ou isotopies, et la comparaison des schémas qu’elles présentent au niveau du texte et non plus de la phrase ou du paragraphe, permettant ainsi une plus grande tolérance dans le style de traduction à vérifier.
MOTS-CLÉS : isotopie ; unité lexicale ; sémantique ; sémantique structurale ; algorithme d’alignement ; classe d’équivalence
Goldman, Jean-Philippe ; Laenzlinger, Christopher ; Wehrli, Eric (1999). La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique
RÉSUMÉ : En synthèse automatique de la parole, la phonétisation est une étape cruciale pour une bonne intelligibilité et une bonne qualité de voix. Elle consiste à convertir une suite de mots en chaîne phonétique, qui sera par la suite utilisée pour générer le signal sonore. Les homographes hétérophones et les ajustements phonologiques tels que la liaison et l’élision sont les sources d’erreurs les plus courantes. De plus, des mots comme ’plus’ , ’tous’ et certains nombres (’cinq’, ’six’, ’dix’,...) pour lesquels plusieurs réalisations phonétiques sont possibles, peuvent également être problématiques. Nous proposons ici une résolution de ces cas complexes par l’utilisation d’une analyse syntaxique.
MOTS-CLÉS : consonne finale ; phonétisation ; variante régionale ; syntagme
Wilcock, Graham (1999). Héritage Multiple et Templates dans l’Implantation de HPSG
RÉSUMÉ : L’analyse des propositions relatives en anglais telle que décrite par Sag (1997) se base sur une classification à deux dimensions des constructions syntaxiques en HPSG. Nous présentons ici une implémentation de cette analyse, fondée sur l’héritage multiple et les templates à deux dimensions dans le système ProFIT (Erbach, 1995).
MOTS-CLÉS : proposition relative ; templates ; hiérarchie ; héritage multiple
Basili, Roberto ; Pazienza, Maria Tereza ; Zanzotto, Fabio Massimo (1999). Lexicalizing a shallow parser
MOTS-CLÉS :
Grabar, Natalia ; Zweigenbaum, Pierre (1999). Acquisition automatique de connaissances morphologiques sur le vocabulaire médical
RÉSUMÉ : La morphologie médicale est riche et productive. À côté de la simple flexion, dérivation et composition sont d’autres moyens pour créer des mots nouveaux. La connaissance morphologique se révèle par conséquent très importante pour toute application dans le traitement automatique du langage médical. Nous proposons une méthode simple et puissante pour l’acquisition automatique d’une telle connaissance. Cette méthode tire avantage de listes de termes synonymes disponibles afin d’amorcer le processus d’acquisition. Nous l’avons expérimentée dans le domaine médical sur le Microglossaire de Pathologie SNOMED. Les familles de mots morphologiquement reliés que nous avons obtenues sont correctes à 95 %. Utilisées dans un outil d’aide au codage avec expansion de requête, elles permettent d’en améliorer les performances.
MOTS-CLÉS : terminologie ; terminologie médicale ; morphologie ; morphologie médicale ; suffixe ; suffixe grammatical ; synonymie