TALN 2003
Attention l’index est incomplet : il manque certains auteurs de posters.
Antoine, Jean-Yves ; Jérôme, Goulian ; Jeanne, Villaneau (2003). Quand le TAL robuste s’attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée
RÉSUMÉ : Dans cet article, nous discutons de l’application au langage parlé des techniques d’analyse syntaxique robuste développées pour l.écrit. Nous présentons deux systèmes de compréhension de parole spontané en situation de dialogue homme-machine finalisé, dont les performances montrent la pertinence de ces méthodes pour atteindre une compréhension fine et robuste des énoncés oraux.
MOTS-CLÉS : langage ; langage parlé ; analyse incrémentale ; grammaire ; grammaire de lien ; dépendance ; dépendance entre chunks ; automate ; automate à états finis
Audibert, Laurent (2003). Etude des critères de désambiguïsation sémantique automatique : résultats sur les cooccurrences
RÉSUMÉ : Nous présentons dans cet article une étude sur les critères de désambiguïsation sémantique automatique basés sur les cooccurrences. L’algorithme de désambiguïsation utilisé est du type liste de décision, il sélectionne une cooccurrence unique supposée véhiculer l’information la plus fiable dans le contexte ciblé. Cette étude porte sur 60 vocables répartis, de manière égale, en trois classes grammaticales (nom, adjectif et verbe) avec une granularité fine au niveau des sens. Nous commentons les résultats obtenus par chacun des critères évalués de manière indépendante et nous nous intéressons aux particularités qui différencient les trois classes grammaticales étudiées. Cette étude s’appuie sur un corpus français étiqueté sémantiquement dans le cadre du projet SyntSem.
MOTS-CLÉS : désambiguïsation ; désambiguïsation sémantique ; lexie ; étiquetage ; vocable ; algorithme de désambiguïsation
Brun, Armelle ; Smaïli, Kamel ; Haton, Jean-Paul (2003). Nouvelle approche de la sélection de vocabulaire pour la détection de thème
RÉSUMÉ : En reconnaissance de la parole, un des moyens d’améliorer les performances des systèmes est de passer par l’adaptation des modèles de langage. Une étape cruciale de ce processus consiste à détecter le thème du document traité et à adapter ensuite le modèle de langage. Dans cet article, nous proposons une nouvelle approche de création des vocabulaires utilisés pour la détection de thème. Cette dernière est fondée sur le développement de vocabulaires spécifiques et caractéristiques des différents thèmes. Nous montrons que cette approche permet non seulement d’améliorer les performances des méthodes, mais exploite également des vocabulaires de taille réduite. De plus, elle permet d’améliorer de façon très significative les performances de méthodes de détection lorsqu’elles sont combinées.
MOTS-CLÉS : information ; information mutuelle ; détection de thème ; sélection de vocabulaire ; corpus ; corpus d’apprentissage
Rozenknop, Antoine ; Chappelier, Jean-Cédric ; Rajman, Martin (2003). Apprentissage discriminant pour les Grammaires à Substitution d’Arbres
RÉSUMÉ : Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu’elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une même entrée, ce qui n’est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d’arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutôt que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.
MOTS-CLÉS : grammaire ; grammaire à substitution d’arbres ; grammaire stochastique à substitution d’arbres ; corpus ; corpus d’apprentissage ; grammaire hors-contexte
Chauché, Jacques ; Prince, Violaine ; Simon, Jaillet ; Teisseire, Maguelonne (2003). Classification automatique de textes à partir de leur analyse syntaxico-sémantique
RÉSUMÉ : L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de "similarités" de surface.
MOTS-CLÉS : classification ; classification automatique ; espace vectoriel ; analyse syntaxique ; analyse sémantique
Claveau, Vincent (2003). Extraction de couples nom-verbe sémantiquement liés : une technique symbolique automatique
RÉSUMÉ : Dans le modèle du Lexique génératif (Pustejovsky, 1995), certaines propriétés sémantiques des noms sont exprimées à l’aide de verbes. Les couples nom-verbe ainsi formés présentent un intérêt applicatif notamment en recherche d’information. Leur acquisition sur corpus constitue donc un enjeu, mais la découverte des patrons qui les définissent en contexte est également importante pour la compréhension même du modèle du Lexique génératif. Cet article présente une technique entièrement automatique permettant de répondre à ce double besoin d’extraction sur corpus de couples et de patrons morpho-syntaxiques et sémantiques. Elle combine pour ce faire deux approches d’acquisition- l’approche statistique et l’approche symbolique- en conservant les avantages propres à chacune d’entre elles : robustesse et automatisation des méthodes statistiques, qualité et expressivité des résultats des techniques symboliques.
MOTS-CLÉS : couples nom-verbe ; lexique ; lexique génératif ; corpus ; extraction de couple ; patron d’extraction
Duclaye, Florence ; Collin, Olivier ; Yvon, François (2003). Apprentissage Automatique de Paraphrases pour l’Amélioration d’un Système de Questions-Réponses
RÉSUMÉ : Dans cet article, nous présentons une méthodologie d’apprentissage faiblement supervisé pour l’extraction automatique de paraphrases à partir du Web. À partir d’un seule exemple de paire (prédicat, arguments), un corpus est progressivement accumulé par sondage duWeb. Les phases de sondage alternent avec des phases de filtrage, durant lesquelles les paraphrases les moins plausibles sont éliminées à l’aide d’une procédure de clustering non supervisée. Ce mécanisme d’apprentissage s’appuie sur un système de Questions-Réponses existant et les paraphrases apprises seront utilisées pour en améliorer le rappel. Nous nous concentrons ici sur le mécanisme d’apprentissage de ce système et en présentons les premiers résultats.
MOTS-CLÉS : paraphrase ; information ; information contextuelle ; groupe verbal ; patron d’extraction ; extraction ; extraction d’information ; algorithme de clustering
Smets, Martine ; Gamon, Michael ; Corston-Oliver, Simon ; Ringger, Eric (2003). French Amalgam : A machine-learned sentence realization system
RÉSUMÉ : Cette communication présente la version pour le français d’Amalgam, un système de réalisation automatique de phrases. Deux des modèles du système sont décrits en détail, et nous expliquons comment la performance des modèles peut être améliorée en combinant connaissances et intuition linguistiques et méthodes statistiques.
MOTS-CLÉS : réalisation de phrase ; phrase ; génération automatique ; arbre ; arbre de décision ; français
Crabbé, Benoît ; Gaiffe, Bertrand ; Roussanaly, Azim (2003). Une plate-forme de conception et d’exploitation d’une grammaire d’arbres adjoints lexicalisés
RÉSUMÉ : Dans cet article, nous présentons un ensemble d’outils de conception et d’exploitation pour des grammaires d’arbres adjoints lexicalisés. Ces outils s’appuient sur une représentation XML des ressources (lexique et grammaire). Dans notre représentation, à chaque arbre de la grammaire est associé un hypertag décrivant les phénomènes linguistiques qu’il recouvre. De ce fait, la liaison avec le lexique se trouve plus compactée et devient plus aisée à maintenir. Enfin, un analyseur permet de valider les grammaires et les lexiques ainsi conçus aussi bien de façon interactive que différée sur des corpus.
MOTS-CLÉS : arbre ; arbre adjoint lexicalisé ; grammaire ; grammaire d’arbre ; équation d’ancrage ; lemmatisation ; métagrammaire
Crestan, Éric ; El-Bèze, Marc ; de Loupy, Claude (2003). Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique ?
RÉSUMÉ : Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l’objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d’arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d’un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d’un contexte plus étendu. Les améliorations constatées lors d’expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.
MOTS-CLÉS : désambiguïsation ; désambiguïsation sémantique ; contexte optimal ; corpus ; corpus d’apprentissage ; arbre ; arbre de classification
Danlos, Laurence (2003). Représentation sémantique sous-spécifiée pour les conjonctions de subordination
RÉSUMÉ : Cet article concerne les phrases complexes avec deux conjonctions de subordination. Nous montrerons que de telles phrases peuvent s’interpréter de quatre façons différentes. Il s’agit donc de formes fortement ambigües pour lesquelles il est opportun d’avoir recours à des représentations sémantiques sous-spécifiées, et c’est ce que nous proposerons.
MOTS-CLÉS : arbre ; sémantique ; arbre de dérivation ; relation de dominance
de Chalendar, Gaël ; El Kateb, Faïza ; Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2003). Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
RÉSUMÉ : La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.
MOTS-CLÉS : entité nommée ; système de question-réponse ; mécanisme d’appariement ; algorithme de classification
Crestan, Éric ; El-Bèze, Marc ; de Loupy, Claude (2003). Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique ?
RÉSUMÉ : Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l’objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d’arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d’un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d’un contexte plus étendu. Les améliorations constatées lors d’expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.
MOTS-CLÉS : désambiguïsation ; désambiguïsation sémantique ; contexte optimal ; corpus ; corpus d’apprentissage ; arbre ; arbre de classification
Duclaye, Florence ; Collin, Olivier ; Yvon, François (2003). Apprentissage Automatique de Paraphrases pour l’Amélioration d’un Système de Questions-Réponses
RÉSUMÉ : Dans cet article, nous présentons une méthodologie d’apprentissage faiblement supervisé pour l’extraction automatique de paraphrases à partir du Web. À partir d’un seule exemple de paire (prédicat, arguments), un corpus est progressivement accumulé par sondage duWeb. Les phases de sondage alternent avec des phases de filtrage, durant lesquelles les paraphrases les moins plausibles sont éliminées à l’aide d’une procédure de clustering non supervisée. Ce mécanisme d’apprentissage s’appuie sur un système de Questions-Réponses existant et les paraphrases apprises seront utilisées pour en améliorer le rappel. Nous nous concentrons ici sur le mécanisme d’apprentissage de ce système et en présentons les premiers résultats.
MOTS-CLÉS : paraphrase ; information ; information contextuelle ; groupe verbal ; patron d’extraction ; extraction ; extraction d’information ; algorithme de clustering
de Chalendar, Gaël ; El Kateb, Faïza ; Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2003). Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
RÉSUMÉ : La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.
MOTS-CLÉS : entité nommée ; système de question-réponse ; mécanisme d’appariement ; algorithme de classification
Crestan, Éric ; El-Bèze, Marc ; de Loupy, Claude (2003). Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique ?
RÉSUMÉ : Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l’objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d’arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d’un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d’un contexte plus étendu. Les améliorations constatées lors d’expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.
MOTS-CLÉS : désambiguïsation ; désambiguïsation sémantique ; contexte optimal ; corpus ; corpus d’apprentissage ; arbre ; arbre de classification
de Chalendar, Gaël ; El Kateb, Faïza ; Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2003). Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
RÉSUMÉ : La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.
MOTS-CLÉS : entité nommée ; système de question-réponse ; mécanisme d’appariement ; algorithme de classification
Crabbé, Benoît ; Gaiffe, Bertrand ; Roussanaly, Azim (2003). Une plate-forme de conception et d’exploitation d’une grammaire d’arbres adjoints lexicalisés
RÉSUMÉ : Dans cet article, nous présentons un ensemble d’outils de conception et d’exploitation pour des grammaires d’arbres adjoints lexicalisés. Ces outils s’appuient sur une représentation XML des ressources (lexique et grammaire). Dans notre représentation, à chaque arbre de la grammaire est associé un hypertag décrivant les phénomènes linguistiques qu’il recouvre. De ce fait, la liaison avec le lexique se trouve plus compactée et devient plus aisée à maintenir. Enfin, un analyseur permet de valider les grammaires et les lexiques ainsi conçus aussi bien de façon interactive que différée sur des corpus.
MOTS-CLÉS : arbre ; arbre adjoint lexicalisé ; grammaire ; grammaire d’arbre ; équation d’ancrage ; lemmatisation ; métagrammaire
Smets, Martine ; Gamon, Michael ; Corston-Oliver, Simon ; Ringger, Eric (2003). French Amalgam : A machine-learned sentence realization system
RÉSUMÉ : Cette communication présente la version pour le français d’Amalgam, un système de réalisation automatique de phrases. Deux des modèles du système sont décrits en détail, et nous expliquons comment la performance des modèles peut être améliorée en combinant connaissances et intuition linguistiques et méthodes statistiques.
MOTS-CLÉS : réalisation de phrase ; phrase ; génération automatique ; arbre ; arbre de décision ; français
Gerdes, Kim ; Yoo, Hi-Yon (2003). La topologie comme interface entre syntaxe et prosodie : un système de génération appliqué au grec moderne
RÉSUMÉ : Dans cet article, nous développons les modules syntaxique et topologique du modèle Sens-Texte et nous montrons l’utilité de la topologie comme représentation intermédiaire entre les représentations syntaxique et phonologique. Le modèle est implémenté dans un générateur et nous présentons la grammaire du grec moderne dans cette approche.
MOTS-CLÉS : syntaxe ; prosodie ; marquage communicatif ; tête ; tête verbale ; arbre ; arbre de dépendance ; processus de linéarisation
Zweigenbaum, Pierre ; Hadouche, Fadila ; Grabar, Natalia (2003). Apprentissage de relations morphologiques en corpus
RÉSUMÉ : Nous proposons une méthode pour apprendre des relations morphologiques dérivationnelles en corpus. Elle se fonde sur la cooccurrence en corpus de mots formellement proches et un filtrage complémentaire sur la forme des mots dérivés. Elle est mise en oeuvre et expérimentée sur un corpus médical. Les relations obtenues avant filtrage ont une précision moyenne de 75,6 % au 5000è rang (fenêtre de 150 mots). L’examen détaillé des dérivés adjectivaux d’un échantillon de 633 noms du champ de l’anatomie montre une bonne précision de 85-91 % et un rappel modéré de 32-34 %. Nous discutons ces résultats et proposons des pistes pour les compléter.
MOTS-CLÉS : relation morphologique ; corpus ; adjectif ; adjectif dérivé ; seuil d’association ; langue ; langue de spécialité
Vinot, Romain ; Grabar, Natalia ; Valette, Mathieu (2003). Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’Internet
RÉSUMÉ : Le filtrage de contenus illicites sur Internet est une problématique difficile qui est actuellement résolue par des approches à base de listes noires et de mots-clés. Les systèmes de classification textuelle par apprentissage automatique nécessitant peu d’interventions humaines, elles peuvent avantageusement remplacer ou compléter les méthodes précédentes pour faciliter les mises à jour. Ces techniques, traditionnellement utilisées avec des catégories définies par leur sujet (économie ou sport par exemple), sont fondées sur la présence ou l’absence de mots. Nous présentons une évaluation de ces techniques pour le filtrage de contenus racistes. Contrairement aux cas traditionnels, les documents ne doivent pas être catégorisés suivant leur sujet mais suivant le point de vue énoncé (raciste ou antiraciste). Nos résultats montrent que les classifieurs, essentiellement lexicaux, sont néanmoins bien adaptées : plus de 90% des documents sont correctement classés, voir même 99% si l’on accepte une classe de rejet (avec 20% d’exemples non classés).
MOTS-CLÉS : classification automatique ; représentation vectorielle ; algorithme de classification ; corpus ; corpus d’apprentissage
Gramatovici, Radu ; Martin-Vide, Carlos (2003). Contextual grammars and Dependancy Tree
RÉSUMÉ : On présente une nouvelle variante de grammaire contextuelle structurée, qui produit des arbres de dépendance. Le nouveau modèle génératif, appelé grammaire contextuelle de dépendance, améliore la puissance générative forte et faible des grammaires contextuelles, tout en étant un candidat potentiel pour la description mathématique des modèles syntactiques de dépendance.
MOTS-CLÉS : grammaire ; grammaire contextuelle ; arbre ; arbre de dépendance ; arbre projectif de dépendance
de Chalendar, Gaël ; El Kateb, Faïza ; Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2003). Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
RÉSUMÉ : La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.
MOTS-CLÉS : entité nommée ; système de question-réponse ; mécanisme d’appariement ; algorithme de classification
Zweigenbaum, Pierre ; Hadouche, Fadila ; Grabar, Natalia (2003). Apprentissage de relations morphologiques en corpus
RÉSUMÉ : Nous proposons une méthode pour apprendre des relations morphologiques dérivationnelles en corpus. Elle se fonde sur la cooccurrence en corpus de mots formellement proches et un filtrage complémentaire sur la forme des mots dérivés. Elle est mise en oeuvre et expérimentée sur un corpus médical. Les relations obtenues avant filtrage ont une précision moyenne de 75,6 % au 5000è rang (fenêtre de 150 mots). L’examen détaillé des dérivés adjectivaux d’un échantillon de 633 noms du champ de l’anatomie montre une bonne précision de 85-91 % et un rappel modéré de 32-34 %. Nous discutons ces résultats et proposons des pistes pour les compléter.
MOTS-CLÉS : relation morphologique ; corpus ; adjectif ; adjectif dérivé ; seuil d’association ; langue ; langue de spécialité
Hagège, Claude ; Roux, Christian (2003). Entre syntaxe et sémantique : Normalisation de la sortie de l’analyse syntaxique en vue de l’amélioration de l’extraction d’information à partir de textes
RÉSUMÉ : Cet article présente la normalisation de la sortie d’un analyseur robuste de l’anglais. Nous montrons quels sont les enrichissements que nous avons effectués afin de pouvoir obtenir à la sortie de notre analyseur des relations syntaxiques plus générales que celles que nous offrent habituellement les analyseurs robustes existants. Pour cela nous utilisons non seulement des propriétés syntaxiques, mais nous faisons appel aussi à de l’information de morphologie dérivationnelle. Cette tâche de normalisation est menée à bien grâce à notre analyseur XIP qui intègre tous les traitements allant du texte brut tout venant au texte normalisé. Nous pensons que cette normalisation nous permettra de mener avec plus de succès des tâches d’extraction d’information ou de détection de similarité entre documents.
MOTS-CLÉS : extraction ; extraction d’information ; analyse syntaxique ; grammaire ; grammaire générale ; syntagme ; syntagme nominal ; syntagme noyau
Brun, Armelle ; Smaïli, Kamel ; Haton, Jean-Paul (2003). Nouvelle approche de la sélection de vocabulaire pour la détection de thème
RÉSUMÉ : En reconnaissance de la parole, un des moyens d’améliorer les performances des systèmes est de passer par l’adaptation des modèles de langage. Une étape cruciale de ce processus consiste à détecter le thème du document traité et à adapter ensuite le modèle de langage. Dans cet article, nous proposons une nouvelle approche de création des vocabulaires utilisés pour la détection de thème. Cette dernière est fondée sur le développement de vocabulaires spécifiques et caractéristiques des différents thèmes. Nous montrons que cette approche permet non seulement d’améliorer les performances des méthodes, mais exploite également des vocabulaires de taille réduite. De plus, elle permet d’améliorer de façon très significative les performances de méthodes de détection lorsqu’elles sont combinées.
MOTS-CLÉS : information ; information mutuelle ; détection de thème ; sélection de vocabulaire ; corpus ; corpus d’apprentissage
Jamoussi, Salma ; Smaïli, Kamel ; Haton, Jean-Paul (2003). Vers la compréhension automatique de la parole : extraction de concepts par réseaux bayésiens
RÉSUMÉ : La compréhension automatique de la parole peut être considérée comme un problème d’association entre deux langages différents. En entrée, la requête exprimée en langage naturel et en sortie, juste avant l’étape d’interprétation, la même requête exprimée en terme de concepts. Un concept représente un sens bien déterminé. Il est défini par un ensemble de mots partageant les mêmes propriétés sémantiques. Dans cet article, nous proposons une méthode à base de réseau bayésien pour l’extraction automatique des concepts ainsi que trois approches différentes pour la représentation vectorielle des mots. Ces représentations aident un réseau bayésien à regrouper les mots, construisant ainsi la liste adéquate des concepts à partir d’un corpus d’apprentissage. Nous conclurons cet article par la description d’une étape de post-traitement au cours de laquelle, nous étiquetons nos requêtes et nous générons les commandes SQL appropriées validant ainsi, notre approche de compréhension.
MOTS-CLÉS : représentation vectorielle ; réseaux bayésiens ; parole ; corpus ; corpus d’apprentissage ; extraction ; extraction de concepts
de Chalendar, Gaël ; El Kateb, Faïza ; Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2003). Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
RÉSUMÉ : La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.
MOTS-CLÉS : entité nommée ; système de question-réponse ; mécanisme d’appariement ; algorithme de classification
Jackiewicz, Agata ; Minel, Jean-Luc (2003). L’identification des structures discursives engendrées par les cadres organisationnels
RÉSUMÉ : Cet article présente tout d’abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l’ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d’indicateur proposé dans le cadre théorique de l’exploration contextuelle.
MOTS-CLÉS : structure discursive ; exploration contextuelle ; segment textuel ; marqueur ; marqueur d’intégration
Jamoussi, Salma ; Smaïli, Kamel ; Haton, Jean-Paul (2003). Vers la compréhension automatique de la parole : extraction de concepts par réseaux bayésiens
RÉSUMÉ : La compréhension automatique de la parole peut être considérée comme un problème d’association entre deux langages différents. En entrée, la requête exprimée en langage naturel et en sortie, juste avant l’étape d’interprétation, la même requête exprimée en terme de concepts. Un concept représente un sens bien déterminé. Il est défini par un ensemble de mots partageant les mêmes propriétés sémantiques. Dans cet article, nous proposons une méthode à base de réseau bayésien pour l’extraction automatique des concepts ainsi que trois approches différentes pour la représentation vectorielle des mots. Ces représentations aident un réseau bayésien à regrouper les mots, construisant ainsi la liste adéquate des concepts à partir d’un corpus d’apprentissage. Nous conclurons cet article par la description d’une étape de post-traitement au cours de laquelle, nous étiquetons nos requêtes et nous générons les commandes SQL appropriées validant ainsi, notre approche de compréhension.
MOTS-CLÉS : représentation vectorielle ; réseaux bayésiens ; parole ; corpus ; corpus d’apprentissage ; extraction ; extraction de concepts
Antoine, Jean-Yves ; Jérôme, Goulian ; Jeanne, Villaneau (2003). Quand le TAL robuste s’attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée
RÉSUMÉ : Dans cet article, nous discutons de l’application au langage parlé des techniques d’analyse syntaxique robuste développées pour l.écrit. Nous présentons deux systèmes de compréhension de parole spontané en situation de dialogue homme-machine finalisé, dont les performances montrent la pertinence de ces méthodes pour atteindre une compréhension fine et robuste des énoncés oraux.
MOTS-CLÉS : langage ; langage parlé ; analyse incrémentale ; grammaire ; grammaire de lien ; dépendance ; dépendance entre chunks ; automate ; automate à états finis
Antoine, Jean-Yves ; Jérôme, Goulian ; Jeanne, Villaneau (2003). Quand le TAL robuste s’attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée
RÉSUMÉ : Dans cet article, nous discutons de l’application au langage parlé des techniques d’analyse syntaxique robuste développées pour l.écrit. Nous présentons deux systèmes de compréhension de parole spontané en situation de dialogue homme-machine finalisé, dont les performances montrent la pertinence de ces méthodes pour atteindre une compréhension fine et robuste des énoncés oraux.
MOTS-CLÉS : langage ; langage parlé ; analyse incrémentale ; grammaire ; grammaire de lien ; dépendance ; dépendance entre chunks ; automate ; automate à états finis
Kahane, Sylvain (2003). Les signes grammaticaux dans l’interface sémantique-syntaxe d’une grammaire d’unification
RÉSUMÉ : Cet article présente une grammaire d’unification dans laquelle les morphèmes grammaticaux sont traités similairement aux morphèmes lexicaux ! : les deux types de morphèmes sont traités comme des signes à part entière et sont décris par des structures élémentaires qui peuvent s’unifier directement les unes aux autres (ce qui en fait une grammaire de dépendance). Nous illustrerons notre propos par un fragment de l’interface sémantique-syntaxe du français pour le verbe et l’adjectif : voix, modes, temps, impersonnel et tough-movement.
MOTS-CLÉS : grammaire d’unification ; morphème grammatical ; morphème lexical ; relation prédicat-argument ; grammaire ; grammaire de dépendance ; arbre ; arbre de dépendance
Schwab, Didier ; Lafourcade, Mathieu ; Prince, Violaine (2003). Amélioration de liens entre acceptions par fonctions lexicales vectorielles symétriques
RÉSUMÉ : Dans le cadre du projet Papillon qui vise à la construction de bases lexicales multilingues par acceptions, nous avons défini des stratégies pour peupler un dictionnaire pivot de liens interlingues à partir d’une base vectorielle monolingue. Il peut y avoir un nombre important de sens par entrée et donc l’identification des acceptions correspondantes peut être erronée. Nous améliorons l’intégrité de la base d’acception grâce à des agents experts dans les fonctions lexicales comme la synonymie, l’antonymie, l’hypéronymie ou l’holonymie. Ces agents sont capable de calculer la pertinence d’une relation sémantique entre deux acceptions par les diverses informations lexicales récoltées et les vecteurs conceptuels. Si une certaine pertinence est au-dessus d’un seuil, ils créent un lien sémantique qui peut être utilisé par d’autres agents chargés par exemple de la désambiguïsation ou du transfert lexical. Les agents vérifiant l’intégrité de la base cherchent les incohérences de la base et en avertissent les lexicographes le cas échéant.
MOTS-CLÉS : vecteur ; vecteur conceptuel ; synonymie ; base lexicale multilingue ; fonctions lexicales
Landragin, Frédéric (2003). Une caractérisation de la pertinence pour les actions de référence
RÉSUMÉ : Que ce soit pour la compréhension ou pour la génération d’expressions référentielles, la Théorie de la Pertinence propose un critère cognitif permettant de comparer les pertinences de plusieurs expressions dans un contexte linguistique. Nous voulons ici aller plus loin dans cette voie en proposant une caractérisation précise de ce critère, ainsi que des pistes pour sa quantification. Nous étendons l’analyse à la communication multimodale, et nous montrons comment la perception visuelle, le langage et le geste ostensif interagissent dans la production d’effets contextuels. Nous nous attachons à décrire l’effort de traitement d’une expression multimodale à l’aide de traits. Nous montrons alors comment des comparaisons entre ces traits permettent d’exploiter efficacement le critère de pertinence en communication homme-machine. Nous soulevons quelques points faibles de notre proposition et nous en tirons des perspectives pour une formalisation de la pertinence.
MOTS-CLÉS : expression référentielle ; expression multimodale ; dialogue ; théorie de la pertinence
Langlais, Philippe ; Simard, Michel (2003). De la traduction probabiliste aux mémoires de traduction (ou l’inverse)
RÉSUMÉ : En dépit des travaux réalisés cette dernière décennie dans le cadre général de la traduction probabiliste, nous sommes toujours bien loin du jour où un engin de traduction automatique (probabiliste ou pas) sera capable de répondre pleinement aux besoins d’un traducteur professionnel. Dans une étude récente (Langlais, 2002), nous avons montré comment un engin de traduction probabiliste pouvait bénéficier de ressources terminologiques extérieures. Dans cette étude, nous montrons que les techniques de traduction probabiliste peuvent être utilisées pour extraire des informations sous-phrastiques d’une mémoire de traduction. Ces informations peuvent à leur tour s’avérer utiles à un engin de traduction probabiliste. Nous rapportons des résultats sur un corpus de test de taille importante en utilisant la mémoire de traduction d’un concordancier bilingue commercial.
MOTS-CLÉS : terminologie ; traduction ; traduction probabiliste ; brique traductionnelle
Manuélian, Hélène (2003). Une analyse des emplois du démonstratif en corpus
RÉSUMÉ : Cet article propose une nouvelle classification des utilisations des démonstratifs, une mise en oeuvre de cette classification dans une analyse de corpus et présente les resultats obtenus au terme de cette analyse. La classification proposée est basée sur celles existant dans la littérature et étendues pour permettre la génération de groupes nominaux démonstratifs. L’analyse de corpus montre en particulier que la nature "reclassifiante" du démonstratif lui permet d’assumer deux fonctions (une fonction anaphorique et une fonction de support pour de l’information nouvelle) et qu’il existe des moyens variés de réaliser ces fonctions.
MOTS-CLÉS : groupe nominal ; syntagme ; syntagme démonstratif ; anaphore ; corpus ; fréquence
Gramatovici, Radu ; Martin-Vide, Carlos (2003). Contextual grammars and Dependancy Tree
RÉSUMÉ : On présente une nouvelle variante de grammaire contextuelle structurée, qui produit des arbres de dépendance. Le nouveau modèle génératif, appelé grammaire contextuelle de dépendance, améliore la puissance générative forte et faible des grammaires contextuelles, tout en étant un candidat potentiel pour la description mathématique des modèles syntactiques de dépendance.
MOTS-CLÉS : grammaire ; grammaire contextuelle ; arbre ; arbre de dépendance ; arbre projectif de dépendance
Jackiewicz, Agata ; Minel, Jean-Luc (2003). L’identification des structures discursives engendrées par les cadres organisationnels
RÉSUMÉ : Cet article présente tout d’abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l’ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d’indicateur proposé dans le cadre théorique de l’exploration contextuelle.
MOTS-CLÉS : structure discursive ; exploration contextuelle ; segment textuel ; marqueur ; marqueur d’intégration
Monceaux, Laura ; Vilnat, Anne (2003). MULTI-ANALYSE vers une analyse syntaxique plus fiable
RÉSUMÉ : Dans cet article, nous proposons de montrer que la combinaison de plusieurs analyses syntaxiques permet d’extraire l’analyse la plus fiable pour une phrase donnée. De plus, chaque information syntaxique sera affectée d’un score de confiance déterminé selon le nombre d’analyseurs syntaxiques la confirmant. Nous verrons que cette approche implique l’étude des différents analyseurs syntaxiques existants ainsi que leur évaluation.
MOTS-CLÉS : analyse syntaxique ; groupe nominal ; groupe prépositionnel ; algorithme de combinaison ; taux de confiance
de Chalendar, Gaël ; El Kateb, Faïza ; Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2003). Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
RÉSUMÉ : La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.
MOTS-CLÉS : entité nommée ; système de question-réponse ; mécanisme d’appariement ; algorithme de classification
Chauché, Jacques ; Prince, Violaine ; Simon, Jaillet ; Teisseire, Maguelonne (2003). Classification automatique de textes à partir de leur analyse syntaxico-sémantique
RÉSUMÉ : L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de "similarités" de surface.
MOTS-CLÉS : classification ; classification automatique ; espace vectoriel ; analyse syntaxique ; analyse sémantique
Schwab, Didier ; Lafourcade, Mathieu ; Prince, Violaine (2003). Amélioration de liens entre acceptions par fonctions lexicales vectorielles symétriques
RÉSUMÉ : Dans le cadre du projet Papillon qui vise à la construction de bases lexicales multilingues par acceptions, nous avons défini des stratégies pour peupler un dictionnaire pivot de liens interlingues à partir d’une base vectorielle monolingue. Il peut y avoir un nombre important de sens par entrée et donc l’identification des acceptions correspondantes peut être erronée. Nous améliorons l’intégrité de la base d’acception grâce à des agents experts dans les fonctions lexicales comme la synonymie, l’antonymie, l’hypéronymie ou l’holonymie. Ces agents sont capable de calculer la pertinence d’une relation sémantique entre deux acceptions par les diverses informations lexicales récoltées et les vecteurs conceptuels. Si une certaine pertinence est au-dessus d’un seuil, ils créent un lien sémantique qui peut être utilisé par d’autres agents chargés par exemple de la désambiguïsation ou du transfert lexical. Les agents vérifiant l’intégrité de la base cherchent les incohérences de la base et en avertissent les lexicographes le cas échéant.
MOTS-CLÉS : vecteur ; vecteur conceptuel ; synonymie ; base lexicale multilingue ; fonctions lexicales
Rozenknop, Antoine ; Chappelier, Jean-Cédric ; Rajman, Martin (2003). Apprentissage discriminant pour les Grammaires à Substitution d’Arbres
RÉSUMÉ : Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu’elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une même entrée, ce qui n’est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d’arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutôt que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.
MOTS-CLÉS : grammaire ; grammaire à substitution d’arbres ; grammaire stochastique à substitution d’arbres ; corpus ; corpus d’apprentissage ; grammaire hors-contexte
Smets, Martine ; Gamon, Michael ; Corston-Oliver, Simon ; Ringger, Eric (2003). French Amalgam : A machine-learned sentence realization system
RÉSUMÉ : Cette communication présente la version pour le français d’Amalgam, un système de réalisation automatique de phrases. Deux des modèles du système sont décrits en détail, et nous expliquons comment la performance des modèles peut être améliorée en combinant connaissances et intuition linguistiques et méthodes statistiques.
MOTS-CLÉS : réalisation de phrase ; phrase ; génération automatique ; arbre ; arbre de décision ; français
de Chalendar, Gaël ; El Kateb, Faïza ; Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2003). Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
RÉSUMÉ : La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.
MOTS-CLÉS : entité nommée ; système de question-réponse ; mécanisme d’appariement ; algorithme de classification
Crabbé, Benoît ; Gaiffe, Bertrand ; Roussanaly, Azim (2003). Une plate-forme de conception et d’exploitation d’une grammaire d’arbres adjoints lexicalisés
RÉSUMÉ : Dans cet article, nous présentons un ensemble d’outils de conception et d’exploitation pour des grammaires d’arbres adjoints lexicalisés. Ces outils s’appuient sur une représentation XML des ressources (lexique et grammaire). Dans notre représentation, à chaque arbre de la grammaire est associé un hypertag décrivant les phénomènes linguistiques qu’il recouvre. De ce fait, la liaison avec le lexique se trouve plus compactée et devient plus aisée à maintenir. Enfin, un analyseur permet de valider les grammaires et les lexiques ainsi conçus aussi bien de façon interactive que différée sur des corpus.
MOTS-CLÉS : arbre ; arbre adjoint lexicalisé ; grammaire ; grammaire d’arbre ; équation d’ancrage ; lemmatisation ; métagrammaire
Hagège, Claude ; Roux, Christian (2003). Entre syntaxe et sémantique : Normalisation de la sortie de l’analyse syntaxique en vue de l’amélioration de l’extraction d’information à partir de textes
RÉSUMÉ : Cet article présente la normalisation de la sortie d’un analyseur robuste de l’anglais. Nous montrons quels sont les enrichissements que nous avons effectués afin de pouvoir obtenir à la sortie de notre analyseur des relations syntaxiques plus générales que celles que nous offrent habituellement les analyseurs robustes existants. Pour cela nous utilisons non seulement des propriétés syntaxiques, mais nous faisons appel aussi à de l’information de morphologie dérivationnelle. Cette tâche de normalisation est menée à bien grâce à notre analyseur XIP qui intègre tous les traitements allant du texte brut tout venant au texte normalisé. Nous pensons que cette normalisation nous permettra de mener avec plus de succès des tâches d’extraction d’information ou de détection de similarité entre documents.
MOTS-CLÉS : extraction ; extraction d’information ; analyse syntaxique ; grammaire ; grammaire générale ; syntagme ; syntagme nominal ; syntagme noyau
Rozenknop, Antoine ; Chappelier, Jean-Cédric ; Rajman, Martin (2003). Apprentissage discriminant pour les Grammaires à Substitution d’Arbres
RÉSUMÉ : Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu’elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une même entrée, ce qui n’est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d’arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutôt que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.
MOTS-CLÉS : grammaire ; grammaire à substitution d’arbres ; grammaire stochastique à substitution d’arbres ; corpus ; corpus d’apprentissage ; grammaire hors-contexte
Schwab, Didier ; Lafourcade, Mathieu ; Prince, Violaine (2003). Amélioration de liens entre acceptions par fonctions lexicales vectorielles symétriques
RÉSUMÉ : Dans le cadre du projet Papillon qui vise à la construction de bases lexicales multilingues par acceptions, nous avons défini des stratégies pour peupler un dictionnaire pivot de liens interlingues à partir d’une base vectorielle monolingue. Il peut y avoir un nombre important de sens par entrée et donc l’identification des acceptions correspondantes peut être erronée. Nous améliorons l’intégrité de la base d’acception grâce à des agents experts dans les fonctions lexicales comme la synonymie, l’antonymie, l’hypéronymie ou l’holonymie. Ces agents sont capable de calculer la pertinence d’une relation sémantique entre deux acceptions par les diverses informations lexicales récoltées et les vecteurs conceptuels. Si une certaine pertinence est au-dessus d’un seuil, ils créent un lien sémantique qui peut être utilisé par d’autres agents chargés par exemple de la désambiguïsation ou du transfert lexical. Les agents vérifiant l’intégrité de la base cherchent les incohérences de la base et en avertissent les lexicographes le cas échéant.
MOTS-CLÉS : vecteur ; vecteur conceptuel ; synonymie ; base lexicale multilingue ; fonctions lexicales
Langlais, Philippe ; Simard, Michel (2003). De la traduction probabiliste aux mémoires de traduction (ou l’inverse)
RÉSUMÉ : En dépit des travaux réalisés cette dernière décennie dans le cadre général de la traduction probabiliste, nous sommes toujours bien loin du jour où un engin de traduction automatique (probabiliste ou pas) sera capable de répondre pleinement aux besoins d’un traducteur professionnel. Dans une étude récente (Langlais, 2002), nous avons montré comment un engin de traduction probabiliste pouvait bénéficier de ressources terminologiques extérieures. Dans cette étude, nous montrons que les techniques de traduction probabiliste peuvent être utilisées pour extraire des informations sous-phrastiques d’une mémoire de traduction. Ces informations peuvent à leur tour s’avérer utiles à un engin de traduction probabiliste. Nous rapportons des résultats sur un corpus de test de taille importante en utilisant la mémoire de traduction d’un concordancier bilingue commercial.
MOTS-CLÉS : terminologie ; traduction ; traduction probabiliste ; brique traductionnelle
Chauché, Jacques ; Prince, Violaine ; Simon, Jaillet ; Teisseire, Maguelonne (2003). Classification automatique de textes à partir de leur analyse syntaxico-sémantique
RÉSUMÉ : L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de "similarités" de surface.
MOTS-CLÉS : classification ; classification automatique ; espace vectoriel ; analyse syntaxique ; analyse sémantique
Jamoussi, Salma ; Smaïli, Kamel ; Haton, Jean-Paul (2003). Vers la compréhension automatique de la parole : extraction de concepts par réseaux bayésiens
RÉSUMÉ : La compréhension automatique de la parole peut être considérée comme un problème d’association entre deux langages différents. En entrée, la requête exprimée en langage naturel et en sortie, juste avant l’étape d’interprétation, la même requête exprimée en terme de concepts. Un concept représente un sens bien déterminé. Il est défini par un ensemble de mots partageant les mêmes propriétés sémantiques. Dans cet article, nous proposons une méthode à base de réseau bayésien pour l’extraction automatique des concepts ainsi que trois approches différentes pour la représentation vectorielle des mots. Ces représentations aident un réseau bayésien à regrouper les mots, construisant ainsi la liste adéquate des concepts à partir d’un corpus d’apprentissage. Nous conclurons cet article par la description d’une étape de post-traitement au cours de laquelle, nous étiquetons nos requêtes et nous générons les commandes SQL appropriées validant ainsi, notre approche de compréhension.
MOTS-CLÉS : représentation vectorielle ; réseaux bayésiens ; parole ; corpus ; corpus d’apprentissage ; extraction ; extraction de concepts
Brun, Armelle ; Smaïli, Kamel ; Haton, Jean-Paul (2003). Nouvelle approche de la sélection de vocabulaire pour la détection de thème
RÉSUMÉ : En reconnaissance de la parole, un des moyens d’améliorer les performances des systèmes est de passer par l’adaptation des modèles de langage. Une étape cruciale de ce processus consiste à détecter le thème du document traité et à adapter ensuite le modèle de langage. Dans cet article, nous proposons une nouvelle approche de création des vocabulaires utilisés pour la détection de thème. Cette dernière est fondée sur le développement de vocabulaires spécifiques et caractéristiques des différents thèmes. Nous montrons que cette approche permet non seulement d’améliorer les performances des méthodes, mais exploite également des vocabulaires de taille réduite. De plus, elle permet d’améliorer de façon très significative les performances de méthodes de détection lorsqu’elles sont combinées.
MOTS-CLÉS : information ; information mutuelle ; détection de thème ; sélection de vocabulaire ; corpus ; corpus d’apprentissage
Smets, Martine ; Gamon, Michael ; Corston-Oliver, Simon ; Ringger, Eric (2003). French Amalgam : A machine-learned sentence realization system
RÉSUMÉ : Cette communication présente la version pour le français d’Amalgam, un système de réalisation automatique de phrases. Deux des modèles du système sont décrits en détail, et nous expliquons comment la performance des modèles peut être améliorée en combinant connaissances et intuition linguistiques et méthodes statistiques.
MOTS-CLÉS : réalisation de phrase ; phrase ; génération automatique ; arbre ; arbre de décision ; français
Chauché, Jacques ; Prince, Violaine ; Simon, Jaillet ; Teisseire, Maguelonne (2003). Classification automatique de textes à partir de leur analyse syntaxico-sémantique
RÉSUMÉ : L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de "similarités" de surface.
MOTS-CLÉS : classification ; classification automatique ; espace vectoriel ; analyse syntaxique ; analyse sémantique
Vaillant, Pascal (2003). Une grammaire formelle du créole martiniquais pour la génération automatique
RÉSUMÉ : Nous présenterons dans cette communication les premiers travaux de modélisation informatique d’une grammaire de la langue créole martiniquaise, en nous inspirant des descriptions fonctionnelles de Damoiseau (1984) ainsi que du manuel de Pinalie Bernabé (1999). Prenant appui sur des travaux antérieurs en génération de texte (Vaillant, 1997), nous utilisons un formalisme de grammaires d’unification, les grammaires d’adjonction d’arbres (TAG d’après l’acronyme anglais), ainsi qu’une modélisation de catégories lexicales fonctionnelles à base syntaxico-sémantique, pour mettre en oeuvre une grammaire du créole martiniquais utilisable dans une maquette de système de génération automatique. L’un des intérêts principaux de ce système pourrait être son utilisation comme logiciel outil pour l’aide à l’apprentissage du créole en tant que langue seconde.
MOTS-CLÉS : créole martiniquais ; groupe nominal ; marques aspectuelles ; grammaire ; grammaire formelle ; corpus
Vinot, Romain ; Grabar, Natalia ; Valette, Mathieu (2003). Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’Internet
RÉSUMÉ : Le filtrage de contenus illicites sur Internet est une problématique difficile qui est actuellement résolue par des approches à base de listes noires et de mots-clés. Les systèmes de classification textuelle par apprentissage automatique nécessitant peu d’interventions humaines, elles peuvent avantageusement remplacer ou compléter les méthodes précédentes pour faciliter les mises à jour. Ces techniques, traditionnellement utilisées avec des catégories définies par leur sujet (économie ou sport par exemple), sont fondées sur la présence ou l’absence de mots. Nous présentons une évaluation de ces techniques pour le filtrage de contenus racistes. Contrairement aux cas traditionnels, les documents ne doivent pas être catégorisés suivant leur sujet mais suivant le point de vue énoncé (raciste ou antiraciste). Nos résultats montrent que les classifieurs, essentiellement lexicaux, sont néanmoins bien adaptées : plus de 90% des documents sont correctement classés, voir même 99% si l’on accepte une classe de rejet (avec 20% d’exemples non classés).
MOTS-CLÉS : classification automatique ; représentation vectorielle ; algorithme de classification ; corpus ; corpus d’apprentissage
Véronis, Jean (2003). Cartographie lexicale pour la recherche d’information
RÉSUMÉ : Nous décrivons un algorithme, HyperLex, de détermination automatique des différents usages d’un mot dans une base textuelle sans utilisation d’un dictionnaire. Cet algorithme basé sur la détection des composantes de forte densité du graphe des cooccurrences de mots permet, contrairement aux méthodes précédemment proposées (vecteurs de mots), d’isoler des usages très peu fréquents. Il est associé à une technique de représentation graphique permettant à l’utilisateur de naviguer de façon visuelle à travers le lexique et d’explorer les différentes thématiques correspondant aux usages discriminés.
MOTS-CLÉS : recherche d’information ; cartographie lexicale ; vecteur ; vecteur de mot ; algorithme de détection de coocurrences
de Chalendar, Gaël ; El Kateb, Faïza ; Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2003). Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
RÉSUMÉ : La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.
MOTS-CLÉS : entité nommée ; système de question-réponse ; mécanisme d’appariement ; algorithme de classification
Monceaux, Laura ; Vilnat, Anne (2003). MULTI-ANALYSE vers une analyse syntaxique plus fiable
RÉSUMÉ : Dans cet article, nous proposons de montrer que la combinaison de plusieurs analyses syntaxiques permet d’extraire l’analyse la plus fiable pour une phrase donnée. De plus, chaque information syntaxique sera affectée d’un score de confiance déterminé selon le nombre d’analyseurs syntaxiques la confirmant. Nous verrons que cette approche implique l’étude des différents analyseurs syntaxiques existants ainsi que leur évaluation.
MOTS-CLÉS : analyse syntaxique ; groupe nominal ; groupe prépositionnel ; algorithme de combinaison ; taux de confiance
Vinot, Romain ; Grabar, Natalia ; Valette, Mathieu (2003). Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’Internet
RÉSUMÉ : Le filtrage de contenus illicites sur Internet est une problématique difficile qui est actuellement résolue par des approches à base de listes noires et de mots-clés. Les systèmes de classification textuelle par apprentissage automatique nécessitant peu d’interventions humaines, elles peuvent avantageusement remplacer ou compléter les méthodes précédentes pour faciliter les mises à jour. Ces techniques, traditionnellement utilisées avec des catégories définies par leur sujet (économie ou sport par exemple), sont fondées sur la présence ou l’absence de mots. Nous présentons une évaluation de ces techniques pour le filtrage de contenus racistes. Contrairement aux cas traditionnels, les documents ne doivent pas être catégorisés suivant leur sujet mais suivant le point de vue énoncé (raciste ou antiraciste). Nos résultats montrent que les classifieurs, essentiellement lexicaux, sont néanmoins bien adaptées : plus de 90% des documents sont correctement classés, voir même 99% si l’on accepte une classe de rejet (avec 20% d’exemples non classés).
MOTS-CLÉS : classification automatique ; représentation vectorielle ; algorithme de classification ; corpus ; corpus d’apprentissage
Gerdes, Kim ; Yoo, Hi-Yon (2003). La topologie comme interface entre syntaxe et prosodie : un système de génération appliqué au grec moderne
RÉSUMÉ : Dans cet article, nous développons les modules syntaxique et topologique du modèle Sens-Texte et nous montrons l’utilité de la topologie comme représentation intermédiaire entre les représentations syntaxique et phonologique. Le modèle est implémenté dans un générateur et nous présentons la grammaire du grec moderne dans cette approche.
MOTS-CLÉS : syntaxe ; prosodie ; marquage communicatif ; tête ; tête verbale ; arbre ; arbre de dépendance ; processus de linéarisation
Duclaye, Florence ; Collin, Olivier ; Yvon, François (2003). Apprentissage Automatique de Paraphrases pour l’Amélioration d’un Système de Questions-Réponses
RÉSUMÉ : Dans cet article, nous présentons une méthodologie d’apprentissage faiblement supervisé pour l’extraction automatique de paraphrases à partir du Web. À partir d’un seule exemple de paire (prédicat, arguments), un corpus est progressivement accumulé par sondage duWeb. Les phases de sondage alternent avec des phases de filtrage, durant lesquelles les paraphrases les moins plausibles sont éliminées à l’aide d’une procédure de clustering non supervisée. Ce mécanisme d’apprentissage s’appuie sur un système de Questions-Réponses existant et les paraphrases apprises seront utilisées pour en améliorer le rappel. Nous nous concentrons ici sur le mécanisme d’apprentissage de ce système et en présentons les premiers résultats.
MOTS-CLÉS : paraphrase ; information ; information contextuelle ; groupe verbal ; patron d’extraction ; extraction ; extraction d’information ; algorithme de clustering
Zweigenbaum, Pierre ; Hadouche, Fadila ; Grabar, Natalia (2003). Apprentissage de relations morphologiques en corpus
RÉSUMÉ : Nous proposons une méthode pour apprendre des relations morphologiques dérivationnelles en corpus. Elle se fonde sur la cooccurrence en corpus de mots formellement proches et un filtrage complémentaire sur la forme des mots dérivés. Elle est mise en oeuvre et expérimentée sur un corpus médical. Les relations obtenues avant filtrage ont une précision moyenne de 75,6 % au 5000è rang (fenêtre de 150 mots). L’examen détaillé des dérivés adjectivaux d’un échantillon de 633 noms du champ de l’anatomie montre une bonne précision de 85-91 % et un rappel modéré de 32-34 %. Nous discutons ces résultats et proposons des pistes pour les compléter.
MOTS-CLÉS : relation morphologique ; corpus ; adjectif ; adjectif dérivé ; seuil d’association ; langue ; langue de spécialité