TALN 2002
Villaneau, Jeanne ; Antoine, Jean-Yves ; Ridoux, Olivier (2002). LOGUS : un système formel de compréhension du français parlé spontané-présentation et évaluation
RÉSUMÉ : Le système de compréhension présenté dans cet article propose une approche logique et lexicalisée associant syntaxe et sémantique pour une analyse non sélective et hors-cadres sémantiques prédéterminés. L’analyse se déroule suivant deux grandes étapes ; un chunking est suivi d’une mise en relation des chunks qui aboutit à la construction de la représentation sémantique finale : formule logique ou graphe conceptuel. Nous montrons comment le formalisme a dû évoluer pour accroître l’importance de la syntaxe et améliorer la généricité des règles. Malgré l’utilisation d’une connaissance pragmatico-sémantique liée à l’application, la spécificité du système est circonscrite au choix des mots du lexique et à la définition de cette connaissance. Les résultats d’une campagne d’évaluation ont mis en évidence une bonne tolérance aux inattendus et aux phénomènes complexes, prouvant ainsi la validité de l’approche.
MOTS-CLÉS : graphe ; graphe conceptuel ; énoncé oral ; français parlé ; système de compréhension ; chunk
Besançon, Romaric ; Rajman, Martin (2002). Filtrages syntaxiques de co-occurrences pour la représentation vectorielle de documents
RÉSUMÉ : L’intégration de co-occurrences dans les modèles de représentation vectorielle de documents s’est avérée une source d’amélioration de la pertinence des mesures de similarités textuelles calculées dans le cadre de ces modèles (Rajman et al., 2000 ; Besançon, 2001). Dans cette optique, la définition des contextes pris en compte pour les co-occurrences est cruciale, par son influence sur les performances des modèles à base de co-occurrences. Dans cet article, nous proposons d’étudier deux méthodes de filtrage des co-occurrences fondées sur l’utilisation d’informations syntaxiques supplémentaires. Nous présentons également une évaluation de ces méthodes dans le cadre de la tâche de la recherche documentaire.
MOTS-CLÉS : représentation vectorielle ; syntaxe ; pondération locale ; méthode de filtrage ; fréquence ; fréquence de co-occurrence
Bigi, Brigitte ; Smaïli, Kamel (2002). Identification thématique hiérarchique : Application aux forums de discussions
RÉSUMÉ : Les modèles statistiques du langage ont pour but de donner une représentation statistique de la langue mais souffrent de nombreuses imperfections. Des travaux récents ont montré que ces modèles peuvent être améliorés s’ils peuvent bénéficier de la connaissance du thème traité, afin de s’y adapter. Le thème du document est alors obtenu par un mécanisme d’identification thématique, mais les thèmes ainsi traités sont souvent de granularité différente, c’est pourquoi il nous semble opportun qu’ils soient organisés dans une hiérarchie. Cette structuration des thèmes implique la mise en place de techniques spécifiques d’identification thématique. Cet article propose un modèle statistique à base d’unigrammes pour identifier automatiquement le thème d’un document parmi une arborescence prédéfinie de thèmes possibles. Nous présentons également un critère qui permet au modèle de donner un degré de fiabilité à la décision prise. L’ensemble des expérimentations a été réalisé sur des données extraites du groupe ’fr’ des forums de discussion.
MOTS-CLÉS : langage ; langage naturel ; forum de discussion ; corpus ; corpus d’apprentissage ; probabilité
Poibeau, Thierry ; Dutoit, Dominique ; Bizouard, Sophie (2002). Évaluer l’acquisition semi-automatique de classes sémantiques
RÉSUMÉ : Cet article vise à évaluer deux approches différentes pour la constitution de classes sémantiques. Une approche endogène (acquisition à partir d’un corpus) est contrastée avec une approche exogène (à travers un réseau sémantique riche). L’article présente une évaluation fine de ces deux techniques.
MOTS-CLÉS : analyse distributionnelle ; classes sémantiques ; corpus ; acquisition de classes
Blache, Philippe ; Di Cristo, Albert (2002). Variabilité et dépendances des composants linguistiques
RÉSUMÉ : Nous présentons dans cet article un cadre d’explication des relations entre les différents composants de l’analyse linguistique (prosodie, syntaxe, sémantique, etc.). Nous proposons un principe spécifiant un équilibre pour un objet linguistique donné entre ces différents composants sous la forme d’un poids (précisant l’aspect marqué de l’objet décrit) défini pour chacun d’entre eux et d’un seuil (correspondant à la somme de ces poids) à atteindre. Une telle approche permet d’expliquer certains phénomènes de variabilité : le choix d’une "tournure" à l’intérieur d’un des composants peut varier à condition que son poids n’empêche pas d’atteindre le seuil spécifié. Ce type d’information, outre son intérêt purement linguistique, constitue le premier élément de réponse pour l’introduction de la variabilité dans des applications comme les systèmes de génération ou de synthèse de la parole.
MOTS-CLÉS : contour intonatif ; construction clivée ; intonation ; variabilité ; syntagme ; syntagme disloqué
Boitet, Christian ; Tsai, Wang-Ju (2002). La coédition langue<->UNL pour partager la révision entre les langues d’un document multilingue : un concept unificateur
RÉSUMÉ : La coédition d’un texte en langue naturelle et de sa représentation dans une forme interlingue semble le moyen le meilleur et le plus simple de partager la révision du texte vers plusieurs langues. Pour diverses raisons, les graphes UNL sont les meilleurs candidats dans ce contexte. Nous développons un prototype où, dans le scénario avec partage le plus simple, des utilisateurs "naïfs" interagissent directement avec le texte dans leur langue (L0), et indirectement avec le graphe associé pour corriger les erreurs. Le graphe modifié est ensuite envoyé au déconvertisseur UNL-L0 et le résultat est affiché. S’il est satisfaisant, les erreurs étaient probablement dues au graphe et non au déconvertisseur, et le graphe est envoyé aux déconvertisseurs vers d’autres langues. Les versions dans certaines autres langues connues de l’utilisateur peuvent être affichées, de sorte que le partage de l’amélioration soit visible et encourageant. Comme les nouvelles versions sont ajoutées dans le document multilingue original avec des balises et des attributs appropriés, rien n’est jamais perdu, et le travail coopératif sur un même document est rendu possible. Du côté interne, des liaisons sont établies entre des éléments du texte et du graphe en utilisant des ressources largement disponibles comme un dictionnaire L0-anglais, ou mieux L0-UNL, un analyseur morphosyntaxique de L0, et une transformation canonique de graphe UNL à arbre. On peut établir une "meilleure" correspondance entre "l’arbre-UNL+L0" et la "structure MS-L0", une treille, en utilisant le dictionnaire et en cherchant à aligner l’arbre et une trajectoire avec aussi peu que possible de croisements de liaisons. Un but central de cette recherche est de fusionner les approches de la TA par pivot, de la TA interactive, et de la génération multilingue de texte.
MOTS-CLÉS : langue ; langue naturelle ; graphe ; structure d’arbre ; liaisons syntaxiques
Bourigault, Didier (2002). UPERY : un outil d’analyse distributionnelle étendue pour la construction d’ontologies à partir de corpus
RÉSUMÉ : Nous présentons un module mettant en oeuvre une méthode d’analyse distributionnelle dite "étendue". L’analyseur syntaxique de corpus SYNTEX effectue l’analyse en dépendance de chacune des phrases du corpus, puis construit un réseau de mots et syntagmes, dans lequel chaque syntagme est relié à sa tête et à ses expansions. A partir de ce réseau, le module d’analyse distributionnelle UPERY construit pour chaque terme du réseau l’ensemble de ses contextes syntaxiques. Les termes et les contextes syntaxiques peuvent être simples ou complexes. Le module rapproche ensuite les termes, ainsi que les contextes syntaxiques, sur la base de mesures de proximité distributionnelle. L’ensemble de ces résultats est utilisé comme aide à la construction d’ontologie à partir de corpus spécialisés.
MOTS-CLÉS : analyse distributionnelle ; syntagme ; syntagme maximal ; corpus ; relation de dépendance
Brun, Armelle ; Smaïli, Kamel ; Haton, Jean-Paul (2002). WSIM : une méthode de détection de thème fondée sur la similarité entre mots
RÉSUMÉ : L’adaptation des modèles de langage dans les systèmes de reconnaissance de la parole est un des enjeux importants de ces dernières années. Elle permet de poursuivre la reconnaissance en utilisant le modèle de langage adéquat : celui correspondant au thème identifié. Dans cet article nous proposons une méthode originale de détection de thème fondée sur des vocabulaires caractéristiques de thèmes et sur la similarité entre mots et thèmes. Cette méthode dépasse la méthode classique (TFIDF) de 14%, ce qui représente un gain important en terme d’identification. Nous montrons également l’intérêt de choisir un vocabulaire adéquat. Notre méthode de détermination des vocabulaires atteint des performances 3 fois supérieures à celles obtenues avec des vocabulaires construits sur la fréquence des mots.
MOTS-CLÉS : détection de thème ; modèle de langage ; arbre ; arbre de décision ; corpus ; corpus d’apprentissage
Campione, Estelle ; Véronis, Jean (2002). Etude des relations entre pauses et ponctuations pour la synthèse de la parole à partir de texte
RÉSUMÉ : Nous présentons dans cette communication la première étude à grande échelle de la relation entre pauses et ponctuations, à l’aide de l’analyse de plusieurs milliers de pauses dans un corpus comportant près de 5 heures de parole lue en cinq langues, faisant intervenir 50 locuteurs des deux sexes. Nos résultats remettent en cause l’idée reçue de rapports bi-univoques entre pauses et ponctuations. Nous mettons en évidence une proportion importante de pauses hors ponctuation, qui délimitent des constituants, mais aussi un pourcentage élevé de ponctuations faibles réalisées sans pauses. Nous notons également une très grande variabilité inter-locuteur, ainsi que des différences importantes entre langues. Enfin, nous montrons que la durée des pauses est liée au sexe des locuteurs.
MOTS-CLÉS : ponctuation ; pause ; variabilité ; variabilité inter-locuteur ; parole
de Loupy, Claude (2002). Évaluation des taux de synonymie et de polysémie dans un texte
RÉSUMÉ : La polysémie et la synonymie sont deux aspects fondamentaux de la langue. Nous présentons ici une évaluation de l’importance de ces deux phénomènes à l’aide de statistiques basées sur le lexique WordNet et sur le SemCor. Ainsi, on a un taux de polysémie théorique de 5 sens par mot dans le SemCor. Mais si on regarde les occurrences réelles, moins de 50 % des sens possibles sont utilisés. De même, s’il y a, en moyenne, 2,7 mots possibles pour désigner un concept qui apparaît dans le corpus, plus de la moitié d’entre eux ne sont jamais utilisés. Ces résultats relativisent l’utilité de telles ressources sémantiques pour le traitement de la langue.
MOTS-CLÉS : synonymie ; polysémie ; structure textuelle ; corpus
Delichère, Mathieu ; Memmi, Daniel (2002). Analyse Factorielle Neuronale pour Documents Textuels
RÉSUMÉ : En recherche documentaire, on représente souvent les documents textuels par des vecteurs lexicaux de grande dimension qui sont redondants et coûteux. Il est utile de réduire la dimension des ces représentations pour des raisons à la fois techniques et sémantiques. Cependant les techniques classiques d’analyse factorielle comme l’ACP ne permettent pas de traiter des vecteurs de très grande dimension. Nous avons alors utilisé une méthode adaptative neuronale (GHA) qui s’est révélée efficace pour calculer un nombre réduit de nouvelles dimensions représentatives des données. L’approche nous a permis de classer un corpus réel de pages Web avec de bons résultats.
MOTS-CLÉS : analyse factorielle ; vecteur ; vecteur lexical ; réseau neuronal ; corpus ; covariance
Blache, Philippe ; Di Cristo, Albert (2002). Variabilité et dépendances des composants linguistiques
RÉSUMÉ : Nous présentons dans cet article un cadre d’explication des relations entre les différents composants de l’analyse linguistique (prosodie, syntaxe, sémantique, etc.). Nous proposons un principe spécifiant un équilibre pour un objet linguistique donné entre ces différents composants sous la forme d’un poids (précisant l’aspect marqué de l’objet décrit) défini pour chacun d’entre eux et d’un seuil (correspondant à la somme de ces poids) à atteindre. Une telle approche permet d’expliquer certains phénomènes de variabilité : le choix d’une "tournure" à l’intérieur d’un des composants peut varier à condition que son poids n’empêche pas d’atteindre le seuil spécifié. Ce type d’information, outre son intérêt purement linguistique, constitue le premier élément de réponse pour l’introduction de la variabilité dans des applications comme les systèmes de génération ou de synthèse de la parole.
MOTS-CLÉS : contour intonatif ; construction clivée ; intonation ; variabilité ; syntagme ; syntagme disloqué
Poibeau, Thierry ; Dutoit, Dominique ; Bizouard, Sophie (2002). Évaluer l’acquisition semi-automatique de classes sémantiques
RÉSUMÉ : Cet article vise à évaluer deux approches différentes pour la constitution de classes sémantiques. Une approche endogène (acquisition à partir d’un corpus) est contrastée avec une approche exogène (à travers un réseau sémantique riche). L’article présente une évaluation fine de ces deux techniques.
MOTS-CLÉS : analyse distributionnelle ; classes sémantiques ; corpus ; acquisition de classes
Even, Fabrice ; Enguehard, Chantal (2002). Extraction d’informations à partir de corpus dégradés
RÉSUMÉ : Nous présentons une méthode automatique d’extraction d’information à partir d’un corpus mono-domaine de mauvaise qualité, sur lequel il est impossible d’appliquer les méthodes classiques de traitement de la langue naturelle. Cette approche se fonde sur la construction d’une ontologie semi-formelle (modélisant les informations contenues dans le corpus et les relations entre elles). Notre méthode se déroule en trois phases : 1) la normalisation du corpus, 2) la construction de l’ontologie, et 3) sa formalisation sous la forme d’une grammaire. L’extraction d’information à proprement parler exploite un étiquetage utilisant les règles définies par la grammaire. Nous illustrons notre démarche d’une application sur un corpus bancaire.
MOTS-CLÉS : extraction ; extraction d’information ; ontologie ; base de données ; corpus ; descripteur
Even, Fabrice ; Enguehard, Chantal (2002). Extraction d’informations à partir de corpus dégradés
RÉSUMÉ : Nous présentons une méthode automatique d’extraction d’information à partir d’un corpus mono-domaine de mauvaise qualité, sur lequel il est impossible d’appliquer les méthodes classiques de traitement de la langue naturelle. Cette approche se fonde sur la construction d’une ontologie semi-formelle (modélisant les informations contenues dans le corpus et les relations entre elles). Notre méthode se déroule en trois phases : 1) la normalisation du corpus, 2) la construction de l’ontologie, et 3) sa formalisation sous la forme d’une grammaire. L’extraction d’information à proprement parler exploite un étiquetage utilisant les règles définies par la grammaire. Nous illustrons notre démarche d’une application sur un corpus bancaire.
MOTS-CLÉS : extraction ; extraction d’information ; ontologie ; base de données ; corpus ; descripteur
Fabre, Cécile ; Frérot, Cécile (2002). Groupes prépositionnels arguments ou circonstants : vers un repérage automatique en corpus
RÉSUMÉ : Dans cette étude, menée dans le cadre de la réalisation d’un analyseur syntaxique de corpus spécialisés, nous nous intéressons à la question des arguments et circonstants et à leur repérage automatique en corpus. Nous proposons une mesure simple pour distinguer automatiquement, au sein des groupes prépositionnels rattachés au verbe, des types de compléments différents. Nous réalisons cette distinction sur corpus, en mettant en oeuvre une stratégie endogène, et en utilisant deux mesures de productivité : la productivité du recteur verbal vis à vis de la préposition évalue le degré de cohésion entre le verbe et son groupe prépositionnel (GP), tandis que la productivité du régi vis à vis de la préposition permet d’évaluer le degré de cohésion interne du GP. Cet article présente ces deux mesures, commente les données obtenues, et détermine dans quelle mesure cette partition recouvre la distinction traditionnelle entre arguments et circonstants.
MOTS-CLÉS : groupe prépositionnel ; relation circonstancielle ; distinction entre argument ; corpus
Ferret, Olivier (2002). Segmenter et structurer thématiquement des textes par l’utilisation conjointe de collocations et de la récurrence lexicale
RÉSUMÉ : Nous exposons dans cet article une méthode réalisant de façon intégrée deux tâches de l’analyse thématique : la segmentation et la détection de liens thématiques. Cette méthode exploite conjointement la récurrence des mots dans les textes et les liens issus d’un réseau de collocations afin de compenser les faiblesses respectives des deux approches. Nous présentons son évaluation concernant la segmentation sur un corpus en français et un corpus en anglais et nous proposons une mesure d’évaluation spécifiquement adaptée à ce type de systèmes.
MOTS-CLÉS : récurrence lexicale ; réseau de collocations ; algorithme de segmentation
Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2002). Recherche de la réponse fondée sur la reconnaissance du focus de la question
RÉSUMÉ : Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l’entité nommée recherchée, soit en appliquant des patrons syntaxiques d’extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d’extraction que nous avons définis se fondent sur la notion de focus, qui est l’élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l’utilisons dans l’appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.
MOTS-CLÉS : focus ; entité nommée ; appariement ; appariement question-phrase ; patron d’extraction ; système de question-réponse
Fourour, Nordine (2002). Nemesis, un système de reconnaissance incrémentielle des entités nommées pour le français
RÉSUMÉ : Cet article présente une étude des conflits engendrés par la reconnaissance des entités nommées (EN) pour le français, ainsi que quelques indices pour les résoudre. Cette reconnaissance est réalisée par le système Nemesis, dont les spécifications ont été élaborées conséquemment à une étude en corpus. Nemesis se base sur des règles de grammaire, exploite des lexiques spécialisés et comporte un module d’apprentissage. Les performances atteintes par Nemesis, sur les anthroponymes et les toponymes, sont de 90% pour le rappel et 95% pour la précision.
MOTS-CLÉS : entité nommée ; lexique ; lexique spécialisé ; surcomposition référentielle ; reconnaissance incrémentielle
Fabre, Cécile ; Frérot, Cécile (2002). Groupes prépositionnels arguments ou circonstants : vers un repérage automatique en corpus
RÉSUMÉ : Dans cette étude, menée dans le cadre de la réalisation d’un analyseur syntaxique de corpus spécialisés, nous nous intéressons à la question des arguments et circonstants et à leur repérage automatique en corpus. Nous proposons une mesure simple pour distinguer automatiquement, au sein des groupes prépositionnels rattachés au verbe, des types de compléments différents. Nous réalisons cette distinction sur corpus, en mettant en oeuvre une stratégie endogène, et en utilisant deux mesures de productivité : la productivité du recteur verbal vis à vis de la préposition évalue le degré de cohésion entre le verbe et son groupe prépositionnel (GP), tandis que la productivité du régi vis à vis de la préposition permet d’évaluer le degré de cohésion interne du GP. Cet article présente ces deux mesures, commente les données obtenues, et détermine dans quelle mesure cette partition recouvre la distinction traditionnelle entre arguments et circonstants.
MOTS-CLÉS : groupe prépositionnel ; relation circonstancielle ; distinction entre argument ; corpus
Zweigenbaum, Pierre ; Grabar, Natalia (2002). Accentuation de mots inconnus : application au thesaurus biomédical MeSH
RÉSUMÉ : Certaines ressources textuelles ou terminologiques sont écrites sans signes diacritiques, ce qui freine leur utilisation pour le traitement automatique des langues. Dans un domaine spécialisé comme la médecine, il est fréquent que les mots rencontrés ne se trouvent pas dans les lexiques électroniques disponibles. Se pose alors la question de l’accentuation de mots inconnus : c’est le sujet de ce travail. Nous proposons deux méthodes d’accentuation de mots inconnus fondées sur un apprentissage par observation des contextes d’occurrence des lettres à accentuer dans un ensemble de mots d’entraînement, l’une adaptée de l’étiquetage morphosyntaxique, l’autre adaptée d’une méthode d’apprentissage de règles morphologiques. Nous présentons des résultats expérimentaux pour la lettre e sur un thesaurus biomédical en français : le MeSH. Ces méthodes obtiennent une précision de 86 à 96 % (_4 %) pour un rappel allant de 72 à 86 %.
MOTS-CLÉS : thesaurus biomédical ; terminologie ; lettre pivot ; accentuation de mot
Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2002). Recherche de la réponse fondée sur la reconnaissance du focus de la question
RÉSUMÉ : Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l’entité nommée recherchée, soit en appliquant des patrons syntaxiques d’extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d’extraction que nous avons définis se fondent sur la notion de focus, qui est l’élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l’utilisons dans l’appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.
MOTS-CLÉS : focus ; entité nommée ; appariement ; appariement question-phrase ; patron d’extraction ; système de question-réponse
Tanguy, Ludovic ; Hathout, Nabil (2002). Webaffix : un outil d’acquisition morphologique dérivationnelle à partir du Web
RÉSUMÉ : L’article présente Webaffix, un outil d’acquisition de couples de lexèmes morphologiquement apparentés à partir du Web. La méthode utilisé est inductive et indépendante des langues particulières. Webaffix (1) utilise un moteur de recherche pour collecter des formes candidates qui contiennent un suffixe graphémique donné, (2) prédit les bases potentielles de ces candidats et (3) recherche sur le Web des cooccurrences des candidats et de leurs bases prédites. L’outil a été utilisé pour enrichir Verbaction, un lexique de liens entre verbes et noms d’action ou d’événement correspondants. L’article inclut une évaluation des liens morphologiques acquis.
MOTS-CLÉS : unité lexicale ; suffixe ; suffixe graphémique ; lexique ; lexique de référence ; lexème ; candidat
Brun, Armelle ; Smaïli, Kamel ; Haton, Jean-Paul (2002). WSIM : une méthode de détection de thème fondée sur la similarité entre mots
RÉSUMÉ : L’adaptation des modèles de langage dans les systèmes de reconnaissance de la parole est un des enjeux importants de ces dernières années. Elle permet de poursuivre la reconnaissance en utilisant le modèle de langage adéquat : celui correspondant au thème identifié. Dans cet article nous proposons une méthode originale de détection de thème fondée sur des vocabulaires caractéristiques de thèmes et sur la similarité entre mots et thèmes. Cette méthode dépasse la méthode classique (TFIDF) de 14%, ce qui représente un gain important en terme d’identification. Nous montrons également l’intérêt de choisir un vocabulaire adéquat. Notre méthode de détermination des vocabulaires atteint des performances 3 fois supérieures à celles obtenues avec des vocabulaires construits sur la fréquence des mots.
MOTS-CLÉS : détection de thème ; modèle de langage ; arbre ; arbre de décision ; corpus ; corpus d’apprentissage
Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2002). Recherche de la réponse fondée sur la reconnaissance du focus de la question
RÉSUMÉ : Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l’entité nommée recherchée, soit en appliquant des patrons syntaxiques d’extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d’extraction que nous avons définis se fondent sur la notion de focus, qui est l’élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l’utilisons dans l’appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.
MOTS-CLÉS : focus ; entité nommée ; appariement ; appariement question-phrase ; patron d’extraction ; système de question-réponse
Ibrahim, Amr Helmy (2002). Maurice Gross : une refondation de la linguistique au crible de l’analyse automatique
RÉSUMÉ : Qu’il s’adresse à un Prix Nobel ou à un étudiant de première année Maurice Gross ne craignait jamais d’être trop élémentaire. C’était à chaque fois comme si, entreprenant d’écrire un livre de mathématiques il ne pouvait rien démontrer avant d’avoir reconstruit les données les plus primitives du calcul et du raisonnement qui l’accompagne. Et il arrivait souvent que ceux qui l’écoutaient ou le lisaient pour la première fois, manquant par leur impatience le détail qui faisait que ses évidences n’avaient rien d’évident, s’imaginent qu’il les prenait pour des imbéciles. La vraie complexité, celle qu’aucune machine construite à ce jour ne contrôle vraiment, il l’a exposée avec une simplicité désarmante en un peu moins de deux pages au début de Méthodes en syntaxe (1975 : 17-19) dans le chapitre intitulé La créativité du langage. Elle porte sur les combinaisons possibles ou impossibles au sein d’une structure de neuf constituants formant une phrase simple. Mais ces possibilités "limitées à 10 50 cas" et qui peuvent donc "être considérées comme intuitivement infinies" sans qu’il soit nécessaire "de faire appel à des mécanismes infinis pour rendre compte de leur richesse" ne sont qu’un horizon virtuel.
MOTS-CLÉS : langue ; langue naturelle ; groupe nominal ; grammaire ; syntaxe
Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2002). Recherche de la réponse fondée sur la reconnaissance du focus de la question
RÉSUMÉ : Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l’entité nommée recherchée, soit en appliquant des patrons syntaxiques d’extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d’extraction que nous avons définis se fondent sur la notion de focus, qui est l’élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l’utilisons dans l’appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.
MOTS-CLÉS : focus ; entité nommée ; appariement ; appariement question-phrase ; patron d’extraction ; système de question-réponse
Schwab, Didier ; Lafourcade, Mathieu ; Prince, Violaine (2002). Vers l’apprentissage automatique, pour et par les vecteurs conceptuels, de fonctions lexicales. L’exemple de l’antonymie.
RÉSUMÉ : Dans le cadre de recherches sur le sens en traitement automatique du langage, nous nous concentrons sur la représentation de l’aspect thématique des segments textuels à l’aide de vecteurs conceptuels. Les vecteurs conceptuels sont automatiquement appris à partir de définitions issues de dictionnaires à usage humain (Schwab, 2001). Un noyau de termes manuellement indexés est nécessaire pour l’amorçage de cette analyse. Lorsque l’item défini s’y prête, ces définitions sont complétées par des termes en relation avec lui. Ces relations sont des fonctions lexicales (Mel’¡cuk and al, 95) comme l’hyponymie, l’hyperonymie, la synonymie ou l’antonymie. Cet article propose d’améliorer la fonction d’antonymie naïve exposée dans (Schwab, 2001) et (Schwab and al, 2002) grâce à ces informations. La fonction s’auto-modifie, par révision de listes, en fonction des relations d’antonymie avérées entre deux items. Nous exposons la méthode utilisée, quelques résultats puis nous concluons sur les perspectives ouvertes.
MOTS-CLÉS : vecteur ; vecteur conceptuel ; segment textuel ; antonymie ; coefficient de variation ; terme
Langlais, Philippe (2002). Ressources terminologiques et traduction probabiliste : premiers pas positifs vers un système adaptatif
RÉSUMÉ : Cette dernière décennie a été le témoin d’importantes avancées dans le domaine de la traduction statistique (TS). Aucune évaluation fine n’a cependant été proposée pour mesurer l’adéquation de l’approche statistique dans un contexte applicatif réel.Dans cette étude, nous étudions le comportement d’un engin de traduction probabiliste lorsqu’il traduit un texte de nature très éloignée de celle du corpus utilisé lors de l’entraînement. Nous quantifions en particulier la baisse de performance du système et développons l’idée que l’intégration de ressources terminologiques dans le processus est une solution naturelle et salutaire à la traduction. Nous décrivons cette intégration et évaluons son potentiel.
MOTS-CLÉS : terminologie ; traduction ; corpus ; modèle d’alignement
Delichère, Mathieu ; Memmi, Daniel (2002). Analyse Factorielle Neuronale pour Documents Textuels
RÉSUMÉ : En recherche documentaire, on représente souvent les documents textuels par des vecteurs lexicaux de grande dimension qui sont redondants et coûteux. Il est utile de réduire la dimension des ces représentations pour des raisons à la fois techniques et sémantiques. Cependant les techniques classiques d’analyse factorielle comme l’ACP ne permettent pas de traiter des vecteurs de très grande dimension. Nous avons alors utilisé une méthode adaptative neuronale (GHA) qui s’est révélée efficace pour calculer un nombre réduit de nouvelles dimensions représentatives des données. L’approche nous a permis de classer un corpus réel de pages Web avec de bons résultats.
MOTS-CLÉS : analyse factorielle ; vecteur ; vecteur lexical ; réseau neuronal ; corpus ; covariance
Monceaux, Laura ; Robba, Isabelle (2002). Les analyseurs syntaxiques : atouts pour une analyse des questions dans un système de question-réponse ?
RÉSUMÉ : Cet article montre que pour une application telle qu’un système de question - réponse, une analyse par mots clés de la question est insuffisante et qu’une analyse plus détaillée passant par une analyse syntaxique permet de fournir des caractéristiques permettant une meilleure recherche de la réponse.
MOTS-CLÉS : entité nommée ; groupe nominal ; segmentation ; analyse syntaxique ; module d’analyse syntaxique ; système de question-réponse
Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2002). Recherche de la réponse fondée sur la reconnaissance du focus de la question
RÉSUMÉ : Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l’entité nommée recherchée, soit en appliquant des patrons syntaxiques d’extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d’extraction que nous avons définis se fondent sur la notion de focus, qui est l’élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l’utilisons dans l’appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.
MOTS-CLÉS : focus ; entité nommée ; appariement ; appariement question-phrase ; patron d’extraction ; système de question-réponse
Namer, Fiammetta (2002). Acquisition automatique de sens à partir d’opérations morphologiques en français : études de cas
RÉSUMÉ : Cet article propose une méthode de codage automatique de traits lexicaux sémantiques en français. Cette approche exploite les relations fixées par l’instruction sémantique d’un opérateur de construction morphologique entre la base et le mot construit. En cela, la réflexion s’inspire des travaux de Marc Light (Light 1996) tout en exploitant le fonctionnement d’un système d’analyse morphologique existant : l’analyseur DériF. A ce jour, l’analyse de 12 types morphologiques conduit à l’étiquetage d’environ 10 % d’un lexique composé de 99000 lemmes. L’article s’achève par la description de deux techniques utilisées pour valider les traits sémantiques.
MOTS-CLÉS : trait lexical ; sémantique ; base verbale ; base adjectivale ; analyse morphologique
Perrier, Guy (2002). Descriptions d’arbres avec polarités : les Grammaires d’Interaction
RÉSUMÉ : Nous présentons un nouveau formalisme linguistique, les Grammaires d’Interaction, dont les objets syntaxiques de base sont des descriptions d’arbres, c’est-à-dire des formules logiques spécifiant partiellement des arbres syntaxiques. Dans ce contexte, l’analyse syntaxique se traduit par la construction de modèles de descriptions sous la forme d’arbres syntaxiques complètement spécifiés. L’opération de composition syntaxique qui permet cette construction pas à pas est contrôlée par un système de traits polarisés agissant comme des charges électrostatiques.
MOTS-CLÉS : entrée lexicale ; grammaire ; grammaire catégorielle ; description d’arbre ; grammaire d’interprétation
Pinkham, Jessie ; Smets, Martine (2002). Traduction automatique ancrée dans l’analyse linguistique
RÉSUMÉ : Nous présentons dans cet article le système de traduction français-anglais MSR-MT développé à Microsoft dans le groupe de recherche sur le traitement du language (NLP). Ce système est basé sur des analyseurs sophistiqués qui produisent des formes logiques, dans la langue source et la langue cible. Ces formes logiques sont alignées pour produire la base de données du transfert, qui contient les correspondances entre langue source et langue cible, utilisées lors de la traduction. Nous présentons différents stages du développement de notre système, commencé en novembre 2000. Nous montrons que les performances d’octobre 2001 de notre système sont meilleures que celles du système commercial Systran, pour le domaine technique, et décrivons le travail linguistique qui nous a permis d’arriver à cette performance. Nous présentons enfin les résultats préliminaires sur un corpus plus général, les débats parlementaires du corpus du Hansard. Quoique nos résultats ne soient pas aussi concluants que pour le domaine technique, nous sommes convaincues que la résolution des problèmes d’analyse que nous avons identifiés nous permettra d’améliorer notre performance.
MOTS-CLÉS : traduction ; syntagme ; langue source ; langue ; langue cible ; corpus
Poibeau, Thierry ; Dutoit, Dominique ; Bizouard, Sophie (2002). Évaluer l’acquisition semi-automatique de classes sémantiques
RÉSUMÉ : Cet article vise à évaluer deux approches différentes pour la constitution de classes sémantiques. Une approche endogène (acquisition à partir d’un corpus) est contrastée avec une approche exogène (à travers un réseau sémantique riche). L’article présente une évaluation fine de ces deux techniques.
MOTS-CLÉS : analyse distributionnelle ; classes sémantiques ; corpus ; acquisition de classes
Schwab, Didier ; Lafourcade, Mathieu ; Prince, Violaine (2002). Vers l’apprentissage automatique, pour et par les vecteurs conceptuels, de fonctions lexicales. L’exemple de l’antonymie.
RÉSUMÉ : Dans le cadre de recherches sur le sens en traitement automatique du langage, nous nous concentrons sur la représentation de l’aspect thématique des segments textuels à l’aide de vecteurs conceptuels. Les vecteurs conceptuels sont automatiquement appris à partir de définitions issues de dictionnaires à usage humain (Schwab, 2001). Un noyau de termes manuellement indexés est nécessaire pour l’amorçage de cette analyse. Lorsque l’item défini s’y prête, ces définitions sont complétées par des termes en relation avec lui. Ces relations sont des fonctions lexicales (Mel’¡cuk and al, 95) comme l’hyponymie, l’hyperonymie, la synonymie ou l’antonymie. Cet article propose d’améliorer la fonction d’antonymie naïve exposée dans (Schwab, 2001) et (Schwab and al, 2002) grâce à ces informations. La fonction s’auto-modifie, par révision de listes, en fonction des relations d’antonymie avérées entre deux items. Nous exposons la méthode utilisée, quelques résultats puis nous concluons sur les perspectives ouvertes.
MOTS-CLÉS : vecteur ; vecteur conceptuel ; segment textuel ; antonymie ; coefficient de variation ; terme
Besançon, Romaric ; Rajman, Martin (2002). Filtrages syntaxiques de co-occurrences pour la représentation vectorielle de documents
RÉSUMÉ : L’intégration de co-occurrences dans les modèles de représentation vectorielle de documents s’est avérée une source d’amélioration de la pertinence des mesures de similarités textuelles calculées dans le cadre de ces modèles (Rajman et al., 2000 ; Besançon, 2001). Dans cette optique, la définition des contextes pris en compte pour les co-occurrences est cruciale, par son influence sur les performances des modèles à base de co-occurrences. Dans cet article, nous proposons d’étudier deux méthodes de filtrage des co-occurrences fondées sur l’utilisation d’informations syntaxiques supplémentaires. Nous présentons également une évaluation de ces méthodes dans le cadre de la tâche de la recherche documentaire.
MOTS-CLÉS : représentation vectorielle ; syntaxe ; pondération locale ; méthode de filtrage ; fréquence ; fréquence de co-occurrence
Villaneau, Jeanne ; Antoine, Jean-Yves ; Ridoux, Olivier (2002). LOGUS : un système formel de compréhension du français parlé spontané-présentation et évaluation
RÉSUMÉ : Le système de compréhension présenté dans cet article propose une approche logique et lexicalisée associant syntaxe et sémantique pour une analyse non sélective et hors-cadres sémantiques prédéterminés. L’analyse se déroule suivant deux grandes étapes ; un chunking est suivi d’une mise en relation des chunks qui aboutit à la construction de la représentation sémantique finale : formule logique ou graphe conceptuel. Nous montrons comment le formalisme a dû évoluer pour accroître l’importance de la syntaxe et améliorer la généricité des règles. Malgré l’utilisation d’une connaissance pragmatico-sémantique liée à l’application, la spécificité du système est circonscrite au choix des mots du lexique et à la définition de cette connaissance. Les résultats d’une campagne d’évaluation ont mis en évidence une bonne tolérance aux inattendus et aux phénomènes complexes, prouvant ainsi la validité de l’approche.
MOTS-CLÉS : graphe ; graphe conceptuel ; énoncé oral ; français parlé ; système de compréhension ; chunk
Monceaux, Laura ; Robba, Isabelle (2002). Les analyseurs syntaxiques : atouts pour une analyse des questions dans un système de question-réponse ?
RÉSUMÉ : Cet article montre que pour une application telle qu’un système de question - réponse, une analyse par mots clés de la question est insuffisante et qu’une analyse plus détaillée passant par une analyse syntaxique permet de fournir des caractéristiques permettant une meilleure recherche de la réponse.
MOTS-CLÉS : entité nommée ; groupe nominal ; segmentation ; analyse syntaxique ; module d’analyse syntaxique ; système de question-réponse
Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2002). Recherche de la réponse fondée sur la reconnaissance du focus de la question
RÉSUMÉ : Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l’entité nommée recherchée, soit en appliquant des patrons syntaxiques d’extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d’extraction que nous avons définis se fondent sur la notion de focus, qui est l’élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l’utilisons dans l’appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.
MOTS-CLÉS : focus ; entité nommée ; appariement ; appariement question-phrase ; patron d’extraction ; système de question-réponse
Rozenknop, Antoine (2002). Une grammaire hors-contexte valuée pour l’analyse syntaxique
RÉSUMÉ : Les grammaires hors-contexte stochastiques sont exploitées par des algorithmes particulièrement efficaces dans des tâches de reconnaissance de la parole et d’analyse syntaxique. Cet article propose une autre probabilisation de ces grammaires, dont les propriétés mathématiques semblent intuitivement plus adaptées à ces tâches que celles des SCFG (Stochastique CFG), sans nécessiter d’algorithme d’analyse spécifique. L’utilisation de ce modèle en analyse sur du texte provenant du corpus Susanne peut réduire de le nombre d’analyses erronées, en comparaison avec une SCFG entraînée dans les mêmes conditions.
MOTS-CLÉS : grammaire ; grammaire hors-contexte ; fréquence ; fréquence relative ; arbre ; arbre d’analyse ; corpus d’apprentissage ; algorithme d’apprentissage
Schwab, Didier ; Lafourcade, Mathieu ; Prince, Violaine (2002). Vers l’apprentissage automatique, pour et par les vecteurs conceptuels, de fonctions lexicales. L’exemple de l’antonymie.
RÉSUMÉ : Dans le cadre de recherches sur le sens en traitement automatique du langage, nous nous concentrons sur la représentation de l’aspect thématique des segments textuels à l’aide de vecteurs conceptuels. Les vecteurs conceptuels sont automatiquement appris à partir de définitions issues de dictionnaires à usage humain (Schwab, 2001). Un noyau de termes manuellement indexés est nécessaire pour l’amorçage de cette analyse. Lorsque l’item défini s’y prête, ces définitions sont complétées par des termes en relation avec lui. Ces relations sont des fonctions lexicales (Mel’¡cuk and al, 95) comme l’hyponymie, l’hyperonymie, la synonymie ou l’antonymie. Cet article propose d’améliorer la fonction d’antonymie naïve exposée dans (Schwab, 2001) et (Schwab and al, 2002) grâce à ces informations. La fonction s’auto-modifie, par révision de listes, en fonction des relations d’antonymie avérées entre deux items. Nous exposons la méthode utilisée, quelques résultats puis nous concluons sur les perspectives ouvertes.
MOTS-CLÉS : vecteur ; vecteur conceptuel ; segment textuel ; antonymie ; coefficient de variation ; terme
Selva, Thierry (2002). Génération automatique d’exercices contextuels de vocabulaire
RÉSUMÉ : Cet article explore l’utilisation de ressources lexicales et textuelles ainsi que d’outils issus du TAL dans le domaine de l’apprentissage des langues assisté par ordinateur (ALAO). Il aborde le problème de la génération automatique ou semi-automatique d’exercices contextuels de vocabulaire à partir d’un corpus de textes et de données lexicales au moyen d’un étiqueteur et d’un parseur. Sont étudiées les caractéristiques et les limites de ces exercices.
MOTS-CLÉS : apprentissage lexical ; syntagme ; verbe ; verbe support ; module de génération ; étiquetage
Bigi, Brigitte ; Smaïli, Kamel (2002). Identification thématique hiérarchique : Application aux forums de discussions
RÉSUMÉ : Les modèles statistiques du langage ont pour but de donner une représentation statistique de la langue mais souffrent de nombreuses imperfections. Des travaux récents ont montré que ces modèles peuvent être améliorés s’ils peuvent bénéficier de la connaissance du thème traité, afin de s’y adapter. Le thème du document est alors obtenu par un mécanisme d’identification thématique, mais les thèmes ainsi traités sont souvent de granularité différente, c’est pourquoi il nous semble opportun qu’ils soient organisés dans une hiérarchie. Cette structuration des thèmes implique la mise en place de techniques spécifiques d’identification thématique. Cet article propose un modèle statistique à base d’unigrammes pour identifier automatiquement le thème d’un document parmi une arborescence prédéfinie de thèmes possibles. Nous présentons également un critère qui permet au modèle de donner un degré de fiabilité à la décision prise. L’ensemble des expérimentations a été réalisé sur des données extraites du groupe ’fr’ des forums de discussion.
MOTS-CLÉS : langage ; langage naturel ; forum de discussion ; corpus ; corpus d’apprentissage ; probabilité
Brun, Armelle ; Smaïli, Kamel ; Haton, Jean-Paul (2002). WSIM : une méthode de détection de thème fondée sur la similarité entre mots
RÉSUMÉ : L’adaptation des modèles de langage dans les systèmes de reconnaissance de la parole est un des enjeux importants de ces dernières années. Elle permet de poursuivre la reconnaissance en utilisant le modèle de langage adéquat : celui correspondant au thème identifié. Dans cet article nous proposons une méthode originale de détection de thème fondée sur des vocabulaires caractéristiques de thèmes et sur la similarité entre mots et thèmes. Cette méthode dépasse la méthode classique (TFIDF) de 14%, ce qui représente un gain important en terme d’identification. Nous montrons également l’intérêt de choisir un vocabulaire adéquat. Notre méthode de détermination des vocabulaires atteint des performances 3 fois supérieures à celles obtenues avec des vocabulaires construits sur la fréquence des mots.
MOTS-CLÉS : détection de thème ; modèle de langage ; arbre ; arbre de décision ; corpus ; corpus d’apprentissage
Pinkham, Jessie ; Smets, Martine (2002). Traduction automatique ancrée dans l’analyse linguistique
RÉSUMÉ : Nous présentons dans cet article le système de traduction français-anglais MSR-MT développé à Microsoft dans le groupe de recherche sur le traitement du language (NLP). Ce système est basé sur des analyseurs sophistiqués qui produisent des formes logiques, dans la langue source et la langue cible. Ces formes logiques sont alignées pour produire la base de données du transfert, qui contient les correspondances entre langue source et langue cible, utilisées lors de la traduction. Nous présentons différents stages du développement de notre système, commencé en novembre 2000. Nous montrons que les performances d’octobre 2001 de notre système sont meilleures que celles du système commercial Systran, pour le domaine technique, et décrivons le travail linguistique qui nous a permis d’arriver à cette performance. Nous présentons enfin les résultats préliminaires sur un corpus plus général, les débats parlementaires du corpus du Hansard. Quoique nos résultats ne soient pas aussi concluants que pour le domaine technique, nous sommes convaincues que la résolution des problèmes d’analyse que nous avons identifiés nous permettra d’améliorer notre performance.
MOTS-CLÉS : traduction ; syntagme ; langue source ; langue ; langue cible ; corpus
Tanguy, Ludovic ; Hathout, Nabil (2002). Webaffix : un outil d’acquisition morphologique dérivationnelle à partir du Web
RÉSUMÉ : L’article présente Webaffix, un outil d’acquisition de couples de lexèmes morphologiquement apparentés à partir du Web. La méthode utilisé est inductive et indépendante des langues particulières. Webaffix (1) utilise un moteur de recherche pour collecter des formes candidates qui contiennent un suffixe graphémique donné, (2) prédit les bases potentielles de ces candidats et (3) recherche sur le Web des cooccurrences des candidats et de leurs bases prédites. L’outil a été utilisé pour enrichir Verbaction, un lexique de liens entre verbes et noms d’action ou d’événement correspondants. L’article inclut une évaluation des liens morphologiques acquis.
MOTS-CLÉS : unité lexicale ; suffixe ; suffixe graphémique ; lexique ; lexique de référence ; lexème ; candidat
Boitet, Christian ; Tsai, Wang-Ju (2002). La coédition langue<->UNL pour partager la révision entre les langues d’un document multilingue : un concept unificateur
RÉSUMÉ : La coédition d’un texte en langue naturelle et de sa représentation dans une forme interlingue semble le moyen le meilleur et le plus simple de partager la révision du texte vers plusieurs langues. Pour diverses raisons, les graphes UNL sont les meilleurs candidats dans ce contexte. Nous développons un prototype où, dans le scénario avec partage le plus simple, des utilisateurs "naïfs" interagissent directement avec le texte dans leur langue (L0), et indirectement avec le graphe associé pour corriger les erreurs. Le graphe modifié est ensuite envoyé au déconvertisseur UNL-L0 et le résultat est affiché. S’il est satisfaisant, les erreurs étaient probablement dues au graphe et non au déconvertisseur, et le graphe est envoyé aux déconvertisseurs vers d’autres langues. Les versions dans certaines autres langues connues de l’utilisateur peuvent être affichées, de sorte que le partage de l’amélioration soit visible et encourageant. Comme les nouvelles versions sont ajoutées dans le document multilingue original avec des balises et des attributs appropriés, rien n’est jamais perdu, et le travail coopératif sur un même document est rendu possible. Du côté interne, des liaisons sont établies entre des éléments du texte et du graphe en utilisant des ressources largement disponibles comme un dictionnaire L0-anglais, ou mieux L0-UNL, un analyseur morphosyntaxique de L0, et une transformation canonique de graphe UNL à arbre. On peut établir une "meilleure" correspondance entre "l’arbre-UNL+L0" et la "structure MS-L0", une treille, en utilisant le dictionnaire et en cherchant à aligner l’arbre et une trajectoire avec aussi peu que possible de croisements de liaisons. Un but central de cette recherche est de fusionner les approches de la TA par pivot, de la TA interactive, et de la génération multilingue de texte.
MOTS-CLÉS : langue ; langue naturelle ; graphe ; structure d’arbre ; liaisons syntaxiques
Vergne, Jacques (2002). Une méthode pour l’analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe
RÉSUMÉ : Nous présentons une méthode d’analyse descendante et calculatoire. La démarche d’analyse est descendante du document à la proposition, en passant par la phrase. Le prototype présenté prend en entrée des documents en anglais, français, italien, espagnol, ou allemand. Il segmente les phrases en propositions, et calcule les relations sujet-verbe dans les propositions. Il est calculatoire, car il exécute un petit nombre d’opérations sur les données. Il utilise très peu de ressources (environ 200 mots et locutions par langue), et le traitement de la phrase fait environ 60 Ko de Perl, ressources lexicales comprises. La méthode présentée se situe dans le cadre d’une recherche plus générale du Groupe Syntaxe et Ingénierie Multilingue du GREYC sur l’exploration de solutions minimales et multilingues, ajustées à une tâche donnée, exploitant peu de propriétés linguistiques profondes, la généricité allant de pair avec l’efficacité.
MOTS-CLÉS : expression régulière ; chunk ; chunk verbal ; analyse descendante ; relation sujet-verbe
Campione, Estelle ; Véronis, Jean (2002). Etude des relations entre pauses et ponctuations pour la synthèse de la parole à partir de texte
RÉSUMÉ : Nous présentons dans cette communication la première étude à grande échelle de la relation entre pauses et ponctuations, à l’aide de l’analyse de plusieurs milliers de pauses dans un corpus comportant près de 5 heures de parole lue en cinq langues, faisant intervenir 50 locuteurs des deux sexes. Nos résultats remettent en cause l’idée reçue de rapports bi-univoques entre pauses et ponctuations. Nous mettons en évidence une proportion importante de pauses hors ponctuation, qui délimitent des constituants, mais aussi un pourcentage élevé de ponctuations faibles réalisées sans pauses. Nous notons également une très grande variabilité inter-locuteur, ainsi que des différences importantes entre langues. Enfin, nous montrons que la durée des pauses est liée au sexe des locuteurs.
MOTS-CLÉS : ponctuation ; pause ; variabilité ; variabilité inter-locuteur ; parole
Villaneau, Jeanne ; Antoine, Jean-Yves ; Ridoux, Olivier (2002). LOGUS : un système formel de compréhension du français parlé spontané-présentation et évaluation
RÉSUMÉ : Le système de compréhension présenté dans cet article propose une approche logique et lexicalisée associant syntaxe et sémantique pour une analyse non sélective et hors-cadres sémantiques prédéterminés. L’analyse se déroule suivant deux grandes étapes ; un chunking est suivi d’une mise en relation des chunks qui aboutit à la construction de la représentation sémantique finale : formule logique ou graphe conceptuel. Nous montrons comment le formalisme a dû évoluer pour accroître l’importance de la syntaxe et améliorer la généricité des règles. Malgré l’utilisation d’une connaissance pragmatico-sémantique liée à l’application, la spécificité du système est circonscrite au choix des mots du lexique et à la définition de cette connaissance. Les résultats d’une campagne d’évaluation ont mis en évidence une bonne tolérance aux inattendus et aux phénomènes complexes, prouvant ainsi la validité de l’approche.
MOTS-CLÉS : graphe ; graphe conceptuel ; énoncé oral ; français parlé ; système de compréhension ; chunk
Villemonte de la Clergerie, Éric (2002). Construire des analyseurs avec DyALog
RÉSUMÉ : Cet article survole les fonctionnalités offertes par le système DyALog pour construire des analyseurs syntaxiques tabulaires. Offrant la richesse d’un environnement de programmation en logique, DyALog facilite l’écriture de grammaires, couvre plusieurs formalismes et permet le paramétrage de stratégies d’analyse.
MOTS-CLÉS : analyseur partiel ; analyse bidirectionnelle ; programmation ; programmation en logique ; grammaire ; grammaire à concaténation
Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Monceaux, Laura ; Robba, Isabelle ; Vilnat, Anne (2002). Recherche de la réponse fondée sur la reconnaissance du focus de la question
RÉSUMÉ : Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l’entité nommée recherchée, soit en appliquant des patrons syntaxiques d’extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d’extraction que nous avons définis se fondent sur la notion de focus, qui est l’élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l’utilisons dans l’appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.
MOTS-CLÉS : focus ; entité nommée ; appariement ; appariement question-phrase ; patron d’extraction ; système de question-réponse
Zweigenbaum, Pierre ; Grabar, Natalia (2002). Accentuation de mots inconnus : application au thesaurus biomédical MeSH
RÉSUMÉ : Certaines ressources textuelles ou terminologiques sont écrites sans signes diacritiques, ce qui freine leur utilisation pour le traitement automatique des langues. Dans un domaine spécialisé comme la médecine, il est fréquent que les mots rencontrés ne se trouvent pas dans les lexiques électroniques disponibles. Se pose alors la question de l’accentuation de mots inconnus : c’est le sujet de ce travail. Nous proposons deux méthodes d’accentuation de mots inconnus fondées sur un apprentissage par observation des contextes d’occurrence des lettres à accentuer dans un ensemble de mots d’entraînement, l’une adaptée de l’étiquetage morphosyntaxique, l’autre adaptée d’une méthode d’apprentissage de règles morphologiques. Nous présentons des résultats expérimentaux pour la lettre e sur un thesaurus biomédical en français : le MeSH. Ces méthodes obtiennent une précision de 86 à 96 % (_4 %) pour un rappel allant de 72 à 86 %.
MOTS-CLÉS : thesaurus biomédical ; terminologie ; lettre pivot ; accentuation de mot