TALN 2000
Aloulou, Chafik ; Hadrich Belguith, Lamia ; Ben Hamadou, Abdelmajid (2000). Vers un système d’analyse syntaxique robuste pour l’Arabe : Application au recouvrement des erreurs de la reconnaissance
RÉSUMÉ : Le degré de profondeur et de finesse de l’analyse syntaxique d’un texte écrit dépend énormément de l’objectif de l’analyse (analyse globale, analyse partielle, analyse détaillée, etc.) ainsi que du type d’application nécessitant cette analyse. Dans cet article, nous présentons une approche originale d’analyse syntaxique robuste appliquée à l’arabe et basée sur l’architecture multiagent. Comme première application de notre approche, notre système sera couplé avec un système de reconnaissance de l’écriture arabe dans le but d’effectuer, d’une part, la validation linguistique des mots reconnus par l’OCR (Optical Character Recognition) et d’autre part la détection et la correction des erreurs d’ordre lexicales, morphologiques, syntaxiques (cas des erreurs d’accord) et qui sont dues à la non ou au mal reconnaissance de certains mots par l’OCR. Le couplage de notre système avec le système de reconnaissance de l’écriture arabe entre dans le cadre d’un projet de coopération avec l’équipe Perception, Système et Information (PSI) de l’université de Rouen.
MOTS-CLÉS : analyse syntaxique ; analyse syntaxique robuste ; langue ; langue arabe ; corpus ; système de reconnaissance ; système de reconnaissance de l’écriture arabe
Béchet, Frédéric ; Nasr, Alexis ; Genet, Franck (2000). Enrichissement automatique de lexique de noms propres à partir de corpus
RÉSUMÉ : Cet article présente une méthode d’étiquetage sémantique de noms propres fondé sur la technique des arbres de décision. Ces derniers permettent de modéliser les éléments saillants dans les contextes d’occurrence de noms propres d’une classe donnée. Les arbres de décision sont construits automatiquement sur un corpus d’apprentissage étiqueté, ils sont ensuite utilisés pour étiqueter des noms propres apparaissant dans un corpus de test. Les résultats de l’étiquetage du corpus de test est utilisé pour enrichir un lexique de noms propres. Ce dernier peut être utilisé à son tour pour réestimer les paramètres d’un étiqueteur stochastique. Nous nous intéressons en particulier au cas où le corpus de test a été glané sur le Web.
MOTS-CLÉS : expression régulière ; entrée lexicale ; étiquetage ; arbre ; arbre de décision ; corpus ; corpus de test
Aloulou, Chafik ; Hadrich Belguith, Lamia ; Ben Hamadou, Abdelmajid (2000). Vers un système d’analyse syntaxique robuste pour l’Arabe : Application au recouvrement des erreurs de la reconnaissance
RÉSUMÉ : Le degré de profondeur et de finesse de l’analyse syntaxique d’un texte écrit dépend énormément de l’objectif de l’analyse (analyse globale, analyse partielle, analyse détaillée, etc.) ainsi que du type d’application nécessitant cette analyse. Dans cet article, nous présentons une approche originale d’analyse syntaxique robuste appliquée à l’arabe et basée sur l’architecture multiagent. Comme première application de notre approche, notre système sera couplé avec un système de reconnaissance de l’écriture arabe dans le but d’effectuer, d’une part, la validation linguistique des mots reconnus par l’OCR (Optical Character Recognition) et d’autre part la détection et la correction des erreurs d’ordre lexicales, morphologiques, syntaxiques (cas des erreurs d’accord) et qui sont dues à la non ou au mal reconnaissance de certains mots par l’OCR. Le couplage de notre système avec le système de reconnaissance de l’écriture arabe entre dans le cadre d’un projet de coopération avec l’équipe Perception, Système et Information (PSI) de l’université de Rouen.
MOTS-CLÉS : analyse syntaxique ; analyse syntaxique robuste ; langue ; langue arabe ; corpus ; système de reconnaissance ; système de reconnaissance de l’écriture arabe
Blache, Philippe (2000). Le rôle des contraintes dans les théories linguistiques et leur intérêt pour l’analyse automatique : les Grammaires de Propriétés
RÉSUMÉ : Tous les formalismes linguistiques font usage de la notion de contrainte qui, dans son sens le plus large, indique une propriété devant être satisfaite. Les contraintes sont extrêmement utiles à la fois pour représenter l’information linguistique, mais également pour en contrôler le processus d’analyse. Cependant, l’usage qui est fait des contraintes peut être très différent d’une approche à l’autre : dans certains cas, il s’agit simplement d’un mécanisme d’appoint, dans d’autres, les contraintes sont au coeur de la théorie. Il existe cependant un certain nombre de restrictions à leur utilisation, en particulier pour ce qui concerne leur implantation. Plus précisément, s’il semble naturel (au moins dans certains paradigmes) de considérer l’analyse syntaxique comme un problème de satisfaction de contraintes, on constate cependant qu’il est extrêmement difficile de réaliser concrètement une telle implantation. Ce constat est en fait révélateur d’un problème dépassant le simple cadre de l’implémentation : nous montrons dans cet article qu’une approche totalement basée sur les contraintes (permettant donc de concevoir l’analyse comme un problème de satisfaction) est incompatible avec une interprétation générative classique accordant un statut particulier à la relation de dominance. Nous proposons ici un cadre permettant à la fois de tirer parti des avantages des grammaires syntagmatiques tout en s’affranchissant des problèmes liés aux approches génératives pour ce qui concerne l’usage des contraintes en tant qu’unique composant grammatical. Nous présentons ici cette approche, les Grammaires de Propriétés, ainsi que leur implémentation.
MOTS-CLÉS : contrainte contextuelle ; grammaire ; grammaire de propriétés ; relation de dépendance ; grammaire de dépendance
Jacquemin, Christian ; Bush, Caroline (2000). Fouille du Web pour la collecte d’Entités Nommées
RÉSUMÉ : Cette étude porte sur l’acquisition des Entités Nommées (EN) à partir du Web. L’application présentée se compose d’un moissonneur de pages et de trois analyseurs surfaciques dédiés à des structures spécifiques. Deux évaluations sont proposées : une évaluation de la productivité des moteurs en fonction des types d’EN et une mesure de la précision.
MOTS-CLÉS : entité nommée ; expression régulière ; acquisition lexicale ; marqueur ; marqueur discursif ; moteur de recherche
Cerbah, Farid (2000). Une étude comparative de méthodes de catégorisation sémantique de termes techniques
RÉSUMÉ : L’acquisition et la mise à jour de ressources terminologiques sont des tâches difficiles, en particulier lorsque ces ressources contiennent des informations d’ordre sémantique. Cette article traite de la catégorisation sémantique de termes techniques. Le but de ce processus est d’assigner des domaines sémantiques à de nouveaux termes. Nous proposons deux approches qui reposent sur des sources d’informations différentes. L’approche exogène exploite des informations contextuelles extraites de corpus. L’approche endogène repose sur une analyse lexicale de termes déjà catégorisés. Nous décrivons les deux approches mises en oeuvre ainsi que les expérimentations menées sur des jeux de test significatifs. Les résultats obtenus montrent que la catégorisation de termes peut constituer une aide conséquente dans les processus d’acquisition de ressources terminologiques.
MOTS-CLÉS : acquisition de termes techniques ; terminologie ; analyse lexicale ; corpus
Danlos, Laurence ; Gaiffe, Bertrand (2000). Coréférence événementielle et relations de discours
RÉSUMÉ : La coréférence événementielle est un phénomène largement ignoré tant dans les travaux sur la coréférence que dans ceux sur l’ordre temporel dans le discours. Pourtant, la coréférence événementielle est la clef de voûte sur laquelle reposent au moins quatre types de discours. Les descriptions et analyses linguistiques de ces discours permettront de mettre en avant des phénomènes linguistiques inhabituels (e.g. coréférence entre éléments quantifiés existentiellement). Les relations de discours qui sont en jeu seront ensuite examinées. Cette étude nous amènera à introduire et définir de nouvelles relations de discours qui seront discutées dans le cadre de la SDRT.
MOTS-CLÉS : coréférence événementielle ; relation de discours ; relation de coréférence
de Chalendar, Gaël ; Grau, Brigitte (2000). SVETLAN’ ou Comment Classer des Noms en fonction de leur Contexte
RÉSUMÉ : L’utilisation de connaissances sémantiques dans les applications de TAL améliore leurs performances. Cependant, bien que des lexiques étendus aient été développés, il y a peu de ressources non dédiées à des domaines spécialisés et contenant des informations sémantiques pour les mots. Dans le but de construire une telle base, nous avons conçu le système SVETLAN’, capable d’apprendre des catégories de noms à partir de textes, quel que soit leur domaine. Dans le but d’éviter de créer des classes générales regroupant tous les sens des mots, les classes sont apprises en fonction de l’usage des mots en contexte.
MOTS-CLÉS : sémantique ; langue ; langue générale ; segment textuel ; module d’apprentissage
Etchegoyhen, Thierry (2000). Analyse Syntaxique Monotone par Décisions Différées
RÉSUMÉ : Dans cet article nous présentons une approche à l’analyse syntaxique automatique où la levée d’ambiguïtés est différée jusqu’à l’apparition d’éléments de la chaîne d’entrée permettant de procéder à une analyse correcte, la désambiguisation étant alors effectuée en cascade. L’analyseur a pour caractéristiques une croissance monotone de l’information syntaxique au fil de l’analyse, la garantie de ne pas échouer sur des phrases grammaticales telles les phrases-labyrinthe, et une faible complexité computationnelle. Le système présenté cumule ainsi les avantages d’une approche déterministe (efficacité et optimisation des calculs) et ceux d’une approche non-déterministe (adéquation empirique).
MOTS-CLÉS : analyse syntaxique ; analyse syntaxique monotone ; désambiguïsation ; désambiguïsation syntaxique ; levée d’ambiguïté structurelle
Ferret, Olivier ; Grau, Brigitte (2000). Une analyse thématique fondée sur un principe d’amorçage
RÉSUMÉ : L’analyse thématique est une étape importante pour de nombreuses applications en traitement automatique des langues, telles que le résumé ou l’extraction d’information par exemple. Elle ne peut être réalisée avec une bonne précision qu’en exploitant une source de connaissances structurées sur les thèmes, laquelle est difficile à constituer à une large échelle. Dans cet article, nous proposons de résoudre ce problème par un principe d’amorçage : une première analyse thématique, fondée sur l’utilisation d’une source de connaissances faiblement structurée mais relativement aisée à construire, un réseau de collocations, permet d’apprendre des représentations explicites de thèmes, appelées signatures thématiques. Ces dernières sont ensuite utilisées pour mettre en oeuvre une seconde analyse thématique, plus précise et plus fiable.
MOTS-CLÉS : analyse thématique ; cohésion lexicale ; focalisation ; réseau de collocations
Danlos, Laurence ; Gaiffe, Bertrand (2000). Coréférence événementielle et relations de discours
RÉSUMÉ : La coréférence événementielle est un phénomène largement ignoré tant dans les travaux sur la coréférence que dans ceux sur l’ordre temporel dans le discours. Pourtant, la coréférence événementielle est la clef de voûte sur laquelle reposent au moins quatre types de discours. Les descriptions et analyses linguistiques de ces discours permettront de mettre en avant des phénomènes linguistiques inhabituels (e.g. coréférence entre éléments quantifiés existentiellement). Les relations de discours qui sont en jeu seront ensuite examinées. Cette étude nous amènera à introduire et définir de nouvelles relations de discours qui seront discutées dans le cadre de la SDRT.
MOTS-CLÉS : coréférence événementielle ; relation de discours ; relation de coréférence
Béchet, Frédéric ; Nasr, Alexis ; Genet, Franck (2000). Enrichissement automatique de lexique de noms propres à partir de corpus
RÉSUMÉ : Cet article présente une méthode d’étiquetage sémantique de noms propres fondé sur la technique des arbres de décision. Ces derniers permettent de modéliser les éléments saillants dans les contextes d’occurrence de noms propres d’une classe donnée. Les arbres de décision sont construits automatiquement sur un corpus d’apprentissage étiqueté, ils sont ensuite utilisés pour étiqueter des noms propres apparaissant dans un corpus de test. Les résultats de l’étiquetage du corpus de test est utilisé pour enrichir un lexique de noms propres. Ce dernier peut être utilisé à son tour pour réestimer les paramètres d’un étiqueteur stochastique. Nous nous intéressons en particulier au cas où le corpus de test a été glané sur le Web.
MOTS-CLÉS : expression régulière ; entrée lexicale ; étiquetage ; arbre ; arbre de décision ; corpus ; corpus de test
Ferret, Olivier ; Grau, Brigitte (2000). Une analyse thématique fondée sur un principe d’amorçage
RÉSUMÉ : L’analyse thématique est une étape importante pour de nombreuses applications en traitement automatique des langues, telles que le résumé ou l’extraction d’information par exemple. Elle ne peut être réalisée avec une bonne précision qu’en exploitant une source de connaissances structurées sur les thèmes, laquelle est difficile à constituer à une large échelle. Dans cet article, nous proposons de résoudre ce problème par un principe d’amorçage : une première analyse thématique, fondée sur l’utilisation d’une source de connaissances faiblement structurée mais relativement aisée à construire, un réseau de collocations, permet d’apprendre des représentations explicites de thèmes, appelées signatures thématiques. Ces dernières sont ensuite utilisées pour mettre en oeuvre une seconde analyse thématique, plus précise et plus fiable.
MOTS-CLÉS : analyse thématique ; cohésion lexicale ; focalisation ; réseau de collocations
de Chalendar, Gaël ; Grau, Brigitte (2000). SVETLAN’ ou Comment Classer des Noms en fonction de leur Contexte
RÉSUMÉ : L’utilisation de connaissances sémantiques dans les applications de TAL améliore leurs performances. Cependant, bien que des lexiques étendus aient été développés, il y a peu de ressources non dédiées à des domaines spécialisés et contenant des informations sémantiques pour les mots. Dans le but de construire une telle base, nous avons conçu le système SVETLAN’, capable d’apprendre des catégories de noms à partir de textes, quel que soit leur domaine. Dans le but d’éviter de créer des classes générales regroupant tous les sens des mots, les classes sont apprises en fonction de l’usage des mots en contexte.
MOTS-CLÉS : sémantique ; langue ; langue générale ; segment textuel ; module d’apprentissage
Aloulou, Chafik ; Hadrich Belguith, Lamia ; Ben Hamadou, Abdelmajid (2000). Vers un système d’analyse syntaxique robuste pour l’Arabe : Application au recouvrement des erreurs de la reconnaissance
RÉSUMÉ : Le degré de profondeur et de finesse de l’analyse syntaxique d’un texte écrit dépend énormément de l’objectif de l’analyse (analyse globale, analyse partielle, analyse détaillée, etc.) ainsi que du type d’application nécessitant cette analyse. Dans cet article, nous présentons une approche originale d’analyse syntaxique robuste appliquée à l’arabe et basée sur l’architecture multiagent. Comme première application de notre approche, notre système sera couplé avec un système de reconnaissance de l’écriture arabe dans le but d’effectuer, d’une part, la validation linguistique des mots reconnus par l’OCR (Optical Character Recognition) et d’autre part la détection et la correction des erreurs d’ordre lexicales, morphologiques, syntaxiques (cas des erreurs d’accord) et qui sont dues à la non ou au mal reconnaissance de certains mots par l’OCR. Le couplage de notre système avec le système de reconnaissance de l’écriture arabe entre dans le cadre d’un projet de coopération avec l’équipe Perception, Système et Information (PSI) de l’université de Rouen.
MOTS-CLÉS : analyse syntaxique ; analyse syntaxique robuste ; langue ; langue arabe ; corpus ; système de reconnaissance ; système de reconnaissance de l’écriture arabe
Illouz, Gabriel (2000). Vers un apprentissage en TALN dépendant du type de Texte
RÉSUMÉ : Dans cet article, nous présentons la problématique de l’hétérogénéité des données textuelles et la possibilité d’utiliser cette dernière pour améliorer les traitements automatiques du langage naturel. Cette hypothèse a été abordée dans (Biber, 1993) et a donné lieu à une première vérification empirique dans (Sekine, 1998). Cette vérification a pour limite de ne s’adapter qu’à des textes dont le type est explicitement marqué. Dans le cadre de textes tout venant, nous proposons une méthode pour induire des types de textes, apprendre des traitements spécifiques à ces types puis, de façon itérative, en améliorer les performances.
MOTS-CLÉS : corpus ; typologie textuelle ; étiquetage ; classification
Jacquemin, Christian ; Bush, Caroline (2000). Fouille du Web pour la collecte d’Entités Nommées
RÉSUMÉ : Cette étude porte sur l’acquisition des Entités Nommées (EN) à partir du Web. L’application présentée se compose d’un moissonneur de pages et de trois analyseurs surfaciques dédiés à des structures spécifiques. Deux évaluations sont proposées : une évaluation de la productivité des moteurs en fonction des types d’EN et une mesure de la précision.
MOTS-CLÉS : entité nommée ; expression régulière ; acquisition lexicale ; marqueur ; marqueur discursif ; moteur de recherche
Kahane, Sylvain (2000). Des grammaires formelles pour définir une correspondance
RÉSUMÉ : Dans cet article nous introduisons la notion de grammaire transductive, c’est-à-dire une grammaire formelle définissant une correspondance entre deux familles de structures. L’accent sera mis sur le module syntaxique de la théorie Sens-Texte et sur une famille élémentaire de grammaires de dépendance transductives. Nous nous intéresserons à la comparaison avec les grammaires génératives, ce qui nous amènera à discuter de l’interprétation des modèles génératifs actuels.
MOTS-CLÉS : grammaire ; grammaire transductive ; grammaire générative ; grammaire formelle ; grammaire de dépendance ; lexie
Kraif, Olivier (2000). Extraction automatique de correspondances lexicales : évaluation d’indices et d’algorithmes
RÉSUMÉ : Les bi-textes sont des corpus bilingues parallèles, généralement segmentés et alignés au niveau des phrases. Une des applications les plus directes de ces corpus consiste à en extraire automatiquement des correspondances lexicales, fournissant une information utile aux traducteurs, aux lexicographes comme aux terminologues. Comme pour l’alignement, des méthodes statistiques ont donné de bons résultats dans ce domaine. Nous pensons qu’une exploitation judicieuse d’indices statistiques adaptés et d’algorithmes de conception simple permet d’obtenir des correspondances fiables. Après avoir présenté les indices classiques, auxquels nous essayons d’apporter des améliorations, nous proposons dans cette article une étude empirique destinée à en montrer les potentialités.
MOTS-CLÉS : extraction ; extraction automatique de correspondances lexicales ; alignement ; alignement lexical ; lexicographie ; relation de traduction
Kurdi, Mohamed-Zakaria (2000). La grammaire sémantique d’unification d’arbres : un formalisme pour l’analyse des dialogues oraux spontanés
RÉSUMÉ : Cet article porte sur la grammaire sémantique d’unification d’arbres (STUO). 11 s’agit d’un formalisme que nous proposons comme une alternative aux approches simplificatrices menées dans le contexte du traitement automatique de la parole ainsi qu’aux approches à base de grammaires classiques qui sont généralement non adaptées au traitement de l’oral. La motivation essentielle de ce formalisme est la combinaison de la robustesse et la simplicité des grammaires sémantiques à la profondeur des grammaires classiques. Les propriétés essentielles de ce formalisme sont : une interaction directe entre la syntaxe et la sémantique, un système de traits économique et une simplicité tant de la mise en oeuvre de la grammaire que pour sa modification. La STUG a été implémentée au sein du système OASIS qui est un système d’analyse partielle de la parole spontanée. Les résultats de l’évaluation ont montré la bonne couverture de notre grammaire tant au niveau des arbres analysés qu’au niveau lexical ainsi que l’efficacité de cette grammaire pour la desambiguïsation et pour l’évitement des erreurs dans l’entrée.
MOTS-CLÉS : grammaire ; grammaire sémantique ; unification d’arbres ; parole ; parole spontanée ; ambiguïté contextuelle
Kurdi, Mohamed-Zakaria (2000). Une approche intégrée pour la normalisation des extragrammaticalités de la parole spontanée
RÉSUMÉ : Dans cet article, nous présentons une nouvelle approche pour la normalisation des extragrammaticalités de la parole. La particularité de cène approche est l’intégration de différentes sources de connaissances de haut niveau, en particulier le lexique, la syntaxe et la sémantique. Ainsi, le traitement des extragrammaticalités se déroule suivant deux étapes : dans la première, le système normalise les Extragrammaticalités Lexicales (Eis) (hésitations, amalgames, etc.) et dans la deuxième, le système détecte et corrige les Extragrammaticalités Supra Lexicales (ESLs). Ce traitement est base sur des modèles de ESLs (règles et pattems) qui considèrent à la fois les informations syntaxiques et les informations structurales dans la détection et la correction des extragrammaticalités. De même, le système a été doté de patterns de contrôle ainsi que de grammaires sémantiques afin de réduire au maximum la surgénérativité. Les résultats de l’évaluation ont montré l’efficacité de notre approche à détecter et à corriger les extragrammaticalités tout en évitant les cas de surgénérativité.
MOTS-CLÉS : parole ; parole spontanée ; extragrammaticalité lexicale ; corpus ; corpus d’apprentissage ; information ; information structurale
L’haire, Sébastien ; Mengon, Juri ; Laenzlinger, Christopher (2000). Outils génériques et transfert hybride pour la traduction automatique sur Internet
RÉSUMÉ : Dans cet article, nous décrivons un système de traduction automatique pour l’allemand, le français, l’italien et l’anglais. Nous utilisons la technique classique analyse-transfert-génération. Les phrases d’entrée sont analysées par un analyseur générique multilingue basé sur la théorie ((Principes ; Paramètres)) de la grammaire générative chomskienne. Le mécanisme de transfert agit sur des représentations hybrides qui combinent des éléments lexicaux avec de l’information sémantique abstraite. Enfin, un générateur inspiré de la même théorie linguistique engendre des phrases de sortie correctes. Nous décrivons également brièvement les différentes interfaces envisagées sur Internet.
MOTS-CLÉS : traduction ; traduction automatique ; transfert lexico-structural ; sémantique ; éléments lexicaux
Laï, Claude (2000). Propagation de traits conceptuels au moyen des métastructures Prolog
RÉSUMÉ : Après avoir effectué une description des métastructures Prolog, nous montrons leur utilité dans le domaine du Traitement Automatique du Langage Naturel, et plus précisément dans la propagation de traits conceptuels complexes comme l’appartenance des individus à des domaines pouvant faire intervenir des unions de produits cartésiens d’ensembles.
MOTS-CLÉS : métastructure Prolog ; langage ; langage naturel ; programmation ; programmation par contrainte ; produit cartésien
L’haire, Sébastien ; Mengon, Juri ; Laenzlinger, Christopher (2000). Outils génériques et transfert hybride pour la traduction automatique sur Internet
RÉSUMÉ : Dans cet article, nous décrivons un système de traduction automatique pour l’allemand, le français, l’italien et l’anglais. Nous utilisons la technique classique analyse-transfert-génération. Les phrases d’entrée sont analysées par un analyseur générique multilingue basé sur la théorie ((Principes ; Paramètres)) de la grammaire générative chomskienne. Le mécanisme de transfert agit sur des représentations hybrides qui combinent des éléments lexicaux avec de l’information sémantique abstraite. Enfin, un générateur inspiré de la même théorie linguistique engendre des phrases de sortie correctes. Nous décrivons également brièvement les différentes interfaces envisagées sur Internet.
MOTS-CLÉS : traduction ; traduction automatique ; transfert lexico-structural ; sémantique ; éléments lexicaux
Mathet, Yann (2000). Le paradigme monodimensionnel dans l’expression de l’espace et du déplacement
RÉSUMÉ : La sémantique de certains verbes (doubler, distancer, suivre) et de certaines prépositions ou adverbes (devant, derrière) peut poser problème dès lors qu’elle est considérée comme purement spatiale, c’est-à-dire en des termes " classiques " comme la topologie, le repérage ou la distance. Nous proposons dans cet article une description plus générale de ces items lexicaux basée sur la notion d’axe abstrait, rendant compte de leur sens dans différents domaines, ainsi que les différents mécanismes permettant de les plonger dans le domaine qui concerne notre recherche, le spatio-temporel. Ces mécanismes sont intégrés dans un modèle informatique de génération automatique de prédicats verbaux afin d’éprouver leur pertinence.
MOTS-CLÉS : paradigme monodimensionnel ; prédication monodimensionnelle ; prédicat ; prédicat verbal ; sémantique
L’haire, Sébastien ; Mengon, Juri ; Laenzlinger, Christopher (2000). Outils génériques et transfert hybride pour la traduction automatique sur Internet
RÉSUMÉ : Dans cet article, nous décrivons un système de traduction automatique pour l’allemand, le français, l’italien et l’anglais. Nous utilisons la technique classique analyse-transfert-génération. Les phrases d’entrée sont analysées par un analyseur générique multilingue basé sur la théorie ((Principes ; Paramètres)) de la grammaire générative chomskienne. Le mécanisme de transfert agit sur des représentations hybrides qui combinent des éléments lexicaux avec de l’information sémantique abstraite. Enfin, un générateur inspiré de la même théorie linguistique engendre des phrases de sortie correctes. Nous décrivons également brièvement les différentes interfaces envisagées sur Internet.
MOTS-CLÉS : traduction ; traduction automatique ; transfert lexico-structural ; sémantique ; éléments lexicaux
Morin, Emmanuel (2000). Complémentarité des approches supervisées et non supervisées pour l’acquisition de relations entre termes
RÉSUMÉ : Cet article a pour objectif de préciser la complémentarité des approches supervisées et non supervisées utilisées en structuration terminologique pour extraire des relations entre termes. Cette étude est réalisée sur un exemple concret où nous cherchons à faire ressortir les avantages et les inconvénients de chaque approche. Au terme de cette analyse, nous proposons un cadre pour les employer de façon synergique.
MOTS-CLÉS : analyse distributionnelle ; terminologie ; relation conceptuelle entre termes ; extraction ; extraction de couple
Béchet, Frédéric ; Nasr, Alexis ; Genet, Franck (2000). Enrichissement automatique de lexique de noms propres à partir de corpus
RÉSUMÉ : Cet article présente une méthode d’étiquetage sémantique de noms propres fondé sur la technique des arbres de décision. Ces derniers permettent de modéliser les éléments saillants dans les contextes d’occurrence de noms propres d’une classe donnée. Les arbres de décision sont construits automatiquement sur un corpus d’apprentissage étiqueté, ils sont ensuite utilisés pour étiqueter des noms propres apparaissant dans un corpus de test. Les résultats de l’étiquetage du corpus de test est utilisé pour enrichir un lexique de noms propres. Ce dernier peut être utilisé à son tour pour réestimer les paramètres d’un étiqueteur stochastique. Nous nous intéressons en particulier au cas où le corpus de test a été glané sur le Web.
MOTS-CLÉS : expression régulière ; entrée lexicale ; étiquetage ; arbre ; arbre de décision ; corpus ; corpus de test
Paroubek, Patrick ; Rajman, Martin (2000). MULTITAG, une ressource linguistique produit du paradigme d’évaluation
RÉSUMÉ : Dans cet article, nous montrons comment le paradigme d’évaluation peut servir pour produire de façon plus économique des ressources linguistiques validées de grande qualité. Tous d’abord nous présentons le paradigme d’évaluation et rappelons les points essentiels de son histoire pour le traitement automatique des langues, depuis les premières applications dans le cadre des campagnes d’évaluation américaines organisées par le NIST et le DARPA jusqu’aux derniers efforts européens en la matière. Nous présentons ensuite le principe qui permet de produire à coût réduit des ressources linguistiques validées et de grande qualité à partir des données qui sont produites lorsque l’on applique le paradigme d’évaluation. Ce principe trouve ses origines dans les expériences (Recognizer Output Voting Error Recognition) qui ont été effectuées pendant les campagnes d’évaluation américaine pour la reconnaissance automatique de la parole. Il consiste à combiner les données produites par les systèmes à l’aide d’une simple stratégie de vote pour diminuer le nombre d’erreurs. Nous faisons alors un lien avec les stratégies d’apprentissages automatiques fondées sur la combinaison de systèmes de même nature. Notre propos est illustré par la description de la production du corpus MULTITAG (projet du programme Ingénierie des Langues des département SPI et SHS du CNRS) à partir des données qui avaient été annotées lors de la campagne d’évaluation GRACE, correspondant à un corpus d’environ 1 million de mots annotés avec un jeu d’étiquettes morpho-syntaxiques de grain très fin dérivé de celui qui a été défini dans les projets EAGLES et MULTEXT. Nous présentons le corpus MULTITAG et la procédure qui a été suivie pour sa production et sa validation. Nous concluons en présentant le gain obtenu par rapport à une méthode classique de validation de marquage morho-syntaxique.
MOTS-CLÉS : paradigme d’évaluation ; campagne d’évaluation ; système d’annotation ; corpus
Poibeau, Thierry (2000). De l’acquisition de classes lexicales à l’induction semi-automatique de grammaires locales
RÉSUMÉ : Cette étude vise à automatiser partiellement l’acquisition de ressources pour un système d’extraction fondé sur la boîte à outils INTEX. Les processus d’apprentissage mis en oeuvre sont symboliques, supervisés et fortement interactifs afin de n’apprendre que ce qui est utile pour la tâche. Nous examinons d’abord la notion d’automate patron, permettant l’acquisition d’éléments apparaissant dans des contextes similaires, nous proposons ensuite plusieurs mécanismes de généralisation avant d’envisager l’induction semi-automatique de grammaires locales.
MOTS-CLÉS : grammaire ; grammaire locale ; acquisition de classes ; classes lexicales ; corpus ; automate ; automate patron ; induction de grammaire
Paroubek, Patrick ; Rajman, Martin (2000). MULTITAG, une ressource linguistique produit du paradigme d’évaluation
RÉSUMÉ : Dans cet article, nous montrons comment le paradigme d’évaluation peut servir pour produire de façon plus économique des ressources linguistiques validées de grande qualité. Tous d’abord nous présentons le paradigme d’évaluation et rappelons les points essentiels de son histoire pour le traitement automatique des langues, depuis les premières applications dans le cadre des campagnes d’évaluation américaines organisées par le NIST et le DARPA jusqu’aux derniers efforts européens en la matière. Nous présentons ensuite le principe qui permet de produire à coût réduit des ressources linguistiques validées et de grande qualité à partir des données qui sont produites lorsque l’on applique le paradigme d’évaluation. Ce principe trouve ses origines dans les expériences (Recognizer Output Voting Error Recognition) qui ont été effectuées pendant les campagnes d’évaluation américaine pour la reconnaissance automatique de la parole. Il consiste à combiner les données produites par les systèmes à l’aide d’une simple stratégie de vote pour diminuer le nombre d’erreurs. Nous faisons alors un lien avec les stratégies d’apprentissages automatiques fondées sur la combinaison de systèmes de même nature. Notre propos est illustré par la description de la production du corpus MULTITAG (projet du programme Ingénierie des Langues des département SPI et SHS du CNRS) à partir des données qui avaient été annotées lors de la campagne d’évaluation GRACE, correspondant à un corpus d’environ 1 million de mots annotés avec un jeu d’étiquettes morpho-syntaxiques de grain très fin dérivé de celui qui a été défini dans les projets EAGLES et MULTEXT. Nous présentons le corpus MULTITAG et la procédure qui a été suivie pour sa production et sa validation. Nous concluons en présentant le gain obtenu par rapport à une méthode classique de validation de marquage morho-syntaxique.
MOTS-CLÉS : paradigme d’évaluation ; campagne d’évaluation ; système d’annotation ; corpus
Savoy, Jacques ; Rasolofo, Yves (2000). Recherche d’informations dans un environnement distribué
RÉSUMÉ : Le Web ou les bibliothèques numériques offrent la possibilité d’interroger de nombreux serveurs d’information (collections ou moteurs de recherche) soulevant l’épineux problème de la sélection des meilleures sources de documents et de la fusion des résultats provenant de différents serveurs interrogés. Dans cet article, nous présentons un nouvelle approche pour la sélection des collections basée sur les arbres de décision. De plus, nous avons évalué différentes stratégies de fusion et de sélection permettant une meilleure vue d’ensemble des différentes solutions.
MOTS-CLÉS : recherche d’information ; modèle vectoriel ; arbre ; arbre de décision ; moteur de recherche ; indexation
Savoy, Jacques ; Rasolofo, Yves (2000). Recherche d’informations dans un environnement distribué
RÉSUMÉ : Le Web ou les bibliothèques numériques offrent la possibilité d’interroger de nombreux serveurs d’information (collections ou moteurs de recherche) soulevant l’épineux problème de la sélection des meilleures sources de documents et de la fusion des résultats provenant de différents serveurs interrogés. Dans cet article, nous présentons un nouvelle approche pour la sélection des collections basée sur les arbres de décision. De plus, nous avons évalué différentes stratégies de fusion et de sélection permettant une meilleure vue d’ensemble des différentes solutions.
MOTS-CLÉS : recherche d’information ; modèle vectoriel ; arbre ; arbre de décision ; moteur de recherche ; indexation