La masse de données langagières qui est maintenant disponible permet de mettre en œuvre des techniques robustes, indépendantes des langues. Néanmoins, quantité de données ne signifie pas toujours qualité, robustesse et finesse d’analyse. L’équipe TALN tente de concilier ces deux aspects antagonistes en proposant des méthodes d’analyses de textes robustes adaptables à la diversité des données langagières écrites s’exprimant sur des nouveaux supports communicationnels comme les blogs, les réseaux sociaux, les forums, se couplant à d’autres média ou encore s’exprimant dans des langues différentes. Les travaux en TALN sont par nature multidisciplinaires, au cœur des données, en interaction avec les sciences humaines et sociales (linguistique, terminologie, traduction, sciences de l’information) et avec d’autres thématiques de l’informatique comme l’apprentissage, la fouille de données, la reconnaissance du signal (parole, geste), la recherche d’informations.
Les travaux de l’équipe portent sur l’analyse de la langue écrite et relèvent de deux thèmes principaux de recherche :
- Analyse & Découverte : L'analyse s'intéresse classiquement aux modèles formels de la syntaxe et de la sémantique des langues. Nous travaillons sur des grammaires lexicalisées permettant une analyse syntaxique en dépendance et sur des grammaires probabilistes. La découverte applique diverses méthodes d’analyses sur les corpus de données textuelles pour isoler des éléments remarquables. L'équipe a une forte expertise dans le traitement de documents appartenant à des domaines spécialisés.
- Alignement & Multilinguisme : Nous étudions dans ce thème des méthodes de rapprochement de diverses sources de données pour pouvoir bénéficier d’informations complémentaires : les alignements. Nous travaillons sur les alignements de corpus comparables, des textes dans deux langues sans rapport de traduction, des corpus multimodaux, des textes provenant de l’oral ou de l’écriture manuscrite et des textes écrits.
44000 Nantes
France