Houda Bouamor*, Aurélien Max* et Anne Vilnat*
*LIMSI-CNRS et Université Paris Sud;BP 133 91403 Orsay cedex
Résumé
Dans ce travail nous présentons une étude détaillée de la tâche d’acquisition de paraphrases sous-phrastiques à partir de corpus monolingues parallèles. Nous démontrons empiriquement que ces corpus, bien qu’extrêmement rares, constituent le type de ressources le mieux adapté pour cette étude. Nos expériences mettent en jeu cinq techniques d’acquisition, représentatives de différentes approches et connaissances, en anglais et en français. Afin d’améliorer la performance en acquisition, nous réalisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique biclasse. Un résultat important de notre étude est l’identification de paraphrases qui défient actuellement les techniques étudiées, lesquelles sont classées et quantifiées en anglais et français.
Paru dans
Document
Rank
1