Un jeu de données pour répondre à des questions visuelles à propos d’entités nommées

Paul Lerner*, Salem Messoud*, Olivier Ferret**, Camille Guinaudeau*, Hervé Le Borgne**, Romaric Besançon**, Jose G. Moreno*** et Jesús Lovón Melgarejo***
*Université Paris-Saclay, CNRS, LISN, 91400, Orsay, France
**Université Paris-Saclay, CEA, List, F-91120, Palaiseau, France
***IRIT, UMR 5505 CNRS, Université Paul Sabatier, Toulouse, France
Résumé
Dans le contexte des approches multimodales, nous nous intéressons à la tâche de réponse à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (KVQAE). Nous mettons à disposition ViQuAE, un nouveau jeu de données de 3 700 questions associées à des images, annoté à l’aide d’une méthode semi-automatique. C’est le premier jeu de données de KVQAE comprenant des types d’entités variés associé à une base de connaissances composée de 1,5 million d’articles Wikipédia, incluant textes et images. Nous proposons également un modèle de référence de KVQAE en trois étapes : recherche d’information initiale, réordonnancement, puis extraction des réponses. Les résultats de nos expériences démontrent empiriquement la difficulté de la tâche et ouvrent la voie à une meilleure représentation multimodale des entités nommées.
Résumé (en anglais)
In the context of multimodal processing,we focus our work on Knowledge-based Visual Question Answering about named Entities (KVQAE). We provide ViQuAE, a novel dataset of 3,700 questions paired with images, annotated using a semi-automatic method. It is the first KVQAE dataset to cover a wide range of entity types, associated with a knowledge base composed of 1.5M Wikipedia articles paired with images. To set a baseline on the benchmark, we address KVQAE as a three-stage problem: initial Information Retrieval, Re-Ranking, and Reading Comprehension. The experiments empirically demonstrate the difficulty of the task and pave the way towards better multimodal entity representations.
Document
Rank
1