Houssem Eddine Dridi* et Guy Lapalme**
*Druide informatique inc. 1435 rue Saint-Alexandre, bureau 1040 Montréal, Québec, Canada H3A 2G4 houssemeddine.dridi@gmail.com
**RALI - Département d’informatique et de recherche opérationnelle Université de Montréal C.P. 6128, Succ Centre-Ville Montréal, Québec, Canada H3C 3J7 lapalme@iro.umontreal.ca
Résumé
Nous présentons un système pour déterminer, à partir des données de Twitter, les évènements qui suscitent de l’intérêt d’utilisateurs au cours d’une période donnée ainsi que les dates saillantes de chaque évènement. Un évènement est représenté par plusieurs termes dont la fréquence augmente brusquement à un ou plusieurs moments durant la période analysée. Afin de déterminer les termes (notamment les hashtags) portant sur un même sujet, nous proposons des méthodes pour les regrouper : des méthodes phonétiques adaptées au mode d’écriture utilisé par les utilisateurs et des méthodes statistiques. Pour sélectionner l’ensemble des évènements, nous avons utilisé trois critères : fréquence, variation et Tf·Idf.
Résumé (en anglais)
We present a system for finding, from Twitter data, events that raised the interest of users within a given time period and the important dates for each event. An event is represented by many terms whose frequency increases suddenly at one or more moments during the analysed period. In order to determine the terms (especially the hashtags) dealing with a topic, we propose methods to cluster similar terms : phonetic methods adapted to the writing mode used by users and some statistical methods. In order to select the set of events, we used three main criteria : frequency, variation and Tf·Idf.
Paru dans
Document
Rank
1