Code-Mixing in Social Media Text. The Last Language Identification Frontier ?

Amitava Das* et Björn Gambäck**
*NITT University, Neemrana, Rajasthan 301705, India amitava.santu@gmail.com
**Norwegian University of Science and Technology, 7491 Trondheim, Norway gamback@idi.ntnu.no
Résumé
La compréhension automatique du texte bruyant des médias sociaux est l’un des secteurs de recherche contemporaine principaux. Jusqu’ici, la plupart des recherches se sont concentrées sur les textes en anglais ; mais plus de la moitié des utilisateurs écrivent dans d’autres langues, ce qui rend l’identification de la langue préalable au traitement complet du texte des médias sociaux. Bien que l’identification de la langue ait été considérée comme un problème presque résolu dans d’autres applications, les détecteurs de langue échouent dans le contexte des médias sociaux, et cela est dû aux phénomènes tels que le mélange et l’alternance de code linguistique, les emprunts lexicaux, les anglicismes et la dactylographie phonétique. Cet article présente une étude initiale pour comprendre les caractéristiques de mélange des codes dans le contexte des médias sociaux ainsi qu’un système développé pour détecter automatiquement les barrières linguistiques en texte « code-mélangé » de médias sociaux, ici illustrées par des messages de Facebook en mixte anglais-bengali et anglais-hindi.
Résumé (en anglais)
Automatic understanding of noisy social media text is one of the prime present-day research areas. Most research has so far concentrated on English texts ; however, more than half of the users are writing in other languages, making language identification a pre-requisite for comprehensive processing of social media text. Though language identification has been considered an almost solved problem in other applications, language detectors fail in the social media context due to phenomena such as code-mixing, code-switching, lexical borrowings, Anglicisms, and phonetic typing. This paper reports an initial study to understand the characteristics of code-mixing in the social media context and presents a system developed to automatically detect language boundaries in code-mixed social media text, here exemplified by Facebook messages in mixed English-Bengali and English-Hindi.
Document
Rank
2