martes, 15 de noviembre de 2011

Mapa lingüistico de los tweets

En este mapa podemos observar el idioma de los tweets enviados en la Península durante 4 meses y distinguir su idioma según su color. Rojo castellano, rosa gallego, azul portugués y amarillo catalán.



El mapa nos permite sacar conclusiones como lo despoblado que esta el Este de Portugal, Aragón, Extremadura y Castilla y León (más bien los pocos usuarios de Twitter que hay en esas zonas) y como la "araña" deja un claro rastro de actividad desde Madrid hasta las zonas periféricas.

Para identificar el idioma del tweet el autor utiliza una librería de Google (CLD – Compact Language Detector) sobre el texto de los tweets. Esa librería utiliza estadísticas de n-gramas de 4 caracteres, y ha sido entrenada con corpus de texto bastante grandes. Así que debería ser razonablemente fiable incluso con textos tan pequeños como un tweet (siempre que sean mínimamente gramaticales — supongo que si para un texto no genera una estadística fiable, generará un “unknown”). Pero ojo, está hecho sólo sobre los tweets georreferenciados (aquellos con localización). Por lo tanto hay un importante sesgo.

Visto en Nadaesgratis, el mapamundi aquí y la página del autor aquí.

No hay comentarios:

Publicar un comentario en la entrada

Gracias por tu comentario.