La minería de datos en redes sociales está ganando importancia debido a que permite
realizar campañas de marketing más precisas. Por ejemplo, Google realiza un análisis
de todos nuestros datos: vídeos que vemos, términos que buscamos, páginas webs
a las que accedemos, aplicaciones que descargamos, etc. para conocernos mejor y
mostrarnos publicidad personalizada.
LDA es un modelo estadístico generativo para modelar documentos. Existen diversos
algoritmos que dado un conjunto de documentos permiten obtener un modelo LDA
que podría haber generado esos documentos. Con ese modelo es posible observar los
temas usados en esos documentos y las palabras más relevantes para cada tema.
En el presente trabajo se pretende realizar una primera aproximación a la minería de
datos en Twitter. Para ello, usando la API de Twitter se han descargado tweets de
diversos usuarios y de sus seguidores. Posteriormente se han procesado esos Tweets
generando documentos y se ha aplicado la implementación de Gensim del algoritmo
Online LDA para obtener los temas de los documentos. Posteriormente, se han
comparado los temas de los usuarios con los de sus seguidores.
También se proporciona un análisis del estado del arte de la minería de datos en
Twitter.