Publicado en
Este artículo fue originalmente publicado por Cutter Consortium en Noviembre del 2011 y está disponible para clientes de Cutter en http://www.cutter.com/content/bia/fulltext/updates/2011/biau1122.html
La versión presentada aquí fue editada y traducida por SG Software Guru con permiso de Cutter Consortium.
Los conceptos de data warehousing e inteligencia de negocios comenzaron a emerger hace poco más de dos décadas, y durante ese tiempo hemos visto algunos avances graduales en las tecnologías, herramientas y técnicas. Sin embargo, estamos viendo un cambio significativo provocado por la gran cantidad de datos —principálmente no estructurados— que se están haciendo disponibles, acompañados de avances tecnológicos que permiten descubrir y manejar estos grandes volúmenes de datos.
El concepto de analítica social (social analytics) describe un nuevo tipo de soluciones de BI que combinan estos factores para descubrir conocimiento y sustentar la toma de decisiones. Consiste en analizar lo que el mundo está diciendo, y cómo se relaciona con los productos y servicios de su organización.
Algunos de los escenarios que la analítica social habilita son:
- Comprensión del sentimiento de los clientes y el mercado.
- Identificar oportunidades de innovación.
- Optimizar esfuerzos de marketing.
- Detectar indicadores de cambio.
- Obtener un conocimiento más profundo de la relación con los clientes.
- Entender tendencias sociales.
La analítica social requiere arquitecturas, tecnologías y estrategias especiales. En este artículo damos un panorama de ellas.
Arquitectura
Los medios sociales consisten principalmente de datos no estructurados y cualitativos. Las organizaciones no están acostumbradas a modelar dichos datos, y las bases de datos relacionales no se adecúan para almacenarlos ya que carecen de una estructura consistente de renglones y columnas. Es así que la analítica social nos lleva a usar bases de datos postrelacionales, también llamadas NoSQL. Tales bases de datos típicamente son no relacionales, distribuidas y escalan horizontálmente. Muchas de ellos son open source, tales como Hadoop/HBase.
Si en su organización deciden hacer analítica social usando bases de datos relacionales, entonces le recomiendo que utilice técnicas de modelado de datos adaptables (adaptive data modeling). En éstas, los datos se modelan usando una estructura objeto->atributo->valor, lo cual nos permite agregar, visualizar y analizar de forma útil estos datos.
Los datos de medios sociales tienen un tiempo de vida relativamente corto. La relevancia de un tweet, post o blog puede ir de algunas horas a algunas semanas, dependiendo del contexto. Es así que una arquitectura para analítica social debe estar orientada a tomar corrientes de datos (data streaming) y procesarlas de manera continua, reteniendo solamente los mínimos datos necesarios. Esto es muy distinto a los datawarehouse tradicionales, que almacenan históricos de las operaciones de la empresa.
Estrategias
En la analítica social es difícil establecer una visión de largo plazo sobre nuestra información, ya que los datos, tópicos y casos de uso están cambiando continuamente. Entonces, decidir qué información obtener y cómo utilizar el conocimiento derivado es una actividad que se realiza de manera continua.
Así como las estrategias de análisis de datos deben ser altamente adaptables, también deben serlo las estrategias de desarrollo. Dado el gran dinamismo de los datos, no es posible aplicar técnicas tradicionales de data warehousing para la integración de datos. Aquí tiene mayor importancia la velocidad y volumen de datos que la precisión.
La integración entre datos sociales y datos de sistemas empresariales presenta un reto interesante. La mayoría de las organizaciones maduras tiene políticas de calidad de sus datos empresariales, mientras que los datos sociales típicamente son muy crudos y pueden tener duplicados y contradicciones. Una buena estrategia de analítica social debe considerar puntos y mecanismos de integración adecuados entre datos empresariales y datos sociales públicos, organizándolos de la forma que sea más útil al negocio.
Tecnologías
Un ambiente de analítica social requiere un conjunto distinto de tecnologías que los que típicamente se tienen en una infraestructura de datawarehousing y BI. Las tecnologías candidatas deben incluir herramientas para: descubrimiento y cosecha de datos; filtrado y retención; análisis y visualización. Dependiendo de las metas estratégicas, también puede necesitarse alguna tecnología para la gestión de metadatos.
Descubrimiento y cosecha.
Para aquellas fuentes de datos conocidas tales como Twitter, Facebook, así como blogs y feeds RSS previamente identificados, es esencial utilizar una herramienta que pueda captar y organizar continuamente los datos de estas fuentes. Estas herramientas habilitan crear de forma sencilla “robots” que periódicamente visitan sitios web y extraen información importante. Una arquitectura de analítica social puede tener cientos de estos robots, cada uno para un sitio web específico. Un ejemplo de una herramienta para esto es la plataforma de Kapow Software.
Tanto o más importante que conocer los datos generados por fuentes conocidas, es el descubrir fuentes de datos previamente desconocidas. Esto requiere tecnologías de crawling tales como Arachnode.Net, la cual provee la capacidad de navegar sitios desconocidos, regresando información que puede ser de interés. Los crawlers típicamente son sembrados con un sitio web inicial, y de ahí navegan a través de todas sus ligas, y luego las ligas de los sitios a donde llevan, y así. Por medio de los crawlers podemos identificar nuevos sitios con información de nuestro interés, y posteriormente con cosechadores podemos estar extrayendo esos datos.
Los motores de búsqueda inteligentes extienden la búsqueda tradicional por palabras clave, con procesamiento de lenguaje natural (NLP), de forma que puedan incorporar contexto, análisis temporal y significado semántico a las búsquedas. El incorporar búsqueda inteligente a una infraestructura de analítica social puede reducir el número de resultados inútiles y aumentar el valor de los datos descubiertos.
Gestión y retención de datos
Como ya se mencionó, las bases de datos relacionales no son del todo adecuadas para el almacenamiento de grandes volúmenes de datos no estructurados. Para ello requerimos utilizar tecnología de almacenamiento específica para Big Data. Sistemas de archivos como Hadoop Distributed File System (HDFS) y bases de datos como HBase son una opción común. Sin embargo, hay que tener en cuenta que la administración de estas tecnologías requiere habilidades y conocimientos distintos al de las bases de datos tradicionales por lo que es muy probable que haya que contratar personal nuevo o entrenar al existente.
Visualización y análisis
El análisis y visualización de big data es un campo jóven y en el que las tecnologías apenas comienzan a consolidarse. Algunos tipos de estas tecnologías son:
- Bases de datos escalables, entre sus características destacan que son no relacionales, distribuidas y orientadas a escalar horizontalmente.
- MapReduce, el framework de procesamiento distribuido de tareas.
- Tecnologías de procesamiento de corrientes de datos diseñadas para el procesamiento con baja latencia de eventos en tiempo real. Un ejemplo es StreamSQL.
- Appliances para Big Data que integran tecnologías de servidor, redes y almacenamiento en una “caja negra” que está lista para utilizarse y optimizada para procesar grandes cantidades de datos.
Las herramientas y tecnologías que se requieran para cada caso, dependen del tipo de análisis a realizar. Por ejemplo, el análisis de sentimientos es una técnica difusa que combina procesamiento de lenguaje natural, lingüística computacional y análisis de texto para evaluar la actitud de un autor respecto a cierto tópico o conjunto de palabras. Los motores de análisis de sentimientos calculan una calificación de polaridad, la cual indica el grado de positivismo o negatividad sobre un tópico específico.
La visualización y presentación de datos no estructurados es un aspecto clave de la analítica social. Dado que los datos son no estructurados y cualitativos, no podemos apoyarnos en las técnicas de visualización de datos cuantitativos. En lugar de esto, la información debe presentarse de formas que incentiven el análisis de información. En otras palabras, necesitamos herramientas que destilen grandes volúmenes de datos y los presenten de forma que los humanos puedan visualizar y entender fácilmente. Las técnicas de visualización de datos científicos pueden ser una buena opción para aplicarse a la visualización de analítica social, sin embargo al momento de escribir este artículo todavía no conozco herramientas que hagan esto de manera efectiva. Sin duda, en el futuro próximo comenzaremos a ver herramientas que resuelvan esta necesidad.
Conclusión
La analítica social es un área emergente que difiere substancialmente del datawarehousing y BI tradicional. Puede ser un diferenciador clave para las empresas en el futuro. Sin embargo, hay que tener en cuenta que la analítica social representa un cambio de paradigma significativo para los directivos y profesionistas de TI, requiriendo nuevas arquitecturas e infraestructura, estrategias cambiantes, y nuevas habilidades. Posiblemente este artículo despierte más preguntas que respuestas. Mi objetivo es hacerlos conscientes de esta tendencia e invitarlos a explorar estas consideraciones para determinar el rol que la analítica social puede jugar en su organización.
Ken Collier es Director de las prácticas de Data Insight y Social Business Intelligence, así como Consultor Senior en la práctica de Agile Product Management en Cutter Consortium. Ken es un líder en la combinación de métodos ágiles con inteligencia y analítica de negocios.
- Log in to post comments