Explorando el Océano de Datos

Publicado en

SG #40

Temas especiales

¿Te has preguntado alguna vez cuántos datos se generan al realizar tus actividades diarias? Desde cuántos litros de agua usas en la ducha, la cantidad de gas utilizada para el desayuno, el consumo de combustible de tu auto para desplazarte, las calorías quemadas en el gimnasio, el número de interacciones en tu perfil de Facebook, tus patrones de compras al ir al supermercado, hasta el número de páginas leídas en un libro electrónico antes de dormir; todo lo que hacemos, genera información.

En todas las empresas y organizaciones, cada vez se generan más datos provenientes de sistemas operacionales, puntos de venta, dispositivos móviles e incluso sensores y sistemas de geo-referenciación (GPS). Este océano de datos es lo que conocemos como Big Data. Las organizaciones han aprendido a reconocer la riqueza de información que existe de manera inherente en estos volúmenes de datos, algunas han sabido explotarla, otras no saben cómo abordarla y mucho menos encontrar las “perlas valiosas de información” dentro de ese océano.

El análisis big data se ha convertido rápidamente en la nueva frontera de diferenciación competitiva. No importando el rubro o vertical de negocio, para ser exitosas, las organizaciones deben aprender a manejar estos grandes volúmenes de información de manera eficiente para una toma de decisiones que les permita ser mejores y diferenciarse de su competencia.

¿Cómo manejar tanta información?

Para lidiar con los grandes volúmenes de datos generados por los medios electrónicos mencionados anteriormente, es necesario utilizar sistemas no solamente potentes, sino también inteligentes: es decir, hardware no solamente con alta capacidad de almacenamiento sino también de procesamiento. El fenómeno big data ha impulsado la incursión de nuevos jugadores y tecnologías basadas en el procesamiento paralelo. El proyecto Hadoop —un framework open source para el procesamiento masivo de datos— ha expuesto las bondades de la tecnología MapReduce, la cual consiste en el procesamiento en paralelo de tareas diseminadas en sub-tareas más pequeñas en un clúster de servidores.

Indudablemente, el primer paso para controlar este océano de información es considerar una plataforma de almacenamiento robusta y orientada a altos volúmenes de datos. Dependiendo de las necesidades y contexto, esto se puede hacer ya sea con hardware propio en tu data center, en la nube, o en un esquema híbrido.

Trabajando con datos heterogéneos

Pocas veces la información se encuentra condensada en una sola plataforma; en realidad se encuentra dentro de un ecosistema de fuentes relacionales, multi-dimensionales, Web services o incluso en la nube, tales como datos en SalesForce o redes sociales. Las plataformas de Business Intelligence y Business Analytics nacieron como respuesta a estas necesidades donde no sólo es suficiente consolidar las fuentes de datos, sino contar con una serie de características que proporcionen vistas rápidas de la información optimizando al máximo los recursos de almacenamiento disponibles.

Las capacidades Push-down analytics para fuentes VLDB (Very Large Database) de estas plataformas BI, permiten generar consultas optimizadas dependiendo de la fuente de información, delegando la mayor carga posible a la base de datos (BD).

Otra característica cada vez más común en las plataformas modernas de BI es la capacidad de almacenar Cubos en memoria. Como su nombre lo indica, esto consiste en crear cubos para responder las consultas más predecibles/frecuentes y que estos se almacenen en memoria RAM para agilizar al máximo su tiempo de respuesta; digamos que es como un cache para análisis de datos. La figura 1 ilustra este concepto.

Figura 1. Almacenamiento y consulta en cubos de memoria.

Anteriormente, este tipo de capacidades como tener cubos en memoria eran impensables o requerían hardware muy caro. Sin embargo, hoy en día es perfectamente posible y accesible.

Hasta este punto hemos hablado sobre cómo lograr que la información esté agregada y lista para ser accedida de forma rápida y eficiente. Adicional a esto, las herramientas de Business Intelligence modernas proporcionan una navegación de los datos en cualquier dirección (drill-down/up/anywhere) y con algoritmos de minería de datos que habilitan la capacidad de predecir comportamientos futuros y/o descubrir patrones en estos altos volúmenes de información.

Descubriendo información valiosa

Una vez teniendo una plataforma de base de datos optimizada para altos volúmenes de datos y un software de Business Intelligence, la incógnita es ¿cómo encontramos las "valiosas perlas" en ese océano de información?

Se ha acuñado un nuevo término para esta necesidad: “Data Discovery” (descubrimiento de datos).

Las herramientas BI cuentan con extensas librerías de visualizaciones que permiten la rápida interpretación y análisis de altos volúmenes de datos. En tan sólo unos cuantos clicks permiten crear semáforos personalizados, por ejemplo; encontrar en un mapa los diez puntos de venta más rentables, resaltándolos en color verde sobre miles de puntos en otro color representando el resto. Muchas de las visualizaciones disponibles extienden las capacidades gráficas tradicionales (gráficas de barras, gráficas de líneas, etc.) y son reemplazadas por nuevos tipos de gráficas que facilitan la visualización de varias dimensiones de datos, así como la relación entre estas. Ejemplos de estos son: burbujas interactivas, mapas de densidad, redes de asociación, etcétera. Las figuras 2 muestra un ejemplo de un mapa de densidad, en este caso refleja el volumen de ventas de cierto producto, mapeado geográficamente.

Figura 2. Ejemplo de un mapa de densidad

Además de las bondades mencionadas, el data discovery le brinda al usuario final el auto-servicio necesario para responder rápidamente a sus preguntas de análisis sin tener que esperar a la creación de reportes por parte de TI.

Una vez encontradas las "valiosas perlas" durante la fase de visualización y exploración, ¿cómo las convertimos en recursos activos de negocio? Las plataformas de BI pueden convertir los hallazgos de la fase de data discovery en vistas operativas conocidas como tableros de control (dashboards) e incluso hacerlos accesibles a través de una infraestructura en la nube y dispositivos móviles. Estos tableros tendrán información digerida que permitirán a las organizaciones tomar decisiones puntuales sobre el negocio.

Enriquecimiento con datos sociales

¿Es posible además controlar y explotar la fuente big data más dinámica y reciente: las redes sociales, y combinarla con nuestros hallazgos previos?

En el mercado existen herramientas para el análisis de redes sociales que le permiten a las organizaciones explotar todo el conocimiento estadístico generado en ellas para mejorar el posicionamiento de nuevos productos y la planeación estratégica de campañas de marketing. En un ejemplo concreto, se puede saber dónde ubicar un nuevo restaurante que va dirigido a un segmento de la población comparando la ubicación planeada con las ubicaciones frecuentadas por ese segmento de acuerdo a las redes sociales. Además se puede saber qué figuras públicas son más afines a una marca para una estrategia de promoción.

Conclusión

Como se ha visto, la tecnología nos ayuda a aprovechar el océano de datos cada vez más creciente y encontrar un beneficio que le permita a las organizaciones ser más competitivas. La visualización de datos es una herramienta importante para facilitar la detección de información valiosa.

Los sistemas de almacenamiento, explotación y visualización de los datos cada vez serán mejores y más potentes. No obstante, sólo el tiempo, la creatividad y nuevas regulaciones impuestas sobre uso de big data definirán cómo este fenómeno afectará el día a día de las empresas y nosotros mismos.

Bio

Jorge Alejandro Hernández Bonilla es Ingeniero de Preventa en MicroStrategy México y profesor por el ITESM en BI y Minería de Datos.
Ernesto Ceballos Nieto es Ingeniero Senior de Preventa en MicroStrategy México, teniendo a su cargo la competencia técnica en ciclos de ventas con clientes y prospectos premium.