Big Data: La base de datos relacional no lo es todo

Publicado en

La explosión de datos está sucediendo a todo nivel en todos los dispositivos electrónicos, aplicaciones, individuos y organizaciones. De acuerdo al “Estudio del Universo digital” de IDC, el año pasado excedimos 1.2M Zetabytes con un pronóstico de crecimiento de 44x en la presente década. El recurso humano asociado solo crecerá 1.4x, lo que representa una enorme oportunidad para la industria. Demos contexto a la capacidad: todas las palabras habladas en la historia de la humanidad representan 5 Exabytes, un millar de estos forman un Zetabyte. La mayor parte de estos datos carecen de estructura.

Big Data

El término “Big Data” se está convirtiendo rápidamente en un nuevo foco de atención. El modelo actual de bases de datos es el relacional, donde explícitamente se ignora el orden de los renglones. Esta implementación impone un orden inherente en las tablas e inevitablemente resultará en recuperación de datos en forma no secuencial, una vez que no sea posible obtenerla de memoria RAM. A mayor información almacenada, el problema se incrementará. Se tiene que considerar la idea de abandonar el modelo relacional en cierto punto.

En el 2011, administrar una base de datos mayor a 3 TB requiere definitivamente de mejores prácticas, aunque el costo del hardware ha caído dramáticamente. Los appliances de almacenes de datos pueden soportar hasta 80 TB en sistemas con memoria compartida (SMP) y el salto a los Petabytes generalmente requiere procesamiento paralelo. En Estados Unidos, el 60% de bases de datos en producción de empresas supera ya 1 TB de información y de acuerdo a Forrester el 13% supera los 15 TB. Los grandes sitios de Internet son sin duda los que tienen la mayor oportunidad en el denominado clickstream analysis.

Hadoop

Entre los inversionistas de las startups de mayor renombre, un área de inversión ha sido la relacionada al proyecto Hadoop de Apache. Esta tecnología es apropiada para crear índices y manipular grandes cantidades de información en las denominadas nubes públicas. Amazon con Dynamo y Google con BigTable emprendieron este camino por los requerimientos de negocio y alejándose de complejidad innecesaria para cierto tipo de escenarios. Prácticamente todos los fabricantes de data warehouse están incorporando esta capacidad nativa en la productos comerciales de base de datos. Los analistas consideran que MapReduce ha alcanzado la velocidad de escape en nuevas tecnologías y permanecerá extendiendo a los actuales administradores de bases de datos.

Estandarizando el acceso

También existen productos “NoSQL”, aunque el creador del término dijo que debería ser “NoRel” dado que el SQL es conocido y tiene muchas ventajas. No hay normas para el acceso a la información, es una tecnología emergente con muchas indefiniciones y un mercado extremadamente fragmentado.

En marzo del 2011, la ACM Association for Computing Machinery, publicó un artículo de Erik Meijer y Gavin Bierman en el que se propone un modelo “Co-Relacional” para grandes bancos de datos compartidos. LINQ es apropiado para efectuar consultas en cualquiera de estos modelos.

Gran complejidad

Big Data no solo es el almacenamiento de información, involucra también el análisis con datos que no fueron diseñados para inteligencia de negocio, compresión, archivado multi-temperatura, automatización y depurado de datos. Posiblemente responder a cambios en los sensores sin tener que almacenar toda la información, denominado Complex Event Processing. Por último, un sistema de datos requiere mayor seguridad para el manejo de información privada y alta disponibilidad.

Hacia el futuro

Gran complejidad significa grandes oportunidades para la mercadotecnia y venta de soluciones de tecnología. Ya se han iniciado las charlas del impacto social y de negocio de Big Data. Mi recomendación es no apresurarse sino esperar a que los fabricantes absorban los aprendizajes en la plataforma existente. Excepto que exista una necesidad muy puntual.

Es cierto, la tecnología actual de base de datos es difícil de escalar, pero eso seguramente cambiará antes de ahogarnos en un océano de datos. Para mi gusto es un paso en la evolución de la plataforma aplicativa.

Bio

Luis Daniel Soto Maldonado labora en la división de negocio de servidores y herramientas de Microsoft Corp. @luisdans