Microsoft y Big Data

Publicado en

[Contenido Patrocinado]

Las organizaciones de hoy enfrentan desafíos crecientes para extraer valor del negocio a partir de los datos. En primer lugar, continúa el crecimiento desmedido de los datos que las organizaciones almacenan y pueden acceder. En segundo lugar, la complejidad de los datos aumenta conforme los clientes almacenan no solo datos estructurados en formato relacional, sino también datos no estructurados tales como archivos Word, PDF, imágenes, vídeos y datos geoespaciales. De hecho, analistas de la industria indican que más del 80% de los datos capturados son no estructurados. Finalmente, los clientes también se enfrentan a la velocidad de datos: las organizaciones que procesan datos transmitidos en tiempo real por sitios web requieren actualizar los datos en tiempo real para, por ejemplo, ofrecer el anuncio correcto o presentar las ofertas correctas a sus clientes.

Microsoft ha estado trabajando con Big Data desde mucho antes de que fuera una megatendencia: Por ejemplo, en Bing analizamos más de 100 petabytes de datos para ofrecer resultados de búsqueda de alta calidad. Microsoft proporciona una gama de soluciones para ayudar a los clientes a enfrentar los desafíos de Big Data. Nuestra familia de soluciones de data warehouse cuenta con una amplia gama de productos como Microsoft SQL Server 2008 R2, SQL Server Fast Track Data Warehouse, Business Data Warehouse, Microsoft SQL Server Parallel Data Warehouse, y recientemente con la liberación de SQL Server 2012, lo que ofrece una plataforma sólida y escalable para almacenar y analizar datos en sistemas data warehouse. El sistema de Parallel Dataware House (PDW) ofrece a los clientes rendimiento de clase empresarial que maneja volúmenes masivos a más de 600 TB. También proporcionamos LINQ para HPC (High Performance Computing) con un tiempo de ejecución distribuido y un modelo de programación para computación técnica.

Además de nuestras capacidades tradicionales, en Microsoft estamos adoptando Apache Hadoop, como parte de un mapa de solución para cumplir con nuestra visión de ofrecer soluciones de negocios para usuarios de todo tipo mediante la activación de nuevos tipos de datos de cualquier tamaño.

Solución Big Data de Microsoft

La visión de Microsoft es proporcionar conocimiento de negocios a partir de cualquier tipo de datos, incluyendo conocimiento previamente escondido en datos no estructurados. Para lograr este objetivo, Microsoft ofrecerá distribuciones de Windows Server y Windows Azure basadas en Apache Hadoop, acelerando su adopción en las empresas.

Esta nueva distribución basada en Hadoop por Microsoft permite a los clientes obtener una visión de negocios sobre datos estructurados y no estructurados de cualquier tamaño y activar nuevos tipos de datos. Esta información extraida de Hadoop se puede combinar perfectamente con la plataforma de Business Intelligence de Microsoft.

Beneficios clave:

  1. Ampliar y facilitar el acceso a Hadoop por medio de una instalación y configuración sencilla, además de programación simplificada con JavaScript.
  2. Una distribución Hadoop “lista para la empresa”, con mayor seguridad (integrada al Directorio Activo de Microsoft) y facilidad de administración (con una consola única con System Center).
  3. Facilidad para descubrir y aplicar información del negocio, mediante el uso de herramientas conocidas como PowerPivot para Excel, SQL Server Analysis y Reporting Services de SQL server, se puede tener una integración y explotación de datos en poco tiempo y con grandes resultados.

Nuestra solución de Big Data también ofrece interoperabilidad con otras distribuciones de Hadoop, permitiendo obtener información de varias fuentes.

  1. Dos conectores de Hadoop: Que permiten a los clientes mover datos fácilmente entre Hadoop y SQL Server o SQL Server Parallel Data Warehouse. Estos  conectores ya se encuentran disponibles.
  2. Controlador Hive ODBC, además de Excel Hive Add-In: Ofrecemos un nuevo controlador de Hive ODBC y un Hive de Excel complementario que permiten a los clientes mover datos directamente en Excel, o herramientas de BI de Microsoft tales como PowerPivot, para análisis.

Ampliando el acceso a Hadoop

Microsoft está comprometido en ampliar la accesibilidad y uso de Hadoop para usuarios, desarrolladores y profesionales de TI. La nueva distribución de Windows basada en Hadoop facilita las cosas al personal de TI, simplificando la experiencia de adquisición, instalación y configuración. Las mejoras en el empaquetamiento de Hadoop y sus herramientas permiten instalarlo y desplegarlo en cuestión de horas en lugar de días.

Los usuarios finales pueden utilizar el controlador Hive ODBC o Hive Add-in for Excel para analizar los datos de Hadoop usando herramientas conocidas como Microsoft Excel y clientes de BI como PowerPivot para Excel.

Para los desarrolladores, Microsoft está invirtiendo en hacer que JavaScript sea un lenguaje de primera clase para Big Data, permitiendo escribir tareas Map/Reduce de alto desempeño en JavaScript. Además, nuestra consola de JavaScript permitirá a los usuarios crear con JavaScript desde su navegador tareas Map/Reduce, así como queries de Pig-Latin y Hive para ejecutarse en Hadoop. Este es el tipo de innovación que Microsoft espera contribuir como propuesta a la comunidad.

Hadoop listo para la empresa

Para acelerar su adopción en las empresas, Microsoft alistará a Hadoop para la empresa gracias a lo siguiente:

  1. Integración con Active Directory para manejo de seguridad.
  2. Mejoras en desempeño para grandes cantidades de datos.
  3. Integración con System Center para simplificar la administración.
  4. Integración con soluciones de Business Intelligence.

Adicionalmente, las opciones de despliegue de Windows Server y Windows Azure ofrecen gran flexibilidad y poder de elección:

  1. Libertad para elegir qué datos se mantienen in-house o en la nube.
  2. Menor costo total de propiedad (TCO) al desplegar Hadoop en la nube.
  3. Elasticidad para satisfacer la demanda, además de tener la opción de ampliar una solución de Hadoop in-house con Hadoop en Azure para satisfacer períodos de alta demanda. 
  4. Mayor desempeño ya que nuestra solución permite a los clientes procesar datos más cerca de donde estos nacen, ya sea en sitio o en la nube.

Todo esto se hace sin perder la compatibilidad con las herramientas existentes de Hadoop tales como Pig, Hive y Java. Nuestro objetivo es garantizar que las aplicaciones creadas en Apache Hadoop puedan migrar fácilmente a nuestra distribución para ejecutarse en Windows Azure o Windows Server.

 

Detección y aprovechamiento de información

La solución de Big Data de Microsoft mejora significativamente la detección y aprovechamiento de información al permitir combinar datos relacionales de bases de datos con datos no estructurados de Hadoop. Nuestra distribución de Windows Server y Windows Azure basada en Hadoop permite:

  1. Analizar datos de Hadoop con herramientas familiares a los usuarios como Excel, gracias a su Hive Add-in para Excel.
  2. Reducir el tiempo de solución mediante la integración de herramientas de Hive y Microsoft BI como PowerPivot y PowerView.
  3. Construir soluciones corporativas de BI que incluyen datos de Hadoop, mediante la integración de Hive y herramientas líderes de BI como SQL Server Analysis Services y Reporting Services.

El controlador Hive ODBC permite a los clientes mover datos desde Hive directamente en Microsoft Excel o Herramientas de BI herramientas como SQL Server Analysis Services, Reporting Services, PowerPivot y PowerView para una visualización de datos enriquecidos. Estas vistas pueden incorporarse paneles de control para los tomadores de decisiones.

Figura 1. Panorama de la solución Big Data de Microsoft

 

En marzo del 2012 estaremos lanzando al mercado SQL Server 2012, ofreciendo tres pilares: Misión crítica, Pensamiento creativo y Soluciones en la nube en tus términos.

En misión crítica, estamos incluyendo la tecnología “AlwaysOn”, ofreciendo una solución para manejar grupos de alta disponibilidad para clusters, mirroring, log shipping y diagnósticos, ofreciendo ltiples servidores secundarios en modo activo y múltiples bases de datos para tolerancia a fallos, escalabilidad bajo demanda y distribuyendo cargas de trabajo en servidores secundarios. Ofreciendo un performance de más de 57,000 transacciones por segundo y 100,000,000 por día, con una velocidad mejorada gracias a la tecnología de ColumnStore Index

Para ayudar la detección y aprovechamiento de información, contamos con una exploración y visualización de informes, reportes y datos mejorada agregando nuevas tecnologías como Power View que permite ver reportes de una forma gráfica y dinámica, así como Power Pivot que permite explotar millones de registros via Excel con BI de autoservicio, permitiendo al usuario un uso efectivo de sus datos en Excel y SharePoint Server.

La nube en tus términos es nuestra visión de crear y escalar soluciones de negocios de forma rápida y en tus términos: a través de servidores, nube privada o pública.

SQL Server ofrece la agilidad necesaria para crear y escalar soluciones de forma rápida que permitan resolver los desafíos y habilitar nuevas oportunidades de negocio desde el servidor a la nube pública o privada vinculando herramientas comunes para optimizar la productividad y desarrollo. Una de nuestra ventajas con las herramientas de datos de SQL Server es escribir una vez, ejecutar en cualquier lugar ya sea on premise o en la nube, no hay que reescribir el código.

En resumen, SQL Server 2012 está diseñado para soportar las cargas de trabajo más exigentes del mercado, ofreciéndo los más altos niveles disponibilidad, desempeño, alta escalabilidad, seguridad y una experiencia mejorada para Inteligencia de Negocios, con herramientas “out of the box” en una sola licencia sin tener que pagar por cada característica.

Como parte de las actividades de lanzamiento de SQL Server 2012, realizaremos un evento virtual a nivel mundial. Lo invitamos a participar en este evento visitando http://www.sqlserverlaunch.com 

Para mayor información visite:

  1. https://www.microsoft.com/bigdata 
  2. https://www.hadooponazure.com 
  3. https://www.microsoft.com/sql

 

Bio

Eduardo Rivadeneira es líder para la plataforma aplicativa en Microsoft México. eduardo.rivadeneira@microsoft.com