Procesamiento de datos a gran escala con Apache Spark

Speaker(s):

Israel Gaytán

Procesamiento de datos a gran escala con Apache Spark

Presentado en SG Virtual 2015H1

Apache Spark es un framework para procesamiento de datos en paralelo que permite el procesamiento de los mismos en la memoria. Es hasta 100x más rápido que Apache Hadoop. Hoy en día las aplicaciones estarán pensadas para DataWorkflows y Spark te permite esta interacción con esos datos ya sea en Scala o Python. Adicionalmente puedes aplicar una seríe de Transformaciones a esos datos y aplicar procesamiento en Grafos (GraphX) Machine Learning (MLLib)

Descargar slides