Speaker(s):

Taller: Paso a paso para nuestro primer pipeline con Apache Beam y Dataflow

Presentado en Data Day 2021

Apache Beam es un SDK para pipelines de datos, en streaming y batch, que soporta varios lenguajes de programación, y diferentes plataformas para ejecutar los pipelines (Dataflow, Flink, Spark, etc). La gran ventaja de Beam es que una vez escrito el pipeline, se puede ejecutar en cualquier plataforma. En este taller, vamos a usar Python para escribir un pipeline de proceso de datos en batch, y lo vamos a ejecutar en local, y en Dataflow. Para terminar, veremos qué cambios serían necesarios para aprovechar el código que vamos a escribir para transformar ese mismo pipeline para trabajar en streaming.

Requisitos: Conocer Python (desarrollo “en vivo”), entorno de desarrollo con Python >= 3.7 (p.ej. PyCharm, VS Code). Idealmente, acceso a Google Cloud Platform, pero no es imprescindible (el pipeline se puede ejecutar en cualquier otra plataforma soportada por Beam)