Data Day 2018

Data Day México 2018 se llevó a cabo el 15 de marzo de 2018 en Ciudad de México.  Para información sobre futuras ediciones de Data Day, visita https://sg.com.mx/dataday

Aquí puedes ver las grabaciones de algunas de las sesiones.

 

Strategies to edit production data

Evento

Conferencista(s)

At some point, we all find ourselves at a SQL prompt making edits to the production database. We know it’s a bad practice, and we always intend to put in place safer infrastructure before we need to do it again, but what does a better system actually look like?

This talk progresses through 5 strategies for teams using a Python stack to do SQL writes against a database, to achieve increasing safety and auditability:

Lectura de comprensión automatizada con Deep Learning

Evento

Conferencista(s)

Stanford tiene un dataset de entrenamiento llamado SQuAD para probar modelos de análisis de texto y de comprensión de textos mediante duplas de pregunta-respuesta. Presentaremos modelos de deep learning desarrollados durante un verano de investigación en Carnegie Mellon para lograr responder las preguntas incluídas en el dataset.

You might not need Pandas

Evento

Conferencista(s)

Pandas is a great numerical libraries for data analysis. However, this convenience comes at the cost of a complex installation process (usually suggesting that you install anaconda to sidestep the issue), and several megabytes of extra dependencies. In many cases, the extra efficiency provided by pandas isn’t required, and a few lines of utility code can allow you to forgo pandas all together.

Cuando la tierra se sacude

Evento

Conferencista(s)

La colaboración masiva demostró ser un recurso fundamental para afrontar las secuelas que provocó el sismo del 19 de septiembre de 2017 en la Ciudad de México. El uso de las redes sociales permitió la comunicación entre las labores de rescate, logística y la sociedad civil. Se aprendieron lecciones sobre los alcances y las limitaciones de esta asociación. Sin embargo, ¿qué pasa cuando no existen las condiciones ni la infraestructura tecnológica propias de las grandes urbes?

Sanitización de datos y privacidad

Evento

Conferencista(s)

Un obstáculo típico para la labor de analítica son las políticas de privacidad que tienen que ser resguardadas por las áreas de IT o compliance, por lo tanto compartir datos al equipo de análisis se vuelve difícil, y cuando sucede, frecuentemente se omiten datos que poseen información relevante. Efectivamente, el proceso típico de sanitización previo a la compartición de datos destruye información.

La importancia estratégica de considerar mezclas de distribuciones

Evento

Conferencista(s)

El mixture model (o modelo de mezcla de distribuciones) es un modelo probabilístico que considera la existencia de subpoblaciones dentro de una población general. En varias ocasiones se tiene un sistema complejo que se caracteriza por irregularidades en su distribución, o su comportamiento es atípico y se requiere conjeturar la existencia de más de un conjunto de individuos o poblaciones.

IoT + BI: Cómo resolver la disparidad de velocidad

Evento

Conferencista(s)

El Internet de las cosas (IoT) se está convirtiendo en la “navaja suiza de la industria minorista”, con cientos de posibles casos de uso diferentes. De acuerdo con Gene Wojciechowskiantiguo CIO de Walmart.com, “La tecnología IoT no solo permitirá una mejor visibilidad, sino que también puede ayudar en la prevención de pérdidas y medir el impacto de los factores ambientales, como el calor, en los bienes en movimiento. a través de la cadena de suministro”.

Preparando nuestras ciudades para la transformación digital

Evento

Conferencista(s)

La forma en que operan las ciudades debe mejorar creando una conexión cívica más sólida con los ciudadanos. Por lo tanto, las ciudades deben estar preparadas para responder con eficacia y garantizar dicha conexión de manera integral en sus diferentes sectores gracias a la transición digital. Sin embargo, esta transición digital requiere una definición clara de roles y responsabilidades.

Taller: Limpieza y preparación de datos con Optimus y Spark

Evento

Conferencista(s)

En cualquier iniciativa con datos, una de las actividades que más tiempo consume (y que es más tediosa) es la limpieza, preparación y transformación de datos. Existen distintos frameworks y herramientas que nos pueden ayudar a acelerar y coordinar dicha tarea, una de ellas es Optimus. Optimus es una biblioteca open source, construida por desarrolladores mexicanos, que es actualmente utilizada en BBVA.

Taller: Dplyr + R + Spark = Sparklyr

Evento

Conferencista(s)

El paquete de R llamado sparklyr facilita el aprendizaje mediante un instalador de Spark que se puede usar dentro de una computadora personal, incluyendo Windows. En este taller los participantes aprenderán a utilizar Spark por medio de R mediante el uso de diferentes técnicas y funciones para transformar datos, crear modelos estadísticos, y programar canales de datos.

Lo que las Telcos saben de nosotros y a quíen se lo dan

Evento

Las empresas telefónicas guardan toneladas de información de nosotros para ajustar campañas y, a veces, dar mejor servicio, pero también están obligadas por el IFT a entregar dicha información a entidades gubernamentales y cooperar con ellas en investigaciones, sobre todo de seguridad nacional. Lamentablemente, esta regulación está llena de ambigüedades e interpretaciones que se vuelven relevantes a la luz del entramado político de cara a Julio 2018.

Usos correctos (e incorrectos) de los datos de INEGI

Evento

Conferencista(s)

Recientemente, las oficinas de estadística han realizado múltiples esfuerzos para que sus datos sean más accesibles y fáciles de utilizar: están en datos abiertos, con microdatos disponibles en internet, se acompañan de metadatos estandarizados y documentos metodológicos. A pesar de esto, hay algunos detalles metodológicos que es muy importante considerar cuando se utilizan datos oficiales que escapan a estos estándares.

El proyecto fue un éxito, ¿y ahora?

Evento

Conferencista(s)

Has construido una solución de analítica de datos para tu empresa y ha sido un éxito, los ejecutivos ahora no pueden vivir sin ella. El siguiente paso es transicionar la solución de ser un “extra” a convertirse en una parte integral de la operación del negocio. Esta plática se enfoca en cómo hacer esta transición.

Grandes poderes, grandes responsabilidades

Evento

Conferencista(s)

La analítica de datos se ha convertido en la nueva forma de convencer a las personas y empresas, y por lo tanto la nueva forma en que discutimos. Esto lleva a personas con formación técnica a desempeñarse en ámbitos que no le son familiares, ya que tradicionalmente pertenecen a los abogados, reporteros e investigadores.

En esta plática veremos cómo podemos aprender de sus métodos para complementar los nuestros y poder llegar más lejos en nuestras iniciativas de analítica.

El camino hacia la empresa inteligente

Evento

Conferencista(s)

En esta charla conversaremos sobre cómo los grandes volúmenes de datos ayudan a dirigir las estrategias de las empresas, y cómo desde la alta dirección se deben arropar estas iniciativas para que resulten en cambios culturales duraderos y no solo en proyectos tecnológicos a medio cocinar.

Machine learning usando Weka, en un entorno de cómputo distribuido

Evento

Conferencista(s)

En esta sesión mostraremos lo sencillo que es implementar algoritmos de machine learning en un entorno de cómputo distribuido por medio de Weka. Weka es una herramienta de software libre para data mining y machine learning, la cual fue desarrollada por la Universidad de Waikato en Nueva Zelanda. Durante la sesión demostraremos casos de uso reales y cómo se implementan con Weka.

Innovación @Amazon

Evento

Conferencista(s)

En esta plática exploraremos el modelo que Amazon utiliza para innovar. Compartiremos como lo ha aplicado en distintos negocios enfocados en diferentes mercados, cuáles son los pilares de su modelo de innovación, y como este modelo está íntimamente ligado a su cultura y procesos de negocio.