En un mundo donde los Grandes Modelos de Lenguaje (LLMs) y agentes autónomos están transformando múltiples industrias, es esencial desarrollar aplicaciones basadas en principios que aseguren su estabilidad, adaptabilidad y capacidad de gestionar la complejidad inherente. Esta ponencia explora cómo los conceptos de estabilidad dinámica mediante funciones de Lyapunov, la adaptabilidad a través de las estructuras disipativas de Prigogine, y la cibernética organizacional de Stafford Beer deberían guiar el diseño de estas aplicaciones.
A medida que los LLMs se integran en sistemas interactivos y autónomos, es vital garantizar que su comportamiento sea predecible y ajustable en tiempo real. Utilizar principios de estabilidad asegura que las aplicaciones mantengan coherencia y seguridad, incluso en escenarios complejos. Al mismo tiempo, la adaptabilidad se convierte en un pilar fundamental, permitiendo que los LLMs y agentes respondan a entornos dinámicos de manera eficiente y resiliente. Finalmente, la gestión de la complejidad mediante retroalimentación y optimización de subsistemas tanto técnicos como humanos mejora la robustez de estos sistemas.
Este análisis busca mostrar cómo estas ideas, tomadas de campos que tradicionalmente no se asocian con el diseño de IA, pueden proporcionar un marco sólido para crear aplicaciones más seguras, eficaces y alineadas con los valores éticos y los objetivos organizacionales.
Sala 1En Nowports, una startup de logística, experimentamos un gran crecimiento que nos llevó a alcanzar el estatus de unicornio. Este éxito trajo consigo nuevos desafíos y oportunidades, especialmente en el ámbito de la gestión de datos y la tecnología.
En esta charla, exploraremos el viaje de Nowports desde sus inicios como una empresa enfocada en un rápido time-to-market, hasta su transformación en una organización data-centric. Analizaremos cómo la empresa tomó decisiones cruciales para mantener su velocidad inicial, y cómo estas elecciones impactaron su infraestructura tecnológica y de datos. Discutiremos el punto de inflexión que representó convertirse en unicornio, momento en el que Nowports reorientó su enfoque hacia sistemas más sostenibles y escalables. Paralelamente, examinaremos cómo la revolución de los LLMs sucedió de manera paralela y nos exigió subir de nivel. Tomaremos este caso para hablar de los retos que tenemos hoy, y discutiremos los diferentes retos que tenemos en las organizaciones para vivir esta transición.
Abordaremos preguntas clave como:
This talk is presented by Softtek.
In the evolving landscape of AI and data, the integration of generative AI models into data-driven applications has become a game-changer. This talk, titled “Using Generative AI to Enhance Data-Driven Applications,” will explore the role of generative AI—specifically Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) architectures—in revolutionizing the way applications leverage data for enhanced decision-making and insights.
Jorge Eduardo García Serna, an experienced software engineer specializing in AI and Machine Learning, will provide insights into how generative models can process, analyze, and create data in ways that traditional methods cannot. By delving into practical use cases and real world applications, this talk will showcase how businesses and developers can harness the power of generative AI to improve efficiency, scalability, and overall performance in their data-driven systems.
Attendees will gain a deeper understanding of: • The mechanics behind LLMs and RAG architectures. • How generative AI enhances data interpretation and decision-making. • The integration of these technologies into existing data pipelines. • The future potential of generative AI in various sectors, from automation to intelligent decision support systems.
This session is designed for AI enthusiasts, data scientists, and developers seeking to stay at the forefront of AI-driven innovations, offering actionable insights on how to leverage generative AI to transform their data applications.
Sala 1Asegurar la calidad de los datos se ha convertido en un desafío crítico para las organizaciones que buscan precisión, consistencia y confiabilidad en sus procesos de toma de decisiones. Esta charla abordará las estrategias multifacéticas y las herramientas esenciales para mantener una alta calidad de datos como Great Expectations o Apache Griffin.
Exploraremos prácticas clave como el perfilado, limpieza y validación de datos, junto con Frameworks robustos de gobernanza y gestión de metadatos. Además, destacaremos el papel de la monitorización de datos, la integración y el uso de la automatización impulsada por IA para mejorar la calidad de los datos.
Los asistentes obtendrán conocimientos prácticos y técnicas accionables para implementar en sus entornos de datos, asegurando que los datos sigan siendo un activo confiable.
Sala 4“El auge de los LLMs con sus capacidades conversacionales y de estructurar la información han hecho que las empresas volteen a explorar diferentes formas de aprovecharlas y adaptarlas a sus necesidades.
Estrategias como Prompt Engineering o RAGs son las opciones más populares para aprovechar estas capacidades, por su aparente facilidad de implementación pero… es justo aquí donde empiezan las letras chiquitas:
¿Mi caso de uso es para un LLM simple o necesita trabajo de prompt engineering o un LLM + RAG o …la combinación de alguna de las anteriores? -Hay múltiples herramientas y estrategias, ¿Cómo sé cuál es la mejor se adapta a mis necesidades? ¿Qué LLM es mejor para mi aplicación? -¿Mi aplicación es agnóstica de los modelos? ¿Hay algún LLM que sea mejor para mi caso? ¿Basta con una arquitectura RAG “naive” o se requiere otras estructuras? -Siempre es mejor mantenerlo simple, ¿Pero es suficiente para mi caso? ¿Cómo estructurar mis datos? ¿Puedo usar un Knowledge Graph? -¿Necesito una RAG o un GraphRAG?
Acompáñanos a ver todas esas letras chiquitas y complicaciones que pueden surgir en los proyectos sobre GenAI, para que puedas aprovechar al máximo el poder conversacional de los LLMs y construir aplicaciones de calidad empresarial.”
Sala 1En esta charla se presentará un proyecto colaborativo entre AbogadasMX y Data-Pop Alliance. Este se basa en recopilar y visualizar datos sobre varios aspectos laborales enfocados en la equidad de género entre los despachos de abogados en el país. Para este objetivo se realizó el diseño e implementación de un CRM (software de customer relationship management) y una base de datos central para AbogadasMX, así como el cuestionario mediante el cual se podrán obtener los datos de los diferentes despachos. Este trabajo permitirá a la organización desarrollar un base sólida para la generación de información y un producto que responda a sus necesidades y procesos de trabajo. En la charla veremos cómo se realizó este diseño e implementación, las herramientas usadas y sus principales ventajas y desventajas, así como algunos detalles de la implementación, enfocandonos en los desafíos que surgen naturalmente en este tipo de proyectos.
Sala 3En esta conferencia caminaremos en uno de los retos que afrontó una organización en transicion a la digitalización para fortalecer a sus analistas de reclamos de garantías.
Para ello, exploramos los distintos componentes que de su arquitectura y cómo estos permitieron su integración con un modelo de Machine Learning que empodera a los agentes proveyendo de mayor información histórica y un acercamiento predictivo para que puedan tomar la mejor decisión.
Los componentes de dicha arquitectura y en los que profundizaremos en esta conferencia son:
La integración de DataFlow, GitHub Actions, Terraform y CloudRun proporciona una solución robusta y eficiente para el desarrollo y operación de modelos de Machine Learning en la nube. Esta arquitectura no solo mejora la eficiencia y escalabilidad del flujo de trabajo de datos, sino que también garantiza un entorno de despliegue automatizado y altamente disponible, permitiendo a los equipos centrarse en la innovación y el desarrollo de modelos avanzados para proveer de información importante a los tomadores de decisiones dentro de la organización.
Sala 4Se mostrarán a partir de casos prácticos como la IA Generativa ayuda a las áreas de Datos y Analítica a la provisión de herramientas para facilitar la autogestión (self services) de las áreas usuarias de negocio. Se mostrarán caos de asistentes de catálogo de datos, recomendaciones basadas en uso y sugerencias de insights.
Sala 1En las últimas tres décadas, la Zona Metropolitana de Monterrey se ha expandido a un ritmo insostenible. Sin embargo, hasta hace poco, no era posible tener una visión completa de este fenómeno, haciendo difícil mantener una discusión informada sobre el problema. En esta plática, seguiremos una narrativa basada en datos (utilizando la nueva plataforma ciudadfinita.mx) a través de las diferentes facetas de la expansión urbana en la Zona Metropolitana de Monterrey y los problemas que ocasiona. Finalizaremos con una discusión de como este tipo de herramientas pueden ayudarnos a impulsar una visión colectiva de la ciudad.
Sala 3En este taller se hablará sobre el enorme reto tanto para los matemáticos como para los científicos de datos y estrategas de negocios, que representa definir correctamente la métrica de evaluación de un modelo matemático para producir resultados tangibles dentro de un negocio.
El caso extremo de este problema es el famoso Test de Turing en el que evaluar cuándo un modelo matemático ha logrado la Inteligencia Artificial se ha demostrado ambiguo y no es completamente claro si ChatGPT lo ha pasado o no. Increíblemente, las métricas con las que se entrenan este tipo de modelos son muy lejanas a lo que representa una métrica sensible al problema de la generación del lenguaje. Este tipo de dificultades también aparecen en problemas más sencillos como la evaluación de un modelo de traducción, para los que las métricas como Rouge utilizadas en la evaluación distan mucho de la función de pérdida con la que se optimiza una red neuronal. Un problema similar aparece para casi todos los problemas de NLP o en Procesamiento de Imágenes.
En el otro extremo están los modelos simples de clasificación en los que los errores del segundo tipo se pueden estudiar cuantitativamente con métricas provenientes de la matriz de confusión, en el mejor de los casos sí es posible hacer diferenciables estas métricas y el entrenamiento de los modelos es más eficaz. Entre el primer extremo y este existen muchos matices que se tratarán durante el taller con ejemplos concretos y algunos avances recientes.
Sensibilizar sobre estas métricas a los actores en el desarrollo de un modelo de IA aplicado en la industria, independientemente de su background, es indispensable para el desarrollo de mejores prácticas en la evaluación de un modelo basado en datos.
Explicar la gigantesca diferencia que existe entre la función objetivo durante el entrenamiento de un modelo matemático utilizando una base de datos, y el objetivo que podría tener un negocio al implementar y escalar este modelo.
Sala 2En esta charla compartiré mi experiencia y opinión sobre cómo las organizaciones pueden tomar lecciones aprendidas de la revolución DevOps y aplicarlas para resolver la ““gran brecha de data””. Analizaré el problema de centrarse en pipelines de datos alineando a los dominios de negocio, e introduciré el concepto de Data Mesh que bien implementado puede ayudar a reducir esta brecha entre el dominio del negocio y la ingeniería de datos.
Sala 4Se presenta una prueba de concepto de un chatbot, capaz de responder preguntas en lenguaje natural sobre diferentes documentos de normatividad en el área de calidad dentro de una empresa. La necesidad de desarrollar esta solución surge como respuesta a la complejidad y extensión de la información contenida en los documentos, así como su frecuente consulta. Por lo que esta implementación pretende reducir esos tiempos de consulta en usuarios finales. La realización de esta prueba de concepto permitirá evaluar la viabilidad técnica y el caso de negocio de la implementación de un chatbot de estas características. Se presentarán resultados obtenidos en términos de la reducción del tiempo en consultas con apoyo del chatbot, considerando la calidad de las respuestas, el número de intentos y las recomendaciones necesarias para una correcta ejecución de consulta, es decir, ingeniería del prompt. En esta empresa de manufactura la Calidad lleva cientos de consultas al año, para asegurar la calidad de productos. Por ejemplo, se cuenta con una base de más de 3,600 normas de calidad nacionales e internacionales.
En la mayoría de los casos, la recopilación, búsqueda y análisis sobre esa cantidad de información, dependen en gran medida de la expertise del usuario que ejecuta las consultas. Actividades que, potencialmente, pueden ser apoyadas con soluciones tecnológicas que permita reducir los tiempos y costos.
La propuesta es el uso de un motor de búsqueda semántica basada en texto, junto con un procesador de lenguaje natural, que permitan hacer consultas al contenido de los documentos, formulado las preguntas adecuadas con base en contexto, palabras clave y analogías, facilitando el proceso de búsqueda y análisis de información.
Se compartirá con la audiencia la experiencia de este caso de uso y que retos se deben considerar en la estrategia de implementación de IA Generativa.
Sala 1Esta conferencia se centra en las aplicaciones matemáticas y de machine learning para prever la progresión de enfermedades crónicas como la diabetes y las enfermedades cardíacas. Se presentarán enfoques basados en series temporales para analizar datos longitudinales de pacientes, permitiendo la identificación temprana de patrones de riesgo y la personalización de tratamientos. Además, se discutirán los desafíos y oportunidades en la implementación de estas tecnologías en entornos clínicos reales, incluyendo consideraciones éticas y técnicas.
Sala 3La naturaleza del desarrollo de modelos de ML es un ciclo de mejora gradual. Para lograr buenos resultados, es importante definir un proceso que permita la rápida iteración.
La ingesta de los datos, el aprovisionamiento de recursos, y el entrenamiento de modelos pueden ser automatizados con orquestación y herramientas de tracking. Esto permite dos cosas importantes, liberación de tiempo de desarrollo, y el uso eficiente de recursos de cómputo.
En esta plática abordamos las decisiones de infraestructura y procesos de MLOps desde la óptica de una startup.
Sala 2En este panel discutiremos sobre la importancia de las habilidades matemáticas en la era de la Ciencia de Datos, y cómo desarrollarlas en equipos empresariales.
Sala 1Learn from basics to intermediate techniques on how to create a simple but powerful model for similarity-indexing for SQL queries, to Optimized a data ETL process with smart caching and UDFs.
Sala 4En esta conferencia se explora el desarrollo de un producto de datos que tiene como objetivo mejorar la logística portuaria; específicamente, reducir los movimientos desperdicio al momento de estibar los contenedores en una terminal. A partir de la identificación de movimientos innecesarios en el proceso de estiba, se han implementado soluciones basadas en aprendizaje de máquina para predecir el tiempo de estadía de los contenedores y determinar si requerirán servicios aduanales. Además, se abordará cómo se aplicó la ingeniería de variables para clasificar la mercancía utilizando el catálogo HS y técnicas de Procesamiento de Lenguaje Natural, así como la unificación de un catálogo de consignatarios a través de la teoría de grafos. En los resultados del modelamiento se ha observado que, de manera histórica, consistentemente, el mejor modelo incrementa la eficiencia con respecto a lo que hace actualmente la terminal. Finalmente, el producto de datos entrega los resultados del modelamiento a través de una API, permitiendo que se integren y utilicen directamente en las operaciones portuarias. Esta charla ofrecerá una visión detallada de los desafíos enfrentados, las técnicas empleadas, y el impacto de este producto de datos en la industria portuaria.
Sala 2En esta charla platicaremos sobre cómo podemos mejorar el desempeño de líneas de manufactura por medio de la captura y análisis de datos. Revisaremos casos y lecciones aprendidas en empresas en Nuevo León, específicamente en la transformación de datos para tableros SQDP y cómo utilizarlos para mejorar la visiblidad a todos los niveles, que habilite la toma de decisiones mejores y más rápidas.
Sala 1La pandemia de COVID-19 obligó a los gobiernos a acelerar la transformación digital de los sistemas de salud, sin embargo, la propia premura de los cambios dada la emergencia podría condicionar la sostenibilidad de estos esfuerzos. Es necesario seguir avanzando hacia la transformación digital de los sistemas de salud para lograr la cobertura universal en salud. Y para esto, necesitamos aprender no sólo sobre qué ha funcionado sino cómo se han logrado los avances observados. Pero también necesitamos repensar la manera en la que abordamos la transformación digital de los sistemas de salud. ¿Cómo podemos resolver los problemas de salud y de sistemas de salud con la transformación digital?
Sala 3En los últimos años, la competencia en la industria de los bienes de consumo masivo se ha intensificado. Las decisiones rápidas, dinámicas y basadas en datos son cruciales para mantener el liderazgo en el sector. Los modelos de machine learning se han convertido en pieza clave para transformar las grandes cantidades de información, en decisiones estratégicas que generarán valor. En esta plática se explorará, el cómo modelos avanzados de machine learning pueden ser utilizados para mejorar las estrategias de pricing, optimizar inventarios, predecir tendencias de mercado y de consumo en la industria de los bienes de consumo masivo.
El inicio de la plática, será una introducción sobre los desafíos específicos que enfrenta la industria de bienes de consumo masivo en la actualidad, desde gestión de inventario, pasando por la correcta asignación de precios, hasta la personalización de experiencia del cliente. Después, tocaré el tema específico, con base a mi experiencia profesional en el sector, de cómo desarrollar modelos predictivos que no solo anticipan las tendencias de compra, sino que también identifican oportunidades de optimización de precios y segmentación de los clientes, que tienen como resultado mejoras significativas en la eficiencia operativa, aumento en la rentabilidad d ellos productos y una mejora en la satisfacción del cliente.
Además, abordaré los retos y aprendizajes derivados de la implementación de estos modelos en un entorno real, incluyendo la gestión de grandes datasets y la integración de soluciones de IA con sistemas de gestión empresarial existentes. Finalmente, ofreceré una perspectiva sobre el futuro de la ciencia de datos en la industria del consumo masivo, destacando las nuevas tecnologías emergentes y cómo podrían moldear las estrategias de negocio en los próximos años.
Sala 1Durante la plática, conoceremos un pipeline de Machine Learning que utiliza código en R Studio y Python, con librerías de ciencia de datos y sistemas RAG para lograr:
Se presenta un modelo de predicción de la contaminación atmosférica por partículas PM2.5 en la Zona Metropolitana de Toluca. El modelo predictivo se realizó considerando un conjunto de datos obtenido de la RAMA. El proceso metodológico se centró en preparación del conjunto de datos y su análisis descriptivo, la elección de las mejores variables, la generalización del algoritmo, la elección de los mejores hiper parámetros que ayudaron a ajustar el modelo, una predicción de la contaminación por medio de técnicas clasificación y regresión y la interpretación y explicación de los resultados. En todos los procesos se aplicaron técnicas de Machine Learning haciendo uso de las librerías de Sckit Learn con algoritmos en Python. Los modelos se evaluaron con métricas de regresión y métricas de clasificación. Los resultados de la predicción generaron valores de contaminación por PM2.5 muy similares a la media actual, teniendo un error de variación de aproximadamente 5.5% equivalente a 5.35 unidades IMECA de partículas PM2.5. El modelo de clasificación encontró una probabilidad del 81% de que en 51 días la calidad del aire predicha como mala en realidad sea regular.
Sala 3Polars es un framework para el manejo de datos estructurados. Desarrollado en Rust, el framework está pensando para explotar características de hardware que permiten mejorar el desempeño principalmente mediante el uso de los cores disponibles (algoritmos de work stealing para división de trabajo), así como operaciones vectorizadas SIMD. En este taller se presenta una introducción al framework en Python. Se realiza un comparativo de tiempos de ejecución con otros frameworks (Pandas e.g) para mostrar sus ganancias en desempeño.
Sala 4En un mundo impulsado por datos, la ética y la gobernanza se vuelven esenciales para construir confianza y proteger los derechos de los usuarios. Esta ponencia explora cómo los principios éticos pueden integrarse en la gestión de datos, abordando temas como privacidad, calidad y seguridad. Aprenderás estrategias para crear una cultura ética que no solo protege a la organización, sino que también se convierte en una ventaja competitiva en el entorno digital. ¡Únete para descubrir cómo una gestión de datos ética transforma el futuro empresarial!
Sala 3Graph Neural Networks (GNNs) are particularly effective when dealing with non-Euclidean data representations without losing their inherent meaning. In our scenario, we have a network of connections among over 10,000 suppliers and aim to generate accurate recommendations for a new supplier or address inquiries such as, What is the best alternative supplier to switch to? and What are the characteristics and motivations for acquiring a supplier? We will delve into the theoretical aspects of GNNs and present the findings obtained.
Sala 2La utilización de infraestructura y servicios de nube pública brinda agilidad y conveniencia. Por otro lado, al usar servicios de nube pública para procesar datos, la falta de estrategias adecuadas de optimización puede llevar a un gasto innecesario y a una disminución en la eficiencia operativa.
En esta charla compartiré tips y recomendaciones que he aprendido a traves de mi experiencia como Chief Analytics Officer, que te ayudarán a establecer estrategias adecuadas para gestionar costos en la contratación de servicios de cómputo en la nube.
Sala 1¿A quién pertenece el conocimiento que provino del análisis de datos? Al dueño de los datos que ordenó el estudio. Típicamente, una empresa.
¿Se cumple siempre con este precepto? No siempre: Depende cómo se entregue a la empresa el resultado del análisis. Se puede hacer que un sistema de cómputo corra una rutina off-premises para llegar al resultado, de modo que nunca se entrega a manera de conocimiento abierto, fórmulas o software genérico. Del entendimiento surge la creatividad para mejorar, por lo que es una omisión grave.
Entonces, ¿qué debe buscar un gerente para mantener el control de su operación e incorporar un resultado analítico?
En esta plática se proponen maneras de combinar los resultados analíticos con el conocimiento fundamental, de manera que se reduzca la dependencia de la plataforma analítica y se logre distinguir cómo aporta un estudio a mejorar los resultados de la empresa.
Sala 1Los sistemas de aprendizaje de gran escala, como los modelos de lenguaje grande (LLMs) y las redes neuronales profundas tradicionales, han impulsado avances significativos en inteligencia artificial. Sin embargo, estos sistemas enfrentan desafíos críticos en términos de interpretabilidad, responsabilidad, justicia y eficiencia en el consumo de energía. Esta charla explorará cómo las Redes Neuronales Líquidas (Liquid Neural Networks) emergen como una solución prometedora para superar estas limitaciones.
Basándonos en investigaciones recientes, incluyendo el trabajo realizado en el CSAIL MIT, analizaremos cómo las Redes Neuronales Líquidas abordan los siguientes aspectos:
• Interpretabilidad: Cómo la naturaleza dinámica y adaptable de estas redes permite una mejor comprensión de sus procesos de toma de decisiones. • Responsabilidad: El potencial de las Redes Neuronales Líquidas para proporcionar resultados más trazables y justificables. • Justicia: Cómo su arquitectura flexible puede ayudar a mitigar sesgos inherentes en los datos de entrenamiento. • Eficiencia Energética: La capacidad de estas redes para operar con menos parámetros y menor consumo computacional.
Exploraremos casos de uso prácticos, demostrando cómo las Redes Neuronales Líquidas pueden ofrecer soluciones más robustas y eficientes que los modelos tradicionales.
Esta charla proporcionará a los asistentes una idea de esta tecnología emergente y su potencial para revolucionar el campo del ML/AI. Los participantes obtendrán intuición sobre cómo las Redes Neuronales Líquidas pueden aplicarse para construir sistemas de IA más interpretables, responsables, justos y energéticamente eficientes, preparándolos para la próxima generación de soluciones de inteligencia artificial.
Sala 2¿Estás cansado de lidiar con datos inconsistentes y poco fiables? ¡Es hora de transformar tu enfoque con Great Expectations! En este taller conocerás cómo esta poderosa herramienta puede revolucionar la calidad de tus datos, asegurando precisión y confianza en tus análisis y reportes.
Sala 4