De la Teoría a la Práctica: Automatización Analítica con LLMs, RAG y Plataformas de Data Engineering

By
Automatización Analítica con LLMs, RAG y Plataformas de Data Engineering

La ingeniería analítica ha experimentado una revolución impulsada por la integración de Modelos de Lenguaje Grandes (LLMs) y técnicas avanzadas como Retrieval Augmented Generation (RAG). Este artículo, basado en una presentación técnica, explora las estrategias adoptadas por un equipo de datos para romper el "cuello de botella" organizacional y acelerar los procesos de negocio mediante la automatización.

El Desafío de la Ingeniería Analítica Moderna

En un entorno de rápido crecimiento, los equipos de datos a menudo se encuentran desbordados por peticiones provenientes de múltiples departamentos. El ingeniero de datos se convierte en un rol multifacético: analista, científico de datos y generador de reportes ejecutivos.

La implementación de LLMs para responder preguntas sobre datos y generar visualizaciones es una solución atractiva, pero presenta un desafío crucial: la necesidad de contexto y la mitigación de las alucinaciones. La práctica demostró que los usuarios ya intentaban obtener resúmenes de reports de Tableau mediante capturas de pantalla en Chat GPT, aunque con resultados inconsistentes y a menudo erróneos.

El problema fundamental radica en que, si bien los LLMs son excepcionales en la generación de texto, históricamente han demostrado ser deficientes en la ejecución de tareas matemáticas precisas y razonamiento lógico sobre conjuntos de datos estructurados (un problema que incluso persistía en modelos avanzados como el GPT-4 en tareas simples de conteo como con la palabra "Strawberry").

Estrategias para Reducir Alucinaciones y Aumentar la Veracidad

Para transformar los LLMs en asistentes analíticos confiables, se exploraron y compararon cuatro enfoques principales:

1. Retrieval Augmented Generation (RAG) Puro

El RAG se establece como una de las soluciones más efectivas para dotar a los LLMs de información específica y actual. El concepto central se basa en la similitud de coseno aplicada a la representación vectorial (embeddings) del texto.

Proceso RAG Simplificado

Descripción

Paso 1: Embedding

La pregunta del usuario se transforma en un vector (vector A).

Paso 2: Recuperación (Retrieval)

El vector A busca en una base de datos vectorial (ej. ChromaDB) los vectores de contexto más similares dentro de los documentos o el data warehouse.

Paso 3: Aumento (Augmentation)

La información contextual recuperada (vectores similares) se concatena con la pregunta original y se envía al LLM (ej. Llama o GPT).

Paso 4: Generación

El LLM genera una respuesta basada en el contexto aumentado, incrementando significativamente la veracidad.

Implementación Técnica: Se utilizaron herramientas como LangChain para orquestación, OpenAI Embeddings para la vectorización, y ChromaDB como vector store.

Hallazgos Clave: Si bien las respuestas eran buenas en términos de descripción de datos (ej. attendance en distritos escolares), persistía el problema con la precisión matemática y los costos de API (latencia y token usage) no eran despreciables.

2. GPTs Personalizados de OpenAI

Esta solución representó un camino de baja fricción para agregar valor rápidamente. Permite la creación de asistentes especializados (GPTs) que restringen su dominio de conocimiento a la información provista, actuando como una forma simplificada de RAG.

Ventaja Fundamental: Se instruye al LLM para que, en lugar de realizar cálculos directamente, genere código (ej. Python) para manipular los datos. Este código es ejecutado por el sandbox del GPT, permitiendo que un intérprete de código haga las matemáticas, aprovechando la fortaleza del LLM en la generación de texto (código) y minimizando su debilidad en el cálculo.

Desafíos: La solución es sencilla ("2 minutos en hacer un prompt" y subir un CSV), pero plantea serios interrogantes sobre la conectividad a bases de datos en tiempo real y la protección de datos de usuarios internos. La evaluación de las gráficas y resultados generados sigue requiriendo intervención humana.

3. Asistentes de Open AI con SQL Generation

El siguiente nivel de sofisticación implicó la creación de un asistente a través de la API de Open AI, combinando RAG con la capacidad de generar consultas SQL.

Flujo de Trabajo: La consulta del usuario se vectoriza, se recupera el contexto relevante y, en lugar de una respuesta directa, el asistente retorna una query SQL (o JSON, Pydantic).

Beneficios: Este método resultó ser más preciso, ya que la ejecución del SQL ocurría directamente en el data warehouse, externalizando las operaciones de cálculo al motor de base de datos. Se lograba un mayor control sobre el output.

Consideraciones de Costo y UX: Aunque más preciso, el consumo de tokens seguía siendo significativo. Además, la necesidad de una Interfaz de Usuario (UI) propia era imperativa, ya que un Jupyter Notebook no es un entregable viable para el usuario final.

4. Cloud Desktop y el Protocolo MSP con DBT

La solución más prometedora en términos de eficiencia para el ingeniero de datos combinó herramientas de Antrophic con la infraestructura analítica existente.

Model Context Protocol (MCP): Anthropic desarrolló este protocolo de código abierto, apodado el "USB para LLMs", que permite la conexión con fuentes de datos externas (Slack, Gmail, bases de datos).

Integración con DBT (Data Build Tool): DBT, fundamental en la ingeniería analítica moderna, actúa como un framework de ingeniería sobre el SQL, añadiendo testing, integración continua (CI/CD) y documentación a los modelos de datos. Al conectar Cloud Desktop a DBT a través de MSP, el LLM accede a toda la metadata (tablas, esquemas, relaciones) del data warehouse.

Resultados Transformadores:

  • Generación de SQL de Alta Calidad: El agente genera queries SQL complejas con gran precisión.
  • Aceleración del Modelado: El agente puede recibir la instrucción "Ayúdame a construir un modelo de agregación" y, en segundos, proponer código Jinja/SQL para crear nuevos modelos de datos (ej. customers_cohors), eliminando tareas que antes consumían días.
  • Valor para el Ingeniero: Esta herramienta proporciona un valor inmediato a los ingenieros y analistas, integrándose con editores de texto para co-generar código en tiempo real.

Riesgo Crítico: Exposición de Datos (Compliance)

A pesar de su velocidad y precisión, esta arquitectura presenta una debilidad crítica: la exposición de datos sensibles. El funcionamiento de MCP implica que, potencialmente, toda la información del data warehouse puede ser expuesta al LLM. Para organizaciones sujetas a estrictas regulaciones de seguridad (como Sock 2 Compliant), esta solución no es viable para la conexión directa en producción a datos de usuario.

Conclusiones y Herramientas Finales

La búsqueda de una solución que ofreciera precisión, seguridad y una experiencia de usuario final robusta llevó a la adopción de plataformas cerradas de data analysis.

Hex.com: Una plataforma que se conecta directamente al data warehouse, ofreciendo una experiencia similar a Jupyter Notebooks con generación de código y visualizaciones impulsadas por LLMs.
 

Ventajas de la Plataforma Elegida (Hex)

Impacto

Conexión Directa al Warehouse

Elimina la complejidad de implementar RAG o MSP.

Información Actual

Garantiza la frescura de los datos.

SOC 2 Compliant

Los datos se mantienen dentro de los servidores del cliente, no en los de la API del LLM.

Costo de Infraestructura Bajo

Optimización de recursos frente al uso intensivo de APIs.

Conclusión Final

Internamente, el equipo adoptó una solución híbrida:

  • Hex: Para la automatización de procesos de business intelligence y el streamlining de workflows de datos (ahorrando miles de dólares en licencias de Tableau).

  • Combinación de Hex y Open AI: Para tareas específicas de ingeniería de código y SQL, donde el ingeniero retiene el control de las queries.

El imperativo para cualquier implementación de agentes LLM es la evaluación. Es fundamental un riguroso proceso de monitoring, red teaming y evaluación de código (utilizando frameworks como Target o Spider) para asegurar la veracidad y mitigar los riesgos de drift y error. La automatización es poderosa, pero la supervisión experta sigue siendo irremplazable.

Si quieres aprender más de casos de uso de ciencia de datos e IA, no te pierdas el próximo Data Day y mira el video completo de esta charla: