Autor

La Inteligencia Artificial Generativa (IAG) ha capturado la atención de todos, desde líderes empresariales hasta el público en general. Sin embargo, su aplicación práctica y la consecución de resultados tangibles en sectores tradicionales como la manufactura, aún generan escepticismo. En Viac, una empresa mexicana perteneciente al importante grupo Signus, nos embarcamos en una Prueba de Concepto (PoC) para explorar el verdadero potencial de la IAG en la mejora de la toma de decisiones y la optimización de procesos. Lo que descubrimos no sólo validó nuestra hipótesis, sino que también sentó las bases para una adopción más amplia de esta tecnología.
Desafíos y Expectativas en la Adopción de IAG
El Foro Económico Mundial y consultoras como Gartner han destacado la relevancia de la IAG en la toma de decisiones. Sin embargo, también han señalado que no todas las implementaciones logran los objetivos esperados. Esta brecha entre la expectativa y la realidad se debe, en gran medida, a la necesidad de justificar la inversión con casos de negocio claros y tangibles, especialmente para las áreas financieras que buscan un impacto directo en el estado de resultados.
Otro factor crítico es el proceso de adopción. Si bien el uso personal de modelos de IAG es común, su integración en entornos empresariales cerrados, con información de negocio sensible, presenta desafíos significativos. Hasta un 72% de los líderes tecnológicos reportan dificultades en esta transición. A esto se suma el aumento en los costos de los proveedores de software de IAG, con incrementos de hasta el 30% que se proyecta seguirán en aumento.
Para los equipos de desarrollo, la IAG también representa una evolución en los roles. Herramientas como Power BI y los sistemas ERP ya están integrando motores de IAG, lo que significa que la construcción de dashboards con lenguaje natural o la optimización de procesos empresariales serán una realidad. Esto impulsará a científicos de datos y desarrolladores a asumir nuevos roles y responsabilidades.
La Prueba de Concepto: Un Enfoque Pragmático
En Viac, decidimos abordar un problema concreto y de alto impacto: la gestión de normas de calidad. Un área de calidad debía evaluar más de 3,500 normas, muchas de ellas en diferentes idiomas, con fórmulas, especificaciones y texto técnico complejo. Este proceso era intensivo en tiempo y conocimiento especializado.
Nuestra PoC se centró en 450 de estas normas, seleccionando aquellas que eran más desafiantes de interpretar humanamente. El ecosistema de Azure, donde ya teníamos varios proyectos implementados, fue nuestra plataforma. Conformamos un equipo multidisciplinario con expertos de ciberseguridad, infraestructura, ciencia de datos, analítica y, crucialmente, 18 ejecutivos de operaciones que representaban los niveles de experiencia (principiante, intermedio y avanzado).
Diseño de la Prueba y Criterios de Éxito
La piedra angular de nuestra metodología fue la creación de un banco de preguntas categorizadas por nivel de dificultad, elaboradas por los propios expertos en normas de calidad. Esto aseguró la relevancia y precisión de las interrogantes. La interfaz de la herramienta fue deliberadamente sencilla, similar a un chatbot convencional.
Para asegurar la validez de los resultados, definimos cuatro criterios de éxito rigurosos:
- Búsqueda correcta de la norma: Que la IAG identificara la norma pertinente a la pregunta.
- Ubicación precisa: Que la IAG señalara la página y el párrafo exactos dentro de la norma.
- Respuesta correcta: Que la IAG proporcionara la respuesta adecuada o la más cercana.
- Evaluación subjetiva del usuario: La percepción del usuario sobre la utilidad y calidad de la respuesta.
La selección de participantes fue aleatoria, incluyendo tanto usuarios entusiastas de la tecnología como aquellos más reticentes o apáticos. Esto nos permitió obtener una visión holística de la experiencia de usuario en un entorno empresarial real. Además, para cada prueba, se "limpió" el historial del bot para evitar cualquier sesgo y asegurar que cada interacción comenzara desde cero.
Resultados y Aprendizajes Clave
Los resultados de nuestra PoC fueron sumamente alentadores, especialmente considerando la complejidad del dominio. Obtuvimos una calificación promedio de p70 en los cuatro criterios, lo cual es notable para una primera iteración. Es importante recalcar que, como en cualquier modelo generativo, la "alucinación" (respuestas incorrectas o inventadas) es un factor. Sin embargo, la literatura sugiere que la precisión máxima en este tipo de aplicaciones, incluso con ajustes de "temperatura cero", rara vez supera el 80-85%.
En promedio, el bot tardó 7 minutos en contestar una pregunta, con 3 intentos para lograr una respuesta asertiva. Para poner esto en perspectiva, un ingeniero dedicaba en promedio 210 minutos a la semana solo a la búsqueda de información, con algunas búsquedas complejas tomando hasta 27 minutos.
La Sorpresa de los Ejecutivos
Lo más sorprendente fue el desempeño con los gerentes. Nuestra hipótesis inicial era que calificarían la herramienta de manera inferior, pero los resultados indicaron lo contrario. Las gerencias se mostraron muy satisfechas, logrando respuestas correctas en un promedio de 2 intentos y en tan solo 4 minutos. Esto subraya el potencial de la IAG para impactar positivamente incluso a los niveles directivos, al proporcionar información rápida y precisa para la toma de decisiones estratégicas.
Aprendizajes Estratégicos
Esta PoC nos dejó valiosos aprendizajes:
- Ingeniería de Prompts: La calidad de las preguntas es crucial. Trabajar en la "democratización" de la IAG, enseñando a los usuarios a formular preguntas efectivas, será fundamental.
- Ajuste Fino del Modelo e Indexación: Identificamos áreas de oportunidad para el fine-tuning del modelo y la optimización del proceso de indexación de la información para mejorar la calidad de las respuestas.
- Calidad de la Información Fuente: Descubrimos que algunas normas habían sido escaneadas en los años 90 o 2000 con tecnología limitada, lo que afectaba la legibilidad. La renovación de estos documentos será esencial para maximizar la eficacia del bot.
- Modelo Utilizado: Implementamos un modelo GPT-4 Turbo con el ecosistema de Microsoft Azure, integrado en la nube.
Impacto y Próximos Pasos
El beneficio principal y más tangible fue una reducción del 74% en el tiempo de búsqueda de información. Considerando que 70 ingenieros dedican un promedio de 210 minutos semanales a esta tarea, el potencial de ahorro de tiempo y recursos es inmenso.
Actualmente, estamos midiendo la coherencia, fluidez y precisión del modelo con nuestras propias pruebas y estándares de Microsoft. También estamos explorando modelos de open source como Llama para diversificar nuestras opciones.
Para el 2025, el caso de uso se perfila para ser autorizado y llevado a producción. Evaluamos varios escenarios, incluyendo el desarrollo interno e híbrido con consultoría, para seguir mejorando la calidad del bot.
Conclusiones: Experimentar para Innovar
La IAG tiene un valor innegable para el negocio, pero es crucial seleccionar el caso de uso adecuado y gestionar las expectativas del cliente. Debemos ser francos sobre las capacidades y limitaciones de la tecnología. La experimentación, con un mindset de "equivocarse rápido" y medir el progreso, es clave. Así como la NASA valora las pruebas de concepto en sus KPIs, las empresas de manufactura deben adoptar esta mentalidad para aprovechar al máximo las oportunidades que la IAG ofrece.
Aunque nuestro ejercicio fue "sencillo" en el vasto panorama de la IAG, los aprendizajes obtenidos son profundos y aplicables a cualquier industria. La IAG no es una panacea que resolverá todos los problemas, pero sí una herramienta poderosa que, utilizada estratégicamente, puede generar un valor agregado sustancial y transformar la forma en que trabajamos. El futuro de la manufactura inteligente ya está aquí, y se construye a través de la experimentación, la adaptación y una comprensión clara de la intersección entre la tecnología y el negocio.
Si quieres aprender más de casos de uso de ciencia de datos e IA, no te pierdas el próximo Data Day y mira el video completo de esta charla:
Autor
- Log in to post comments