MLOps y computación de nube como claves para la IA escalable

Ciudad futurista con estructuras piramidales. Autor: DALL-E.

Resumen.- La escalabilidad de las soluciones de IA en las organizaciones estará cada vez más en demanda. Dos  estrategias centrales para asesorar a nuestros clientes como consultores de TI son el modelo MLOps y la  computación en la nube.

Realmente, los consultores de TI llevamos poco tiempo ofreciendo servicios de Inteligencia Artificial a  nuestros clientes. En la primera fase de introducción a esta nueva tecnología, una implementación obvia  y popular ha sido un chatbot personalizado para las necesidades de negocio. Por ejemplo, una interfaz a  la medida que utilice un motor de GPT para consultar los documentos internos de la empresa,  permitiendo al usuario literalmente dialogar con el conocimiento de negocio. 

A medida que los clientes se familiarizan con ésta y otras soluciones, la demanda por nuevas  aplicaciones de IA dentro de la organización se está incrementando, y esta tendencia continuará. En  efecto, estamos ante el inicio de la inevitable escalada de la IA. 

A diferencia de soluciones anteriores de TI, la escalabilidad, en el contexto de la IA, va más allá de la  mera capacidad de manejar grandes volúmenes de datos, sino que representa un paradigma donde la  eficiencia es esencial: “Adentrarse en el ámbito de las soluciones de IA escalables revela un enfoque  sofisticado que trasciende la mera acomodación de conjuntos de datos más grandes.” Como  consecuencia, “la optimización de los flujos de trabajo es una característica distintiva de la IA escalable.  En lugar de sucumbir a los desafíos presentados por el aumento de los volúmenes de datos, estas  soluciones trabajan para mejorar la eficiencia de los pipelines de procesamiento de datos.” 

Dos estrategias centrales (aunque no las únicas) para alcanzar esta optimización de flujos son la  adopción de un modelo de Operaciones de Machine Learning, o MLOps, y el uso de cómputo en la nube. 

Machine Learning Operations 

MLOps se refiere a un enfoque de prácticas y herramientas que busca automatizar y mejorar la  integración, implementación y mantenimiento de modelos de aprendizaje de máquinas o machine  learning (ML) en entornos de producción. Es similar al concepto de DevOps en desarrollo de software en  que integra procesos de desarrollo y operaciones, pero está enfocado en el ciclo de vida de los modelos  de machine learning.

MLOps contempla un ciclo de vida incesante de desarrollo de machine learning que pasa por las  siguientes etapas en bucle: preparación de datos, desarrollo de modelo, implementación de éste y  monitoreo y mantenimiento. Entre las prácticas de MLOps está la automatización de pipelines, el  versionado, las pruebas y validación, el despliegue continuo, la monitorización y alertas y el  reentrenamiento automatizado. 

Cuando MLOps se implementa correctamente y de acuerdo con el tamaño de la organización y sus  proyectos, puede acelerar significativamente la velocidad con la que se llega a producción, pero implica  una inversión de tiempo y recursos en procesos, capital humano y herramientas.  

En cuestión de procesos, es importante estandarizar la construcción y operación de los modelos. Se trata  de un trabajo de ciencia de datos que requiere de iteraciones y refinamiento constantes. Una vez  desplegado y en operación, el resultado y el desempeño deben monitorearse continuamente. 

El equipo humano no se limita a los científicos de datos, sino que requiere de varios roles especializados;  además de la ciencia de datos, la ingeniería de machine learning para su optimización y monitoreo, así  como las tecnologías de la información para hacerse cargo de la infraestructura. Además, podría mencionar roles de gobernanza o cumplimiento de calidad y normas. 

En cuanto a las herramientas, es importante elegir aquellas que en su conjunto promuevan la  creatividad, velocidad y seguridad, considerando que un solo rol en el equipo puede hacer uso de  múltiples herramientas especializadas. Por ejemplo, para la gestión de datos existen Apache Kafka,  Airflow y Apache NiFi; para la experimentación: MLFlow, TensorBoard y Weights & Biases; y para el  despliegue: Kubernetes, Docker, TensorFlow Serving y TorchServe. 

Computación en la nube 

Incluso desde antes del reciente auge de la IA, la tendencia en TI ha sido el uso de servicios de  computación en la nube. En general, se trata del acceso a recursos informáticos como servidores,  almacenamiento, bases de datos, redes, software y otros servicios complementarios, a través de  internet. La infraestructura física se mantiene y opera localmente cada vez en menor medida. Para  machine learning, entre los servicios más populares se encuentran Amazon SageMaker (AWS), Azure  Machine Learning y Google AI Platform.

La IA requiere de grandes volúmenes de datos para el entrenamiento de sus modelos y esto es algo que  puede gestionarse en la nube; por ejemplo, en data lakehouses. Lo mismo puede decirse de la potencia  de cómputo. Además, la facilidad del despliegue de modelos de IA en entornos de producción permite la  integración y el despliegue continuos. Finalmente, estas herramientas favorecen la colaboración debido  al acceso remoto, así como la seguridad y el cumplimiento, garantizadas por los proveedores. 

En artículo para IBM, Matthew Finio y Amanda Downie comentan que las compañías deben adoptar  arquitecturas de tecnología confiables, idealmente basades en infraestructura híbrida de nube, para  escalar la IA a través de múltiples ambientes de TI. 3 La expresión de infraestructura híbrida se refiere a  la combinación de servicios de nube públicos y privados, así como elementos de infraestructura local. En  Mobiik, la empresa de TI para la que laboro como arquitecto de software, normalmente ofrecemos y  utilizamos soluciones de nube con alguno de los grandes proveedores mencionados arriba. Sin embargo,  si un cliente se encuentra en transición entre servidores locales y de nube, es natural que utilice un  ambiente híbrido por algunos meses o años. 

Otros elementos importantes: Infraestructura y fuerza de trabajo 

MLOps y la nube son fundamentales en la escalabilidad de soluciones de IA, pero no son lo único que se  requiere. Evidentemente, es necesario contar con una infraestructura robusta y segura, ya sea que esté  alojada remota o localmente.  

El equipo humano de trabajo debe estar adecuadamente especializado en las tareas que requiere. Este  punto es un reto para la industria, debido a la novedad que aún conllevan las disciplinas relativas a la IA.  Muchos profesionales de las tecnologías de la información, incluso aquellos expertos en sus áreas, se  ven ahora ante la necesidad de reinventar sus carreras y reorientarlas a ciencia de datos, machine  learning, IA y servicios relacionados en la nube. Tener una actitud innovadora y abierta a la  experimentación ayuda. 

Conclusión: Nuevamente la guía de las consultoras

En varios de mis artículos he insistido en el papel de guía que las consultoras de TI deben tener en este  momento histórico en relación con el ascenso de la IA como potenciador de diversas áreas de trabajo. Es  igual en este caso: nuestros clientes, una vez familiarizados con las soluciones más básicas de IA, como  los chatbots organizacionales, pedirán la aplicación de la IA para otras tareas y de distintos modos  novedosos. Este proceso de escalabilidad no será sencillo sin el apoyo de consultoras enfocadas en la  innovación como Mobiik. 

Espero que este artículo te haya sido útil y te haya dado una mejor comprensión del tema. Si tienes  alguna pregunta o comentario, no dudes en ponerte en contacto conmigo. Me gustaría ayudarte a  alcanzar tus objetivos de tecnología de la información y a brindarte soluciones innovadoras y eficaces  para tus proyectos. ¡Gracias por leer!


Imagen: Ciudad futurista con estructuras piramidales. Autor: DALL-E.