La IA Multimodal es el Siguiente Parteaguas de la Consultoría en TI

Piensa en cómo funciona el cerebro humano. La inteligencia humana funciona gracias a múltiples canales de información, o sentidos, y se procesa de distintas maneras. Es cierto que cada persona tiene preferencia por modos de aprendizaje o procesamiento de información: visión, audición o tacto, por ejemplo. Pero todos tenemos la capacidad de recibir múltiples inputs. Más aún, la misma capacidad de inteligencia se compone de distintas habilidades paralelas: memoria, razonamiento matemático o lógico, capacidad de visualización, pensamiento lateral, abstracción, etc.

En nuestra búsqueda por que las computadoras se conviertan verdaderamente en inteligentes, hemos escalado un peldaño más con la Inteligencia Artificial (IA) multimodal, ya que se trata de un equivalente más cercano a la inteligencia humana. La IA multimodal es aquélla que combina múltiples modalidades de datos, como texto, fotos, video y audio. Ejemplos de IA multimodal son GPT-4V de OpenAI que puede procesar imágenes adicionalmente al texto, o Runway Gen-2 para la generación de video o Inworld AI para la creación de personajes en juegos y mundos virtuales.

La IA multimodal representa un salto cuántico en cómo las máquinas entienden e interactúan con el mundo, fusionando datos de múltiples fuentes. Echa un vistazo a la red y verás que la IA multimodal es la siguiente “gran cosa”. En el corazón de la innovación en consultoría de TI, esta tecnología no solo promete transformar la interacción humana con las máquinas, sino también ofrecer soluciones empresariales más robustas, versátiles, y, sumadas a las capacidades de recursos de nube, escalables.

La misión de Mobiik, empresa en la cuál lidero al equipo de arquitectura, es inspirar a los apasionados de la tecnología a través de la inteligencia artificial, para llevar a las empresas del presente al futuro. Un nuevo modo de hacerlo es mediante el uso cada vez mayor de IA multimodal en conjunto con plataformas en la nube.

De los chatbots a los agentes inteligentes y los equipos de agentes

Un agente inteligente es cualquier entidad con capacidad de percibir y actuar en consecuencia. Se basa en el ciclo de percepción (o input), pensamiento (o procesamiento) y acción. De este modo, un ser humano puede considerarse un agente inteligente. En el contexto de la inteligencia artificial, estamos hablando de agentes robóticos o agentes de software.

Los agentes inteligentes y los equipos de agentes son la evolución natural de los chatbots. Como mencionaba, la mente humana combina pensamiento con imágenes, gráficas, video, audio, texto y abstracciones en general. ¿Qué provecho podríamos sacar de un asistente virtual que tuviera capacidades similares y estuviera siempre disponible a ayudarnos, es decir, de un agente inteligente?

La industria TI trabaja actualmente con agentes inteligentes de software capaces de ofrecer soluciones a problemáticas concretas de negocio, que gradualmente han ido cobrando complejidad, de acuerdo con la pauta marcada por las necesidades de los clientes. Por ejemplo, en nuestra consultora iniciamos con chatbots que consultan los documentos internos de una organización para generar sus respuestas. Ahora es común que estos mismos bots tengan la opción de llamar funciones de código, que a su vez pueden consumir diversas APIs. Es fácil imaginar cómo esto puede llevar muy lejos: un asistente virtual puede ahora no sólo proveer información de manera dialogada, sino realizar transacciones para el cliente. Imagina las posibilidades para retailers en línea, agencias de viaje, supermercados o servicios de gobierno, entre muchos otros.

LLMs super poderosos y especializados

La personalización de Large Language Models (LLMs) para tareas específicas es otra parte integral de nuestra estrategia de innovación. A través de la IA multimodal, extendemos las capacidades de los LLMs más allá del texto, permitiéndoles interpretar imágenes, videos, y audio. Esto apunta a una mayor especialización de los agentes. De hecho, se trata de una tendencia en la industria tecnológica; por ejemplo, en este momento existen en el mercado bots especializados para diversas áreas, como IBM Watson Health (salud), Blue River Technology (agricultura), Deep Mind (energía) y Century Tech (educación).

Con una visión de largo alcance, Mobiik trabaja actualmente en colaboración con una universidad mexicana para la creación de bots especializados para ciencias y disciplinas del ambiente académico. De esta manera la universidad pondrá a disposición de su comunidad asistentes virtuales para diversas tareas académicas: desde la búsqueda de material bibliográfico hasta tutores virtuales para diversas materias, que incorporen texto, audio, imágenes y consultas a recursos externos por medio de apis transaccionales.

Super desarrolladores, la nueva normalidad

La adopción de nuevas tecnologías como la IA multimodal debe ir de la mano con la productividad del desarrollador. En nuestro caso, nos hemos asegurado de que los desarrolladores cuenten con herramientas y plataformas que faciliten la productividad, como Copilot o GPTs especializados en código. Estas herramientas no solo aceleran el desarrollo, sino que también permiten a los equipos centrarse en innovar, solucionar problemas y crear valor añadido para los clientes a un nivel más cercano al de la arquitectura, dejando parte de la producción básica de código a la IA, y así optimizando el ciclo de vida del desarrollo de software. Para las consultoras de TI, se trata de un conjunto de herramientas nuevas que no pueden ignorar para permanecer competitivas.

Conclusión: La IA mul.modal es la nueva IA

La IA multimodal representa una nueva frontera a explorar en la consultoría de TI, ofreciendo soluciones empresariales innovadoras que son robustas, flexibles, y escalables, en combinación con servicios de nube. El potencial es tremendo y son muchos los panoramas que se vislumbran a partir de estas nuevas tecnologías. Yo predigo que la IA multimodal se volverá cada vez más relevante, del mismo modo en que la irrupción de chatbots como GPT, basados en LLMs, representaron un salto cuántico en comparación con los chatbots de la generación anterior apenas hace poco más de un año.

Espero que este artículo te haya sido útil y te haya dado una mejor comprensión del tema. Si tienes alguna pregunta o comentario, no dudes en ponerte en contacto conmigo. Me gustaría ayudarte a alcanzar tus objetivos de tecnología de la información y a brindarte soluciones innovadoras y eficaces para tus proyectos. ¡Gracias por leer!