La IA multimodal conecta los puntos digitales

La IA multimodal Conectando los puntos digitales

La IA multimodal combina varios tipos de datos (como imágenes, texto, voz y datos numéricos) con algoritmos de procesamiento de inteligencia múltiple para lograr un rendimiento superior. ¶ Crédito: Enterra Solutions

Los avances en inteligencia artificial (IA) han llegado a una velocidad impresionante en los últimos años. La visión por computadora ha cobrado importancia, la robótica ha avanzado y la IA generativa se ha convertido en parte fundamental de la sociedad.

Sin embargo, a pesar de todo el progreso, una verdad inquietante resalta: la mayoría de los marcos de trabajo de IA de hoy en día siguen siendo relativamente desconectados. En la mayoría de los casos, funcionan como islas separadas de automatización de IA, careciendo de capacidades clave porque no pueden compartir datos y operar de manera sinérgica con otros componentes de IA.

Los ingenieros, investigadores y otros están tomando nota. Están explorando activamente formas de construir sistemas multimodales avanzados. Al conectar componentes de IA separados y flujos de datos, es posible construir sistemas más inteligentes que se alineen más estrechamente con los humanos.

“El objetivo es aprovechar una variedad de sistemas y fuentes de datos para habilitar funcionalidades más avanzadas”, dice Martial Hebert, profesor y decano de la Escuela de Ciencias de la Computación de la Universidad Carnegie Mellon.

Añade Yoon Kim, profesor asistente en el departamento de ingeniería eléctrica e informática del Instituto de Tecnología de Massachusetts (MIT): “Los humanos ya son multimodales. Nuestra capacidad para construir modelos de IA encarnados que puedan ver, escuchar, entender el lenguaje y manejar otras tareas sensoriales es crucial para desarrollar una tecnología mucho más sofisticada”.

Llegando a una IA más inteligente

Lo que hace tan atractiva a la IA multimodal es la capacidad de aprovechar canales de datos complementarios pero separados, combinarlos y descifrarlos, y detectar señales y patrones que de otra manera pasarían desapercibidos. Bases de datos heredadas, modelos de lenguaje grandes (LLMs), sensores de IoT, aplicaciones de software y varios dispositivos pueden funcionar como combustible para la IA multimodal.

Por ejemplo, un robot de servicio que incorpora IA multimodal puede procesar imágenes, sonido, tacto y otros sentidos de manera más similar a un humano, y responder en consecuencia. Una aplicación de diagnóstico médico puede combinar imágenes, texto clínico y otros datos para obtener resultados más precisos. La IA multimodal también permite que las personas (médicos, abogados, científicos, analistas empresariales y otros) conversen e interactúen con los datos de manera más intuitiva a través de una aplicación.

La IA multimodal está avanzando rápidamente. ChatGPT-4 de Open AI recientemente adquirió la capacidad de ver, escuchar y hablar. Este ampliamente utilizado sistema de IA generativa puede cargar directamente imágenes y responder a un usuario. Las personas con problemas de visión u otras discapacidades tienen acceso a una aplicación de iOS y Android llamada Be My Eyes para navegar mejor por su entorno.

Mientras tanto, Microsoft está integrando su marco de trabajo Copilot en su amplio conjunto de herramientas y aplicaciones, incluyendo inteligencia empresarial y análisis de datos. Copilot está diseñado para construir presentaciones sobre la marcha, proporcionar resúmenes rápidos de temas, coordinar horarios y otras tareas administrativas, y utilizar IA generativa con voz o texto para producir y compartir texto, audio, imágenes y video en varias aplicaciones.

El acceso a enormes volúmenes de datos en la nube está impulsando la IA multimodal, dice Hoifung Poon, gerente general de Microsoft Health Futures. Hoy en día, Poon afirma que “grandes trozos del conocimiento y los datos humanos digitalizados pueden ser recopilados y utilizados fácilmente para entrenar modelos multimodales grandes (LMMs) para una amplia gama de aplicaciones”. El denominador común es el texto, “que captura la mayor parte del conocimiento humano y puede servir potencialmente como ‘la interlingua’ de todas las modalidades”, agrega.

La arquitectura de aprendizaje profundo Transformer ha impulsado la multimodalidad hacia adelante. Excel en detectar patrones y relaciones matemáticamente en todas las modalidades, desde texto y voz hasta imágenes y moléculas. Esto, junto con el hecho de que trabaja sinérgicamente con GPUs para escalar la computación, ha permitido que Transformer supere a las redes neuronales convolucionales y recurrentes (CNN y RNN). Hoy en día, los modelos basados en Transformer pueden desarrollar una comprensión del contenido y realizar razonamientos y conversaciones.

“En términos prácticos, esto significa que los sistemas de IA multimodales están mucho mejor equipados para manejar diferentes formas de salida, como texto, imágenes y audio”, dice Kim. Él predice que los sistemas multimodales avanzarán en órdenes de magnitud en los próximos años, incluyendo la capacidad de responder preguntas arbitrarias y algo abstractas, generar imágenes y presentaciones complejas, y soportar sistemas avanzados de detección y control para máquinas, como robots.

Progreso en la Codificación Dura

A pesar del enorme progreso en el campo, el desarrollo de sistemas multimodales altamente avanzados requiere avances adicionales. Por ahora, un obstáculo puede ser conjuntos de datos de baja calidad o mal entrenados que entregan resultados borrosos, sesgados y a veces muy inexactos. Esto podría producir sistemas que malinterpreten el tono o la entonación, por ejemplo. En el peor de los casos, podría llevar a un diagnóstico médico incorrecto o a un vehículo autónomo que malinterprete datos críticos.

La vinculación y unificación de sistemas de IA separados requerirá cambios fundamentales en el software. “Es importante diseñar marcos de trabajo que permitan que los modelos interactúen con múltiples modalidades de manera coherente”, dice Kim. Esto incluye vincular modelos y datos entrenados en diferentes modalidades para que puedan “combinarse” y convertirse en modelos multimodales. Estos modelos deben ser capaces de generar fragmentos de código de software que se puedan ejecutar para afectar el mundo real.

Como resultado, los investigadores están explorando formas de desarrollar marcos de orquestación sofisticados, como AutoGen de Microsoft, para abordar el desafío. Por ejemplo, AutoGen está diseñado para gestionar comunicaciones e interacciones intermodales, incluyendo acciones que se llevan a cabo entre agentes de software virtuales que se conectan a componentes físicos en robots, vehículos autónomos y otras máquinas.

Sin embargo, incluso con herramientas de orquestación en su lugar, los expertos dicen que los sistemas multimodales avanzados pueden requerir la supervisión manual de datos por parte de un humano, la reetiquetación y la supervisión más directa de procesos discretos. De hecho, algunos se preguntan si la automatización total de la IA multimodal está fuera del horizonte, al menos en el futuro previsible. “Sin los controles adecuados sobre múltiples fuentes y flujos de datos, las cosas pueden salir muy mal”, advierte Hebert.

Los datos u objetivos contradictorios pueden socavar completamente la IA multimodal, dice Poon, quien está investigando activamente métodos de autoverificación para la IA generativa. Por ejemplo, él dice: “Enseñar a los LLM a evitar comportamientos potencialmente dañinos puede resultar en un ‘impuesto de alineación’ que disminuye el rendimiento general”. Del mismo modo, combinar datos de diferentes fuentes puede llevar a “efectos de lote” o confusores que distorsionan los hallazgos y socavan los resultados, agrega.

Alcanzar un marco de IA multimodal amplio y altamente sincronizado será difícil, aunque Hebert y otros creen que es posible. “La precisión y disponibilidad de los datos no es un gran problema dentro de un único canal de IA”, explica él. “Pero coordinar múltiples canales y flujos de datos, especialmente cuando el tacto, el habla, el texto y la visión deben funcionar armónicamente en tiempo real, puede ser extraordinariamente difícil”.

Samuel Greengard es un autor y periodista con sede en West Linn, OR, EE. UU.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Falta de representación de nativos americanos en roles tecnológicos en Estados Unidos'.

Un informe encontró que los estudiantes nativos americanos siguen estando subrepresentados en los cursos de ciencias ...

Inteligencia Artificial

Los programas piloto de IA buscan reducir el consumo de energía y las emisiones en el campus del MIT

Un equipo interdepartamental está liderando los esfuerzos para utilizar el aprendizaje automático con el fin de aumen...

Investigación

Sensor de alcohol móvil para la muñeca podría impulsar la investigación sobre el consumo de alcohol.

Científicos de la Universidad Estatal de Pensilvania y de la Universidad de Carolina del Norte crearon un sensor de m...

Inteligencia Artificial

Los robots submarinos podrían abrir paso a un futuro de alta tecnología para la minería en aguas profundas

Renee Grogan, desarrolladora de soluciones mineras en Impossible Metals, visualiza a los robots submarinos como clave...