La IA multimodal conecta los puntos digitales
La IA multimodal Conectando los puntos digitales
![Combinación de varios tipos de datos para mejorar el rendimiento. La IA multimodal combina varios tipos de datos (como imágenes, texto, voz y datos numéricos) con algoritmos de procesamiento de inteligencia múltiple para lograr un rendimiento superior. ¶ Crédito: Enterra Solutions](https://ai.miximages.com/cacm.acm.org/system/assets/0004/6763/120723_Enterra_Solutions_Multimodal_AI.large.jpg?1701960497&1701960496)
Los avances en inteligencia artificial (IA) han llegado a una velocidad impresionante en los últimos años. La visión por computadora ha cobrado importancia, la robótica ha avanzado y la IA generativa se ha convertido en parte fundamental de la sociedad.
Sin embargo, a pesar de todo el progreso, una verdad inquietante resalta: la mayoría de los marcos de trabajo de IA de hoy en día siguen siendo relativamente desconectados. En la mayoría de los casos, funcionan como islas separadas de automatización de IA, careciendo de capacidades clave porque no pueden compartir datos y operar de manera sinérgica con otros componentes de IA.
Los ingenieros, investigadores y otros están tomando nota. Están explorando activamente formas de construir sistemas multimodales avanzados. Al conectar componentes de IA separados y flujos de datos, es posible construir sistemas más inteligentes que se alineen más estrechamente con los humanos.
“El objetivo es aprovechar una variedad de sistemas y fuentes de datos para habilitar funcionalidades más avanzadas”, dice Martial Hebert, profesor y decano de la Escuela de Ciencias de la Computación de la Universidad Carnegie Mellon.
- Drones Protegen los Aerogeneradores del Hielo
- Bots, granjas fraudulentas responsables del 73% del tráfico web
- Q* y LVM Evolución de la AGI de LLM
Añade Yoon Kim, profesor asistente en el departamento de ingeniería eléctrica e informática del Instituto de Tecnología de Massachusetts (MIT): “Los humanos ya son multimodales. Nuestra capacidad para construir modelos de IA encarnados que puedan ver, escuchar, entender el lenguaje y manejar otras tareas sensoriales es crucial para desarrollar una tecnología mucho más sofisticada”.
Llegando a una IA más inteligente
Lo que hace tan atractiva a la IA multimodal es la capacidad de aprovechar canales de datos complementarios pero separados, combinarlos y descifrarlos, y detectar señales y patrones que de otra manera pasarían desapercibidos. Bases de datos heredadas, modelos de lenguaje grandes (LLMs), sensores de IoT, aplicaciones de software y varios dispositivos pueden funcionar como combustible para la IA multimodal.
Por ejemplo, un robot de servicio que incorpora IA multimodal puede procesar imágenes, sonido, tacto y otros sentidos de manera más similar a un humano, y responder en consecuencia. Una aplicación de diagnóstico médico puede combinar imágenes, texto clínico y otros datos para obtener resultados más precisos. La IA multimodal también permite que las personas (médicos, abogados, científicos, analistas empresariales y otros) conversen e interactúen con los datos de manera más intuitiva a través de una aplicación.
La IA multimodal está avanzando rápidamente. ChatGPT-4 de Open AI recientemente adquirió la capacidad de ver, escuchar y hablar. Este ampliamente utilizado sistema de IA generativa puede cargar directamente imágenes y responder a un usuario. Las personas con problemas de visión u otras discapacidades tienen acceso a una aplicación de iOS y Android llamada Be My Eyes para navegar mejor por su entorno.
Mientras tanto, Microsoft está integrando su marco de trabajo Copilot en su amplio conjunto de herramientas y aplicaciones, incluyendo inteligencia empresarial y análisis de datos. Copilot está diseñado para construir presentaciones sobre la marcha, proporcionar resúmenes rápidos de temas, coordinar horarios y otras tareas administrativas, y utilizar IA generativa con voz o texto para producir y compartir texto, audio, imágenes y video en varias aplicaciones.
El acceso a enormes volúmenes de datos en la nube está impulsando la IA multimodal, dice Hoifung Poon, gerente general de Microsoft Health Futures. Hoy en día, Poon afirma que “grandes trozos del conocimiento y los datos humanos digitalizados pueden ser recopilados y utilizados fácilmente para entrenar modelos multimodales grandes (LMMs) para una amplia gama de aplicaciones”. El denominador común es el texto, “que captura la mayor parte del conocimiento humano y puede servir potencialmente como ‘la interlingua’ de todas las modalidades”, agrega.
La arquitectura de aprendizaje profundo Transformer ha impulsado la multimodalidad hacia adelante. Excel en detectar patrones y relaciones matemáticamente en todas las modalidades, desde texto y voz hasta imágenes y moléculas. Esto, junto con el hecho de que trabaja sinérgicamente con GPUs para escalar la computación, ha permitido que Transformer supere a las redes neuronales convolucionales y recurrentes (CNN y RNN). Hoy en día, los modelos basados en Transformer pueden desarrollar una comprensión del contenido y realizar razonamientos y conversaciones.
“En términos prácticos, esto significa que los sistemas de IA multimodales están mucho mejor equipados para manejar diferentes formas de salida, como texto, imágenes y audio”, dice Kim. Él predice que los sistemas multimodales avanzarán en órdenes de magnitud en los próximos años, incluyendo la capacidad de responder preguntas arbitrarias y algo abstractas, generar imágenes y presentaciones complejas, y soportar sistemas avanzados de detección y control para máquinas, como robots.
Progreso en la Codificación Dura
A pesar del enorme progreso en el campo, el desarrollo de sistemas multimodales altamente avanzados requiere avances adicionales. Por ahora, un obstáculo puede ser conjuntos de datos de baja calidad o mal entrenados que entregan resultados borrosos, sesgados y a veces muy inexactos. Esto podría producir sistemas que malinterpreten el tono o la entonación, por ejemplo. En el peor de los casos, podría llevar a un diagnóstico médico incorrecto o a un vehículo autónomo que malinterprete datos críticos.
La vinculación y unificación de sistemas de IA separados requerirá cambios fundamentales en el software. “Es importante diseñar marcos de trabajo que permitan que los modelos interactúen con múltiples modalidades de manera coherente”, dice Kim. Esto incluye vincular modelos y datos entrenados en diferentes modalidades para que puedan “combinarse” y convertirse en modelos multimodales. Estos modelos deben ser capaces de generar fragmentos de código de software que se puedan ejecutar para afectar el mundo real.
Como resultado, los investigadores están explorando formas de desarrollar marcos de orquestación sofisticados, como AutoGen de Microsoft, para abordar el desafío. Por ejemplo, AutoGen está diseñado para gestionar comunicaciones e interacciones intermodales, incluyendo acciones que se llevan a cabo entre agentes de software virtuales que se conectan a componentes físicos en robots, vehículos autónomos y otras máquinas.
Sin embargo, incluso con herramientas de orquestación en su lugar, los expertos dicen que los sistemas multimodales avanzados pueden requerir la supervisión manual de datos por parte de un humano, la reetiquetación y la supervisión más directa de procesos discretos. De hecho, algunos se preguntan si la automatización total de la IA multimodal está fuera del horizonte, al menos en el futuro previsible. “Sin los controles adecuados sobre múltiples fuentes y flujos de datos, las cosas pueden salir muy mal”, advierte Hebert.
Los datos u objetivos contradictorios pueden socavar completamente la IA multimodal, dice Poon, quien está investigando activamente métodos de autoverificación para la IA generativa. Por ejemplo, él dice: “Enseñar a los LLM a evitar comportamientos potencialmente dañinos puede resultar en un ‘impuesto de alineación’ que disminuye el rendimiento general”. Del mismo modo, combinar datos de diferentes fuentes puede llevar a “efectos de lote” o confusores que distorsionan los hallazgos y socavan los resultados, agrega.
Alcanzar un marco de IA multimodal amplio y altamente sincronizado será difícil, aunque Hebert y otros creen que es posible. “La precisión y disponibilidad de los datos no es un gran problema dentro de un único canal de IA”, explica él. “Pero coordinar múltiples canales y flujos de datos, especialmente cuando el tacto, el habla, el texto y la visión deben funcionar armónicamente en tiempo real, puede ser extraordinariamente difícil”.
Samuel Greengard es un autor y periodista con sede en West Linn, OR, EE. UU.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Técnicas de manejo/imputación en profundidad de valores faltantes en la transformación de características
- Hable directamente con sus datos utilizando un lenguaje cotidiano
- Peter McKee, Jefe de Relaciones con Desarrolladores en Sonar – Serie de Entrevistas
- Conectando los puntos Desentrañando el supuesto modelo Q-Star de OpenAI
- Investigadores de Microsoft y la Universidad de Tsinghua proponen SCA (Segment and Caption Anything) para equipar de manera eficiente al modelo SAM con la capacidad de generar subtítulos regionales
- Este artículo de IA presenta el marco Segment Anything for NeRF in High Quality (SANeRF-HQ) para lograr una segmentación tridimensional de alta calidad de cualquier objeto en una escena determinada.
- Aprendamos Inteligencia Artificial Juntos – Boletín de la Comunidad Towards AI #4