Meta AI presenta AnyMAL el futuro de los modelos de lenguaje multimodal que conecta texto, imágenes, videos, audio y datos de sensores de movimiento.

Meta AI presenta AnyMAL el futuro de los modelos de lenguaje multimodal que conectan texto, imágenes, videos, audio y datos de sensores de movimiento

En inteligencia artificial, uno de los desafíos fundamentales ha sido permitir que las máquinas comprendan y generen el lenguaje humano en conjunción con varias entradas sensoriales, como imágenes, videos, audio y señales de movimiento. Este problema tiene implicaciones significativas para múltiples aplicaciones, incluyendo la interacción humano-computadora, la generación de contenido y la accesibilidad. Los modelos de lenguaje tradicionales suelen centrarse únicamente en entradas y salidas basadas en texto, limitando su capacidad para comprender y responder a las diversas formas en que los humanos interactúan con el mundo. Reconociendo esta limitación, un equipo de investigadores ha abordado este problema directamente, lo que ha llevado al desarrollo de AnyMAL, un modelo de lenguaje multimodal innovador.

Los métodos y herramientas actuales de comprensión del lenguaje a menudo necesitan ponerse al día al manejar modalidades diversas. Sin embargo, el equipo de investigación detrás de AnyMAL ha ideado un enfoque novedoso para abordar este desafío. Han desarrollado un modelo de lenguaje multimodal a gran escala (LLM) que integra varias entradas sensoriales de manera fluida. AnyMAL no es solo un modelo de lenguaje; encarna el potencial de la inteligencia artificial para comprender y generar lenguaje en un contexto multimodal.

Imagina interactuar con un modelo de IA combinando señales sensoriales del mundo que nos rodea. AnyMAL hace esto posible al permitir consultas que presuponen una comprensión compartida del mundo a través de percepciones sensoriales, incluidas señales visuales, auditivas y de movimiento. A diferencia de los modelos de lenguaje tradicionales que se basan únicamente en texto, AnyMAL puede procesar y generar lenguaje teniendo en cuenta el contexto rico proporcionado por varias modalidades.

La metodología detrás de AnyMAL es tan impresionante como sus aplicaciones potenciales. Los investigadores utilizaron recursos de código abierto y soluciones escalables para entrenar este modelo de lenguaje multimodal. Una de las innovaciones clave es el conjunto de datos Multimodal Instruction Tuning (MM-IT), una colección meticulosamente curada de anotaciones para datos de instrucciones multimodales. Este conjunto de datos desempeñó un papel crucial en el entrenamiento de AnyMAL, lo que le permitió comprender y responder a instrucciones que involucran múltiples entradas sensoriales.

Una de las características destacadas de AnyMAL es su capacidad para manejar múltiples modalidades de manera coherente y sincronizada. Demuestra un rendimiento notable en varias tareas, como se demuestra en una comparación con otros modelos de visión y lenguaje. En una serie de ejemplos, las capacidades de AnyMAL destacan. AnyMAL muestra de manera consistente una comprensión visual sólida, generación de lenguaje y habilidades de razonamiento secundario, desde sugerencias de escritura creativa hasta instrucciones sobre cómo hacer algo, consultas de recomendación y preguntas y respuestas.

Por ejemplo, en el ejemplo de escritura creativa, AnyMAL responde a la indicación “Escribe un chiste al respecto” con una respuesta humorística relacionada con la imagen de un muñeco cascanueces. Esto demuestra sus habilidades de reconocimiento visual y su capacidad para la creatividad y el humor. En un escenario de cómo hacer algo, AnyMAL proporciona instrucciones claras y concisas sobre cómo arreglar una llanta desinflada, demostrando su comprensión del contexto de la imagen y su capacidad para generar un lenguaje relevante.

En una consulta de recomendación sobre maridaje de vinos con carne de res, AnyMAL identifica con precisión el vino que mejor se combina con la carne de res basándose en la imagen de dos botellas de vino. Esto demuestra su capacidad para proporcionar recomendaciones prácticas fundamentadas en un contexto visual.

Además, en un escenario de pregunta y respuesta, AnyMAL identifica correctamente el río Arno en una imagen de Florencia, Italia, y proporciona información sobre su longitud. Esto destaca su fuerte capacidad de reconocimiento de objetos y conocimiento de datos.

Conclusiones

En conclusión, AnyMAL representa un gran avance en la comprensión del lenguaje multimodal. Aborda un problema fundamental en la inteligencia artificial al permitir que las máquinas comprendan y generen lenguaje en conjunto con diferentes entradas sensoriales. La metodología de AnyMAL, fundamentada en un conjunto de datos multimodales y un entrenamiento a gran escala, ofrece resultados impresionantes en diversas tareas, desde la escritura creativa hasta recomendaciones prácticas y recuperación de conocimientos factuales.

Sin embargo, como cualquier tecnología de vanguardia, AnyMAL tiene sus limitaciones. A veces le cuesta priorizar el contexto visual sobre las pistas basadas en texto, y la cantidad de datos de imagen y texto emparejados limita su conocimiento. No obstante, el potencial del modelo para acomodar diversas modalidades más allá de las cuatro consideradas inicialmente abre emocionantes posibilidades para futuras investigaciones y aplicaciones en la comunicación impulsada por la inteligencia artificial.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Nuevo curso técnico de inmersión profunda Fundamentos de IA generativa en AWS

Generative AI Foundations en AWS es un nuevo curso de inmersión técnica que te proporciona los fundamentos conceptual...

Noticias de Inteligencia Artificial

Fármaco diseñado por inteligencia artificial listo para ensayos en humanos.

Una empresa biotecnológica, Insilico Medicine, respaldada por el conglomerado chino Fosun Group y el gigante de capit...

Inteligencia Artificial

Tour de France incorpora ChatGPT y tecnología de gemelos digitales.

La compañía de tecnología de la información y servicios con sede en Japón, NTT, anunció que el Tour de Francia de est...

Inteligencia Artificial

Robot de 400 libras del NYPD recibe una prueba en la estación de metro de Times Square

El Departamento de Policía de Nueva York ha desplegado un robot de seguridad exterior 'totalmente autónomo' de casi 4...