Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.

Contextual AI introduces LENS, an AI framework for language models with augmented vision that outperforms Flamingo by 9% (56->65%) on VQAv2.

Los Modelos de Lenguaje Grandes (LLMs) han transformado la comprensión del lenguaje natural en los últimos años, demostrando aptitudes notables en la comprensión semántica, la resolución de consultas y la producción de texto, especialmente en entornos de cero y pocos datos. Como se muestra en la Fig. 1(a), se han propuesto varios métodos para utilizar LLMs en tareas que involucran la visión. Un codificador óptico puede ser entrenado para representar cada imagen como una serie de incrustaciones continuas, permitiendo que el LLM lo comprenda. Otro utiliza un codificador de visión congelado entrenado con contraste, mientras agrega capas adicionales al LLM congelado que luego se aprenden desde cero.

Otro método recomienda entrenar un transformer ligero para alinear un codificador visual congelado (entrenado previamente con contraste) y un LLM congelado. A pesar de los avances en la investigación mencionada anteriormente, todavía es difícil justificar el costo computacional adicional de las etapas de preentrenamiento adicionales. Además, se requieren bases de datos masivas, que incluyen texto, fotos y videos, para sincronizar las modalidades visual y lingüística con un LLM existente. Flamingo agrega nuevas capas de atención cruzada a un LLM preentrenado para agregar características visuales.

**Figura 1:** Comparación de métodos para coordinar las modalidades visual y lingüística. Hay dos opciones para el preentrenamiento multimodal: (a) utilizando un conjunto de datos emparejados o web; y (b) LENS, una técnica sin preentrenamiento que se puede utilizar con cualquier LLM de comercio sin la necesidad de conjuntos de datos multimodales adicionales. A diferencia de LENS, los enfoques anteriores requieren un preentrenamiento de alineación conjunta en conjuntos de datos multimodales sustanciales para llevar a cabo tareas visuales.

La etapa de preentrenamiento multimodal requiere impresionantes 2 mil millones de pares de imágenes y texto y 43 millones de sitios web, lo que puede llevar hasta 15 días, incluso utilizando un codificador de imágenes preentrenado y un LLM congelado preentrenado. En su lugar, utilizando una variedad de “módulos de visión”, pueden extraer información de las entradas visuales y producir representaciones textuales detalladas (como etiquetas, atributos, acciones y relaciones, entre otras cosas), que luego pueden alimentar directamente al LLM para evitar la necesidad de preentrenamiento multimodal adicional, como se muestra en la Fig. 1(b). Los investigadores de Contextual AI y la Universidad de Stanford presentan LENS (Large Language Models ENhanced to See), una estrategia modular que utiliza un LLM como “módulo de razonamiento” y funciona a través de “módulos de visión” separados.

En primer lugar, extraen información textual rica en la técnica LENS utilizando módulos de visión preentrenados, como modelos de contraste y modelos de subtitulado de imágenes. Luego, el texto se envía al LLM, lo que le permite llevar a cabo tareas, incluido el reconocimiento de objetos, visión y lenguaje (V&L). LENS une las modalidades sin costo alguno al eliminar la necesidad de etapas de preentrenamiento multimodales adicionales o datos. La incorporación de LENS les brinda un modelo que opera en diferentes dominios de manera inmediata, sin necesidad de preentrenamiento cruzado adicional. Además, esta integración nos permite utilizar de inmediato los avances más recientes en visión por computadora y procesamiento del lenguaje natural, maximizando las ventajas asociadas con ambas disciplinas.

Ellos proporcionan las siguientes contribuciones:

• Presentan LENS, un método modular que aborda los desafíos de visión por computadora utilizando las capacidades de aprendizaje en contexto de pocos datos de los modelos de lenguaje a través de descripciones en lenguaje natural de las entradas visuales.

• LENS permite que cualquier LLM de comercio pueda ver sin necesidad de un entrenamiento o datos adicionales.

• Utilizan LLMs congelados para manejar tareas de reconocimiento de objetos y razonamiento visual sin alineación adicional de visión y lenguaje o datos multimodales. Los resultados experimentales muestran que su enfoque logra un rendimiento de cero datos que es competitivo o superior a los modelos preentrenados conjuntamente de extremo a extremo como Kosmos y Flamingo. Una implementación parcial de su artículo está disponible en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.

Was this article helpful?

Cómo construir una plataforma de análisis semi-estructurado en tiempo real en Snowflake

Conquistar reintentos en Python utilizando Tenacity Un tutorial de principio a fin

Aprendizaje Automático

Uniéndose a la lucha contra el sesgo en la atención médica

Investigadores del Grupo Alibaba y Ant Group presentan VideoComposer un modelo de inteligencia artificial que permite combinar múltiples modalidades como texto, bocetos, estilo e incluso movimiento para impulsar la generación de video.

Ayudando a la Visión por Computadora y a los Modelos de Lenguaje a Comprender lo que Ven

Operaciones de Matrices y Vectores en Regresión Logística

15+ Herramientas de IA para Desarrolladores (Septiembre 2023)

La IA Generativa Puede Contribuir con $4.4 Billones Anualmente McKinsey