Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.
Contextual AI introduces LENS, an AI framework for language models with augmented vision that outperforms Flamingo by 9% (56->65%) on VQAv2.
Los Modelos de Lenguaje Grandes (LLMs) han transformado la comprensión del lenguaje natural en los últimos años, demostrando aptitudes notables en la comprensión semántica, la resolución de consultas y la producción de texto, especialmente en entornos de cero y pocos datos. Como se muestra en la Fig. 1(a), se han propuesto varios métodos para utilizar LLMs en tareas que involucran la visión. Un codificador óptico puede ser entrenado para representar cada imagen como una serie de incrustaciones continuas, permitiendo que el LLM lo comprenda. Otro utiliza un codificador de visión congelado entrenado con contraste, mientras agrega capas adicionales al LLM congelado que luego se aprenden desde cero.
Otro método recomienda entrenar un transformer ligero para alinear un codificador visual congelado (entrenado previamente con contraste) y un LLM congelado. A pesar de los avances en la investigación mencionada anteriormente, todavía es difícil justificar el costo computacional adicional de las etapas de preentrenamiento adicionales. Además, se requieren bases de datos masivas, que incluyen texto, fotos y videos, para sincronizar las modalidades visual y lingüística con un LLM existente. Flamingo agrega nuevas capas de atención cruzada a un LLM preentrenado para agregar características visuales.
La etapa de preentrenamiento multimodal requiere impresionantes 2 mil millones de pares de imágenes y texto y 43 millones de sitios web, lo que puede llevar hasta 15 días, incluso utilizando un codificador de imágenes preentrenado y un LLM congelado preentrenado. En su lugar, utilizando una variedad de “módulos de visión”, pueden extraer información de las entradas visuales y producir representaciones textuales detalladas (como etiquetas, atributos, acciones y relaciones, entre otras cosas), que luego pueden alimentar directamente al LLM para evitar la necesidad de preentrenamiento multimodal adicional, como se muestra en la Fig. 1(b). Los investigadores de Contextual AI y la Universidad de Stanford presentan LENS (Large Language Models ENhanced to See), una estrategia modular que utiliza un LLM como “módulo de razonamiento” y funciona a través de “módulos de visión” separados.
- Unity anuncia el lanzamiento de Muse una plataforma de juegos de texto a video que te permite crear texturas, sprites y animaciones con lenguaje natural.
- Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.
- Si la comunicación oral y escrita hizo que los seres humanos desarrollaran inteligencia… ¿Qué hay de los modelos de lenguaje?
En primer lugar, extraen información textual rica en la técnica LENS utilizando módulos de visión preentrenados, como modelos de contraste y modelos de subtitulado de imágenes. Luego, el texto se envía al LLM, lo que le permite llevar a cabo tareas, incluido el reconocimiento de objetos, visión y lenguaje (V&L). LENS une las modalidades sin costo alguno al eliminar la necesidad de etapas de preentrenamiento multimodales adicionales o datos. La incorporación de LENS les brinda un modelo que opera en diferentes dominios de manera inmediata, sin necesidad de preentrenamiento cruzado adicional. Además, esta integración nos permite utilizar de inmediato los avances más recientes en visión por computadora y procesamiento del lenguaje natural, maximizando las ventajas asociadas con ambas disciplinas.
Ellos proporcionan las siguientes contribuciones:
• Presentan LENS, un método modular que aborda los desafíos de visión por computadora utilizando las capacidades de aprendizaje en contexto de pocos datos de los modelos de lenguaje a través de descripciones en lenguaje natural de las entradas visuales.
• LENS permite que cualquier LLM de comercio pueda ver sin necesidad de un entrenamiento o datos adicionales.
• Utilizan LLMs congelados para manejar tareas de reconocimiento de objetos y razonamiento visual sin alineación adicional de visión y lenguaje o datos multimodales. Los resultados experimentales muestran que su enfoque logra un rendimiento de cero datos que es competitivo o superior a los modelos preentrenados conjuntamente de extremo a extremo como Kosmos y Flamingo. Una implementación parcial de su artículo está disponible en GitHub.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Conoce a DORSal Un modelo de difusión estructurada en 3D para la generación y edición a nivel de objeto de escenas en 3D.
- Enchufes de difusión en el dispositivo para la generación condicionada de texto a imagen
- Google DeepMind está trabajando en un algoritmo para superar a ChatGPT.
- Ajusta de forma interactiva Falcon-40B y otros LLMs en los cuadernos de Amazon SageMaker Studio utilizando QLoRA.
- Difusión estable Intuición básica detrás de la IA generativa
- Construyendo Modelos de Lenguaje Una Guía de Implementación Paso a Paso de BERT
- Generar música a partir de texto utilizando Google MusicLM