Avance en la Intersección de Visión-Lenguaje Presentando el Proyecto Todo-Vista
Avance en la Intersección de Visión-Lenguaje Proyecto Todo-Vista
Impulsando el ascenso meteórico de los chatbots de IA, los LLM son el tema de conversación en la ciudad. Están mostrando capacidades asombrosas en funciones de procesamiento de lenguaje natural adaptadas al usuario, pero parecen carecer de la capacidad para entender el mundo visual. Para cerrar la brecha entre el mundo de la visión y el lenguaje, los investigadores han presentado el proyecto All-Seeing (AS).
El Proyecto AS es para el reconocimiento y comprensión visual panóptica de un mundo abierto, impulsado por el objetivo de crear un sistema de visión que imite la cognición humana. El término “panóptico” se refiere a incluir todo lo visible en una sola vista.
El Proyecto AS consta de:
- HashGNN Profundizando en el nuevo algoritmo de incrustación de nodos de Neo4j GDS
- Más allá del VIF Análisis de la Colinealidad para Mitigación del Sesgo y Precisión Predictiva
- Ajuste fino de un modelo Llama-2 7B para la generación de código en Python
- El conjunto de datos All-Seeing 1B (AS-1B) cubre una amplia gama de 3.5 millones de conceptos comunes y raros en el mundo real y tiene 132.2 mil millones de tokens que describen los conceptos y sus atributos.
- El modelo All-Seeing (ASM) es un modelo de base unificada de imágenes y texto con conciencia de ubicación. El modelo consta de dos componentes clave: un tokenizer de imágenes con conciencia de ubicación y un decodificador basado en LLM.
El conjunto de datos comprende más de 1 mil millones de anotaciones de regiones en diversos formatos, como etiquetas semánticas, ubicaciones, pares de preguntas y respuestas, y subtítulos. En comparación con los conjuntos de datos anteriores de reconocimiento visual como ImageNet y COCO, los conjuntos de datos de comprensión visual como Visual Genome y Laion-5B, el conjunto de datos AS-1B se destaca por su rica y diversa anotación de ubicación a nivel de instancia y conceptos y descripciones detallados de objetos correspondientes.
La arquitectura del modelo AS consta de un marco unificado de niveles variables. Admite tareas de imagen-texto contrastivas y generativas tanto a nivel de imagen como a nivel de regiones. Al aprovechar LLM pre-entrenados y poderosos modelos de visión (VFMs), el modelo muestra un rendimiento prometedor en tareas discriminatorias como recuperación de imagen-texto y clasificación cero, así como tareas generativas como preguntas y respuestas visuales (VQA), razonamiento visual, subtitulado de imágenes, subtitulado/VQA de regiones, etc. Además, los investigadores afirman ver potencial en tareas de fundamentación como la fundamentación de frases y la comprensión de expresiones de referencia con la ayuda de un detector sin clases.
El Modelo All-Seeing (ASM) consta de tres diseños clave:
- Un tokenizer de imágenes con conciencia de ubicación extrae características de los niveles de imagen y regiones en función de la imagen de entrada y la caja delimitadora, respectivamente.
- Se incorpora un indicador de tarea entrenable al principio de los tokens de visión y texto para guiar al modelo en la distinción entre tareas discriminatorias y generativas.
- Se utiliza un decodificador basado en LLM para extraer características de visión y texto para tareas discriminatorias y generar tokens de respuesta de manera auto-regresiva en tareas generativas.
Se realizó un análisis exhaustivo de los datos en términos de calidad, escalado, diversidad y experimentos al analizar y comparar el ASM propuesto con un modelo de referencia basado en CLIP (muestra capacidades de cero disparo de GPT-2 y 3) y los principales modelos de lenguaje multimodal (VLLMs) en tareas de visión representativas, incluido el reconocimiento de regiones de cero disparo, subtítulos a nivel de imagen y subtítulos a nivel de regiones. Los hallazgos destacaron las sólidas capacidades de generación de texto a nivel de región de nuestro modelo, al tiempo que mostraron su capacidad para comprender la imagen completa. Los resultados de la evaluación humana indicaron que se prefieren los subtítulos generados por nuestro ASM en comparación con los de MiniGPT4 y LLaVA.
El modelo se entrena con indicaciones de lenguaje y ubicaciones abiertas, lo que le permite generalizar a varias tareas de visión y lenguaje con un rendimiento de cero disparo notable, incluida la recuperación de texto-región, reconocimiento de regiones, subtitulado y preguntas y respuestas. Esto, según los investigadores, le ha dado a los LLM un “ojo que todo lo ve” y ha revolucionado la intersección de la visión y el lenguaje.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Una Guía Completa para MLOps
- Tendencias principales de IA en marketing para observar en 2023
- Mejores Servidores Proxy 2023
- Clave maestra para la separación de fuentes de audio Presentamos AudioSep para separar cualquier cosa que describas
- 5 Cosas que Necesitas Saber al Construir Aplicaciones de Aprendizaje Automático
- Investigadores de la Universidad de Boston lanzan la familia Platypus de LLMs afinados para lograr un refinamiento económico, rápido y potente de los LLMs base.
- IBM y NASA se unen para crear Earth Science GPT Descifrando los misterios de nuestro planeta