Avance en la Intersección de Visión-Lenguaje Presentando el Proyecto Todo-Vista

Avance en la Intersección de Visión-Lenguaje Proyecto Todo-Vista

Impulsando el ascenso meteórico de los chatbots de IA, los LLM son el tema de conversación en la ciudad. Están mostrando capacidades asombrosas en funciones de procesamiento de lenguaje natural adaptadas al usuario, pero parecen carecer de la capacidad para entender el mundo visual. Para cerrar la brecha entre el mundo de la visión y el lenguaje, los investigadores han presentado el proyecto All-Seeing (AS).

El Proyecto AS es para el reconocimiento y comprensión visual panóptica de un mundo abierto, impulsado por el objetivo de crear un sistema de visión que imite la cognición humana. El término “panóptico” se refiere a incluir todo lo visible en una sola vista.

El Proyecto AS consta de:

  • El conjunto de datos All-Seeing 1B (AS-1B) cubre una amplia gama de 3.5 millones de conceptos comunes y raros en el mundo real y tiene 132.2 mil millones de tokens que describen los conceptos y sus atributos.
  • El modelo All-Seeing (ASM) es un modelo de base unificada de imágenes y texto con conciencia de ubicación. El modelo consta de dos componentes clave: un tokenizer de imágenes con conciencia de ubicación y un decodificador basado en LLM.

El conjunto de datos comprende más de 1 mil millones de anotaciones de regiones en diversos formatos, como etiquetas semánticas, ubicaciones, pares de preguntas y respuestas, y subtítulos. En comparación con los conjuntos de datos anteriores de reconocimiento visual como ImageNet y COCO, los conjuntos de datos de comprensión visual como Visual Genome y Laion-5B, el conjunto de datos AS-1B se destaca por su rica y diversa anotación de ubicación a nivel de instancia y conceptos y descripciones detallados de objetos correspondientes.

La arquitectura del modelo AS consta de un marco unificado de niveles variables. Admite tareas de imagen-texto contrastivas y generativas tanto a nivel de imagen como a nivel de regiones. Al aprovechar LLM pre-entrenados y poderosos modelos de visión (VFMs), el modelo muestra un rendimiento prometedor en tareas discriminatorias como recuperación de imagen-texto y clasificación cero, así como tareas generativas como preguntas y respuestas visuales (VQA), razonamiento visual, subtitulado de imágenes, subtitulado/VQA de regiones, etc. Además, los investigadores afirman ver potencial en tareas de fundamentación como la fundamentación de frases y la comprensión de expresiones de referencia con la ayuda de un detector sin clases.

El Modelo All-Seeing (ASM) consta de tres diseños clave:

  1. Un tokenizer de imágenes con conciencia de ubicación extrae características de los niveles de imagen y regiones en función de la imagen de entrada y la caja delimitadora, respectivamente.
  2. Se incorpora un indicador de tarea entrenable al principio de los tokens de visión y texto para guiar al modelo en la distinción entre tareas discriminatorias y generativas.
  3. Se utiliza un decodificador basado en LLM para extraer características de visión y texto para tareas discriminatorias y generar tokens de respuesta de manera auto-regresiva en tareas generativas.

Se realizó un análisis exhaustivo de los datos en términos de calidad, escalado, diversidad y experimentos al analizar y comparar el ASM propuesto con un modelo de referencia basado en CLIP (muestra capacidades de cero disparo de GPT-2 y 3) y los principales modelos de lenguaje multimodal (VLLMs) en tareas de visión representativas, incluido el reconocimiento de regiones de cero disparo, subtítulos a nivel de imagen y subtítulos a nivel de regiones. Los hallazgos destacaron las sólidas capacidades de generación de texto a nivel de región de nuestro modelo, al tiempo que mostraron su capacidad para comprender la imagen completa. Los resultados de la evaluación humana indicaron que se prefieren los subtítulos generados por nuestro ASM en comparación con los de MiniGPT4 y LLaVA.

El modelo se entrena con indicaciones de lenguaje y ubicaciones abiertas, lo que le permite generalizar a varias tareas de visión y lenguaje con un rendimiento de cero disparo notable, incluida la recuperación de texto-región, reconocimiento de regiones, subtitulado y preguntas y respuestas. Esto, según los investigadores, le ha dado a los LLM un “ojo que todo lo ve” y ha revolucionado la intersección de la visión y el lenguaje.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Evaluando el dominio lingüístico de la Inteligencia Artificial Un análisis exhaustivo de las habilidades morfológicas de ChatGPT en diferentes idiomas

Investigadores examinan rigurosamente las habilidades morfológicas de ChatGPT en cuatro idiomas (inglés, alemán, tami...

Inteligencia Artificial

Meet LLMWare Un marco de Inteligencia Artificial todo en uno para agilizar el desarrollo de aplicaciones basadas en LLM para aplicaciones de IA generativa

A pesar del gran interés en los Modelos de Lenguaje Grande LLM (por sus siglas en inglés) durante el último año, much...

Inteligencia Artificial

Presentamos OpenLLM Biblioteca de código abierto para LLMs

Una plataforma fácil de usar para operar modelos de lenguaje grandes (LLMs) en producción, con características como a...

Inteligencia Artificial

Modelos Generales del Mundo Investigación en IA de Pasarela Iniciando un Nuevo Esfuerzo de Investigación a Largo Plazo

Un modelo mundial es un sistema de IA que tiene como objetivo construir una comprensión interna de un entorno y utili...

Investigación

Cómo rejuvenecer usando IA Descubierto nuevo medicamento contra el envejecimiento.

En un avance, los algoritmos de IA han jugado un papel clave en la identificación de posibles fármacos que podrían co...