Investigadores de la Universidad de Columbia y Apple presentan Ferret un revolucionario modelo de lenguaje multimodal para la comprensión y descripción avanzada de imágenes.

Investigadores de la Universidad de Columbia y Apple presentan Ferret un innovador modelo de lenguaje multimodal para comprender y describir imágenes de forma avanzada'.

Cómo facilitar el conocimiento espacial de los modelos es un problema de investigación importante en el aprendizaje visión-lenguaje. Este dilema nos lleva a dos capacidades requeridas: referencia y fundamentación. Mientras que la fundamentación requiere que el modelo localice la región de acuerdo con la descripción semántica proporcionada, la referencia pide que el modelo comprenda completamente la semántica de las regiones suministradas específicamente. En esencia, la alineación de la información geográfica y la semántica es el conocimiento necesario tanto para la referencia como para la fundamentación. A pesar de esto, la referencia y la fundamentación se enseñan típicamente por separado en los textos actuales. Los humanos, por otro lado, pueden combinar su capacidad de referencia/fundamentación con la discusión y la argumentación cotidianas sin dificultad, y pueden aprender de una actividad y generalizar el conocimiento compartido a otra sin dificultad.

En esta investigación, se investigan tres problemas clave a la luz de la disparidad antes mencionada. (i) ¿Cómo se pueden combinar la referencia y la fundamentación en un solo marco, y cómo se complementarán entre sí? (ii) ¿Cómo se pueden representar las muchas regiones que las personas suelen usar para referirse a las cosas, como puntos, cajas, garabatos y formas libres? (iii) ¿Cómo pueden la referencia y la fundamentación, que son esenciales para las aplicaciones prácticas, ser de vocabulario abierto, seguir instrucciones y ser robustas? Los investigadores de la Universidad de Columbia y Apple AI/ML presentan Ferret, un nuevo modelo de lenguaje multimodal grande referencial y fundamentado (MLLM), para abordar estos tres problemas. Primero eligieron MLLM como base de Ferret debido a su sólida capacidad de comprensión global de visión-lenguaje. Como se muestra en la Figura 1, Ferret codifica inicialmente las coordenadas de las áreas en una forma numérica de lenguaje sencillo para unificar la referencia y la fundamentación.

Figura 3: Una imagen general de la arquitectura para el modelo Ferret sugerido. Se muestra la representación híbrida de la región y el muestreador visual consciente del contexto a la izquierda. La arquitectura general del modelo (derecha). El codificador de imagen es el único parámetro que no se puede entrenar.

Sin embargo, es impráctico representar una variedad de formas regionales, como trazos, garabatos o polígonos complejos, con un solo punto o una caja de coordenadas. Estas formas son necesarias para una interacción humano-modelo más precisa y completa. Para abordar este problema, también sugieren un muestreador visual consciente del contexto espacial para adquirir las características ópticas de las áreas en cualquier forma, teniendo en cuenta la variabilidad de las formas en cuanto a su densidad. Las áreas visuales en la entrada se representan en Ferret utilizando una representación híbrida de la región compuesta por coordenadas discretas y características visuales continuas. Con las técnicas mencionadas anteriormente, Ferret puede manejar una entrada que combina texto de forma libre y áreas referenciadas, y puede fundamentar los elementos especificados en su salida creando automáticamente las coordenadas para cada objeto fundamentable y texto.

Hasta donde saben, Ferret es la primera aplicación que maneja entradas de MLLMs con regiones de forma libre. Recopilan GRIT, un conjunto de datos de afinación de instrucciones para fundamentación y referencia de 1.1 millones de muestras, para crear las capacidades de referencia y fundamentación en Ferret de vocabulario abierto, seguimiento de instrucciones y resistencia. GRIT tiene varios niveles de conocimiento espacial, incluyendo descripciones de regiones, conexiones, objetos y razonamientos complicados. Contiene datos que combinan ubicación y texto tanto en la entrada como en la salida, así como texto-en-ubicación-afuera (referencia) y ubicación-en-texto-afuera (fundamentación). Con la ayuda de plantillas cuidadosamente diseñadas, la mayor parte del conjunto de datos se transforma a partir de tareas actuales de visión (-lenguaje) como la identificación de objetos y la fundamentación de frases a seguimiento de instrucciones.

Para ayudar a entrenar a un generalista de referencia y fundamentación de vocabulario abierto y seguimiento de instrucciones, también se recopilan 34,000 conversaciones de afinación de instrucciones de referencia y fundamentación utilizando ChatGPT/GPT-4. También realizan una minería de datos negativos conscientes del contexto espacial, lo que mejora la robustez del modelo. Ferret posee una gran capacidad de conocimiento espacial y capacidad de localización de vocabulario abierto. Funciona mejor cuando se compara con actividades de referencia y fundamentación tradicionales. Además, consideran que las capacidades de referencia y fundamentación deberían ser incorporadas en las conversaciones humanas diarias, por ejemplo, cuando las personas se refieren a algo desconocido y preguntan sobre su función. Para evaluar esta nueva habilidad, presentan Ferret-Bench, que cubre tres nuevos tipos de tareas: Descripción a partir de referencia, Razonamientos a partir de referencia y Fundamentación en conversaciones. Comparan Ferret con los mejores MLLMs que se utilizan actualmente y descubren que puede superarlos en un promedio del 20.4%. Ferret también tiene la notable capacidad de reducir las alucinaciones de objetos.

En total, han realizado tres contribuciones diferentes. (i) Sugieren Ferret, que permite una referencia y fundamentación de granularidad fina con un vocabulario abierto en MLLM. Ferret utiliza una representación de región híbrida equipada con un muestreador visual único y consciente del espacio. (ii) Crean GRIT, un amplio conjunto de datos de ajuste de instrucciones de referencia y fundamentación para el entrenamiento del modelo. También incluye ejemplos negativos espaciales adicionales para fortalecer la resistencia del modelo. Para evaluar simultáneamente tareas que requieren referencia/fundamentación, semántica, conocimiento y razonamiento, crean el Ferret-Bench (iii). Su modelo funciona mejor que otros en diversas actividades y presenta menos alucinaciones de objetos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Investigadores de la Universidad de Columbia y Apple presentan Ferret un revolucionario modelo de lenguaje multimodal para la comprensión y descripción avanzada de imágenes.

Was this article helpful?

Construyendo Organizaciones Analíticamente Maduras (AMO)

Dominando la Optimización y Despliegue de IA con la herramienta OpenVINO de Intel

Inteligencia Artificial

Fiber Óptica Pantalones Inteligentes Ofrecen una Forma de Bajo Costo para Monitorear Movimientos

Gorra de Ondas Cerebrales Salva Vidas al Identificar Derrames Cerebrales

CEO de OpenAI, Sam Altman Empleos en riesgo a medida que la IA demuestra su poderío

Este documento de IA revela los secretos para optimizar los modelos de lenguaje grandes equilibrar las recompensas y prevenir la sobreoptimización

Potenciando los juegos a otro nivel Sports Vision AI, una startup para transmitir atletismo en todo el mundo

Samsung adopta la IA y los grandes datos, revoluciona el proceso de fabricación de chips.