Investigadores de la Universidad de Columbia y Apple presentan Ferret un revolucionario modelo de lenguaje multimodal para la comprensión y descripción avanzada de imágenes.
Investigadores de la Universidad de Columbia y Apple presentan Ferret un innovador modelo de lenguaje multimodal para comprender y describir imágenes de forma avanzada'.
Cómo facilitar el conocimiento espacial de los modelos es un problema de investigación importante en el aprendizaje visión-lenguaje. Este dilema nos lleva a dos capacidades requeridas: referencia y fundamentación. Mientras que la fundamentación requiere que el modelo localice la región de acuerdo con la descripción semántica proporcionada, la referencia pide que el modelo comprenda completamente la semántica de las regiones suministradas específicamente. En esencia, la alineación de la información geográfica y la semántica es el conocimiento necesario tanto para la referencia como para la fundamentación. A pesar de esto, la referencia y la fundamentación se enseñan típicamente por separado en los textos actuales. Los humanos, por otro lado, pueden combinar su capacidad de referencia/fundamentación con la discusión y la argumentación cotidianas sin dificultad, y pueden aprender de una actividad y generalizar el conocimiento compartido a otra sin dificultad.
En esta investigación, se investigan tres problemas clave a la luz de la disparidad antes mencionada. (i) ¿Cómo se pueden combinar la referencia y la fundamentación en un solo marco, y cómo se complementarán entre sí? (ii) ¿Cómo se pueden representar las muchas regiones que las personas suelen usar para referirse a las cosas, como puntos, cajas, garabatos y formas libres? (iii) ¿Cómo pueden la referencia y la fundamentación, que son esenciales para las aplicaciones prácticas, ser de vocabulario abierto, seguir instrucciones y ser robustas? Los investigadores de la Universidad de Columbia y Apple AI/ML presentan Ferret, un nuevo modelo de lenguaje multimodal grande referencial y fundamentado (MLLM), para abordar estos tres problemas. Primero eligieron MLLM como base de Ferret debido a su sólida capacidad de comprensión global de visión-lenguaje. Como se muestra en la Figura 1, Ferret codifica inicialmente las coordenadas de las áreas en una forma numérica de lenguaje sencillo para unificar la referencia y la fundamentación.
Figura 3: Una imagen general de la arquitectura para el modelo Ferret sugerido. Se muestra la representación híbrida de la región y el muestreador visual consciente del contexto a la izquierda. La arquitectura general del modelo (derecha). El codificador de imagen es el único parámetro que no se puede entrenar.
- Construyendo Organizaciones Analíticamente Maduras (AMO)
- Conseguí mi primer trabajo en Datos, ¿qué sigue?
- Transferencia de Aprendizaje para Principiantes
Sin embargo, es impráctico representar una variedad de formas regionales, como trazos, garabatos o polígonos complejos, con un solo punto o una caja de coordenadas. Estas formas son necesarias para una interacción humano-modelo más precisa y completa. Para abordar este problema, también sugieren un muestreador visual consciente del contexto espacial para adquirir las características ópticas de las áreas en cualquier forma, teniendo en cuenta la variabilidad de las formas en cuanto a su densidad. Las áreas visuales en la entrada se representan en Ferret utilizando una representación híbrida de la región compuesta por coordenadas discretas y características visuales continuas. Con las técnicas mencionadas anteriormente, Ferret puede manejar una entrada que combina texto de forma libre y áreas referenciadas, y puede fundamentar los elementos especificados en su salida creando automáticamente las coordenadas para cada objeto fundamentable y texto.
Hasta donde saben, Ferret es la primera aplicación que maneja entradas de MLLMs con regiones de forma libre. Recopilan GRIT, un conjunto de datos de afinación de instrucciones para fundamentación y referencia de 1.1 millones de muestras, para crear las capacidades de referencia y fundamentación en Ferret de vocabulario abierto, seguimiento de instrucciones y resistencia. GRIT tiene varios niveles de conocimiento espacial, incluyendo descripciones de regiones, conexiones, objetos y razonamientos complicados. Contiene datos que combinan ubicación y texto tanto en la entrada como en la salida, así como texto-en-ubicación-afuera (referencia) y ubicación-en-texto-afuera (fundamentación). Con la ayuda de plantillas cuidadosamente diseñadas, la mayor parte del conjunto de datos se transforma a partir de tareas actuales de visión (-lenguaje) como la identificación de objetos y la fundamentación de frases a seguimiento de instrucciones.
Para ayudar a entrenar a un generalista de referencia y fundamentación de vocabulario abierto y seguimiento de instrucciones, también se recopilan 34,000 conversaciones de afinación de instrucciones de referencia y fundamentación utilizando ChatGPT/GPT-4. También realizan una minería de datos negativos conscientes del contexto espacial, lo que mejora la robustez del modelo. Ferret posee una gran capacidad de conocimiento espacial y capacidad de localización de vocabulario abierto. Funciona mejor cuando se compara con actividades de referencia y fundamentación tradicionales. Además, consideran que las capacidades de referencia y fundamentación deberían ser incorporadas en las conversaciones humanas diarias, por ejemplo, cuando las personas se refieren a algo desconocido y preguntan sobre su función. Para evaluar esta nueva habilidad, presentan Ferret-Bench, que cubre tres nuevos tipos de tareas: Descripción a partir de referencia, Razonamientos a partir de referencia y Fundamentación en conversaciones. Comparan Ferret con los mejores MLLMs que se utilizan actualmente y descubren que puede superarlos en un promedio del 20.4%. Ferret también tiene la notable capacidad de reducir las alucinaciones de objetos.
En total, han realizado tres contribuciones diferentes. (i) Sugieren Ferret, que permite una referencia y fundamentación de granularidad fina con un vocabulario abierto en MLLM. Ferret utiliza una representación de región híbrida equipada con un muestreador visual único y consciente del espacio. (ii) Crean GRIT, un amplio conjunto de datos de ajuste de instrucciones de referencia y fundamentación para el entrenamiento del modelo. También incluye ejemplos negativos espaciales adicionales para fortalecer la resistencia del modelo. Para evaluar simultáneamente tareas que requieren referencia/fundamentación, semántica, conocimiento y razonamiento, crean el Ferret-Bench (iii). Su modelo funciona mejor que otros en diversas actividades y presenta menos alucinaciones de objetos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Los datos son la base de los modelos de lenguaje
- Optimizando los costos computacionales con AutoMix Un enfoque estratégico de IA para aprovechar modelos de lenguaje grandes desde la nube
- Los 10 mejores proyectos de Tableau para Ciencia de datos
- Mejorando la evaluación del diseño de ingeniería a través de métricas integrales para modelos generativos profundos
- ¿Cuál es el problema de la jarra de agua en IA?
- Análisis Exploratorio de Datos ¿Qué sabemos sobre los canales de YouTube
- Una nueva investigación de aprendizaje profundo identifica un medicamento antipalúdico como posible tratamiento para la osteoporosis