El primer IA visual y de lenguaje de propósito general LLaVA

El primer IA visual y de lenguaje LLaVA

LLaVA: Acortando la brecha entre la Inteligencia Artificial Visual y del Lenguaje con GPT-4

Originalmente publicado en louisbouchard.ai, ¡léelo 2 días antes en mi blog!

¡Mira el video!

GPT-4 es poderoso, ¿pero sabías que algunos AIs se construyen completamente gracias a él? Sí, GPT-4 es tan bueno que se puede utilizar para generar datos lo suficientemente buenos como para entrenar otros modelos de IA. ¡Y no cualquier modelo, sino mejores modelos que él mismo! Liu et al. acaban de utilizar GPT-4 para crear un modelo de visión y lenguaje de propósito general llamado LLaVA, el primer modelo de propósito general que comprende y sigue instrucciones visuales y basadas en el lenguaje. Básicamente, es un modelo que tiene un entendimiento casi perfecto del texto y las imágenes al mismo tiempo. Por lo tanto, puedes preguntarle cualquier cosa sobre cualquier imagen. Dado que GPT-4 aún no puede ver imágenes, pero es increíblemente bueno con el texto, podemos enviarle los subtítulos de nuestra imagen y pedirle que produzca diferentes tipos de resultados, como preguntas para preguntas y respuestas, una descripción más detallada de la imagen o incluso preguntas y respuestas de razonamiento sobre el subtítulo de la imagen. Así es como lo hicieron los autores. Le dieron un papel y una personalidad al modelo GPT-4 y le pidieron que generara varios tipos de datos, todos basados en el subtítulo inicial que tenían para cada imagen.

“Un ejemplo para ilustrar los datos de seguimiento de instrucciones. El bloque superior muestra los contextos como subtítulos y cuadros utilizados para solicitar a GPT, y el bloque inferior muestra los tres tipos de respuestas. Tenga en cuenta que la imagen visual no se utiliza para solicitar a GPT, solo la mostramos aquí como referencia.” Imagen y subtítulo del artículo.

Así es cómo se veían las instrucciones dadas a GPT-4 en el caso de LLaVA para construir el mejor conjunto de datos posible que permitiera que el modelo de lenguaje comprendiera la imagen de la manera más profunda posible. Desde pedir una descripción concisa de la imagen hasta una descripción exhaustiva o incluso un análisis detallado de la misma.

La lista de instrucciones para una breve descripción de la imagen. Imagen del artículo.

Estas indicaciones generadas por el usuario y las respuestas generadas por GPT-4 poblarán un buen conjunto de datos lleno de diferentes preguntas, respuestas y descripciones de nuestras imágenes, lo que nos permitirá entrenar nuestra IA multimodal, es decir, una IA que puede procesar imágenes y texto para luego enviar…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Microsoft presenta Azure ChatGPT una versión privada de ChatGPT diseñada para la empresa

Microsoft Azure ChatGPT es una oferta innovadora que capacita a las empresas para aprovechar las capacidades de ChatG...

Aprendizaje Automático

AI Ve lo que tú Ves Mind's Eye es un Modelo de IA que Puede Reconstruir Escaneos Cerebrales en Imágenes.

Desde hace tiempo, nos ha intrigado el desafío de entender cómo funciona nuestro cerebro. El campo de la neurociencia...

Inteligencia Artificial

Conoce SMPLitex un modelo de IA generativo y un conjunto de datos para la estimación de textura humana en 3D a partir de una única imagen.

En el campo en constante evolución de la visión por computadora y los gráficos, un desafío significativo ha sido la c...

Inteligencia Artificial

Silicon Volley Los diseñadores utilizan la IA generativa para obtener un asistente de Chip

Un artículo de investigación publicado hoy describe formas en que la inteligencia artificial generativa puede ayudar ...

Inteligencia Artificial

Simplifica la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler

Los modelos de inteligencia artificial generativa (IA generativa) han demostrado impresionantes capacidades para gene...