El primer IA visual y de lenguaje de propósito general LLaVA

El primer IA visual y de lenguaje LLaVA

LLaVA: Acortando la brecha entre la Inteligencia Artificial Visual y del Lenguaje con GPT-4

Originalmente publicado en louisbouchard.ai, ¡léelo 2 días antes en mi blog!

¡Mira el video!

GPT-4 es poderoso, ¿pero sabías que algunos AIs se construyen completamente gracias a él? Sí, GPT-4 es tan bueno que se puede utilizar para generar datos lo suficientemente buenos como para entrenar otros modelos de IA. ¡Y no cualquier modelo, sino mejores modelos que él mismo! Liu et al. acaban de utilizar GPT-4 para crear un modelo de visión y lenguaje de propósito general llamado LLaVA, el primer modelo de propósito general que comprende y sigue instrucciones visuales y basadas en el lenguaje. Básicamente, es un modelo que tiene un entendimiento casi perfecto del texto y las imágenes al mismo tiempo. Por lo tanto, puedes preguntarle cualquier cosa sobre cualquier imagen. Dado que GPT-4 aún no puede ver imágenes, pero es increíblemente bueno con el texto, podemos enviarle los subtítulos de nuestra imagen y pedirle que produzca diferentes tipos de resultados, como preguntas para preguntas y respuestas, una descripción más detallada de la imagen o incluso preguntas y respuestas de razonamiento sobre el subtítulo de la imagen. Así es como lo hicieron los autores. Le dieron un papel y una personalidad al modelo GPT-4 y le pidieron que generara varios tipos de datos, todos basados en el subtítulo inicial que tenían para cada imagen.

“Un ejemplo para ilustrar los datos de seguimiento de instrucciones. El bloque superior muestra los contextos como subtítulos y cuadros utilizados para solicitar a GPT, y el bloque inferior muestra los tres tipos de respuestas. Tenga en cuenta que la imagen visual no se utiliza para solicitar a GPT, solo la mostramos aquí como referencia.” Imagen y subtítulo del artículo.

Así es cómo se veían las instrucciones dadas a GPT-4 en el caso de LLaVA para construir el mejor conjunto de datos posible que permitiera que el modelo de lenguaje comprendiera la imagen de la manera más profunda posible. Desde pedir una descripción concisa de la imagen hasta una descripción exhaustiva o incluso un análisis detallado de la misma.

La lista de instrucciones para una breve descripción de la imagen. Imagen del artículo.

Estas indicaciones generadas por el usuario y las respuestas generadas por GPT-4 poblarán un buen conjunto de datos lleno de diferentes preguntas, respuestas y descripciones de nuestras imágenes, lo que nos permitirá entrenar nuestra IA multimodal, es decir, una IA que puede procesar imágenes y texto para luego enviar…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

El primer IA visual y de lenguaje de propósito general LLaVA

LLaVA: Acortando la brecha entre la Inteligencia Artificial Visual y del Lenguaje con GPT-4

¡Mira el video!

Was this article helpful?

Más allá de los tutoriales Aprendiendo análisis de datos con el agente de Pandas de LangChain

Aceptando la Diversidad Neuronal Un Salto en la Eficiencia y Rendimiento de la IA

Inteligencia Artificial

Investigadores de la Universidad de Tokio desarrollaron un esquema de aprendizaje por refuerzo fotónico extendido que se mueve desde el problema estático del bandido hacia un entorno dinámico más desafiante.

Microsoft presenta Azure ChatGPT una versión privada de ChatGPT diseñada para la empresa

AI Ve lo que tú Ves Mind's Eye es un Modelo de IA que Puede Reconstruir Escaneos Cerebrales en Imágenes.

Conoce SMPLitex un modelo de IA generativo y un conjunto de datos para la estimación de textura humana en 3D a partir de una única imagen.

Silicon Volley Los diseñadores utilizan la IA generativa para obtener un asistente de Chip

Simplifica la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler