¿Cómo se construyó DALL·E 3? (El mejor modelo de texto a imagen de OpenAI)

¿Cómo fue creado DALL·E 3? (El asombroso modelo de texto a imagen de OpenAI)

Mejorando la Generación de Imágenes con Mejores Leyendas

Originalmente publicado en louisbouchard.ai, léelo 2 días antes en mi blog!

Mira el video:

El año pasado, quedamos impresionados con DALL·E 2, el primer modelo de texto a imagen súper impresionante de OpenAI. ¡Pero hoy, prepárate para sumergirte en un mundo donde el arte y la tecnología se fusionan como nunca antes con su tercera versión!

Adentrémonos en DALL·E 3 con un nuevo artículo que OpenAI acaba de lanzar y descubramos los avances que lo sitúan a años luz de DALL·E 2.

En un entorno fantástico, un zorrillo humanoide peludo altamente detallado con ojos penetrantes posa con confianza en una toma de VoAGI, vistiendo una chaqueta de cuero de animal. El artista ha representado magistralmente al personaje en arte digital, capturando los detalles intrincados de la textura del pelaje y la ropa. Imagen y leyenda del artículo.

Entrenado en leyendas de imagen generadas altamente descriptivas, DALL·E 3 no solo sigue instrucciones, sino que les da vida. Los resultados son increíbles, y no solo entiende las instrucciones, sino que también comprende la historia detrás de la instrucción. El progreso desde 2020 es simplemente increíble.

Resultados de DALLE 1. Imagen del artículo de blog de OpenAI: A. Ramesh et al., Zero-shot text-to-image generation, 2021. arXiv:2102.12092.

En el corazón del poderío de DALL·E 3 está un robusto generador de leyendas de imagen. Todo se trata de las leyendas de imagen, por lo que el texto se incluye durante su entrenamiento, junto con la imagen que debería poder generar. Este nuevo generador de leyendas de imagen es el principal factor por el cual DALLE 3 es mucho mejor que DALLE 2. Los modelos anteriores se entrenaron inicialmente de manera auto-supervisada con pares de imagen-texto extraídos de internet. Imagina una foto de Instagram y su leyenda o hashtags. No siempre es informativa o incluso está vinculada. Los autores del artículo describen principalmente el tema principal en la imagen, no la historia completa detrás de ella o el entorno y el texto que aparece en la imagen junto con el tema principal. Además, no mencionan dónde se ubica todo en la imagen, lo cual sería información útil para garantizar la recreación precisa de una imagen similar. Además, muchas leyendas son simplemente chistes o pensamientos no relacionados o poemas compartidos junto a las imágenes. En este punto, entrenar con tales…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

¿Cómo se construyó DALL·E 3? (El mejor modelo de texto a imagen de OpenAI)

Mejorando la Generación de Imágenes con Mejores Leyendas

Mira el video:

Was this article helpful?

7 plataformas para conseguir empleos de ciencia de datos de alto pago

ToolFormer Guía para que los modelos de IA utilicen herramientas externas

Inteligencia Artificial

Abacus AI presenta un nuevo modelo de lenguaje grande de contexto largo y abierto (LLM) Conoce a Giraffe

Conoce a LP-MusicCaps un enfoque de generación de subtítulos seudoposicionales con grandes modelos de lenguaje para abordar el problema de escasez de datos en la subtitulación automática de música.

Generando más perspectivas de calidad por mes

¿Cuál es la conexión entre los Transformers y las Máquinas de Vectores de Soporte? Revelando el sesgo implícito y la geometría de optimización en las arquitecturas de los Transformers

Cómo implementar la IA adaptativa en tu negocio.

Los modelos de lenguaje grandes tienen sesgos. ¿Puede la lógica ayudar a salvarlos?