¿Cómo se construyó DALL·E 3? (El mejor modelo de texto a imagen de OpenAI)

¿Cómo fue creado DALL·E 3? (El asombroso modelo de texto a imagen de OpenAI)

Mejorando la Generación de Imágenes con Mejores Leyendas

Originalmente publicado en louisbouchard.ai, léelo 2 días antes en mi blog!

Mira el video:

El año pasado, quedamos impresionados con DALL·E 2, el primer modelo de texto a imagen súper impresionante de OpenAI. ¡Pero hoy, prepárate para sumergirte en un mundo donde el arte y la tecnología se fusionan como nunca antes con su tercera versión!

Adentrémonos en DALL·E 3 con un nuevo artículo que OpenAI acaba de lanzar y descubramos los avances que lo sitúan a años luz de DALL·E 2.

En un entorno fantástico, un zorrillo humanoide peludo altamente detallado con ojos penetrantes posa con confianza en una toma de VoAGI, vistiendo una chaqueta de cuero de animal. El artista ha representado magistralmente al personaje en arte digital, capturando los detalles intrincados de la textura del pelaje y la ropa. Imagen y leyenda del artículo.

Entrenado en leyendas de imagen generadas altamente descriptivas, DALL·E 3 no solo sigue instrucciones, sino que les da vida. Los resultados son increíbles, y no solo entiende las instrucciones, sino que también comprende la historia detrás de la instrucción. El progreso desde 2020 es simplemente increíble.

Resultados de DALLE 1. Imagen del artículo de blog de OpenAI: A. Ramesh et al., Zero-shot text-to-image generation, 2021. arXiv:2102.12092.

En el corazón del poderío de DALL·E 3 está un robusto generador de leyendas de imagen. Todo se trata de las leyendas de imagen, por lo que el texto se incluye durante su entrenamiento, junto con la imagen que debería poder generar. Este nuevo generador de leyendas de imagen es el principal factor por el cual DALLE 3 es mucho mejor que DALLE 2. Los modelos anteriores se entrenaron inicialmente de manera auto-supervisada con pares de imagen-texto extraídos de internet. Imagina una foto de Instagram y su leyenda o hashtags. No siempre es informativa o incluso está vinculada. Los autores del artículo describen principalmente el tema principal en la imagen, no la historia completa detrás de ella o el entorno y el texto que aparece en la imagen junto con el tema principal. Además, no mencionan dónde se ubica todo en la imagen, lo cual sería información útil para garantizar la recreación precisa de una imagen similar. Además, muchas leyendas son simplemente chistes o pensamientos no relacionados o poemas compartidos junto a las imágenes. En este punto, entrenar con tales…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Abacus AI presenta un nuevo modelo de lenguaje grande de contexto largo y abierto (LLM) Conoce a Giraffe

Los modelos de lenguaje recientes pueden tomar contextos largos como entrada; se necesita más información sobre cómo ...

Inteligencia Artificial

Generando más perspectivas de calidad por mes

En El mito del emprendedor Por qué la mayoría de los pequeños negocios no funcionan y qué hacer al respecto, Michael ...

Inteligencia Artificial

Cómo implementar la IA adaptativa en tu negocio.

La inteligencia artificial ha surgido como una tecnología poderosa que puede impulsar transformaciones sustanciales e...

Ciencia de Datos

Los modelos de lenguaje grandes tienen sesgos. ¿Puede la lógica ayudar a salvarlos?

Investigadores del MIT entrenaron modelos de lenguaje conscientes de la lógica para reducir estereotipos dañinos como...