¿Cómo se construyó DALL·E 3? (El mejor modelo de texto a imagen de OpenAI)
¿Cómo fue creado DALL·E 3? (El asombroso modelo de texto a imagen de OpenAI)
Mejorando la Generación de Imágenes con Mejores Leyendas
Originalmente publicado en louisbouchard.ai, léelo 2 días antes en mi blog!
Mira el video:
El año pasado, quedamos impresionados con DALL·E 2, el primer modelo de texto a imagen súper impresionante de OpenAI. ¡Pero hoy, prepárate para sumergirte en un mundo donde el arte y la tecnología se fusionan como nunca antes con su tercera versión!
Adentrémonos en DALL·E 3 con un nuevo artículo que OpenAI acaba de lanzar y descubramos los avances que lo sitúan a años luz de DALL·E 2.
Entrenado en leyendas de imagen generadas altamente descriptivas, DALL·E 3 no solo sigue instrucciones, sino que les da vida. Los resultados son increíbles, y no solo entiende las instrucciones, sino que también comprende la historia detrás de la instrucción. El progreso desde 2020 es simplemente increíble.
- 7 plataformas para conseguir empleos de ciencia de datos de alto pago
- Si eres un entusiasta de los idiomas, necesitas conocer las capacidades multilingües de ChatGPT
- Doctran y LLMs Un poderoso dúo para analizar las quejas de los consumidores
En el corazón del poderío de DALL·E 3 está un robusto generador de leyendas de imagen. Todo se trata de las leyendas de imagen, por lo que el texto se incluye durante su entrenamiento, junto con la imagen que debería poder generar. Este nuevo generador de leyendas de imagen es el principal factor por el cual DALLE 3 es mucho mejor que DALLE 2. Los modelos anteriores se entrenaron inicialmente de manera auto-supervisada con pares de imagen-texto extraídos de internet. Imagina una foto de Instagram y su leyenda o hashtags. No siempre es informativa o incluso está vinculada. Los autores del artículo describen principalmente el tema principal en la imagen, no la historia completa detrás de ella o el entorno y el texto que aparece en la imagen junto con el tema principal. Además, no mencionan dónde se ubica todo en la imagen, lo cual sería información útil para garantizar la recreación precisa de una imagen similar. Además, muchas leyendas son simplemente chistes o pensamientos no relacionados o poemas compartidos junto a las imágenes. En este punto, entrenar con tales…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Gráfico del pensamiento Un nuevo paradigma para la resolución detallada de problemas en modelos de lenguaje grandes
- LLMOps la próxima frontera de MLOps
- Una introducción a la ingeniería de análisis
- Equilibrando la innovación y la sostenibilidad Desentrañando el impacto ambiental de la IA generativa
- Equilibrando la urgencia vs. la sostenibilidad como equipo de análisis
- Google Cloud se compromete a proteger a los clientes mediante indemnización de IA generativa
- Google AI presenta PaLI-3 un modelo de lenguaje de visión (VLM) más pequeño, rápido y potente que se compara favorablemente con modelos similares que son 10 veces más grandes.