Investigadores de Salesforce presentan XGen-Image-1 un modelo de difusión latente de texto a imagen entrenado para reutilizar varios componentes preentrenados.

Investigadores de Salesforce presentan XGen-Image-1, un modelo de difusión latente de texto a imagen entrenado para reutilizar componentes preentrenados.

La generación de imágenes ha surgido como un campo pionero dentro de la Inteligencia Artificial (IA), ofreciendo oportunidades sin precedentes en los ámbitos de marketing, ventas y comercio electrónico. Esta fusión de IA y creación de contenido visual significa un hito significativo, inaugurando una nueva era de comunicación digital y alterando fundamentalmente la forma en que las empresas interactúan con su audiencia. A medida que la tecnología evoluciona, la brecha entre el texto y las imágenes disminuye gradualmente, desbloqueando un mundo de potencial creativo.

En este panorama en constante evolución, el equipo de investigación de Salesforce presenta una innovación revolucionaria: XGen-Image-1. Este notable avance en IA generativa se enfoca específicamente en transformar texto en imágenes. Al aprovechar las capacidades de los modelos difusivos generativos de imágenes, XGen-Image-1 tiene el potencial de remodelar el ámbito visual. Producto de la ingeniosidad y experiencia, el entrenamiento del modelo, llevado a cabo con un presupuesto de $75,000 utilizando TPUs y el conjunto de datos LAION, representa un logro notable. Su rendimiento se asemeja al de los estimados modelos Stable Diffusion 1.5/2.1, que han liderado consistentemente el campo de generación de imágenes.

En el núcleo de los avances del equipo se encuentran descubrimientos transformadores. Una fusión de un modelo latente, el Autoencoder Variacional (VAE), con upsamplers fácilmente accesibles, toma protagonismo. Esta combinación innovadora permite el entrenamiento a resoluciones asombrosamente bajas como 32×32, al mismo tiempo que genera imágenes de alta resolución de 1024×1024 con facilidad. Esta innovación reduce significativamente los costos de entrenamiento sin comprometer la calidad de las imágenes. El hábil uso del muestreo automático de rechazo por parte del equipo, junto con la evaluación y refinamiento de PickScore durante la inferencia, representa un enfoque estratégico que impulsa mejoras sustanciales en los resultados. Este enfoque meticuloso produce consistentemente imágenes de alta calidad, fortaleciendo la confiabilidad de la tecnología.

Profundizando más, el equipo desglosa las capas intrincadas de su metodología. XGen-Image-1 adopta un enfoque de modelo de difusión latente, armonizando modelos de difusión basados en píxeles y basados en latentes. Mientras que los modelos basados en píxeles manipulan directamente píxeles individuales, los modelos basados en latentes aprovechan representaciones de imágenes codificadas automáticamente en un dominio espacial comprimido. La exploración del equilibrio entre la eficiencia del entrenamiento y la resolución culmina en la integración de modelos de autoencoding preentrenados y de upsampling de píxeles.

El papel de los datos es fundamental. El conjunto de datos LAION-2B, cuidadosamente curado en base a puntuaciones estéticas de 4.5 o más, forma la base del proceso de entrenamiento de XGen-Image-1. Este extenso conjunto de datos abarca una variedad de conceptos, alimentando la capacidad del modelo para generar imágenes diversas y realistas. La optimización de la infraestructura de entrenamiento utilizando TPU v4s subraya la capacidad innovadora del equipo para resolver problemas, demostrada por su hábil manejo de almacenamiento y desafíos de guardado de checkpoints.

La evaluación del rendimiento sirve como una prueba de fuego para las capacidades de XGen-Image-1. El análisis comparativo frente a los formidables modelos Stable Diffusion 1.5 y 2.1 subraya su destreza, con métricas superiores como CLIP Score y FID. Cabe destacar que el modelo destaca en alineación rápida y fotorealismo, superando a los modelos Stable Diffusion en puntuaciones FID y demostrando un rendimiento competitivo evaluado por humanos. La evaluación humana solidifica aún más su posición entre los modelos de mejor rendimiento. La integración del muestreo de rechazo emerge como una herramienta potente para refinar las salidas de imágenes, complementada con técnicas estratégicas como inpainting para mejorar elementos menos satisfactorios.

En esencia, la aparición de XGen-Image-1 subraya la dedicación inquebrantable del equipo de investigación de Salesforce a la innovación. Su fusión perfecta de modelos latentes, upsamplers y estrategias automatizadas ejemplifica el potencial de la inteligencia artificial generativa en la reconfiguración de paisajes creativos. A medida que el desarrollo continúa, las ideas del equipo están listas para dar forma a la trayectoria de la creación de imágenes impulsada por IA, allanando el camino para avances transformadores que resuenan en diversas industrias y audiencias.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickGenerative AILanguage ModelLarge Language ModelMachine LearningStaffTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Conoce a PUG una nueva investigación de IA de Meta AI sobre conjuntos de datos fotorrealistas y semánticamente controlables utilizando Unreal Engine para una evaluación de modelos robusta

Investigadores de Salesforce presentan XGen-Image-1 un modelo de difusión latente de texto a imagen entrenado para reutilizar varios componentes preentrenados.

Was this article helpful?

Investigadores de UC Santa Cruz proponen una nueva herramienta de prueba de asociación de texto a imagen que cuantifica los estereotipos implícitos entre conceptos y valencia y los presentes en las imágenes

Conoce a PUG una nueva investigación de IA de Meta AI sobre conjuntos de datos fotorrealistas y semánticamente controlables utilizando Unreal Engine para una evaluación de modelos robusta

Inteligencia Artificial

Sistema de inyección bacteriano entrega proteínas en ratones y células humanas.

Investigadores de Deepmind publican TAPIR de código abierto un nuevo modelo de IA para rastrear cualquier punto (TAP) que sigue eficazmente un punto de consulta en una secuencia de video.

¿Quién es Harry Potter? Dentro del método de ajuste fino de Microsoft Research para desaprender conceptos en LLMs

Meta presenta AudioCraft una herramienta de IA para convertir texto en audio y música

Artista Co-creatividad y colaboración entre computadoras y humanos en las artes

Construye aplicaciones de IA generativa listas para producción para la búsqueda empresarial utilizando tuberías de Haystack y Amazon SageMaker JumpStart con LLMs