Revolutionizando la síntesis de texto a imagen investigadores de UC Berkeley utilizan modelos de lenguaje grandes en un proceso de generación de dos etapas para mejorar el razonamiento espacial y del sentido común.

UC Berkeley researchers use large language models in a two-stage generation process to improve spatial reasoning and common sense in text-to-image synthesis.

Recientemente, se han desarrollado avances en la generación de texto a imagen a través de modelos de difusión que pueden sintetizar imágenes altamente realistas y diversas. Sin embargo, a pesar de sus impresionantes capacidades, los modelos de difusión, como Stable Diffusion, a menudo necesitan ayuda con indicaciones que requieren razonamiento espacial o de sentido común, lo que lleva a inexactitudes en las imágenes generadas.

Para abordar este desafío, un equipo de investigación de UC Berkeley y UCSF ha propuesto un nuevo enfoque LMD basado en LLM que mejora la comprensión de las indicaciones en la generación de texto a imagen. Han identificado escenarios, incluyendo negación, numeración, asignación de atributos y relaciones espaciales, donde Stable Diffusion se queda corto en comparación con LMD.

Los investigadores adoptaron una solución rentable para evitar el proceso costoso y que consume mucho tiempo de entrenar modelos de lenguaje grandes (LLMs) y modelos de difusión. Integraron LLMs congelados fuera de la estantería en modelos de difusión, lo que resultó en un proceso de generación de dos etapas que proporciona capacidades mejoradas de razonamiento espacial y de sentido común.

En la primera etapa, se adapta un LLM para funcionar como generador de diseño guiado por texto a través del aprendizaje en contexto. Cuando se le da una indicación de imagen, el LLM produce un diseño de escena que consiste en cajas delimitadoras y descripciones correspondientes. En la segunda etapa, un modelo de difusión está guiado por el diseño generado utilizando un controlador novedoso para generar imágenes. Ambas etapas emplean modelos pre-entrenados congelados sin ninguna optimización de parámetros para LLM o modelos de difusión.

LMD ofrece varias ventajas más allá de la mejora de la comprensión de las indicaciones. Permite la especificación de escena basada en diálogo de múltiples rondas, lo que permite a los usuarios proporcionar aclaraciones y modificaciones adicionales para cada indicación. Además, LMD puede manejar indicaciones en idiomas no compatibles con el modelo de difusión subyacente. Al incorporar un LLM que admite diálogo de múltiples rondas, los usuarios pueden consultar el LLM después de la generación inicial del diseño y recibir diseños actualizados para la generación de imágenes posteriores, facilitando solicitudes como agregar objetos o cambiar sus ubicaciones o descripciones.

Además, LMD acepta indicaciones no inglesas proporcionando un ejemplo de una indicación no inglesa con un diseño y descripción de fondo en inglés durante el aprendizaje en contexto. Esto permite que LMD genere diseños con descripciones en inglés, incluso cuando los modelos de difusión subyacentes carecen de soporte para el idioma dado.

Los investigadores validaron la superioridad de LMD comparándolo con el modelo de difusión base, Stable Diffusion 2.1, que utiliza LMD. Invitan a los lectores a explorar su trabajo para una evaluación integral y comparaciones adicionales.

En resumen, LMD presenta un nuevo enfoque para abordar las limitaciones de los modelos de difusión en seguir con precisión las indicaciones que requieren razonamiento espacial o de sentido común. Al incorporar LLMs congelados y emplear un proceso de generación de dos etapas, LMD mejora significativamente la comprensión de las indicaciones en las tareas de generación de texto a imagen. Ofrece capacidades adicionales, como la especificación de escena basada en diálogo y el manejo de indicaciones en idiomas no compatibles. El trabajo del equipo de investigación abre nuevas posibilidades para mejorar la precisión y la diversidad de las imágenes sintetizadas a través de la integración de modelos congelados disponibles comercialmente.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Innovaciones autónomas en un mundo incierto

Jonathan How y su equipo en el Laboratorio de Controles Aeroespaciales desarrollan algoritmos de planificación que pe...

Inteligencia Artificial

Tencent AI Lab presenta GPT4Video un modelo de lenguaje grande multimodal unificado para la comprensión de instrucciones y la generación consciente de seguridad.

El problema de comprensión y generación de videos ha sido abordado por investigadores del Laboratorio de IA de Tencen...

Inteligencia Artificial

Herramientas/Plataformas principales para la Optimización de Hiperparámetros 2023

Los hiperparámetros son parámetros utilizados para regular el comportamiento del algoritmo mientras crea el modelo. E...

Inteligencia Artificial

El Enfoque Principiado para las Etapas Tempranas de Clasificación

Es bien sabido que en los sistemas de recomendación, existen varias etapas para construir recomendaciones primero vie...

Inteligencia Artificial

Comparación de Frameworks de Aprendizaje Profundo

Descubre los principales marcos de trabajo de aprendizaje profundo para desarrolladores. Compara características, ren...

Inteligencia Artificial

De las palabras a los mundos Explorando la narración de videos con la descripción de video fina y detallada multimodal de IA

El lenguaje es el modo predominante de interacción humana, ofreciendo más que solo detalles complementarios a otras f...