Esta investigación de IA propone Kosmos-G un modelo de inteligencia artificial que realiza generación de imágenes de alta fidelidad de cero imágenes de visión generalizada con entrada de lenguaje utilizando la propiedad de los Multimodel LLMs.

Kosmos-G Un modelo de IA revolucionario que genera imágenes de alta fidelidad a partir de texto

Recientemente, ha habido avances significativos en la creación de imágenes a partir de descripciones de texto y en la combinación de texto e imágenes para generar nuevas. Sin embargo, un área inexplorada es la generación de imágenes a partir de entradas visuales y de lenguaje generalizadas (por ejemplo, generar una imagen a partir de una descripción de escena que involucra múltiples objetos y personas). Un equipo de investigadores de Microsoft Research, la Universidad de Nueva York y la Universidad de Waterloo presentó KOSMOS-G, un modelo que utiliza LLM multimodales para abordar este problema.

KOSMOS-G puede crear imágenes detalladas a partir de combinaciones complejas de texto y múltiples imágenes, incluso cuando no ha visto estos ejemplos. Es el primer modelo que puede generar imágenes en situaciones donde varios objetos o cosas están en las imágenes basado en una descripción. KOSMOS-G se puede utilizar en lugar de CLIP, lo que abre nuevas posibilidades para utilizar otras técnicas como ControlNet y LoRA en diversas aplicaciones.

KOSMOS-G utiliza un enfoque inteligente para generar imágenes a partir de texto e imágenes. Primero se entrena un LLM multimodal (que puede entender tanto texto como imágenes juntas), que luego se alinea con el codificador de texto CLIP (que es bueno para entender texto).

Cuando le damos a KOSMOS-G una leyenda con texto e imágenes segmentadas, se entrena para crear imágenes que coincidan con la descripción y sigan las instrucciones. Esto lo hace utilizando un decodificador de imágenes pre-entrenado y aprovechando lo que ha aprendido de las imágenes para generar imágenes precisas en diferentes situaciones.

KOSMOS-G puede generar imágenes en función de instrucciones y datos de entrada. Tiene tres etapas de entrenamiento. En la primera etapa, el modelo se pre-entrena en corpus multimodales. En la segunda etapa, se entrena un AlignerNet para alinear el espacio de salida de KOSMOS-G con el espacio de entrada de U-Net a través de la supervisión de CLIP. En la tercera etapa, KOSMOS-G se ajusta mediante una tarea de generación composicional en datos curados. Durante la Etapa 1, solo se entrena el MLLM. En la Etapa 2, AlignerNet se entrena con MLLM congelado. Durante la Etapa 3, tanto AlignerNet como MLLM se entrenan conjuntamente. El decodificador de imágenes permanece congelado en todas las etapas.

KOSMOS-G es muy bueno en la generación de imágenes sin supervisión en diferentes configuraciones. Puede crear imágenes que tengan sentido, se vean bien y se puedan personalizar de diferentes maneras. Puede hacer cosas como cambiar el contexto, agregar un estilo particular, hacer modificaciones y agregar detalles adicionales a las imágenes. KOSMOS-G es el primer modelo en lograr VL2I de múltiples entidades en una configuración sin supervisión.

KOSMOS-G puede reemplazar fácilmente a CLIP en los sistemas de generación de imágenes. Esto abre nuevas y emocionantes posibilidades para aplicaciones que antes eran imposibles. Al construir sobre la base de CLIP, se espera que KOSMOS-G avance en el cambio de la generación de imágenes basada en texto a la generación de imágenes basada en una combinación de texto e información visual, creando oportunidades para muchas aplicaciones innovadoras.

En resumen, KOSMOS-G es un modelo que puede crear imágenes detalladas tanto a partir de texto como de múltiples imágenes. Utiliza una estrategia única llamada “alinear antes de instruir” en su entrenamiento. KOSMOS-G es bueno en la creación de imágenes de objetos individuales y es el primero en hacer esto con varios objetos. También puede reemplazar a CLIP y utilizarse con otras técnicas como ControlNet y LoRA para nuevas aplicaciones. En resumen, KOSMOS-G es un paso inicial para hacer imágenes como un lenguaje en la generación de imágenes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

GitLab presenta Duo Chat una herramienta de IA conversacional para aumentar la productividad

En el desarrollo de software, los desarrolladores enfrentan frecuentemente desafíos al trabajar con código complejo o...

Inteligencia Artificial

Investigadores de Microsoft y la Universidad Bautista de Hong Kong presentan WizardCoder Un Code Evol-Instruct Fine-Tuned Code LLM.

Los Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés) han atraído recientemente mucho interés y han logrado...

Inteligencia Artificial

Búsqueda de Google en India ahora está impulsada por IA | Aprende cómo usarlo

Google ha desatado una innovación revolucionaria que redefinirá la forma en que los indios y japoneses exploran el va...

Inteligencia Artificial

Nueva investigación de IA de KAIST presenta FLASK un marco de evaluación de granularidad fina para modelos de lenguaje basado en conjuntos de habilidades

Increíblemente, los LLM han demostrado estar en sintonía con los valores humanos, brindando respuestas útiles, honest...

Inteligencia Artificial

La inteligencia artificial ayuda a los robots a manipular objetos con todo su cuerpo

Con una nueva técnica, un robot puede razonar eficientemente sobre objetos en movimiento utilizando más que solo sus ...