Esta investigación de IA propone Kosmos-G un modelo de inteligencia artificial que realiza generación de imágenes de alta fidelidad de cero imágenes de visión generalizada con entrada de lenguaje utilizando la propiedad de los Multimodel LLMs.

Kosmos-G Un modelo de IA revolucionario que genera imágenes de alta fidelidad a partir de texto

Recientemente, ha habido avances significativos en la creación de imágenes a partir de descripciones de texto y en la combinación de texto e imágenes para generar nuevas. Sin embargo, un área inexplorada es la generación de imágenes a partir de entradas visuales y de lenguaje generalizadas (por ejemplo, generar una imagen a partir de una descripción de escena que involucra múltiples objetos y personas). Un equipo de investigadores de Microsoft Research, la Universidad de Nueva York y la Universidad de Waterloo presentó KOSMOS-G, un modelo que utiliza LLM multimodales para abordar este problema.

KOSMOS-G puede crear imágenes detalladas a partir de combinaciones complejas de texto y múltiples imágenes, incluso cuando no ha visto estos ejemplos. Es el primer modelo que puede generar imágenes en situaciones donde varios objetos o cosas están en las imágenes basado en una descripción. KOSMOS-G se puede utilizar en lugar de CLIP, lo que abre nuevas posibilidades para utilizar otras técnicas como ControlNet y LoRA en diversas aplicaciones.

KOSMOS-G utiliza un enfoque inteligente para generar imágenes a partir de texto e imágenes. Primero se entrena un LLM multimodal (que puede entender tanto texto como imágenes juntas), que luego se alinea con el codificador de texto CLIP (que es bueno para entender texto).

Cuando le damos a KOSMOS-G una leyenda con texto e imágenes segmentadas, se entrena para crear imágenes que coincidan con la descripción y sigan las instrucciones. Esto lo hace utilizando un decodificador de imágenes pre-entrenado y aprovechando lo que ha aprendido de las imágenes para generar imágenes precisas en diferentes situaciones.

KOSMOS-G puede generar imágenes en función de instrucciones y datos de entrada. Tiene tres etapas de entrenamiento. En la primera etapa, el modelo se pre-entrena en corpus multimodales. En la segunda etapa, se entrena un AlignerNet para alinear el espacio de salida de KOSMOS-G con el espacio de entrada de U-Net a través de la supervisión de CLIP. En la tercera etapa, KOSMOS-G se ajusta mediante una tarea de generación composicional en datos curados. Durante la Etapa 1, solo se entrena el MLLM. En la Etapa 2, AlignerNet se entrena con MLLM congelado. Durante la Etapa 3, tanto AlignerNet como MLLM se entrenan conjuntamente. El decodificador de imágenes permanece congelado en todas las etapas.

KOSMOS-G es muy bueno en la generación de imágenes sin supervisión en diferentes configuraciones. Puede crear imágenes que tengan sentido, se vean bien y se puedan personalizar de diferentes maneras. Puede hacer cosas como cambiar el contexto, agregar un estilo particular, hacer modificaciones y agregar detalles adicionales a las imágenes. KOSMOS-G es el primer modelo en lograr VL2I de múltiples entidades en una configuración sin supervisión.

KOSMOS-G puede reemplazar fácilmente a CLIP en los sistemas de generación de imágenes. Esto abre nuevas y emocionantes posibilidades para aplicaciones que antes eran imposibles. Al construir sobre la base de CLIP, se espera que KOSMOS-G avance en el cambio de la generación de imágenes basada en texto a la generación de imágenes basada en una combinación de texto e información visual, creando oportunidades para muchas aplicaciones innovadoras.

En resumen, KOSMOS-G es un modelo que puede crear imágenes detalladas tanto a partir de texto como de múltiples imágenes. Utiliza una estrategia única llamada “alinear antes de instruir” en su entrenamiento. KOSMOS-G es bueno en la creación de imágenes de objetos individuales y es el primero en hacer esto con varios objetos. También puede reemplazar a CLIP y utilizarse con otras técnicas como ControlNet y LoRA para nuevas aplicaciones. En resumen, KOSMOS-G es un paso inicial para hacer imágenes como un lenguaje en la generación de imágenes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsAI StartupsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Esta investigación de IA propone Kosmos-G un modelo de inteligencia artificial que realiza generación de imágenes de alta fidelidad de cero imágenes de visión generalizada con entrada de lenguaje utilizando la propiedad de los Multimodel LLMs.

Was this article helpful?

GPT-4V(ision) de OpenAI Un avance en la frontera multimodal de la IA

Liderando con datos Construyendo una organización impulsada por datos con Srikanth Velamakanni

Inteligencia Artificial

GitLab presenta Duo Chat una herramienta de IA conversacional para aumentar la productividad

Investigadores de Microsoft y la Universidad Bautista de Hong Kong presentan WizardCoder Un Code Evol-Instruct Fine-Tuned Code LLM.

Búsqueda de Google en India ahora está impulsada por IA | Aprende cómo usarlo

Nueva investigación de IA de KAIST presenta FLASK un marco de evaluación de granularidad fina para modelos de lenguaje basado en conjuntos de habilidades

La inteligencia artificial ayuda a los robots a manipular objetos con todo su cuerpo

Investigadores de Stanford presentan un novedoso método de inteligencia artificial que puede descomponer eficaz y eficientemente el sombreado en una representación estructurada en forma de árbol'.