Esta investigación de IA propone Kosmos-G un modelo de inteligencia artificial que realiza generación de imágenes de alta fidelidad de cero imágenes de visión generalizada con entrada de lenguaje utilizando la propiedad de los Multimodel LLMs.
Kosmos-G Un modelo de IA revolucionario que genera imágenes de alta fidelidad a partir de texto
Recientemente, ha habido avances significativos en la creación de imágenes a partir de descripciones de texto y en la combinación de texto e imágenes para generar nuevas. Sin embargo, un área inexplorada es la generación de imágenes a partir de entradas visuales y de lenguaje generalizadas (por ejemplo, generar una imagen a partir de una descripción de escena que involucra múltiples objetos y personas). Un equipo de investigadores de Microsoft Research, la Universidad de Nueva York y la Universidad de Waterloo presentó KOSMOS-G, un modelo que utiliza LLM multimodales para abordar este problema.
KOSMOS-G puede crear imágenes detalladas a partir de combinaciones complejas de texto y múltiples imágenes, incluso cuando no ha visto estos ejemplos. Es el primer modelo que puede generar imágenes en situaciones donde varios objetos o cosas están en las imágenes basado en una descripción. KOSMOS-G se puede utilizar en lugar de CLIP, lo que abre nuevas posibilidades para utilizar otras técnicas como ControlNet y LoRA en diversas aplicaciones.
KOSMOS-G utiliza un enfoque inteligente para generar imágenes a partir de texto e imágenes. Primero se entrena un LLM multimodal (que puede entender tanto texto como imágenes juntas), que luego se alinea con el codificador de texto CLIP (que es bueno para entender texto).
- GPT-4V(ision) de OpenAI Un avance en la frontera multimodal de la IA
- LangChain 101 Parte 2d. Afinando los LLM con Retroalimentación Humana
- Equidad en el aprendizaje automático (Parte 1)
Cuando le damos a KOSMOS-G una leyenda con texto e imágenes segmentadas, se entrena para crear imágenes que coincidan con la descripción y sigan las instrucciones. Esto lo hace utilizando un decodificador de imágenes pre-entrenado y aprovechando lo que ha aprendido de las imágenes para generar imágenes precisas en diferentes situaciones.
KOSMOS-G puede generar imágenes en función de instrucciones y datos de entrada. Tiene tres etapas de entrenamiento. En la primera etapa, el modelo se pre-entrena en corpus multimodales. En la segunda etapa, se entrena un AlignerNet para alinear el espacio de salida de KOSMOS-G con el espacio de entrada de U-Net a través de la supervisión de CLIP. En la tercera etapa, KOSMOS-G se ajusta mediante una tarea de generación composicional en datos curados. Durante la Etapa 1, solo se entrena el MLLM. En la Etapa 2, AlignerNet se entrena con MLLM congelado. Durante la Etapa 3, tanto AlignerNet como MLLM se entrenan conjuntamente. El decodificador de imágenes permanece congelado en todas las etapas.
KOSMOS-G es muy bueno en la generación de imágenes sin supervisión en diferentes configuraciones. Puede crear imágenes que tengan sentido, se vean bien y se puedan personalizar de diferentes maneras. Puede hacer cosas como cambiar el contexto, agregar un estilo particular, hacer modificaciones y agregar detalles adicionales a las imágenes. KOSMOS-G es el primer modelo en lograr VL2I de múltiples entidades en una configuración sin supervisión.
KOSMOS-G puede reemplazar fácilmente a CLIP en los sistemas de generación de imágenes. Esto abre nuevas y emocionantes posibilidades para aplicaciones que antes eran imposibles. Al construir sobre la base de CLIP, se espera que KOSMOS-G avance en el cambio de la generación de imágenes basada en texto a la generación de imágenes basada en una combinación de texto e información visual, creando oportunidades para muchas aplicaciones innovadoras.
En resumen, KOSMOS-G es un modelo que puede crear imágenes detalladas tanto a partir de texto como de múltiples imágenes. Utiliza una estrategia única llamada “alinear antes de instruir” en su entrenamiento. KOSMOS-G es bueno en la creación de imágenes de objetos individuales y es el primero en hacer esto con varios objetos. También puede reemplazar a CLIP y utilizarse con otras técnicas como ControlNet y LoRA para nuevas aplicaciones. En resumen, KOSMOS-G es un paso inicial para hacer imágenes como un lenguaje en la generación de imágenes.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Noticias VoAGI, 11 de octubre 3 proyectos de Ciencia de Datos para conseguir ese trabajo • 7 pasos para dominar el Procesamiento del Lenguaje Natural
- Toma el control NVIDIA NeMo SteerLM permite a las empresas personalizar las respuestas de un modelo durante la inferencia
- Indexa tu contenido rastreado en la web utilizando el nuevo Rastreador web para Amazon Kendra
- Los estados están pidiendo más clases de ciencias de la computación. Ahora necesitan maestros
- Geoffrey Hinton sobre la Promesa y los Riesgos de la IA Avanzada
- IA y Eficiencia Energética Una Revolución Sostenible
- Software detecta emociones ocultas en los padres