Investigadores de Stanford y Salesforce AI presentan UniControl un modelo de difusión unificado para el control avanzado en la generación de imágenes de IA.

Investigadores de Stanford y Salesforce AI presentan UniControl un modelo de difusión unificado para el control avanzado en la generación de imágenes de IA.

Los modelos generativos fundamentales son una clase de modelos de inteligencia artificial diseñados para generar nuevos datos que se asemejen a un tipo específico de datos de entrada en los que se entrenaron. Estos modelos se utilizan a menudo en diversos campos, incluyendo el procesamiento del lenguaje natural, la visión por computadora, la generación de música, etc. Aprenden los patrones y estructuras subyacentes de los datos de entrenamiento y utilizan ese conocimiento para generar nuevos datos similares.

Los modelos generativos fundamentales tienen diversas aplicaciones, incluyendo la síntesis de imágenes, la generación de texto, los sistemas de recomendación, el descubrimiento de medicamentos y más. Continuamente están evolucionando, con investigadores trabajando en mejorar sus capacidades de generación, como generar resultados más diversos y de alta calidad, mejorar la controlabilidad y comprender las implicaciones éticas asociadas con su uso.

Investigadores de la Universidad de Stanford, la Universidad Northeastern y Salesforce AI Research crearon UniControl. Es un modelo de difusión unificado para la generación visual controlable en entornos salvajes, capaz de manejar simultáneamente el lenguaje y diversas condiciones visuales. UniControl puede realizar múltiples tareas y codificar condiciones visuales de diferentes tareas en un espacio de representación universal, buscando una estructura común entre las tareas. UniControl debe considerar una amplia gama de condiciones visuales de otras tareas y la indicación del lenguaje.

UniControl ofrece la creación de imágenes con una precisión pixel-perfect, donde los elementos visuales dan forma principalmente a las imágenes resultantes y las indicaciones del lenguaje direccionan el estilo y el contexto. Para mejorar la capacidad de UniControl para manejar diversos escenarios visuales, el equipo de investigación ha ampliado los modelos de difusión de texto a imagen preentrenados. Además, han incorporado un HyperNet consciente de la tarea que ajusta los modelos de difusión, permitiéndoles adaptarse a múltiples tareas de generación de imágenes basadas en diferentes condiciones visuales de manera simultánea.

Su modelo demuestra una comprensión más sutil de la orientación geométrica en 3D de los mapas de profundidad y las normales de la superficie que ControlNet. Las condiciones del mapa de profundidad producen resultados visiblemente más precisos. Durante las tareas de segmentación, openpose y cuadro del objeto, las imágenes generadas por su modelo están mejor alineadas con las condiciones dadas que las generadas por ControlNet, lo que asegura una mayor fidelidad a las indicaciones de entrada. Los resultados experimentales muestran que UniControl a menudo supera el rendimiento de los métodos controlados de una sola tarea con modelos de tamaño comparable.

UniControl unifica diversas condiciones visuales de ControlNet y es capaz de realizar aprendizaje sin ejemplos en tareas recién vistas. Actualmente, UniControl solo considera una única condición visual, pero sigue siendo capaz de realizar múltiples tareas y aprendizaje sin ejemplos. Esto destaca su versatilidad y su potencial para ser ampliamente adoptado en entornos salvajes.

Sin embargo, su modelo todavía hereda la limitación de los modelos de generación de imágenes basados ​​en difusión. Específicamente, está limitado por los datos de entrenamiento utilizados por los investigadores, obtenidos de un subconjunto de los conjuntos de datos de Laion-Aesthetics. Su conjunto de datos tiene sesgos. UniControl podría mejorarse si hubiera mejores conjuntos de datos de código abierto disponibles para evitar la creación de contenido sesgado, tóxico, sexualizado u otro contenido perjudicial.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Ha terminado la espera por Jurassic Park? Este modelo de IA utiliza la traducción de imagen a imagen para dar vida a los antiguos fósiles

La traducción de imagen a imagen (I2I) es un campo interesante dentro de la visión por computadora y el aprendizaje a...

Ciencia de Datos

La Inteligencia Artificial ayuda a mostrar cómo fluyen los líquidos del cerebro.

Un equipo de científicos creó mediciones de velocimetría basadas en inteligencia artificial para cuantificar el flujo...

Inteligencia Artificial

Limpieza con TidyBot

Un equipo multinstitucional de ingenieros acopló un brazo robótico móvil a un modelo de visión y a un gran modelo de ...

Inteligencia Artificial

Conoce a GPS-Gaussian Un nuevo enfoque de inteligencia artificial para sintetizar nuevas perspectivas de un personaje de forma en tiempo real.

Una función esencial de los sistemas de cámaras de múltiples vistas es la síntesis de vistas novedosas (NVS), que int...