Investigadores de Stanford y Salesforce AI presentan UniControl un modelo de difusión unificado para el control avanzado en la generación de imágenes de IA.
Investigadores de Stanford y Salesforce AI presentan UniControl un modelo de difusión unificado para el control avanzado en la generación de imágenes de IA.
Los modelos generativos fundamentales son una clase de modelos de inteligencia artificial diseñados para generar nuevos datos que se asemejen a un tipo específico de datos de entrada en los que se entrenaron. Estos modelos se utilizan a menudo en diversos campos, incluyendo el procesamiento del lenguaje natural, la visión por computadora, la generación de música, etc. Aprenden los patrones y estructuras subyacentes de los datos de entrenamiento y utilizan ese conocimiento para generar nuevos datos similares.
Los modelos generativos fundamentales tienen diversas aplicaciones, incluyendo la síntesis de imágenes, la generación de texto, los sistemas de recomendación, el descubrimiento de medicamentos y más. Continuamente están evolucionando, con investigadores trabajando en mejorar sus capacidades de generación, como generar resultados más diversos y de alta calidad, mejorar la controlabilidad y comprender las implicaciones éticas asociadas con su uso.
Investigadores de la Universidad de Stanford, la Universidad Northeastern y Salesforce AI Research crearon UniControl. Es un modelo de difusión unificado para la generación visual controlable en entornos salvajes, capaz de manejar simultáneamente el lenguaje y diversas condiciones visuales. UniControl puede realizar múltiples tareas y codificar condiciones visuales de diferentes tareas en un espacio de representación universal, buscando una estructura común entre las tareas. UniControl debe considerar una amplia gama de condiciones visuales de otras tareas y la indicación del lenguaje.
- El Embudo de Datos No Estructurados
- Cómo implementar la gestión de datos en tu estrategia de IA
- Automatiza la preetiquetado de PDFs para Amazon Comprehend
UniControl ofrece la creación de imágenes con una precisión pixel-perfect, donde los elementos visuales dan forma principalmente a las imágenes resultantes y las indicaciones del lenguaje direccionan el estilo y el contexto. Para mejorar la capacidad de UniControl para manejar diversos escenarios visuales, el equipo de investigación ha ampliado los modelos de difusión de texto a imagen preentrenados. Además, han incorporado un HyperNet consciente de la tarea que ajusta los modelos de difusión, permitiéndoles adaptarse a múltiples tareas de generación de imágenes basadas en diferentes condiciones visuales de manera simultánea.
Su modelo demuestra una comprensión más sutil de la orientación geométrica en 3D de los mapas de profundidad y las normales de la superficie que ControlNet. Las condiciones del mapa de profundidad producen resultados visiblemente más precisos. Durante las tareas de segmentación, openpose y cuadro del objeto, las imágenes generadas por su modelo están mejor alineadas con las condiciones dadas que las generadas por ControlNet, lo que asegura una mayor fidelidad a las indicaciones de entrada. Los resultados experimentales muestran que UniControl a menudo supera el rendimiento de los métodos controlados de una sola tarea con modelos de tamaño comparable.
UniControl unifica diversas condiciones visuales de ControlNet y es capaz de realizar aprendizaje sin ejemplos en tareas recién vistas. Actualmente, UniControl solo considera una única condición visual, pero sigue siendo capaz de realizar múltiples tareas y aprendizaje sin ejemplos. Esto destaca su versatilidad y su potencial para ser ampliamente adoptado en entornos salvajes.
Sin embargo, su modelo todavía hereda la limitación de los modelos de generación de imágenes basados en difusión. Específicamente, está limitado por los datos de entrenamiento utilizados por los investigadores, obtenidos de un subconjunto de los conjuntos de datos de Laion-Aesthetics. Su conjunto de datos tiene sesgos. UniControl podría mejorarse si hubiera mejores conjuntos de datos de código abierto disponibles para evitar la creación de contenido sesgado, tóxico, sexualizado u otro contenido perjudicial.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ‘Forza Horizon’ se precipita hacia GeForce NOW
- Varias filtraciones de datos en 23andMe
- Construyendo un Resumidor de Texto TFIDF de Plataforma Cruzada en Rust
- Modelos de Lenguaje Grandes y Bases de Datos Vectoriales para Recomendaciones de Noticias
- IA en la industria de la música ¿Cómo dará forma al metaverso musical y a los sonidos del futuro?
- La influencia oculta de la contaminación de datos en los grandes modelos de lenguaje
- Este documento de IA presenta BioCLIP aprovechando el conjunto de datos TreeOfLife-10M para transformar la visión por computadora en biología y conservación