Conoce DragonDiffusion un método de edición de imágenes de granulación fina que permite la manipulación estilo arrastrar en modelos de difusión.
Conoce DragonDiffusion, un método de edición de imágenes que permite la manipulación estilo arrastrar en modelos de difusión con granulación fina.
Los modelos de difusión de texto a imagen a gran escala (T2I), que tienen como objetivo generar imágenes condicionadas a un texto / promp determinado, han experimentado un rápido desarrollo gracias a la disponibilidad de grandes cantidades de datos de entrenamiento y capacidad informática masiva. No obstante, esta capacidad generativa es a menudo variada, lo que dificulta el desarrollo de indicaciones adecuadas para generar imágenes compatibles con lo que el usuario tiene en mente y la modificación posterior basada en imágenes existentes.
La edición de imágenes tiene requisitos más variados que la creación de imágenes. Dado que el espacio latente es pequeño y fácilmente manipulable, los métodos basados en GAN se han aplicado ampliamente en la edición de imágenes. Los modelos de difusión son más estables y generan salidas de mejor calidad que los modelos GAN.
Un nuevo artículo de investigación realizado por la Universidad de Pekín y el Laboratorio ARC, Tencent PCG, tiene como objetivo determinar si el modelo de difusión puede tener capacidades similares a las de arrastrar.
- ¿Qué tan arriesgado es tu proyecto de LLM de código abierto? Una nueva investigación explica los factores de riesgo asociados con los LLM de código abierto.
- AI Ayuda al Gobierno en Prohibir las Conexiones Móviles Falsas
- OpenAI presenta Super Alignment Abriendo el camino para una IA segura y alineada
La dificultad fundamental para implementar esto requiere un espacio latente compacto y editable. Se han desarrollado muchos enfoques de edición de imágenes basados en la similitud entre estas propiedades de texto e imagen intermedias. Los estudios descubren una fuerte semejanza local entre las características de palabras y objetos en el mapa de atención cruzada, que se puede utilizar en la edición.
Aunque existe una correlación sólida entre las características del texto y las características de la imagen intermedia en el proceso de generación de difusión T2I a gran escala, también existe una correspondencia sólida entre las características de la imagen intermedia. Esta característica ha sido investigada en DIFT, demostrando que la correspondencia entre estas características es alta y permite la comparación directa de regiones similares entre imágenes. Debido a esta alta similitud entre los elementos de la imagen, el equipo utiliza este método para realizar modificaciones en la imagen.
Para adaptar la representación intermedia del modelo de difusión, los investigadores idean una estrategia basada en la guía del clasificador llamada DragonDiffusion que convierte las señales de edición en gradientes mediante la pérdida de correspondencia de características. El enfoque propuesto para la difusión utiliza dos grupos de características (es decir, características de guía y características de generación) en diferentes etapas. Con una correspondencia sólida de características de imagen como guía, revisan y refinan las características generadoras en función de las características de guía. La correspondencia sólida de características de imagen también ayuda a preservar la coherencia del contenido entre la imagen modificada y la original.
En este contexto, los investigadores también descubren que otro trabajo llamado Drag-Diffusion investiga el mismo tema simultáneamente. Utiliza LORA para que las cosas se vean como al principio, y mejora el proceso de edición optimizando un solo paso intermedio en el procedimiento de difusión. En lugar de ajustar o entrenar el modelo, como con DragDiffusion, el método propuesto en este trabajo se basa en la guía del clasificador, con todas las señales de edición y coherencia de contenido que provienen directamente de la imagen.
DragonDiffusion deriva todas las señales de modificación de contenido y preservación de la imagen original. Sin ajustes o entrenamiento adicionales del modelo, la capacidad de creación de T2I en modelos de difusión se puede transferir directamente a aplicaciones de edición de imágenes.
Pruebas extensivas muestran que el DragonDiffusion propuesto puede realizar una amplia gama de tareas de modificación de imagen detalladas, como cambiar el tamaño y reposicionar objetos, cambiar su apariencia y arrastrar su contenido.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Conoce a KITE Un marco de inteligencia artificial para la manipulación semántica utilizando puntos clave como representación para el enlace visual y la inferencia precisa de acciones.
- El costo oculto de los problemas de calidad de datos en el retorno de la inversión publicitaria.
- Operaciones de Matrices y Vectores en Regresión Logística
- DataHour Reducción del 80% de las alucinaciones de ChatGPT
- Pic2Word Mapeo de imágenes a palabras para la recuperación de imágenes compuestas sin entrenamiento previo.
- La IA combate la plaga de los desechos espaciales
- Fiber Óptica Pantalones Inteligentes Ofrecen una Forma de Bajo Costo para Monitorear Movimientos