Conoce DragonDiffusion un método de edición de imágenes de granulación fina que permite la manipulación estilo arrastrar en modelos de difusión.

Conoce DragonDiffusion, un método de edición de imágenes que permite la manipulación estilo arrastrar en modelos de difusión con granulación fina.

Los modelos de difusión de texto a imagen a gran escala (T2I), que tienen como objetivo generar imágenes condicionadas a un texto / promp determinado, han experimentado un rápido desarrollo gracias a la disponibilidad de grandes cantidades de datos de entrenamiento y capacidad informática masiva. No obstante, esta capacidad generativa es a menudo variada, lo que dificulta el desarrollo de indicaciones adecuadas para generar imágenes compatibles con lo que el usuario tiene en mente y la modificación posterior basada en imágenes existentes.

La edición de imágenes tiene requisitos más variados que la creación de imágenes. Dado que el espacio latente es pequeño y fácilmente manipulable, los métodos basados en GAN se han aplicado ampliamente en la edición de imágenes. Los modelos de difusión son más estables y generan salidas de mejor calidad que los modelos GAN.

Un nuevo artículo de investigación realizado por la Universidad de Pekín y el Laboratorio ARC, Tencent PCG, tiene como objetivo determinar si el modelo de difusión puede tener capacidades similares a las de arrastrar.

La dificultad fundamental para implementar esto requiere un espacio latente compacto y editable. Se han desarrollado muchos enfoques de edición de imágenes basados en la similitud entre estas propiedades de texto e imagen intermedias. Los estudios descubren una fuerte semejanza local entre las características de palabras y objetos en el mapa de atención cruzada, que se puede utilizar en la edición.

Aunque existe una correlación sólida entre las características del texto y las características de la imagen intermedia en el proceso de generación de difusión T2I a gran escala, también existe una correspondencia sólida entre las características de la imagen intermedia. Esta característica ha sido investigada en DIFT, demostrando que la correspondencia entre estas características es alta y permite la comparación directa de regiones similares entre imágenes. Debido a esta alta similitud entre los elementos de la imagen, el equipo utiliza este método para realizar modificaciones en la imagen.

Para adaptar la representación intermedia del modelo de difusión, los investigadores idean una estrategia basada en la guía del clasificador llamada DragonDiffusion que convierte las señales de edición en gradientes mediante la pérdida de correspondencia de características. El enfoque propuesto para la difusión utiliza dos grupos de características (es decir, características de guía y características de generación) en diferentes etapas. Con una correspondencia sólida de características de imagen como guía, revisan y refinan las características generadoras en función de las características de guía. La correspondencia sólida de características de imagen también ayuda a preservar la coherencia del contenido entre la imagen modificada y la original.

En este contexto, los investigadores también descubren que otro trabajo llamado Drag-Diffusion investiga el mismo tema simultáneamente. Utiliza LORA para que las cosas se vean como al principio, y mejora el proceso de edición optimizando un solo paso intermedio en el procedimiento de difusión. En lugar de ajustar o entrenar el modelo, como con DragDiffusion, el método propuesto en este trabajo se basa en la guía del clasificador, con todas las señales de edición y coherencia de contenido que provienen directamente de la imagen.

DragonDiffusion deriva todas las señales de modificación de contenido y preservación de la imagen original. Sin ajustes o entrenamiento adicionales del modelo, la capacidad de creación de T2I en modelos de difusión se puede transferir directamente a aplicaciones de edición de imágenes.

Pruebas extensivas muestran que el DragonDiffusion propuesto puede realizar una amplia gama de tareas de modificación de imagen detalladas, como cambiar el tamaño y reposicionar objetos, cambiar su apariencia y arrastrar su contenido.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

Conoce BITE Un Nuevo Método Que Reconstruye la Forma y Poses 3D de un Perro a Partir de una Imagen, Incluso con Poses Desafiantes como Sentado y Acostado.

Múltiples campos, incluyendo la biología y la conservación, así como el entretenimiento y el desarrollo de contenido ...

Inteligencia Artificial

Investigadores de Stanford y Microsoft presentan Inteligencia Artificial de Auto-Mejora Aprovechando GPT-4 para elevar el rendimiento del programa de andamiaje.

Casi todos los objetivos descritos en lenguaje natural pueden optimizarse mediante la consulta a un modelo de lenguaj...

Inteligencia Artificial

Sorprendente descubrimiento magnético revelado en el grafeno de ángulo mágico

Los imanes y los superconductores normalmente no se llevan bien, pero un nuevo estudio muestra que el grafeno de 'áng...

Inteligencia Artificial

Todas tus publicaciones en línea ahora pertenecen a la IA, afirma Google

En una actualización reciente de su política de privacidad, Google, reconocida a menudo por sus robustas herramientas...

Inteligencia Artificial

Cómo implementar la IA adaptativa en tu negocio.

La inteligencia artificial ha surgido como una tecnología poderosa que puede impulsar transformaciones sustanciales e...