Investigadores de KAIST proponen SyncDiffusion un módulo plug-and-play que sincroniza múltiples difusiones a través del descenso del gradiente desde una pérdida de similitud perceptual.

Investigadores de KAIST proponen SyncDiffusion un módulo plug-and-play que sincroniza múltiples difusiones para una pérdida de similitud perceptual ascendente a través del descenso del gradiente.

En un reciente artículo de investigación, un equipo de investigadores de KAIST presentó SYNCDIFFUSION, un módulo revolucionario que tiene como objetivo mejorar la generación de imágenes panorámicas utilizando modelos de difusión preentrenados. Los investigadores identificaron un problema significativo en la creación de imágenes panorámicas, que involucra principalmente la presencia de costuras visibles al unir múltiples imágenes de tamaño fijo. Para abordar este problema, propusieron SYNCDIFFUSION como solución.

La creación de imágenes panorámicas, aquellas con vistas amplias e inmersivas, plantea desafíos para los modelos de generación de imágenes, ya que generalmente están entrenados para producir imágenes de tamaño fijo. Al intentar generar panoramas, el enfoque ingenuo de unir múltiples imágenes a menudo resulta en costuras visibles y composiciones incoherentes. Este problema ha impulsado la necesidad de métodos innovadores para fusionar imágenes sin problemas y mantener la coherencia general.

Dos métodos destacados para generar imágenes panorámicas son la extrapolación secuencial de imágenes y la difusión conjunta. El primero implica generar un panorama final mediante la ampliación secuencial de una imagen dada, fijando la región superpuesta en cada paso. Sin embargo, este método a menudo tiene dificultades para producir panoramas realistas y tiende a introducir patrones repetitivos, lo que conduce a resultados poco ideales.

Por otro lado, la difusión conjunta realiza el proceso generativo inverso simultáneamente en múltiples vistas y promedia imágenes ruidosas intermedias en regiones superpuestas. Si bien este enfoque genera montajes sin costuras de manera efectiva, falla en mantener la consistencia de contenido y estilo en las vistas. Como resultado, a menudo combina imágenes con diferentes contenidos y estilos dentro de un solo panorama, lo que da como resultado salidas incoherentes.

Los investigadores presentaron SYNCDIFFUSION como un módulo que sincroniza múltiples difusiones mediante el uso de descenso de gradiente basado en una pérdida de similitud perceptual. La innovación radica en el uso de las imágenes denoiseadas predichas en cada paso de denoise para calcular el gradiente de la pérdida perceptual. Este enfoque proporciona una guía significativa para crear montajes coherentes, ya que garantiza que las imágenes se fusionen sin problemas mientras se mantiene la consistencia del contenido.

En una serie de experimentos utilizando SYNCDIFFUSION con el modelo Stable Diffusion 2.0, los investigadores encontraron que su método superó significativamente las técnicas anteriores. El estudio de usuarios realizado mostró una preferencia sustancial por SYNCDIFFUSION, con una tasa de preferencia del 66.35%, en comparación con el 33.65% del método anterior. Esta mejora marcada demuestra los beneficios prácticos de SYNCDIFFUSION en la generación de imágenes panorámicas coherentes.

SYNCDIFFUSION es una adición notable al campo de la generación de imágenes. Aborda eficazmente el desafío de generar imágenes panorámicas sin costuras y coherentes, que ha sido un problema persistente en el campo. Mediante la sincronización de múltiples difusiones y la aplicación de descenso de gradiente a partir de una pérdida de similitud perceptual, SYNCDIFFUSION mejora la calidad y coherencia de los panoramas generados. Como resultado, ofrece una herramienta valiosa para una amplia gama de aplicaciones que involucran la creación de imágenes panorámicas, y demuestra el potencial del descenso de gradiente para mejorar los procesos de generación de imágenes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Quién es Harry Potter? Dentro del método de ajuste fino de Microsoft Research para desaprender conceptos en LLMs

Los modelos de lenguaje grandes (LLMs) se entrenan regularmente con grandes cantidades de datos no etiquetados, lo qu...

Inteligencia Artificial

Los robots submarinos podrían abrir paso a un futuro de alta tecnología para la minería en aguas profundas

Renee Grogan, desarrolladora de soluciones mineras en Impossible Metals, visualiza a los robots submarinos como clave...

Aprendizaje Automático

Más allá de NeRFs (Parte Dos)

En el ámbito de la representación y el renderizado de escenas 3D, los campos de radiance neural (NeRFs) proporcionaro...

Investigación

Sensor de alcohol móvil para la muñeca podría impulsar la investigación sobre el consumo de alcohol.

Científicos de la Universidad Estatal de Pensilvania y de la Universidad de Carolina del Norte crearon un sensor de m...