Investigadores de KAIST y Google presentaron la destilación colaborativa de puntajes (CSD) un método de inteligencia artificial que amplía la singularidad del modelo de difusión de texto a imagen para una síntesis visual consistente.

Investigadores de KAIST y Google presentaron CSD, un método de IA que amplía la singularidad del modelo de difusión de texto a imagen para una síntesis visual consistente.

Los modelos de difusión de texto a imagen se han construido utilizando miles de millones de combinaciones de imágenes y texto, y topologías eficaces, demostrando capacidades sorprendentes en la síntesis de imágenes de alta calidad, realistas y diversas con el texto proporcionado como entrada. También se han expandido a varias aplicaciones, incluyendo la traducción de imagen a imagen, la creación controlada y la personalización. Uno de los usos más recientes en esta área es la capacidad de extender más allá de las imágenes 2D a otras modalidades complejas sin cambiar los modelos de difusión mediante el uso de datos de entrenamiento específicos de la modalidad. Este estudio tiene como objetivo abordar el desafío de utilizar el conocimiento de los modelos de difusión de texto a imagen pre-entrenados para desafiar cada vez más las tareas de generación visual de alta dimensionalidad más allá de las imágenes 2D sin cambiar los modelos de difusión utilizando datos de entrenamiento específicos de la modalidad.

Comienzan con la intuición de que muchos datos visuales complejos, incluyendo películas y entornos 3D, pueden ser representados como una colección de imágenes restringidas por una consistencia específica de una cierta modalidad. Por ejemplo, una escena 3D es una colección de fotogramas multivista con consistencia de vista, mientras que una película es una colección de fotogramas con consistencia temporal. Desafortunadamente, debido a que su método de muestreo generativo no considera la consistencia al utilizar el modelo de difusión de imagen, los modelos de difusión de imagen no están equipados con la capacidad de garantizar la consistencia en un grupo de imágenes para la síntesis o edición. Como resultado, cuando se aplican modelos de difusión de imágenes a estos datos complicados sin tener en cuenta la consistencia, el resultado podría ser más coherente, como se ve en la Figura 1 (Recorte por parches), donde está claro dónde se han unido las fotos.

Figura 1: Modificación de imágenes panorámicas: En los parches recortados de la parte superior derecha, Instruct-Pix2Pix produce ediciones de imágenes erráticas. (Tercera fila) Incluso con una escala guía y alta y, Instruct-Pix2Pix con MultiDiffusion edita una imagen consistente pero con menos fidelidad a la instrucción. En la tercera fila, al elegir la escala de guía adecuada, CSD-Edit ofrece una edición de imágenes consistente con una mayor fidelidad a la instrucción.

También se han visto este tipo de comportamientos en la edición de video. Por lo tanto, investigaciones posteriores han sugerido adoptar el modelo de difusión de imágenes para abordar la consistencia temporal específica del video. Aquí, llaman la atención sobre una estrategia novedosa llamada Muestreo de Destilación de Puntuación (SDS), que utiliza la rica prioridad generativa de los modelos de difusión de texto a imagen para optimizar cualquier operador diferenciable. Al condensar las puntuaciones de densidad de difusión aprendidas, SDS enmarca el desafío del muestreo generativo como un problema de optimización. Mientras que otros investigadores demostraron la eficacia de SDS en la producción de objetos 3D a partir del texto utilizando prioridades de Campos de Radiación Neural, que asumen una geometría coherente en el espacio 3D a través de la modelización de densidad, aún no se ha investigado para la síntesis visual coherente de otras modalidades.

En este estudio, los autores de KAIST y Google Research sugieren Collaborative Score Distillation (CSD), una técnica sencilla pero eficiente que amplía el potencial del modelo de difusión de texto a imagen para la síntesis visual fiable. La clave de su enfoque es doble: en primer lugar, utilizan el descenso de gradiente variacional de Stein (SVGD) para generalizar SDS haciendo que numerosas muestras compartan información obtenida de los modelos de difusión para lograr consistencia entre muestras. En segundo lugar, proporcionan CSD-Edit, una técnica potente para la edición visual consistente que combina CSD con el modelo de difusión de imagen guiado por instrucciones recientemente desarrollado Instruct-Pix2Pix.

Utilizan una variedad de aplicaciones, incluyendo la edición de imágenes panorámicas, la edición de video y la reconstrucción de escenas 3D, para mostrar la adaptabilidad de su metodología. Demuestran cómo CSD-alter puede alterar imágenes panorámicas con consistencia espacial maximizando varios parches de imagen. Además, su método logra un equilibrio superior entre la precisión de las instrucciones y la consistencia de la imagen fuente-objetivo en comparación con enfoques anteriores. En experimentos con la edición de video, CSD-Edit logra consistencia temporal optimizando numerosos fotogramas, lo que lleva a una edición de video consistente en el tiempo. También utilizan CSD-Edit para generar y editar escenas 3D, promoviendo la uniformidad entre diferentes puntos de vista.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Mejora Amazon Lex con características de preguntas frecuentes conversacionales utilizando LLMs

Amazon Lex es un servicio que te permite construir de manera rápida y sencilla bots conversacionales (chatbots), agen...

Inteligencia Artificial

Esta investigación de Aprendizaje Automático desarrolla un modelo de IA para eliminar de manera efectiva los sesgos en un conjunto de datos.

La recopilación de datos puede ser una oportunidad primordial para la introducción no intencionada de sesgos de textu...

Inteligencia Artificial

¡Gol! El equipo de NVIDIA se lleva el trofeo en Sistemas de Recomendación

Un equipo de cinco expertos en aprendizaje automático de NVIDIA, repartidos en cuatro continentes, ganó las tres tare...

Inteligencia Artificial

Inflection-1 La Próxima Frontera de la IA Personal

Presentamos Inflection-1 el LLM interno de Inflection.AI que utiliza Pi.ai y está adaptado a tus necesidades únicas.

Inteligencia Artificial

(Note 'Inpainting' is translated as 'relleno de imágenes' which means 'image filling')

¿Cómo se pueden completar de manera efectiva las secciones faltantes de una captura 3D? Este artículo de investigació...