Investigadores de KAIST y Google presentaron la destilación colaborativa de puntajes (CSD) un método de inteligencia artificial que amplía la singularidad del modelo de difusión de texto a imagen para una síntesis visual consistente.

Investigadores de KAIST y Google presentaron CSD, un método de IA que amplía la singularidad del modelo de difusión de texto a imagen para una síntesis visual consistente.

Los modelos de difusión de texto a imagen se han construido utilizando miles de millones de combinaciones de imágenes y texto, y topologías eficaces, demostrando capacidades sorprendentes en la síntesis de imágenes de alta calidad, realistas y diversas con el texto proporcionado como entrada. También se han expandido a varias aplicaciones, incluyendo la traducción de imagen a imagen, la creación controlada y la personalización. Uno de los usos más recientes en esta área es la capacidad de extender más allá de las imágenes 2D a otras modalidades complejas sin cambiar los modelos de difusión mediante el uso de datos de entrenamiento específicos de la modalidad. Este estudio tiene como objetivo abordar el desafío de utilizar el conocimiento de los modelos de difusión de texto a imagen pre-entrenados para desafiar cada vez más las tareas de generación visual de alta dimensionalidad más allá de las imágenes 2D sin cambiar los modelos de difusión utilizando datos de entrenamiento específicos de la modalidad.

Comienzan con la intuición de que muchos datos visuales complejos, incluyendo películas y entornos 3D, pueden ser representados como una colección de imágenes restringidas por una consistencia específica de una cierta modalidad. Por ejemplo, una escena 3D es una colección de fotogramas multivista con consistencia de vista, mientras que una película es una colección de fotogramas con consistencia temporal. Desafortunadamente, debido a que su método de muestreo generativo no considera la consistencia al utilizar el modelo de difusión de imagen, los modelos de difusión de imagen no están equipados con la capacidad de garantizar la consistencia en un grupo de imágenes para la síntesis o edición. Como resultado, cuando se aplican modelos de difusión de imágenes a estos datos complicados sin tener en cuenta la consistencia, el resultado podría ser más coherente, como se ve en la Figura 1 (Recorte por parches), donde está claro dónde se han unido las fotos.

**Figura 1:** Modificación de imágenes panorámicas: En los parches recortados de la parte superior derecha, Instruct-Pix2Pix produce ediciones de imágenes erráticas. (Tercera fila) Incluso con una escala guía y alta y, Instruct-Pix2Pix con MultiDiffusion edita una imagen consistente pero con menos fidelidad a la instrucción. En la tercera fila, al elegir la escala de guía adecuada, CSD-Edit ofrece una edición de imágenes consistente con una mayor fidelidad a la instrucción.

También se han visto este tipo de comportamientos en la edición de video. Por lo tanto, investigaciones posteriores han sugerido adoptar el modelo de difusión de imágenes para abordar la consistencia temporal específica del video. Aquí, llaman la atención sobre una estrategia novedosa llamada Muestreo de Destilación de Puntuación (SDS), que utiliza la rica prioridad generativa de los modelos de difusión de texto a imagen para optimizar cualquier operador diferenciable. Al condensar las puntuaciones de densidad de difusión aprendidas, SDS enmarca el desafío del muestreo generativo como un problema de optimización. Mientras que otros investigadores demostraron la eficacia de SDS en la producción de objetos 3D a partir del texto utilizando prioridades de Campos de Radiación Neural, que asumen una geometría coherente en el espacio 3D a través de la modelización de densidad, aún no se ha investigado para la síntesis visual coherente de otras modalidades.

En este estudio, los autores de KAIST y Google Research sugieren Collaborative Score Distillation (CSD), una técnica sencilla pero eficiente que amplía el potencial del modelo de difusión de texto a imagen para la síntesis visual fiable. La clave de su enfoque es doble: en primer lugar, utilizan el descenso de gradiente variacional de Stein (SVGD) para generalizar SDS haciendo que numerosas muestras compartan información obtenida de los modelos de difusión para lograr consistencia entre muestras. En segundo lugar, proporcionan CSD-Edit, una técnica potente para la edición visual consistente que combina CSD con el modelo de difusión de imagen guiado por instrucciones recientemente desarrollado Instruct-Pix2Pix.

Utilizan una variedad de aplicaciones, incluyendo la edición de imágenes panorámicas, la edición de video y la reconstrucción de escenas 3D, para mostrar la adaptabilidad de su metodología. Demuestran cómo CSD-alter puede alterar imágenes panorámicas con consistencia espacial maximizando varios parches de imagen. Además, su método logra un equilibrio superior entre la precisión de las instrucciones y la consistencia de la imagen fuente-objetivo en comparación con enfoques anteriores. En experimentos con la edición de video, CSD-Edit logra consistencia temporal optimizando numerosos fotogramas, lo que lleva a una edición de video consistente en el tiempo. También utilizan CSD-Edit para generar y editar escenas 3D, promoviendo la uniformidad entre diferentes puntos de vista.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de KAIST y Google presentaron la destilación colaborativa de puntajes (CSD) un método de inteligencia artificial que amplía la singularidad del modelo de difusión de texto a imagen para una síntesis visual consistente.

Was this article helpful?

Un ejército de autores está instando a las empresas de IA a dejar de entrenar modelos con su trabajo

Nuevo método de IA de Microsoft para predecir cómo se mueven y funcionan las moléculas

Inteligencia Artificial

Mejora Amazon Lex con características de preguntas frecuentes conversacionales utilizando LLMs

Investigadores de Apple proponen la política de aprendizaje por refuerzo del modelo de lenguaje grande (LLaRP, por sus siglas en inglés) Enfoque de IA mediante el cual los LLM pueden adaptarse para actuar como políticas generalizables para tareas visuales

Esta investigación de Aprendizaje Automático desarrolla un modelo de IA para eliminar de manera efectiva los sesgos en un conjunto de datos.

¡Gol! El equipo de NVIDIA se lleva el trofeo en Sistemas de Recomendación

Inflection-1 La Próxima Frontera de la IA Personal

(Note 'Inpainting' is translated as 'relleno de imágenes' which means 'image filling')