¿Cómo deberíamos almacenar imágenes de IA? Investigadores de Google proponen un método de compresión de imágenes utilizando modelos generativos basados en puntuación

Investigadores de Google proponen un método de compresión de imágenes utilizando modelos generativos basados en puntuación.

Hace un año, generar imágenes realistas con IA era un sueño. Nos impresionaba ver caras generadas que se parecían a las reales, a pesar de que la mayoría de las salidas tenían tres ojos, dos narices, etc. Sin embargo, las cosas cambiaron rápidamente con el lanzamiento de los modelos de difusión. Hoy en día, es difícil distinguir una imagen generada por IA de una real.

La capacidad de generar imágenes de alta calidad es una parte de la ecuación. Si quisiéramos utilizarlas adecuadamente, comprimirlas de manera eficiente juega un papel esencial en tareas como la generación de contenido, almacenamiento de datos, transmisión y optimización del ancho de banda. Sin embargo, la compresión de imágenes ha dependido predominantemente de métodos tradicionales como la codificación de transformadas y las técnicas de cuantización, con una exploración limitada de modelos generativos.

A pesar de su éxito en la generación de imágenes, los modelos de difusión y los modelos generativos basados en puntuación aún no han surgido como los enfoques principales para la compresión de imágenes, quedando rezagados detrás de los métodos basados en GAN. A menudo tienen peor rendimiento o están a la par con los enfoques basados en GAN como HiFiC en imágenes de alta resolución. Incluso los intentos de adaptar modelos de texto a imagen para la compresión de imágenes han dado resultados insatisfactorios, produciendo reconstrucciones que se desvían de la entrada original o contienen artefactos indeseables.

La brecha entre el rendimiento de los modelos generativos basados en puntuación en tareas de generación de imágenes y su éxito limitado en la compresión de imágenes plantea preguntas intrigantes y motiva una investigación más profunda. Es sorprendente que los modelos capaces de generar imágenes de alta calidad no hayan logrado superar a las GAN en la tarea específica de compresión de imágenes. Esta discrepancia sugiere que puede haber desafíos y consideraciones únicas al aplicar modelos generativos basados en puntuación a tareas de compresión, lo que requiere enfoques especializados para aprovechar todo su potencial.

Entonces sabemos que existe un potencial para utilizar modelos generativos basados en puntuación en la compresión de imágenes. La pregunta es, ¿cómo se puede hacer? Vamos a ver la respuesta.

Investigadores de Google propusieron un método que combina un autoencoder estándar, optimizado para el error cuadrático medio (MSE), con un proceso de difusión para recuperar y añadir detalles finos descartados por el autoencoder. La tasa de bits para codificar una imagen está determinada únicamente por el autoencoder, ya que el proceso de difusión no requiere bits adicionales. Al ajustar los modelos de difusión específicamente para la compresión de imágenes, se demuestra que pueden superar a varios enfoques generativos recientes en términos de calidad de imagen.

El método propuesto puede preservar detalles mucho mejor en comparación con los enfoques más avanzados. Fuente: https://arxiv.org/pdf/2305.18231.pdf

El método explora dos enfoques estrechamente relacionados: los modelos de difusión, que muestran un rendimiento impresionante pero requieren un gran número de pasos de muestreo, y los flujos rectificados, que funcionan mejor cuando se permiten menos pasos de muestreo.

El enfoque de dos pasos consiste en codificar primero la imagen de entrada utilizando el autoencoder optimizado para el MSE y luego aplicar el proceso de difusión o los flujos rectificados para mejorar la realidad de la reconstrucción. El modelo de difusión utiliza un programa de ruido que se desplaza en la dirección opuesta en comparación con los modelos de texto a imagen, priorizando los detalles sobre la estructura global. Por otro lado, el modelo de flujo rectificado aprovecha el emparejamiento proporcionado por el autoencoder para mapear directamente las salidas del autoencoder a imágenes sin comprimir.

Descripción general del modelo HFD propuesto. Fuente: https://arxiv.org/pdf/2305.18231.pdf

Además, el estudio reveló detalles específicos que pueden ser útiles para futuras investigaciones en este campo. Por ejemplo, se muestra que el programa de ruido y la cantidad de ruido inyectado durante la generación de imágenes tienen un impacto significativo en los resultados. Curiosamente, mientras que los modelos de texto a imagen se benefician de niveles más altos de ruido al entrenar con imágenes de alta resolución, se encontró que reducir el ruido general del proceso de difusión es ventajoso para la compresión. Este ajuste permite que el modelo se enfoque más en los detalles finos, ya que los detalles gruesos ya son capturados adecuadamente por la reconstrucción del autoencoder.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de NTU Singapur proponen OtterHD-8B un innovador modelo de IA multimodal evolucionado a partir de Fuyu-8B

Investigadores de S-Lab, Universidad Tecnológica de Nanyang, Singapur, presentan OtterHD-8B, un innovador modelo mult...

Inteligencia Artificial

Esta investigación de IA revela el LSS Transformer Un enfoque revolucionario de IA para el entrenamiento eficiente de secuencias largas en los Transformers.

Una nueva investigación de IA ha presentado el Long Short-Sequence Transformer (LSS Transformer), un método eficiente...

Inteligencia Artificial

Conoce a WebAgent el nuevo LLM de DeepMind que sigue instrucciones y completa tareas en sitios web

La integración entre modelos de lenguaje grandes (LLMs) y sitios web es una de las áreas que puede desbloquear una nu...

Ciencia de Datos

META's Hiera reduce la complejidad para aumentar la precisión.

Las redes convolucionales han dominado el campo de la visión por computadora durante más de veinte años. Con la llega...

Inteligencia Artificial

La Declaración de Bletchley de los países que asistieron a la Cumbre de Seguridad de la IA

Damos la bienvenida a los esfuerzos internacionales pertinentes para examinar y abordar el posible impacto de los sis...