Investigadores de UT Austin y UC Berkeley presentan Ambient Diffusion un marco de inteligencia artificial para entrenar/ajustar modelos de difusión dados solo datos corruptos como entrada.

Investigadores presentan Ambient Diffusion, un marco de IA para entrenar modelos de difusión con datos corruptos.

Para aprender distribuciones de alta dimensionalidad y resolver problemas inversos, los modelos de difusión generativa están emergiendo como marcos flexibles y potentes. Los modelos de base condicional de texto como Dalle-2, Latent Diffusion e Imagen han logrado un rendimiento notable en dominios de imágenes genéricas debido a varios avances recientes. Los modelos de difusión han demostrado recientemente su capacidad para memorizar muestras de su conjunto de entrenamiento. Además, un adversario con acceso de consulta simple al modelo puede obtener muestras del conjunto de datos, lo que plantea preocupaciones de privacidad, seguridad y derechos de autor.

Los investigadores presentan el primer marco basado en difusión que puede aprender una distribución desconocida a partir de muestras altamente contaminadas. Este problema surge en contextos científicos donde obtener muestras limpias es difícil o costoso. Debido a que los modelos generativos nunca están expuestos a datos de entrenamiento limpios, es menos probable que memoricen muestras de entrenamiento particulares. El concepto central es corromper aún más la imagen distorsionada original durante la difusión mediante la introducción de distorsión adicional en la medición y luego desafiar al modelo a predecir la imagen distorsionada original a partir de la otra imagen distorsionada. La investigación científica verifica que el enfoque genera modelos capaces de adquirir la expectativa condicional de la imagen sin corrupción completa a la luz de esta corrupción adicional en la medición. El relleno y la adquisición comprimida son dos métodos de corrupción que entran en esta generalización. Al entrenarlos en conjuntos de datos estándar de la industria, los científicos demuestran que sus modelos pueden aprender la distribución incluso cuando todas las muestras de entrenamiento faltan el 90% de sus píxeles. También demuestran que los modelos de base se pueden ajustar en conjuntos de datos corruptos pequeños y se puede aprender la distribución limpia sin memorizar el conjunto de entrenamiento.

Características destacadas

El concepto central de esta investigación es distorsionar aún más la imagen y obligar al modelo a predecir la imagen distorsionada a partir de la imagen.
Su enfoque entrena modelos de difusión utilizando datos de entrenamiento corruptos en conjuntos de datos populares (CelebA, CIFAR-10 y AFHQ).
Los investigadores proporcionan un muestreador aproximado para la distribución deseada p0(x0) basado en las expectativas condicionales aprendidas.
Según la investigación, se puede aprender una cantidad considerable sobre la distribución de las fotos originales, incluso si falta hasta el 90% de los píxeles. Obtienen mejores resultados que AmbientGAN y líneas de base naturales anteriores.
Sin ver una imagen limpia durante el entrenamiento, se demuestra que los modelos funcionan de manera similar o mejor que los modelos de difusión de vanguardia para manejar ciertos problemas inversos. Mientras que las líneas de base necesitan muchas etapas de difusión, los modelos solo necesitan un paso de predicción para realizar su tarea.
El enfoque se utiliza para refinar aún más los modelos de difusión preentrenados estándar en la comunidad de investigación. Es posible aprender distribuciones a partir de un pequeño número de muestras contaminadas, y el proceso de ajuste fino solo lleva unas pocas horas en una sola GPU.
Algunas muestras corruptas en un dominio diferente también se pueden utilizar para ajustar modelos de base como Deepfloyd’s IF.
Para cuantificar el efecto de aprendizaje, los investigadores comparan modelos entrenados con y sin corrupción mostrando la distribución de similitudes principales con las muestras de entrenamiento.
Se demuestra que los modelos entrenados en datos suficientemente distorsionados no retienen ningún conocimiento de los datos de entrenamiento originales. Evalúan el compromiso entre corrupción (que determina el nivel de memorización), datos de entrenamiento y calidad del generador aprendido.

Limitaciones

El nivel de corrupción es inversamente proporcional a la calidad del generador. El generador tiene menos probabilidades de aprender de la memoria cuando se aumenta el nivel de corrupción, pero a expensas de la calidad. La definición precisa de este compromiso sigue siendo un problema de investigación no resuelto. Y para estimar E[x0|xt] con los modelos entrenados, los investigadores probaron algoritmos de aproximación básicos en este trabajo.
Además, establecer suposiciones sobre la distribución de datos es necesario para brindar cualquier garantía estricta de privacidad con respecto a la protección de cualquier muestra de entrenamiento. El material suplementario muestra que el oráculo de restauración puede restaurar E precisamente [x0|xt], aunque los investigadores no proporcionan una técnica.
Este método no funcionará si las mediciones también contienen ruido. El uso de regularización SURE puede ayudar a la investigación futura a superar esta restricción.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de la Universidad Nacional de Singapur proponen Mind-Video una nueva herramienta de IA que utiliza datos de fMRI del cerebro para recrear imágenes de video

Investigadores de UT Austin y UC Berkeley presentan Ambient Diffusion un marco de inteligencia artificial para entrenar/ajustar modelos de difusión dados solo datos corruptos como entrada.

Was this article helpful?

Conoce a QLORA Un enfoque de ajuste eficiente que reduce el uso de memoria lo suficiente como para ajustar un modelo de 65B parámetros en una sola GPU de 48GB, preservando al mismo tiempo el rendimiento completo de la tarea de ajuste fino de 16 bits.

Investigadores de la Universidad Nacional de Singapur proponen Mind-Video una nueva herramienta de IA que utiliza datos de fMRI del cerebro para recrear imágenes de video

Inteligencia Artificial

Reinventando la experiencia de los datos Utilice la inteligencia artificial generativa y la arquitectura de datos moderna para desbloquear conocimientos.

UE busca liderar en el mundo del Metaverso y evitar la dominación de las grandes empresas tecnológicas

Una guía completa de Distributed Data Parallel (DDP)

Los creativos están luchando contra la inteligencia artificial con demandas legales

Aprendamos Inteligencia Artificial Juntos - Boletín de la Comunidad Towards AI #4

Robot inspirado en tortugas bebé puede nadar bajo la arena