Investigadores del MIT introducen la técnica de Restart Sampling para mejorar los procesos generativos.
MIT researchers introduce Restart Sampling technique to improve generative processes.
Los modelos generativos profundos basados en ecuaciones diferenciales han surgido recientemente como herramientas de modelado potentes para datos de alta dimensión en campos que van desde la síntesis de imágenes hasta la biología. Estos modelos resuelven ecuaciones diferenciales iterativamente en reversa, transformando finalmente una distribución básica (como una gaussiana en modelos de difusión) en una distribución de datos complicada.
Los estudios han categorizado los muestreadores previos que pueden modelar estos procesos reversibles en dos tipos:
- Muestreadores ODE, cuya evolución es determinista después de la aleatorización inicial
- Muestreadores SDE, cuyas trayectorias de generación son estocásticas.
Varias publicaciones proporcionan evidencia de que estos muestreadores exhiben beneficios en diversos entornos. Los errores de discretización más pequeños producidos por los solucionadores ODE permiten una calidad de muestra utilizable incluso con tamaños de paso más grandes. Sin embargo, la calidad de sus descendientes se estabiliza rápidamente. Por otro lado, SDE mejora la calidad en el régimen de gran NFE, pero a costa de más tiempo de muestreo.
- Microsoft Research presenta phi-1 un nuevo modelo de lenguaje grande especializado en la codificación de Python con un tamaño significativamente más pequeño que los modelos competidores.
- Investigadores de Princeton presentan Infinigen un generador procedural de escenas tridimensionales fotorrealistas del mundo natural.
- Una nueva investigación de IA de Stanford, Cornell y Oxford presenta un modelo generativo que descubre intrínsecos de objetos a partir de solo unas pocas instancias en una sola imagen.
Inspirados en esto, los investigadores del MIT desarrollaron una nueva técnica de muestreo llamada Restart, que combina los beneficios de ODE y SDE. El algoritmo de muestreo Restart consiste en K iteraciones de dos subrutinas en una cantidad fija de tiempo: un proceso directo de Reinicio que introduce una gran cantidad de ruido, “reiniciando” efectivamente el proceso inverso original, y un proceso inverso de Reinicio que ejecuta el ODE inverso.
El algoritmo de Reinicio desacopla la aleatoriedad y las derivas, y la cantidad de ruido agregado en el proceso directo de Reinicio es mucho mayor que el pequeño ruido de un solo paso que se intercala con las derivas en SDE anteriores, lo que aumenta el efecto de contracción en los errores acumulados. El efecto de constricción introducido en cada iteración de Reinicio se refuerza mediante ciclos hacia adelante y hacia atrás K veces. Restart puede reducir los errores de discretización y lograr tamaños de paso similares a los de ODE gracias a sus procesos inversos deterministas. En realidad, el intervalo de Reinicio se coloca a menudo al final de la simulación, donde el error acumulado es mayor, para aprovechar al máximo los efectos de contracción. Además, se utilizan múltiples períodos de Reinicio para actividades más difíciles para reducir los errores tempranos.
Los resultados experimentales muestran que, en diversos NFE, conjuntos de datos y modelos pre-entrenados, Restart supera a los solucionadores ODE y SDE de vanguardia en calidad y velocidad. En particular, en CIFAR-10 con VP, Restart logra una aceleración de 10 veces en comparación con los SDE de mejor rendimiento anterior, y en ImageNet 64×64 con EDM, una aceleración de 2 veces mientras también supera a los solucionadores ODE en el régimen de pequeño NFE.
Los investigadores también aplican Restart a un modelo de difusión estable pre-entrenado en imágenes LAION 512 x 512 para traducir texto a imágenes. Restart mejora los muestreadores previos al encontrar un mejor equilibrio entre la alineación texto-imagen/calidad visual (evaluada por puntuaciones CLIP/Aesthetic) y la diversidad (medida por puntuaciones FID) con una fuerza de guía variable sin clasificador.
Para aprovechar al máximo el potencial del marco de Reinicio, el equipo planea construir un método más moral en el futuro para seleccionar automáticamente hiperparámetros apropiados para Restart basados en el análisis de errores de los modelos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Abordando la brecha de generalización del AI Investigadores de University College London proponen Spawrious – una suite de referencia de clasificación de imágenes que contiene correlaciones espurias entre clases y fondos.
- Revolutionizando la síntesis de texto a imagen investigadores de UC Berkeley utilizan modelos de lenguaje grandes en un proceso de generación de dos etapas para mejorar el razonamiento espacial y del sentido común.
- Investigadores de la Universidad de Surrey lanzan una herramienta revolucionaria de detección de objetos basada en bocetos en el aprendizaje automático.
- Investigadores de LinkedIn y UC Berkeley proponen un nuevo método para detectar fotos de perfil generadas por IA.
- El Avance Computacional Ayudará a los Investigadores a Modelar el Clima con Mayor Fidelidad.
- Perro Robot Hace Moonwalk al Estilo MJ Esta Investigación de IA Propone Utilizar Recompensas Representadas en Código como una Interfaz Flexible Entre LLMs y un Controlador de Movimiento Basado en Optimización.
- La IA responsable en Google Research IA para el bien social