Investigadores del MIT y de FAIR Meta revelan RCG (Generación de imágenes condicionadas por la representación) un innovador marco de IA en la generación de imágenes sin condiciones de clase.

Investigadores del MIT y de FAIR Meta revelan RCG (Condicionamiento de Imágenes por Representación) un marco innovador de IA en la generación de imágenes sin restricciones de clase.

¿Cómo se pueden generar imágenes de alta calidad sin depender de las anotaciones humanas? Este paper del MIT CSAIL y FAIR Meta ha abordado el desafío de generar imágenes de alta calidad sin depender de las anotaciones humanas. Han introducido un nuevo marco llamado Generación de Imágenes Condicionadas por Representación (RCG) que utiliza una distribución de representación auto-supervisada obtenida de la distribución de imágenes a través de un codificador pre-entrenado. Este marco ha logrado resultados superiores en la generación de imágenes incondicional y es competitivo con los métodos líderes en la generación de imágenes condicionales.

Históricamente, el aprendizaje supervisado dominaba la visión por computadora, pero los métodos de aprendizaje auto-supervisado como el aprendizaje contrastivo acortaron la brecha. Mientras que trabajos previos de generación de imágenes sobresalieron en la generación condicional utilizando anotaciones humanas, la generación incondicional enfrentó desafíos. El marco introducido, RCG, transforma este panorama destacando en la generación de imágenes condicionales y no condicionales sin anotaciones humanas. RCG logra resultados de vanguardia, marcando un avance significativo en la generación de imágenes auto-supervisadas.

El uso de un Modelo de Difusión de Representación (RDM) para la educación auto-supervisada puede ayudar a cerrar la brecha entre el aprendizaje supervisado y no supervisado en la generación de imágenes. RCG integra RDM con un generador de píxeles, permitiendo la generación de imágenes incondicionales con ventajas potenciales sobre la edad condicional.

El marco RCG condiciona la generación de imágenes en una distribución auto-supervisada de representaciones obtenida de una distribución de imágenes a través de un codificador pre-entrenado. Utilizando un generador de píxeles para condicionar los píxeles de la imagen, RCG incorpora un RDM para el muestreo en el espacio de representación, entrenado a través de Modelos Implícitos de Difusión con Eliminación de Ruido. RCG integra una guía libre de clasificadores para mejorar el rendimiento del modelo generativo, ejemplificado por MAGE. Los codificadores de imágenes pre-entrenados, como Moco v3, normalizan las expresiones antes de ingresar al RDM.

El marco RCG sobresale en la generación de imágenes incondicional, logrando resultados de vanguardia y compitiendo con los métodos líderes en la generación de imágenes condicionales. En el conjunto de datos ImageNet 256×256, RCG alcanza una FID (Distancia de Incepción de Frechet) de 3.31 y una puntuación de Inception de 253.4, lo que indica una generación de imágenes de alta calidad. Al condicionar en las representaciones, RCG mejora significativamente la generación incondicional en diferentes generadores de píxeles como ADM, LDM y MAGE, y un mayor número de épocas de entrenamiento mejora aún más el rendimiento. El enfoque de generación de imágenes autocondicionado de RCG demuestra ser versátil, mejorando constantemente la generación incondicional con varios modelos generativos modernos.

El marco RCG ha logrado resultados innovadores en la generación de imágenes incondicional, aprovechando una distribución de representación auto-supervisada. Su integración perfecta con diversos modelos generativos mejora significativamente su rendimiento incondicional, y su enfoque autocondicionado, libre de anotaciones humanas, promete superar a los métodos condicionales. El diseño liviano de RCG y su adaptabilidad al entrenamiento específico de tareas le permiten aprovechar grandes conjuntos de datos no etiquetados. RCG ha demostrado ser un enfoque altamente efectivo y prometedor para la síntesis de imágenes de alta calidad.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Investigadores del MIT y de FAIR Meta revelan RCG (Generación de imágenes condicionadas por la representación) un innovador marco de IA en la generación de imágenes sin condiciones de clase.

Was this article helpful?

Referencia de Benchmark temporal

¡La Bendición de la Dimensionalidad?! (Parte 1)

Inteligencia Artificial

Top 40 Herramientas de IA Generativa 2023

Usando reflexiones para ver el mundo desde nuevos puntos de vista.

Una guía para principiantes sobre LLMOps para ingeniería de aprendizaje automático

Cómo las naciones están perdiendo una carrera global para abordar los daños de la inteligencia artificial.

Explora técnicas avanzadas para la optimización de hiperparámetros con Amazon SageMaker Automatic Model Tuning

Aprende IA Generativa con Google