Investigadores del MIT y de FAIR Meta revelan RCG (Generación de imágenes condicionadas por la representación) un innovador marco de IA en la generación de imágenes sin condiciones de clase.

Investigadores del MIT y de FAIR Meta revelan RCG (Condicionamiento de Imágenes por Representación) un marco innovador de IA en la generación de imágenes sin restricciones de clase.

¿Cómo se pueden generar imágenes de alta calidad sin depender de las anotaciones humanas? Este paper del MIT CSAIL y FAIR Meta ha abordado el desafío de generar imágenes de alta calidad sin depender de las anotaciones humanas. Han introducido un nuevo marco llamado Generación de Imágenes Condicionadas por Representación (RCG) que utiliza una distribución de representación auto-supervisada obtenida de la distribución de imágenes a través de un codificador pre-entrenado. Este marco ha logrado resultados superiores en la generación de imágenes incondicional y es competitivo con los métodos líderes en la generación de imágenes condicionales.

Históricamente, el aprendizaje supervisado dominaba la visión por computadora, pero los métodos de aprendizaje auto-supervisado como el aprendizaje contrastivo acortaron la brecha. Mientras que trabajos previos de generación de imágenes sobresalieron en la generación condicional utilizando anotaciones humanas, la generación incondicional enfrentó desafíos. El marco introducido, RCG, transforma este panorama destacando en la generación de imágenes condicionales y no condicionales sin anotaciones humanas. RCG logra resultados de vanguardia, marcando un avance significativo en la generación de imágenes auto-supervisadas.

El uso de un Modelo de Difusión de Representación (RDM) para la educación auto-supervisada puede ayudar a cerrar la brecha entre el aprendizaje supervisado y no supervisado en la generación de imágenes. RCG integra RDM con un generador de píxeles, permitiendo la generación de imágenes incondicionales con ventajas potenciales sobre la edad condicional.

El marco RCG condiciona la generación de imágenes en una distribución auto-supervisada de representaciones obtenida de una distribución de imágenes a través de un codificador pre-entrenado. Utilizando un generador de píxeles para condicionar los píxeles de la imagen, RCG incorpora un RDM para el muestreo en el espacio de representación, entrenado a través de Modelos Implícitos de Difusión con Eliminación de Ruido. RCG integra una guía libre de clasificadores para mejorar el rendimiento del modelo generativo, ejemplificado por MAGE. Los codificadores de imágenes pre-entrenados, como Moco v3, normalizan las expresiones antes de ingresar al RDM.

El marco RCG sobresale en la generación de imágenes incondicional, logrando resultados de vanguardia y compitiendo con los métodos líderes en la generación de imágenes condicionales. En el conjunto de datos ImageNet 256×256, RCG alcanza una FID (Distancia de Incepción de Frechet) de 3.31 y una puntuación de Inception de 253.4, lo que indica una generación de imágenes de alta calidad. Al condicionar en las representaciones, RCG mejora significativamente la generación incondicional en diferentes generadores de píxeles como ADM, LDM y MAGE, y un mayor número de épocas de entrenamiento mejora aún más el rendimiento. El enfoque de generación de imágenes autocondicionado de RCG demuestra ser versátil, mejorando constantemente la generación incondicional con varios modelos generativos modernos.

El marco RCG ha logrado resultados innovadores en la generación de imágenes incondicional, aprovechando una distribución de representación auto-supervisada. Su integración perfecta con diversos modelos generativos mejora significativamente su rendimiento incondicional, y su enfoque autocondicionado, libre de anotaciones humanas, promete superar a los métodos condicionales. El diseño liviano de RCG y su adaptabilidad al entrenamiento específico de tareas le permiten aprovechar grandes conjuntos de datos no etiquetados. RCG ha demostrado ser un enfoque altamente efectivo y prometedor para la síntesis de imágenes de alta calidad.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Top 40 Herramientas de IA Generativa 2023

ChatGPT – GPT-4 GPT-4 es el último LLM de OpenAI, que es más innovador, preciso y seguro que sus predecesores. Tambié...

Investigación

Usando reflexiones para ver el mundo desde nuevos puntos de vista.

Un nuevo sistema de visión por computadora convierte cualquier objeto brillante en una especie de cámara, lo que perm...

Inteligencia Artificial

Una guía para principiantes sobre LLMOps para ingeniería de aprendizaje automático

Introducción El lanzamiento de ChatGPT de OpenAI ha generado mucho interés en los grandes modelos de lenguaje (LLMs, ...

Inteligencia Artificial

Cómo las naciones están perdiendo una carrera global para abordar los daños de la inteligencia artificial.

Alarmado por el poder de la inteligencia artificial, Europa, Estados Unidos y otros están tratando de responder, pero...

Inteligencia Artificial

Explora técnicas avanzadas para la optimización de hiperparámetros con Amazon SageMaker Automatic Model Tuning

Crear soluciones de aprendizaje automático (ML) de alto rendimiento se basa en explorar y optimizar los parámetros de...

Inteligencia Artificial

Aprende IA Generativa con Google

Aprende IA Generativa con los 10 cursos gratuitos de Google. Domina los modelos de difusión, la arquitectura codifica...