Investigadores del MIT y de FAIR Meta revelan RCG (Generación de imágenes condicionadas por la representación) un innovador marco de IA en la generación de imágenes sin condiciones de clase.
Investigadores del MIT y de FAIR Meta revelan RCG (Condicionamiento de Imágenes por Representación) un marco innovador de IA en la generación de imágenes sin restricciones de clase.
¿Cómo se pueden generar imágenes de alta calidad sin depender de las anotaciones humanas? Este paper del MIT CSAIL y FAIR Meta ha abordado el desafío de generar imágenes de alta calidad sin depender de las anotaciones humanas. Han introducido un nuevo marco llamado Generación de Imágenes Condicionadas por Representación (RCG) que utiliza una distribución de representación auto-supervisada obtenida de la distribución de imágenes a través de un codificador pre-entrenado. Este marco ha logrado resultados superiores en la generación de imágenes incondicional y es competitivo con los métodos líderes en la generación de imágenes condicionales.
Históricamente, el aprendizaje supervisado dominaba la visión por computadora, pero los métodos de aprendizaje auto-supervisado como el aprendizaje contrastivo acortaron la brecha. Mientras que trabajos previos de generación de imágenes sobresalieron en la generación condicional utilizando anotaciones humanas, la generación incondicional enfrentó desafíos. El marco introducido, RCG, transforma este panorama destacando en la generación de imágenes condicionales y no condicionales sin anotaciones humanas. RCG logra resultados de vanguardia, marcando un avance significativo en la generación de imágenes auto-supervisadas.
El uso de un Modelo de Difusión de Representación (RDM) para la educación auto-supervisada puede ayudar a cerrar la brecha entre el aprendizaje supervisado y no supervisado en la generación de imágenes. RCG integra RDM con un generador de píxeles, permitiendo la generación de imágenes incondicionales con ventajas potenciales sobre la edad condicional.
- Referencia de Benchmark temporal
- Crea relaciones de muchos a uno entre columnas en una tabla sintética con UDFs de PySpark
- IA generativa 2024 y más allá Un vistazo al futuro
El marco RCG condiciona la generación de imágenes en una distribución auto-supervisada de representaciones obtenida de una distribución de imágenes a través de un codificador pre-entrenado. Utilizando un generador de píxeles para condicionar los píxeles de la imagen, RCG incorpora un RDM para el muestreo en el espacio de representación, entrenado a través de Modelos Implícitos de Difusión con Eliminación de Ruido. RCG integra una guía libre de clasificadores para mejorar el rendimiento del modelo generativo, ejemplificado por MAGE. Los codificadores de imágenes pre-entrenados, como Moco v3, normalizan las expresiones antes de ingresar al RDM.
El marco RCG sobresale en la generación de imágenes incondicional, logrando resultados de vanguardia y compitiendo con los métodos líderes en la generación de imágenes condicionales. En el conjunto de datos ImageNet 256×256, RCG alcanza una FID (Distancia de Incepción de Frechet) de 3.31 y una puntuación de Inception de 253.4, lo que indica una generación de imágenes de alta calidad. Al condicionar en las representaciones, RCG mejora significativamente la generación incondicional en diferentes generadores de píxeles como ADM, LDM y MAGE, y un mayor número de épocas de entrenamiento mejora aún más el rendimiento. El enfoque de generación de imágenes autocondicionado de RCG demuestra ser versátil, mejorando constantemente la generación incondicional con varios modelos generativos modernos.
El marco RCG ha logrado resultados innovadores en la generación de imágenes incondicional, aprovechando una distribución de representación auto-supervisada. Su integración perfecta con diversos modelos generativos mejora significativamente su rendimiento incondicional, y su enfoque autocondicionado, libre de anotaciones humanas, promete superar a los métodos condicionales. El diseño liviano de RCG y su adaptabilidad al entrenamiento específico de tareas le permiten aprovechar grandes conjuntos de datos no etiquetados. RCG ha demostrado ser un enfoque altamente efectivo y prometedor para la síntesis de imágenes de alta calidad.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Samet honrado con el Premio ACM SIGSPATIAL al Impacto de por Vida
- La minería de Bitcoin utilizó más agua que la ciudad de Nueva York el año pasado.
- Principales 8 tendencias de IA de 2023 Un año en revisión
- Reino Unido afirma que Rusia ha atacado a legisladores y otros con ciberataques durante años
- Controla los costos de la IA a través de la gestión ágil de proyectos de ciencia de datos
- El futuro de los GPT de OpenAI Análisis DAFO 2024
- Mosaicos fotográficos con vecinos más cercanos Aprendizaje automático para el arte digital