Investigadores de S-Lab y NTU proponen Scenimefy un nuevo marco de traducción de imagen a imagen semi-supervisado que cierra la brecha en la representación automática de escenas de anime de alta calidad a partir de imágenes del mundo real.

Investigadores proponen Scenimefy, un marco de traducción de imagen a imagen semi-supervisado que representa escenas de anime de alta calidad a partir de imágenes del mundo real.

Los paisajes de anime requieren una gran cantidad de talento creativo y tiempo para crear. Por lo tanto, el desarrollo de métodos basados en el aprendizaje para la estilización automática de escenas tiene un significado práctico y económico innegable. La estilización automática ha mejorado significativamente debido a los avances recientes en las Redes Generativas Adversarias (GANs), sin embargo, la mayoría de estas investigaciones se han centrado principalmente en rostros humanos. El proceso de crear paisajes de anime de alta calidad a partir de fotos intrincadas de escenas del mundo real aún necesita ser estudiado a pesar de su tremendo valor de investigación. Debido a varios elementos, convertir fotografías de escenas del mundo real en estilos de anime requiere mucho trabajo.

1) La composición de la escena: La Figura 1 ilustra esta jerarquía entre las partes del primer plano y el fondo en las escenas, que a menudo están compuestas por varios elementos conectados de manera complicada.

2) Características del anime: La Figura 1 muestra cómo se emplean trazos de pincel pre-diseñados en entornos naturales como la hierba, los árboles y las nubes para crear texturas distintivas y detalles precisos que definen al anime. La naturaleza orgánica y dibujada a mano de estas texturas las hace considerablemente más difíciles de imitar que los bordes nítidos y los parches de color uniforme que se describen en experimentos anteriores.

3) La escasez de datos y la brecha de dominio: Un conjunto de datos de escenas de anime de alta calidad es crucial para cerrar la brecha entre las escenas reales y las de anime, que tienen una diferencia de dominio significativa. Los conjuntos de datos existentes son de baja calidad debido al gran número de rostros humanos y otros elementos del primer plano que tienen una estética diferente al paisaje de fondo.

Figura 1: Características de las escenas de anime. Se puede observar la presencia de trazos de pincel dibujados a mano de hierba y piedras (primer plano), así como árboles y nubes (fondo), en contraposición a bordes limpios y superficies planas, en una escena de la película “Children Who Chase Lost Voices” de Shinkai en 2011.

La traducción de imágenes a imágenes no supervisada es un método popular para la estilización de escenas complicadas sin datos de entrenamiento emparejados. A pesar de mostrar resultados prometedores, las técnicas existentes que se centran en los estilos de anime necesitan ponerse al día en varios aspectos. Primero, la falta de correlación píxel a píxel en escenarios complejos dificulta que los enfoques actuales ejecuten una estilización de textura obvia manteniendo el significado semántico, lo que puede dar lugar a resultados fuera de lo común e incluir artefactos visibles. En segundo lugar, ciertos métodos no producen los detalles delicados de las escenas de anime. Esto se debe a sus pérdidas específicas para el anime construidas o representaciones pre-extraídas, que imponen la suavidad de los bordes y superficies.

Para resolver los problemas mencionados anteriormente, los investigadores de S-Lab de la Universidad Tecnológica de Nanyang proponen Scenimefy, un flujo de trabajo único de traducción de imágenes a imágenes (I2I) semi-supervisado para crear representaciones de alta calidad en estilo de anime de imágenes de escenas. La Figura 2 muestra su principal propuesta, que consiste en utilizar datos pseudo-emparejados generados para introducir una nueva rama de entrenamiento supervisado en el marco no supervisado para abordar las deficiencias del entrenamiento no supervisado. Utilizan las ventajas de StyleGAN al ajustarlo para proporcionar datos emparejados aproximados entre las imágenes reales y de anime.

Figura 2: Muestra los resultados de las escenas de anime generadas por Scenimefy. Fila superior: imágenes traducidas; fila inferior: resultados de la traducción.

Proponen un nuevo enfoque de ajuste fino con restricciones semánticas que utiliza modelos previamente entrenados como CLIP y VGG para guiar a StyleGAN en la captura de detalles de escenas complejas y reducir el sobreajuste. También ofrecen una técnica de selección de datos guiada por la segmentación para filtrar datos de baja calidad. Utilizando los datos pseudo-emparejados y una pérdida de estilo contrastiva a nivel de parche, Scenimefy crea detalles finos entre los dos dominios y aprende una correspondencia efectiva píxel a píxel. Su marco semi-supervisado intenta lograr un equilibrio deseable entre la fidelidad y la estilización de escenas y la rama de entrenamiento no supervisado.

También recopilaron un conjunto de datos de alta calidad de escenas de anime puro para ayudar en el entrenamiento. Realizaron pruebas extensivas que mostraron la eficacia de Scenimefy, superando los estándares de la industria en cuanto a calidad perceptual y evaluación cuantitativa. A continuación se presenta un resumen de sus principales contribuciones:

• Proporcionan un nuevo marco de estilización de escenas semisupervisado que transforma fotografías reales en imágenes sofisticadas de escenas de anime de excelente calidad. Su sistema agrega una pérdida de estilo contrastante a nivel de parches única para mejorar la estilización y los detalles finos.

• Se desarrolló una técnica de ajuste fino de StyleGAN con restricciones semánticas y una guía previa pre-entrenada, seguida de un esquema de selección de datos guiado por segmentación, que produce datos pseudo-pareados consistentes en estructura que sirven como base para la supervisión del entrenamiento.

• Recopilaron una colección de escenas de anime de alta resolución para ayudar en futuros estudios sobre estilización de escenas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La sinfonía creativa de la inteligencia artificial generativa en la composición musical

Introducción La IA generativa es inteligencia artificial que puede producir nuevos datos, como libros de texto, imáge...

Inteligencia Artificial

Esta investigación de IA de China presenta Consistent4D Un nuevo enfoque de inteligencia artificial para generar objetos dinámicos en 4D a partir de videos monocu

El campo de la visión por computadora se enfrenta a una tarea fundamental pero ardua: descifrar datos tridimensionale...

Inteligencia Artificial

Google DeepMind utilizó un gran modelo de lenguaje para resolver un problema matemático insoluble

Tuvieron que desechar la mayor parte de lo que producían, pero había oro entre la basura.

Inteligencia Artificial

¡Atención Industria del Gaming! No más espejos extraños con Mirror-NeRF

Las NeRF o Campos de Radiancia Neurales utilizan una combinación de RNN y CNN para capturar las características físic...

Inteligencia Artificial

Cómo utilizar ChatGPT para convertir texto en una presentación de PowerPoint

Una forma rápida de convertir un texto largo en una breve Presentación de PowerPoint utilizando solo ChatGPT.