Google Research presenta MediaPipe FaceStylizer Un diseño eficiente para la estilización de rostros en pocas tomas

Google Research presenta MediaPipe FaceStylizer, un diseño eficiente para la estilización de rostros.

En los últimos años, tanto los investigadores como los consumidores han mostrado un entusiasmo creciente por las aplicaciones de smartphones que combinan la realidad aumentada (AR). Esto permite a los usuarios generar y alterar características faciales en tiempo real para vídeos cortos, realidad virtual y juegos. Los modelos de generación y edición facial basados en enfoques de redes generativas adversarias (GAN) son populares porque son ligeros y mantienen una excelente calidad. Sin embargo, la mayoría de los modelos GAN tienen limitaciones graves en términos de complejidad informática y requieren un gran conjunto de datos de entrenamiento. También es crucial hacer un uso ético de los modelos GAN.

Los investigadores de Google desarrollaron MediaPipe FaceStylizer como una solución efectiva para la estilización facial de pocos ejemplos que tiene en cuenta estos problemas de complejidad del modelo y eficiencia de los datos. La inversión GAN transforma la imagen en una codificación latente para el generador facial en este modelo. Para generar imágenes de alta calidad con granularidades que van desde gruesas a finas, introducen una red de síntesis amigable para dispositivos móviles para el generador facial, completa con una cabeza auxiliar que convierte las características en RGB en cada nivel del generador. Además, destilaron el generador estudiantil del modelo StyleGAN del profesor, resultando en un modelo ligero que mantiene una buena calidad de generación mediante el diseño cuidadoso de las funciones de pérdida para las mencionadas cabezas auxiliares y su combinación con las funciones de pérdida comunes de GAN. MediaPipe proporciona acceso de código abierto a la solución propuesta. MediaPipe Model Maker permite a los usuarios ajustar finamente el generador para aprender un estilo a partir de una o varias fotografías. MediaPipe FaceStylizer permitirá a los usuarios implementar el modelo resultante en aplicaciones de estilización facial en dispositivos.

Las caras en imágenes y vídeos se pueden mejorar o crear desde cero con la ayuda de la tarea de estilización facial de MediaPipe Face. Esta actividad puede generar personajes virtuales con una amplia gama de opciones estéticas.

Para esta tarea se utiliza el modelo BlazeFaceStylizer, que incluye un generador facial y un codificador facial. La implementación ligera de la familia de modelos StyleGAN, BlazeStyleGAN, produce y perfecciona caras para que coincidan con una estética determinada. Utilizando un núcleo MobileNet V2, el codificador facial asocia las fotos de entrada con las caras producidas por el generador facial.

El proyecto tiene como objetivo proporcionar un flujo de trabajo que ayude a los usuarios a ajustar finamente el modelo MediaPipe FaceStylizer para adaptarse a varios estilos. Los investigadores construyeron un flujo de trabajo de estilización facial con un codificador de inversión GAN y un modelo generador facial efectivo (para más información, ver abajo). El flujo de trabajo del codificador y el generador se pueden entrenar con unos pocos ejemplos de varios estilos. Para empezar, el usuario enviará uno o varios ejemplos representativos de la estética deseada a MediaPipe ModelMaker. El módulo del codificador se congela durante el procedimiento de ajuste fino y solo se ajusta el generador. Se muestrean varios códigos latentes alrededor de la salida de codificación de las imágenes de estilo de entrada para entrenar al generador. A continuación, se optimiza una función de pérdida adversarial conjunta para preparar al generador para reconstruir una imagen facial con la misma estética que la imagen de estilo de entrada. Gracias a este proceso de ajuste fino, MediaPipe FaceStylizer es lo suficientemente flexible como para adaptarse a las entradas del usuario. Este método se puede aplicar a fotos de prueba de caras humanas reales.

Los investigadores de Google utilizan el conocimiento de destilación para entrenar el BlazeStyleGAN utilizando el StyleGAN2 ampliamente utilizado como modelo instructor. Además, entrenan el modelo para generar imágenes de mejor calidad mediante la introducción de una pérdida perceptual a varias escalas en el proceso de aprendizaje. BlazeStyleGAN tiene menos parámetros y modelos más simples que MobileStyleGAN. Evalúan BlazeStyleGAN en varios dispositivos móviles, demostrando que puede funcionar a velocidades en tiempo real en GPUs móviles. La salida de BlazeStyleGAN se ajusta muy de cerca a la calidad visual de su modelo instructor. También señalan que BlazeStyleGAN puede mejorar la calidad visual en algunas situaciones al reducir los artefactos producidos por el modelo instructor. Los resultados de la distancia de Inception de Frechet (FID) para BlazeStyleGAN son comparables a los del StyleGAN instructor. A continuación se presenta un resumen de las contribuciones:

Los investigadores han creado una arquitectura apta para dispositivos móviles agregando una cabeza adicional UpToRGB en cada nivel del generador y solo utilizando esta cabeza durante la inferencia.
Calculando una pérdida perceptual a varias escalas utilizando las cabezas auxiliares y una pérdida adversarial en imágenes reales, mejoran la técnica de destilación, lo que lleva a una mejor generación de imágenes y reduce el impacto de los artefactos transferidos desde el modelo instructor.
BlazeStyleGAN puede producir imágenes de alta calidad en tiempo real en varios smartphones populares.

El equipo de investigación de Google ha presentado el primer modelo StyleGAN (BlazeStyleGAN) del mundo que puede producir fotografías faciales de alta calidad en tiempo real en la gran mayoría de los smartphones de gama alta. Hay mucho margen para la exploración en modelos generativos eficientes en dispositivos. Para reducir el impacto de los artefactos del modelo instructor, han diseñado una arquitectura refinada para la red de síntesis de StyleGAN y han ajustado finamente la técnica de destilación. BlazeStyleGAN puede lograr un rendimiento en tiempo real en dispositivos móviles en la prueba de referencia porque se ha reducido drásticamente la complejidad del modelo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Tech NewsUncategorized

Was this article helpful?

93 out of 132 found this helpful

¿Puede un Modelo de Lenguaje Revolucionar la Radiología? Conozca Radiology-Llama2 Un Gran Modelo de Lenguaje Especializado en Radiología a través de un Proceso Conocido como Ajuste de Instrucciones.

Google Research presenta MediaPipe FaceStylizer Un diseño eficiente para la estilización de rostros en pocas tomas

Was this article helpful?

Esta investigación de IA de Corea presenta MagiCapture un método de personalización para integrar conceptos de sujeto y estilo para generar imágenes de retratos de alta resolución.

¿Puede un Modelo de Lenguaje Revolucionar la Radiología? Conozca Radiology-Llama2 Un Gran Modelo de Lenguaje Especializado en Radiología a través de un Proceso Conocido como Ajuste de Instrucciones.

Inteligencia Artificial

Investigadores de Stanford introducen Protpardelle un modelo de difusión de todos los átomos revolucionario para el co-diseño de la estructura y secuencia de proteínas

Aprendizaje Profundo en Sistemas de Recomendación Una introducción.

Comprendiendo el sesgo algorítmico Tipos, causas y estudios de casos

Este artículo de IA propone un método de generación de memoria recursivo para mejorar la consistencia conversacional a largo plazo en modelos de lenguaje grandes

Wimbledon utilizará inteligencia artificial para comentarios en video de aspectos destacados.

Cómo las naciones están perdiendo una carrera global para abordar los daños de la inteligencia artificial.