Investigadores de KAIST presentan FaceCLIPNeRF un canal de manipulación impulsado por texto de una cara en 3D utilizando NeRF deformable
Investigadores de KAIST presentan FaceCLIPNeRF, un canal de manipulación de caras en 3D utilizando NeRF deformable.
Un componente crucial de las mejoras en el contenido digital humano en 3D es la capacidad de manipular fácilmente la representación facial en 3D. Aunque Neural Radiance Field (NeRF) ha logrado un progreso significativo en la reconstrucción de escenas en 3D, muchas de sus técnicas de manipulación se centran en la geometría rígida o en las manipulaciones de color, lo cual debe mejorarse para trabajos que requieran un control detallado sobre las expresiones faciales. Aunque un estudio reciente presentó un enfoque de edición facial controlada regionalmente, requiere un proceso laborioso de recopilación de máscaras anotadas por el usuario de diferentes partes de la cara a partir de fotogramas de entrenamiento seleccionados, seguido de un control de atributos humanos para lograr la alteración deseada.
Las técnicas de representación implícita específicas de la cara codifican las expresiones faciales observadas con alta fidelidad utilizando los parámetros de modelos de cara moldeables como priors. Sin embargo, sus manipulaciones manuales necesitan conjuntos de entrenamiento grandes que abarquen una variedad de expresiones faciales y que tengan alrededor de 6000 fotogramas. Esto hace que tanto la recopilación de datos como los procesos de manipulación sean arduos. En cambio, investigadores de KAIST y Scatter Lab han desarrollado un método que se entrena con un video de retrato dinámico con alrededor de 300 fotogramas de entrenamiento que comprenden algunos tipos diferentes de instancias de deformación facial para permitir la modificación basada en texto, como se muestra en la Figura 1.
Su enfoque aprende y aísla las deformaciones observadas de un espacio canónico utilizando HyperNeRF antes de controlar una deformación facial. En particular, se enseñan códigos latentes condicionales de escena implícita comunes y códigos latentes de deformación por fotograma en los fotogramas de entrenamiento. Su descubrimiento fundamental es el uso de múltiples códigos latentes espacialmente variables para expresar deformaciones de escena en tareas de manipulación. La revelación surge de las limitaciones de aplicar ingenuamente formulaciones de HyperNeRF a problemas de manipulación, es decir, buscar un solo código latente que codifique una distorsión facial deseada.
- Descubrimiento de productos impulsado por LLM Un salto más allá de la búsqueda híbrida
- Introducción al Aprendizaje Estadístico, Edición en Python Libro gratuito
- Difusión estable de AI’s Stable Diffusion XL 1.0 un avance en la generación de imágenes de IA
Por ejemplo, un solo código latente no puede transmitir una expresión facial que requiera una mezcla de deformaciones locales observadas en muchos casos. En su estudio, identifican este problema como un “problema de atributo local vinculado” y lo resuelven proporcionando una escena modificada con códigos latentes espacialmente variables. Para hacer esto, primero recopilan todas las deformaciones observadas en una colección de códigos ancla, que luego enseñan a una MLP a combinar para producir numerosos códigos latentes condicionales de posición. Luego, al mejorar las imágenes producidas de los códigos latentes para que estén cerca de un texto objetivo en el espacio de incrustación de CLIP, se realiza la reflectividad de los códigos latentes en las características visuales de un texto objetivo. En conclusión, su trabajo contribuye con lo siguiente:
• Diseño de una red de manipulación que aprende a representar una escena con códigos latentes espacialmente variables
• Propuesta de un flujo de trabajo de manipulación basado en texto de una cara reconstruida con NeRF
• Hasta donde se sabe, la primera persona en manipular texto sobre una cara que ha sido reconstruida con NeRF.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- RT-2 Nuevo modelo traduce visión y lenguaje en acción
- Conoce el modelo GOAT-7B-Community un modelo de IA ajustado finamente a partir del modelo LLaMA-2 7B en un conjunto de datos recopilados de la aplicación GoatChat.
- Ofreciendo entrenamiento gratuito en IA para todos en el Reino Unido
- Investigadores de DeepMind redefinen el Aprendizaje Reforzado Continuo con una precisa definición matemática
- Construye tu propio traductor con LLMs y Hugging Face
- Difusión estable XL en Mac con cuantificación avanzada de Core ML
- Los desarrolladores buscan OpenUSD en la era de la IA y la digitalización industrial