Investigadores de KAIST presentan FaceCLIPNeRF un canal de manipulación impulsado por texto de una cara en 3D utilizando NeRF deformable

Investigadores de KAIST presentan FaceCLIPNeRF, un canal de manipulación de caras en 3D utilizando NeRF deformable.

Un componente crucial de las mejoras en el contenido digital humano en 3D es la capacidad de manipular fácilmente la representación facial en 3D. Aunque Neural Radiance Field (NeRF) ha logrado un progreso significativo en la reconstrucción de escenas en 3D, muchas de sus técnicas de manipulación se centran en la geometría rígida o en las manipulaciones de color, lo cual debe mejorarse para trabajos que requieran un control detallado sobre las expresiones faciales. Aunque un estudio reciente presentó un enfoque de edición facial controlada regionalmente, requiere un proceso laborioso de recopilación de máscaras anotadas por el usuario de diferentes partes de la cara a partir de fotogramas de entrenamiento seleccionados, seguido de un control de atributos humanos para lograr la alteración deseada. 

Las técnicas de representación implícita específicas de la cara codifican las expresiones faciales observadas con alta fidelidad utilizando los parámetros de modelos de cara moldeables como priors. Sin embargo, sus manipulaciones manuales necesitan conjuntos de entrenamiento grandes que abarquen una variedad de expresiones faciales y que tengan alrededor de 6000 fotogramas. Esto hace que tanto la recopilación de datos como los procesos de manipulación sean arduos. En cambio, investigadores de KAIST y Scatter Lab han desarrollado un método que se entrena con un video de retrato dinámico con alrededor de 300 fotogramas de entrenamiento que comprenden algunos tipos diferentes de instancias de deformación facial para permitir la modificación basada en texto, como se muestra en la Figura 1.

Figura 1

Su enfoque aprende y aísla las deformaciones observadas de un espacio canónico utilizando HyperNeRF antes de controlar una deformación facial. En particular, se enseñan códigos latentes condicionales de escena implícita comunes y códigos latentes de deformación por fotograma en los fotogramas de entrenamiento. Su descubrimiento fundamental es el uso de múltiples códigos latentes espacialmente variables para expresar deformaciones de escena en tareas de manipulación. La revelación surge de las limitaciones de aplicar ingenuamente formulaciones de HyperNeRF a problemas de manipulación, es decir, buscar un solo código latente que codifique una distorsión facial deseada. 

Por ejemplo, un solo código latente no puede transmitir una expresión facial que requiera una mezcla de deformaciones locales observadas en muchos casos. En su estudio, identifican este problema como un “problema de atributo local vinculado” y lo resuelven proporcionando una escena modificada con códigos latentes espacialmente variables. Para hacer esto, primero recopilan todas las deformaciones observadas en una colección de códigos ancla, que luego enseñan a una MLP a combinar para producir numerosos códigos latentes condicionales de posición. Luego, al mejorar las imágenes producidas de los códigos latentes para que estén cerca de un texto objetivo en el espacio de incrustación de CLIP, se realiza la reflectividad de los códigos latentes en las características visuales de un texto objetivo. En conclusión, su trabajo contribuye con lo siguiente: 

• Diseño de una red de manipulación que aprende a representar una escena con códigos latentes espacialmente variables

• Propuesta de un flujo de trabajo de manipulación basado en texto de una cara reconstruida con NeRF

• Hasta donde se sabe, la primera persona en manipular texto sobre una cara que ha sido reconstruida con NeRF.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Es verdaderamente seguro el IA multilingüe? Exponiendo las vulnerabilidades de los grandes modelos de lenguaje en idiomas con recursos limitados

GPT-4 tiene como predeterminación decir: “Lo siento, pero no puedo ayudar con eso”, en respuesta a solici...

Inteligencia Artificial

¿Podemos transformar texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y explica el poder de TikZ

Los últimos avances en la generación de texto a imagen han hecho posible la creación de gráficos detallados a partir ...

Ciencia de Datos

El modelo de inteligencia artificial de NVIDIA para salvar la Tierra, obtiene financiamiento de la NASA.

Es impresionante ver las lluvias de meteoros iluminar el cielo nocturno. Sin embargo, la amenaza de objetos celestes ...

Inteligencia Artificial

Hacia la IA General el papel de LLMs y Modelos Fundamentales en la Revolución del Aprendizaje de por Vida

En la última década y especialmente con el éxito del aprendizaje profundo, se ha formado una discusión continua en to...

Inteligencia Artificial

Google AI presenta WeatherBench 2 un marco de aprendizaje automático para evaluar y comparar diversos modelos de pronóstico del tiempo

El aprendizaje automático (ML) se ha utilizado cada vez más en la predicción del tiempo en los últimos años. Ahora qu...