Este artículo AI propone ‘MotionDirector’ Un enfoque de inteligencia artificial para personalizar el movimiento y apariencia de vídeos.

Este artículo propone 'MotionDirector' una nueva perspectiva de inteligencia artificial para personalizar el movimiento y la apariencia de los vídeos.

Los modelos de difusión de texto a video han avanzado significativamente en los últimos tiempos. Ahora, solo con proporcionar descripciones textuales, los usuarios pueden crear videos realistas o imaginativos. Estos modelos base también se han ajustado para generar imágenes que coincidan con ciertos aspectos, estilos y temas. Sin embargo, aún queda por explorar el área de la personalización del movimiento en la generación de texto a video. Los usuarios pueden querer crear videos con movimientos específicos, como un automóvil avanzando y luego girando a la izquierda. Por lo tanto, es importante adaptar los modelos de difusión para crear contenido más específico que se ajuste a las preferencias de los usuarios.

Los autores de este artículo han propuesto MotionDirector, que ayuda a los modelos base a lograr la personalización del movimiento al mismo tiempo que mantiene la diversidad en la apariencia. La técnica utiliza una arquitectura de doble trayectoria para entrenar a los modelos para que aprendan la apariencia y los movimientos en los videos de referencia simples o múltiples por separado, lo que facilita generalizar el movimiento personalizado a otras configuraciones.

La arquitectura dual comprende tanto una trayectoria espacial como una temporal. El camino espacial tiene un modelo base con LoRAs espaciales entrenables (adaptaciones de rango bajo) integradas en sus capas de transformadores para cada video. Estas LoRAs espaciales se entrenan utilizando una fotograma individual seleccionado aleatoriamente en cada paso de entrenamiento para capturar los atributos visuales de los videos de entrada. Por el contrario, la trayectoria temporal duplica el modelo base, compartiendo las LoRAs espaciales con la trayectoria espacial para adaptarse a la apariencia del video de entrada dado. Además, los transformadores temporales en esta trayectoria se mejoran con las LoRAs temporales, que se entrenan usando varios fotogramas de los videos de entrada para comprender los patrones de movimiento inherentes.

Simplemente al implementar las LoRAs temporales entrenadas, el modelo base puede sintetizar videos de los movimientos aprendidos con apariencias diversas. La arquitectura dual permite que los modelos aprendan la apariencia y el movimiento de los objetos en los videos por separado. Esta desvinculación permite a MotionDirector aislar la apariencia y el movimiento de los videos y luego combinarlos a partir de varios videos de origen.

Los investigadores compararon el rendimiento de MotionDirector en un par de bancos de pruebas, con más de 80 movimientos diferentes y 600 indicaciones de texto. En el banco de pruebas de Acción Deportiva UCF (con 95 videos y 72 indicaciones de texto), MotionDirector fue preferido por los evaluadores humanos alrededor del 75% del tiempo debido a una mayor fidelidad de movimiento. El método también superó las preferencias del 25% de los modelos base. En el segundo banco de pruebas, es decir, el banco de pruebas LOVEU-TGVE-2023 (con 76 videos y 532 indicaciones de texto), MotionDirector obtuvo mejores resultados que otros métodos de generación controlable y basados en ajuste. Los resultados demuestran que se pueden personalizar numerosos modelos base utilizando MotionDirector para producir videos caracterizados por su diversidad y los conceptos de movimiento deseados.

MotionDirector es un método nuevo y prometedor para adaptar modelos de difusión de texto a video para generar videos con movimientos específicos. Es excelente para aprender y adaptar movimientos específicos de sujetos y cámaras, y se puede utilizar para generar videos con una amplia gama de estilos visuales.

Un área en la que MotionDirector podría mejorarse es en el aprendizaje del movimiento de múltiples sujetos en los videos de referencia. Sin embargo, incluso con esta limitación, MotionDirector tiene el potencial de mejorar la flexibilidad en la generación de video, lo que permite a los usuarios crear videos personalizados según sus preferencias y requisitos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Investigación

Imágenes detalladas desde el espacio ofrecen una imagen más clara de los efectos de la sequía en las plantas.

Los investigadores de J-WAFS están utilizando observaciones de teledetección para construir sistemas de alta resoluci...

Inteligencia Artificial

Investigadores cultivan matrices precisas de nanoLEDs

Una nueva técnica produce nanocristales de perovskita justo donde se necesitan, para que los materiales extremadament...

Inteligencia Artificial

Este artículo de Inteligencia Artificial presenta un método avanzado para la privacidad diferencial en el reconocimiento de imágenes con una mayor precisión

El aprendizaje automático ha aumentado considerablemente en varias áreas debido a su rendimiento en los últimos años....

Inteligencia Artificial

Luchando contra los 'hechos' falsos con dos pequeñas palabras

Los investigadores han desarrollado un método para disminuir las alucinaciones en modelos de lenguaje grandes (LLMs) ...