Conoce VideoSwap Un marco de inteligencia artificial que personaliza el intercambio de temas de video con una correspondencia puntual semántica interactiva.
Descubre VideoSwap un innovador marco de inteligencia artificial que personaliza el intercambio de temas de video con una interacción semántica puntual e interactiva
Recientemente, ha habido avances significativos en la edición de videos, con la edición utilizando Inteligencia Artificial (IA) como campo principal. Han surgido numerosas técnicas novedosas y, entre ellas, la edición de video basada en difusión se destaca como un campo particularmente prometedor. Se aprovecha de modelos de difusión de texto a imagen/video preentrenados para tareas como cambio de estilo, intercambio de fondos, etc. Sin embargo, la parte desafiante en la edición de video es transferir el movimiento desde el origen al video editado y, lo más importante, garantizar la coherencia temporal en todo el proceso.
La mayoría de las herramientas de edición de video se centran en preservar la estructura del video al garantizar la coherencia temporal y la alineación del movimiento. Este proceso se vuelve ineficaz, sin embargo, cuando se trata de cambiar la forma en el video. Para abordar esta brecha, los autores de este documento (investigadores de Show Lab, la Universidad Nacional de Singapur y GenAI, Meta) han presentado VideoSwap, un marco que utiliza correspondencias semánticas de puntos en lugar de densas para alinear la trayectoria del movimiento del sujeto y alterar su forma.
El uso de correspondencias densas permite una mejor coherencia temporal, pero limita el cambio en la forma del sujeto en el video editado. Aunque el uso de correspondencias semánticas de puntos es un método flexible, varía con diferentes configuraciones de mundo abierto, lo que dificulta entrenar un modelo de condición general. Los investigadores intentaron usar solo un número limitado de fotogramas de video de origen para aprender el control de puntos semánticos. Descubrieron que los puntos optimizados en los fotogramas de video de origen pueden alinear la trayectoria del movimiento del sujeto y cambiar la forma del sujeto también. Además, los puntos semánticos optimizados también se pueden transferir a través de cambios semánticos y a nivel bajo. Estas observaciones respaldan el uso de correspondencias semánticas de puntos en la edición de video.
- Optimización de la simulación Ayudando a mi amigo a modelar y optimizar el servicio de atención al cliente de su empresa.
- Conozca al Omnivore SiBORG Lab mejora su enfoque en accesibilidad utilizando OpenUSD y NVIDIA Omniverse
- La IA multimodal conecta los puntos digitales
Los investigadores diseñaron el marco de la siguiente manera. Han integrado la capa de movimiento en el modelo de difusión de imagen, lo que garantiza la coherencia temporal. También han identificado puntos semánticos en el video de origen y los han utilizado para transferir la trayectoria del movimiento. El método se enfoca solo en la alineación semántica de alto nivel, lo que evita aprender detalles de bajo nivel excesivos, mejorando así la alineación de puntos semánticos. Además, VideoSwap también tiene interacciones de puntos de usuario, como la eliminación o arrastrar puntos para varias correspondencias semánticas de puntos.
Los investigadores implementaron el marco utilizando el Modelo de Difusión Latente y adoptaron la capa de movimiento en AnimateDiff como el modelo fundamental. Encontraron que en comparación con los métodos de edición de video anteriores, VideoSwap logró un cambio significativo en la forma al mismo tiempo que alineaba la trayectoria de movimiento de origen y preservaba la identidad del concepto objetivo. Los investigadores también validaron sus resultados utilizando evaluadores humanos, y los resultados muestran claramente que VideoSwap superó a los otros métodos comparados en métricas como la identidad del sujeto, la alineación del movimiento y la coherencia temporal.
En conclusión, VideoSwap es un marco versátil que permite la edición de video, incluso para aquellos que involucran formas complejas. Limita la intervención humana durante el proceso y utiliza correspondencias semánticas de puntos para un mejor intercambio de sujetos de video. El método también permite cambiar la forma al mismo tiempo que alinea la trayectoria de movimiento con el objeto de origen y supera los métodos anteriores en múltiples métricas, demostrando resultados de vanguardia en el intercambio de sujetos de video personalizado.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Drones Protegen los Aerogeneradores del Hielo
- Bots, granjas fraudulentas responsables del 73% del tráfico web
- Q* y LVM Evolución de la AGI de LLM
- Técnicas de manejo/imputación en profundidad de valores faltantes en la transformación de características
- Hable directamente con sus datos utilizando un lenguaje cotidiano
- Peter McKee, Jefe de Relaciones con Desarrolladores en Sonar – Serie de Entrevistas
- Conectando los puntos Desentrañando el supuesto modelo Q-Star de OpenAI