Conoce VideoSwap Un marco de inteligencia artificial que personaliza el intercambio de temas de video con una correspondencia puntual semántica interactiva.

Descubre VideoSwap un innovador marco de inteligencia artificial que personaliza el intercambio de temas de video con una interacción semántica puntual e interactiva

Recientemente, ha habido avances significativos en la edición de videos, con la edición utilizando Inteligencia Artificial (IA) como campo principal. Han surgido numerosas técnicas novedosas y, entre ellas, la edición de video basada en difusión se destaca como un campo particularmente prometedor. Se aprovecha de modelos de difusión de texto a imagen/video preentrenados para tareas como cambio de estilo, intercambio de fondos, etc. Sin embargo, la parte desafiante en la edición de video es transferir el movimiento desde el origen al video editado y, lo más importante, garantizar la coherencia temporal en todo el proceso.

La mayoría de las herramientas de edición de video se centran en preservar la estructura del video al garantizar la coherencia temporal y la alineación del movimiento. Este proceso se vuelve ineficaz, sin embargo, cuando se trata de cambiar la forma en el video. Para abordar esta brecha, los autores de este documento (investigadores de Show Lab, la Universidad Nacional de Singapur y GenAI, Meta) han presentado VideoSwap, un marco que utiliza correspondencias semánticas de puntos en lugar de densas para alinear la trayectoria del movimiento del sujeto y alterar su forma.

El uso de correspondencias densas permite una mejor coherencia temporal, pero limita el cambio en la forma del sujeto en el video editado. Aunque el uso de correspondencias semánticas de puntos es un método flexible, varía con diferentes configuraciones de mundo abierto, lo que dificulta entrenar un modelo de condición general. Los investigadores intentaron usar solo un número limitado de fotogramas de video de origen para aprender el control de puntos semánticos. Descubrieron que los puntos optimizados en los fotogramas de video de origen pueden alinear la trayectoria del movimiento del sujeto y cambiar la forma del sujeto también. Además, los puntos semánticos optimizados también se pueden transferir a través de cambios semánticos y a nivel bajo. Estas observaciones respaldan el uso de correspondencias semánticas de puntos en la edición de video.

Los investigadores diseñaron el marco de la siguiente manera. Han integrado la capa de movimiento en el modelo de difusión de imagen, lo que garantiza la coherencia temporal. También han identificado puntos semánticos en el video de origen y los han utilizado para transferir la trayectoria del movimiento. El método se enfoca solo en la alineación semántica de alto nivel, lo que evita aprender detalles de bajo nivel excesivos, mejorando así la alineación de puntos semánticos. Además, VideoSwap también tiene interacciones de puntos de usuario, como la eliminación o arrastrar puntos para varias correspondencias semánticas de puntos.

Los investigadores implementaron el marco utilizando el Modelo de Difusión Latente y adoptaron la capa de movimiento en AnimateDiff como el modelo fundamental. Encontraron que en comparación con los métodos de edición de video anteriores, VideoSwap logró un cambio significativo en la forma al mismo tiempo que alineaba la trayectoria de movimiento de origen y preservaba la identidad del concepto objetivo. Los investigadores también validaron sus resultados utilizando evaluadores humanos, y los resultados muestran claramente que VideoSwap superó a los otros métodos comparados en métricas como la identidad del sujeto, la alineación del movimiento y la coherencia temporal.

En conclusión, VideoSwap es un marco versátil que permite la edición de video, incluso para aquellos que involucran formas complejas. Limita la intervención humana durante el proceso y utiliza correspondencias semánticas de puntos para un mejor intercambio de sujetos de video. El método también permite cambiar la forma al mismo tiempo que alinea la trayectoria de movimiento con el objeto de origen y supera los métodos anteriores en múltiples métricas, demostrando resultados de vanguardia en el intercambio de sujetos de video personalizado.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Se analiza el sonido de la tos para identificar la gravedad de los pacientes de COVID-19

Un estudio identificó características tos que pueden ayudar a evaluar la gravedad de la COVID-19 y permitir el monito...

Inteligencia Artificial

Herramientas de IA principales para emprendedores 2023

Grammarly es una herramienta de escritura impulsada por IA que garantiza que tu escritura esté libre de errores y pul...

Inteligencia Artificial

Nvidia libera un chip de IA revolucionario para acelerar aplicaciones de IA generativa

En una era en la que la tecnología empuja constantemente los límites, Nvidia ha dejado una vez más su huella. La comp...

Investigación

Usando reflexiones para ver el mundo desde nuevos puntos de vista.

Un nuevo sistema de visión por computadora convierte cualquier objeto brillante en una especie de cámara, lo que perm...

Inteligencia Artificial

IA en roles íntimos novias y terapeutas

Este artículo es una breve descripción del campo de la Inteligencia Emocional Artificial y las posibles aplicaciones ...