Conoce Video-ControlNet Un nuevo modelo de difusión de texto a video que cambiará el juego y dará forma al futuro de la generación de video controlable.

Meet Video-ControlNet, a new text-to-video dissemination model that will change the game and shape the future of controllable video generation.

En los últimos años, ha habido un rápido desarrollo en la generación de contenido visual basado en texto. Entrenados con pares imagen-texto a gran escala, los modelos actuales de difusión de texto a imagen (T2I, por sus siglas en inglés) han demostrado una impresionante capacidad para generar imágenes de alta calidad basadas en las indicaciones de texto proporcionadas por el usuario. El éxito en la generación de imágenes también se ha extendido a la generación de videos. Algunos métodos aprovechan los modelos T2I para generar videos de manera one-shot o zero-shot, mientras que los videos generados a partir de estos modelos siguen siendo inconsistentes o carecen de variedad. Escalando los datos de video, los modelos de difusión de texto a video (T2V, por sus siglas en inglés) pueden crear videos consistentes con las indicaciones de texto. Sin embargo, estos modelos generan videos que carecen de control sobre el contenido generado.

Un estudio reciente propone un modelo de difusión T2V que permite mapas de profundidad como control. Sin embargo, se requiere un conjunto de datos a gran escala para lograr consistencia y alta calidad, lo que es antieconómico en cuanto a recursos. Además, todavía es un desafío para los modelos de difusión T2V generar videos de consistencia, longitud arbitraria y diversidad.

Se ha introducido Video-ControlNet, un modelo T2V controlable, para abordar estos problemas. Video-ControlNet ofrece las siguientes ventajas: mejora de la consistencia a través del uso de prioridades de movimiento y mapas de control, la capacidad de generar videos de longitud arbitraria mediante el empleo de una estrategia de condicionamiento del primer fotograma, generalización del dominio mediante la transferencia de conocimientos de imágenes a videos y eficiencia de recursos con una convergencia más rápida mediante un tamaño de lote limitado.

La arquitectura de Video-ControlNet se muestra a continuación.

El objetivo es generar videos basados en texto y mapas de control de referencia. Por lo tanto, el modelo generativo se desarrolla mediante la reorganización de un modelo T2I controlable pre-entrenado, la incorporación de capas temporales adicionales entrenables y la presentación de un mecanismo de auto-atención espacial-temporal que facilita las interacciones detalladas entre los fotogramas. Este enfoque permite la creación de videos consistentes en contenido, incluso sin un extenso entrenamiento.

Para asegurar la consistencia de la estructura de video, los autores proponen un enfoque pionero que incorpora la prioridad de movimiento del video fuente en el proceso de desenfoque en la etapa de inicialización de ruido. Al aprovechar la prioridad de movimiento y los mapas de control, Video-ControlNet es capaz de producir videos que parpadean menos y se asemejan de cerca a los cambios de movimiento en el video de entrada, evitando así la propagación de errores en otros métodos basados en el movimiento debido a la naturaleza del proceso de desenfoque de múltiples pasos.

Además, en lugar de los métodos anteriores que entrenan modelos para generar directamente videos completos, se introduce un esquema de entrenamiento innovador en este trabajo, que produce videos basados en el fotograma inicial. Con una estrategia tan sencilla pero efectiva, se vuelve más manejable desentrañar el aprendizaje de contenido y temporal, ya que el primero se presenta en el primer fotograma y la indicación de texto.

El modelo solo necesita aprender a generar fotogramas posteriores, heredando capacidades generativas del dominio de la imagen y aliviando la demanda de datos de video. Durante la inferencia, se genera el primer fotograma condicionado al mapa de control del primer fotograma y una indicación de texto. Luego, se generan fotogramas posteriores, condicionados al primer fotograma, texto y mapas de control posteriores. Al mismo tiempo, otra ventaja de tal estrategia es que el modelo puede generar automáticamente un video de longitud infinita tratando el último fotograma de la iteración anterior como el fotograma inicial.

Así es como funciona. Echemos un vistazo a los resultados reportados por los autores. Se muestra un lote limitado de resultados de muestra y la comparación con enfoques de vanguardia en la figura a continuación.

Este fue el resumen de Video-ControlNet, un nuevo modelo de difusión para la generación de T2V con calidad y consistencia temporal de última generación. Si estás interesado, puedes aprender más sobre esta técnica en los siguientes enlaces.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La función de detección de suplantación de identidad protege a las marcas y personalidades de las cuentas falsas en las redes sociales

Una empresa canadiense ha incorporado una función de protección contra la suplantación de identidad en su plataforma ...

Inteligencia Artificial

Los Juegos Olímpicos de la IA Evaluando los Sistemas de Aprendizaje Automático

Durante años, correr una milla en menos de cuatro minutos se consideraba no solo un desafío intimidante, sino para mu...

Inteligencia Artificial

Benford's Law se encuentra con el aprendizaje automático para detectar seguidores falsos en Twitter

En el amplio panorama digital de las redes sociales, la autenticidad del usuario es una preocupación primordial. A me...

Inteligencia Artificial

Agentes de IA Tendencia del Mes en IA Generativa

En tan solo 30 minutos, aprende a construir aplicaciones de agentes de IA sin código con un LLM que tiene conocimient...