Investigadores del Grupo Alibaba y Ant Group presentan VideoComposer un modelo de inteligencia artificial que permite combinar múltiples modalidades como texto, bocetos, estilo e incluso movimiento para impulsar la generación de video.

Alibaba and Ant Group researchers present VideoComposer, an AI model that combines multiple modalities such as text, sketches, style, and even movement to boost video generation.

Los modelos generativos visuales actuales, en particular los modelos basados en difusión, han logrado avances tremendos en la automatización de la generación de contenido. Gracias a la computación, la escalabilidad de datos y los avances en el diseño arquitectónico, los diseñadores pueden generar visuales o videos realistas utilizando una entrada de texto como entrada. Para lograr una fidelidad y diversidad sin igual, estos métodos a menudo entrenan un modelo de difusión sólido condicionado por texto en conjuntos de datos masivos de video-texto e imagen-texto. A pesar de estos avances notables, todavía existe un obstáculo importante en el pobre grado de control del sistema de síntesis, lo que limita gravemente su utilidad.

La mayoría de los enfoques actuales permiten una creación ajustable mediante la introducción de nuevas condiciones más allá del texto, como mapas de segmentación, máscaras de relleno o bosquejos. El Composer amplía esta idea proponiendo un nuevo paradigma generativo basado en la composicionalidad que puede componer una imagen bajo una amplia gama de condiciones de entrada y lograr una flexibilidad extraordinaria. Si bien Composer sobresale al considerar condiciones de múltiples niveles en la dimensión espacial, puede necesitar ayuda con la producción de video debido a las características únicas de los datos de video. Esta dificultad se debe a la estructura temporal multicapa de las películas, que debe acomodar una amplia gama de dinámicas temporales al tiempo que preserva la coherencia entre los fotogramas individuales. Por lo tanto, la combinación de condiciones temporales adecuadas con pistas espaciales se vuelve crítica para permitir la síntesis de video programable. 

Estas consideraciones previas inspiraron a los investigadores de Alibaba Group y Ant Group a desarrollar VideoComposer, que proporciona una mayor controlabilidad espacial y temporal para la síntesis de video. Esto se logra primero descomponiendo un video en sus partes constituyentes: condición textual, condición espacial y condición temporal crítica, y luego utilizando un modelo de difusión latente para reconstruir el video de entrada bajo la influencia de estos elementos. En particular, para registrar explícitamente las dinámicas entre fotogramas y proporcionar un control directo sobre los movimientos internos, el equipo también ofrece el vector de movimiento específico del video como un tipo de guía temporal durante la síntesis de video. 

Además, introducen un codificador espaciotemporal unificado (STC-encoder) que emplea mecanismos de atención transversal para capturar relaciones espaciotemporales dentro de la entrada secuencial, lo que resulta en una mayor consistencia entre fotogramas de las películas de salida. El STC-encoder también actúa como una interfaz, permitiendo el uso unificado y efectivo de señales de control de una amplia gama de secuencias de condiciones. Por lo tanto, VideoComposer es lo suficientemente adaptable como para componer un video en diversas configuraciones manteniendo la calidad de síntesis consistente. 

Es importante destacar que, a diferencia de los enfoques convencionales, el equipo logró manipular los patrones de movimiento con movimientos manuales relativamente sencillos, como una flecha que muestra la trayectoria de la luna. Los investigadores llevan a cabo varias pruebas cualitativas y cuantitativas que demuestran la eficacia de VideoComposer. Los hallazgos muestran que el método logra niveles notables de creatividad en una amplia gama de actividades generativas secundarias. 

 técnicas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

    Discover more

    Inteligencia Artificial

    Después de los comentaristas, la IA podría reemplazar a los jueces de línea en Wimbledon

    Wimbledon, conocido por sus ricas tradiciones y prestigiosos partidos de tenis, está contemplando un cambio significa...

    Inteligencia Artificial

    Segmentación de Imágenes Una Guía Detallada

    La segmentación de imágenes se refiere a la capacidad de las computadoras (o más precisamente, los modelos almacenado...

    Inteligencia Artificial

    Entendiendo las métricas de clasificación tu guía para evaluar la precisión del modelo

    Navegando por el laberinto de la precisión, la exactitud y el recuerdo en el aprendizaje automático.

    Inteligencia Artificial

    Nuevo ataque afecta a importantes chatbots de IA y nadie sabe cómo detenerlo

    Investigadores encontraron una forma sencilla de hacer que ChatGPT, Bard y otros chatbots se comporten mal, demostran...

    Inteligencia Artificial

    Explicación intuitiva del promedio móvil exponencial

    En el análisis de series de tiempo, a menudo es necesario entender la dirección de la tendencia de una secuencia teni...