Investigadores del Grupo Alibaba y Ant Group presentan VideoComposer un modelo de inteligencia artificial que permite combinar múltiples modalidades como texto, bocetos, estilo e incluso movimiento para impulsar la generación de video.

Alibaba and Ant Group researchers present VideoComposer, an AI model that combines multiple modalities such as text, sketches, style, and even movement to boost video generation.

Los modelos generativos visuales actuales, en particular los modelos basados en difusión, han logrado avances tremendos en la automatización de la generación de contenido. Gracias a la computación, la escalabilidad de datos y los avances en el diseño arquitectónico, los diseñadores pueden generar visuales o videos realistas utilizando una entrada de texto como entrada. Para lograr una fidelidad y diversidad sin igual, estos métodos a menudo entrenan un modelo de difusión sólido condicionado por texto en conjuntos de datos masivos de video-texto e imagen-texto. A pesar de estos avances notables, todavía existe un obstáculo importante en el pobre grado de control del sistema de síntesis, lo que limita gravemente su utilidad.

La mayoría de los enfoques actuales permiten una creación ajustable mediante la introducción de nuevas condiciones más allá del texto, como mapas de segmentación, máscaras de relleno o bosquejos. El Composer amplía esta idea proponiendo un nuevo paradigma generativo basado en la composicionalidad que puede componer una imagen bajo una amplia gama de condiciones de entrada y lograr una flexibilidad extraordinaria. Si bien Composer sobresale al considerar condiciones de múltiples niveles en la dimensión espacial, puede necesitar ayuda con la producción de video debido a las características únicas de los datos de video. Esta dificultad se debe a la estructura temporal multicapa de las películas, que debe acomodar una amplia gama de dinámicas temporales al tiempo que preserva la coherencia entre los fotogramas individuales. Por lo tanto, la combinación de condiciones temporales adecuadas con pistas espaciales se vuelve crítica para permitir la síntesis de video programable.

Estas consideraciones previas inspiraron a los investigadores de Alibaba Group y Ant Group a desarrollar VideoComposer, que proporciona una mayor controlabilidad espacial y temporal para la síntesis de video. Esto se logra primero descomponiendo un video en sus partes constituyentes: condición textual, condición espacial y condición temporal crítica, y luego utilizando un modelo de difusión latente para reconstruir el video de entrada bajo la influencia de estos elementos. En particular, para registrar explícitamente las dinámicas entre fotogramas y proporcionar un control directo sobre los movimientos internos, el equipo también ofrece el vector de movimiento específico del video como un tipo de guía temporal durante la síntesis de video.

Modelos de secuencia grandes para actividades de desarrollo de software.

Además, introducen un codificador espaciotemporal unificado (STC-encoder) que emplea mecanismos de atención transversal para capturar relaciones espaciotemporales dentro de la entrada secuencial, lo que resulta en una mayor consistencia entre fotogramas de las películas de salida. El STC-encoder también actúa como una interfaz, permitiendo el uso unificado y efectivo de señales de control de una amplia gama de secuencias de condiciones. Por lo tanto, VideoComposer es lo suficientemente adaptable como para componer un video en diversas configuraciones manteniendo la calidad de síntesis consistente.

Es importante destacar que, a diferencia de los enfoques convencionales, el equipo logró manipular los patrones de movimiento con movimientos manuales relativamente sencillos, como una flecha que muestra la trayectoria de la luna. Los investigadores llevan a cabo varias pruebas cualitativas y cuantitativas que demuestran la eficacia de VideoComposer. Los hallazgos muestran que el método logra niveles notables de creatividad en una amplia gama de actividades generativas secundarias.

técnicas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores del Grupo Alibaba y Ant Group presentan VideoComposer un modelo de inteligencia artificial que permite combinar múltiples modalidades como texto, bocetos, estilo e incluso movimiento para impulsar la generación de video.

Was this article helpful?

¡Diseña sistemas de aprendizaje automático efectivos y confiables!

DeepMind presenta AlphaDev un agente de aprendizaje por refuerzo profundo que descubre algoritmos de clasificación más rápidos desde cero.

Investigación

Conoce FourCastNet un modelo global de pronóstico del tiempo impulsado por datos que revoluciona las predicciones meteorológicas con un enfoque de aprendizaje profundo rápido y preciso

Después de los comentaristas, la IA podría reemplazar a los jueces de línea en Wimbledon

Segmentación de Imágenes Una Guía Detallada

Entendiendo las métricas de clasificación tu guía para evaluar la precisión del modelo

Nuevo ataque afecta a importantes chatbots de IA y nadie sabe cómo detenerlo

Explicación intuitiva del promedio móvil exponencial