Difusión estable de videos Modelos de difusión de video latente para conjuntos de datos grandes

La difusión estable de videos Modelos latentes de difusión de video para conjuntos de datos grandes

La IA generativa ha sido una fuerza impulsora en la comunidad de IA durante algún tiempo, y los avances realizados en el campo de la modelización generativa de imágenes, especialmente con el uso de modelos de difusión, han ayudado significativamente al progreso de los modelos de video generativo, no solo en la investigación, sino también en términos de aplicaciones del mundo real. Convencionalmente, los modelos de video generativo se entrenan desde cero o se ajustan parcial o completamente a partir de modelos de imágenes preentrenados con capas temporales adicionales, en una mezcla de conjuntos de datos de imágenes y videos.

Avanzando en los modelos de video generativo, en este artículo hablaremos sobre el Modelo de Difusión de Video Estable, un modelo de difusión de video latente capaz de generar contenido de imágenes a video y texto a video de alta resolución y de vanguardia. Hablaremos sobre cómo los modelos de difusión latente entrenados para sintetizar imágenes 2D han mejorado las capacidades y la eficiencia de los modelos de video generativo al agregar capas temporales y ajustar los modelos en conjuntos de datos pequeños que consisten en videos de alta calidad. Realizaremos un análisis más profundo de la arquitectura y el funcionamiento del Modelo de Difusión de Video Estable y evaluaremos su rendimiento en diversas métricas y lo compararemos con los marcos actuales de vanguardia para la generación de video. Así que empecemos.

Modelo de Difusión de Video Estable y Modelos de Video Generativo: Una Introducción

Gracias a su potencial casi ilimitado, la IA generativa ha sido el tema principal de investigación para los practicantes de IA y aprendizaje automático por algún tiempo, y los últimos años han visto avances rápidos tanto en términos de eficiencia como de rendimiento de los modelos de imágenes generativas. Los conocimientos adquiridos de los modelos de imágenes generativas han permitido a los investigadores y desarrolladores avanzar en los modelos de video generativo, lo que resulta en una mayor practicidad y aplicaciones del mundo real. Sin embargo, la mayoría de las investigaciones que intentan mejorar las capacidades de los modelos de video generativo se centran principalmente en la disposición exacta de las capas temporales y espaciales, prestando poca atención a investigar la influencia de seleccionar los datos correctos en el resultado de estos modelos generativos.

Gracias al progreso realizado por los modelos de imágenes generativas, los investigadores han observado que el impacto de la distribución de datos de entrenamiento en el rendimiento de los modelos generativos es significativo e indiscutible. Además, los investigadores también han observado que el preentrenamiento de un modelo de imágenes generativas en un conjunto de datos grande y diverso, seguido de su ajuste en un conjunto de datos más pequeño con mejor calidad, a menudo resulta en una mejora significativa del rendimiento. Tradicionalmente, los modelos de video generativo implementan los conocimientos obtenidos de modelos de imágenes generativas exitosos, y los investigadores aún tienen que estudiar el efecto de los datos y las estrategias de entrenamiento. El Modelo de Difusión de Video Estable es un intento de mejorar las capacidades de los modelos de video generativo aventurándose en territorios previamente inexplorados, centrándose especialmente en la selección de datos.

Los modelos de video generativo recientes se basan en modelos de difusión y enfoques de condicionamiento de texto o imágenes para sintetizar múltiples fotogramas de video o imágenes consistentes. Los modelos de difusión son conocidos por su capacidad para aprender cómo desruidizar gradualmente una muestra de una distribución normal mediante la implementación de un proceso de refinamiento iterativo, y han entregado resultados deseables en video de alta resolución y síntesis de texto a imagen. Siguiendo el mismo principio en su núcleo, el Modelo de Difusión de Video Estable entrena un modelo de difusión de video latente en su conjunto de datos de video junto con el uso de Redes Generativas Antagónicas o GAN, y modelos autoregresivos en cierta medida.

El Modelo de Difusión de Video Estable sigue una estrategia única nunca implementada por ningún modelo de video generativo, ya que se basa en líneas de base de difusión de video latente con una arquitectura fija y una estrategia de entrenamiento fija, seguida de evaluar el efecto de curar los datos. El Modelo de Difusión de Video Estable tiene como objetivo realizar las siguientes contribuciones en el campo de la modelización de video generativa.

  1. Presentar un flujo de trabajo sistemático y efectivo de curación de datos en un intento de convertir una gran colección de muestras de video no curadas en un conjunto de datos de alta calidad que luego es utilizado por los modelos de video generativos.
  2. Entrenar modelos de vanguardia de imagen a video y texto a video que superen los marcos existentes.
  3. Realizar experimentos específicos del dominio para investigar la comprensión 3D y la fuerte prioridad del movimiento del modelo.

Ahora, el Modelo de Difusión de Video Estable implementa los conocimientos de los Modelos de Difusión de Video Latente y las técnicas de Curación de Datos en el núcleo de su fundamento.

Modelos de Difusión de Video Latentes

Los Modelos de Difusión de Video Latentes o Video-LDM siguen el enfoque de entrenar el modelo generativo primario en un espacio latente con una complejidad computacional reducida, y la mayoría de los Video-LDMs implementan un modelo texto-imagen preentrenado combinado con la adición de capas de mezcla temporal en la arquitectura de preentrenamiento. Como resultado, la mayoría de los modelos de difusión latente de video solo entrenan capas temporales o incluso omiten por completo el proceso de entrenamiento, a diferencia del Modelo de Difusión de Video Estable, que ajusta finamente todo el marco. Además, para la síntesis de datos de texto a video, el Modelo de Difusión de Video Estable se condiciona directamente a partir de una indicación de texto, y los resultados indican que el marco resultante se puede ajustar finamente para una síntesis multicámara o para un modelo de imagen a video fácilmente.

Curación de Datos

La Curación de Datos es un componente esencial no solo del Modelo de Difusión de Video Estable, sino de los modelos generativos en general, ya que es fundamental preentrenar modelos grandes en conjuntos de datos a gran escala para mejorar el rendimiento en diferentes tareas, como el modelado de lenguaje o la generación de texto-discriminativo a imagen, entre otros. La Curación de Datos se ha implementado con éxito en modelos generativos de imágenes aprovechando las capacidades de las representaciones eficientes de lenguaje-imagen, aunque nunca se ha enfocado en ello para desarrollar modelos generativos de video. Los desarrolladores se enfrentan a varios desafíos al curar datos para modelos generativos de video, y para abordar estos desafíos, el Modelo de Difusión de Video Estable implementa una estrategia de entrenamiento de tres etapas, lo que resulta en mejores resultados y un impulso significativo en el rendimiento.

Curación de Datos para la Síntesis de Video de Alta Calidad

Como se discutió en la sección anterior, el Modelo de Difusión de Video Estable implementa una estrategia de entrenamiento de tres etapas, lo que resulta en mejores resultados y un impulso significativo en el rendimiento. La Etapa I es una etapa de preentrenamiento de imagen que utiliza un modelo de difusión de texto a imagen en 2D. La Etapa II es el preentrenamiento de video, en la que el marco se entrena con una gran cantidad de datos de video. Por último, tenemos la Etapa III para el ajuste fino de video, en la que el modelo se perfecciona en un subconjunto pequeño de videos de alta calidad y alta resolución.

Sin embargo, antes de que el Modelo de Difusión de Video Estable implemente estas tres etapas, es vital procesar y anotar los datos, ya que sirve como base para la Etapa II o la etapa de preentrenamiento de video, y desempeña un papel crítico para garantizar el resultado óptimo. Para garantizar la máxima eficiencia, el marco primero implementa un pipeline de detección de corte en cascada en 3 niveles de fotogramas por segundo (FPS) diferentes, y la necesidad de este pipeline se demuestra en la siguiente imagen.

A continuación, el Modelo de Difusión de Video Estable anota cada clip de video utilizando tres métodos de subtítulos sintéticos diferentes. La siguiente tabla compara los conjuntos de datos utilizados en el Marco de Difusión Estable antes y después del proceso de filtración.

Etapa I: Preentrenamiento de Imagen

La primera etapa en el pipeline de tres etapas implementado en el Modelo de Difusión de Video Estable es el preentrenamiento de imagen, y para lograr esto, el marco inicial del Modelo de Difusión de Video Estable se basa en un modelo de difusión de imagen preentrenado llamado el Modelo de Difusión Estable 2.1, que le proporciona representaciones visuales más sólidas.

Etapa II: Preentrenamiento de Video

La segunda etapa es la etapa de preentrenamiento de video, y se basa en el descubrimiento de que el uso de la curación de datos en modelos generativos multimodales de imagen a menudo produce mejores resultados y una mayor eficiencia, junto con una generación de imagen discriminatoria más poderosa. Sin embargo, debido a la falta de representaciones similares y potentes disponibles para filtrar muestras no deseadas en modelos generativos de video, el Modelo de Difusión de Video Estable se basa en las preferencias humanas como señales de entrada para la creación de un conjunto de datos apropiado utilizado para el preentrenamiento del marco. La siguiente figura demuestra el efecto positivo del preentrenamiento del marco en un conjunto de datos curado que ayuda a impulsar el rendimiento general del preentrenamiento de video en conjuntos de datos más pequeños.

Para ser más específicos, el framework utiliza diferentes métodos para curar subconjuntos de Difusión de Video Latente y considera la clasificación de los modelos LVD entrenados en estos conjuntos de datos. Además, el framework de Difusión de Video Estable también encuentra que el uso de conjuntos de datos curados para entrenar los frameworks ayuda a mejorar el rendimiento del framework y los modelos de difusión en general. Además, la estrategia de curación de datos también funciona en conjuntos de datos más grandes, más relevantes y altamente prácticos. La siguiente figura demuestra el efecto positivo del preentrenamiento del framework en un conjunto de datos curado que ayuda a mejorar el rendimiento general para el preentrenamiento de video en conjuntos de datos más pequeños.

Etapa III: Afinación de Alta Calidad

Hasta la etapa II, el framework de Difusión de Video Estable se centra en mejorar el rendimiento antes del preentrenamiento de video, y en la tercera etapa, el framework pone énfasis en optimizar o mejorar aún más el rendimiento del framework después de la afinación de alta calidad del video, y cómo se logra la transición de la Etapa II a la Etapa III en el framework. En la Etapa III, el framework se basa en técnicas de entrenamiento tomadas de modelos de difusión de imagen latente y aumenta la resolución de los ejemplos de entrenamiento. Para analizar la efectividad de este enfoque, el framework lo compara con tres modelos idénticos que difieren solo en cuanto a su inicialización. El primer modelo idéntico tiene sus pesos inicializados y se salta el proceso de entrenamiento de video, mientras que los otros dos modelos idénticos se inicializan con los pesos tomados de otros modelos de video latente.

Resultados y Descubrimientos

Es hora de ver cómo el framework de Difusión de Video Estable se desempeña en tareas del mundo real y cómo se compara con los frameworks de vanguardia. El framework de Difusión de Video Estable primero utiliza el enfoque de datos óptimos para entrenar un modelo base y luego realiza la afinación para generar varios modelos de vanguardia, donde cada modelo realiza una tarea específica.

La imagen anterior representa las muestras de video de alta resolución generadas por el framework, mientras que la siguiente figura demuestra la capacidad del framework para generar muestras de texto a video de alta calidad.

Modelo Base Pre-Entrenado

Como se discutió anteriormente, el modelo de Difusión de Video Estable se basa en el framework de Difusión Estable 2.1 y, según los descubrimientos recientes, fue crucial para los desarrolladores adoptar el programa de ruido y aumentar el ruido para obtener imágenes con mejor resolución al entrenar modelos de difusión de imágenes. Gracias a este enfoque, el modelo base de Difusión de Video Estable aprende representaciones de movimiento poderosas y, en el proceso, supera a los modelos de referencia para generar videos a partir de texto en una configuración sin entrenamiento previo y los resultados se muestran en la siguiente tabla.

Interpolación de Cuadros y Generación de Vistas Múltiples

El framework de Difusión de Video Estable ajusta el modelo de imagen a video en conjuntos de datos de múltiples vistas para obtener múltiples vistas novedosas de un objeto, y este modelo se conoce como SVD-MV o Modelo de Difusión de Video Estable – Modelo de Múltiples Vistas. El modelo SVD original se ajusta con la ayuda de dos conjuntos de datos de manera que el framework ingresa una imagen única y devuelve una secuencia de imágenes de múltiples vistas como salida.

Como se puede ver en las siguientes imágenes, el framework de Difusión de Video Estable Multi Vista ofrece un alto rendimiento comparable al framework de Scratch Multi Vista de vanguardia, y los resultados son una clara demostración de la capacidad de SVD-MV para aprovechar los conocimientos obtenidos del framework SVD original para la generación de imágenes de múltiples vistas. Además, los resultados también indican que ejecutar el modelo durante un número relativamente menor de iteraciones ayuda a obtener resultados óptimos, como es el caso con la mayoría de los modelos ajustados a partir del framework SVD.

En la figura anterior, las métricas están indicadas en el lado izquierdo y, como se puede ver, el marco de trabajo de Difusión Multi Vista de Video Estable supera en gran medida a Scratch-MV y al marco de trabajo SD2.1 Multi-Vista. La segunda imagen muestra el efecto del número de iteraciones de entrenamiento en el rendimiento general del marco de trabajo en términos de Puntuación de Clip, y los marcos de trabajo de SVD-MV ofrecen resultados sostenibles.

Reflexiones Finales

En este artículo, hemos hablado sobre la Difusión de Video Estable, un modelo de difusión de video latente capaz de generar contenido de imagen a video y texto a video de vanguardia y alta resolución. El Modelo de Difusión de Video Estable sigue una estrategia única nunca implementada por ningún modelo generativo de video, ya que se basa en líneas de base de difusión de video latente con una arquitectura fija y una estrategia de entrenamiento fija seguida de evaluar el efecto de curar los datos.

Hemos hablado sobre cómo los modelos de difusión latente entrenados para sintetizar imágenes 2D han mejorado las habilidades y la eficiencia de los modelos generativos de video al agregar capas temporales y afinar los modelos en conjuntos de datos pequeños que consisten en videos de alta calidad. Para recopilar los datos de preentrenamiento, el marco de trabajo realiza estudios de escalado y sigue prácticas sistemáticas de recopilación de datos, y propone finalmente un método para curar una gran cantidad de datos de video y convertir videos ruidosos en datos de entrada adecuados para modelos generativos de video.

Además, el marco de trabajo de Difusión de Video Estable emplea tres etapas de entrenamiento de modelos de video distintas que se analizan de forma independiente para evaluar su impacto en el rendimiento del marco de trabajo. El marco de trabajo finalmente produce una representación de video lo suficientemente potente como para ajustar finamente los modelos para una síntesis de video óptima, y los resultados son comparables a los modelos de generación de video de última generación ya en uso.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Textbooks son todo lo que necesitas Un enfoque revolucionario para la formación en IA

Esta es una descripción general del artículo Los libros de texto son todo lo que necesitas, resaltando el éxito del m...

Inteligencia Artificial

¿Cómo deberíamos ver los datos clínicos sesgados en el aprendizaje automático médico? Un llamado a una perspectiva arqueológica

Investigadores del MIT, la Universidad Johns Hopkins y el Instituto Alan Turing argumentan que lidiar con datos médic...

Inteligencia Artificial

OpenAI se hace cargo de la Iluminación Global; Celebra su primera adquisición empresarial

En un movimiento que provoca repercusiones en el mundo tecnológico, OpenAI, la fuerza pionera en inteligencia artific...

Noticias de Inteligencia Artificial

Robot utiliza una frambuesa falsa para practicar la recolección de frutas.

Los científicos diseñaron un robot que practicó la recolección de frambuesas en una réplica de frambuesa de silicona ...

Inteligencia Artificial

Conoce LoftQ LoRA-Fine-Tuning-Aware Quantization para grandes modelos de lenguaje.

La introducción de los Modelos de Lenguaje Pre-entrenados (PLMs) ha significado un cambio transformador en el campo d...