Conoce AnimateDiff un marco de IA efectivo para ampliar los modelos de texto a imagen personalizados (T2I) en un generador de animaciones sin necesidad de ajustes específicos del modelo.

Conoce AnimateDiff, un marco de IA efectivo para generar animaciones personalizadas sin ajustes específicos del modelo.

Los modelos generativos de texto a imagen (T2I) han atraído una atención sin precedentes tanto dentro como fuera de la comunidad de investigación, sirviendo como un punto de entrada de bajo nivel para usuarios no investigadores como artistas y aficionados para participar en la creación de contenido asistida por IA. Se sugieren varias técnicas de personalización ligeras, como DreamBooth y LoRA, para permitir la adaptación personalizada de estos modelos en conjuntos de datos pequeños con un dispositivo de consumo como una computadora portátil con un RTX3080, después de lo cual estos modelos pueden producir contenido personalizado con una calidad notablemente mejorada. Estas técnicas tienen como objetivo fomentar la creatividad de los modelos generativos T2I existentes.

Esto permite a los usuarios agregar rápidamente y asequiblemente ideas o estéticas frescas a un modelo T2I pre-entrenado, lo que ha llevado a la proliferación de modelos personalizados creados por profesionales y aficionados en sitios web de intercambio de modelos como CivitAI y Huggingface. Aunque los modelos personalizados de texto a imagen desarrollados con DreamBooth o LoRA han sido admirados por su calidad visual excepcional, solo producen imágenes estáticas. La falta de un grado temporal de flexibilidad es el problema principal. Quieren saber si pueden convertir la mayoría de los modelos personalizados actuales de T2I en modelos que creen imágenes animadas manteniendo la calidad visual original a la luz de los diversos usos de la animación.

Incorporar modelado temporal en los modelos T2I iniciales y ajustar los modelos utilizando conjuntos de datos de video son dos recomendaciones recientes de técnicas generadoras de texto a video genéricas. Pero para modelos personalizados de T2I, se vuelve difícil ya que los consumidores a menudo necesitan ayuda para permitirse el ajuste delicado de hiperparámetros, la recolección personalizada de videos y los exigentes recursos informáticos. En este trabajo, investigadores del Laboratorio de Inteligencia Artificial de Shanghai, la Universidad China de Hong Kong y la Universidad de Stanford describen una técnica genérica llamada AnimateDiff que permite la creación de imágenes animadas para cualquier modelo personalizado de T2I sin necesidad de ajustes específicos del modelo y con una consistencia de contenido estéticamente agradable a lo largo del tiempo.

Dado que la mayoría de los modelos personalizados de T2I se derivan del mismo modelo base (como difusión estable) y que recolectar los videos correspondientes para cada dominio personalizado no es factible, recurren a diseñar un módulo de modelado de movimiento que podría finalmente animar la mayoría de los modelos personalizados de T2I. Más específicamente, se agrega un módulo de modelado de movimiento a un modelo base T2I y se ajusta en grandes clips de video, aprendiendo las prioridades de movimiento adecuadas. Es importante destacar que los parámetros del modelo subyacente no se alteran. Después de algunos ajustes finos, demuestran que el T2I personalizado que se creó también puede beneficiarse de las prioridades de movimiento bien aprendidas, creando animaciones atractivas y fluidas.

El módulo de modelado de movimiento puede animar todos los modelos de T2I personalizados relevantes sin necesidad de recolección de datos adicional o entrenamiento personalizado. Prueban su AnimateDiff en varios modelos típicos de DreamBooth y LoRA que incluyen imágenes realistas y de anime. La mayoría de los modelos personalizados de T2I podrían ser animados directamente instalando el módulo de modelado de movimiento hábil sin ningún ajuste especial. Además, descubrieron en la práctica que el módulo de modelado de movimiento podría adquirir las prioridades de movimiento correctas con solo la atención vainilla a lo largo de la dimensión temporal. También muestran cómo se pueden utilizar las prioridades de movimiento en dominios como el anime 2D y la animación 3D. Para hacer esto, su AnimateDiff podría resultar en una línea de base sencilla pero eficiente para la energía personalizada, permitiendo a los consumidores adquirir fácilmente animaciones personalizadas por el pequeño costo de personalizar los modelos de imágenes. El código está disponible en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Inflection-1 La Próxima Frontera de la IA Personal

Presentamos Inflection-1 el LLM interno de Inflection.AI que utiliza Pi.ai y está adaptado a tus necesidades únicas.

Inteligencia Artificial

Desde Guangzhou hasta Los Ángeles, los fabricantes de automóviles deslumbran con vehículos impulsados por inteligencia artificial

Buenas noticias para los amantes de los autos: Dos aclamadas exposiciones de automóviles, que se llevan a cabo desde ...

Inteligencia Artificial

Gran noticia Google retrasa el lanzamiento del modelo de IA Gemini

En un desarrollo inesperado, Google ha decidido posponer el tan esperado lanzamiento de su avanzado modelo de intelig...

Inteligencia Artificial

Las mejores herramientas de Data Warehousing en 2023

Un almacén de datos es un sistema de gestión de datos para informes, análisis y almacenamiento de datos. Es un almacé...