Explora el poder de las imágenes dinámicas con Text2Cinemagraph una nueva herramienta de IA para la generación de cinemagraphs a partir de indicaciones de texto

Explora el poder de las imágenes dinámicas con Text2Cinemagraph, una herramienta de IA para generar cinemagraphs a partir de texto.

Si eres nuevo en la terminología, quizás te estés preguntando qué son los cinemagraphs, pero puedo asegurarte que probablemente ya te has encontrado con ellos. Los cinemagraphs son ilustraciones visualmente cautivadoras en las que elementos específicos repiten movimientos continuos mientras el resto de la escena permanece quieta. No son imágenes, pero tampoco los podemos catalogar como videos. Proporcionan una forma única de mostrar escenas dinámicas mientras capturan un momento particular.

Con el tiempo, los cinemagraphs han ganado popularidad como videos cortos y GIFs animados en plataformas de redes sociales y sitios web para compartir fotos. También se encuentran comúnmente en periódicos en línea, sitios web comerciales y reuniones virtuales. Sin embargo, crear un cinemagraph es una tarea altamente desafiante, ya que implica capturar videos o imágenes utilizando una cámara y utilizar técnicas semi-automatizadas para generar videos en bucle sin costuras. Este proceso requiere a menudo la participación significativa del usuario, incluida la captura de metraje adecuado, la estabilización de los fotogramas del video, la selección de regiones animadas y estáticas, y la especificación de direcciones de movimiento.

En el estudio propuesto en este artículo, se explora un nuevo problema de investigación, a saber, la síntesis de cinemagraphs basados en texto, para reducir significativamente la dependencia de la captura de datos y los esfuerzos manuales laboriosos. El método presentado en este trabajo captura efectos de movimiento como “agua cayendo” y “río fluyendo” (ilustrados en la figura introductoria), que son difíciles de expresar mediante fotografías estáticas y técnicas de texto a imagen existentes. Un aspecto crucial es que este enfoque amplía la gama de estilos y composiciones que se pueden lograr en los cinemagraphs, permitiendo a los creadores de contenido especificar diversos estilos artísticos y describir elementos visuales imaginativos. El método presentado en esta investigación tiene la capacidad de generar tanto cinemagraphs realistas como escenas creativas o de otro mundo.

Los métodos actuales enfrentan desafíos significativos al abordar esta nueva tarea. Un enfoque es utilizar un modelo de texto a imagen para generar una imagen artística y posteriormente animarla. Sin embargo, los métodos de animación existentes que operan en imágenes individuales tienen dificultades para generar movimientos significativos para entradas artísticas, principalmente debido a que están entrenados en conjuntos de datos de video reales. Construir un conjunto de datos a gran escala de videos en bucle artísticos es impracticable debido a la complejidad de producir cinemagraphs individuales y los diversos estilos artísticos involucrados.

Alternativamente, se pueden utilizar modelos de video basados en texto para generar videos directamente. No obstante, estos métodos a menudo introducen artefactos de parpadeo temporal notables en regiones estáticas y no logran producir los movimientos semiperiódicos deseados.

Se propone un algoritmo denominado Text2Cinemagraph basado en la síntesis de imágenes gemelas para cerrar la brecha entre las imágenes artísticas y los modelos de animación diseñados para videos reales. La descripción general de esta técnica se presenta en la imagen a continuación.

El método genera dos imágenes a partir de una indicación de texto proporcionada por el usuario: una artística y una realista, que comparten el mismo diseño semántico. La imagen artística representa el estilo y apariencia deseados de la salida final, mientras que la imagen realista sirve como una entrada que los modelos de predicción de movimiento actuales procesan más fácilmente. Una vez que se predice el movimiento para la imagen realista, esta información se puede transferir a su contraparte artística, lo que permite la síntesis del cinemagraph final.

Aunque la imagen realista no se muestra como la salida final, desempeña un papel crucial como una capa intermedia que se asemeja al diseño semántico de la imagen artística al ser compatible con los modelos existentes. Para mejorar la predicción del movimiento, se aprovecha información adicional de indicaciones de texto y segmentación semántica de la imagen realista.

Los resultados se informan a continuación.

Este fue el resumen de Text2Cinemagraph, una novedosa técnica de IA para automatizar la generación de cinemagraphs realistas. Si estás interesado y quieres aprender más sobre este trabajo, puedes encontrar más información haciendo clic en los enlaces de abajo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceComputer VisionEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Explora el poder de las imágenes dinámicas con Text2Cinemagraph una nueva herramienta de IA para la generación de cinemagraphs a partir de indicaciones de texto

Was this article helpful?

Introducción práctica a los modelos de Transformer BERT

Aprendizaje automático con efectos mixtos para datos longitudinales y de panel con GPBoost (Parte III)

Inteligencia Artificial

IA que enseña a otras IA

Un Inventario Anidado para la Seguridad del Software, Gestión del Riesgo en la Cadena de Suministro

EU AI Act ¿Un paso prometedor o una apuesta arriesgada para el futuro de la IA?

Resucitando a Vincent van Gogh

¡Construye y juega! ¡Tu propio modelo V&L equipado con LLM!

10 hiperparámetros confusos de XGBoost y cómo ajustarlos como un profesional en 2023.