Explora el poder de las imágenes dinámicas con Text2Cinemagraph una nueva herramienta de IA para la generación de cinemagraphs a partir de indicaciones de texto

Explora el poder de las imágenes dinámicas con Text2Cinemagraph, una herramienta de IA para generar cinemagraphs a partir de texto.

Si eres nuevo en la terminología, quizás te estés preguntando qué son los cinemagraphs, pero puedo asegurarte que probablemente ya te has encontrado con ellos. Los cinemagraphs son ilustraciones visualmente cautivadoras en las que elementos específicos repiten movimientos continuos mientras el resto de la escena permanece quieta. No son imágenes, pero tampoco los podemos catalogar como videos. Proporcionan una forma única de mostrar escenas dinámicas mientras capturan un momento particular.

Con el tiempo, los cinemagraphs han ganado popularidad como videos cortos y GIFs animados en plataformas de redes sociales y sitios web para compartir fotos. También se encuentran comúnmente en periódicos en línea, sitios web comerciales y reuniones virtuales. Sin embargo, crear un cinemagraph es una tarea altamente desafiante, ya que implica capturar videos o imágenes utilizando una cámara y utilizar técnicas semi-automatizadas para generar videos en bucle sin costuras. Este proceso requiere a menudo la participación significativa del usuario, incluida la captura de metraje adecuado, la estabilización de los fotogramas del video, la selección de regiones animadas y estáticas, y la especificación de direcciones de movimiento.

En el estudio propuesto en este artículo, se explora un nuevo problema de investigación, a saber, la síntesis de cinemagraphs basados en texto, para reducir significativamente la dependencia de la captura de datos y los esfuerzos manuales laboriosos. El método presentado en este trabajo captura efectos de movimiento como “agua cayendo” y “río fluyendo” (ilustrados en la figura introductoria), que son difíciles de expresar mediante fotografías estáticas y técnicas de texto a imagen existentes. Un aspecto crucial es que este enfoque amplía la gama de estilos y composiciones que se pueden lograr en los cinemagraphs, permitiendo a los creadores de contenido especificar diversos estilos artísticos y describir elementos visuales imaginativos. El método presentado en esta investigación tiene la capacidad de generar tanto cinemagraphs realistas como escenas creativas o de otro mundo.

Los métodos actuales enfrentan desafíos significativos al abordar esta nueva tarea. Un enfoque es utilizar un modelo de texto a imagen para generar una imagen artística y posteriormente animarla. Sin embargo, los métodos de animación existentes que operan en imágenes individuales tienen dificultades para generar movimientos significativos para entradas artísticas, principalmente debido a que están entrenados en conjuntos de datos de video reales. Construir un conjunto de datos a gran escala de videos en bucle artísticos es impracticable debido a la complejidad de producir cinemagraphs individuales y los diversos estilos artísticos involucrados.

Alternativamente, se pueden utilizar modelos de video basados en texto para generar videos directamente. No obstante, estos métodos a menudo introducen artefactos de parpadeo temporal notables en regiones estáticas y no logran producir los movimientos semiperiódicos deseados.

Se propone un algoritmo denominado Text2Cinemagraph basado en la síntesis de imágenes gemelas para cerrar la brecha entre las imágenes artísticas y los modelos de animación diseñados para videos reales. La descripción general de esta técnica se presenta en la imagen a continuación.

https://arxiv.org/abs/2307.03190

El método genera dos imágenes a partir de una indicación de texto proporcionada por el usuario: una artística y una realista, que comparten el mismo diseño semántico. La imagen artística representa el estilo y apariencia deseados de la salida final, mientras que la imagen realista sirve como una entrada que los modelos de predicción de movimiento actuales procesan más fácilmente. Una vez que se predice el movimiento para la imagen realista, esta información se puede transferir a su contraparte artística, lo que permite la síntesis del cinemagraph final.

Aunque la imagen realista no se muestra como la salida final, desempeña un papel crucial como una capa intermedia que se asemeja al diseño semántico de la imagen artística al ser compatible con los modelos existentes. Para mejorar la predicción del movimiento, se aprovecha información adicional de indicaciones de texto y segmentación semántica de la imagen realista.

Los resultados se informan a continuación.

https://arxiv.org/abs/2307.03190

Este fue el resumen de Text2Cinemagraph, una novedosa técnica de IA para automatizar la generación de cinemagraphs realistas. Si estás interesado y quieres aprender más sobre este trabajo, puedes encontrar más información haciendo clic en los enlaces de abajo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

IA que enseña a otras IA

Los científicos demostraron que los robots pueden ser entrenados para entrenar a otros robots compartiendo sus conoci...

Inteligencia Artificial

EU AI Act ¿Un paso prometedor o una apuesta arriesgada para el futuro de la IA?

La Ley de la UE sobre IA es la primera ley de regulación internacional sobre IA. Su objetivo es garantizar el desarro...

Inteligencia Artificial

Resucitando a Vincent van Gogh

En el Musée d'Orsay de París, una réplica de Vincent van Gogh conversa con los visitantes, ofreciendo ideas sobre su ...

Inteligencia Artificial

¡Construye y juega! ¡Tu propio modelo V&L equipado con LLM!

Los modelos de lenguaje grandes (LLM) están demostrando cada vez más su valor. La incorporación de imágenes en los LL...

Ciencia de Datos

10 hiperparámetros confusos de XGBoost y cómo ajustarlos como un profesional en 2023.

Un tutorial detallado y visual sobre cómo ajustar 10 de los hiperparámetros más confusos de XGBoost con Optuna.