Las métricas pueden engañar, pero los ojos no Este método de IA propone una métrica de calidad perceptual para la interpolación de cuadros de video

Las métricas pueden engañar, pero los ojos no. Este método de IA propone una métrica de calidad perceptual para la interpolación de cuadros de video.

El avance en la tecnología de visualización ha hecho que nuestra experiencia de visualización sea más intensa y agradable. Ver algo en 4K 60FPS es extremadamente satisfactorio que en 1080P 30FPS. El primero te sumerge en el contenido como si lo estuvieras presenciando. Sin embargo, no todos pueden disfrutar de este contenido, ya que no es fácil de transmitir. Un minuto de video en 4K 60FPS cuesta aproximadamente 6 veces más que en 1080P 30FPS en términos de datos, lo cual no está al alcance de muchos usuarios.

Aunque es posible abordar este problema aumentando la resolución y/o la velocidad de fotogramas del video entregado. Los métodos de superresolución abordan el aumento de la resolución del video, mientras que los métodos de interpolación de video se centran en aumentar el número de fotogramas dentro del video.

La interpolación de fotogramas de video se utiliza para agregar nuevos fotogramas en una secuencia de video mediante la estimación del movimiento entre los fotogramas existentes. Esta técnica se ha utilizado ampliamente en diversas aplicaciones, como video a cámara lenta, conversión de velocidad de fotogramas y compresión de video. El video resultante suele verse más agradable.

En los últimos años, la investigación sobre la interpolación de fotogramas de video ha avanzado significativamente. Pueden generar fotogramas intermedios de manera bastante precisa y proporcionar una experiencia de visualización agradable.

Sin embargo, medir la calidad de los resultados de interpolación ha sido una tarea desafiante durante años. Los métodos existentes utilizan principalmente métricas predefinidas para medir la calidad de los resultados de interpolación. Como los resultados de interpolación de fotogramas de video a menudo presentan artefactos únicos, las métricas de calidad existentes a veces no son consistentes con la percepción humana al medir los resultados de interpolación.

Algunos métodos han realizado pruebas subjetivas para obtener mediciones más precisas, pero hacerlo lleva mucho tiempo, con la excepción de algunos métodos que emplean estudios de usuarios. Entonces, ¿cómo podemos medir con precisión la calidad de nuestro método de interpolación de video? Es hora de responder esa pregunta.

Artefactos únicos causados por la interpolación de video. Fuente: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

Un grupo de investigadores presentó una métrica de calidad perceptual dedicada para medir los resultados de interpolación de fotogramas de video. Diseñaron una nueva arquitectura de red neuronal para la evaluación de calidad perceptual de video basada en los Transformadores Swin.

La red toma como entrada un par de fotogramas, uno de la secuencia de video original y uno de los fotogramas interpolados. Produce una puntuación que representa la similitud perceptual entre los dos fotogramas. El primer paso para lograr este tipo de red fue preparar un conjunto de datos, y ahí es donde comenzaron. Construyeron un gran conjunto de datos de similitud perceptual de interpolación de fotogramas de video. Este conjunto de datos contiene pares de fotogramas de varios videos, junto con juicios humanos sobre su similitud perceptual. Este conjunto de datos se utiliza para entrenar la red utilizando una combinación de métricas objetivas L1 y SSIM.

Estructura de red propuesta. Fuente: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

La pérdida L1 mide la diferencia absoluta entre la puntuación predicha y la puntuación real, mientras que la pérdida SSIM mide la similitud estructural entre dos imágenes. Al combinar estas dos pérdidas, la red se entrena para predecir puntuaciones que sean precisas y consistentes con la percepción humana. Una ventaja importante del método propuesto es que no se basa en fotogramas de referencia; por lo tanto, se puede ejecutar en dispositivos del cliente donde generalmente no tenemos esa información disponible.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Las métricas pueden engañar, pero los ojos no Este método de IA propone una métrica de calidad perceptual para la interpolación de cuadros de video

Was this article helpful?

La primera mitad de 2023 desarrollos en Ciencia de Datos e Inteligencia Artificial

Automatización de tareas de aprendizaje automático Cómo MLCopilot utiliza LLM para ayudar a los desarrolladores a optimizar los procesos de ML

Inteligencia Artificial

Aplicación de juegos bilingües tiene como objetivo combatir la demencia

AI Surge El CEO de Stability AI predice pérdidas de empleo para los desarrolladores indios en un plazo de 2 años

Investigadores de la Universidad de Columbia y Apple presentan Ferret un revolucionario modelo de lenguaje multimodal para la comprensión y descripción avanzada de imágenes.

NVIDIA AI presenta SteerLM un nuevo método de inteligencia artificial que permite a los usuarios personalizar las respuestas de los grandes modelos de lenguaje (LLMs) durante la inferencia.

¿Podrían ser los Parches? Este enfoque de IA analiza el principal contribuyente al éxito de los Transformadores de Visión

Las ratas utilizan la imaginación para navegar en realidad virtual