Las métricas pueden engañar, pero los ojos no Este método de IA propone una métrica de calidad perceptual para la interpolación de cuadros de video
Las métricas pueden engañar, pero los ojos no. Este método de IA propone una métrica de calidad perceptual para la interpolación de cuadros de video.
El avance en la tecnología de visualización ha hecho que nuestra experiencia de visualización sea más intensa y agradable. Ver algo en 4K 60FPS es extremadamente satisfactorio que en 1080P 30FPS. El primero te sumerge en el contenido como si lo estuvieras presenciando. Sin embargo, no todos pueden disfrutar de este contenido, ya que no es fácil de transmitir. Un minuto de video en 4K 60FPS cuesta aproximadamente 6 veces más que en 1080P 30FPS en términos de datos, lo cual no está al alcance de muchos usuarios.
Aunque es posible abordar este problema aumentando la resolución y/o la velocidad de fotogramas del video entregado. Los métodos de superresolución abordan el aumento de la resolución del video, mientras que los métodos de interpolación de video se centran en aumentar el número de fotogramas dentro del video.
La interpolación de fotogramas de video se utiliza para agregar nuevos fotogramas en una secuencia de video mediante la estimación del movimiento entre los fotogramas existentes. Esta técnica se ha utilizado ampliamente en diversas aplicaciones, como video a cámara lenta, conversión de velocidad de fotogramas y compresión de video. El video resultante suele verse más agradable.
- La primera mitad de 2023 desarrollos en Ciencia de Datos e Inteligencia Artificial
- Análisis de imágenes (bio) con Python Leer y cargar imágenes microscópicas utilizando Matplotlib
- Cómo ajustar finamente un LLM para una tarea de preguntas y respuestas (QA) localmente
En los últimos años, la investigación sobre la interpolación de fotogramas de video ha avanzado significativamente. Pueden generar fotogramas intermedios de manera bastante precisa y proporcionar una experiencia de visualización agradable.
Sin embargo, medir la calidad de los resultados de interpolación ha sido una tarea desafiante durante años. Los métodos existentes utilizan principalmente métricas predefinidas para medir la calidad de los resultados de interpolación. Como los resultados de interpolación de fotogramas de video a menudo presentan artefactos únicos, las métricas de calidad existentes a veces no son consistentes con la percepción humana al medir los resultados de interpolación.
Algunos métodos han realizado pruebas subjetivas para obtener mediciones más precisas, pero hacerlo lleva mucho tiempo, con la excepción de algunos métodos que emplean estudios de usuarios. Entonces, ¿cómo podemos medir con precisión la calidad de nuestro método de interpolación de video? Es hora de responder esa pregunta.
![](https://www.marktechpost.com/wp-content/uploads/2023/04/image-25-1024x334.png)
Un grupo de investigadores presentó una métrica de calidad perceptual dedicada para medir los resultados de interpolación de fotogramas de video. Diseñaron una nueva arquitectura de red neuronal para la evaluación de calidad perceptual de video basada en los Transformadores Swin.
La red toma como entrada un par de fotogramas, uno de la secuencia de video original y uno de los fotogramas interpolados. Produce una puntuación que representa la similitud perceptual entre los dos fotogramas. El primer paso para lograr este tipo de red fue preparar un conjunto de datos, y ahí es donde comenzaron. Construyeron un gran conjunto de datos de similitud perceptual de interpolación de fotogramas de video. Este conjunto de datos contiene pares de fotogramas de varios videos, junto con juicios humanos sobre su similitud perceptual. Este conjunto de datos se utiliza para entrenar la red utilizando una combinación de métricas objetivas L1 y SSIM.
![](https://www.marktechpost.com/wp-content/uploads/2023/04/image-24-1024x470.png)
La pérdida L1 mide la diferencia absoluta entre la puntuación predicha y la puntuación real, mientras que la pérdida SSIM mide la similitud estructural entre dos imágenes. Al combinar estas dos pérdidas, la red se entrena para predecir puntuaciones que sean precisas y consistentes con la percepción humana. Una ventaja importante del método propuesto es que no se basa en fotogramas de referencia; por lo tanto, se puede ejecutar en dispositivos del cliente donde generalmente no tenemos esa información disponible.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- GPT4Readability Nunca vuelvas a escribir un README de nuevo
- Liberando la creatividad Explorando las aplicaciones artísticas de la IA generativa
- Guía introductoria completa sobre el reconocimiento de voz a texto con Transformers
- ¿Cómo cambiar tu carrera de Marketing a Ciencia de Datos?
- Reduciendo la huella de carbono en el entrenamiento de IA mediante la optimización
- Investigadores de IA de Google presentan Pic2Word Un nuevo enfoque para la recuperación de imágenes compuestas sin disparo (ZS-CIR)
- Conoce a PoisonGPT Un método de IA para introducir un modelo malicioso en una cadena de suministro de LLM de otra manera confiable