Este artículo de Inteligencia Artificial (IA) de Corea del Sur propone FFNeRV una nueva representación de video por cuadros utilizando mapas de flujo por cuadros y cuadrículas temporales de múltiple resolución

El artículo propone FFNeRV, una nueva representación de video utilizando mapas de flujo por cuadros y cuadrículas temporales de múltiple resolución.

La investigación en campos neuronales, que representan señales mediante la asignación de coordenadas a sus cantidades (por ejemplo, escalares o vectores) con redes neuronales, ha explotado recientemente. Esto ha despertado un mayor interés en utilizar esta tecnología para manejar una variedad de señales, incluyendo audio, imagen, forma 3D y video. El teorema de aproximación universal y las técnicas de codificación de coordenadas proporcionan las bases teóricas para una representación precisa de señales en campos cerebrales. Investigaciones recientes han demostrado su adaptabilidad en compresión de datos, modelos generativos, manipulación de señales y representación básica de señales.

La Figura 1 muestra (a) la estructura general de las representaciones guiadas por flujo propuestas, (b) representaciones de video por cuadros, (c) representaciones de video por píxeles (FFNeRV)

La investigación en campos neuronales, que representan señales mediante la asignación de coordenadas a sus cantidades (por ejemplo, escalares o vectores) con redes neuronales, ha explotado recientemente. Esto ha despertado un mayor interés en utilizar esta tecnología para manejar una variedad de señales, incluyendo audio, imagen, forma 3D y video. El teorema de aproximación universal y las técnicas de codificación de coordenadas proporcionan las bases teóricas para una representación precisa de señales en campos cerebrales. Investigaciones recientes han demostrado su adaptabilidad en compresión de datos, modelos generativos, manipulación de señales y representación básica de señales.

Cada coordenada de tiempo se representa mediante un cuadro de video creado por una pila de capas MLP y convolucionales. En comparación con el diseño básico de campo neuronal, nuestro método reduce considerablemente el tiempo de codificación y supera a las técnicas comunes de compresión de video. Este paradigma es seguido por el recientemente propuesto E-NeRV, al tiempo que mejora la calidad del video. Como se muestra en la Figura 1, ofrecen representaciones neuronales guiadas por flujo para películas (FFNeRV). Insertan flujos ópticos en la representación por cuadros para utilizar la redundancia temporal, inspirándose en los códecs de video comunes. Al combinar cuadros cercanos dirigidos por flujos, FFNeRV crea un cuadro de video que obliga a reutilizar los píxeles de los cuadros anteriores. Alentar a la red a evitar recordar los mismos valores de píxeles en cuadros sucesivos mejora drásticamente la eficiencia de los parámetros.

FFNeRV supera a los algoritmos alternativos por cuadros en compresión de video e interpolación de cuadros, según los resultados experimentales en el conjunto de datos UVG. Sugieren utilizar rejillas temporales de múltiples resoluciones con una resolución espacial fija en lugar de MLP para asignar coordenadas temporales continuas a características latentes correspondientes, para mejorar aún más el rendimiento de compresión. Esto está motivado por las representaciones neuronales basadas en rejillas. Además, sugieren utilizar una arquitectura convolucional más condensada. Utilizan convoluciones grupales y puntuales en las representaciones recomendadas de flujo por cuadros, impulsadas por modelos generativos que producen imágenes de alta calidad y redes neuronales livianas. FFNeRV supera a los códecs de video populares (H.264 y HEVC) y tiene un rendimiento comparable a los algoritmos de compresión de video de vanguardia utilizando entrenamiento consciente de cuantización y codificación de entropía. La implementación del código se basa en NeRV y está disponible en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La Gran Fuga de Datos Genéticos Lo que Necesitas Saber

Se ha iniciado una demanda colectiva contra una empresa de pruebas genéticas debido al robo de datos genéticos person...

Inteligencia Artificial

Stability AI lanza el primer modelo japonés de visión y lenguaje

La creación y formulación de un modelo único y completo capaz de manejar una variedad de tareas definidas por el usua...

Inteligencia Artificial

Software detecta emociones ocultas en los padres

El software puede identificar emociones complejas ocultas mediante el mapeo de rasgos faciales y evaluando las intens...

Inteligencia Artificial

Investigadores del MIT combinan el aprendizaje profundo y la física para corregir las imágenes de resonancia magnética afectadas por el movimiento

El desafío implica más que simplemente una imagen JPEG borrosa. Arreglar los artefactos de movimiento en la imagen mé...

Inteligencia Artificial

Ayudando a la Visión por Computadora y a los Modelos de Lenguaje a Comprender lo que Ven

El Instituto de Tecnología de Massachusetts y otros investigadores desarrollaron una técnica que utiliza datos genera...