Este artículo de Inteligencia Artificial (IA) de Corea del Sur propone FFNeRV una nueva representación de video por cuadros utilizando mapas de flujo por cuadros y cuadrículas temporales de múltiple resolución

El artículo propone FFNeRV, una nueva representación de video utilizando mapas de flujo por cuadros y cuadrículas temporales de múltiple resolución.

La investigación en campos neuronales, que representan señales mediante la asignación de coordenadas a sus cantidades (por ejemplo, escalares o vectores) con redes neuronales, ha explotado recientemente. Esto ha despertado un mayor interés en utilizar esta tecnología para manejar una variedad de señales, incluyendo audio, imagen, forma 3D y video. El teorema de aproximación universal y las técnicas de codificación de coordenadas proporcionan las bases teóricas para una representación precisa de señales en campos cerebrales. Investigaciones recientes han demostrado su adaptabilidad en compresión de datos, modelos generativos, manipulación de señales y representación básica de señales.

La Figura 1 muestra (a) la estructura general de las representaciones guiadas por flujo propuestas, (b) representaciones de video por cuadros, (c) representaciones de video por píxeles (FFNeRV)

Cada coordenada de tiempo se representa mediante un cuadro de video creado por una pila de capas MLP y convolucionales. En comparación con el diseño básico de campo neuronal, nuestro método reduce considerablemente el tiempo de codificación y supera a las técnicas comunes de compresión de video. Este paradigma es seguido por el recientemente propuesto E-NeRV, al tiempo que mejora la calidad del video. Como se muestra en la Figura 1, ofrecen representaciones neuronales guiadas por flujo para películas (FFNeRV). Insertan flujos ópticos en la representación por cuadros para utilizar la redundancia temporal, inspirándose en los códecs de video comunes. Al combinar cuadros cercanos dirigidos por flujos, FFNeRV crea un cuadro de video que obliga a reutilizar los píxeles de los cuadros anteriores. Alentar a la red a evitar recordar los mismos valores de píxeles en cuadros sucesivos mejora drásticamente la eficiencia de los parámetros.

FFNeRV supera a los algoritmos alternativos por cuadros en compresión de video e interpolación de cuadros, según los resultados experimentales en el conjunto de datos UVG. Sugieren utilizar rejillas temporales de múltiples resoluciones con una resolución espacial fija en lugar de MLP para asignar coordenadas temporales continuas a características latentes correspondientes, para mejorar aún más el rendimiento de compresión. Esto está motivado por las representaciones neuronales basadas en rejillas. Además, sugieren utilizar una arquitectura convolucional más condensada. Utilizan convoluciones grupales y puntuales en las representaciones recomendadas de flujo por cuadros, impulsadas por modelos generativos que producen imágenes de alta calidad y redes neuronales livianas. FFNeRV supera a los códecs de video populares (H.264 y HEVC) y tiene un rendimiento comparable a los algoritmos de compresión de video de vanguardia utilizando entrenamiento consciente de cuantización y codificación de entropía. La implementación del código se basa en NeRV y está disponible en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceComputer VisionCountryDeep LearningEditors PickMachine LearningSouth KoreaStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Este artículo de Inteligencia Artificial (IA) de Corea del Sur propone FFNeRV una nueva representación de video por cuadros utilizando mapas de flujo por cuadros y cuadrículas temporales de múltiple resolución

Was this article helpful?

Conoce a Rodin un nuevo marco de inteligencia artificial (IA) para generar avatares digitales en 3D a partir de diversas fuentes de entrada.

Generación rápida y precisa de hologramas acústicos utilizando un marco basado en aprendizaje profundo

Inteligencia Artificial

La Gran Fuga de Datos Genéticos Lo que Necesitas Saber

Stability AI lanza el primer modelo japonés de visión y lenguaje

¿Puede la IA superar a los humanos en tareas de pensamiento creativo? Este estudio proporciona información sobre la relación entre la creatividad humana y el aprendizaje de máquinas.

Software detecta emociones ocultas en los padres

Investigadores del MIT combinan el aprendizaje profundo y la física para corregir las imágenes de resonancia magnética afectadas por el movimiento

Ayudando a la Visión por Computadora y a los Modelos de Lenguaje a Comprender lo que Ven