Una nueva investigación de IA de China propone 4K4D una representación en nube de puntos 4D que admite rasterización de hardware y permite una velocidad de renderizado sin precedentes
Una revolucionaria investigación de IA de China propone 4K4D una innovadora representación en la nube de puntos 4D que permite una velocidd de renderizado sin precedentes y una excelente capacidad de rasterización de hardware
La síntesis de vista dinámica es el proceso de reconstrucción de escenas 3D dinámicas a partir de videos capturados y la creación de reproducción virtual inmersiva. Este proceso ha sido un problema de investigación de larga data en visión por computadora y gráficos, un proceso que tiene un gran potencial en el campo de la realidad virtual/aumentada, la transmisión de deportes y la captura de actuaciones artísticas.
Los métodos tradicionales para representar escenas 3D dinámicas utilizan secuencias de mallas texturizadas, pero estos métodos son complejos y computacionalmente costosos, lo que los hace impracticables para aplicaciones en tiempo real.
En los últimos tiempos, algunos métodos han producido grandes resultados en cuanto a la síntesis de vista dinámica, mostrando una calidad de renderización impresionante. Sin embargo, una área en la que aún necesitan mejorar es la latencia durante la renderización de imágenes de alta calidad. Este artículo de investigación presenta 4K4D, una representación de nube de puntos 4D que admite rasterización de hardware y permite una renderización rápida.
- El poder de los codificadores y decodificadores avanzados en la IA generativa
- Aplicaciones del AIoT que se utilizan hoy en día
- 7 Formas de Utilizar ChatGPT 4Vision como un Experto
4K4D representa escenas 3D basadas en una cuadrícula 4D de características, es decir, como un vector de 4 características. Dicha representación hace que los puntos en la cuadrícula sean regulares y más fáciles de optimizar. El modelo primero representa la geometría y forma de los objetos en el video de entrada utilizando un algoritmo de tallado espacial y una red neuronal para aprender cómo representar la escena 3D a partir de la nube de puntos. Luego se desarrolla un algoritmo de “depth peeling” diferencial para renderizar la representación de la nube de puntos, y se aprovecha un rasterizador de hardware para mejorar la velocidad de renderización.
Para aumentar la velocidad de renderización, se aplican las siguientes técnicas de aceleración:
- Algunos parámetros del modelo se precalculan y se almacenan en memoria, lo que permite que la tarjeta gráfica renderice la escena más rápido.
- La precisión del modelo se reduce de float de 32 bits a float de 16 bits. Esto aumenta los FPS en un 20 sin ninguna pérdida de rendimiento visible.
- Por último, se reduce la cantidad de pasadas de renderización requeridas para el algoritmo de “depth peeling”, lo que también aumenta los FPS en un 20 sin ningún cambio visible en la calidad.
Los investigadores evaluaron el rendimiento de 4K4D en múltiples conjuntos de datos como DNA-Rendering, ENeRF-Outdoor, etc. El método de los investigadores para renderizar escenas 3D puede renderizarse a más de 400 FPS a 1080p en el primer conjunto de datos y a 80 FPS a 4K en el segundo conjunto. Esto es 30 veces más rápido que el método de síntesis de vista dinámica en tiempo real de última generación ENeRF, y además con una calidad de renderización superior. El conjunto de datos ENeRF Outdoor es bastante desafiante, con múltiples actores. Aún así, 4K4D pudo producir mejores resultados en comparación con otros modelos, que generaron resultados borrosos y mostraron artefactos negros alrededor de los bordes de la imagen en algunas de las renderizaciones.
En conclusión, 4K4D es un nuevo método que tiene como objetivo abordar el problema de la lenta velocidad de renderización cuando se trata de la síntesis de vista en tiempo real de escenas 3D dinámicas a una resolución de 4K. Es una representación basada en nube de puntos neuronales que logra una calidad de renderización de última generación y exhibe un aumento de más de 30 veces en la velocidad de renderización. Sin embargo, hay un par de limitaciones, como los altos requisitos de almacenamiento para videos largos y el establecimiento de correspondencias de puntos entre fotogramas, que los investigadores planean abordar en trabajos futuros.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Recogiendo datos con Apache Airflow en una Raspberry Pi
- PyrOSM trabajando con datos de Open Street Map
- Python para Ingenieros de Datos
- CountVectorizer para extraer características de textos en Python, en detalle
- Nueve reglas para validar formalmente algoritmos de Rust con Dafny (Parte 2)
- ¡Oh, ¿Querías decir Gestionar el cambio?
- El Lado No Contado de RAG Abordando sus Desafíos en Búsquedas Específicas de Dominio