Esta investigación sobre IA de China presenta 4K4D una representación en la nube de puntos 4D que admite rasterización de hardware y permite una velocidad de renderizado sin precedentes.

4K4D Una revolucionaria representación en la nube de puntos 4D respaldada por la IA de China, con rasterización de hardware y una velocidad de renderizado asombrosa.

La síntesis de vista dinámica es una tarea de visión por computadora y gráfica que intenta reconstruir escenas 3D dinámicas a partir de vídeos capturados y generar una reproducción virtual inmersiva. La practicidad de esta técnica se basa en su capacidad de representación en tiempo real de alta fidelidad, lo que permite su uso en realidad virtual/aumentada, transmisiones deportivas y captura de actuaciones artísticas. Los enfoques convencionales representan escenas 3D dinámicas como secuencias de mallas texturizadas y las reconstruyen utilizando hardware complejo, lo que limita su aplicabilidad a entornos controlados. Las representaciones neuronales implícitas han demostrado recientemente un gran éxito en la reconstrucción de escenas 3D dinámicas a partir de vídeos RGB mediante la renderización diferenciable. Las técnicas desarrolladas recientemente modelan la escena objetivo como un campo de radiancia dinámico y utilizan la renderización volumétrica para sintetizar imágenes, comparándolas con las imágenes de entrada para la optimización. A pesar de lograr resultados impresionantes en la síntesis de vista dinámica, los enfoques existentes suelen requerir segundos o incluso minutos para renderizar una imagen a una resolución de 1080p debido a la evaluación intensiva de recursos de la red.

Motivado por las metodologías de síntesis de vista estática, las técnicas específicas de síntesis de vista dinámica mejoran la velocidad de renderización reduciendo el costo o el número de evaluaciones de red. Empleando estas estrategias, las representaciones conocidas como mapas MLP logran una velocidad de renderización de 41.7 fps para humanos dinámicos en primer plano. Sin embargo, el desafío de la velocidad de renderización persiste, ya que los mapas MLP solo logran un rendimiento en tiempo real al sintetizar imágenes de resolución moderada (384 × 512). Al renderizar imágenes de resolución 4K, su velocidad cae a 1.3 FPS.

El presente estudio presenta una nueva representación neuronal, denominada 4K4D, diseñada para modelar y renderizar escenas 3D dinámicas. 4K4D muestra mejoras significativas sobre los enfoques anteriores de síntesis de vista dinámica en cuanto a velocidad de renderización, manteniendo al mismo tiempo su competitividad en cuanto a calidad de renderización. Una descripción general del sistema se muestra a continuación.

La innovación principal radica en una representación de nube de puntos en 4D y un modelo de apariencia híbrido. Específicamente, para la escena dinámica, se obtiene una secuencia de nube de puntos gruesa utilizando un algoritmo de tallado de espacio, y se modela la posición de cada punto como un vector aprendible. Se introduce una cuadrícula de características en 4D para asignar un vector de características a cada punto, que luego se introduce en redes MLP para predecir el radio del punto, la densidad y los coeficientes armónicos esféricos (SH). La cuadrícula de características en 4D aplica naturalmente una regularización espacial a las nubes de puntos, mejorando la robustez de la optimización. Además, se desarrolla un algoritmo de derretimiento de profundidad diferenciable utilizando el rasterizador de hardware para lograr una velocidad de renderización sin precedentes.

El estudio identifica desafíos en la representación basada en MLP del modelo SH de la apariencia de la escena dinámica. Para abordar esto, se introduce un modelo de mezcla de imágenes para complementar el modelo SH en la representación de la apariencia de la escena. Una elección de diseño importante asegura la independencia de la red de mezcla de imágenes de la dirección de visualización, lo que permite la precomputación después del entrenamiento para mejorar la velocidad de renderización. Sin embargo, esta estrategia introduce un desafío en el comportamiento discreto a lo largo de la dirección de visualización, que se mitiga utilizando el modelo continuo SH. A diferencia de la proyección gaussiana 3D, que utiliza exclusivamente el modelo SH, este modelo de apariencia híbrido aprovecha al máximo la información capturada por las imágenes de entrada, mejorando efectivamente la calidad de renderización.

Experimentos exhaustivos reportados por los autores afirman que 4K4D logra una representación de renderización mucho más rápida, superando notablemente los métodos de vanguardia en términos de calidad de renderización. Según los números, utilizando una GPU RTX 4090, este método logra hasta 400 FPS a una resolución de 1080p y 80 FPS a una resolución de 4K.

A continuación se muestra una comparación visual con técnicas de vanguardia.

Este fue el resumen de 4K4D, una novedosa representación de nube de puntos de IA 4D que admite rasterización de hardware y permite una velocidad de renderización sin precedentes. Si estás interesado y quieres aprender más al respecto, no dudes en consultar los enlaces citados a continuación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Esta investigación sobre IA de China presenta 4K4D una representación en la nube de puntos 4D que admite rasterización de hardware y permite una velocidad de renderizado sin precedentes.

Was this article helpful?

Este artículo de inteligencia artificial del MIT explora la escala de los modelos de aprendizaje profundo para la investigación química.

Training de IA en IA GatorTronGPT a la Vanguardia de las Innovaciones de IA Médica de la Universidad de Florida

Inteligencia Artificial

Meet TableGPT Un marco unificado ajustado que permite a los LLM comprender y operar en tablas utilizando comandos funcionales externos

Google Chrome ahora muestra resúmenes de artículos impulsados por IA para una lectura sin esfuerzo

De los Cristales de Tiempo a los Agujeros de Gusano ¿Cuándo es una Simulación Cuántica Real?

Investigadores cultivan matrices precisas de nanoLEDs

Cómo este investigador ganador de la Turing Award se convirtió en un legendario asesor académico

Potenciando los juegos a otro nivel Sports Vision AI, una startup para transmitir atletismo en todo el mundo