La modelación en 3D se basa en la inteligencia artificial

La modelación 3D se basa en IA

Crédito: Andrij Borys Associates, Shutterstock.AI

La representación gráfica siempre ha girado en torno a una premisa básica: un rendimiento más rápido equivale a una mejor experiencia. Por supuesto, las unidades de procesamiento gráfico (GPU) que renderizan las imágenes tridimensionales (3D) complejas utilizadas en videojuegos, realidad aumentada y realidad virtual solo pueden impulsar el rendimiento visual hasta cierto punto antes de alcanzar un límite de hardware. Además, a medida que la Ley de Moore se desvanece en la historia, la posibilidad de obtener mejoras adicionales disminuye.

Todo esto ha llevado a los investigadores por el camino de la inteligencia artificial, incluido el uso de redes neuronales, para desbloquear mejoras en velocidad y calidad en los gráficos 3D. En 2022, por ejemplo, Nvidia presentó DLSS 3 (Deep Learning Super Sampling), un motor gráfico neural que aumenta la velocidad de renderizado hasta en un 530%. La tecnología utiliza el aprendizaje automático para predecir qué píxeles se pueden crear sobre la marcha utilizando la GPU.

Estas suposiciones o alucinaciones cambian radicalmente el renderizado 3D. “Durante décadas, hemos invertido en algoritmos que pueden modelar de manera más precisa objetos y luz, así como la forma en que interactúan en tiempo real”, dice Bryan Catanzaro, vicepresidente de investigación aplicada de aprendizaje profundo en Nvidia. “La IA crea la oportunidad de identificar correlaciones en las señales del proceso de renderizado gráfico”, lo que hace posible minimizar el trabajo intensivo en cálculos que socava la velocidad y consume recursos.

Depender de la IA para predecir la creación de píxeles redefine fundamentalmente los gráficos por computadora. Además de Nvidia, Intel y AMD han introducido marcos de modelado 3D que utilizan atajos similares para renderizar gráficos más rápidos, generalmente sin ninguna degradación notable en la calidad de la imagen. Sin embargo, todo esto podría ser solo el comienzo. Pronto, el campo en crecimiento también podría generar nuevas formas de gráficos combinando herramientas de IA generativas como Dall-E 2 de Open AI y el marco MiP-NeRF de Google con DLSS.

“La IA es simplemente mejor para adivinar los píxeles faltantes que los modelos artesanales que usábamos años atrás”, dice Anton van den Hengel, director de ciencia aplicada en Amazon y director del Centro de Razonamiento Aumentado de la Universidad de Adelaide en Australia. “Estamos ingresando a una era mucho más avanzada del modelado 3D”.

Volver al inicio

Jugando con todos los ángulos

El fotorrealismo siempre ha sido el Santo Grial del modelado 3D. En la década de 1990, los investigadores comenzaron a desentrañar los secretos de los gráficos 3D y durante las décadas siguientes, especialmente después de la llegada de las GPU, los videojuegos y otras aplicaciones intensivas en gráficos han evolucionado notablemente. Sin embargo, estos sistemas siguen enfrentando un problema básico de física: generar gráficos en tiempo real, en gran medida un ejercicio de geometría, requiere mucha potencia de GPU y simplemente aumentar la fuerza bruta solo puede acelerar las cosas de manera incremental.

El desafío crece exponencialmente con modelos complejos que involucran docenas o cientos de objetos y ángulos posibles, o cuando los cálculos se realizan en la nube. Por ejemplo, no es una tarea sencilla mostrar un enjambre de mariposas o cabello humano; las cosas se vuelven aún más difíciles cuando objetos sintéticos aparecen sobre un fondo en constante cambio. “Las imágenes realistas requieren una comprensión profunda de la física del transporte de la luz y la forma en que funciona la creación de imágenes en relación con las matemáticas”, dice Jon Barron, investigador principal en Google. “Solo se pueden usar tantas técnicas basadas en hardware”.

Las cosas se vuelven aún más complejas cuando la realidad aumentada, la realidad virtual y el emergente metaverso entran en juego. “A pesar de toda la charla sobre la realidad aumentada y la realidad virtual, tenemos muy poco para mostrar”, dice van den Hengel. “Durante años, hemos estado escuchando que estas tecnologías van a cambiar el mundo y que están a la vuelta de la esquina, pero aún no han llegado del todo. Para llegar a un modelado 3D ultrarrealista y útil, es necesario ir más allá del hardware e incorporar la IA”.

Los avances en hardware de las GPU no pueden resolver el problema, principalmente porque los ingenieros están agotando las formas de exprimir más transistores en los chips. En lugar de que los gráficos 3D alcancen su límite lógico, un enfoque basado en software, como DLSS, se está convirtiendo en clave para desbloquear ganancias de velocidad mientras se reducen las demandas energéticas de los ciclos de cómputo. “La IA tiene el poder intrínseco de llenar la brecha de información” y mejorar la calidad de las imágenes generadas por computadora, dice Shigeru Kuriyama, profesor en el Laboratorio de IA Visual de la Universidad de Tecnología de Toyohashi en Japón.

Volver al inicio

La IA altera el modelo

Alrededor de 2010, cuando los investigadores descubrieron que podían reutilizar las GPU para entrenar modelos de aprendizaje profundo, la escena de modelado y renderizado 3D comenzó a cambiar drásticamente. Nvidia presentó la primera versión de DLSS en 2018 y ha evolucionado a través de tres iteraciones para convertirse en una fuerza dominante en los gráficos 3D. Sin DLSS, simplemente no sería posible renderizar rápidamente ni representar de manera fotorrealista. “Incluso la GPU más potente no podría generar modelos 3D ray-traced de alta calidad en tiempo real. Los juegos y aplicaciones que se ejecutan en ellos no serían disfrutables”, dice Catanzaro.

DLSS 3 tiene éxito al predecir qué píxeles reales se pueden intercambiar de forma dinámica por píxeles generados por IA. Una tecnología de hardware llamada Acelerador de Flujo Óptico compara los fotogramas e identifica oportunidades para realizar cambios. b DLSS 3 se entrenó con miles de millones de muestras y el conjunto de entrenamiento resultante se comprimió en un factor de aproximadamente 1,000, según Catanzaro. Una GPU en el dispositivo del usuario determina qué píxeles puede sustituir utilizando el modelo de aprendizaje automático y renderiza las imágenes deseadas con precisión. Es un poco como el programa de televisión “La Ruleta de la Fortuna” o un crucigrama antiguo: una persona puede ver algunas letras y descubrir la palabra correcta. En el modelado 3D, el objetivo es que el modelo de IA encuentre tantas posibles sustituciones para los píxeles reales como sea posible y automatice el intercambio de píxeles.

Cuando Catanzaro y un equipo de Nvidia examinaron el rendimiento de DLSS 3 con un microscopio, descubrieron que el algoritmo de aprendizaje automático renderizaba automáticamente hasta siete de cada ocho píxeles en un juego como Portal. Sorprendentemente, DLSS 3 permite que un sistema pase de aproximadamente 20 fotogramas por segundo a alrededor de 100 utilizando un modelo 3D. Estas ganancias de velocidad y rendimiento son significativas. “La tecnología rompe con las limitaciones convencionales”, dice Catanzaro.

De hecho, las matemáticas que rodean a DLSS 3 y modelos de IA similares son algo asombrosas. Un fotograma en un flujo de video gráfico típico contiene aproximadamente cuatro millones de píxeles, señala Catanzaro. Si el flujo se ejecuta a 100 fotogramas por segundo, la GPU está procesando aproximadamente 400 millones de muestras por segundo. El secreto del éxito radica en el hecho de que los humanos solo necesitan ver un millón o menos de muestras por segundo para estar convencidos de que la escena es real. Una red neuronal entrenada puede determinar qué píxeles son esenciales y renderizarlos de la manera correcta. “Esto hace posible que el modelo funcione en un rango que evita el ruido aleatorio no correlacionado que daría lugar a un modelo insostenible”, dice.

Lo que hace atractivos a los modelos de redes neuronales como DLSS es que introducen una integración inteligente entre hardware y software, dice Kuriyama. Al introducir soluciones basadas en datos y AI desarrolladas para interpolaciones, extrapolaciones, super-resoluciones, escalado y relleno de huecos, la tecnología está alejando a la industria de las tecnologías de fabricación de chips hacia sistemas incrustados de IA, agrega. “Por eso Nvidia, Intel y AMD se toman el asunto tan en serio”, dice.

Volver arriba

Dando forma a un futuro mejor

Nvidia hizo el mayor impacto visual con DLSS 3, pero Intel y AMD también están empujando los límites de rendimiento con sus tecnologías de modelado neuronal. El framework XeSS (Xe Super Sampling) de Intel sirve como un acelerador potenciado por IA que reconstruye datos de subpíxeles a partir de píxeles vecinos. Produce un aumento de rendimiento de aproximadamente 2x. c La arquitectura de gráficos RDNA 3 de AMD incluye un par de aceleradores de IA en cada unidad de cómputo. AMD afirma que el framework ofrece una aceleración cercana a un factor de 2.7x con un 50% más de trazado de rayos por CU. d

No obstante, el renderizado acelerado a través del aprendizaje profundo aún se encuentra en etapas iniciales. Un problema es que DLSS 3 y otros modelos de IA no son suficientes para mostrar ciertos tipos de efectos, lo que puede provocar temblores o un efecto parpadeante, así como otros tipos de artefactos. También puede haber distorsión, especialmente para imágenes animadas complejas con un alto nivel de detalle o cuando una escena cambia rápidamente. “Estos sistemas no pueden renderizar estas imágenes de manera de alta calidad, para las escenas específicas donde el aprendizaje es insuficiente”, señala Kuriyama.

La realidad aumentada, el metaverso y una realidad virtual más realista exigen más capacidades. La capacidad de la IA para generar un mayor nivel de detalle de objetos es solo parte del desafío. También será necesario ir más allá de los mundos imaginarios y combinar gráficos 3D generados por computadora con hitos físicos reales como tiendas, cafeterías y sitios históricos. Además, Barron señala, se necesita un mejor modelado 3D para avanzar en la robótica y los vehículos autónomos. “Estos dispositivos envían y reciben datos 3D, por lo que cualquier cosa que pueda reducir los datos requeridos para los cálculos es valiosa”.

La modelización neural en 3D también podría revolucionar la inteligencia artificial generativa. Por ejemplo, Google ha desarrollado un marco llamado MiP-NeRF 360 que utiliza IA para generar representaciones fotorrealistas de 360 grados de objetos. Barron y otros están experimentando con modelos de difusión que generan imágenes en 3D utilizando texto y técnicas de difusión en 2D. Combinar un motor como Dall-E 2 de Open AI o Dream Fusion de Google con herramientas como DLSS permite ampliar las capacidades de modelado en 3D, dice Catanzaro. “Es probablemente la próxima frontera en el modelado en 3D.”

Nadie cuestiona el valor de las técnicas de renderizado neural en 3D. Además, es casi seguro que datos de entrenamiento adicionales impulsarán futuros avances en una amplia gama de herramientas y tecnologías. “Justo cuando la Ley de Moore está expirando y los gráficos habituales se han encontrado con un obstáculo, la IA ha aparecido como una herramienta valiosa”, concluye Catanzaro. “Nos proporciona métodos nuevos y potentes para impulsar los gráficos, al ser más inteligentes en el proceso de renderizado.

“Estamos al borde de una enorme innovación en el espacio del renderizado en 3D.”

Lecturas adicionales

Poole, B., Jain, A., Barron, J.T., y Mildenhall, B. DreamFusion: Text-to-3D utilizando difusión en 2D.

29 de septiembre de 2022.

https://arxiv.org/abs/2209.14988

Mildenhall, B., Hedman, P., Martin-Brualla, R., Srinivasan, P., y Barron, J.T. NeRF en la oscuridad: síntesis de vista de alto rango dinámico a partir de imágenes en bruto ruidosas.

26 de noviembre de 2021.

https://arxiv.org/abs/2111.13679

Tewari, A., Thies, J. et al Avances en renderizado neural, Computer Graphics Forum, mayo de 2022, páginas 703-735.

https://onlinelibrary.wiley.com/doi/abs/10.1111/cgf.14507

Dundar, A., Gao, J., Tao, A., y Catanzaro, B. Aprendizaje de texturas detalladas para mallas en 3D con modelos generativos. 17 de marzo de 2022. https://doi.org/10.48550/arXiv.2203.09362

Volver arriba

Autor

Samuel Greengard es un autor y periodista radicado en West Linn, OR, EE. UU.

Volver arriba

Notas al pie

a. https://www.nvidia.com/en-us/geforce/news/dlss3-ai-powered-neural-graphics-innovations/

b. https://developer.nvidia.com/docs/drive/drive-os/latest/linux/sdk/common/topics/nv-media_understand/OpticalFlowAccelerator.html

c. https://www.intel.com/content/www/us/en/support/articles/000090031/graphics/intel-arc-dedicated-graphics-family.html

d. https://www.amd.com/en/technologies/rdna

e. https://jonbarron.info/mipnerf360/

f. https://dreamfusion3d.github.io/

©2023 ACM 0001-0782/23/8

Se concede permiso para hacer copias digitales o impresas de parte o la totalidad de este trabajo para uso personal o en el aula sin cargo, siempre y cuando no se hagan o distribuyan copias con fines lucrativos o ventaja comercial y siempre que las copias lleven este aviso y la cita completa en la primera página. Se debe respetar los derechos de autor de los componentes de este trabajo que pertenezcan a otras personas que no sean ACM. Se permite la abstracción con crédito. Para copiar de otra manera, republicar, publicar en servidores o redistribuir en listas, se requiere permiso específico previo y/o una tarifa. Solicite permiso para publicar a [email protected] o por fax al (212) 869-0481.

La Biblioteca Digital es publicada por la Association for Computing Machinery. Copyright © 2023 ACM, Inc.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a Falcon 180B El modelo de lenguaje más grande disponible públicamente con 180 mil millones de parámetros

La demanda de modelos de lenguaje potentes y versátiles se ha vuelto más apremiante en el procesamiento del lenguaje ...

Inteligencia Artificial

Alibaba AI libera en código abierto la serie Qwen que incluye Qwen-1.8B, Qwen-7B, Qwen-14B y Qwen-72B junto con la serie Qwen-Chat.

Con los modelos más recientes de su serie Qwen de modelos de inteligencia artificial de código abierto, Alibaba Cloud...

Noticias de Inteligencia Artificial

La tecnología tiene como objetivo prevenir caídas en los ancianos.

El proyecto Move More Live More en Irlanda del Norte tiene como objetivo prevenir caídas en personas mayores al prede...

Inteligencia Artificial

Automatizando la Cadena del Pensamiento Cómo la IA puede impulsarse a sí misma a razonar

El método de generación automática de Auto-CoT permite que los modelos de lenguaje generen automáticamente sus propia...

Inteligencia Artificial

ChatGPT Plus Desata Emocionantes Nuevas Funciones para Entusiastas de los Datos

OpenAI está lanzando una versión beta que promete cambiar por completo la forma en que nos comunicamos con esta IA de...

Inteligencia Artificial

La retroalimentación colaborativa ayuda a entrenar a los robots

Un enfoque de aprendizaje por refuerzo entrena a los robots utilizando retroalimentación proporcionada por usuarios n...