Esta investigación de IA de Adobe propone un Modelo de Reconstrucción Grande (LRM) que predice el modelo 3D de un objeto a partir de una sola imagen de entrada en 5 segundos’.

La investigación de IA de Adobe presenta un Modelo de Reconstrucción Grande (LRM) que predice el modelo 3D de un objeto en tan solo 5 segundos a partir de una única imagen de entrada

Muchos investigadores han imaginado un mundo en el que cualquier imagen 2D se pueda convertir instantáneamente en un modelo 3D. La investigación en esta área ha sido principalmente motivada por el deseo de encontrar un método genérico y eficiente para lograr este objetivo de larga data, con aplicaciones potenciales que abarcan el diseño industrial, la animación, los videojuegos y la realidad aumentada/virtual. 

Los enfoques basados en el aprendizaje temprano suelen funcionar bien en ciertas categorías, utilizando los datos de la categoría antes de inferir la forma general debido a la ambigüedad inherente de la geometría 3D en una sola mirada. Estudios recientes se han motivado por los desarrollos recientes en generación de imagen, como DALL-E y Stable Diffusion, para aprovechar el increíble potencial de generalización de los modelos de difusión 2D para permitir la supervisión de múltiples vistas. Sin embargo, muchos de estos enfoques requieren un ajuste cuidadoso de parámetros y regulaciones, y su salida está limitada por los modelos generativos 2D preentrenados utilizados en primer lugar.

Utilizando un Modelo de Reconstrucción Grande (LRM, por sus siglas en inglés), investigadores de Adobe Research y la Universidad Nacional de Australia pudieron convertir una sola imagen en 3D. El modelo propuesto utiliza una arquitectura masiva de codificador-decodificador basada en transformers para el aprendizaje basado en datos de representación de objetos 3D a partir de una sola imagen. Cuando se alimenta una imagen en su sistema, se genera una representación de triplanos de un NeRF (un modelo de campo de representación neurales). Específicamente, LRM genera características de imagen utilizando el visual transformer DINO como codificador de imagen preentrenado, y luego aprende un decodificador transformer de imagen-a-triplano para proyectar las características de atención cruzada de la imagen 2D en el triplano 3D, y luego modela de manera de autoatención las relaciones entre los tokens de triplano estructurados espacialmente. Los tokens de salida del decodificador se remodelan y aumentan de tamaño a los mapas de características finales del triplano. Después de eso, pueden decodificar la característica de triplano de cada punto con una percepción de varias capas compartida adicional (MLP) para obtener su color y densidad y llevar a cabo la renderización de volumen, lo que nos permite generar las imágenes desde cualquier punto de vista arbitrario. 

LRM es altamente escalable y eficiente debido a su arquitectura bien diseñada. Los triplanos NeRF son amigables computacionalmente en comparación con otras representaciones como volúmenes y nubes de puntos, lo que los convierte en una representación 3D simple y escalable. Además, su proximidad a la entrada de imágenes es superior a la tokenización de los pesos del modelo NeRF de Shap-E. Además, el LRM se entrena simplemente minimizando la diferencia entre las imágenes renderizadas y las imágenes de referencia en vistas novedosas, sin regulación excesiva 3D o una sintonización delicada de hiperparámetros, lo que hace que el modelo sea muy eficiente en entrenamiento y adaptable a una amplia variedad de conjuntos de datos de imágenes de múltiples vistas.

LRM es el primer modelo de reconstrucción 3D a gran escala, con más de 500 millones de parámetros aprendibles y datos de entrenamiento que consisten en aproximadamente un millón de formas 3D y videos de una amplia variedad de categorías; esto representa un aumento significativo en tamaño en comparación con métodos más recientes, que utilizan redes relativamente menos profundas y conjuntos de datos más pequeños. Los resultados experimentales demuestran que LRM puede reconstruir formas 3D de alta fidelidad a partir de fotos del mundo real y de modelos generativos. Además, LRM es una herramienta muy útil para el escalado de imágenes.

El equipo planea enfocarse en las siguientes áreas para sus futuros estudios:

  1. Aumentar el tamaño del modelo y los datos de entrenamiento utilizando el diseño más simple basado en transformers posible con poca regulación.
  2. Extenderlo a modelos generativos multimodales en 3D.

Algunas de las tareas realizadas por diseñadores en 3D podrían ser automatizadas con la ayuda de modelos de reconstrucción de imagen a 3D como LRM. También es importante tener en cuenta que estas tecnologías pueden aumentar potencialmente el crecimiento y la accesibilidad en el sector creativo. 

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

DeepSeek abre el código fuente del modelo DeepSeek-67B El último rival del ChatGPT proveniente de China

La startup china de IA DeepSeek AI ha iniciado una nueva era en los grandes modelos de lenguaje (LLM, por sus siglas ...

Inteligencia Artificial

ChatGPT Plugins Todo lo que necesitas saber

Aprenda más sobre los complementos de terceros que OpenAI ha lanzado para comprender ChatGPTs en uso en el mundo real.

Inteligencia Artificial

China redacta reglas para la tecnología de reconocimiento facial

La Administración del Ciberespacio de China ha emitido normas provisionales que regulan el uso de la tecnología de re...

Inteligencia Artificial

OpenAI se hace cargo de la Iluminación Global; Celebra su primera adquisición empresarial

En un movimiento que provoca repercusiones en el mundo tecnológico, OpenAI, la fuerza pionera en inteligencia artific...

Inteligencia Artificial

Este documento de IA explora la comprensión del espacio latente de los modelos de difusión a través de la geometría de Riemann.

Con la creciente popularidad de la Inteligencia Artificial y el Aprendizaje Automático, sus principales subcampos, co...