No es el Vader que piensas 3D VADER es un modelo de IA que difunde modelos 3D

No es Vader como piensas, 3D VADER es un modelo de IA que difunde modelos 3D

La generación de imágenes nunca ha sido tan fácil. Con el surgimiento de los modelos de IA generativos, el proceso se ha vuelto realmente fácil de comenzar. Es como si tuvieras un diseñador trabajando para ti y todo lo que necesitas hacer es guiarlo para generar la imagen que te gustaría ver.

Lo mismo se aplica a la edición de imágenes. Estos modelos generativos se pueden utilizar no solo para generar nuevas imágenes, sino también para editar las existentes, gracias a las recientes mejoras proporcionadas por investigaciones extensivas.

Todo esto fue posible gracias a los modelos de difusión de eliminación de ruido. Han transformado por completo el dominio de generación de imágenes. Fue uno de los saltos más grandes que hemos presenciado en esta área. Estos modelos se han aplicado en aplicaciones de imágenes, audio y video.

Sin embargo, falta un componente aquí, si te has dado cuenta. ¿Dónde está la tercera dimensión? La generación de imágenes ya ha llegado a un punto de fotorrealismo y ha habido numerosos intentos de generación de video y audio, que cada día son mejores. Uno puede esperar que también alcancen un nivel realmente realista pronto. Pero, ¿por qué no escuchamos mucho sobre la generación de objetos en 3D?

Vivimos en un mundo en 3D. Se caracteriza por objetos 3D estáticos y dinámicos. Esto hace que sea un desafío formidable cerrar la brecha entre 2D y 3D. Permítanos conocer a 3DVADER, un nuevo desafiante que está tratando de cerrar esta brecha.

3DVADER aborda el desafío central en los modelos generativos 3D: cómo abordar sin problemas los detalles geométricos del mundo 3D con las impresionantes capacidades de las técnicas modernas de generación de imágenes.

3DVADER repiensa cómo diseñamos y entrenamos modelos para contenido 3D. A diferencia de los métodos anteriores, que luchaban con la escalabilidad y la diversidad, esta implementación aborda audazmente estos desafíos, ofreciendo una nueva perspectiva sobre el futuro de la generación de contenido 3D.

3DVADER logra esto con un enfoque único. En lugar de depender de los autoencoders convencionales para el entrenamiento, introduce un decodificador automático volumétrico. Este decodificador automático asigna un vector de 1D a cada objeto, eliminando la necesidad de supervisión en 3D y atendiendo a una amplia gama de categorías de objetos. El enfoque aprende representaciones 3D a partir de observaciones 2D, utilizando la consistencia de renderizado como su principio rector. Esta representación novedosa acomoda partes articuladas, una necesidad para modelar objetos no rígidos.

Visión general de 3DVADER. Fuente: https://arxiv.org/pdf/2307.05445.pdf

Otro problema se refiere al conjunto de datos. Dado que las imágenes y los videos monoculares han constituido la mayor cantidad de datos disponibles, preparar un conjunto de datos 3D sólido y versátil es un problema abierto. A diferencia de enfoques anteriores, que se basan en datos 3D capturados minuciosamente, 3DVADER aprovecha imágenes de múltiples vistas y videos monoculares para generar contenido con conocimiento 3D. Supera los desafíos de la falta de diversidad de las poses de los objetos al ofrecer robustez a la información de posición proporcionada por la verdad, estimada o incluso no proporcionada durante el entrenamiento. Además, 3DVADER se adapta a conjuntos de datos que abarcan múltiples categorías de objetos diversos, lo que resuelve el problema de la escalabilidad.

3DVADER puede generar objetos 3D. Fuente: https://snap-research.github.io/3DVADER/

En general, 3DVADER es un enfoque novedoso para generar activos 3D estáticos y articulados, con un decodificador automático 3D como su núcleo. Se adapta a la utilización de supervisión de cámaras existentes o al aprendizaje de esta información durante el entrenamiento. Logra un rendimiento superior en la generación en comparación con las alternativas de última generación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Qué es MLOps?' El resultado de la traducción es

MLOps es un conjunto de métodos y técnicas para implementar y mantener modelos de aprendizaje automático (ML) en prod...

Inteligencia Artificial

Toma el control NVIDIA NeMo SteerLM permite a las empresas personalizar las respuestas de un modelo durante la inferencia

Los desarrolladores tienen un nuevo volante de conducción asistida por IA para ayudarles a mantenerse en la carretera...

Inteligencia Artificial

Robot Sudoroso Puede Ayudar a los Humanos a Comprender el Impacto del Calor Abrasador

Un investigador de la Universidad Estatal de Arizona describió al robot Advanced Newton Dynamic Instrument como 'el p...

Inteligencia Artificial

Experimenta la Realidad Aumentada (AR) directamente con tus propios ojos utilizando la IA

En un avance tecnológico, Brilliant Labs ha revolucionado el mercado de la Realidad Aumentada con su innovadora lente...

Aprendizaje Automático

Implemente un punto final de inferencia de ML sin servidor para modelos de lenguaje grandes utilizando FastAPI, AWS Lambda y AWS CDK.

Para los científicos de datos, trasladar los modelos de aprendizaje automático (ML) desde la prueba de concepto a la ...