Conoce Objaverse-XL Un conjunto de datos abierto de más de 10 millones de objetos en 3D.
Objaverse-XL Un conjunto de datos abierto de más de 10 millones de objetos en 3D.
Un avance reciente en IA ha sido la importancia de la escala para impulsar los avances en varios dominios. Los modelos grandes han demostrado capacidades notables en comprensión del lenguaje, generación, aprendizaje de representaciones, tareas multimodales y generación de imágenes. Con un número creciente de parámetros aprendibles, las redes neuronales modernas consumen enormes cantidades de datos. Como resultado, las capacidades exhibidas por estos modelos han experimentado mejoras dramáticas.
Un ejemplo es GPT-2, que rompió barreras de datos consumiendo aproximadamente 30 mil millones de tokens de lenguaje hace unos años. GPT-2 mostró resultados prometedores en pruebas de NLP sin entrenamiento previo. Sin embargo, modelos más nuevos como Chinchilla y LLaMA han superado a GPT-2 consumiendo billones de tokens extraídos de la web. Han superado fácilmente a GPT-2 en términos de pruebas y capacidades. En visión por computadora, ImageNet inicialmente consistía en 1 millón de imágenes y era el estándar de oro para el aprendizaje de representaciones. Pero con la ampliación de los conjuntos de datos a miles de millones de imágenes a través de la extracción de la web, conjuntos de datos como LAION5B han producido representaciones visuales potentes, como se ve con modelos como CLIP. El cambio de la recopilación manual de conjuntos de datos a la recopilación de ellos de diversas fuentes a través de la web ha sido clave para esta ampliación de millones a miles de millones de puntos de datos.
Aunque los datos de lenguaje e imagen han aumentado significativamente, otras áreas, como la visión por computadora 3D, todavía necesitan ponerse al día. Tareas como la generación y reconstrucción de objetos 3D dependen de conjuntos de datos pequeños realizados a mano. Por ejemplo, ShapeNet depende de diseñadores profesionales de 3D que utilizan software costoso para crear activos, lo que dificulta el proceso de crowdsourcing y ampliación. La escasez de datos se ha convertido en un cuello de botella para los métodos basados en el aprendizaje en la visión por computadora 3D. La generación de objetos 3D aún está muy por detrás de la generación de imágenes 2D, a menudo dependiendo de modelos entrenados en conjuntos de datos 2D grandes en lugar de ser entrenados desde cero en datos 3D. La creciente demanda e interés en tecnologías de realidad aumentada (AR) y realidad virtual (VR) resaltan aún más la necesidad urgente de ampliar los datos 3D.
- Puedes conservar tu trabajo, pero no será el mismo trabajo
- ¡No, no, no lo pongamos ahí! Este método de IA puede realizar edición de diseño continua con modelos de difusión
- Aproveche el poder de las bases de datos vectoriales influenciando los modelos de lenguaje con información personalizada.
Para abordar estas limitaciones, investigadores del Instituto Allen de IA, la Universidad de Washington, Seattle, la Universidad de Columbia, Stability AI, CALTECH y LAION presentan Objaverse-XL como un conjunto de datos de activos 3D extraídos de la web a gran escala. Los avances rápidos en las herramientas de autoría 3D, junto con la mayor disponibilidad de datos 3D en Internet a través de plataformas como Github, Sketchfab, Thingiverse, Polycam y sitios especializados como el Instituto Smithsonian, han contribuido a la creación de Objaverse-XL. Este conjunto de datos proporciona una variedad y calidad de datos 3D significativamente mayores que los esfuerzos anteriores, como Objaverse 1.0 y ShapeNet. Con más de 10 millones de objetos 3D, Objaverse-XL representa un aumento sustancial en escala, superando los conjuntos de datos anteriores por varias órdenes de magnitud.
La escala y diversidad ofrecidas por Objaverse-XL han ampliado significativamente el rendimiento de los modelos 3D de última generación. En particular, el modelo Zero123-XL, preentrenado con Objaverse-XL, demuestra notables capacidades de generalización sin entrenamiento previo en modalidades desafiantes y complejas. Se desempeña excepcionalmente bien en tareas como la síntesis de vistas nuevas, incluso con entradas diversas como activos fotorrealistas, caricaturas, dibujos y bocetos. De manera similar, PixelNeRF, entrenado para sintetizar vistas nuevas a partir de un pequeño conjunto de imágenes, muestra mejoras notables cuando se entrena con Objaverse-XL. La ampliación de los datos de preentrenamiento de mil activos a 10 millones muestra consistentemente mejoras, resaltando la promesa y las oportunidades habilitadas por los datos a escala web.
Las implicaciones de Objaverse-XL van más allá del ámbito de los modelos 3D. Sus aplicaciones potenciales abarcan la visión por computadora, los gráficos, la realidad aumentada y la IA generativa. La reconstrucción de objetos 3D a partir de imágenes ha sido durante mucho tiempo un desafío en la visión por computadora y los gráficos. Los métodos existentes han explorado diversas representaciones, arquitecturas de red y técnicas de representación diferenciable para predecir formas y texturas 3D a partir de imágenes. Sin embargo, estos métodos se han basado principalmente en conjuntos de datos a pequeña escala como ShapeNet. Con el conjunto de datos significativamente más grande de Objaverse-XL, se pueden lograr nuevos niveles de rendimiento y generalización en la moda sin entrenamiento previo.
Además, la aparición de la IA generativa en 3D ha sido un desarrollo emocionante. Modelos como MCC, DreamFusion y Magic3D han demostrado que se pueden generar formas 3D a partir de indicaciones de lenguaje con la ayuda de modelos de texto a imagen. Objaverse-XL también abre oportunidades para la generación de texto a 3D, lo que permite avances en la modelación de texto a 3D. Al aprovechar el conjunto de datos vasto y diverso, los investigadores pueden explorar nuevas aplicaciones y empujar los límites de la IA generativa en el dominio 3D.
El lanzamiento de Objaverse-XL marca un hito significativo en el campo de los conjuntos de datos 3D. Su tamaño, diversidad y potencial para entrenamiento a gran escala prometen avanzar en la investigación y aplicaciones en el entendimiento 3D. Aunque actualmente Objaverse-XL es más pequeño que los conjuntos de datos imagen-texto a escala de miles de millones, su introducción allana el camino para seguir explorando cómo escalar los conjuntos de datos 3D y simplificar la captura y creación de contenido 3D. Además, trabajos futuros pueden enfocarse en elegir puntos de datos óptimos para entrenamiento y extender Objaverse-XL para beneficiar tareas discriminatorias como segmentación y detección 3D.
En conclusión, la introducción de Objaverse-XL como un conjunto de datos 3D masivo establece el escenario para nuevas y emocionantes posibilidades en visión por computadora, gráficos, realidad aumentada e IA generativa. Al abordar las limitaciones de los conjuntos de datos anteriores, Objaverse-XL proporciona una base para entrenamiento a gran escala y abre vías para investigaciones y aplicaciones innovadoras en el ámbito 3D.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- De ChatGPT a Pi, ¡y te voy a contar por qué!
- Una nueva investigación de inteligencia artificial propone un razonamiento multimodal de cadena de pensamiento en modelos de lenguaje que supera a GPT-3.5 en un 16% (75,17% → 91,68%) en ScienceQA.
- Investigadores de la Universidad de UT Austin presentan PSLD Un método de IA que utiliza difusión estable para resolver todos los problemas lineales sin necesidad de entrenamiento adicional.
- 10 proyectos de SQL principales para análisis de datos
- Investigadores de UC Berkeley proponen FastRLAP un sistema para aprender a conducir a alta velocidad mediante Deep RL (Aprendizaje por Reforzamiento) y práctica autónoma
- Conoce DISCO Una novedosa técnica de IA para la generación de bailes humanos
- Una guía completa para convertir texto en audio con Audio-LDM