Conoce Objaverse-XL Un conjunto de datos abierto de más de 10 millones de objetos en 3D.

Objaverse-XL Un conjunto de datos abierto de más de 10 millones de objetos en 3D.

Un avance reciente en IA ha sido la importancia de la escala para impulsar los avances en varios dominios. Los modelos grandes han demostrado capacidades notables en comprensión del lenguaje, generación, aprendizaje de representaciones, tareas multimodales y generación de imágenes. Con un número creciente de parámetros aprendibles, las redes neuronales modernas consumen enormes cantidades de datos. Como resultado, las capacidades exhibidas por estos modelos han experimentado mejoras dramáticas.

Un ejemplo es GPT-2, que rompió barreras de datos consumiendo aproximadamente 30 mil millones de tokens de lenguaje hace unos años. GPT-2 mostró resultados prometedores en pruebas de NLP sin entrenamiento previo. Sin embargo, modelos más nuevos como Chinchilla y LLaMA han superado a GPT-2 consumiendo billones de tokens extraídos de la web. Han superado fácilmente a GPT-2 en términos de pruebas y capacidades. En visión por computadora, ImageNet inicialmente consistía en 1 millón de imágenes y era el estándar de oro para el aprendizaje de representaciones. Pero con la ampliación de los conjuntos de datos a miles de millones de imágenes a través de la extracción de la web, conjuntos de datos como LAION5B han producido representaciones visuales potentes, como se ve con modelos como CLIP. El cambio de la recopilación manual de conjuntos de datos a la recopilación de ellos de diversas fuentes a través de la web ha sido clave para esta ampliación de millones a miles de millones de puntos de datos.

Aunque los datos de lenguaje e imagen han aumentado significativamente, otras áreas, como la visión por computadora 3D, todavía necesitan ponerse al día. Tareas como la generación y reconstrucción de objetos 3D dependen de conjuntos de datos pequeños realizados a mano. Por ejemplo, ShapeNet depende de diseñadores profesionales de 3D que utilizan software costoso para crear activos, lo que dificulta el proceso de crowdsourcing y ampliación. La escasez de datos se ha convertido en un cuello de botella para los métodos basados en el aprendizaje en la visión por computadora 3D. La generación de objetos 3D aún está muy por detrás de la generación de imágenes 2D, a menudo dependiendo de modelos entrenados en conjuntos de datos 2D grandes en lugar de ser entrenados desde cero en datos 3D. La creciente demanda e interés en tecnologías de realidad aumentada (AR) y realidad virtual (VR) resaltan aún más la necesidad urgente de ampliar los datos 3D.

Para abordar estas limitaciones, investigadores del Instituto Allen de IA, la Universidad de Washington, Seattle, la Universidad de Columbia, Stability AI, CALTECH y LAION presentan Objaverse-XL como un conjunto de datos de activos 3D extraídos de la web a gran escala. Los avances rápidos en las herramientas de autoría 3D, junto con la mayor disponibilidad de datos 3D en Internet a través de plataformas como Github, Sketchfab, Thingiverse, Polycam y sitios especializados como el Instituto Smithsonian, han contribuido a la creación de Objaverse-XL. Este conjunto de datos proporciona una variedad y calidad de datos 3D significativamente mayores que los esfuerzos anteriores, como Objaverse 1.0 y ShapeNet. Con más de 10 millones de objetos 3D, Objaverse-XL representa un aumento sustancial en escala, superando los conjuntos de datos anteriores por varias órdenes de magnitud.

La escala y diversidad ofrecidas por Objaverse-XL han ampliado significativamente el rendimiento de los modelos 3D de última generación. En particular, el modelo Zero123-XL, preentrenado con Objaverse-XL, demuestra notables capacidades de generalización sin entrenamiento previo en modalidades desafiantes y complejas. Se desempeña excepcionalmente bien en tareas como la síntesis de vistas nuevas, incluso con entradas diversas como activos fotorrealistas, caricaturas, dibujos y bocetos. De manera similar, PixelNeRF, entrenado para sintetizar vistas nuevas a partir de un pequeño conjunto de imágenes, muestra mejoras notables cuando se entrena con Objaverse-XL. La ampliación de los datos de preentrenamiento de mil activos a 10 millones muestra consistentemente mejoras, resaltando la promesa y las oportunidades habilitadas por los datos a escala web.

Las implicaciones de Objaverse-XL van más allá del ámbito de los modelos 3D. Sus aplicaciones potenciales abarcan la visión por computadora, los gráficos, la realidad aumentada y la IA generativa. La reconstrucción de objetos 3D a partir de imágenes ha sido durante mucho tiempo un desafío en la visión por computadora y los gráficos. Los métodos existentes han explorado diversas representaciones, arquitecturas de red y técnicas de representación diferenciable para predecir formas y texturas 3D a partir de imágenes. Sin embargo, estos métodos se han basado principalmente en conjuntos de datos a pequeña escala como ShapeNet. Con el conjunto de datos significativamente más grande de Objaverse-XL, se pueden lograr nuevos niveles de rendimiento y generalización en la moda sin entrenamiento previo.

Además, la aparición de la IA generativa en 3D ha sido un desarrollo emocionante. Modelos como MCC, DreamFusion y Magic3D han demostrado que se pueden generar formas 3D a partir de indicaciones de lenguaje con la ayuda de modelos de texto a imagen. Objaverse-XL también abre oportunidades para la generación de texto a 3D, lo que permite avances en la modelación de texto a 3D. Al aprovechar el conjunto de datos vasto y diverso, los investigadores pueden explorar nuevas aplicaciones y empujar los límites de la IA generativa en el dominio 3D.

El lanzamiento de Objaverse-XL marca un hito significativo en el campo de los conjuntos de datos 3D. Su tamaño, diversidad y potencial para entrenamiento a gran escala prometen avanzar en la investigación y aplicaciones en el entendimiento 3D. Aunque actualmente Objaverse-XL es más pequeño que los conjuntos de datos imagen-texto a escala de miles de millones, su introducción allana el camino para seguir explorando cómo escalar los conjuntos de datos 3D y simplificar la captura y creación de contenido 3D. Además, trabajos futuros pueden enfocarse en elegir puntos de datos óptimos para entrenamiento y extender Objaverse-XL para beneficiar tareas discriminatorias como segmentación y detección 3D.

En conclusión, la introducción de Objaverse-XL como un conjunto de datos 3D masivo establece el escenario para nuevas y emocionantes posibilidades en visión por computadora, gráficos, realidad aumentada e IA generativa. Al abordar las limitaciones de los conjuntos de datos anteriores, Objaverse-XL proporciona una base para entrenamiento a gran escala y abre vías para investigaciones y aplicaciones innovadoras en el ámbito 3D.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Equipo respaldado por la ONU escanea sitios históricos de Ucrania para preservarlos en medio de la guerra.

Dos ingenieros respaldados por las Naciones Unidas están utilizando tecnología avanzada de escaneo láser para preserv...

Inteligencia Artificial

Un hombre con Parkinson recuperó la capacidad de caminar, gracias a un implante espinal

El implante envía ráfagas de señales eléctricas, estimulando su médula espinal para que sus músculos de la pierna se ...

Inteligencia Artificial

Sobrevivencia del más apto Modelos generativos compactos de IA son el futuro para una IA a gran escala rentable

Después de una década de rápido crecimiento en la complejidad y capacidad de cálculo de los modelos de inteligencia a...

Inteligencia Artificial

Salvando las bibliotecas digitales y el Internet Archive

Una batalla sobre la verdad y quién tiene acceso a ella en la era digital.

Inteligencia Artificial

Superconductor LK-99 Tal vez un avance, tal vez solo una nueva esperanza

Expertos se oponen a afirmaciones extraordinarias sobre un superconductor a temperatura ambiente. Pero incluso un fra...