Conoce 3D-VisTA Un Transformer pre-entrenado para alineación de visión 3D y texto que puede adaptarse fácilmente a diversas tareas posteriores.

3D-VisTA es un Transformer pre-entrenado que se puede adaptar para diferentes tareas de alineación de visión 3D y texto.

En el dinámico panorama de la Inteligencia Artificial, los avances están remodelando los límites de lo posible. La fusión de la comprensión visual tridimensional y las complejidades del Procesamiento de Lenguaje Natural (NLP) ha surgido como una fascinante frontera. Esta evolución puede llevar a comprender y llevar a cabo comandos humanos en el mundo real. El surgimiento de los problemas de visión-lenguaje en 3D (3D-VL) ha captado una atención significativa en el impulso contemporáneo de combinar el entorno físico y el lenguaje.

En la última investigación realizada por la Universidad Tsinghua y el Laboratorio Clave Nacional de Inteligencia Artificial General, BIGAI, China, el equipo de investigadores ha presentado 3D-VisTA, que significa 3D Vision and Text Alignment. 3D-VisTA ha sido desarrollado de tal manera que utiliza una arquitectura Transformer pre-entrenada para combinar la visión en 3D y la comprensión del texto de manera fluida. Utilizando capas de autoatención, 3D-VisTA abraza la simplicidad en contraste con los modelos actuales, que combinan módulos complejos y especializados para diversas actividades. Estas capas de autoatención tienen dos funciones: permiten la fusión multimodal para combinar las muchas piezas de información de los dominios visuales y textuales, y el modelado unimodal para capturar información dentro de las modalidades individuales.

Esto se logra sin necesidad de diseños complejos específicos para tareas. El equipo ha creado un conjunto de datos considerable llamado ScanScribe para ayudar al modelo a manejar mejor las dificultades de los trabajos en 3D-VL. Al ser los primeros en hacerlo a gran escala, este conjunto de datos representa un avance significativo, ya que combina datos de escenas en 3D con descripciones escritas acompañantes. Se han tomado 2.995 escaneos RGB-D de 1.185 escenas interiores diferentes de conjuntos de datos conocidos como ScanNet y 3R-Scan. Estos escaneos vienen con un archivo sustancial de 278.000 descripciones de escenas asociadas, y las descripciones textuales se derivan de diferentes fuentes, como el sofisticado modelo de lenguaje GPT-3, plantillas y proyectos actuales en 3D-VL.

Esta combinación facilita recibir un entrenamiento exhaustivo al exponer al modelo a una variedad de situaciones de lenguaje y escenas en 3D. En el proceso de entrenamiento de 3D-VisTA en el conjunto de datos ScanScribe se han involucrado tres tareas cruciales: modelado de lenguaje enmascarado, modelado de objetos enmascarados y coincidencia de texto con escena. Estas tareas fortalecen la capacidad del modelo para alinear texto y escenas tridimensionales. Esta técnica de pre-entrenamiento elimina la necesidad de objetivos de aprendizaje auxiliares adicionales o procedimientos de optimización difíciles durante las etapas posteriores de ajuste fino, al darle a 3D-VisTA una comprensión integral de 3D-VL.

El rendimiento notable de 3D-VisTA en una variedad de tareas en 3D-VL sirve como evidencia adicional de su eficacia. Estas tareas abarcan una amplia gama de dificultades, como el razonamiento situado, que es el razonamiento dentro del contexto espacial de los entornos 3D; la descripción densa, es decir, descripciones textuales explícitas de escenas en 3D; la conexión visual, que incluye la conexión de objetos con descripciones textuales, y la respuesta a preguntas, que proporciona respuestas precisas a consultas sobre escenas en 3D. 3D-VisTA se desempeña bien en estos desafíos, demostrando su habilidad para fusionar con éxito los campos de visión en 3D y la comprensión del lenguaje.

3D-VisTA también tiene una destacada eficiencia de datos, e incluso cuando se enfrenta a una pequeña cantidad de datos anotados durante el paso de ajuste fino para tareas posteriores, logra un rendimiento significativo. Esta característica resalta la flexibilidad y el potencial del modelo para su uso en situaciones del mundo real donde podría ser difícil obtener una gran cantidad de datos etiquetados. Los detalles del proyecto se pueden acceder en https://3d-vista.github.io/.

Las contribuciones se pueden resumir de la siguiente manera:

Se ha presentado 3D-VisTA, que es un modelo Transformer combinado para la alineación de texto y visión tridimensional (3D). Utiliza la autoatención en lugar de diseños intrincados adaptados a ciertas tareas.

Se ha desarrollado ScanScribe, un conjunto de datos de pre-entrenamiento en 3D-VL de gran tamaño con 278K pares de escenas y texto sobre 2.995 escaneos RGB-D y 1.185 escenas interiores.

Para 3D-VL, se ha proporcionado un método de pre-entrenamiento auto-supervisado que incorpora modelado de lenguaje enmascarado y coincidencia de texto con escena. Este método aprende eficientemente la alineación entre el texto y las nubes de puntos en 3D, facilitando el ajuste fino en trabajos posteriores.

El método ha logrado un rendimiento de vanguardia en una variedad de tareas 3D-VL, incluyendo fundamentos visuales, generación de subtítulos densos, preguntas y respuestas, y razonamiento contextual.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Conoce a Cheetor Un modelo de lenguaje multimodal basado en Transformer (MLLMs) que puede manejar eficazmente una amplia variedad de instrucciones de visión-lenguaje entrelazadas y logra un rendimiento de vanguardia sin necesidad de entrenamiento previo.

Conoce 3D-VisTA Un Transformer pre-entrenado para alineación de visión 3D y texto que puede adaptarse fácilmente a diversas tareas posteriores.

Was this article helpful?

Crea gráficos de espagueti hermosos (y útiles) con Python

Conoce a Cheetor Un modelo de lenguaje multimodal basado en Transformer (MLLMs) que puede manejar eficazmente una amplia variedad de instrucciones de visión-lenguaje entrelazadas y logra un rendimiento de vanguardia sin necesidad de entrenamiento previo.

Inteligencia Artificial

Investigadores de UC Berkeley presentan Nerfstudio un marco de trabajo en Python para el desarrollo de Neural Radiance Field (NeRF)

Ajuste fino de LLM con técnicas PEFT

Aprende IA juntos - Boletín de la comunidad Towards AI #5

Conoce a los 'Super Usuarios' de la IA Generativa el 70% de la Generación Z utiliza GenAI

Google presenta Project IDX un paraíso para desarrolladores basado en navegador impulsado por IA.

Spotify adopta la IA desde listas de reproducción personalizadas hasta anuncios de audio