Conoce a PhysObjects Un conjunto de datos centrado en objetos con 36.9K anotaciones físicas obtenidas de la colaboración de la multitud y 417K anotaciones físicas automáticas de objetos comunes del hogar.

PhysObjects Un conjunto de datos con 36.9K anotaciones físicas obtenidas de la colaboración de la multitud y 417K anotaciones físicas automáticas de objetos comunes del hogar.

En el mundo real, la información se transmite a menudo a través de una combinación de imágenes, texto o videos. Para entender e interactuar con esta información de manera efectiva, los sistemas de IA deben ser capaces de procesar ambas modalidades. Los modelos de lenguaje visual llenan el vacío entre la comprensión del lenguaje natural y la visión por computadora, permitiendo una comprensión del mundo más completa. 

Estos modelos pueden generar descripciones, historias o explicaciones ricas y contextualmente relevantes que incorporan elementos textuales y visuales. Esto es valioso para crear contenido con diversos propósitos, incluyendo marketing, entretenimiento y educación. 

Las principales tareas de los Modelos de Lenguaje Visual son la respuesta a preguntas visuales y la generación de subtítulos de imágenes. En la respuesta a preguntas visuales, el modelo de IA se presenta con una imagen y una pregunta basada en texto sobre esa imagen. El modelo primero utiliza técnicas de visión por computadora para entender el contenido de la imagen y luego procesa la pregunta textual utilizando procesamiento del lenguaje natural (NLP). La respuesta idealmente debe reflejar el contenido de la imagen y abordar la consulta específica planteada en la pregunta. Mientras que la generación de subtítulos de imágenes implica la generación automática de descripciones textuales o frases que explican el contenido de una imagen. 

Los actuales Modelos de Lenguaje Visual necesitan mejorar en la captura de conceptos físicos como el tipo de material y la fragilidad de objetos comunes. Esto dificulta enormemente las tareas de identificación robótica que involucran razonamiento físico de los objetos. Para resolver esto, investigadores de Stanford, Princeton y Google Deep Mind proponen PhysObjects. Es un conjunto de datos centrado en objetos que contiene 36.9K anotaciones de conceptos físicos de objetos comunes, obtenidas a través de la participación de la multitud, y 417K anotaciones automáticas. La anotación de la multitud recopila y etiqueta grandes volúmenes de datos utilizando un grupo distribuido de individuos.

Han demostrado que un Modelo de Lenguaje Visual ajustado en PhysObjects puede mejorar significativamente las habilidades de razonamiento físico. Su Modelo de Lenguaje Visual con fundamentos físicos logra una mayor precisión de predicción en el ejemplo de conjunto de datos retenido. Combinaron este Modelo de Lenguaje Visual con fundamentos físicos con un planificador robótico basado en LLM para probar sus ventajas, donde el LLM consulta al Modelo de Lenguaje Visual sobre los conceptos físicos de los objetos en su escena.

Los investigadores utilizaron el conjunto de datos EgoObjects como fuente de imágenes. Este fue el conjunto de datos centrado en objetos más grande de objetos reales que se publicó públicamente cuando construyeron PhysObjects. Dado que el conjunto de datos consiste en videos de arreglos domésticos realistas, es relevante para el entrenamiento de la robótica doméstica. En promedio, incluye 117,424 imágenes, 225,466 objetos y 4,203 identificadores de instancias de objetos.

Sus resultados muestran que los modelos mejoraron en el rendimiento de planificación en tareas que requieren razonamiento físico, en comparación con los baselines que no utilizan Modelos de Lenguaje Visual con fundamentos físicos. Su trabajo futuro implica expandirse más allá del razonamiento físico, como el razonamiento geométrico o el razonamiento social. Su metodología y conjunto de datos son el primer paso hacia el uso de Modelos de Lenguaje Visual para un razonamiento más sofisticado en la robótica.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Procyon Photonics La startup dirigida por estudiantes de secundaria que podría revolucionar la informática

Procyon cree que podría ser posible ejecutar las redes neuronales del modelo de lenguaje de ChatGPT en su hardware'.

Inteligencia Artificial

Investigadores de Alibaba presentan la serie Qwen-Audio Un conjunto de modelos de audio-idioma a gran escala con habilidades universales de comprensión de audio.

Investigadores de Alibaba Group presentaron Qwen-Audio, que aborda el desafío de los modelos de audio pre-entrenados ...

Inteligencia Artificial

Persistent Systems moldea el futuro de la ingeniería de software con Amazon CodeWhisperer

Persistent Systems, un proveedor global de ingeniería digital, ha realizado varios pilotos y estudios formales con Am...

Inteligencia Artificial

Deci presenta DeciCoder un modelo de lenguaje grande de código abierto con 1 billón de parámetros para generación de código.

En el mundo acelerado de la IA, la generación eficiente de código es un desafío que no se puede pasar por alto. Con l...