Conoce a PhysObjects Un conjunto de datos centrado en objetos con 36.9K anotaciones físicas obtenidas de la colaboración de la multitud y 417K anotaciones físicas automáticas de objetos comunes del hogar.
PhysObjects Un conjunto de datos con 36.9K anotaciones físicas obtenidas de la colaboración de la multitud y 417K anotaciones físicas automáticas de objetos comunes del hogar.
En el mundo real, la información se transmite a menudo a través de una combinación de imágenes, texto o videos. Para entender e interactuar con esta información de manera efectiva, los sistemas de IA deben ser capaces de procesar ambas modalidades. Los modelos de lenguaje visual llenan el vacío entre la comprensión del lenguaje natural y la visión por computadora, permitiendo una comprensión del mundo más completa.
Estos modelos pueden generar descripciones, historias o explicaciones ricas y contextualmente relevantes que incorporan elementos textuales y visuales. Esto es valioso para crear contenido con diversos propósitos, incluyendo marketing, entretenimiento y educación.
Las principales tareas de los Modelos de Lenguaje Visual son la respuesta a preguntas visuales y la generación de subtítulos de imágenes. En la respuesta a preguntas visuales, el modelo de IA se presenta con una imagen y una pregunta basada en texto sobre esa imagen. El modelo primero utiliza técnicas de visión por computadora para entender el contenido de la imagen y luego procesa la pregunta textual utilizando procesamiento del lenguaje natural (NLP). La respuesta idealmente debe reflejar el contenido de la imagen y abordar la consulta específica planteada en la pregunta. Mientras que la generación de subtítulos de imágenes implica la generación automática de descripciones textuales o frases que explican el contenido de una imagen.
- Cómo construir una estrategia de Ciencia de Datos para cualquier tamaño de equipo
- Dominio de Amazon SageMaker en modo solo VPC para admitir SageMaker Studio con configuración de ciclo de vida de apagado automático y SageMaker Canvas con Terraform
- Matemáticos encuentran 12,000 soluciones para el problema de los tres cuerpos
Los actuales Modelos de Lenguaje Visual necesitan mejorar en la captura de conceptos físicos como el tipo de material y la fragilidad de objetos comunes. Esto dificulta enormemente las tareas de identificación robótica que involucran razonamiento físico de los objetos. Para resolver esto, investigadores de Stanford, Princeton y Google Deep Mind proponen PhysObjects. Es un conjunto de datos centrado en objetos que contiene 36.9K anotaciones de conceptos físicos de objetos comunes, obtenidas a través de la participación de la multitud, y 417K anotaciones automáticas. La anotación de la multitud recopila y etiqueta grandes volúmenes de datos utilizando un grupo distribuido de individuos.
Han demostrado que un Modelo de Lenguaje Visual ajustado en PhysObjects puede mejorar significativamente las habilidades de razonamiento físico. Su Modelo de Lenguaje Visual con fundamentos físicos logra una mayor precisión de predicción en el ejemplo de conjunto de datos retenido. Combinaron este Modelo de Lenguaje Visual con fundamentos físicos con un planificador robótico basado en LLM para probar sus ventajas, donde el LLM consulta al Modelo de Lenguaje Visual sobre los conceptos físicos de los objetos en su escena.
Los investigadores utilizaron el conjunto de datos EgoObjects como fuente de imágenes. Este fue el conjunto de datos centrado en objetos más grande de objetos reales que se publicó públicamente cuando construyeron PhysObjects. Dado que el conjunto de datos consiste en videos de arreglos domésticos realistas, es relevante para el entrenamiento de la robótica doméstica. En promedio, incluye 117,424 imágenes, 225,466 objetos y 4,203 identificadores de instancias de objetos.
Sus resultados muestran que los modelos mejoraron en el rendimiento de planificación en tareas que requieren razonamiento físico, en comparación con los baselines que no utilizan Modelos de Lenguaje Visual con fundamentos físicos. Su trabajo futuro implica expandirse más allá del razonamiento físico, como el razonamiento geométrico o el razonamiento social. Su metodología y conjunto de datos son el primer paso hacia el uso de Modelos de Lenguaje Visual para un razonamiento más sofisticado en la robótica.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¿Qué tienen en común las neuronas, las luciérnagas y bailar el Nutbush?
- Microsoft protegerá a los clientes de Copilot que hayan pagado de cualquier disputa por derechos de autor de IA que se inicie
- Generative AI Desatado Estrategias de implementación de MLOps y LLM para Ingenieros de Software
- Construye una aplicación de búsqueda de texto e imágenes con NodeJS y IA
- Stephen DeAngelis, Fundador y CEO de Enterra Solutions – Serie de entrevistas
- Estrategias digitales lideradas por IA para el desarrollo ágil de productos
- Candle Aprendizaje Automático Minimalista en Rust