Utilizando el lenguaje para dar a los robots una mejor comprensión del mundo abierto

Utilizando el lenguaje para mejorar la comprensión del mundo abierto por parte de los robots

Feature Fields for Robotic Manipulation (F3RM) permite a los robots interpretar instrucciones de texto de forma abierta utilizando lenguaje natural, lo que ayuda a que las máquinas manipulen objetos desconocidos. ¶ Crédito: Ge Yang et al.

El método Feature Fields for Robotic Manipulation (F3RM) diseñado por investigadores del Instituto de Tecnología de Massachusetts ayuda a los robots a identificar y agarrar objetos cercanos mediante la formación de escenas tridimensionales a partir de imágenes bidimensionales y modelos de visión.

F3RM se puede aplicar en entornos del mundo real con miles de objetos interpretando instrucciones de texto abiertas por humanos utilizando lenguaje natural.

Una cámara montada en un palo de autofoto captura 50 imágenes bidimensionales en diferentes posiciones para construir un campo de radiancia neuronal, y el collage resultante representa un “doble digital” en 360 grados del entorno.

F3RM utiliza el modelo de visión Contrastive Language-Image Pre-training (CLIP) para mejorar la geometría con datos semánticos, reensamblar las características de CLIP en 2D para las imágenes capturadas por la cámara en una representación tridimensional.

Después de algunas demostraciones, el robot, cuando se le indica, agarra objetos previamente desconocidos aplicando su conocimiento geométrico y semántico, eligiendo la opción con la puntuación más alta. De MIT News Ver artículo completo

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligencecomputer applicationscomputer systemshuman-computer interaction

Was this article helpful?

93 out of 132 found this helpful

Utilizando el lenguaje para dar a los robots una mejor comprensión del mundo abierto

Was this article helpful?

Algoritmo ayuda en la detección temprana de enfermedades oculares relacionadas con la edad

Auriculares para monitorear el cerebro y el cuerpo

Inteligencia Artificial

Conoce a Gemini el innovador modelo multimodal de IA de Google que redefine el futuro de la inteligencia artificial

IA que enseña a otras IA

Conoce a TADA Un enfoque potente de IA para convertir descripciones verbales en un expresivo avatar 3D

Encontrar respuestas (sobre la mejor manera de encontrar respuestas)

Investigadores de Google presentan 𝗦𝘆𝗻𝘁𝗵𝗜𝗗 una herramienta digital para marcar con marcas de agua e identificar imágenes generadas por IA

Una guía para principiantes sobre LLMOps para ingeniería de aprendizaje automático