Utilizando el lenguaje para dar a los robots una mejor comprensión del mundo abierto

Utilizando el lenguaje para mejorar la comprensión del mundo abierto por parte de los robots

Feature Fields for Robotic Manipulation (F3RM) permite a los robots interpretar instrucciones de texto de forma abierta utilizando lenguaje natural, lo que ayuda a que las máquinas manipulen objetos desconocidos. ¶ Crédito: Ge Yang et al.

El método Feature Fields for Robotic Manipulation (F3RM) diseñado por investigadores del Instituto de Tecnología de Massachusetts ayuda a los robots a identificar y agarrar objetos cercanos mediante la formación de escenas tridimensionales a partir de imágenes bidimensionales y modelos de visión.

F3RM se puede aplicar en entornos del mundo real con miles de objetos interpretando instrucciones de texto abiertas por humanos utilizando lenguaje natural.

Una cámara montada en un palo de autofoto captura 50 imágenes bidimensionales en diferentes posiciones para construir un campo de radiancia neuronal, y el collage resultante representa un “doble digital” en 360 grados del entorno.

F3RM utiliza el modelo de visión Contrastive Language-Image Pre-training (CLIP) para mejorar la geometría con datos semánticos, reensamblar las características de CLIP en 2D para las imágenes capturadas por la cámara en una representación tridimensional.

Después de algunas demostraciones, el robot, cuando se le indica, agarra objetos previamente desconocidos aplicando su conocimiento geométrico y semántico, eligiendo la opción con la puntuación más alta. De MIT News Ver artículo completo

Derechos de autor © 2023 SmithBucklin, Washington, D.C., EE. UU.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a Gemini el innovador modelo multimodal de IA de Google que redefine el futuro de la inteligencia artificial

La última incursión de Google en la inteligencia artificial, Gemini, representa un salto significativo en la tecnolog...

Inteligencia Artificial

IA que enseña a otras IA

Los científicos demostraron que los robots pueden ser entrenados para entrenar a otros robots compartiendo sus conoci...

Inteligencia Artificial

Conoce a TADA Un enfoque potente de IA para convertir descripciones verbales en un expresivo avatar 3D

El desarrollo de modelos de lenguaje grandes y modelos de difusión ha allanado el camino para fusionar modelos de tex...

Inteligencia Artificial

Encontrar respuestas (sobre la mejor manera de encontrar respuestas)

Los científicos de la computación en la Universidad del Sur de California consideraron cuáles son las mejores represe...

Inteligencia Artificial

Investigadores de Google presentan 𝗦𝘆𝗻𝘁𝗵𝗜𝗗 una herramienta digital para marcar con marcas de agua e identificar imágenes generadas por IA

En el panorama en constante evolución de la inteligencia artificial (IA), los modelos generativos están creando imáge...

Inteligencia Artificial

Una guía para principiantes sobre LLMOps para ingeniería de aprendizaje automático

Introducción El lanzamiento de ChatGPT de OpenAI ha generado mucho interés en los grandes modelos de lenguaje (LLMs, ...