Conoce a KITE Un marco de inteligencia artificial para la manipulación semántica utilizando puntos clave como representación para el enlace visual y la inferencia precisa de acciones.

KITE un marco de IA para la manipulación semántica con puntos clave como representación para el enlace visual y la inferencia precisa de acciones.

Con el creciente avance en el campo de la Inteligencia Artificial, la tecnología de IA está comenzando a combinarse con la robótica. Desde la Visión por Computadora y el Procesamiento del Lenguaje Natural hasta la computación en el borde, la IA se integra con la robótica para desarrollar soluciones significativas y efectivas. Los robots de IA son máquinas que actúan en el mundo real. Es importante considerar la posibilidad del lenguaje como medio de comunicación entre las personas y los robots. Sin embargo, dos problemas principales impiden que los robots modernos manejen eficientemente las entradas de lenguaje libre. El primer desafío es permitir que un robot razonar sobre lo que necesita manipular en función de las instrucciones proporcionadas. Otro desafío son las tareas de recoger y colocar en las que se necesita discernimiento cuidadoso al recoger objetos como animales de peluche por sus orejas en lugar de sus patas o botellas de jabón por sus dispensadores en lugar de sus lados.

Los robots deben extraer escenas y semánticas de objetos de las instrucciones de entrada y planificar acciones precisas a nivel bajo de acuerdo para realizar manipulación semántica. Para superar estos desafíos, investigadores de la Universidad de Stanford han introducido KITE (Keypoints + Instructions to Execution), un marco de dos pasos para la manipulación semántica. Tanto las semánticas de escena como las semánticas de objeto se tienen en cuenta en KITE. Mientras que las semánticas de objeto localizan con precisión varias partes dentro de una instancia de objeto, las semánticas de escena implican discriminar entre varios objetos en una escena visual.

La primera fase de KITE implica emplear puntos clave de imágenes en 2D para fundamentar una instrucción de entrada en un contexto visual. Para la inferencia de acciones subsiguientes, este procedimiento ofrece un sesgo centrado en objetos muy preciso. El robot desarrolla una comprensión precisa de los elementos y sus características pertinentes mediante la asignación del comando a puntos clave en la escena. El segundo paso de KITE implica ejecutar una habilidad condicionada por puntos clave aprendidos en base a la observación de la escena RGB-D. El robot utiliza estas habilidades parametrizadas para llevar a cabo la instrucción proporcionada. Los puntos clave y las habilidades parametrizadas trabajan juntos para proporcionar manipulación detallada y generalización a las diferencias en escenas y objetos.

Para la evaluación, el equipo ha evaluado el rendimiento de KITE en tres entornos reales: preparación de café de alta precisión, agarre semántico y manipulación de mesa de largo alcance de 6 grados de libertad. KITE completó la tarea de preparar café con una tasa de éxito del 71%, una tasa de éxito del 70% para el agarre semántico y una tasa de éxito del 75% para el seguimiento de instrucciones en el escenario de manipulación de la mesa. KITE superó a los marcos que utilizan fundamentos basados en puntos clave en lugar de modelos de lenguaje visual preentrenados. Tuvo un mejor rendimiento que los marcos que enfatizan el control visuomotor de extremo a extremo sobre el uso de habilidades.

KITE logró estos resultados a pesar de haber tenido la misma cantidad o menos demostraciones durante el entrenamiento, lo que demuestra su efectividad y eficiencia. Para asignar una imagen y una frase de lenguaje a un mapa de calor de saliencia y producir un punto clave, KITE utiliza una técnica similar a CLIPort. Para producir puntos de habilidad, la arquitectura habilidosa modifica PointNet++ para aceptar una nube de puntos de varias vistas de entrada anotada con un punto clave. Los puntos clave en 2D permiten que KITE atienda con precisión a las características visuales, mientras que las nubes de puntos en 3D proporcionan el contexto necesario de 6 grados de libertad para la planificación.

En conclusión, el marco KITE presenta una solución prometedora al desafío de larga data de permitir que los robots interpreten y sigan comandos de lenguaje natural en el contexto de la manipulación. Logra una manipulación semántica detallada con alta precisión y generalización utilizando el poder de los puntos clave y la fundamentación de instrucciones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta semana en IA, 31 de julio de 2023

Esta semana en IA en VoAGI proporciona un resumen semanal de los últimos acontecimientos en el mundo de la Inteligenc...

Inteligencia Artificial

Herramientas principales de detección de contenido de Inteligencia Artificial (IA)

La Inteligencia Artificial (IA) y las técnicas de Procesamiento del Lenguaje Natural (NLP) se utilizan en el proceso ...

Aprendizaje Automático

La huella digital de ChatGPT DNA-GPT es un método de detección de texto generado por GPT que utiliza un análisis divergente de N-gramos.

ChatGPT se ha convertido en una parte esencial de nuestras vidas diarias en este momento. La mayoría de nosotros lo u...

Inteligencia Artificial

Conoce DragonDiffusion un método de edición de imágenes de granulación fina que permite la manipulación estilo arrastrar en modelos de difusión.

Los modelos de difusión de texto a imagen a gran escala (T2I), que tienen como objetivo generar imágenes condicionada...

Inteligencia Artificial

Equipo de robots en gira de exploración lunar

Un equipo suizo ha propuesto enviar equipos de robots complementarios en misiones exploratorias a la Luna en lugar de...

Inteligencia Artificial

Algoritmo ayuda en la detección temprana de enfermedades oculares relacionadas con la edad

Un nuevo algoritmo de aprendizaje profundo puede predecir si la degeneración macular relacionada con la edad de un in...