Este artículo de IA de China propone un Agente de Planificación de Tareas (TaPA) en Tareas Encarnadas para la Planificación Fundamentada con Restricciones de Escena Física

Este artículo propone un Agente de Planificación de Tareas (TaPA) para la Planificación con Restricciones de Escena Física.

¿Cómo tomamos decisiones en la vida diaria? A menudo estamos sesgados en base a nuestro sentido común. ¿Y los robots? ¿Pueden tomar decisiones basadas en el sentido común? Completar instrucciones humanas exitosamente requiere agentes incorporados con sentido común. Debido a la necesidad de más detalles de un mundo realista, los actuales LLMs producen secuencias de acciones inviables.

Investigadores del Departamento de Automatización y del Centro Nacional de Investigación de Beijing para Ciencia y Tecnología de la Información propusieron un Agente de Planificación de Tareas (TaPA) en tareas incorporadas con restricciones de escena física. Estos agentes generan planes ejecutables de acuerdo a los objetos existentes en la escena alineando LLMs con los modelos de percepción visual.

Los investigadores afirman que TaPA puede generar planes fundamentados sin restringir los tipos de tareas y los objetos objetivo. Primero crearon un conjunto de datos multimodal donde cada muestra es un triplete de escenas visuales, instrucciones y planes correspondientes. A partir del conjunto de datos generado, afinaron la red LLaMA pre-entrenada prediciendo los pasos de acción basados en la lista de objetos de la escena, que luego se asigna como un planificador de tareas.

El agente incorporado luego visita de manera efectiva los puntos de referencia para recolectar imágenes RGB, proporcionando suficiente información en diversas vistas para generalizar el detector de vocabulario abierto para imágenes de varias vistas. Este proceso general permite que TaPA genere las acciones ejecutables paso a paso, considerando la información de la escena y las instrucciones humanas.

¿Cómo generaron el conjunto de datos multimodal? Una de las formas es aprovechar los modelos visión-lenguaje y los modelos multimodales grandes. Sin embargo, debido a la falta de un conjunto de datos multimodal a gran escala para entrenar al agente de planificación, es difícil crear y lograr la planificación de tareas incorporadas que se base en escenas interiores realistas. Lo resolvieron utilizando GPT-3.5 con la representación de escena presentada y el diseño de indicaciones para generar el conjunto de datos multimodal a gran escala para afinar el agente de planificación.

Los investigadores entrenaron al planificador de tareas a partir de los LLMs pre-entrenados y construyeron el conjunto de datos multimodal que contiene 80 escenas interiores con 15 K instrucciones y planes de acción. Diseñaron varias estrategias de recopilación de imágenes para explorar las escenas 3D circundantes, como criterios de selección de ubicación para posiciones aleatorias y cámaras rotadas para obtener imágenes de varias vistas para cada criterio de selección de ubicación. Inspirados en los métodos de agrupamiento, dividieron toda la escena en varias subregiones para mejorar el rendimiento de la percepción.

Los investigadores afirman que los agentes TaPA logran una tasa de éxito más alta en los planes de acción generados en comparación con los LLMs de vanguardia, incluyendo LlaMA y GPT-3.5, y modelos multimodales grandes como LLaVA. TaPA puede comprender mejor la lista de objetos de entrada con una disminución del 26.7% y el 5% en el porcentaje de casos de alucinación en comparación con LLaVA y GPT-3.5, respectivamente.

Los investigadores afirman que sus estadísticas de conjuntos de datos multimodales recolectados indican que las tareas son mucho más complejas que los puntos de referencia convencionales en tareas de seguimiento de instrucciones con pasos de implementación más largos y requieren nuevos métodos de optimización.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Oportunidad de Asia para la Inteligencia Artificial Generativa.

La inteligencia artificial generativa está acelerando la adopción digital en toda Asia.

Inteligencia Artificial

Este boletín de IA es todo lo que necesitas #65

Esta semana en IA, tuvimos avances en la regulación de la IA desde el Capitolio líderes tecnológicos como Elon Musk y...

Inteligencia Artificial

Transmisión de respuestas de modelos de lenguaje amplios en Amazon SageMaker JumpStart

Estamos emocionados de anunciar que Amazon SageMaker JumpStart ahora puede transmitir respuestas de inferencia de mod...

Inteligencia Artificial

Revelando los secretos de las neuronas multimodales Un viaje desde Molyneux hasta los Transformadores

Los Transformers podrían ser una de las innovaciones más importantes en el dominio de la inteligencia artificial. Est...