Este artículo de IA de China propone un Agente de Planificación de Tareas (TaPA) en Tareas Encarnadas para la Planificación Fundamentada con Restricciones de Escena Física

Este artículo propone un Agente de Planificación de Tareas (TaPA) para la Planificación con Restricciones de Escena Física.

¿Cómo tomamos decisiones en la vida diaria? A menudo estamos sesgados en base a nuestro sentido común. ¿Y los robots? ¿Pueden tomar decisiones basadas en el sentido común? Completar instrucciones humanas exitosamente requiere agentes incorporados con sentido común. Debido a la necesidad de más detalles de un mundo realista, los actuales LLMs producen secuencias de acciones inviables.

Investigadores del Departamento de Automatización y del Centro Nacional de Investigación de Beijing para Ciencia y Tecnología de la Información propusieron un Agente de Planificación de Tareas (TaPA) en tareas incorporadas con restricciones de escena física. Estos agentes generan planes ejecutables de acuerdo a los objetos existentes en la escena alineando LLMs con los modelos de percepción visual.

Los investigadores afirman que TaPA puede generar planes fundamentados sin restringir los tipos de tareas y los objetos objetivo. Primero crearon un conjunto de datos multimodal donde cada muestra es un triplete de escenas visuales, instrucciones y planes correspondientes. A partir del conjunto de datos generado, afinaron la red LLaMA pre-entrenada prediciendo los pasos de acción basados en la lista de objetos de la escena, que luego se asigna como un planificador de tareas.

El agente incorporado luego visita de manera efectiva los puntos de referencia para recolectar imágenes RGB, proporcionando suficiente información en diversas vistas para generalizar el detector de vocabulario abierto para imágenes de varias vistas. Este proceso general permite que TaPA genere las acciones ejecutables paso a paso, considerando la información de la escena y las instrucciones humanas.

¿Cómo generaron el conjunto de datos multimodal? Una de las formas es aprovechar los modelos visión-lenguaje y los modelos multimodales grandes. Sin embargo, debido a la falta de un conjunto de datos multimodal a gran escala para entrenar al agente de planificación, es difícil crear y lograr la planificación de tareas incorporadas que se base en escenas interiores realistas. Lo resolvieron utilizando GPT-3.5 con la representación de escena presentada y el diseño de indicaciones para generar el conjunto de datos multimodal a gran escala para afinar el agente de planificación.

Los investigadores entrenaron al planificador de tareas a partir de los LLMs pre-entrenados y construyeron el conjunto de datos multimodal que contiene 80 escenas interiores con 15 K instrucciones y planes de acción. Diseñaron varias estrategias de recopilación de imágenes para explorar las escenas 3D circundantes, como criterios de selección de ubicación para posiciones aleatorias y cámaras rotadas para obtener imágenes de varias vistas para cada criterio de selección de ubicación. Inspirados en los métodos de agrupamiento, dividieron toda la escena en varias subregiones para mejorar el rendimiento de la percepción.

Los investigadores afirman que los agentes TaPA logran una tasa de éxito más alta en los planes de acción generados en comparación con los LLMs de vanguardia, incluyendo LlaMA y GPT-3.5, y modelos multimodales grandes como LLaVA. TaPA puede comprender mejor la lista de objetos de entrada con una disminución del 26.7% y el 5% en el porcentaje de casos de alucinación en comparación con LLaVA y GPT-3.5, respectivamente.

Los investigadores afirman que sus estadísticas de conjuntos de datos multimodales recolectados indican que las tareas son mucho más complejas que los puntos de referencia convencionales en tareas de seguimiento de instrucciones con pasos de implementación más largos y requieren nuevos métodos de optimización.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Este artículo de IA de China propone un Agente de Planificación de Tareas (TaPA) en Tareas Encarnadas para la Planificación Fundamentada con Restricciones de Escena Física

Was this article helpful?

10 Mejores Herramientas de IA para el Marketing de Afiliados (Agosto 2023)

Aceptando el Arte de la Visualización Narrativa de Datos

Inteligencia Artificial

Investigadores de UC Berkeley y UCSF revolucionan la generación de video neural presentando LLM-Grounded Video Diffusion (LVD) para mejorar la dinámica espacio-temporal.

Oportunidad de Asia para la Inteligencia Artificial Generativa.

Este boletín de IA es todo lo que necesitas #65

Revolutionizando la Restauración del Habla Investigación Liderada por Stanford Revela una Neuroprótesis de Alto Rendimiento para la Comunicación sin Restricciones

Transmisión de respuestas de modelos de lenguaje amplios en Amazon SageMaker JumpStart

Revelando los secretos de las neuronas multimodales Un viaje desde Molyneux hasta los Transformadores