Este artículo de IA de China propone un Agente de Planificación de Tareas (TaPA) en Tareas Encarnadas para la Planificación Fundamentada con Restricciones de Escena Física
Este artículo propone un Agente de Planificación de Tareas (TaPA) para la Planificación con Restricciones de Escena Física.
¿Cómo tomamos decisiones en la vida diaria? A menudo estamos sesgados en base a nuestro sentido común. ¿Y los robots? ¿Pueden tomar decisiones basadas en el sentido común? Completar instrucciones humanas exitosamente requiere agentes incorporados con sentido común. Debido a la necesidad de más detalles de un mundo realista, los actuales LLMs producen secuencias de acciones inviables.
Investigadores del Departamento de Automatización y del Centro Nacional de Investigación de Beijing para Ciencia y Tecnología de la Información propusieron un Agente de Planificación de Tareas (TaPA) en tareas incorporadas con restricciones de escena física. Estos agentes generan planes ejecutables de acuerdo a los objetos existentes en la escena alineando LLMs con los modelos de percepción visual.
Los investigadores afirman que TaPA puede generar planes fundamentados sin restringir los tipos de tareas y los objetos objetivo. Primero crearon un conjunto de datos multimodal donde cada muestra es un triplete de escenas visuales, instrucciones y planes correspondientes. A partir del conjunto de datos generado, afinaron la red LLaMA pre-entrenada prediciendo los pasos de acción basados en la lista de objetos de la escena, que luego se asigna como un planificador de tareas.
- 10 Mejores Herramientas de IA para el Marketing de Afiliados (Agosto 2023)
- Analizando datos geoespaciales con Python
- Línea Open-Sources ‘japanese-large-lm’ Un modelo de lenguaje japonés con 3.6 mil millones de parámetros
El agente incorporado luego visita de manera efectiva los puntos de referencia para recolectar imágenes RGB, proporcionando suficiente información en diversas vistas para generalizar el detector de vocabulario abierto para imágenes de varias vistas. Este proceso general permite que TaPA genere las acciones ejecutables paso a paso, considerando la información de la escena y las instrucciones humanas.
¿Cómo generaron el conjunto de datos multimodal? Una de las formas es aprovechar los modelos visión-lenguaje y los modelos multimodales grandes. Sin embargo, debido a la falta de un conjunto de datos multimodal a gran escala para entrenar al agente de planificación, es difícil crear y lograr la planificación de tareas incorporadas que se base en escenas interiores realistas. Lo resolvieron utilizando GPT-3.5 con la representación de escena presentada y el diseño de indicaciones para generar el conjunto de datos multimodal a gran escala para afinar el agente de planificación.
Los investigadores entrenaron al planificador de tareas a partir de los LLMs pre-entrenados y construyeron el conjunto de datos multimodal que contiene 80 escenas interiores con 15 K instrucciones y planes de acción. Diseñaron varias estrategias de recopilación de imágenes para explorar las escenas 3D circundantes, como criterios de selección de ubicación para posiciones aleatorias y cámaras rotadas para obtener imágenes de varias vistas para cada criterio de selección de ubicación. Inspirados en los métodos de agrupamiento, dividieron toda la escena en varias subregiones para mejorar el rendimiento de la percepción.
Los investigadores afirman que los agentes TaPA logran una tasa de éxito más alta en los planes de acción generados en comparación con los LLMs de vanguardia, incluyendo LlaMA y GPT-3.5, y modelos multimodales grandes como LLaVA. TaPA puede comprender mejor la lista de objetos de entrada con una disminución del 26.7% y el 5% en el porcentaje de casos de alucinación en comparación con LLaVA y GPT-3.5, respectivamente.
Los investigadores afirman que sus estadísticas de conjuntos de datos multimodales recolectados indican que las tareas son mucho más complejas que los puntos de referencia convencionales en tareas de seguimiento de instrucciones con pasos de implementación más largos y requieren nuevos métodos de optimización.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Redes Generativas Adversariales (GANs) para la Ampliación de Imágenes
- OpenAI se hace cargo de la Iluminación Global; Celebra su primera adquisición empresarial
- NVIDIA presenta FlexiCubes un nuevo enfoque para generar mallas de alta calidad a partir de flujos de trabajo neurales como la fotogrametría y la IA generativa.
- Cómo realizar la selección de características con Scikit-Learn
- Desbloqueando el poder del contexto con Google IA una competencia entre prefixLM y causalLM en el aprendizaje en contexto
- Construyendo aplicaciones personalizadas de preguntas y respuestas utilizando LangChain y la base de datos de vectores de Pinecone
- Entendiendo los selectores de Playwright Una guía