Investigadores de IA de Salesforce presentan la evolución de los agentes autónomos mejorados con LLM y la innovadora estrategia BOLAA

Investigadores de IA de Salesforce presentan agentes autónomos mejorados con LLM y estrategia BOLAA

I had trouble accessing your link so I’m going to try to continue without it.

Los recientes logros de los modelos de lenguaje grandes (LLM) alientan nuevas investigaciones sobre el uso de LLM para manejar diversas tareas complicadas, siendo los Agentes Autónomos con LLM (LAAs) los que reciben mayor atención. Al extender la inteligencia de LLM a las ejecuciones de acciones secuenciales, LAA muestra supremacía en la interacción con entornos y en el manejo de problemas desafiantes mediante la recopilación de datos. BabyAGI1 sugiere un sistema de gestión de tareas impulsado por IA que utiliza OpenAI LLM2 para generar, priorizar y llevar a cabo tareas. Otro marco de trabajo de LAA de código abierto muy popular que permite llamadas a la API de LLM es AutoGPT3.

ReAct es una técnica de LAA recientemente propuesta que interactúa con el entorno antes de generar acciones posteriores. Un marco de trabajo de código abierto actual para crear LAA se llama Langchain4. LAA no ha sido investigado a fondo debido a la sonda original. Aún no se ha identificado la mejor arquitectura de agente para comenzar. Para que el LLM aprenda a crear la siguiente acción a través del aprendizaje en contexto, ReAct estimula a los agentes con ejemplos que ya han sido predefinidos. Además, ReAct sostiene que un agente debe participar en un pensamiento intermedio antes de ejecutar una acción. ReWOO introduce procesos de planificación adicionales para LAA.

Langchain generaliza el agente ReAct con capacidad de uso de herramientas sin entrenamiento. El mejor diseño de agente debe estar alineado con las tareas y la columna vertebral de LLM correspondiente, lo cual se aborda de manera insuficiente en la investigación anterior. En segundo lugar, se debe completar el conocimiento sobre la efectividad de los LLM actuales en LAA. Solo se comparan las actuaciones de algunas columnas vertebrales de LLM en los primeros documentos. ReAct utiliza PaLM como el LLM principal. ReWOO utiliza el modelo OpenAI text-DaVinci-003 para la planificación del agente y la adaptación de instrucciones. Para un agente web generalista, MIND2Web compara Flan-T5 con OpenAI GPT3.5/4.

Sin embargo, solo unos pocos estudios recientes contrastan a fondo la efectividad de LAA con diferentes LLM preentrenados. Un artículo relativamente reciente acaba de publicar una línea de base para evaluar LLM como agentes. Sin embargo, deben considerar las arquitecturas de los agentes y sus columnas vertebrales de LLM en conjunto. La investigación de LAA se ve impulsada al elegir los mejores LLM tanto desde el punto de vista de la efectividad como de la eficiencia. En tercer lugar, a medida que las actividades se vuelven más complicadas, puede ser necesario coordinar a numerosos agentes. Recientemente, ReWOO descubrió que separar el razonamiento de la observación aumenta la efectividad de LAA.

En este estudio, los investigadores de Salesforce Research argumentan que es preferible coordinar varios agentes para llevar a cabo una sola tarea a medida que aumenta la complejidad de la tarea, especialmente en situaciones de dominio abierto. Por ejemplo, para la tarea de navegación en línea, podrían utilizar un agente de clics para interactuar con botones clicables mientras solicitan a un agente de búsqueda que encuentre otros recursos. Sin embargo, pocos documentos examinan los efectos de la orquestación y exploran formas de coordinar a muchas personas. Este informe sugiere un análisis exhaustivo de la comparación del rendimiento de LAA para llenar estas brechas de investigación. Profundizan aún más en las columnas vertebrales de LLM y la arquitectura de los agentes de LAA.

Crean puntos de referencia de agentes a partir de los entornos ya existentes para evaluar cómo funcionan las diferentes arquitecturas de agentes basadas en diversas columnas vertebrales de LLM. Debido a que las tareas en los puntos de referencia de los agentes están vinculadas a múltiples niveles de complejidad de tareas, es posible examinar el rendimiento de los agentes en relación con la complejidad de la tarea. Estas arquitecturas de agentes se crean para validar las decisiones de diseño actuales de manera exhaustiva. Para permitir la selección y comunicación entre varios LAAs de trabajo, presentan una arquitectura de LAA única llamada BOLAA5 que cuenta con un módulo controlador sobre numerosos agentes cooperativos.

Las contribuciones del artículo son las siguientes:

• Se desarrollan seis arquitecturas de agentes LAA distintas. Para respaldar la intuición de diseño de LAA derivada de la estimulación, el auto-pensamiento y la planificación, las integran con varios LLM de columna vertebral. También crean BOLAA para la orquestación de estrategias de múltiples agentes, lo que mejora la capacidad de los agentes solitarios para interactuar con acciones.

• Realizan estudios exhaustivos sobre los entornos para tareas de razonamiento de conocimiento y toma de decisiones en navegación en línea. Proporcionan el rendimiento como recompensas finales dispersas y recuerdos intermedios, lo que brinda recomendaciones cualitativas para la mejor elección de LAA y LLM adecuado.

• En comparación con otros diseños de LAA, BOLAA produce consistentemente el mejor rendimiento en el entorno WebShop. Sus hallazgos resaltan la importancia de desarrollar agentes especializados para trabajar juntos en la solución de problemas complicados, lo cual debería ser tan importante como desarrollar un LLM de gran tamaño con fuertes capacidades de generalización.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El jefe de la búsqueda de Google dice que la empresa invierte para evitar convertirse en carroña'.

Al inicio de su defensa contra la ley antimonopolio, Google atribuyó su éxito a una inversión constante, contrarresta...

Inteligencia Artificial

El Ascenso y Caída de la Ingeniería Rápida ¿Moda o Futuro?

Este artículo proporciona una visión general de la ingeniería rápida, desde sus inicios hasta su estado actual.