Hacia la IA General el papel de LLMs y Modelos Fundamentales en la Revolución del Aprendizaje de por Vida

Rumbo a la IA General el papel de LLMs y Modelos Fundamentales en la Revolución del Aprendizaje Continuo

Integrando Innovaciones en Avances de Aprendizaje Continuo Hacia la Inteligencia Artificial General (AGI), Incluyendo VOYAGER, DEPS y AutoGPT.

Autores: Elahe Aghapour, Salar Rahili

Introducción:

En la última década y especialmente con el éxito del aprendizaje profundo, se ha formado una discusión continua en torno a la posibilidad de construir una Inteligencia Artificial General (AGI). El objetivo último en AGI es crear un agente capaz de realizar cualquier tarea que un ser humano sea capaz de hacer. Una capacidad fundamental requerida para dicho agente es poder aprender continuamente nuevas habilidades y utilizar sus habilidades aprendidas para aprender habilidades más complicadas de manera más rápida. Estas habilidades deben dividirse en sub tareas, donde el agente interactúa con el entorno, aprendiendo de sus fracasos hasta el éxito. Y al aprender una nueva habilidad, el agente debe integrar la habilidad en su repertorio existente de habilidades adquiridas para el futuro. Los modelos de lenguaje grandes (LLM) han demostrado que tienen una buena comprensión del mundo y de cómo se pueden lograr diferentes tareas. Se han publicado una serie de artículos interesantes en los últimos años con el objetivo de utilizar un LLM como el principal tomador de decisiones para el aprendizaje continuo. Estos trabajos en su mayoría han elegido entornos de prueba similares como Crafter o Minecraft, ya que pueden simular el objetivo final de AGI de supervivencia y prosperidad.

Para explorar los últimos avances en este campo, primero describimos el funcionamiento colaborativo de varios bloques de construcción que facilitan el proceso de aprendizaje. Posteriormente, profundizamos en los detalles de cada componente, comparando su implementación y funcionalidad en diferentes artículos de investigación.

Visión general:

Fig. 1: Los principales bloques de construcción identificados en la literatura se recopilan en un diagrama de bloques completo. Los bloques delineados con líneas discontinuas no están incluidos en cada artículo (Imagen del autor).

Para desarrollar el proceso iterativo y continuo de aprendizaje/logro de tareas, muchos marcos recomendados adoptan un proceso reconocible. Aquellos con experiencia en control de retroalimentación o aprendizaje por refuerzo notarán una estructura similar (ver Fig. 1); sin embargo, hay adiciones notables que minimizan la entrada manual humana y mejoran la automatización del proceso.

Como primer paso, se asigna al agente una tarea ampliamente definida por un humano, reflejando el objetivo principal del aprendizaje permanente. Esta tarea a menudo toma la forma de una indicación que describe el objetivo principal, por ejemplo, “explorar el entorno y lograr la mayor cantidad posible de tareas diversas”. El bloque Planificador, condicionado a este objetivo ampliamente definido, desglosa el objetivo en una secuencia de tareas ejecutables y comprensibles. Este desglose requiere una comprensión del entorno en el que opera el agente. Dado que los LLM han sido entrenados con un gran corpus de datos, podrían ser los mejores candidatos para ser planificadores. Además, cualquier contexto adicional, explícito o manual, puede mejorar su rendimiento.

Dentro del bloque Selector, el Planificador proporciona un conjunto de sub tareas derivadas. El Selector, guiado por el objetivo principal y los conocimientos del Crítico, determina la siguiente sub tarea más adecuada que no solo generará el mejor resultado, sino que también cumpla con los requisitos previos. El trabajo del Controlador es generar acciones para lograr la sub tarea actual. Para minimizar los esfuerzos redundantes y aprovechar las tareas adquiridas previamente, varios estudios proponen incorporar un bloque de Memoria. Este bloque se utiliza para recuperar las tareas aprendidas más similares, integrándolas así en su flujo de trabajo en curso.

La acción generada luego se introduce en el Entorno. Para evaluar el impacto de las acciones recientes, el Crítico supervisa el estado del entorno proporcionando retroalimentación que incluye la identificación de cualquier deficiencia, razones de fracaso o posibles cumplimientos de tareas. Un Crítico basado en LLM requiere una entrada de texto que se logra mediante el bloque Descriptivo, para describir/transformar el estado del entorno y del agente en texto. El Crítico luego informa al Planificador sobre lo que sucedió exactamente en el último intento y proporciona comentarios exhaustivos para ayudar al Planificador en el próximo intento.

Translate this HTML (keep the HTML code in the result) to Spanish:

Descripción de los bloques de construcción: Comparación de diseño e implementación en diferentes estudios

En esta sección, exploramos cada bloque en detalle, discutiendo los diferentes enfoques adoptados por diferentes investigadores.

Planificador

Este componente organiza las tareas de aprendizaje permanente en un entorno determinado. El objetivo final puede ser establecido manualmente como en DEPS, o ser más como una guía, es decir, fomentando el aprendizaje de comportamientos diversos como parte de la indicación del Planificador, como en VOYAGER.

El Planificador basado en LLM orquesta el proceso de aprendizaje estableciendo tareas que se alinean con el estado actual del agente, su nivel de habilidad y las instrucciones proporcionadas en su indicación. Esta funcionalidad está integrada en los LLM, basándose en la suposición de que han estado expuestos a un proceso similar de descomposición de tareas durante su entrenamiento. Sin embargo, esta suposición no era válida en SPRING ya que ejecutaron el experimento en el entorno Crafter que se lanzó después de la recopilación de datos para los modelos GPT-3.5 y GPT-4. Por lo tanto, propusieron un método para extraer toda la información relevante del texto manual del entorno y luego resumirla en un contexto de pequeño tamaño que se concatenará a las indicaciones más adelante. En aplicaciones de la vida real, los agentes se encuentran con una variedad de entornos con diferentes niveles de complejidad y métodos sencillos pero eficientes como estos pueden ser cruciales para evitar la necesidad de afinar modelos preentrenados para tareas recién desarrolladas.

VOYAGER utilizó GPT-4 como módulo automático de currículo, intentando proponer tareas cada vez más difíciles basadas en el progreso de exploración y el estado del agente. Su indicación consta de varios componentes, como: (1) fomentar la exploración al establecer las restricciones, (2) el estado actual del agente, (3) tareas previamente completadas y fallidas, (4) cualquier otro contexto adicional de otro módulo de autointerrogación GPT-3.5. Luego, genera una tarea que debe ser completada por el agente.

DEPS utilizó CODEX, GPT-4, ChatGPT y GPT-3 como planificadores LLM en diferentes entornos. La indicación incluye: (1) el objetivo final formidable (por ejemplo, obtener un diamante en el entorno de Minecraft), (2) su plan más reciente generado, (3) descripción del entorno y su explicación. Para mejorar la eficiencia del plan, DEPS también propuso un Selector consciente del estado para elegir el objetivo más cercano en función del estado actual de los conjuntos de objetivos candidatos generados por el Planificador. En entornos complejos, a menudo existen múltiples planes viables, mientras que muchos de ellos resultan ineficientes en la ejecución y algunos objetivos dentro de un plan se pueden ejecutar en cualquier orden, lo que permite flexibilidad. La priorización de objetivos más cercanos puede mejorar la eficiencia del plan. Con este fin, entrenaron una red neuronal utilizando trayectorias sin conexión para predecir y clasificar según el paso de tiempo requerido para completar los objetivos dados en el estado actual. El Planificador, en colaboración con el Selector, generará una secuencia de tareas por realizar.

Controlador:

La responsabilidad principal del controlador es elegir la siguiente acción para llevar a cabo la tarea dada. El Controlador puede ser otro LLM, por ejemplo, VOYAGER, o un modelo de aprendizaje por refuerzo profundo, por ejemplo, DEPS, generando acciones basadas en el estado y la tarea dada. VOYAGER emplea GPT-4 en una indicación interactiva para desempeñar el papel del controlador. VOYAGER, Progprompt y CaP optan por utilizar código como espacio de acciones en lugar de comandos motores de bajo nivel. Esto es crucial para tareas a largo plazo ya que el código puede representar naturalmente acciones temporalmente extendidas y composicionales. La indicación para la generación de código en VOYAGER incluye: (1) una guía de motivación para la generación de código, (2) una lista de APIs de control primitivo disponibles con su descripción, (3) habilidades/códigos relevantes recuperados de la memoria, (4) el código generado de la ronda anterior, retroalimentación del entorno, errores de ejecución y salida del Crítico, (5) estado actual, (6) indicación de encadenamiento del pensamiento para razonar antes de la generación de código.

Otra alternativa para el controlador es entrenar a un agente de aprendizaje por refuerzo profundo para generar acciones basadas en el estado actual y la meta. DEPS utilizó el aprendizaje por imitación para entrenar dicho modelo.

Memoria:

Los humanos utilizan diferentes tipos de memoria para realizar una tarea determinada. Las principales funcionalidades de la memoria se pueden categorizar en:

1- Memoria a corto plazo: Almacena información que estamos utilizando activamente para tareas como el aprendizaje y el razonamiento. Se cree que puede retener alrededor de 7 elementos y dura aproximadamente 20-30 segundos [10]. Hasta donde sabemos, todos los métodos de aprendizaje permanente basados en LLM utilizan la memoria a corto plazo mediante el aprendizaje en contexto, que está limitado por la longitud de contexto del LLM.

Fig. 2: Biblioteca de habilidades en VOYAGER. La figura superior describe el proceso de agregar una nueva habilidad y la inferior es la recuperación de habilidades (fuente de la imagen: VOYAGER)

2- Memoria a largo plazo: Almacena y recupera información durante mucho tiempo. Esto puede implementarse como un almacén externo de vectores con una recuperación rápida. VOYAGER se beneficia de la memoria a largo plazo mediante la adición/recuperación de habilidades aprendidas de almacenamientos externos de vectores. Las habilidades, como hemos discutido, son códigos ejecutables generados por el Controlador que guían los pasos necesarios para realizar la tarea.

Cuando el Crítico verifica que el código puede completar la tarea, se utiliza el GPT-3.5 para generar una descripción del código. A continuación, la habilidad se almacenará en la biblioteca de habilidades, donde la incrustación de la descripción actúa como clave y el código como valor (ver Fig. 2). Cuando el Planificador sugiere una nueva tarea, el GPT-3.5 genera una sugerencia general para completar la tarea. Utilizan la incrustación de la solución sugerida, aumentada con la retroalimentación del entorno, para recuperar las 5 habilidades relevantes principales de la biblioteca de habilidades (ver Fig. 2).

Agregar memoria a largo plazo puede impulsar significativamente el rendimiento. La Fig. 3 muestra cuán crítica es la biblioteca de habilidades para VOYAGER. Esto también indica que agregar una biblioteca de habilidades a Auto-GPT puede mejorar sustancialmente su rendimiento. Tanto la memoria a corto plazo como la memoria a largo plazo funcionan con el Controlador para generar y refinar su política con el fin de lograr la meta.

Fig. 3: Agregar una biblioteca de habilidades a AutoGPT mejora su rendimiento en generalización de aprendizaje de cero a tareas no vistas (fuente de la imagen: VOYAGER).

Crítico:

El Crítico o autoverificación es un módulo basado en LLM que proporciona crítica sobre el plan ejecutado previamente y ofrece comentarios sobre cómo refinar el plan para lograr la tarea. La reflexión mejora el razonamiento del agente con memoria dinámica y autorreflexión. La autorreflexión es un GPT-4, que desempeña el papel de Crítico. Toma la señal de recompensa, la trayectoria actual y su memoria persistente para generar comentarios verbales para la mejora personal en futuros intentos. Esta retroalimentación es más informativa que una recompensa escalar y se almacena en la memoria para ser utilizada por el Planificador para refinar el plan.

VOYAGER y DEPS ejecutan las acciones generadas, el código, mediante el Controlador para obtener la retroalimentación del Entorno y posibles errores de ejecución. Esta información se incorpora a la solicitud del Crítico, donde se le pide que actúe como crítico y determine si se ha completado o no la meta. Además, si la tarea ha fallado, proporciona sugerencias sobre cómo completar la tarea.

Descriptor:

En el aprendizaje continuo basado en LLM, la entrada y salida del Planificador es texto. Algunos entornos, como Crafter, se basan en texto, mientras que para el resto de los entornos, devuelven una representación de imagen 2D o 3D, o posiblemente algunas variables de estado. Un descriptor actúa como un puente, convirtiendo las modalidades en texto e incorporándolas en la indicación de un LLM.

Agentes de IA autónomos:

Este blog discute principalmente estudios recientes que integran modelos fundamentales con aprendizaje continuo, un gran avance hacia la consecución de AGI. Sin embargo, es importante reconocer que estos enfoques representan un subconjunto del esfuerzo más amplio para desarrollar agentes autónomos. Varias iniciativas destacadas probablemente hayan servido como catalizadores para la investigación discutida aquí. Resaltaremos brevemente estos en la siguiente sección.

Recientemente, varios trabajos, como AutoGPT y BabyAGI, parecen ser inspiradores en el uso de LLM como el cerebro, y están diseñados para ser agentes autónomos que resuelven problemas complejos. Les das una tarea. Funcionan en un bucle, dividiendo la tarea en subtareas, provocándose a sí mismos, respondiendo al estímulo y repitiendo el proceso hasta alcanzar la meta proporcionada. También pueden tener acceso a diferentes APIs, como el acceso a internet, lo que puede ampliar considerablemente sus casos de uso.

AutoGPT es tanto un GPT-3.5 como un GPT-4, que se unen a un bot compañero que les guía y les indica qué hacer. AutoGPT tiene acceso a internet y puede interactuar con aplicaciones, software y servicios, tanto en línea como locales. Para lograr un objetivo de alto nivel dado por los humanos, AutoGPT utiliza un formato de estímulo llamado Reason and ACT (ReACT). ReACT permite que el agente reciba una entrada, la comprenda, actúe en base a ella, razonando sobre los resultados, y luego vuelva a ejecutar ese bucle si es necesario. Dado que AutoGPT puede provocarse a sí mismo, puede pensar y razonar mientras realiza la tarea, buscando soluciones, descartando las que no tienen éxito y considerando diferentes opciones.

BabyAGI es otro agente autónomo de IA introducido recientemente. Tiene tres componentes basados en LLM (ver Fig. 4): 1- Existe un agente de creación de tareas que crea una lista de tareas (similar al Planificador) 2- Un agente de priorización intenta priorizar una lista de tareas mediante estímulo de LLM (similar al Selector) 3- Un agente de ejecución (Similar al Controlador) ejecuta una tarea con la mayor prioridad.

Tanto AutoGPT como BabyAGI utilizan una tienda de vectores interna para almacenar resultados intermedios y aprender de las experiencias.

Fig. 4: Diagrama de flujo de BabyAGI (fuente de la imagen sitio web de Yohei Nakajima)

Limitaciones y desafíos:

1- El aprendizaje continuo basado en LLM depende en gran medida de la confiabilidad de los LLM para comprender con precisión el entorno y planificar y evaluar de manera efectiva. Sin embargo, los estudios revelan que los LLM a veces pueden producir alucinaciones, inventar hechos y asignar tareas que no existen. Es importante destacar que en algunos de los estudios mencionados, reemplazar GPT-4 con GPT-3.5 condujo a un declive significativo en el rendimiento, subrayando el papel crítico del modelo de LLM utilizado.

2- Los LLM muestran inexactitudes cuando se emplean como Planificadores o Críticos. El Crítico puede proporcionar retroalimentación incorrecta o no verificar de manera precisa la finalización de la tarea. De manera similar, el Planificador puede quedar atrapado en un ciclo repetitivo, sin poder ajustar su plan incluso después de varios intentos. Agregar un proceso de intervención humana desencadenado por eventos bien diseñado puede mejorar el rendimiento de estos modelos en tales escenarios.

3- La longitud limitada del contexto en los LLM restringe la capacidad de memoria a corto plazo, lo que afecta su capacidad para retener experiencias pasadas detalladas y sus resultados, instrucciones detalladas y API de primitivas de control disponibles. Una longitud de contexto larga es muy crítica, especialmente en la autoverificación, para aprender de experiencias y fallas pasadas. A pesar de los esfuerzos de investigación en curso para ampliar la longitud del contexto o emplear métodos como Transformer-XL, en la mayoría de los casos los autores utilizaron GPT-4 con una longitud máxima de contexto de 8,192 tokens.

4- La mayoría de estos trabajos, excepto SPRING, asumen que el LLM conoce toda la información necesaria para iniciar el aprendizaje permanente antes de comenzar el experimento. Sin embargo, esta suposición no siempre es cierta. Proporcionar acceso a Internet a los agentes, como en AutoGPT, o proporcionar material textual como contexto de entrada, como en SPRING, puede ser útil para abordar preguntas de seguimiento.

Referencias:

[1] VOYAGER: Wang, Guanzhi, et al. “Voyager: Un agente encarnado de aprendizaje abierto con grandes modelos de lenguaje.”, 2023

[2] DEPS: Wang, Zihao, et al. “Describir, explicar, planificar y seleccionar: la planificación interactiva con grandes modelos de lenguaje permite agentes multitarea de mundo abierto.”, 2023

[3] SPRING: Wu, Yue, et al. “SPRING: GPT-4 supera a los algoritmos de RL estudiando papers y razonando.”, 2023

[4] Reflexion: Shinn, Noah, et al. “Reflexion: Agentes de lenguaje con aprendizaje reforzado verbal.”, 2023

[5] Progprompt: Singh, Ishika, et al. “Progprompt: Generación de planes de tareas para robots situados utilizando grandes modelos de lenguaje.”, 2023

[6] React: Yao, Shunyu, et al. “React: Sinergia en el razonamiento y la acción en modelos de lenguaje.”, 2022

[7] CaP: Liang, Jacky, et al. “Código como políticas: Programas de modelos de lenguaje para el control encarnado.”, 2023

[8] AutoGPT. https://github.com/Significant-Gravitas/Auto-GPT

[9] babyAGI: https://github.com/yoheinakajima/babyagi

[10] Weng, Lilian, et al. “Agentes autónomos alimentados por LLM”, 2023

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Amazon está probando la entrega de medicamentos con drones

Amazon está probando un servicio de entrega con drones para medicamentos recetados en College Station, Texas, con pla...

Inteligencia Artificial

Principal Financial Group utiliza la solución de análisis posterior a la llamada de AWS para extraer información sobre los clientes omnicanal

Una empresa de servicios financieros establecida con más de 140 años en el negocio, Principal es líder mundial en ges...

Inteligencia Artificial

Estas herramientas podrían ayudar a proteger nuestras imágenes de la IA

Sin embargo, estas herramientas no son perfectas, ni suficientes por sí solas.

Inteligencia Artificial

Principales bibliotecas de procesamiento de imágenes en Python

La visión por computadora es una rama de la inteligencia artificial (IA) que permite a las computadoras y sistemas ex...

Ciencia de Datos

Series de tiempo para el cambio climático Pronóstico de demanda origen-destino

La minería de datos de vehículos en movimiento es una tarea clave en los sistemas de transporte inteligentes. Los dat...

Inteligencia Artificial

Investigación de AI de SalesForce ha desarrollado ProGen Un gran avance en la ingeniería de proteínas mediante el uso de inteligencia artificial.

El desarrollo de proteínas funcionales ha sido durante mucho tiempo una búsqueda crítica en diversos campos científic...