LLMs superan al aprendizaje por refuerzo Conozca SPRING un innovador marco de trabajo de sugerencias para LLMs diseñado para permitir la planificación y el razonamiento en cadena de pensamiento en contexto.
LLMs superan al aprendizaje por refuerzo. Conozca SPRING, un innovador marco de trabajo de sugerencias para LLMs, diseñado para permitir la planificación y el razonamiento en cadena de pensamiento en contexto.
SPRING es una política basada en LLM que supera a los algoritmos de Reinforcement Learning en un entorno interactivo que requiere planificación y razonamiento de múltiples tareas.
Un grupo de investigadores de la Universidad Carnegie Mellon, NVIDIA, la Universidad Ariel y Microsoft han investigado el uso de Modelos de Lenguaje Grande (LLM) para comprender y razonar con el conocimiento humano en el contexto de los juegos. Proponen un enfoque de dos etapas llamado SPRING, que implica estudiar un artículo académico y luego utilizar un marco de preguntas y respuestas (QA) para justificar el conocimiento obtenido.
Más detalles sobre SPRING
En la primera etapa, los autores leen el código fuente LaTeX del artículo original de Hafner (2021) para extraer el conocimiento previo. Utilizaron un LLM para extraer información relevante, incluyendo mecánicas del juego y comportamientos deseables documentados en el artículo. Luego utilizaron un marco de resumen de preguntas y respuestas similar al de Wu et al. (2023) para generar un diálogo de preguntas y respuestas basado en el conocimiento extraído, lo que permite a SPRING manejar información contextual diversa.
- Investigadores de UC Berkeley presentan Video Prediction Rewards (VIPER) un algoritmo que aprovecha los modelos de predicción de video preentrenados como señales de recompensa sin acción para el aprendizaje por refuerzo.
- Optimización del controlador PID Un enfoque de descenso de gradiente
- LLM (Modelos de Lenguaje Grandes) para un Mejor Aprendizaje del Desarrollador de tu Producto
La segunda etapa se centró en el razonamiento de cadena de pensamiento en contexto utilizando LLM para resolver juegos complejos. Construyeron un grafo acíclico dirigido (DAG) como un módulo de razonamiento, donde las preguntas son nodos y las dependencias entre las preguntas se representan como aristas. Por ejemplo, la pregunta “¿Se cumplen los requisitos para cada acción?” está vinculada a la pregunta “¿Cuáles son las 5 mejores acciones?” dentro del DAG, estableciendo una dependencia de la última pregunta hacia la primera.
Las respuestas del LLM se calculan para cada nodo/pregunta recorriendo el DAG en orden topológico. El nodo final en el DAG representa la pregunta sobre la mejor acción a tomar, y la respuesta del LLM se traduce directamente en una acción ambiental.
Experimentos y resultados
El Entorno Crafter, introducido por Hafner (2021), es un juego de supervivencia de mundo abierto con 22 logros organizados en un árbol tecnológico de profundidad 7. El juego se representa como un mundo de cuadrícula con observaciones desde arriba y un espacio de acción discreto que consta de 17 opciones. Las observaciones también proporcionan información sobre el estado actual del inventario del jugador, incluyendo puntos de salud, comida, agua, niveles de descanso y elementos de inventario.
Los autores compararon SPRING y métodos populares de RL en el benchmark de Crafter. Posteriormente, se realizaron experimentos y análisis en diferentes componentes de su arquitectura para examinar el impacto de cada parte en las habilidades de “razonamiento” en contexto del LLM.
![](https://www.marktechpost.com/wp-content/uploads/2023/05/image-42-1024x458.png)
Los autores compararon el rendimiento de varios métodos de RL con SPRING y GPT-4, condicionados al artículo del entorno de Hafner (2021). SPRING supera los métodos anteriores del estado del arte por un margen significativo, logrando una mejora relativa del 88% en la puntuación del juego y una mejora del 5% en la recompensa en comparación con el mejor método de RL realizado por Hafner et al. (2023).
Es importante destacar que SPRING aprovecha el conocimiento previo obtenido al leer el artículo y no requiere ningún paso de entrenamiento, mientras que los métodos de RL suelen necesitar millones de pasos de entrenamiento.
![](https://www.marktechpost.com/wp-content/uploads/2023/05/image-43-1024x554.png)
La figura anterior representa un gráfico de tasas de desbloqueo para diferentes tareas, comparando SPRING con métodos populares de RL. SPRING, potenciado por el conocimiento previo, supera a los métodos de RL en más de diez veces en logros como “Hacer pico de piedra”, “Hacer espada de piedra” y “Recoger hierro”, que están más profundos en el árbol tecnológico (hasta una profundidad de 5) y son difíciles de alcanzar mediante exploración aleatoria.
Además, SPRING tiene un rendimiento perfecto en logros como “Comer vaca” y “Recoger bebida”. Mientras tanto, los marcos de RL basados en modelos como Dreamer-V3 tienen tasas de desbloqueo significativamente más bajas (más de cinco veces más bajas) para “Comer vaca” debido al desafío de alcanzar vacas en movimiento mediante exploración aleatoria. Es importante destacar que SPRING no realiza la acción “Colocar piedra” ya que no se discutió como beneficiosa para el agente en el artículo de Hafner (2021), aunque podría lograrse fácilmente mediante exploración aleatoria.
Limitaciones
Una limitación de usar un LLM para interactuar con el entorno es la necesidad de reconocimiento y fundamentación de objetos. Sin embargo, esta limitación no existe en entornos que proporcionan información precisa sobre los objetos, como los juegos contemporáneos y los mundos de realidad virtual. Si bien las estructuras visuales pre-entrenadas tienen dificultades con los juegos, tienen un rendimiento razonablemente bueno en entornos similares al mundo real. Los avances recientes en los modelos visuales de lenguaje indican un potencial para soluciones confiables en la comprensión visual y de lenguaje en el futuro.
Conclusión
En resumen, el marco SPRING muestra el potencial de los Modelos de Lenguaje (LLMs) para la comprensión y el razonamiento en los juegos. Al aprovechar el conocimiento previo de los artículos académicos y emplear un razonamiento en cadena contextualizado, SPRING supera a los métodos estatales más avanzados anteriores en la evaluación Crafter, logrando mejoras sustanciales en la puntuación y la recompensa del juego. Los resultados resaltan el poder de los LLMs en tareas de juegos complejas y sugieren que los futuros avances en los modelos visuales de lenguaje podrían abordar las limitaciones existentes, allanando el camino para soluciones confiables y generalizables.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Conoce a WebAgent el nuevo LLM de DeepMind que sigue instrucciones y completa tareas en sitios web
- El modelo POE de sistemas de hardware inspirados en la biología
- Dominando las Expresiones Regulares con Python
- Pythia Un conjunto de 16 LLMs para investigación en profundidad
- Una guía completa sobre la arquitectura UNET | Dominando la segmentación de imágenes
- Un enfoque sistemático para elegir la mejor tecnología/proveedor versión MLOps
- 4 formas en las que no puedes usar el intérprete de código ChatGPT que perturbarán tus análisis