LLMs superan al aprendizaje por refuerzo Conozca SPRING un innovador marco de trabajo de sugerencias para LLMs diseñado para permitir la planificación y el razonamiento en cadena de pensamiento en contexto.

LLMs superan al aprendizaje por refuerzo. Conozca SPRING, un innovador marco de trabajo de sugerencias para LLMs, diseñado para permitir la planificación y el razonamiento en cadena de pensamiento en contexto.

SPRING es una política basada en LLM que supera a los algoritmos de Reinforcement Learning en un entorno interactivo que requiere planificación y razonamiento de múltiples tareas.

Un grupo de investigadores de la Universidad Carnegie Mellon, NVIDIA, la Universidad Ariel y Microsoft han investigado el uso de Modelos de Lenguaje Grande (LLM) para comprender y razonar con el conocimiento humano en el contexto de los juegos. Proponen un enfoque de dos etapas llamado SPRING, que implica estudiar un artículo académico y luego utilizar un marco de preguntas y respuestas (QA) para justificar el conocimiento obtenido.

Más detalles sobre SPRING

En la primera etapa, los autores leen el código fuente LaTeX del artículo original de Hafner (2021) para extraer el conocimiento previo. Utilizaron un LLM para extraer información relevante, incluyendo mecánicas del juego y comportamientos deseables documentados en el artículo. Luego utilizaron un marco de resumen de preguntas y respuestas similar al de Wu et al. (2023) para generar un diálogo de preguntas y respuestas basado en el conocimiento extraído, lo que permite a SPRING manejar información contextual diversa.

La segunda etapa se centró en el razonamiento de cadena de pensamiento en contexto utilizando LLM para resolver juegos complejos. Construyeron un grafo acíclico dirigido (DAG) como un módulo de razonamiento, donde las preguntas son nodos y las dependencias entre las preguntas se representan como aristas. Por ejemplo, la pregunta “¿Se cumplen los requisitos para cada acción?” está vinculada a la pregunta “¿Cuáles son las 5 mejores acciones?” dentro del DAG, estableciendo una dependencia de la última pregunta hacia la primera.

Las respuestas del LLM se calculan para cada nodo/pregunta recorriendo el DAG en orden topológico. El nodo final en el DAG representa la pregunta sobre la mejor acción a tomar, y la respuesta del LLM se traduce directamente en una acción ambiental.

Experimentos y resultados

El Entorno Crafter, introducido por Hafner (2021), es un juego de supervivencia de mundo abierto con 22 logros organizados en un árbol tecnológico de profundidad 7. El juego se representa como un mundo de cuadrícula con observaciones desde arriba y un espacio de acción discreto que consta de 17 opciones. Las observaciones también proporcionan información sobre el estado actual del inventario del jugador, incluyendo puntos de salud, comida, agua, niveles de descanso y elementos de inventario.

Los autores compararon SPRING y métodos populares de RL en el benchmark de Crafter. Posteriormente, se realizaron experimentos y análisis en diferentes componentes de su arquitectura para examinar el impacto de cada parte en las habilidades de “razonamiento” en contexto del LLM.

Fuente: https://arxiv.org/pdf/2305.15486.pdf

Los autores compararon el rendimiento de varios métodos de RL con SPRING y GPT-4, condicionados al artículo del entorno de Hafner (2021). SPRING supera los métodos anteriores del estado del arte por un margen significativo, logrando una mejora relativa del 88% en la puntuación del juego y una mejora del 5% en la recompensa en comparación con el mejor método de RL realizado por Hafner et al. (2023).

Es importante destacar que SPRING aprovecha el conocimiento previo obtenido al leer el artículo y no requiere ningún paso de entrenamiento, mientras que los métodos de RL suelen necesitar millones de pasos de entrenamiento.

La figura anterior representa un gráfico de tasas de desbloqueo para diferentes tareas, comparando SPRING con métodos populares de RL. SPRING, potenciado por el conocimiento previo, supera a los métodos de RL en más de diez veces en logros como “Hacer pico de piedra”, “Hacer espada de piedra” y “Recoger hierro”, que están más profundos en el árbol tecnológico (hasta una profundidad de 5) y son difíciles de alcanzar mediante exploración aleatoria.

Además, SPRING tiene un rendimiento perfecto en logros como “Comer vaca” y “Recoger bebida”. Mientras tanto, los marcos de RL basados en modelos como Dreamer-V3 tienen tasas de desbloqueo significativamente más bajas (más de cinco veces más bajas) para “Comer vaca” debido al desafío de alcanzar vacas en movimiento mediante exploración aleatoria. Es importante destacar que SPRING no realiza la acción “Colocar piedra” ya que no se discutió como beneficiosa para el agente en el artículo de Hafner (2021), aunque podría lograrse fácilmente mediante exploración aleatoria.

Limitaciones

Una limitación de usar un LLM para interactuar con el entorno es la necesidad de reconocimiento y fundamentación de objetos. Sin embargo, esta limitación no existe en entornos que proporcionan información precisa sobre los objetos, como los juegos contemporáneos y los mundos de realidad virtual. Si bien las estructuras visuales pre-entrenadas tienen dificultades con los juegos, tienen un rendimiento razonablemente bueno en entornos similares al mundo real. Los avances recientes en los modelos visuales de lenguaje indican un potencial para soluciones confiables en la comprensión visual y de lenguaje en el futuro.

Conclusión

En resumen, el marco SPRING muestra el potencial de los Modelos de Lenguaje (LLMs) para la comprensión y el razonamiento en los juegos. Al aprovechar el conocimiento previo de los artículos académicos y emplear un razonamiento en cadena contextualizado, SPRING supera a los métodos estatales más avanzados anteriores en la evaluación Crafter, logrando mejoras sustanciales en la puntuación y la recompensa del juego. Los resultados resaltan el poder de los LLMs en tareas de juegos complejas y sugieren que los futuros avances en los modelos visuales de lenguaje podrían abordar las limitaciones existentes, allanando el camino para soluciones confiables y generalizables.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningPrompt EngineeringStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Conoce a QLORA Un enfoque de ajuste eficiente que reduce el uso de memoria lo suficiente como para ajustar un modelo de 65B parámetros en una sola GPU de 48GB, preservando al mismo tiempo el rendimiento completo de la tarea de ajuste fino de 16 bits.

LLMs superan al aprendizaje por refuerzo Conozca SPRING un innovador marco de trabajo de sugerencias para LLMs diseñado para permitir la planificación y el razonamiento en cadena de pensamiento en contexto.

Más detalles sobre SPRING

Experimentos y resultados

Limitaciones

Conclusión

Was this article helpful?

Investigadores de UC Berkeley presentan Video Prediction Rewards (VIPER) un algoritmo que aprovecha los modelos de predicción de video preentrenados como señales de recompensa sin acción para el aprendizaje por refuerzo.

Conoce a QLORA Un enfoque de ajuste eficiente que reduce el uso de memoria lo suficiente como para ajustar un modelo de 65B parámetros en una sola GPU de 48GB, preservando al mismo tiempo el rendimiento completo de la tarea de ajuste fino de 16 bits.

Inteligencia Artificial

Google Research explora ¿Puede la retroalimentación de IA reemplazar la entrada humana para un aprendizaje por refuerzo efectivo en modelos de lenguaje grandes?

El Aprendizaje Automático Revela una Sorpresa del COVID

Conciliando la Paradoja de la IA Generativa Caminos Divergentes de la Inteligencia Humana y Máquina en la Generación y Comprensión

Arquitecturas de Transformadores y el Surgimiento de BERT, GPT y T5 Una Guía para Principiantes

Transformando la investigación en Catalyst Conoce a CatBERTa, un modelo de IA basado en Transformers diseñado para la predicción de energía utilizando entradas de texto

Investigadores de ByteDance y UCSD proponen un modelo de difusión multi-vista que es capaz de generar un conjunto de imágenes multi-vista de un objeto/escena a partir de cualquier texto dado.