Rendimiento sobrehumano en la prueba Atari 100K El poder de BBF – Un nuevo agente de RL basado en valores de Google DeepMind, Mila y la Universidad de Montreal.
BBF un nuevo agente de RL basado en valores de Google DeepMind, Mila y la Universidad de Montreal logra rendimiento sobrehumano en la prueba Atari 100K.
El aprendizaje por refuerzo profundo (RL) ha surgido como un algoritmo de aprendizaje automático poderoso para abordar tareas de toma de decisiones complejas. Para superar el desafío de lograr una eficiencia en la muestra a nivel humano en el entrenamiento de RL profundo, un equipo de investigadores de Google DeepMind, Mila y la Universidad de Montreal ha presentado un nuevo agente de RL basado en el valor llamado “más rápido, mejor, más rápido” (BBF). En su reciente artículo, “Más grande, mejor, más rápido: Atari a nivel humano con eficiencia a nivel humano”, el equipo presenta el agente BBF, demostrando un rendimiento superhumano en la prueba de referencia Atari 100K utilizando una sola GPU.
Abordando el problema de escala
El enfoque principal del equipo de investigación fue abordar el problema de escala de las redes neuronales en RL profundo cuando hay muestras limitadas. Sobre la base del agente SR-SPR desarrollado por D’Oro et al. (2023), que utiliza un método de reducción y perturbación, BBF perturba el 50% de los parámetros de las capas convolucionales hacia un objetivo aleatorio. En contraste, SR-SPR perturba solo el 20% de los parámetros. Esta modificación resulta en una mejora en el rendimiento del agente BBF.
- Ejecutando Falcon en una CPU con Hugging Face Pipelines.
- La huella digital de ChatGPT DNA-GPT es un método de detección de texto generado por GPT que utiliza un análisis divergente de N-gramos.
- Acelerando el Acelerador Científico Acelera la Computación de Alto Rendimiento de CERN con GPUs y IA.
Aumentar la capacidad de la red
Para aumentar la capacidad de la red, los investigadores utilizan la red Impala-CNN y aumentan el tamaño de cada capa cuatro veces. Se observó que BBF supera constantemente a SR-SPR a medida que se aumenta el ancho de la red, mientras que SR-SPR alcanza su punto máximo a 1-2 veces el tamaño original.
Mejoras para un mejor rendimiento
BBF introduce un componente de horizonte de actualización que disminuye exponencialmente de 10 a 3. Sorprendentemente, esta modificación produce un agente más fuerte que los agentes de valor fijo como Rainbow y SR-SPR. Además, los investigadores aplican una estrategia de decaimiento de peso y aumentan el factor de descuento durante el aprendizaje para aliviar los problemas de sobreajuste estadístico.
Estudio empírico y resultados
En su estudio empírico, el equipo de investigación compara el rendimiento del agente BBF con varios agentes de RL de línea de base, incluidos SR-SPR, SPR, DrQ (eps) e IRIS, en la prueba de referencia Atari 100K. BBF supera a todos los competidores en cuanto a rendimiento y costo computacional. Específicamente, BBF logra una mejora del 2x en el rendimiento sobre SR-SPR mientras utiliza casi los mismos recursos computacionales. Además, BBF demuestra un rendimiento comparable al enfoque EfficientZero basado en modelos, pero con una reducción de más del 4x en el tiempo de ejecución.
Implicaciones futuras y disponibilidad
La introducción del agente BBF representa un avance significativo en la consecución de un rendimiento superhumano en RL profundo, especialmente en la prueba de referencia Atari 100K. El equipo de investigación espera que su trabajo inspire futuros esfuerzos para impulsar los límites de la eficiencia de la muestra en RL profundo. El código y los datos asociados con el agente BBF están disponibles públicamente en el repositorio de GitHub del proyecto, lo que permite a los investigadores explorar y construir sobre sus hallazgos.
Con la introducción del agente BBF, Google DeepMind y sus colaboradores han demostrado un progreso notable en el aprendizaje por refuerzo profundo. Al abordar el desafío de la eficiencia de la muestra y aprovechar los avances en la escalabilidad y las mejoras de rendimiento de la red, el agente BBF logra un rendimiento superhumano en la prueba de referencia Atari 100K. Este trabajo abre nuevas posibilidades para mejorar la eficiencia y efectividad de los algoritmos de RL, abriendo el camino para nuevos avances en el campo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 3 preguntas Jacob Andreas sobre modelos de lenguaje grandes
- Anunciando mejoras en la extracción de tablas con Amazon Textract
- Microsoft Bing acelera la entrega de anuncios con NVIDIA Triton.
- El Programa MIT-Takeda entra en su cuarto año con una cosecha de 10 nuevos proyectos.
- Los ejércitos de robots luchan en las épicas batallas en pantalla de Battlecode.
- Comprendiendo nuestro lugar en el universo
- Microsoft AI presenta LLaVA-Med un asistente de lenguaje y visión de gran tamaño y eficientemente entrenado que revoluciona la investigación biomédica, brindando conversaciones avanzadas multimodales en menos de 15 horas.