Rendimiento sobrehumano en la prueba Atari 100K El poder de BBF – Un nuevo agente de RL basado en valores de Google DeepMind, Mila y la Universidad de Montreal.

BBF un nuevo agente de RL basado en valores de Google DeepMind, Mila y la Universidad de Montreal logra rendimiento sobrehumano en la prueba Atari 100K.

El aprendizaje por refuerzo profundo (RL) ha surgido como un algoritmo de aprendizaje automático poderoso para abordar tareas de toma de decisiones complejas. Para superar el desafío de lograr una eficiencia en la muestra a nivel humano en el entrenamiento de RL profundo, un equipo de investigadores de Google DeepMind, Mila y la Universidad de Montreal ha presentado un nuevo agente de RL basado en el valor llamado “más rápido, mejor, más rápido” (BBF). En su reciente artículo, “Más grande, mejor, más rápido: Atari a nivel humano con eficiencia a nivel humano”, el equipo presenta el agente BBF, demostrando un rendimiento superhumano en la prueba de referencia Atari 100K utilizando una sola GPU.

Abordando el problema de escala

El enfoque principal del equipo de investigación fue abordar el problema de escala de las redes neuronales en RL profundo cuando hay muestras limitadas. Sobre la base del agente SR-SPR desarrollado por D’Oro et al. (2023), que utiliza un método de reducción y perturbación, BBF perturba el 50% de los parámetros de las capas convolucionales hacia un objetivo aleatorio. En contraste, SR-SPR perturba solo el 20% de los parámetros. Esta modificación resulta en una mejora en el rendimiento del agente BBF.

Aumentar la capacidad de la red

Para aumentar la capacidad de la red, los investigadores utilizan la red Impala-CNN y aumentan el tamaño de cada capa cuatro veces. Se observó que BBF supera constantemente a SR-SPR a medida que se aumenta el ancho de la red, mientras que SR-SPR alcanza su punto máximo a 1-2 veces el tamaño original.

Mejoras para un mejor rendimiento

BBF introduce un componente de horizonte de actualización que disminuye exponencialmente de 10 a 3. Sorprendentemente, esta modificación produce un agente más fuerte que los agentes de valor fijo como Rainbow y SR-SPR. Además, los investigadores aplican una estrategia de decaimiento de peso y aumentan el factor de descuento durante el aprendizaje para aliviar los problemas de sobreajuste estadístico.

Estudio empírico y resultados

En su estudio empírico, el equipo de investigación compara el rendimiento del agente BBF con varios agentes de RL de línea de base, incluidos SR-SPR, SPR, DrQ (eps) e IRIS, en la prueba de referencia Atari 100K. BBF supera a todos los competidores en cuanto a rendimiento y costo computacional. Específicamente, BBF logra una mejora del 2x en el rendimiento sobre SR-SPR mientras utiliza casi los mismos recursos computacionales. Además, BBF demuestra un rendimiento comparable al enfoque EfficientZero basado en modelos, pero con una reducción de más del 4x en el tiempo de ejecución.

Implicaciones futuras y disponibilidad

La introducción del agente BBF representa un avance significativo en la consecución de un rendimiento superhumano en RL profundo, especialmente en la prueba de referencia Atari 100K. El equipo de investigación espera que su trabajo inspire futuros esfuerzos para impulsar los límites de la eficiencia de la muestra en RL profundo. El código y los datos asociados con el agente BBF están disponibles públicamente en el repositorio de GitHub del proyecto, lo que permite a los investigadores explorar y construir sobre sus hallazgos.

Con la introducción del agente BBF, Google DeepMind y sus colaboradores han demostrado un progreso notable en el aprendizaje por refuerzo profundo. Al abordar el desafío de la eficiencia de la muestra y aprovechar los avances en la escalabilidad y las mejoras de rendimiento de la red, el agente BBF logra un rendimiento superhumano en la prueba de referencia Atari 100K. Este trabajo abre nuevas posibilidades para mejorar la eficiencia y efectividad de los algoritmos de RL, abriendo el camino para nuevos avances en el campo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Entendiendo Flash-Atención y Flash-Atención-2 El camino para ampliar la longitud del contexto de los modelos de lenguaje

Escalar el contexto de los grandes modelos de lenguaje (LLMs) sigue siendo uno de los mayores desafíos para ampliar e...

Inteligencia Artificial

Controversia de Disney en Hollywood ¡Interviene la IA, los escritores y actores se retiran!

En el corazón de Hollywood, la IA se ha convertido en una fuerza polarizante. Los escritores y actores de Disney, cus...

Inteligencia Artificial

Células complejas del pulpo son clave para su alta inteligencia

Investigadores exploraron la estructura neural del pulpo que define sus procesos de aprendizaje utilizando preparació...

Inteligencia Artificial

Aprendizaje adaptativo a través de la difusión Un paradigma de vanguardia

Introducción En el dinámico panorama de la educación y el aprendizaje automático, la integración del Aprendizaje Adap...

Inteligencia Artificial

Med-PaLM 2 de Google será la IA médica más avanzada

Google, una de las principales empresas de tecnología del mundo, está dando un paso audaz hacia el ámbito de la atenc...