Investigadores de la Universidad de Tokio desarrollaron un esquema de aprendizaje por refuerzo fotónico extendido que se mueve desde el problema estático del bandido hacia un entorno dinámico más desafiante.

Investigadores de la Universidad de Tokio crearon un esquema de aprendizaje por refuerzo fotónico que aborda el desafío de entornos dinámicos.

En el mundo del aprendizaje automático, el concepto de aprendizaje por refuerzo ha tomado protagonismo, permitiendo a los agentes conquistar tareas a través de la prueba y error iterativa dentro de un entorno específico. Destaca los logros en este campo, como el uso de enfoques fotónicos para externalizar los costos computacionales y aprovechar los atributos físicos de la luz. Subraya la necesidad de extender estos métodos a problemas más complejos que involucren múltiples agentes y entornos dinámicos. A través de este estudio de la Universidad de Tokio, los investigadores buscan combinar el algoritmo de bandit con el Q-learning para crear un bandit Q-learning modificado (BQL) que pueda acelerar el aprendizaje y proporcionar ideas sobre la cooperación multiagente, contribuyendo en última instancia al avance de la técnica de refuerzo fotónico.

Los investigadores han utilizado el concepto de problemas de mundo de cuadrícula. En esto, un agente navega dentro de una cuadrícula de 5*5, cada celda representa un estado. En cada paso, el agente debe tomar la acción: arriba, abajo, izquierda o derecha y recibir la recompensa y el siguiente estado. Las celdas específicas A y B ofrecen una recompensa más alta e incitan al agente a moverse a diferentes celdas. Este problema se basa en una política determinista, donde la acción del agente dicta su movimiento.

La función de valor de acción Q(s, a) cuantifica las recompensas futuras para pares de estado-acción dados una política π. Esta función encarna la anticipación del agente de recompensas acumulativas a través de sus acciones. El objetivo principal de este estudio es permitir que un agente aprenda los valores óptimos de Q para todos los pares de estado-acción. Se introduce un Q-learning modificado, integrando el algoritmo de bandit y mejorando el proceso de aprendizaje mediante la selección dinámica de pares de estado-acción.

Este esquema de Q-learning modificado permite el aprendizaje paralelo donde múltiples agentes actualizan una tabla Q compartida. La paralelización impulsa el proceso de aprendizaje al mejorar la precisión y eficiencia de las actualizaciones de la tabla Q. Se concibe un sistema de toma de decisiones que aprovecha los principios de interferencia cuántica de fotones para garantizar que las acciones simultáneas del agente sigan siendo distintas sin comunicación directa.

Los investigadores planean desarrollar un algoritmo que permita a los agentes actuar de manera continua y aplicar su método en tareas de aprendizaje más complicadas. En el futuro, los autores tienen como objetivo crear un sistema fotónico que permita decisiones sin conflictos entre al menos tres agentes, mejorando la armonía en la toma de decisiones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de NTU Singapur proponen OtterHD-8B un innovador modelo de IA multimodal evolucionado a partir de Fuyu-8B

Investigadores de S-Lab, Universidad Tecnológica de Nanyang, Singapur, presentan OtterHD-8B, un innovador modelo mult...

Inteligencia Artificial

NetEase Youdao abrió EmotiVoice al público un motor de texto a voz potente y moderno.

NetEase Youdao anunció el lanzamiento oficial del “Yi Mo Sheng”: Un motor de síntesis de voz a texto abie...

Inteligencia Artificial

Red de robots monitoriza tuberías utilizando sensores de ondas acústicas

Investigadores demostraron que los sensores de ondas acústicas guiadas pueden permitir que redes de robots independie...

Inteligencia Artificial

Esta investigación de IA propone SMPLer-X Un modelo de base generalista para captura de movimiento humano en 3D/4D a partir de entradas monoculares.

Los sectores de animación, videojuegos y moda pueden beneficiarse del campo de vanguardia de la estimación expresiva ...

Inteligencia Artificial

6 Comandos Mágicos para Jupyter Notebooks en Ciencia de Datos con Python

En el campo de los proyectos de Ciencia de Datos basados en Python, la utilización de los Cuadernos de Jupyter es omn...

Inteligencia Artificial

El Arte de la Ingeniería de Respuesta Rápida Decodificando ChatGPT

Dominar los principios y prácticas de interacción de la IA con el curso de OpenAI y DeepLearning.AI.