Investigadores de la Universidad de Tokio desarrollaron un esquema de aprendizaje por refuerzo fotónico extendido que se mueve desde el problema estático del bandido hacia un entorno dinámico más desafiante.

Investigadores de la Universidad de Tokio crearon un esquema de aprendizaje por refuerzo fotónico que aborda el desafío de entornos dinámicos.

En el mundo del aprendizaje automático, el concepto de aprendizaje por refuerzo ha tomado protagonismo, permitiendo a los agentes conquistar tareas a través de la prueba y error iterativa dentro de un entorno específico. Destaca los logros en este campo, como el uso de enfoques fotónicos para externalizar los costos computacionales y aprovechar los atributos físicos de la luz. Subraya la necesidad de extender estos métodos a problemas más complejos que involucren múltiples agentes y entornos dinámicos. A través de este estudio de la Universidad de Tokio, los investigadores buscan combinar el algoritmo de bandit con el Q-learning para crear un bandit Q-learning modificado (BQL) que pueda acelerar el aprendizaje y proporcionar ideas sobre la cooperación multiagente, contribuyendo en última instancia al avance de la técnica de refuerzo fotónico.

Los investigadores han utilizado el concepto de problemas de mundo de cuadrícula. En esto, un agente navega dentro de una cuadrícula de 5*5, cada celda representa un estado. En cada paso, el agente debe tomar la acción: arriba, abajo, izquierda o derecha y recibir la recompensa y el siguiente estado. Las celdas específicas A y B ofrecen una recompensa más alta e incitan al agente a moverse a diferentes celdas. Este problema se basa en una política determinista, donde la acción del agente dicta su movimiento.

La función de valor de acción Q(s, a) cuantifica las recompensas futuras para pares de estado-acción dados una política π. Esta función encarna la anticipación del agente de recompensas acumulativas a través de sus acciones. El objetivo principal de este estudio es permitir que un agente aprenda los valores óptimos de Q para todos los pares de estado-acción. Se introduce un Q-learning modificado, integrando el algoritmo de bandit y mejorando el proceso de aprendizaje mediante la selección dinámica de pares de estado-acción.

Este esquema de Q-learning modificado permite el aprendizaje paralelo donde múltiples agentes actualizan una tabla Q compartida. La paralelización impulsa el proceso de aprendizaje al mejorar la precisión y eficiencia de las actualizaciones de la tabla Q. Se concibe un sistema de toma de decisiones que aprovecha los principios de interferencia cuántica de fotones para garantizar que las acciones simultáneas del agente sigan siendo distintas sin comunicación directa.

Los investigadores planean desarrollar un algoritmo que permita a los agentes actuar de manera continua y aplicar su método en tareas de aprendizaje más complicadas. En el futuro, los autores tienen como objetivo crear un sistema fotónico que permita decisiones sin conflictos entre al menos tres agentes, mejorando la armonía en la toma de decisiones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de la Universidad de Tokio desarrollaron un esquema de aprendizaje por refuerzo fotónico extendido que se mueve desde el problema estático del bandido hacia un entorno dinámico más desafiante.

Was this article helpful?

Dos interesantes funciones de manipulación de datos en Pandas que necesitas conocer

La inteligencia artificial ayuda a los robots a manipular objetos con todo su cuerpo

Inteligencia Artificial

Investigadores de NTU Singapur proponen OtterHD-8B un innovador modelo de IA multimodal evolucionado a partir de Fuyu-8B

NetEase Youdao abrió EmotiVoice al público un motor de texto a voz potente y moderno.

Red de robots monitoriza tuberías utilizando sensores de ondas acústicas

Esta investigación de IA propone SMPLer-X Un modelo de base generalista para captura de movimiento humano en 3D/4D a partir de entradas monoculares.

6 Comandos Mágicos para Jupyter Notebooks en Ciencia de Datos con Python

El Arte de la Ingeniería de Respuesta Rápida Decodificando ChatGPT