Ve este nuevo sistema de IA llamado Estudiante de Juegos (SoG) que es capaz de vencer a los humanos en una variedad de juegos y aprender a jugar nuevos’.

Descubre el revolucionario sistema de IA Estudiante de Juegos (SoG) que supera a los humanos en diversos juegos y es capaz de aprender a jugar otros nuevos'.

Existe una larga tradición de utilizar juegos como indicadores de rendimiento de la IA. Los enfoques basados ​​en búsqueda y aprendizaje han tenido buenos resultados en varios juegos de información perfecta, mientras que los métodos basados ​​en teoría de juegos han tenido buenos resultados en algunas variaciones de póquer de información imperfecta. Al combinar la búsqueda dirigida, el aprendizaje por autojugada y el razonamiento de teoría de juegos, los investigadores de IA de EquiLibre Technologies, Sony AI, Amii y Midjourney, en colaboración con el proyecto DeepMind de Google, proponen Student of Games, un algoritmo de propósito general que unifica los esfuerzos anteriores. Con su alto rendimiento empírico en juegos de información perfecta e imperfecta, Student of Games es un paso significativo hacia el desarrollo de algoritmos universales aplicables en cualquier entorno. Con la creciente potencia computacional y de aproximación, demuestran que Student of Games es robusto y eventualmente logra un juego impecable. Student of Games se desempeña muy bien en ajedrez y Go, derrota al agente disponible más fuerte en póquer sin límite Texas hold’em, y vence al agente de última generación en Scotland Yard. Este juego de información imperfecta ilustra el valor de la búsqueda guiada, el aprendizaje y el razonamiento de teoría de juegos.

Para demostrar el progreso alcanzado por la inteligencia artificial, se enseñó a una computadora a jugar un juego de mesa y luego se mejoró hasta el punto en que podía vencer a los humanos en el juego. Con este último estudio, el equipo ha logrado un avance significativo hacia la creación de una inteligencia artificial general, donde una computadora puede realizar tareas que anteriormente se consideraban imposibles para una máquina.

La mayoría de las computadoras que juegan juegos de mesa han sido diseñadas para jugar solo un juego, como el ajedrez. Al diseñar y construir sistemas de este tipo, los científicos han creado una forma de inteligencia artificial limitada. Los investigadores detrás de este nuevo proyecto han desarrollado un sistema inteligente que puede competir en juegos que requieren una amplia gama de habilidades.

¿Qué es SoG – “Student Of Games”?

Combinando búsqueda, aprendizaje y análisis de teoría de juegos en un solo algoritmo, SoG tiene muchas aplicaciones prácticas. SoG comprende una técnica GT-CFR para el aprendizaje de CVPNs y la autojugada sólida. En particular, SoG es un algoritmo confiable para juegos de información óptima y subóptima: garantiza generar una mejor aproximación de técnicas minimax-óptimas a medida que los recursos informáticos mejoran. Este descubrimiento también se ha demostrado empíricamente en el póquer de Leduc, donde la búsqueda adicional conduce a la refinación de la aproximación en el tiempo de prueba, a diferencia de los sistemas RL puros que no utilizan la búsqueda.

¿Por qué SoG es tan efectivo?

SoG emplea una técnica llamada minimización de remordimientos contrafactuales de árbol en crecimiento (GT-CFR), que es una forma de búsqueda local que se puede realizar en cualquier momento y que implica la construcción no uniforme de subjuegos para aumentar el peso de los subjuegos con los que se asocian los estados futuros más importantes. Además, SoG emplea una técnica de aprendizaje llamada autojugada sólida, que entrena redes de valor y política basadas en los resultados del juego y las subbúsquedas recursivas aplicadas a escenarios descubiertos en búsquedas anteriores. Como un paso significativo hacia los algoritmos universales que se pueden aprender en cualquier situación, SoG muestra un buen rendimiento en múltiples dominios de problemas con información perfecta e imperfecta. En juegos de información inferior, las aplicaciones de búsqueda estándar enfrentan problemas conocidos.

Resumen de algoritmos

El método SoG utiliza la autojugada acústica para instruir al agente: al tomar una decisión, cada jugador utiliza una búsqueda GT-CFR bien ajustada junto con una CVPN para producir una política para el estado actual, que luego se utiliza para muestrear una acción al azar. GT-CFR es un proceso de dos etapas que comienza con el estado público actual y termina con un árbol maduro. El CFR del árbol público actual se actualiza durante la fase de actualización de arrepentimiento. Durante la fase de expansión, se añaden nuevas formas generales al árbol utilizando trayectorias de expansión basadas en simulación. Las iteraciones de GT-CFR comprenden una ejecución de fase de actualización de arrepentimiento y una ejecución de fase de expansión.

Los datos de entrenamiento para las redes de valor y política se generan durante el proceso de autojugada: consultas de búsqueda (estados de creencia pública consultados por la CVPN durante la fase de actualización de arrepentimiento de GT-CFR) y trayectorias completas del juego. Las consultas de búsqueda deben resolverse para actualizar la red de valor en función de los objetivos de valor contrafactuales. La red de política se puede ajustar a objetivos derivados de las trayectorias completas del juego. Los actores crean los datos de autojugada (y responden preguntas) mientras los entrenadores descubren e implementan nuevas redes y ocasionalmente actualizan los actores.

Algunas limitaciones

  • El uso de abstracciones de apuestas en el póquer podría abandonarse en favor de una política de reducción de acciones genérica para espacios de acción vastos.
  • Un modelo generativo que muestrea estados del mundo y opera en el subconjunto muestreado podría aproximar a SoG, que actualmente requiere enumerar cada estado público de información, lo cual puede ser prohibitivamente costoso en algunos juegos.
  • Un rendimiento sólido en dominios desafiantes a menudo requiere una gran cantidad de recursos informáticos; una pregunta interesante es si este nivel de rendimiento es alcanzable con menos recursos.

El equipo de investigación cree que tiene el potencial de destacarse en otros tipos de juegos debido a su capacidad para aprender cómo jugar casi cualquier juego, y ya ha vencido a sistemas de inteligencia artificial y a humanos en Go, ajedrez, Scotland Yard y póker Texas Hold ’em.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Explorando las últimas tendencias en IA/DL Desde el Metaverso hasta la Computación Cuántica

El autor discute varias tendencias emergentes en Inteligencia Artificial y Aprendizaje Profundo, como el Metaverso y ...

Inteligencia Artificial

Los mejores mejoradores de audio de IA (2023)

Los profesionales y audiófilos pueden beneficiarse de la mejor calidad de sonido posible gracias al software de mejor...

Inteligencia Artificial

¡Construye y juega! ¡Tu propio modelo V&L equipado con LLM!

Los modelos de lenguaje grandes (LLM) están demostrando cada vez más su valor. La incorporación de imágenes en los LL...

Inteligencia Artificial

Cómo utilizar ChatGPT para convertir texto en una presentación de PowerPoint

Una forma rápida de convertir un texto largo en una breve Presentación de PowerPoint utilizando solo ChatGPT.

Inteligencia Artificial

Real AI gana el proyecto para construir el modelo de lenguaje abierto de Europa de inteligencia artificial

Durante la Conferencia de Ciencia de Datos 2023 en Belgrado, el jueves 23 de noviembre, se anunció que Real AI ganó e...