AI para el juego de mesa Diplomacy

AI para Diplomacy

Los agentes cooperan mejor al comunicarse y negociar, y sancionar las promesas incumplidas ayuda a mantenerlos honestos

La comunicación y cooperación exitosas han sido cruciales para ayudar a las sociedades a avanzar a lo largo de la historia. Los entornos cerrados de los juegos de mesa pueden servir como un laboratorio para modelar e investigar la interacción y comunicación, y podemos aprender mucho jugando. En nuestro artículo reciente, publicado hoy en Nature Communications, mostramos cómo los agentes artificiales pueden usar la comunicación para cooperar mejor en el juego de mesa Diplomacia, un dominio vibrante en la investigación de inteligencia artificial (IA), conocido por su enfoque en la construcción de alianzas.

La Diplomacia es un desafío ya que tiene reglas simples pero una complejidad emergente alta debido a las fuertes interdependencias entre los jugadores y su inmenso espacio de acción. Para ayudar a resolver este desafío, diseñamos algoritmos de negociación que permiten a los agentes comunicarse y acordar planes conjuntos, lo que les permite superar a los agentes que carecen de esta habilidad.

La cooperación es particularmente desafiante cuando no podemos confiar en nuestros compañeros para hacer lo que prometen. Usamos la Diplomacia como un laboratorio para explorar qué sucede cuando los agentes pueden desviarse de sus acuerdos anteriores. Nuestra investigación ilustra los riesgos que surgen cuando los agentes complejos pueden tergiversar sus intenciones o engañar a otros con respecto a sus planes futuros, lo que plantea otra gran pregunta: ¿Cuáles son las condiciones que promueven una comunicación y trabajo en equipo confiables?

Mostramos que la estrategia de sancionar a los compañeros que rompen los contratos reduce drásticamente las ventajas que pueden obtener al abandonar sus compromisos, fomentando así una comunicación más honesta.

¿Qué es la Diplomacia y por qué es importante?

Juegos como el ajedrez, el póker, el Go y muchos videojuegos siempre han sido terreno fértil para la investigación de IA. La Diplomacia es un juego de siete jugadores de negociación y formación de alianzas, jugado en un antiguo mapa de Europa dividido en provincias, donde cada jugador controla múltiples unidades (reglas de la Diplomacia). En la versión estándar del juego, llamada Diplomacia a través de la Prensa, cada turno incluye una fase de negociación, después de la cual todos los jugadores revelan sus movimientos elegidos simultáneamente.

El corazón de la Diplomacia es la fase de negociación, donde los jugadores intentan ponerse de acuerdo sobre sus próximos movimientos. Por ejemplo, una unidad puede apoyar a otra unidad, permitiéndole superar la resistencia de otras unidades, como se ilustra aquí:

Dos escenarios de movimiento. ‍ Izquierda: dos unidades (una unidad Roja en Borgoña y una unidad Azul en Gascuña) intentan moverse a París. Como las unidades tienen la misma fuerza, ninguna tiene éxito. ‍ Derecha: la unidad Roja en Picardía apoya a la unidad Roja en Borgoña, superando la unidad Azul y permitiendo que la unidad Roja entre en Borgoña. — **Dos escenarios de movimiento.** ‍ **Izquierda:** dos unidades (una unidad Roja en Borgoña y una unidad Azul en Gascuña) intentan moverse a París. Como las unidades tienen la misma fuerza, ninguna tiene éxito. ‍ **Derecha:** la unidad Roja en Picardía apoya a la unidad Roja en Borgoña, superando la unidad Azul y permitiendo que la unidad Roja entre en Borgoña.

Se ha investigado el enfoque computacional de la Diplomacia desde la década de 1980, muchos de los cuales se exploraron en una versión más simple del juego llamada Diplomacia sin prensa, donde no se permite la comunicación estratégica entre los jugadores. Los investigadores también han propuesto protocolos de negociación amigables para la computadora, a veces llamados “Prensa restringida”.

¿Qué estudiamos?

Usamos la Diplomacia como un análogo de la negociación del mundo real, proporcionando métodos para que los agentes de IA coordinen sus movimientos. Tomamos nuestros agentes de Diplomacia no comunicativos y los mejoramos para jugar Diplomacia con comunicación dándoles un protocolo para negociar contratos para un plan de acción conjunto. Llamamos a estos agentes mejorados Negociadores de Referencia y están obligados por sus acuerdos.

Contratos de Diplomacia. ‍ Izquierda: una restricción que permite solo ciertas acciones que pueden tomar el jugador Rojo (no se le permite moverse de Ruhr a Borgoña y debe moverse de Piamonte a Marsella). ‍ Derecha: Un contrato entre los jugadores Rojo y Verde, que impone restricciones a ambos lados. — **Contratos de Diplomacia.** ‍ **Izquierda:** una restricción que permite solo ciertas acciones que pueden tomar el jugador Rojo (no se le permite moverse de Ruhr a Borgoña y debe moverse de Piamonte a Marsella). ‍ **Derecha:** Un contrato entre los jugadores Rojo y Verde, que impone restricciones a ambos lados.

Consideramos dos protocolos: el Protocolo de Propuesta Mutua y el Protocolo de Propuesta-Elección, discutidos en detalle en el documento completo. Nuestros agentes aplican algoritmos que identifican acuerdos mutuamente beneficiosos simulando cómo el juego podría desarrollarse bajo varios contratos. Utilizamos la Solución de Negociación de Nash de la teoría de juegos como base fundamentada para identificar acuerdos de alta calidad. El juego puede desarrollarse de muchas maneras dependiendo de las acciones de los jugadores, por lo que nuestros agentes utilizan simulaciones de Monte Carlo para ver qué podría suceder en el próximo turno.

Simulando los próximos estados dados un contrato acordado. Izquierda: estado actual en una parte del tablero, incluido un contrato acordado entre los jugadores Rojo y Verde. Derecha: múltiples posibles estados siguientes.

Nuestros experimentos demuestran que nuestro mecanismo de negociación permite a los Negociadores de Referencia superar significativamente a los agentes no comunicadores de referencia.

Los Negociadores de Referencia superan significativamente a los agentes no comunicadores de referencia. Izquierda: El Protocolo de Propuesta Mutua. Derecha: El Protocolo de Propuesta-Elección. La “ventaja del negociador” es la relación entre las tasas de victoria entre los agentes comunicadores y los agentes no comunicadores.

Agentes rompiendo acuerdos

En Diplomacia, los acuerdos realizados durante la negociación no son vinculantes (la comunicación es “charla barata”). Pero ¿qué sucede cuando los agentes que acuerdan un contrato en un turno se desvían de él en el siguiente? En muchos entornos de la vida real, las personas acuerdan actuar de cierta manera, pero no cumplen sus compromisos más adelante. Para permitir la cooperación entre agentes de IA, o entre agentes y humanos, debemos examinar el posible problema de los agentes que rompen estratégicamente sus acuerdos y las formas de remediar este problema. Utilizamos Diplomacia para estudiar cómo la capacidad de abandonar nuestros compromisos socava la confianza y la cooperación, e identificar las condiciones que fomentan una cooperación honesta.

Por lo tanto, consideramos Agentes Desviadores, que superan a los Negociadores de Referencia honestos al desviarse de los contratos acordados. Los Desviadores Simples simplemente “olvidan” que acordaron un contrato y se mueven como deseen. Los Desviadores Condicionales son más sofisticados y optimizan sus acciones asumiendo que otros jugadores que aceptaron un contrato actuarán de acuerdo con él.

Todos los tipos de nuestros Agentes Comunicadores. Bajo los términos de agrupación en verde, cada bloque azul representa un algoritmo de agente específico.

Mostramos que los Desviadores Simples y Condicionales superan significativamente a los Negociadores de Referencia, los Desviadores Condicionales abrumadoramente.

Agentes Desviadores versus Agentes Negociadores de Referencia. Izquierda: El Protocolo de Propuesta Mutua. Derecha: El Protocolo de Propuesta-Elección. La “ventaja del desviador” es la relación entre las tasas de victoria de los Agentes Desviadores sobre los Negociadores de Referencia.

Alentar a los agentes a ser honestos

A continuación, abordamos el problema de la desviación utilizando Agentes Defensivos, que responden de manera adversa a las desviaciones. Investigamos los Negociadores Binarios, que simplemente cortan la comunicación con los agentes que rompen un acuerdo con ellos. Pero el rechazo es una reacción moderada, por lo que también desarrollamos Agentes Sancionadores, que no toman la traición a la ligera, sino que modifican sus objetivos para intentar activamente reducir el valor del desviador, ¡un oponente con rencor! Mostramos que ambos tipos de Agentes Defensivos reducen la ventaja de la desviación, especialmente los Agentes Sancionadores.

Agentes No Desviadores (Negociadores de Referencia, Negociadores Binarios y Agentes Sancionadores) jugando contra Desviadores Condicionales. Izquierda: Protocolo de Propuesta Mutua. Derecha: Protocolo de Propuesta-Elección. Los valores de “ventaja del desviador” inferiores a 1 indican que un Agente Defensivo supera a un Agente Desviador. Una población de Negociadores Binarios (azul) reduce la ventaja de los Desviadores en comparación con una población de Negociadores de Referencia (gris).

Finalmente, presentamos los Desviadores Aprendidos, que se adaptan y optimizan su comportamiento frente a los Agentes Sancionadores en múltiples juegos, tratando de hacer que las defensas anteriores sean menos efectivas. Un Desviador Aprendido solo romperá un contrato cuando las ganancias inmediatas de la desviación sean lo suficientemente altas y la capacidad del otro agente para tomar represalias sea lo suficientemente baja. En la práctica, los Desviadores Aprendidos rompen ocasionalmente contratos tarde en el juego, y al hacerlo logran una ligera ventaja sobre los Agentes Sancionadores. Sin embargo, dichas sanciones llevan al Desviador Aprendido a cumplir más del 99.7% de sus contratos.

También examinamos las posibles dinámicas de aprendizaje de la sanción y la desviación: qué sucede cuando los Agentes Sancionadores también pueden desviarse de los contratos y el incentivo potencial para dejar de sancionar cuando este comportamiento es costoso. Tales problemas pueden erosionar gradualmente la cooperación, por lo que pueden ser necesarios mecanismos adicionales como la interacción repetida a lo largo de múltiples juegos o el uso de sistemas de confianza y reputación.

Nuestro artículo deja muchas preguntas abiertas para investigaciones futuras: ¿Es posible diseñar protocolos más sofisticados para fomentar un comportamiento aún más honesto? ¿Cómo se podría manejar la combinación de técnicas de comunicación e información imperfecta? Por último, ¿qué otros mecanismos podrían evitar la ruptura de acuerdos? Construir sistemas de IA justos, transparentes y confiables es un tema extremadamente importante, y es parte clave de la misión de DeepMind. Estudiar estas preguntas en entornos controlados como Diplomacy nos ayuda a comprender mejor las tensiones entre cooperación y competencia que podrían existir en el mundo real. En última instancia, creemos que abordar estos desafíos nos permite comprender mejor cómo desarrollar sistemas de IA en línea con los valores y prioridades de la sociedad.

‍

Lee nuestro artículo completo aquí .

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

AI para el juego de mesa Diplomacy

Los agentes cooperan mejor al comunicarse y negociar, y sancionar las promesas incumplidas ayuda a mantenerlos honestos

¿Qué es la Diplomacia y por qué es importante?

¿Qué estudiamos?

Agentes rompiendo acuerdos

Alentar a los agentes a ser honestos

Was this article helpful?

Programación competitiva con AlphaCode

Dominando Stratego, el clásico juego de información imperfecta

Inteligencia Artificial

Investigadores de la Universidad de Columbia y Apple presentan Ferret un revolucionario modelo de lenguaje multimodal para la comprensión y descripción avanzada de imágenes.

Inteligencia Artificial Explicativa (IAE)

DreamBooth Difusión estable para imágenes personalizadas

Una nueva investigación de IA explica cómo el Aprendizaje de Instrucción en Contexto (ICIL) mejora el rendimiento de generalización de tareas sin entrenamiento para modelos preentrenados y modelos ajustados mediante instrucciones.

Cómo el Aprendizaje Automático se convertirá en un cambio de juego para la industria de datos de ubicación

Investigadores de la Universidad Nacional de Singapur proponen Mind-Video una nueva herramienta de IA que utiliza datos de fMRI del cerebro para recrear imágenes de video