Ajoutez « Diplomatie » à la liste des jeux auxquels l’IA peut jouer aussi bien que les humains

Les systèmes d’apprentissage automatique nettoient le sol avec leurs adversaires humains depuis plus d’une décennie maintenant (sérieusement, cette première victoire de Watson Jeopardy remonte à 2011), bien que les types de jeux dans lesquels ils excellent soient plutôt limités. Typiquement des jeux de société ou des jeux vidéo compétitifs utilisant un terrain de jeu limité, des mouvements séquentiels et au moins un adversaire clairement défini, tout jeu qui nécessite de faire des calculs est à leur avantage. La diplomatie, cependant, nécessite très peu de calculs, au lieu de cela, les joueurs exigeants négocient directement avec leurs adversaires et font des jeux respectifs simultanément – des choses que les systèmes ML modernes ne sont généralement pas conçus pour faire. Mais cela n’a pas empêché les chercheurs de Meta de concevoir un agent d’IA capable de négocier des positions politiques mondiales ainsi que n’importe quel ambassadeur de l’ONU.

Diplomacy est sorti pour la première fois en 1959 et fonctionne comme une version plus raffinée de RISK où entre deux et sept joueurs assument les rôles d’une puissance européenne et tentent de gagner la partie en conquérant les territoires de leurs adversaires. Contrairement à RISK où l’issue des conflits est décidée par un simple lancer de dés, Diplomacy exige que les joueurs négocient d’abord les uns avec les autres – mise en place d’alliances, backstabbing, toutes ces bonnes choses – avant que tout le monde ne déplace ses pièces simultanément pendant la phase de jeu suivante. Les capacités de lire et de manipuler les adversaires, de convaincre les joueurs de former des alliances et de planifier des stratégies complexes, de naviguer dans des partenariats délicats et de savoir quand changer de camp, sont toutes une partie importante du jeu – et toutes les compétences qui manquent généralement aux systèmes d’apprentissage automatique.

Mercredi, les chercheurs de Meta AI ont annoncé qu’ils avaient surmonté ces lacunes de l’apprentissage automatique avec CICERO, la première IA à afficher des performances de niveau humain en diplomatie. L’équipe a formé Cicero sur 2,7 milliards de paramètres au cours de 50 000 tours sur webDiplomacy.net, une version en ligne du jeu, où il s’est retrouvé à la deuxième place (sur 19 participants) dans un tournoi de ligue de 5 matchs, tout en doublant augmenter le score moyen de ses adversaires.

L’agent de l’IA s’est avéré si habile « à utiliser le langage naturel pour négocier avec les gens de la diplomatie qu’ils ont souvent préféré travailler avec CICERO par rapport à d’autres participants humains », a noté l’équipe Meta dans un communiqué de presse mercredi. « La diplomatie est un jeu sur les personnes plutôt que sur les pièces. Si un agent ne peut pas reconnaître que quelqu’un bluffe probablement ou qu’un autre joueur considérerait un certain mouvement comme agressif, il perdra rapidement la partie. De même, s’il ne parle pas comme une vraie personne – montrant de l’empathie, établissant des relations et parlant en connaissance de cause du jeu – il ne trouvera pas d’autres joueurs prêts à travailler avec lui. »

Méta

Essentiellement, Cicero combine l’état d’esprit stratégique de Pluribot ou AlphaGO avec les capacités de traitement du langage naturel (NLP) de Blenderbot ou GPT-3. L’agent est même capable de prévoyance. « Cicéron peut en déduire, par exemple, que plus tard dans le jeu, il aura besoin du soutien d’un joueur en particulier, puis élaborer une stratégie pour gagner la faveur de cette personne – et même reconnaître les risques et les opportunités que ce joueur voit de son point de vue particulier. point de vue », a noté l’équipe de recherche.

L’agent ne s’entraîne pas via un schéma d’apprentissage par renforcement standard comme le font des systèmes similaires. L’équipe Meta explique que cela conduirait à des performances sous-optimales car « s’appuyer uniquement sur l’apprentissage supervisé pour choisir des actions basées sur le dialogue passé aboutit à un agent relativement faible et hautement exploitable ».

Au lieu de cela, Cicero utilise « un algorithme de planification itératif qui équilibre la cohérence du dialogue avec la rationalité ». Il prédira d’abord les jeux de ses adversaires en fonction de ce qui s’est passé pendant le tour de négociation, ainsi que le jeu qu’il pense que ses adversaires pensent qu’il fera avant « d’améliorer de manière itérative ces prédictions en essayant de choisir de nouvelles politiques qui ont une valeur attendue plus élevée compte tenu de l’autre politiques prédites par les joueurs, tout en essayant de maintenir les nouvelles prévisions proches des prévisions politiques d’origine. » Facile, non ?

Le système n’est pas encore infaillible, car l’agent sera parfois trop malin et finira par se jouer de lui-même en prenant des positions de négociation contradictoires. Pourtant, ses performances dans ces premiers procès sont supérieures à celles de nombreux politiciens humains. Meta prévoit de continuer à développer le système pour « servir de bac à sable sûr pour faire avancer la recherche sur l’interaction homme-IA ».

Tous les produits recommandés par Engadget sont sélectionnés par notre équipe éditoriale, indépendante de notre maison mère. Certaines de nos histoires incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, nous pouvons gagner une commission d’affiliation. Tous les prix sont corrects au moment de la publication.

Source-145