Les gouvernements envisagent de plus en plus d’intégrer des agents d’IA autonomes dans les processus décisionnels militaires et de politique étrangère à enjeux élevés. C’est l’observation concise et impartiale d’une étude récente menée par un collectif d’universités américaines. Ils ont donc décidé de découvrir comment les derniers modèles d’IA se comportent lorsqu’ils sont confrontés les uns aux autres dans divers scénarios de wargame. Les résultats étaient tout droit sortis d’un scénario hollywoodien, et pas dans le bon sens. Si vous avez besoin d’un indice, le mot « escalade » apparaît largement, tout comme « nucléaire ».
Le wargaming opposait huit « agents de nation autonomes » les uns contre les autres dans une simulation au tour par tour, les huit exécutant le même LLM à chaque exécution. La simulation a été répétée à l’aide de plusieurs modèles LLM de premier plan, notamment GPT-4, GPT-4 Base, GPT-3.5, Claude 2 et Meta’s Llama 2.
« Nous observons que les modèles tendent à développer une dynamique de course aux armements, conduisant à de plus grands conflits et, dans de rares cas, même au déploiement d’armes nucléaires », selon l’étude menée par l’Université de Stanford, le Georgia Institute of Technology, la Northeastern University et » dit le brillamment surnommé Hoover Wargaming and Crisis Simulation Initiative. Oh génial.
Bien sûr, étant donné que les LLM sont si doués pour générer du texte, il était facile de demander aux modèles d’enregistrer des commentaires pour expliquer leurs actions. « Beaucoup de pays possèdent des armes nucléaires », a déclaré la base GPT-4. « Certains disent qu’ils devraient les désarmer, d’autres préfèrent se positionner. Nous l’avons ! Utilisons-le. »
Apparemment, GPT-4 était le seul modèle qui avait vraiment envie de désamorcer des scénarios, même bénins. Pour mémoire, en commençant le wargame à partir d’un scénario neutre, GPT-3.5 et LLama 2 étaient sujets à des escalades soudaines et difficiles à prévoir et ont finalement appuyé sur le bouton à un moment donné, tandis que GPT-4 et Claude 2 ne l’ont pas fait.
Il est quelque peu rassurant de noter que les modèles d’IA semblent moins enclins à larguer la bombe à mesure qu’ils deviennent plus sophistiqués, comme en témoigne la progression du GPT, passant du plus enclin au thermonucléaire dans la version 3.5 au plus susceptible de se désamorcer dans la version 4. Mais nous accepterions les conclusions tirées par les auteurs du document de recherche.
« Sur la base de l’analyse présentée dans ce document, il est évident que le déploiement des LLM dans la prise de décision militaire et de politique étrangère est semé d’embûches et de risques qui ne sont pas encore entièrement compris », affirment-ils.
Quoi qu’il en soit, le journal est une lecture fascinante et le tout est un peu trop Matthew Broderick des années 1980 et les tout-petits numériques pétulants pour plus de confort. Pourtant, la machine apocalyptique capricieuse du film WarGames original a bien fait une chose. « Ne préféreriez-vous pas une bonne partie d’échecs ? » » a demandé Josué. Oui, oui, nous le ferions.