Un programmeur a donné à un modèle d’IA 50 000 heures de formation sur la façon de jouer à Pokemon Red, ce qui a conduit à un algorithme capable d’explorer le jeu et de constituer une équipe pour vaincre le premier leader du gymnase – mais pas un algorithme capable de se frayer un chemin à travers le mont. Lune ou sachez qu’il vaut mieux continuer à acheter Magikarp. Surtout, cet exercice est une manière fascinante de se faire une idée du fonctionnement réel de l’apprentissage automatique.
Comme indiqué dans un vaste vidéo de Peter Whidden, l’IA est capable d’interagir avec le jeu via les entrées de contrôle habituelles sur un émulateur. Il appuie sur un bouton et regarde l’écran pour voir ce qui s’est passé, comme un joueur humain. Whidden a défini des sessions d’apprentissage d’une durée de jeu de deux heures chacune, bien qu’avec une émulation accélérée, ces sessions pourraient être complétées en environ six minutes en temps réel – et le processus a été encore accéléré en exécutant 40 sessions de test simultanément.
Puisqu’un algorithme de machine ne se soucie pas intrinsèquement de battre un jeu vidéo, Whidden a fixé des objectifs particuliers pour lesquels l’IA doit être récompensée. Pour encourager l’exploration curieuse, l’IA recevait un point de récompense chaque fois qu’elle voyait quelque chose de nouveau, mesuré par les pixels sensiblement différents apparaissant à l’écran. Cela a des conséquences inattendues – l’IA se contenterait de regarder, fascinée, la légère animation de l’eau, par exemple – mais cela a largement servi à motiver l’ordinateur pour se rendre de Pallet Town à Viridian Forest et jusqu’à Pewter City, où le la première bataille en gymnase contre Brock a lieu.
L’IA a également besoin de récompenses et de punitions supplémentaires. Avec des récompenses toutes liées à la découverte de nouvelles choses, l’IA veut juste continuer à avancer, ce qui signifie qu’elle ne se soucie pas de mener des batailles ou d’attraper des Pokémon, elle s’est donc initialement enfuie de chaque rencontre. Whidden a donc ajouté un système dans lequel l’IA est récompensée en fonction du niveau total de son groupe Pokémon actif.
Cela a permis à l’IA de se battre pour XP et d’attraper Pokémon, mais cela a également eu une conséquence involontaire. Lorsque l’IA se rendait dans un centre Pokémon, elle interagissait avec le PC et y déposait quelques Pokémon. Cela a considérablement réduit le niveau total du groupe, arrachant d’un coup une masse de points de récompense. Cela équivalait à peu près à une expérience traumatisante pour l’IA, l’obligeant à éviter complètement les centres Pokémon – refusant ainsi de guérir le groupe jusqu’à ce que Whidden modifie à nouveau les systèmes de récompense.
Étant donné que l’IA continue essentiellement à faire des choses au hasard jusqu’à ce qu’elle parvienne à trouver quelque chose qui lui rapportera des points de récompense, le combat contre Brock s’est avéré être un problème particulier car vous devez profiter des faiblesses élémentaires de son Pokémon de type roche pour le faire. aucun dommage réel contre eux. Ce n’est que grâce à une itération particulière où Squirtle de l’IA se trouvait à court de PP à chaque mouvement, à l’exception de Bubblebeam, que l’algorithme a réussi à comprendre comment battre le gymnase.
Pourtant, même si l’IA est incapable de comprendre des choses qui pourraient venir assez naturellement aux joueurs humains, elle apprend assez rapidement d’autres choses, beaucoup plus ésotériques. Whidden s’est rendu compte à un moment donné que l’algorithme tracerait toujours un chemin très spécifique, apparemment absurde, depuis Pallet Town jusqu’à la première rencontre avec un Pokémon sauvage. Cela semblait étrange jusqu’à ce qu’il devienne clair que cette série précise d’entrées garantissait que le Pokémon sauvage pouvait être capturé avec un seul lancer de Pokeball. Oui, l’IA a spontanément appris l’art même de la manipulation RNG que les speedrunners passent des années à développer.
Battre Brock constituait un objectif final assez naturel pour le projet, mais Whidden a laissé l’IA fonctionner plus longtemps pour voir ce qui se passerait, et cela a pénétré profondément dans le mont. Lune – mais les passages humides et identiques du donjon étaient tellement rebutants. à l’IA qu’elle n’a jamais pu trouver son chemin vers l’autre côté, elle n’a donc jamais pu trouver le deuxième gymnase de Cerulean City.
Cependant, une chose que l’IA aimait était d’acheter Magikarp. Le type louche qui vous vend le pire Pokémon de tous les temps à un prix ridicule est plutôt une blague à ce stade, mais pour l’IA, acheter ce Magikarpe est un moyen rapide d’obtenir cinq niveaux supplémentaires de Pokémon dans son groupe – le meilleure offre du jeu ! Apparemment, l’IA a acheté ce Magikarp plus de 10 000 fois.
Oh, et pour une dernière anecdote sur la magie d’un ordinateur faisant des choses aléatoires : à un moment donné, l’IA a capturé un Rattata et a nommé le Pokémon « IA ». Parfois, ces choses fonctionnent un peu trop parfaitement.
L’art et l’écriture générés par l’IA sont extrêmement controversés, mais certains développeurs chevronnés pensent que dans l’industrie du jeu, « L’argent va toujours inciter absolument tout le monde » à utiliser l’apprentissage automatique.