L’IA passe 7 000 heures à battre le premier gymnase de Pokémon Rouge, mais ne parvient toujours pas à trouver le deuxième après 50 000 heures.

Un programmeur a donné à un modèle d’IA 50 000 heures de formation sur la façon de jouer à Pokemon Red, ce qui a conduit à un algorithme capable d’explorer le jeu et de constituer une équipe pour vaincre le premier leader du gymnase – mais pas un algorithme capable de se frayer un chemin à travers le mont. Lune ou sachez qu’il vaut mieux continuer à acheter Magikarp. Surtout, cet exercice est une manière fascinante de se faire une idée du fonctionnement réel de l’apprentissage automatique.

Comme indiqué dans un vaste vidéo de Peter Whidden, l’IA est capable d’interagir avec le jeu via les entrées de contrôle habituelles sur un émulateur. Il appuie sur un bouton et regarde l’écran pour voir ce qui s’est passé, comme un joueur humain. Whidden a défini des sessions d’apprentissage d’une durée de jeu de deux heures chacune, bien qu’avec une émulation accélérée, ces sessions pourraient être complétées en environ six minutes en temps réel – et le processus a été encore accéléré en exécutant 40 sessions de test simultanément.

Source link-51