Si les discussions constantes sur l’IA ces jours-ci vous laissent perplexe, alors cette vidéo visuellement satisfaisante est peut-être exactement le baume dont vous avez besoin. À l’aide d’un réseau neuronal et de l’apprentissage par renforcement, YouTuber Yosh s’est lancé dans un voyage de 3 ans pour former une IA afin de remplacer ses 17 années d’expérience sur Trackmania.
Le principe est simple : entraîner une IA pour qu’elle s’améliore dans le jeu et, comme le dit Yosh lui-même, « plus elle s’entraîne, mieux elle s’améliore ». Ce n’est pas non plus le premier rodéo de Yosh : il a réalisé des vidéos précédentes en expérimentant la technologie et en essayant de créer une IA Trackmania capable de se surpasser. Sa chaîne YouTube a accumulé plus de 18 millions de vues dans le monde et compte un peu moins de 100 000 abonnés.
Le réseau neuronal est décrit dans la vidéo comme un « outil mathématique qui modélise grossièrement le fonctionnement d’un cerveau » et prend en compte des données de paramètres telles que le taux de virage et la vitesse, puis en réponse indique à la voiture quoi faire. Plus il joue, plus de données sont collectées pour optimiser les performances. Toutes les actions entreprises par l’IA qui étaient prédéterminées comme bénéfiques lui fournissaient une récompense. Cet apprentissage par renforcement a poussé sa prise de décision vers des délais plus rapides et des choix plus efficaces.
Le vénérable Trackmania est presque le centre idéal pour ce type d’approche : des règles simples et claires sur les pistes et les mouvements, combinées à un style de jeu par essais et erreurs qui est lui-même visualisé par des rediffusions qui peuvent être superposées. Les images de centaines de voitures essayant, échouant et apprenant à progresser rendent l’ensemble du processus d’apprentissage facile à comprendre. C’est aussi extrêmement satisfaisant à regarder.
Yosh démarre l’IA sur une piste simple et, au fur et à mesure qu’elle commence à se développer, des pistes plus complexes sont introduites ainsi que l’option de freinage qui avait été initialement laissée de côté. Cette capacité de freinage supplémentaire a été introduite pour tenter d’encourager la dérive et donc des temps plus rapides. Pour ce faire, tout type de dérive était initialement récompensé, ce qui était une erreur : l’IA a réussi à déjouer son créateur et a trouvé un moyen de dériver constamment, ce qui a entraîné de nombreux retours positifs pour le modèle mais une faible vitesse de pointe. Ce comportement involontaire a été corrigé avec une simple exigence de vitesse ajoutée afin qu’il ne soit récompensé que pour la dérive au-dessus d’une certaine vitesse.
Les progrès de l’IA sont significatifs tout au long de la vidéo et je me suis rapidement demandé jusqu’où elle pouvait être poussée. Si vous voulez savoir s’il a pu devenir vraiment imbattable, rejoignez les millions d’entre nous qui l’ont regardé pour le constater par vous-même : et si vous voulez simplement voir la confrontation homme contre machine, voici l’horodatage.