Comment fonctionne l'IA
Pong utilise un DQN en auto-jeu. Deux agents s'affrontent ; chacun s'entraîne contre une copie figée de son adversaire, si bien que la difficulté augmente automatiquement.
État, actions, récompense
- État : positions des raquettes et de la balle, vitesse de la balle.
- Actions : monter, descendre ou rester.
- Récompense : +1 si l'agent marque, -1 s'il encaisse.
Pourquoi l'auto-jeu
Contre un adversaire fixe, un agent peut surapprendre. L'auto-jeu crée un programme qui s'améliore sans cesse : chaque camp pousse l'autre à progresser.
Rester performant
Les réseaux sont initialisés avec une politique d'interception analytique (viser la position d'arrivée prévue de la balle) et ancrés sur elle pendant l'entraînement — un régularisateur qui permet le réglage fin sans l'oubli catastrophique qui fait s'effondrer les agents d'auto-jeu avec le temps.
Ce que vous voyez
Deux politiques apprises s'échangent la balle — aucune IA de raquette codée à la main, juste deux réseaux autodidactes qui gardent leur niveau.