Anthropic a utilisé Pokémon Rouge comme terrain d’expérimentation pour son dernier modèle d’intelligence artificielle, Claude 3.7 Sonnet. Contrairement à son prédécesseur, cette IA a réussi à progresser dans le jeu, battant même trois champions d’arène. Ce test illustre l’évolution des IA dans la résolution de problèmes complexes grâce à une capacité de réflexion prolongée.
Une IA capable de jouer à Pokémon Rouge en autonomie
Anthropic a annoncé avoir testé Claude 3.7 Sonnet sur le célèbre jeu Game Boy Pokémon Rouge. Grâce à une combinaison de mémoire basique, d’entrée de pixels de l’écran et d’appels de fonctions pour simuler des commandes, le modèle a pu jouer de manière autonome.
L’objectif était d’évaluer sa capacité à analyser son environnement et à prendre des décisions adaptées en temps réel.
Un des points forts de Claude 3.7 Sonnet réside dans sa capacité à effectuer une réflexion étendue, une compétence qu’il partage avec d’autres modèles avancés comme o3-mini d’OpenAI et R1 de DeepSeek.
Cette capacité lui permet d’aborder des problèmes complexes en mobilisant plus de puissance de calcul et en prenant davantage de temps pour traiter les informations.
Une aptitude qui s’est avérée précieuse pour naviguer dans Pokémon Rouge, un jeu qui, bien que simple en apparence, demande une certaine compréhension stratégique pour progresser efficacement.
Un bond en avant par rapport aux versions précédentes
Par rapport à Claude 3.0 Sonnet, son prédécesseur qui n’avait même pas réussi à sortir de Bourg Palette, Claude 3.7 Sonnet a franchi un cap significatif.
Il a non seulement exploré le monde du jeu, mais il a aussi remporté trois badges d’arène après avoir vaincu des champions. Un exploit qui montre une amélioration notable de ses capacités d’apprentissage et de prise de décision.
Cependant, Anthropic n’a pas précisé combien de temps et quelle puissance de calcul ont été nécessaires pour atteindre ces résultats. Tout juste sait-on que le modèle a effectué 35 000 actions avant d’affronter Major Bob, le troisième champion vaincu.
Cela laisse planer le doute sur l’efficacité réelle de ce processus et sur les ressources requises pour une telle performance.
Si Pokémon Rouge reste un test ludique, il s’inscrit dans une tradition où les jeux vidéo servent de références pour évaluer les IA.
Récemment, plusieurs plateformes ont émergé pour tester la capacité des modèles à jouer à des titres variés, allant de Street Fighter à Pictionary. Il ne serait donc pas surprenant que d’autres développeurs explorent de nouvelles façons de pousser ces intelligences artificielles à leurs limites.