Un adolescent américain a lancé un site web qui met les intelligences artificielles en compétition dans Minecraft. Ce projet original, devenu un outil de benchmark ludique, permet aux utilisateurs de comparer les performances des IA en observant leurs créations dans le jeu de construction le plus célèbre au monde.
Un benchmark créatif au service de l’IA
Pour évaluer les modèles d’IA, les développeurs se tournent de plus en plus vers des méthodes alternatives aux tests classiques. C’est dans cet esprit qu’est né MC-Bench, un site conçu pour confronter des intelligences artificielles à travers des défis de construction dans Minecraft. Lancé par Adi Singh, lycéen en terminale, le projet invite les utilisateurs à voter pour la construction la plus réussie, sans savoir quelle IA l’a réalisée. Ce système donne une dimension plus accessible et intuitive à l’évaluation de modèles complexes comme ceux d’OpenAI ou de Google.
L’intérêt de Minecraft réside dans sa popularité mondiale et son esthétique immédiatement reconnaissable. Même sans y avoir joué, il est facile pour le grand public de juger la qualité d’une représentation en blocs, comme une plage tropicale ou un bonhomme de neige. Pour Singh, c’est cette accessibilité visuelle qui rend son outil pertinent. Il souligne que les jeux vidéo, à l’image de Minecraft, offrent un terrain d’expérimentation plus sécurisé et contrôlable que les environnements réels.
MC-Bench regroupe aujourd’hui huit bénévoles, et bénéficie du soutien technique de grands noms comme Anthropic, Alibaba ou OpenAI, sans qu’il y ait de partenariat officiel. Les modèles doivent générer du code pour construire les objets demandés, ce qui en fait aussi un test de programmation. Mais pour les utilisateurs, juger le résultat visuel reste plus simple que d’analyser un script technique.
Quand Minecraft remplace les tests standards
Les benchmarks traditionnels, souvent fondés sur des QCM ou des résolutions de problèmes, peinent à mesurer réellement l’intelligence des modèles IA. Les performances élevées sur des tests comme le LSAT ou les évaluations en ingénierie logicielle masquent parfois des lacunes sur des tâches plus simples ou plus contextuelles. Un modèle peut obtenir 88 % au test d’entrée en droit américain, mais être incapable de compter les lettres d’un mot commun.
C’est pourquoi certains chercheurs explorent de nouveaux formats. Des jeux comme Pokémon, Pictionary ou Street Fighter ont été utilisés pour observer la logique, la stratégie et l’adaptation des IA. Minecraft, avec ses possibilités infinies de construction, offre un terrain parfait pour tester ce que Singh appelle le raisonnement agentique : la capacité à planifier et agir de manière autonome dans un environnement interactif.
MC-Bench vise aujourd’hui des créations simples, mais le site pourrait évoluer vers des défis plus complexes. Ces tests ludiques pourraient, selon Singh, devenir des indicateurs utiles pour les entreprises cherchant à mieux comprendre les limites et les forces de leurs modèles. Contrairement à d’autres benchmarks textuels, le classement de MC-Bench reflète bien l’expérience utilisateur réelle, selon son créateur. Un point crucial alors que l’IA entre de plus en plus dans nos usages quotidiens.