Modèles internationaux sur ARC-AGI-2 Semi Privé - Kimi K2.5 (@Kimi_Moonshot): 12%, 0,28 $ - Minimax M2.5 (@MiniMax_AI): 5%, 0,17 $ - GLM-5 (@Zai_org): 5%, 0,27 $ - Deepseek V3.2 (@deepseek_ai): 4%, 0,12 $ Ces modèles obtiennent des scores inférieurs aux laboratoires de pointe de juillet 2025
Nous ne réalisons que des tests semi-privés avec des fournisseurs ayant des accords de conservation des données de confiance. Qwen 3 Max Thinking n'est pas inclus pour cette raison.
- Classement : - Reproduire les résultats : ... - Politique de test : - La Fondation ARC Prize recrute : - Voir les résultats bruts :
195