Internationella modeller på ARC-AGI-2 Semi Private - Kimi K2,5 (@Kimi_Moonshot): 12 %, 0,28 dollar - Minimax M2,5 (@MiniMax_AI): 5 %, 0,17 dollar - GLM-5 (@Zai_org): 5 %, 0,27 dollar - Deepseek V3.2 (@deepseek_ai): 4 %, 0,12 dollar Dessa modeller får lägre poäng än Frontier Labs i juli 2025
Vi genomför endast semi-privata tester med leverantörer som har betrodda datalagringsavtal. Qwen 3 Max Thinking ingår inte av denna anledning.
- Topplista: - Återskapa resultaten: ... - Testpolicy: - ARC Prize Foundation anställer: - Visa råa resultat:
193