Modelos internacionais no ARC-AGI-2 Semi Private - Kimi K2.5 (@Kimi_Moonshot): 12%, $0,28 - Minimax M2.5 (@MiniMax_AI): 5%, $0,17 - GLM-5 (@Zai_org): 5%, $0,27 - Deepseek V3.2 (@deepseek_ai): 4%, $0,12 Esses modelos pontuam abaixo dos laboratórios Frontier de julho de 2025
Realizamos testes semi-privados apenas com provedores que possuem acordos confiáveis de retenção de dados. Qwen 3 Max Thinking não está incluído por esse motivo.
- Tabela de Líderes: - Reproduzir os resultados: ... - Política de testes: - Fundação do Prêmio ARC está contratando: - Veja resultados brutos:
194