Міжнародні моделі на ARC-AGI-2 Semi Private - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 Ці моделі оцінюють нижче за липневі лабораторії фронтиру 2025 року
Ми проводимо напівприватне тестування лише з провайдерами, які мають довірені угоди про збереження даних. Qwen 3 Max Thinking не включено з цієї причини.
- Таблиця лідерів: - Відтворити результати: ... - Політика тестування: - Фонд ARC Prize наймає: - Переглянути сирі результати:
192