Internationale Modelle auf ARC-AGI-2 Semi Private - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 Diese Modelle schneiden unter den Frontier Labs von Juli 2025 ab
Wir führen nur halbprivate Tests mit Anbietern durch, die vertrauenswürdige Datenaufbewahrungsvereinbarungen haben. Qwen 3 Max Thinking ist aus diesem Grund nicht enthalten.
- Rangliste: - Ergebnisse reproduzieren: ... - Testpolitik: - ARC Prize Foundation stellt ein: - Rohdaten anzeigen:
137