Międzynarodowe modele na ARC-AGI-2 Semi Private - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 Te modele uzyskują wyniki poniżej granic laboratorium z lipca 2025 roku
Przeprowadzamy tylko testy półprywatne z dostawcami, którzy mają zaufane umowy dotyczące przechowywania danych. Z tego powodu Qwen 3 Max Thinking nie jest włączony.
- Tablica wyników: - Powtórz wyniki: ... - Polityka testowania: - Fundacja ARC Prize zatrudnia: - Zobacz surowe wyniki:
141