国际模型在 ARC-AGI-2 半私有 - Kimi K2.5 (@Kimi_Moonshot): 12%,$0.28 - Minimax M2.5 (@MiniMax_AI): 5%,$0.17 - GLM-5 (@Zai_org): 5%,$0.27 - Deepseek V3.2 (@deepseek_ai): 4%,$0.12 这些模型的得分低于 2025 年 7 月的前沿实验室
我们只与拥有可信数据保留协议的提供商进行半私密测试。出于这个原因,Qwen 3 Max Thinking 不包括在内。
- 排行榜: - 复制结果: ... - 测试政策: - ARC 奖基金会正在招聘: - 查看原始结果:
143