國際模型於 ARC-AGI-2 半私有 - Kimi K2.5 (@Kimi_Moonshot): 12%,$0.28 - Minimax M2.5 (@MiniMax_AI): 5%,$0.17 - GLM-5 (@Zai_org): 5%,$0.27 - Deepseek V3.2 (@deepseek_ai): 4%,$0.12 這些模型的得分低於 2025 年 7 月的前沿實驗室
我們僅與擁有可信數據保留協議的供應商進行半私密測試。Qwen 3 Max Thinking 因此不包括在內。
- 排行榜: - 重現結果: ... - 測試政策: - ARC 獎基金會正在招聘: - 查看原始結果:
148