نماذج دولية على ARC-AGI-2 شبه Private - كيمي K2.5 (@Kimi_Moonshot): 12٪، 0.28 دولار - مينيماكس M2.5 (@MiniMax_AI): 5٪، 0.17 دولار - GLM-5 (@Zai_org): 5٪، 0.27 دولار - Deepseek V3.2 (@deepseek_ai): 4٪، 0.12 دولار هذه النماذج حصلت على درجات أقل من مختبرات الحدود في يوليو 2025
نحن نجري اختبارات شبه خاصة فقط مع مزودين لديهم اتفاقيات موثوقة للاحتفاظ بالبيانات. لهذا السبب لا يتم تضمين Qwen 3 Max Thinking.
- لوحة المتصدرين: - إعادة إنتاج النتائج: ... - سياسة الاختبار: - مؤسسة جائزة ARC توظف: - عرض النتائج الخام:
‏‎140‏