مجموعة معايير جديدة لوكلاء الترميز بالذكاء الاصطناعي: SWE-Atlas! الجهد هو قياس شيء مختلف عن إصلاح تحديثات SWE-bench الكلاسيكية، وهو فهم عميق لقاعدة الشيفرة (تحليل وقت التشغيل + التفكير في تعدد الملفات). في أسئلة كودبيس، الأمر صعب جدا مع النماذج العالية التي كانت لديها نسبة نجاح صارمة حوالي ~30٪.