Новий набір бенчмарків для агентів кодування на основі ШІ: SWE-Atlas! зусилля полягає в тому, щоб виміряти щось інше, ніж класичне SWE-bench patch-fix, по суті, глибоке розуміння кодової бази (аналіз під час виконання + багатофайлове міркування). у Codebase QnA досить складно, бо топові моделі мали лише близько ~30% суворого рівня проходження.