Nova suíte de benchmarks para agentes de codificação por IA: SWE-Atlas! o esforço é medir algo diferente do clássico patch-fixing de banco de SWE, basicamente um entendimento profundo de código (análise em tempo de execução + raciocínio multi-arquivo). No Codebase QnA, é bem difícil com modelos topo com apenas cerca de ~30% de taxa de aprovação rígida.