Nova suíte de referência para agentes de codificação AI: SWE-Atlas! o esforço é medir algo diferente do clássico SWE-bench de correção de patches, basicamente a compreensão profunda da base de código (análise em tempo de execução + raciocínio em múltiplos arquivos). no QnA da base de código, é bastante difícil com os melhores modelos que tinham apenas cerca de ~30% de taxa de aprovação estrita.