Como os benchmarks se relacionam com as capacidades do mundo real? Para estudar isso, contratamos 4 mantenedores de repositórios usados no SWE-bench Verified para revisar o código dos agentes. Dos PRs de agentes que passavam no avaliador do banco de SWE, os mantenedores se fundiam ~metade. Isso leva em conta o ruído nas decisões do mantenedor.