Como é que os benchmarks se relacionam com as capacidades do mundo real? Para estudar isso, contratámos 4 mantenedores de repositórios utilizados no SWE-bench Verified para rever o código do agente. Dos PRs do agente que passaram pelo avaliador do SWE-bench, os mantenedores fundiriam cerca de metade. Isso se mantém considerando o ruído nas decisões dos mantenedores.