Hoe vertalen benchmarks naar real-world capaciteiten? Om dit te bestuderen, hebben we 4 beheerders van repositories die in SWE-bench Verified worden gebruikt ingehuurd om de agentcode te beoordelen. Van de agent PR's die de grader van SWE-bench hebben doorstaan, zouden beheerders ongeveer de helft samenvoegen. Dit geldt rekening houdend met ruis in de beslissingen van de beheerders.