Cum se potrivesc benchmark-urile cu capabilitățile din lumea reală? Pentru a studia acest lucru, am angajat 4 administratori ai repo-urilor folosite în SWE-bench Verified pentru a revizui codul agentului. Dintre PR-urile agenților care au trecut evaluatorul SWE-bench, întreținerii ar fuziona ~jumătate. Aceasta ține cont de zgomotul în deciziile de întreținere.