Jak benchmarki przekładają się na rzeczywiste możliwości? Aby to zbadać, zatrudniliśmy 4 opiekunów repozytoriów używanych w SWE-bench Verified do przeglądu kodu agenta. Z PR-ów agenta, które przeszły ocenę SWE-bench, opiekunowie scaliliby ~połowę. To się utrzymuje, biorąc pod uwagę szum w decyzjach opiekunów.