Come si mappano i benchmark alle capacità del mondo reale? Per studiare questo, abbiamo assunto 4 manutentori di repository utilizzati in SWE-bench Verified per rivedere il codice degli agenti. Dei PR degli agenti che hanno superato il valutatore di SWE-bench, i manutentori avrebbero fuso circa la metà. Questo vale tenendo conto del rumore nelle decisioni dei manutentori.