Как бенчмарки соотносятся с реальными возможностями? Для изучения этого мы наняли 4 поддерживающих репозитории, используемые в SWE-bench Verified, чтобы они проверили код агента. Из PR-ов агента, которые прошли оценку SWE-bench, поддерживающие лица объединили бы ~половину. Это справедливо с учетом шума в решениях поддерживающих.