¡Nueva suite de benchmarks para agentes de codificación con IA: SWE-Atlas! el esfuerzo es medir algo diferente al clásico patch-fix de banco de SWE, básicamente un conocimiento profundo de la base de código (análisis en tiempo de ejecución + razonamiento multi-archivo). En Codebase QnA, es bastante difícil con los modelos top que solo tenían un tasa de aprobado estricta alrededor del ~30%.