Nouvelle suite de référence pour les agents de codage AI : SWE-Atlas ! L'effort vise à mesurer quelque chose de différent des classiques SWE-bench de correction de patch, essentiellement la compréhension profonde des bases de code (analyse à l'exécution + raisonnement multi-fichiers). Dans le QnA de Codebase, c'est assez difficile avec les meilleurs modèles qui n'atteignent qu'un taux de réussite strict d'environ ~30 %.