Yapay zeka kodlama ajanları için yeni kıyaslama paketi: SWE-Atlas! Çaba, klasik SWE-bench yama düzeltmesinden farklı bir şeyi ölçmek, temelde derin kod tabanı anlayışı (çalışma zamanı analizi + çoklu dosya akıl yürütme). Codebase QnA'da ise en iyi modeller sadece ~%30 civarında katı geçiş oranı vardı.