AIコーディングエージェント向けの新しいベンチマークスイート:SWE-Atlas! この取り組みは、従来のSWEベンチ型パッチ修正とは異なるもの、つまり基本的に深いコードベースの理解(ランタイム分析+マルチファイルの推論)を測定することです。 Codebase QnAでは、トップモデルの厳格合格率は約30%程度でかなり難しいです。