Ny benchmark-svit för AI-kodningsagenter: SWE-Atlas! målet är att mäta något annat än klassisk SWE-bench-patchfixning, i princip djup kodbasförståelse (körningsanalys + flerfilsresonemang). i Codebase QnA är det ganska svårt med toppmodeller som bara låg runt ~30 % strikt godkännandefrekvens.