Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Neue Benchmark-Suite für KI-Coding-Agenten: SWE-Atlas!
das Ziel ist es, etwas anderes zu messen als das klassische SWE-Bench-Patch-Fixing, nämlich das tiefgehende Verständnis von Codebasen (Laufzeitanalyse + Mehrdatei-Argumentation).
In der Codebase QnA ist es ziemlich schwierig, da die besten Modelle nur eine strikte Bestehensquote von etwa ~30 % hatten.


Top
Ranking
Favoriten
