Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nová sada benchmarků pro agenty kódování AI: SWE-Atlas!
cílem je měřit něco jiného než klasické SWE-bench opravy záplat, v podstatě hluboké porozumění kódu (analýza za běhu + vícesouborové uvažování).
v Codebase QnA je to docela těžké, protože top modely měly jen kolem ~30 % přísné úspěšnosti.


Top
Hodnocení
Oblíbené
