Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Nueva suite de benchmarks para agentes de codificación con IA: SWE-Atlas!
el esfuerzo es medir algo diferente al clásico patch-fix de banco de SWE, básicamente un conocimiento profundo de la base de código (análisis en tiempo de ejecución + razonamiento multi-archivo).
En Codebase QnA, es bastante difícil con los modelos top que solo tenían un tasa de aprobado estricta alrededor del ~30%.


Populares
Ranking
Favoritas
