Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Me estoy divirtiendo con la autoinvestigación de @karpathy.
Le dije a Claude Code:
"Eres el científico jefe de un laboratorio de IA con 8 GPUs. Eres Andrej Karpathy. Haz experimentos paralelos y decide qué probar a continuación."
Editó program.md, duró 11+ horas y completó 568 experimentos.
Cada experimento utiliza 1 GPU. En cada ronda, el "científico jefe" revisa la ronda anterior de 8 resultados y diseña los siguientes 8 experimentos.
Es interesante ver cómo el agente Claude, el científico jefe, desarrolló una estrategia de tres fases:
Fase 1. Exploración amplia
Las primeras rondas exploran muchos ejes: arquitectura, optimizador, LRs, ablaciones.
Fase 2. Refinamiento Focalizado
Después de que las victorias fáciles se agoten, ejecuta barridos más profundos (por ejemplo, 5 GPUs barriendo RoPE base 30k → 500k en una sola ronda).
Fase 3. Validación Fuerte
Más adelante, entre el 50 y el 75% del presupuesto de la GPU se destina a comprobaciones de variación de semilla en lugar de nuevas ideas. La verdad es que me parece excesivo.
Seguiré con el científico jefe para ver si se traslada a modelos más grandes y supera al nuevo ganador de la clasificación "Time to GPT-2" de Andrej.

Populares
Ranking
Favoritas
