Me estoy divirtiendo con la autoinvestigación de @karpathy. Le dije a Claude Code: "Eres el científico jefe de un laboratorio de IA con 8 GPUs. Eres Andrej Karpathy. Haz experimentos paralelos y decide qué probar a continuación." Editó program.md, duró 11+ horas y completó 568 experimentos. Cada experimento utiliza 1 GPU. En cada ronda, el "científico jefe" revisa la ronda anterior de 8 resultados y diseña los siguientes 8 experimentos. Es interesante ver cómo el agente Claude, el científico jefe, desarrolló una estrategia de tres fases: Fase 1. Exploración amplia Las primeras rondas exploran muchos ejes: arquitectura, optimizador, LRs, ablaciones. Fase 2. Refinamiento Focalizado Después de que las victorias fáciles se agoten, ejecuta barridos más profundos (por ejemplo, 5 GPUs barriendo RoPE base 30k → 500k en una sola ronda). Fase 3. Validación Fuerte Más adelante, entre el 50 y el 75% del presupuesto de la GPU se destina a comprobaciones de variación de semilla en lugar de nuevas ideas. La verdad es que me parece excesivo. Seguiré con el científico jefe para ver si se traslada a modelos más grandes y supera al nuevo ganador de la clasificación "Time to GPT-2" de Andrej.