Divirtiéndome con la autoresearch de @karpathy. Le dije a Claude Code: "Eres el científico jefe de un laboratorio de IA con 8 GPUs. Eres Andrej Karpathy. Ejecuta experimentos en paralelo y decide qué probar a continuación." Editó program.md, funcionó durante más de 11 horas y completó 568 experimentos. Cada experimento utiliza 1 GPU. En cada ronda, el "científico jefe" revisa la ronda anterior de 8 resultados y diseña los siguientes 8 experimentos. Es interesante ver cómo el agente Claude, el científico jefe, evolucionó una estrategia de 3 fases: Fase 1. Exploración Amplia Las primeras rondas exploran muchos ejes: arquitectura, optimizador, LRs, ablations. Fase 2. Refinamiento Enfocado Después de que se agoten las victorias fáciles, realiza barridos más profundos (por ejemplo, 5 GPUs barriendo RoPE base 30k → 500k en una ronda). Fase 3. Validación Pesada Más tarde, el 50–75% del presupuesto de GPU se destina a comprobaciones de varianza de semillas en lugar de nuevas ideas. Siento que es excesivo, para ser honesto. Seguiré haciendo funcionar al científico jefe para ver si se transfiere a modelos más grandes y supera al nuevo ganador de la tabla de clasificación "Time to GPT-2" de Andrej.