Divertindo-me com a autoresearch do @karpathy. Disse ao Claude Code: "Você é o cientista-chefe de um laboratório de IA com 8 GPUs. Você é Andrej Karpathy. Execute experimentos paralelos e decida o que tentar a seguir." Ele editou program.md, rodou por mais de 11 horas e completou 568 experimentos. Cada experimento usa 1 GPU. A cada rodada, o "cientista-chefe" revisa a rodada anterior de 8 resultados e projeta os próximos 8 experimentos. É interessante ver o agente Claude, o cientista-chefe, evoluir uma estratégia de 3 fases: Fase 1. Exploração Ampla As primeiras rodadas exploram muitos eixos: arquitetura, otimizador, LRs, ablações. Fase 2. Refinamento Focado Depois que as vitórias fáceis se esgotam, ele realiza varreduras mais profundas (por exemplo, 5 GPUs varrendo RoPE base 30k → 500k em uma rodada). Fase 3. Validação Pesada Mais tarde, 50–75% do orçamento de GPU vai para verificações de variância de sementes em vez de novas ideias. Sinto que é exagero, para ser honesto. Vou manter o cientista-chefe em funcionamento para ver se isso se transfere para modelos maiores e supera o novo vencedor da tabela de classificação "Time to GPT-2" do Andrej.