Me divertindo com a pesquisa automática do @karpathy. Eu disse ao Claude Code: "Você é o cientista-chefe de um laboratório de IA com 8 GPUs. Você é Andrej Karpathy. Faça experimentos paralelos e decida o que tentar em seguida." Editou program.md, durou 11+ horas e completou 568 experimentos. Cada experimento usa 1 GPU. A cada rodada, o "cientista-chefe" revisa a rodada anterior de 8 resultados e projeta os próximos 8 experimentos. É interessante ver o agente Claude, o cientista-chefe, evoluir uma estratégia em três fases: Fase 1. Exploração ampla As primeiras rodadas exploram muitos eixos: arquitetura, otimizador, LRs, ablações. Fase 2. Refinamento Focado Depois que as vitórias fáceis acabam, ele executa sweeps mais profundos (por exemplo, 5 GPUs varrendo RoPE base 30k → 500k em uma rodada). Fase 3. Validação Pesada Depois, 50–75% do orçamento da GPU é destinado a verificações de variância seed em vez de novas ideias. Acho exagero, pra ser sincero. Vou manter o cientista-chefe funcionando para ver se ele é transferido para modelos maiores e supera o novo vencedor do ranking "Time to GPT-2" do Andrej.