Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Divertindo-me com a autoresearch do @karpathy.
Disse ao Claude Code:
"Você é o cientista-chefe de um laboratório de IA com 8 GPUs. Você é Andrej Karpathy. Execute experimentos paralelos e decida o que tentar a seguir."
Ele editou program.md, rodou por mais de 11 horas e completou 568 experimentos.
Cada experimento usa 1 GPU. A cada rodada, o "cientista-chefe" revisa a rodada anterior de 8 resultados e projeta os próximos 8 experimentos.
É interessante ver o agente Claude, o cientista-chefe, evoluir uma estratégia de 3 fases:
Fase 1. Exploração Ampla
As primeiras rodadas exploram muitos eixos: arquitetura, otimizador, LRs, ablações.
Fase 2. Refinamento Focado
Depois que as vitórias fáceis se esgotam, ele realiza varreduras mais profundas (por exemplo, 5 GPUs varrendo RoPE base 30k → 500k em uma rodada).
Fase 3. Validação Pesada
Mais tarde, 50–75% do orçamento de GPU vai para verificações de variância de sementes em vez de novas ideias. Sinto que é exagero, para ser honesto.
Vou manter o cientista-chefe em funcionamento para ver se isso se transfere para modelos maiores e supera o novo vencedor da tabela de classificação "Time to GPT-2" do Andrej.

Top
Classificação
Favoritos
