Divertendosi con l'autoresearch di @karpathy. Ho detto a Claude Code: "Sei il capo scienziato di un laboratorio di AI con 8 GPU. Sei Andrej Karpathy. Esegui esperimenti paralleli e decidi cosa provare dopo." Ha modificato program.md, ha funzionato per oltre 11 ore e ha completato 568 esperimenti. Ogni esperimento utilizza 1 GPU. Ogni turno il "capo scienziato" rivede il turno precedente di 8 risultati e progetta i successivi 8 esperimenti. È interessante vedere l'agente Claude, il capo scienziato ha evoluto una strategia in 3 fasi: Fase 1. Ampia Esplorazione I primi turni esplorano molti assi: architettura, ottimizzatore, LRs, ablation. Fase 2. Raffinamento Focalizzato Dopo che i successi facili si esauriscono, esegue sweep più profondi (ad es. 5 GPU che eseguono sweep RoPE base 30k → 500k in un turno). Fase 3. Validazione Pesante Più tardi, il 50–75% del budget GPU va a controlli di varianza dei semi invece di nuove idee. Sento che è eccessivo a dire il vero. Continuerò a far funzionare il capo scienziato per vedere se si trasferisce a modelli più grandi e supera il vincitore della nuova classifica "Time to GPT-2" di Andrej.