Mă distrez cu autocercetarea lui @karpathy. I-am spus lui Claude Code: "Ești omul de știință șef al unui laborator AI cu 8 plăci video. Ești Andrej Karpathy. Fă experimente paralele și decide ce să încerci în continuare." A editat program.md, a rulat 11+ ore și a finalizat 568 de experimente. Fiecare experiment folosește 1 GPU. La fiecare rundă, "omul de știință șef" revizuiește runda anterioară de 8 rezultate și proiectează următoarele 8 experimente. Este interesant să vezi cum agentul Claude, omul de știință șef, a dezvoltat o strategie în trei faze: Faza 1. Explorare amplă Rundele timpurii explorează multe axe: arhitectură, optimizator, LR-uri, ablații. Faza 2. Rafinare concentrată După ce victoriile ușoare se termină, rulează sweep-uri mai adânci (de exemplu, 5 GPU-uri care fac RoPE de bază 30k → 500k într-o rundă). Faza 3. Validare puternică Ulterior, 50–75% din bugetul GPU-ului merge către verificări de varianță seed în loc de idei noi. Sincer, mi se pare exagerat. Voi menține Chief Scientist activ să văd dacă se transferă la modele mai mari și îl depășește pe noul câștigător al clasamentului "Time to GPT-2" al lui Andrej.