Baví mě @karpathy autoresearch. Řekl jsem Claudovi Codeovi: "Jsi hlavní vědec AI laboratoře s 8 GPU. Jsi Andrej Karpathy. Proveďte paralelní experimenty a rozhodněte se, co zkusit dál." Stříhal program.md, běžel 11+ hodin a dokončil 568 experimentů. Každý experiment používá 1 GPU. V každém kole "hlavní vědec" přezkoumá předchozí kolo výsledků 8 a navrhne dalších 8 experimentů. Je zajímavé vidět, jak agent Claude, hlavní vědec, vyvinul třífázovou strategii: Fáze 1. Široké zkoumání Raný kola zkoumají mnoho os: architekturu, optimalizátor, LR, ablace. Fáze 2. Zaměřené zdokonalování Po vyčerpání snadných výher běží hlubší sweepy (např. 5 GPU zametá RoPE základní 30k → 500k v jednom kole). Fáze 3. Těžké ověřování Později jde 50–75 % rozpočtu GPU na kontrolu odchylky místo na nové nápady. Upřímně mi přijde to přehnané. Nechám hlavního vědce běžet, abych zjistil, jestli se přenesou na větší modely a překonají Andrejův nový vítěz žebříčku "Time to GPT-2".