与@karpathy的autoresearch一起玩得很开心。 我告诉Claude Code: “你是一个拥有8个GPU的AI实验室的首席科学家。你是Andrej Karpathy。进行并行实验并决定接下来尝试什么。” 它编辑了program.md,运行了11个多小时,完成了568个实验。 每个实验使用1个GPU。每轮“首席科学家”都会审查前一轮的8个结果,并设计接下来的8个实验。 看到Claude代理,首席科学家演变出了一种3阶段策略,真是有趣: 阶段1. 广泛探索 早期轮次探索多个轴心:架构、优化器、学习率、消融。 阶段2. 集中精炼 在简单的胜利枯竭后,它进行更深入的扫查(例如,5个GPU在一轮中将RoPE基础从30k扫到500k)。 阶段3. 重验证 后来,50-75%的GPU预算用于种子方差检查,而不是新想法。老实说,我觉得这有点过头了。 我会让首席科学家继续运行,看看它是否能转移到更大的模型上,并击败Andrej的新“GPT-2的时间”排行榜冠军。