一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

与@karpathy的autoresearch一起玩得很开心。我告诉Claude Code： “你是一个拥有8个GPU的AI实验室的首席科学家。你是Andrej Karpathy。进行并行实验并决定接下来尝试什么。” 它编辑了program.md，运行了11个多小时，完成了568个实验。每个实验使用1个GPU。每轮“首席科学家”都会审查前一轮的8个结果，并设计接下来的8个实验。看到Claude代理，首席科学家演变出了一种3阶段策略，真是有趣：阶段1. 广泛探索早期轮次探索多个轴心：架构、优化器、学习率、消融。阶段2. 集中精炼在简单的胜利枯竭后，它进行更深入的扫查（例如，5个GPU在一轮中将RoPE基础从30k扫到500k）。阶段3. 重验证后来，50-75%的GPU预算用于种子方差检查，而不是新想法。老实说，我觉得这有点过头了。我会让首席科学家继续运行，看看它是否能转移到更大的模型上，并击败Andrej的新“GPT-2的时间”排行榜冠军。