热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
与@karpathy的autoresearch一起玩得很开心。
我告诉Claude Code:
“你是一个拥有8个GPU的AI实验室的首席科学家。你是Andrej Karpathy。进行并行实验并决定接下来尝试什么。”
它编辑了program.md,运行了11个多小时,完成了568个实验。
每个实验使用1个GPU。每轮“首席科学家”都会审查前一轮的8个结果,并设计接下来的8个实验。
看到Claude代理,首席科学家演变出了一种3阶段策略,真是有趣:
阶段1. 广泛探索
早期轮次探索多个轴心:架构、优化器、学习率、消融。
阶段2. 集中精炼
在简单的胜利枯竭后,它进行更深入的扫查(例如,5个GPU在一轮中将RoPE基础从30k扫到500k)。
阶段3. 重验证
后来,50-75%的GPU预算用于种子方差检查,而不是新想法。老实说,我觉得这有点过头了。
我会让首席科学家继续运行,看看它是否能转移到更大的模型上,并击败Andrej的新“GPT-2的时间”排行榜冠军。

热门
排行
收藏
