热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Sharbel
联合创始人 https://t.co/pItSfUAFlS。我帮助打造人们关心的品牌。https://t.co/YoqorEACki
Perplexity 刚刚推出了个人计算机。
一个始终在线的 AI,24/7 在 Mac mini 上运行,连接到你的文件、应用和会话。
这里是与 openclaw 的区别:
perplexity 的版本:他们的 AI,他们的服务器,你的数据通过他们的管道流动。一个模型。一个产品。接受或拒绝。
openclaw:开源。运行任何模型,Claude、Grok、Kimi,随你选择。你的数据永远不会离开你的机器。你构建代理,你设定规则,你拥有整个堆栈。
现在一个价值 10 亿美元的公司刚刚验证了这个类别,可能实现的事情:
→ 在你醒来之前检查你的电子邮件的 AI
→ 24/7 监控你业务的代理
→ 在你离线时运行策略的 cron 作业
→ 你拥有的硬件上自动化整个工作流程
perplexity 的版本和你自己可以构建的之间的区别不在于功能。
而在于控制。
Perplexity = Shopify。
OpenClaw = 拥有服务器。

Perplexity8 小时前
宣布个人电脑。
个人电脑是一个始终在线的本地合并,与 Perplexity Computer 一起为您提供 24/7 的服务。
它是个人化的、安全的,并且可以通过持续运行的 Mac mini 在您的文件、应用程序和会话之间工作。
67
我正在构建一个自动研究工具,以测试每一种可能的交易策略,并找到最佳策略。
这是对预测分析的重大解锁。
祝我好运。🤝


Andrej Karpathy3月10日 06:28
三天前,我让自动研究调整 nanochat 运行了大约 2 天,使用 depth=12 模型。它发现了大约 20 个改动,改善了验证损失。我昨天测试了这些改动,所有改动都是累加的,并且可以转移到更大的(depth=24)模型上。将所有这些改动叠加起来,今天我测量到排行榜的 "Time to GPT-2" 从 2.02 小时降至 1.80 小时(约 11% 的改善),这将是新的排行榜条目。所以,是的,这些是真实的改进,并且确实产生了实际的差异。我有点惊讶,我的第一次简单尝试在我认为已经相当手动调优的项目上效果如此之好。
这是我第一次,因为我非常习惯手动进行神经网络训练的迭代优化。你想出想法,实施它们,检查它们是否有效(更好的验证损失),根据这些想法提出新想法,阅读一些论文以获取灵感,等等。这是我每天工作 20 年的基本内容。看到代理人独立完成整个工作流程并且大约自主处理了 700 个改动,真是太疯狂了。它确实查看了实验结果的序列,并利用这些结果来规划下一个实验。这还不是新颖的、突破性的 "研究"(还没有),但所有的调整都是 "真实的",我之前没有手动发现它们,它们叠加在一起并且确实改善了 nanochat。在更大的事情中,例如:
- 它注意到我没有附加缩放乘数的无参数 QKnorm 的一个疏忽,因此我的注意力过于分散。代理人找到了缩放因子来使其更清晰,指向未来的工作。
- 它发现值嵌入非常喜欢正则化,而我没有应用任何(哎呀)。
- 它发现我的带状注意力过于保守(我忘了调整它)。
- 它发现 AdamW 的 beta 全部搞乱了。
- 它调整了权重衰减计划。
- 它调整了网络初始化。
这是在我已经花费大量时间进行的所有调优之上。确切的提交在这里,来自这次 "第一轮" 的自动研究。我将启动 "第二轮",同时我在考虑多个代理如何协作以解锁并行性。
所有 LLM 前沿实验室都会这样做。这是最终的 Boss 战斗。当然,在规模上要复杂得多——你不仅仅有一个单一的 train.py 文件可以调整。但这样做 "只是工程",并且它会奏效。你启动一群代理,让它们协作调整较小的模型,推广最有前景的想法到越来越大的规模,而人类(可选)在边缘贡献。
更一般地说,*任何* 你关心的合理高效评估的指标(或具有更高效代理指标的指标,例如训练较小的网络)都可以通过代理群体进行自动研究。值得思考一下你的问题是否也属于这个范畴。

34
热门
排行
收藏




