最近我发现自己越来越多地写关于@Zai_org的内容,但他们的创新速度真是令人惊叹。 我们又回到了这里…… 如果你一直在关注扩展法则,你会知道原始参数数量开始让位于架构效率和数据质量。@Zai_org的GLM-5在这一过渡中堪称大师级作品。我们正在关注一个744B的专家混合(MoE)巨兽,每个token仅激活40B参数。它在关键地方精简,在需要的地方庞大。 在@layerlens_ai,我们一直在积极评估GLM-5,你可以自己看看结果: 自主架构 这里的突出创新是深度稀疏注意力(DSA)与新的“Slime”强化学习框架的结合。 在旧的范式中,RLHF是为了让模型“更友好”。在GLM-5中,强化学习用于弥合思考与行动之间的差距。这个异步的RL堆栈允许模型“玩”复杂的多步骤工程任务,以一种模仿高级工程师在处理PR时的方式从失败中学习。它不仅仅是在预测下一个token;它是在预测下一个解决方案。 基准测试“代际飞跃” LayerLens上的仪表板不仅仅是数字的列表;它是高维推理的地图。以下是定义此版本的核心指标: 人类最后的考试(HLE)[得分:50.4]:旨在成为“最终”学术基准,HLE由专家审核的问题组成,故意“防谷歌”。在50.4的得分下,GLM-5不仅仅是在回忆事实;它在工具增强的综合能力上超越了Claude 4.5 Opus(43.4)和GPT-5.2(45.5)。 SWE-bench验证[得分:77.8%]:这是现实世界软件工程的黄金标准。模型必须浏览一个代码库,重现一个bug,并提交一个功能性pull request。GLM-5现在与世界上最强大的专有系统相抗衡。 BrowseComp(带上下文管理)[得分:75.9]:一个“上下文代理”的测试。它测量模型在实时网站上导航并在扩展交互历史中保持记忆的能力。GLM-5的得分领先,超越了GPT-5.2(65.8)。 Vending Bench 2 [排名第1]:一项为期一年的商业模拟,测量持续的规划和运营决策。GLM-5以$4,432的最终账户余额结束——在所有开源模型中最高——证明它能够在数千个回合中保持一致的策略。 τ²-Bench [得分:89.7]:测试复杂的多步骤代理场景,GLM-5有效地匹配了Claude 4.5 Opus(91.6)并超过了GPT-5.2(85.5),进一步巩固了其作为代理系统而非聊天机器人的地位。 硬件主权 在训练故事中有一个美丽的讽刺:GLM-5完全在华为Ascend基础设施上训练。这提醒我们,智能是与底层无关的。你不需要特定品牌的硅片来达到前沿;你需要的是正确的架构直觉和大量高质量的tokens——确切地说是28.5T。 这为什么重要...