一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

最近我发现自己越来越多地写关于@Zai_org的内容，但他们的创新速度真是令人惊叹。我们又回到了这里…… 如果你一直在关注扩展法则，你会知道原始参数数量开始让位于架构效率和数据质量。@Zai_org的GLM-5在这一过渡中堪称大师级作品。我们正在关注一个744B的专家混合（MoE）巨兽，每个token仅激活40B参数。它在关键地方精简，在需要的地方庞大。在@layerlens_ai，我们一直在积极评估GLM-5，你可以自己看看结果：自主架构这里的突出创新是深度稀疏注意力（DSA）与新的“Slime”强化学习框架的结合。在旧的范式中，RLHF是为了让模型“更友好”。在GLM-5中，强化学习用于弥合思考与行动之间的差距。这个异步的RL堆栈允许模型“玩”复杂的多步骤工程任务，以一种模仿高级工程师在处理PR时的方式从失败中学习。它不仅仅是在预测下一个token；它是在预测下一个解决方案。基准测试“代际飞跃” LayerLens上的仪表板不仅仅是数字的列表；它是高维推理的地图。以下是定义此版本的核心指标：人类最后的考试（HLE）[得分：50.4]：旨在成为“最终”学术基准，HLE由专家审核的问题组成，故意“防谷歌”。在50.4的得分下，GLM-5不仅仅是在回忆事实；它在工具增强的综合能力上超越了Claude 4.5 Opus（43.4）和GPT-5.2（45.5）。 SWE-bench验证[得分：77.8%]：这是现实世界软件工程的黄金标准。模型必须浏览一个代码库，重现一个bug，并提交一个功能性pull request。GLM-5现在与世界上最强大的专有系统相抗衡。 BrowseComp（带上下文管理）[得分：75.9]：一个“上下文代理”的测试。它测量模型在实时网站上导航并在扩展交互历史中保持记忆的能力。GLM-5的得分领先，超越了GPT-5.2（65.8）。 Vending Bench 2 [排名第1]：一项为期一年的商业模拟，测量持续的规划和运营决策。GLM-5以$4,432的最终账户余额结束——在所有开源模型中最高——证明它能够在数千个回合中保持一致的策略。 τ²-Bench [得分：89.7]：测试复杂的多步骤代理场景，GLM-5有效地匹配了Claude 4.5 Opus（91.6）并超过了GPT-5.2（85.5），进一步巩固了其作为代理系统而非聊天机器人的地位。硬件主权在训练故事中有一个美丽的讽刺：GLM-5完全在华为Ascend基础设施上训练。这提醒我们，智能是与底层无关的。你不需要特定品牌的硅片来达到前沿；你需要的是正确的架构直觉和大量高质量的tokens——确切地说是28.5T。这为什么重要...