🚨 NVIDIA 刚刚发布了一份用于训练万亿参数 AI 模型的蓝图。 它悄悄地解释了下一代模型将如何远远超越今天的 LLM。 该论文介绍了一种使用 Megatron Core 训练专家混合模型(MoE)的方法,这也是用于训练世界上一些最大模型的基础设施的同一家族。 MoE 背后的关键思想简单但强大: 系统不是为每个令牌激活整个模型,而是将每个令牌路由到仅几个专门的“专家”。 这意味着你可以在不增加每个令牌计算的情况下大幅扩展总参数。 理论上,这给你带来了: • 万亿参数容量 • 每个令牌的密集模型级计算 • 巨大的效率提升 但在实践中,这会破坏一切。 训练 MoE 模型在三个系统层面上造成了噩梦: 内存。通信。计算。 优化一个就会瓶颈其他。 NVIDIA 的解决方案本质上是对整个训练管道的全栈协同设计。 他们引入了多种系统级优化: ...