🚨 NVIDIA 剛剛發布了一個訓練萬億參數 AI 模型的藍圖。 而且它靜靜地解釋了下一代模型將如何超越今天的 LLM。 這篇論文介紹了一個使用 Megatron Core 訓練專家混合模型(MoE)的系統,這是用於訓練世界上一些最大模型的基礎設施的同一家族。 MoE 背後的關鍵思想簡單但強大: 系統不是為每個標記啟動整個模型,而是將每個標記路由到只有幾個專門的“專家”。 這意味著你可以在不增加每個標記計算的情況下大幅擴展總參數。 理論上,這給你帶來: • 萬億參數容量 • 每個標記的密集模型計算 • 大規模效率提升 但在實踐中,這會破壞一切。 訓練 MoE 模型在三個系統層面上創造了一場噩夢: 記憶。通訊。計算。 優化一個,你就會瓶頸其他。 NVIDIA 的解決方案本質上是整個訓練管道的全棧共同設計。 他們引入了多個系統級優化: ...