一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

🚨 NVIDIA 剛剛發布了一個訓練萬億參數 AI 模型的藍圖。而且它靜靜地解釋了下一代模型將如何超越今天的 LLM。這篇論文介紹了一個使用 Megatron Core 訓練專家混合模型（MoE）的系統，這是用於訓練世界上一些最大模型的基礎設施的同一家族。 MoE 背後的關鍵思想簡單但強大：系統不是為每個標記啟動整個模型，而是將每個標記路由到只有幾個專門的“專家”。這意味著你可以在不增加每個標記計算的情況下大幅擴展總參數。理論上，這給你帶來： • 萬億參數容量 • 每個標記的密集模型計算 • 大規模效率提升但在實踐中，這會破壞一切。訓練 MoE 模型在三個系統層面上創造了一場噩夢：記憶。通訊。計算。優化一個，你就會瓶頸其他。 NVIDIA 的解決方案本質上是整個訓練管道的全棧共同設計。他們引入了多個系統級優化： ...