NVIDIA 發布了 Nemotron 3 Super,這是一個 120B(12B 活躍)開放權重推理模型,在人工分析智能指數上得分 36,採用混合 Mamba-Transformer MoE 架構。 我們在發布前獲得了這個模型的訪問權限,並在智能性、開放性和推理效率方面進行了評估。 主要收穫 ➤ 結合高開放性與強智能性:Nemotron 3 Super 在其大小上表現強勁,並且在智能性上顯著超過任何其他具有可比開放性的模型。 ➤ Nemotron 3 Super 在人工分析智能指數上得分 36,比之前的 Super 發布高出 17 分,並比 Nemotron 3 Nano 高出 12 分。與同類型大小的模型相比,這使其超過了 gpt-oss-120b(33),但落後於最近發布的 Qwen3.5 122B A10B(42)。 ➤ 專注於高效智能:我們發現 Nemotron 3 Super 的智能性高於 gpt-oss-120b,同時在一個簡單但現實的負載測試中每 GPU 的吞吐量提高了約 10%。 ➤ 今天支持快速無伺服器推理:包括 @DeepInfra 和 @LightningAI 在內的提供商在發布時以每秒高達 484 個標記的速度提供此模型。 模型詳情 📝 Nemotron 3 Super 總共有 120.6B 和 12.7B 活躍參數,擁有 1 百萬個標記的上下文窗口和混合推理支持。它以開放權重和寬鬆許可證發布,並附有開放的訓練數據和方法論披露。 📐 該模型具有幾個設計特徵,能夠實現高效推理,包括使用混合 Mamba-Transformer 和 LatentMoE 架構、多標記預測和 NVFP4 量化權重。 🎯 NVIDIA 在(主要)NVFP4 精度下預訓練了 Nemotron 3 Super,但在後訓練時轉向 BF16。我們的評估分數使用 BF16 權重。 🧠 我們在其最高努力推理模式("常規")下對 Nemotron 3 Super 進行了基準測試,這是該模型三種推理模式中最具能力的一種(推理關閉、低努力和常規)。
NVIDIA 發布了重要的訓練前和訓練後數據,並提供了這個模型的新綜合訓練食譜。這些披露在人工分析開放指數上達到了 83,僅次於 Ai2 和 MBZUAI 的高度開放模型,並將 Nemotron 3 Super 放在同儕中開放性和智能性最具吸引力的象限。 Nemotron 3 Super 是迄今為止發布的最智能模型,擁有這樣的開放性。
Nemotron 3 Super 在我們的評估中使用了相對較高的令牌數。它使用了 1.1 億個輸出令牌來運行人工分析智能指數評估——這比 gpt-oss-120b 高出約 40%,但與 Nemotron 3 Nano 相比減少了約 20%。 這比 Anthropic 的 Claude Opus 4.6(最大)使用的 1.6 億個令牌少得多,並且比 OpenAI 的 GPT-5.4(超高)使用的 1.2 億個令牌略少。
在總計120B和12B活躍參數的情況下,Nemotron 3 Super仍然相對較小,與來自全球頂尖實驗室的其他近期開放權重模型釋出相比——GLM-5(744B總計,40B活躍)、Qwen3.5 397B A17B(397B總計,17B活躍)和Kimi K2.5(1T總計,32B活躍)各自大約是其3到8倍。
NVIDIA 專注於 Nemotron 系列的高效智能,我們測試了推理性能與同類模型的比較,以查看架構選擇的影響。 我們使用簡單的方法論在一系列同類模型上進行了自我托管的吞吐量測試,工作負載代表了常見用例,如具有適度歷史的代理工作流程、RAG 應用程序或文檔處理。 在這次測試中,Nemotron 3 Super (NVFP4) 每個 NVIDIA B200 GPU 的吞吐量比 gpt-oss-120b (MXFP4) 高出 11%,使 Nemotron 3 Super 相對於 gpt-oss-120b ‘向上和向右’。Qwen3.5 122B A10B 在智能指數上比 Nemotron 3 Super 高出 6 分,但每個 GPU 的吞吐量低 40%。 我們對 Nemotron 3 Super 的智能指數評分是基於 BF16 權重進行評估的。我們尚未評估 NVFP4 量化是否對智能有任何影響,但 NVIDIA 的內部測試發現,NVFP4 模型相對於 BF16 基準達到了 99.8% 的中位數準確率。 有關我們測試設置和模型配置的更多詳細信息,請參閱我們關於 Nemotron 3 Super 的文章:
Nemotron 3 Super 將於其發布時可用於無伺服器 API,提供者包括 Lightning AI 和 DeepInfra。 我們測試了這些端點,發現其在我們標準的 10k 令牌輸入工作負載下,性能高達每秒 484 令牌。 在推出時,Nemotron 3 Super 在可比同類中位於智能和輸出速度最具吸引力的象限。
6.71K