NVIDIA telah merilis Nemotron 3 Super, model penalaran bobot terbuka 120B (12B aktif) yang mendapat skor 36 pada Indeks Kecerdasan Analisis Buatan dengan arsitektur MoE Mamba-Transformer hibrida Kami diberi akses ke model ini sebelum peluncuran dan mengevaluasinya di seluruh kecerdasan, keterbukaan, dan efisiensi inferensi. Kesimpulan utama ➤ Menggabungkan keterbukaan tinggi dengan kecerdasan yang kuat: Nemotron 3 Super berkinerja kuat untuk ukurannya dan secara substansial lebih cerdas daripada model lain dengan keterbukaan yang sebanding ➤ Nemotron 3 Super mencetak 36 poin pada Indeks Kecerdasan Analisis Buatan, +17 poin di depan rilis Super sebelumnya dan +12 poin dari Nemotron 3 Nano. Dibandingkan dengan model dalam kategori ukuran yang sama, ini menempatkannya di depan gpt-oss-120b (33), tetapi di belakang Qwen3.5 122B A10B (42) yang baru-baru ini dirilis. ➤ Berfokus pada kecerdasan yang efisien: kami menemukan Nemotron 3 Super memiliki kecerdasan yang lebih tinggi daripada gpt-oss-120b sambil memungkinkan throughput ~10% lebih tinggi per GPU dalam uji beban yang sederhana namun realistis ➤ Didukung hari ini untuk inferensi nirserver yang cepat: penyedia termasuk @DeepInfra dan @LightningAI melayani model ini saat diluncurkan dengan kecepatan hingga 484 token per detik Detail model 📝 Nemotron 3 Super memiliki total 120,6 miliar dan 12,7 miliar parameter aktif, bersama dengan jendela konteks 1 juta token dan dukungan penalaran hibrida. Ini diterbitkan dengan bobot terbuka dan lisensi permisif, di samping pengungkapan data pelatihan dan metodologi terbuka 📐 Model ini memiliki beberapa fitur desain yang memungkinkan inferensi yang efisien, termasuk menggunakan arsitektur Mamba-Transformer dan LatentMoE hibrida, prediksi multi-token, dan bobot terkuantisasi NVFP4 🎯 NVIDIA melatih Nemotron 3 Super terlebih dahulu dalam (kebanyakan) presisi NVFP4, tetapi pindah ke BF16 untuk pasca-pelatihan. Skor evaluasi kami menggunakan bobot BF16 🧠 Kami membandingkan Nemotron 3 Super dalam mode penalaran upaya tertinggi ("reguler"), yang paling mampu dari tiga mode inferensi model (penalaran, upaya rendah, dan reguler)
NVIDIA merilis data pra dan sesudah pelatihan yang signifikan bersama dengan resep pelatihan komprehensif baru untuk model ini. Pengungkapan ini mencapai 83 pada Indeks Keterbukaan Analisis Buatan, hanya di belakang model yang sangat terbuka dari Ai2 dan MBZUAI, dan menempatkan Nemotron 3 Super di kuadran paling menarik untuk Keterbukaan dan Kecerdasan di antara rekan-rekan. Nemotron 3 Super sejauh ini adalah model paling cerdas yang pernah dirilis dengan tingkat keterbukaan ini.
Nemotron 3 Super menggunakan jumlah token yang relatif tinggi di seluruh evaluasi kami. Ini menggunakan 110 juta token keluaran untuk menjalankan evaluasi Indeks Kecerdasan Analisis Buatan - ini sekitar 40% lebih banyak dari gpt-oss-120b dengan upaya penalaran yang tinggi, tetapi pengurangan ~20% dibandingkan dengan Nemotron 3 Nano. Itu jauh lebih sedikit token daripada Claude Opus 4.6 (maks) Anthropic, yang menggunakan 160 juta token, dan sedikit lebih sedikit dari GPT-5.4 (xhigh) OpenAI, yang menggunakan 120 juta token.
Pada total 120B dengan parameter aktif 12B, Nemotron 3 Super masih relatif kecil dibandingkan dengan rilis model bobot terbuka terbaru lainnya dari laboratorium global teratas — GLM-5 (total 744B, 40B aktif), Qwen3.5 397B A17B (total 397B, 17B aktif), dan Kimi K2.5 (total 1T, 32B aktif) masing-masing 3x hingga 8x lebih besar.
NVIDIA berfokus pada kecerdasan yang efisien untuk keluarga Nemotron, dan kami menguji kinerja inferensi terhadap model rekan untuk melihat dampak dari pilihan arsitektur. Kami menjalankan pengujian throughput yang dihosting sendiri di berbagai model rekan menggunakan metodologi sederhana dengan beban kerja yang mewakili kasus penggunaan umum seperti alur kerja agen dengan riwayat sedang, aplikasi RAG, atau pemrosesan dokumen. Dalam pengujian ini, Nemotron 3 Super (NVFP4) menunjukkan throughput 11% lebih tinggi per GPU NVIDIA B200 daripada gpt-oss-120b (MXFP4), menempatkan Nemotron 3 Super 'atas dan ke kanan' relatif terhadap gpt-oss-120b. Qwen3.5 122B A10B mencapai +6 poin pada Indeks Intelijen dibandingkan dengan Nemotron 3 Super, tetapi pada throughput 40% lebih rendah per GPU. Skor Indeks Kecerdasan kami untuk Nemotron 3 Super dievaluasi pada bobot BF16. Kami belum menilai apakah ada dampak kecerdasan dari kuantisasi NVFP4, tetapi pengujian internal NVIDIA menemukan bahwa model NVFP4 mencapai akurasi rata-rata 99,8% relatif terhadap baseline BF16. Untuk detail selengkapnya tentang pengaturan pengujian dan konfigurasi model kami, lihat artikel kami tentang Nemotron 3 Super:
Nemotron 3 Super akan tersedia sejak rilisnya di API nirserver dari penyedia termasuk Lightning AI dan DeepInfra. Kami menguji titik akhir ini dan melihat performa hingga 484 token per detik pada beban kerja input token 10 ribu standar kami. Saat diluncurkan, Nemotron 3 Super duduk di kuadran paling menarik untuk kecerdasan dan kecepatan output di antara rekan-rekan yang sebanding.
6,43K