NVIDIA đã phát hành Nemotron 3 Super, một mô hình lý luận với trọng số mở 120B (12B hoạt động) đạt điểm 36 trên Chỉ số Trí tuệ Phân tích Nhân tạo với kiến trúc MoE Mamba-Transformer lai. Chúng tôi đã được truy cập vào mô hình này trước khi ra mắt và đánh giá nó dựa trên trí tuệ, tính mở và hiệu quả suy diễn. Những điểm chính ➤ Kết hợp tính mở cao với trí tuệ mạnh mẽ: Nemotron 3 Super hoạt động mạnh mẽ cho kích thước của nó và thông minh hơn đáng kể so với bất kỳ mô hình nào có tính mở tương đương. ➤ Nemotron 3 Super đạt 36 điểm trên Chỉ số Trí tuệ Phân tích Nhân tạo, cao hơn 17 điểm so với phiên bản Super trước đó và 12 điểm so với Nemotron 3 Nano. So với các mô hình trong cùng một danh mục kích thước, điều này đưa nó vượt lên trên gpt-oss-120b (33), nhưng đứng sau Qwen3.5 122B A10B mới phát hành (42). ➤ Tập trung vào trí tuệ hiệu quả: chúng tôi nhận thấy Nemotron 3 Super có trí tuệ cao hơn gpt-oss-120b trong khi cho phép thông lượng cao hơn khoảng 10% mỗi GPU trong một bài kiểm tra tải đơn giản nhưng thực tế. ➤ Hỗ trợ ngày hôm nay cho suy diễn không máy chủ nhanh chóng: các nhà cung cấp bao gồm @DeepInfra và @LightningAI đang phục vụ mô hình này ngay khi ra mắt với tốc độ lên đến 484 token mỗi giây. Chi tiết mô hình 📝 Nemotron 3 Super có tổng cộng 120.6B và 12.7B tham số hoạt động, cùng với một cửa sổ ngữ cảnh 1 triệu token và hỗ trợ lý luận lai. Nó được công bố với trọng số mở và giấy phép cho phép, cùng với dữ liệu huấn luyện mở và tiết lộ phương pháp. 📐 Mô hình có một số tính năng thiết kế cho phép suy diễn hiệu quả, bao gồm việc sử dụng kiến trúc Mamba-Transformer lai và LatentMoE, dự đoán đa token, và trọng số định lượng NVFP4. 🎯 NVIDIA đã tiền huấn luyện Nemotron 3 Super chủ yếu ở độ chính xác NVFP4, nhưng đã chuyển sang BF16 cho giai đoạn sau huấn luyện. Các điểm đánh giá của chúng tôi sử dụng trọng số BF16. 🧠 Chúng tôi đã đánh giá Nemotron 3 Super ở chế độ lý luận nỗ lực cao nhất ("thông thường"), là chế độ có khả năng nhất trong ba chế độ suy diễn của mô hình (tắt lý luận, nỗ lực thấp và thông thường).
NVIDIA đã phát hành dữ liệu quan trọng trước và sau khi đào tạo cùng với các công thức đào tạo toàn diện mới cho mô hình này. Những tiết lộ này đạt 83 trên Chỉ số Mở của Phân tích Nhân tạo, chỉ đứng sau các mô hình mở cao từ Ai2 và MBZUAI, và đặt Nemotron 3 Super vào khu vực hấp dẫn nhất về Mở và Trí tuệ trong số các đồng nghiệp. Nemotron 3 Super là mô hình thông minh nhất từng được phát hành với mức độ mở này.
Nemotron 3 Super đã sử dụng một số lượng token tương đối cao trong các đánh giá của chúng tôi. Nó đã sử dụng 110 triệu token đầu ra để thực hiện các đánh giá Chỉ số Trí tuệ Phân tích Nhân tạo - điều này cao hơn khoảng 40% so với gpt-oss-120b với nỗ lực suy luận cao, nhưng giảm khoảng 20% so với Nemotron 3 Nano. Đó là số lượng token ít hơn đáng kể so với Claude Opus 4.6 (tối đa) của Anthropic, đã sử dụng 160 triệu token, và hơi ít hơn so với GPT-5.4 (xhigh) của OpenAI, đã sử dụng 120 triệu token.
Với tổng cộng 120B và 12B tham số hoạt động, Nemotron 3 Super vẫn tương đối nhỏ so với các mô hình trọng số mở gần đây từ các phòng thí nghiệm hàng đầu toàn cầu — GLM-5 (744B tổng, 40B hoạt động), Qwen3.5 397B A17B (397B tổng, 17B hoạt động), và Kimi K2.5 (1T tổng, 32B hoạt động) đều lớn hơn từ 3x đến 8x.
NVIDIA đang tập trung vào trí tuệ hiệu quả cho gia đình Nemotron, và chúng tôi đã thử nghiệm hiệu suất suy diễn so với các mô hình đồng nghiệp để xem tác động của các lựa chọn kiến trúc. Chúng tôi đã thực hiện các bài kiểm tra thông lượng tự lưu trữ trên một loạt các mô hình đồng nghiệp bằng một phương pháp đơn giản với các khối lượng công việc đại diện cho các trường hợp sử dụng phổ biến như quy trình làm việc agentic với lịch sử vừa phải, các ứng dụng RAG, hoặc xử lý tài liệu. Trong bài kiểm tra này, Nemotron 3 Super (NVFP4) cho thấy thông lượng cao hơn 11% trên mỗi GPU NVIDIA B200 so với gpt-oss-120b (MXFP4), đặt Nemotron 3 Super ‘lên và về phía bên phải’ so với gpt-oss-120b. Qwen3.5 122B A10B đạt được +6 điểm trên Chỉ số Trí tuệ so với Nemotron 3 Super, nhưng với thông lượng thấp hơn 40% trên mỗi GPU. Các điểm số Chỉ số Trí tuệ của chúng tôi cho Nemotron 3 Super được đánh giá dựa trên trọng số BF16. Chúng tôi vẫn chưa đánh giá xem có bất kỳ tác động trí tuệ nào của việc định lượng NVFP4 hay không, nhưng thử nghiệm nội bộ của NVIDIA đã phát hiện rằng mô hình NVFP4 đạt được độ chính xác trung vị 99.8% so với cơ sở BF16. Để biết thêm chi tiết về thiết lập thử nghiệm và cấu hình mô hình của chúng tôi, hãy xem bài viết của chúng tôi về Nemotron 3 Super:
Nemotron 3 Super sẽ có sẵn từ khi phát hành trên các API không máy chủ từ các nhà cung cấp bao gồm Lightning AI và DeepInfra. Chúng tôi đã thử nghiệm các điểm cuối này và thấy hiệu suất lên tới 484 token mỗi giây trên các khối lượng công việc đầu vào tiêu chuẩn 10k token của chúng tôi. Tại thời điểm ra mắt, Nemotron 3 Super nằm trong khu vực hấp dẫn nhất về trí tuệ và tốc độ đầu ra so với các đối thủ tương đương.
6,61K