A NVIDIA lançou o Nemotron 3 Super, um modelo de raciocínio de pesos abertos de 120B (12B ativos) que pontua 36 no Índice de Inteligência de Análise Artificial, com uma arquitetura híbrida Mamba-Transformer MoE Recebemos acesso a esse modelo antes do lançamento e o avaliamos em termos de inteligência, abertura e eficiência de inferência. Principais lições ➤ Combina alta abertura com forte inteligência: Nemotron 3 Super tem desempenho excelente para seu tamanho e é substancialmente mais inteligente do que qualquer outro modelo com abertura comparável ➤ Nemotron 3 Super obteve 36 pontos no Índice de Inteligência de Análise Artificial, +17 pontos à frente do lançamento anterior do Super e +12 pontos do Nemotron 3 Nano. Comparado a modelos de tamanho semelhante, isso o coloca à frente do gpt-oss-120b (33), mas atrás do recentemente lançado Qwen3.5 122B A10B (42). ➤ Focado em inteligência eficiente: descobrimos que o Nemotron 3 Super tem inteligência maior que o gpt-oss-120b, permitindo ~10% maior de throughput por GPU em um teste de carga simples, mas realista ➤ Suportado hoje para inferência serverless rápida: provedores como @DeepInfra e @LightningAI estão atendendo esse modelo no lançamento com velocidades de até 484 tokens por segundo Detalhes do modelo 📝 O Nemotron 3 Super tem 120,6 bilhões no total e 12,7 bilhões de parâmetros ativos, além de uma janela de contexto de 1 milhão de tokens e suporte a raciocínio híbrido. É publicado com volumes abertos e uma licença permissiva, juntamente com dados de treinamento abertos e divulgação metodológica 📐 O modelo possui várias características de design que permitem inferência eficiente, incluindo o uso de arquiteturas híbridas Mamba-Transformer e LatentMoE, previsão multi-token e pesos quantizados NVFP4 🎯 A NVIDIA pré-treinou o Nemotron 3 Super em precisão (quase) NVFP4, mas migrou para o BF16 para o pós-treinamento. Nossas pontuações de avaliação usam os pesos BF16 🧠 Fizemos benchmarks do Nemotron 3 Super em seu modo de raciocínio de maior esforço ("regular"), o mais capaz dos três modos de inferência do modelo (raciocínio, de baixo esforço e regular)
A NVIDIA divulgou dados significativos pré e pós-treinamento junto com novas receitas abrangentes de treinamento para esse modelo. Essas divulgações alcançam 83 no Índice de Abertura da Análise Artificial, atrás apenas dos modelos altamente abertos do Ai2 e MBZUAI, e colocam o Nemotron 3 Super no quadrante mais atraente em Abertura e Inteligência entre os pares. Nemotron 3 Super é, de longe, o modelo mais inteligente já lançado com esse nível de abertura.
Nemotron 3 Super usou um número relativamente alto de tokens em nossas avaliações. Ele usou 110M de tokens de saída para rodar as avaliações do Índice de Inteligência de Análise Artificial – isso é cerca de 40% a mais que o gpt-oss-120b com alto esforço de raciocínio, mas uma redução de ~20% em comparação ao Nemotron 3 Nano. Isso é significativamente menos tokens do que o Claude Opus 4.6 da Anthropic (máximo), que usou 160 milhões de tokens, e um pouco menos que o GPT-5.4 (xhigh) da OpenAI, que usou 120 milhões de tokens.
Com 120B no total e 12B de parâmetros ativos, o Nemotron 3 Super ainda é relativamente pequeno em comparação com outros modelos recentes lançados em espaços abertos dos principais laboratórios globais — GLM-5 (744B no total, 40B ativo), Qwen3.5 397B A17B (397B no total, 17B ativo) e Kimi K2.5 (1T total, 32B ativo) são cada um 3 a 8 vezes maiores.
A NVIDIA está focada em inteligência eficiente para a família Nemotron, e testamos o desempenho de inferência contra modelos pares para ver o impacto das escolhas de arquitetura. Rodamos testes de throughput auto-hospedados em diversos modelos peer usando uma metodologia simples com cargas de trabalho representativas de casos de uso comuns, como fluxos de trabalho agentes com histórico moderado, aplicações RAG ou processamento de documentos. Neste teste, o Nemotron 3 Super (NVFP4) mostra uma taxa de transferência 11% maior por GPU NVIDIA B200 do que o gpt-oss-120b (MXFP4), colocando o Nemotron 3 Super 'para cima e para a direita' em relação ao gpt-oss-120b. O Qwen3.5 122B A10B alcança +6 pontos no Índice de Inteligência em comparação com o Nemotron 3 Super, mas com um throughput 40% menor por GPU. Nossas pontuações do Índice de Inteligência para Nemotron 3 Super foram avaliadas com os pesos BF16. Ainda não avaliamos se há algum impacto de inteligência da quantização do NVFP4, mas os testes internos da NVIDIA mostraram que o modelo NVFP4 alcançou uma precisão mediana de 99,8% em relação à linha de base do BF16. Para mais detalhes sobre nosso setup de testes e configurações de modelos, veja nosso artigo sobre Nemotron 3 Super:
O Nemotron 3 Super estará disponível desde seu lançamento em APIs serverless de provedores como Lightning AI e DeepInfra. Testamos esses endpoints e vemos desempenho de até 484 tokens por segundo em nossas cargas de trabalho padrão de entrada de token de 10k. No lançamento, o Nemotron 3 Super está no quadrante mais atraente em inteligência e velocidade de saída entre pares comparáveis.
6,79K