热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Artificial Analysis
独立分析 AI 模型和托管提供商 - 为您的用例选择最佳模型和 API 提供商
NVIDIA 发布了 Nemotron 3 Super,这是一款 120B(12B 激活)开放权重推理模型,采用混合 Mamba-Transformer MoE 架构,在人工智能指数中得分为 36 分
我们在发布前获得了该模型的访问权限,并在智能性、透明度和推理效率方面进行了评估。
主要要点
† 结合高开放性与强智能:Nemotron 3 Super以其体积来说表现优异,智能远超其他同等开放性型号
† Nemotron 3 Super 在人工智能分析指数中得分 36 分,比上一版 Super 高出 +17 分,比 Nemotron 3 Nano 高出 +12 分。与同尺寸类别的型号相比,这使其领先于GPT-OSS-120B(33),但落后于最近发布的Qwen3.5 122B A10B(42)。
仅关注高效智能:我们发现Nemotron 3 Super的智能比GPT-OSS-120b更高,同时在简单但真实的负载测试中实现了每GPU吞吐量约10%的提升
† 目前支持快速无服务器推理:包括@DeepInfra和@LightningAI在内的供应商在该模型发布时提供最高484个令牌/秒的速度
模型详情
📝 Nemotron 3 Super 拥有 1.206 亿总参数和 1270 亿活跃参数,并支持 100 万令牌上下文窗口和混合推理支持。该报告以开放权重和许可发布,同时提供开放训练数据和方法论披露
📐 该模型具有多项设计特征,支持高效推理,包括采用混合Mamba-Transformer和LatentMoE架构、多词预测以及NVFP4量化权重
🎯 NVIDIA 对 Nemotron 3 Super 进行了(大部分)NVFP4 精度的预训练,但后期训练转至 BF16。我们的评估分数采用BF16权重
🧠 我们对Nemotron 3 Super的最高努力推理模式(“常规”)进行了基准测试,这是模型三种推理模式(推理测试、低努力和常规)中最有能力的

7.2K
阿里巴巴发布了4款新的Qwen3.5型号,范围从0.8亿到9亿。9B(推理,智力指数第32位)是10B参数下最智能的模型,4B(推理,第27位)在5B参数下最聪明,但两者都使用2亿000万+输出令牌来运行智力指数
@Alibaba_Qwen扩展了Qwen3.5家族,推出了四个较小且密集的模型:9B(推理,智力指数32)、4B(推理,27)、2B(推理,16)和0.8B(推理,9)。这些型号补充了本月早些时候发布的更大尺寸397B、27B、122B A10B和35B A3B型号。所有型号均支持 Apache 2.0,支持 262K 上下文,支持原生视觉,并采用与 Qwen3.5 系列相同的统一思维/非思考混合方法
推理变体的主要基准测试结果:
† 9B和4B是各自尺寸类别中最智能的型号,领先于10B参数下的所有其他型号。Qwen3.5 9B(32)的得分大约是10B以下紧邻Falcon-H1R-7B(16)和NVIDIA Nemotron Nano 9B V2(Reasoning,15)的两倍。Qwen3.5 4B(27)尽管参数大约只有一半,但得分超过了所有这些。四个小型Qwen3.5模型都位于智力与总参数图表的帕累托边界
† Qwen3.5 一代在所有小于 10B 模型尺寸下,代表了相较 Qwen3 的材料智能提升,且在总参数数增加时提升更大。推理变体比较:Qwen3.5 9B(32)领先Qwen3 VL 8B(17)15个百分点,4B(27)领先Qwen3 4B 2507(18)9个百分点,2B(16)领先Qwen3 1.7B(估计13个)3个百分点,0.8B(9)领先Qwen3 0.6B(6.5)2.5个百分点。
这四个模型都使用2.3亿至3.9亿个输出令牌来运行智能指数,远多于更大的Qwen3.5兄弟型号和前身Qwen3。Qwen3.5 2B 使用 ~390M 输出令牌,4B 使用 ~240M,0.8B 使用 ~230M 令牌,9B 使用 ~260M 令牌。作为背景介绍,体积更大的Qwen3.5 27B使用98M,旗舰机397B使用86M。这些令牌数量也超过了大多数前沿模型:Gemini 3.1 Pro Preview(5700万)、GPT-5.2(xhigh,1.3亿)和GLM-5 Reasoning(1.09亿)
† AA-全知是相对弱点,4B和9B的幻觉率为80-82%。Qwen3.5 4B在AA-Omniscience中得分-57,幻觉率为80%,准确率为12.8%。Qwen3.5 9B得分-56,幻觉率82%,准确率14.7%。这些指标略优于Qwen3的前身(Qwen3 4B 2507:-61,84%幻觉,12.7%准确率),主要提升主要来自更低的幻觉率,而非更高的准确率。
† Qwen3.5 sub-10B型号将高智能与原生视力结合,达到了前所未有的规模。在MMMU-Pro(多模态推理)中,Qwen3.5 9B得分为69.2%,4B得分65.4%,领先于Qwen3 VL 8B(56.6%)、Qwen3 VL 4B(52.0%)和Ministral 3 8B(46.0%)。Qwen3.5 0.8B得分为25.8%,对于低于1B的模型来说相当显著
其他信息:
† 上下文窗口:262K 代币
† 许可:Apache 2.0
† 量子化:本地权重为BF16。阿里巴巴尚未发布这些小模型的第一方GPTQ-Int4量化,但已发布了Qwen3.5系列较大模型(27B、35B-A3B、122B-A10B、397B-A17B)的量化。在4位量化中,这四种型号都可以在消费级硬件上访问
† 可用性:发布时,这些模型没有第一方或第三方无服务器 API 托管

9.97K
热门
排行
收藏
