热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
阿里巴巴发布了4款新的Qwen3.5型号,范围从0.8亿到9亿。9B(推理,智力指数第32位)是10B参数下最智能的模型,4B(推理,第27位)在5B参数下最聪明,但两者都使用2亿000万+输出令牌来运行智力指数
@Alibaba_Qwen扩展了Qwen3.5家族,推出了四个较小且密集的模型:9B(推理,智力指数32)、4B(推理,27)、2B(推理,16)和0.8B(推理,9)。这些型号补充了本月早些时候发布的更大尺寸397B、27B、122B A10B和35B A3B型号。所有型号均支持 Apache 2.0,支持 262K 上下文,支持原生视觉,并采用与 Qwen3.5 系列相同的统一思维/非思考混合方法
推理变体的主要基准测试结果:
† 9B和4B是各自尺寸类别中最智能的型号,领先于10B参数下的所有其他型号。Qwen3.5 9B(32)的得分大约是10B以下紧邻Falcon-H1R-7B(16)和NVIDIA Nemotron Nano 9B V2(Reasoning,15)的两倍。Qwen3.5 4B(27)尽管参数大约只有一半,但得分超过了所有这些。四个小型Qwen3.5模型都位于智力与总参数图表的帕累托边界
† Qwen3.5 一代在所有小于 10B 模型尺寸下,代表了相较 Qwen3 的材料智能提升,且在总参数数增加时提升更大。推理变体比较:Qwen3.5 9B(32)领先Qwen3 VL 8B(17)15个百分点,4B(27)领先Qwen3 4B 2507(18)9个百分点,2B(16)领先Qwen3 1.7B(估计13个)3个百分点,0.8B(9)领先Qwen3 0.6B(6.5)2.5个百分点。
这四个模型都使用2.3亿至3.9亿个输出令牌来运行智能指数,远多于更大的Qwen3.5兄弟型号和前身Qwen3。Qwen3.5 2B 使用 ~390M 输出令牌,4B 使用 ~240M,0.8B 使用 ~230M 令牌,9B 使用 ~260M 令牌。作为背景介绍,体积更大的Qwen3.5 27B使用98M,旗舰机397B使用86M。这些令牌数量也超过了大多数前沿模型:Gemini 3.1 Pro Preview(5700万)、GPT-5.2(xhigh,1.3亿)和GLM-5 Reasoning(1.09亿)
† AA-全知是相对弱点,4B和9B的幻觉率为80-82%。Qwen3.5 4B在AA-Omniscience中得分-57,幻觉率为80%,准确率为12.8%。Qwen3.5 9B得分-56,幻觉率82%,准确率14.7%。这些指标略优于Qwen3的前身(Qwen3 4B 2507:-61,84%幻觉,12.7%准确率),主要提升主要来自更低的幻觉率,而非更高的准确率。
† Qwen3.5 sub-10B型号将高智能与原生视力结合,达到了前所未有的规模。在MMMU-Pro(多模态推理)中,Qwen3.5 9B得分为69.2%,4B得分65.4%,领先于Qwen3 VL 8B(56.6%)、Qwen3 VL 4B(52.0%)和Ministral 3 8B(46.0%)。Qwen3.5 0.8B得分为25.8%,对于低于1B的模型来说相当显著
其他信息:
† 上下文窗口:262K 代币
† 许可:Apache 2.0
† 量子化:本地权重为BF16。阿里巴巴尚未发布这些小模型的第一方GPTQ-Int4量化,但已发布了Qwen3.5系列较大模型(27B、35B-A3B、122B-A10B、397B-A17B)的量化。在4位量化中,这四种型号都可以在消费级硬件上访问
† 可用性:发布时,这些模型没有第一方或第三方无服务器 API 托管

Qwen3.5 代的出现是小型模型智能相较于 Qwen3 的一次飞跃。9B 比 Qwen3 VL 8B 提高了 15 分(从 17 到 32),4B 比 Qwen3 4B 2507 提高了 9 分(从 18 到 27),2B 比 Qwen3 1.7B 提高了 3 分(从 13 到 16),而 0.8B 比 Qwen3 0.6B 提高了 2.5 分(从 6.5 到 9)。

智能增益的代价是与同类相比高昂的代币使用量。所有四个低于10B的Qwen3.5模型在运行智能指数时使用了230M+的输出代币——这显著高于大多数前沿模型以及Qwen3的前身。

Qwen3.5 9B 和 4B 模型是最智能的多模态模型,参数少于 15B。在 MMMU-Pro 上,Qwen3.5 9B(69%)和 4B(65%)领先所有子 15B 模型。

所有4个模型的单独结果分析

在以下位置比较 Qwen3.5 家族与其他领先模型:
9.89K
热门
排行
收藏
