一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

阿里巴巴发布了4款新的Qwen3.5型号，范围从0.8亿到9亿。9B（推理，智力指数第32位）是10B参数下最智能的模型，4B（推理，第27位）在5B参数下最聪明，但两者都使用2亿000万+输出令牌来运行智力指数 @Alibaba_Qwen扩展了Qwen3.5家族，推出了四个较小且密集的模型：9B（推理，智力指数32）、4B（推理，27）、2B（推理，16）和0.8B（推理，9）。这些型号补充了本月早些时候发布的更大尺寸397B、27B、122B A10B和35B A3B型号。所有型号均支持 Apache 2.0，支持 262K 上下文，支持原生视觉，并采用与 Qwen3.5 系列相同的统一思维/非思考混合方法推理变体的主要基准测试结果： † 9B和4B是各自尺寸类别中最智能的型号，领先于10B参数下的所有其他型号。Qwen3.5 9B（32）的得分大约是10B以下紧邻Falcon-H1R-7B（16）和NVIDIA Nemotron Nano 9B V2（Reasoning，15）的两倍。Qwen3.5 4B（27）尽管参数大约只有一半，但得分超过了所有这些。四个小型Qwen3.5模型都位于智力与总参数图表的帕累托边界 † Qwen3.5 一代在所有小于 10B 模型尺寸下，代表了相较 Qwen3 的材料智能提升，且在总参数数增加时提升更大。推理变体比较：Qwen3.5 9B（32）领先Qwen3 VL 8B（17）15个百分点，4B（27）领先Qwen3 4B 2507（18）9个百分点，2B（16）领先Qwen3 1.7B（估计13个）3个百分点，0.8B（9）领先Qwen3 0.6B（6.5）2.5个百分点。这四个模型都使用2.3亿至3.9亿个输出令牌来运行智能指数，远多于更大的Qwen3.5兄弟型号和前身Qwen3。Qwen3.5 2B 使用 ~390M 输出令牌，4B 使用 ~240M，0.8B 使用 ~230M 令牌，9B 使用 ~260M 令牌。作为背景介绍，体积更大的Qwen3.5 27B使用98M，旗舰机397B使用86M。这些令牌数量也超过了大多数前沿模型：Gemini 3.1 Pro Preview（5700万）、GPT-5.2（xhigh，1.3亿）和GLM-5 Reasoning（1.09亿） † AA-全知是相对弱点，4B和9B的幻觉率为80-82%。Qwen3.5 4B在AA-Omniscience中得分-57，幻觉率为80%，准确率为12.8%。Qwen3.5 9B得分-56，幻觉率82%，准确率14.7%。这些指标略优于Qwen3的前身（Qwen3 4B 2507：-61,84%幻觉，12.7%准确率），主要提升主要来自更低的幻觉率，而非更高的准确率。 † Qwen3.5 sub-10B型号将高智能与原生视力结合，达到了前所未有的规模。在MMMU-Pro（多模态推理）中，Qwen3.5 9B得分为69.2%，4B得分65.4%，领先于Qwen3 VL 8B（56.6%）、Qwen3 VL 4B（52.0%）和Ministral 3 8B（46.0%）。Qwen3.5 0.8B得分为25.8%，对于低于1B的模型来说相当显著其他信息： † 上下文窗口：262K 代币 † 许可：Apache 2.0 † 量子化：本地权重为BF16。阿里巴巴尚未发布这些小模型的第一方GPTQ-Int4量化，但已发布了Qwen3.5系列较大模型（27B、35B-A3B、122B-A10B、397B-A17B）的量化。在4位量化中，这四种型号都可以在消费级硬件上访问 † 可用性：发布时，这些模型没有第一方或第三方无服务器 API 托管

Qwen3.5 代的出现是小型模型智能相较于 Qwen3 的一次飞跃。9B 比 Qwen3 VL 8B 提高了 15 分（从 17 到 32），4B 比 Qwen3 4B 2507 提高了 9 分（从 18 到 27），2B 比 Qwen3 1.7B 提高了 3 分（从 13 到 16），而 0.8B 比 Qwen3 0.6B 提高了 2.5 分（从 6.5 到 9）。

智能增益的代价是与同类相比高昂的代币使用量。所有四个低于10B的Qwen3.5模型在运行智能指数时使用了230M+的输出代币——这显著高于大多数前沿模型以及Qwen3的前身。

Qwen3.5 9B 和 4B 模型是最智能的多模态模型，参数少于 15B。在 MMMU-Pro 上，Qwen3.5 9B（69%）和 4B（65%）领先所有子 15B 模型。

所有4个模型的单独结果分析

在以下位置比较 Qwen3.5 家族与其他领先模型：

9.89K