《Qwen3-Coder-Next-8bit 在 M3 Ultra 上的 EXO benchmark 分析》 一、核心数据:M3 Ultra(512GB RAM)分布式推理 硬件配置 • 单节点:Apple M3 Ultra 512GB RAM(32 CPU cores, 80 GPU cores) • 双节点:2 × M3 Ultra(1024GB RAM 聚合) • 模型:Qwen3-Coder-Next-8bit(8B 参数,量化版) 性能基准(tokens/s)
二、 关键信息: 1.Prompt Processing 随节点数线性扩展 • 0.5K-8K context:单节点已达峰值(60 t/s),双节点反而下降(-3%) • 原因:分布式通信开销 > 计算加速收益 • 结论:小 context 不需要分布式 • 16K-64K context:双节点开始受益(+2% 到 +6%) • 原因:KV Cache 需要更多内存,单节点瓶颈 • 结论:大 context 分布式推理有价值 2. Generation 性能趋势 • 小 model(8B)+ 小 context(<32K):Generation 较慢 • 大 context(≥32K):性能开始提升关键洞察 • 原因:8B 模型计算压力小,瓶颈在内存带宽和 KV Cache 3. /bench API 的重要性 • 标准 OpenAI endpoint:默认启用 cache,导致测试错误结果 • /bench API:无 streaming,返回服务器测量 stats(准确) • 关键发现:测试分布式推理必须用 /bench,否则数据无效
三、 与 Qwen3.5-35B 对比
四、 技术结论 分布式推理的价值区间 • 小 context(<8K):单节点最优,双节点反而下降(通信开销) • 大 context(≥32K):双节点开始受益,64K 时提升 +6% • 128K+ context:需要多节点(测试中遇到 1115KB gossipsub 消息过大问题) Qwen3-Coder-Next-8bit vs Qwen3.5-35B:
五、 EXO 的瓶颈 • 128K context 测试失败:gossipsub 消息过大(1115KB),需要重启节点 • 问题:网络层限制分布式推理扩展性 • 解决:需要优化消息分片或改用其他通信协议
六、 经济模型对比 方案 A: M3 Ultra 512GB(单节点) • 成本:$2000-3000 • 性能:60 t/s(<8K)→ 48 t/s(64K) • 适用:大 context(≥32K),单节点即可 方案 B: M3 Ultra × 2(双节点) • 成本:$4000-6000 • 性能:59-51 t/s(+6% vs 单节点,仅 64K context) • 适用:超大 context(≥128K),单节点内存不足 方案 C: RTX 3090(单卡) • 成本:$800-1000(二手) • 性能:112 t/s(固定,Qwen3.5-35B) • 适用:小 context(<64K),经济可行
七、 📌 核心结论 1. Qwen3-Coder-Next-8bit 适合大 context(≥32K)分布式推理 优势:可扩展到无限 context(多节点聚合内存) 劣势:小 context 性能不如单卡 GPU,ROI 周期长 2. Qwen3.5-35B(RTX 3090)适合小 context(<64K)经济推理 优势:112 t/s 高性能,ROI 6 个月回本 劣势:单卡上限(24GB VRAM),无法扩展到 128K+ 3. EXO 的分布式推理仍有瓶颈 问题:gossipsub 消息过大(1115KB),需要重启节点 解决:优化网络层或改用其他通信协议
八、 投资优先级对比 Mac Studio M5(配备M5 Ultra芯片)预计于2026年3月至6月发布。性能方面,在LLM推理任务中,相比M3 Ultra,M5 Ultra的提示处理(TTFT)可达2-4倍加速,生成速度(tokens/s)提升约20-30%(内存带宽从800GB/s提升至更高水平,结合每个GPU核心的Neural Accelerator)。对于类似Qwen模型的量化版本,M5 Ultra可能支持更大上下文(64K+ tokens),在基准测试中实现更高吞吐量(如大型MoE模型达150+ tok/s)。考虑到硬件成本类似(约$4000起)但性能提升,ROI预计缩短至8-12个月,适合高强度AI开发场景,整体推荐指数更高。
3.39K