NEE's Blog

阿里巴巴发布 Qwen 3.5 小模型系列:以极小参数量实现 GPT-OSS 级性能

March 05, 2026

本文翻译自 OfficeChai

中国正继续推动开源模型能力的前沿发展。

阿里巴巴的 Qwen 团队发布了 Qwen 3.5 小模型系列——这是一系列紧凑型 AI 模型,涵盖四种规模:0.8B、2B、4B 和 9B 参数。此次发布还包含各尺寸的基础模型,团队表示这旨在更好地支持研究、实验和实际工业应用。这一公告凸显了 AI 开发的一个趋势:以显著降低的计算成本提供具有竞争力的智能。

以小搏大,表现超群

核心故事是效率。Qwen 3.5-9B——该小模型系列中最大的模型——正在缩小与比它大一个数量级模型的性能差距。随模型发布的基准数据显示,Qwen3.5-9B 在多项评估中匹配或超越 GPT-OSS-120B,包括:

  • GPQA Diamond:81.7 vs 71.5
  • HMMT Feb 2025:83.2 vs 76.7
  • MMMU-Pro:70.1 vs 59.7
  • ERQA:55.5 vs 44.3

在多个类别中,这个 9B 模型甚至超越了体积大得多的 GPT-OSS-120B——对于仅有其一小部分大小的模型来说,这是一个了不起的结果。

在多语言基准测试(MMMLU)中,Qwen3.5-9B 得分 81.2,略微领先于两个 GPT-OSS 变体,并与 Qwen3-Next-80B-A3B-Thinking 的 81.3 持平。在文档识别和理解(OmniDocBench v1.5)方面,它以 87.7 领先群雄。

分层架构适配各种场景

Qwen 3.5 小模型系列采用清晰的分层策略设计:

  • 0.8B 和 2B 模型:针对速度和最小资源消耗进行优化,适用于边缘设备、设备端推理和延迟敏感的应用
  • 4B 模型:定位为轻量级 AI 智能体的多功能多模态基础模型——在这一尺寸上提供此前鲜有模型能够实现的能力与体积平衡
  • 9B 模型:该系列的旗舰紧凑模型,提供即使在一年前在这个参数量级上也无法想象的性能

所有模型都基于 Qwen3.5 基础架构构建,该架构具有原生多模态支持、改进的模型架构,以及通过强化学习进行扩展——与前沿规模模型中实现重大能力提升的训练方法相同。

马斯克点赞

这次发布引起了科技界意外角落的关注。埃隆·马斯克——最近几个月对 OpenAI 和 Anthropic 颇有微词,经常质疑其模型的能力或方向——在 X 上对 Qwen 3.5 小模型系列给出了简洁的 endorsement:「智能密度令人印象深刻。」

这条评论虽然简短,但分量十足。「智能密度」——能力与模型大小的比率——正是阿里巴巴 Qwen 团队希望通过此次发布展示的。来自一个很少错过质疑竞争对手 AI 进展机会的人,这种赞扬是更广泛 AI 社区如何接受这些结果的一个重要信号。

但也有人对这些说法持怀疑态度。Anthropic 的 Dario Amodei 最近表示,中国模型被定制为在基准测试中表现良好,但在现实世界中并不那么令人印象深刻。

开源的战略考量

在指令调优变体之外发布基础模型,是阿里巴巴深化 Qwen 开源生态系统的深思熟虑之举。基础模型为研究人员和开发者提供了原始基础,用于针对专门任务进行微调、构建专有应用或进行学术工作——而不受指令调优行为的约束。

更广泛的含义很明确:开源与闭源专有模型之间的差距继续缩小,而中国的 AI 实验室正在推动这一融合中发挥核心作用。对于评估 AI 部署的企业——尤其是那些有成本、延迟或数据主权限制的企业——Qwen 3.5 小模型系列代表了一个引人注目的新选择。以极小计算成本实现前沿级推理不再是理论承诺,而是基准测试结果。


要点总结

  • 阿里巴巴发布 Qwen 3.5 小模型系列(0.8B/2B/4B/9B)
  • Qwen3.5-9B 在多项基准测试中超越 GPT-OSS-120B
  • 埃隆·马斯克点赞:「智能密度令人印象深刻」
  • 开源模型与闭源模型的差距持续缩小
comments powered by Disqus