阿里巴巴发布 Qwen 3.5 小模型系列：以极小参数量实现 GPT-OSS 级性能

March 05, 2026

本文翻译自 OfficeChai

中国正继续推动开源模型能力的前沿发展。

阿里巴巴的 Qwen 团队发布了 Qwen 3.5 小模型系列——这是一系列紧凑型 AI 模型，涵盖四种规模：0.8B、2B、4B 和 9B 参数。此次发布还包含各尺寸的基础模型，团队表示这旨在更好地支持研究、实验和实际工业应用。这一公告凸显了 AI 开发的一个趋势：以显著降低的计算成本提供具有竞争力的智能。

以小搏大，表现超群

核心故事是效率。Qwen 3.5-9B——该小模型系列中最大的模型——正在缩小与比它大一个数量级模型的性能差距。随模型发布的基准数据显示，Qwen3.5-9B 在多项评估中匹配或超越 GPT-OSS-120B，包括：

GPQA Diamond：81.7 vs 71.5
HMMT Feb 2025：83.2 vs 76.7
MMMU-Pro：70.1 vs 59.7
ERQA：55.5 vs 44.3

在多个类别中，这个 9B 模型甚至超越了体积大得多的 GPT-OSS-120B——对于仅有其一小部分大小的模型来说，这是一个了不起的结果。

在多语言基准测试（MMMLU）中，Qwen3.5-9B 得分 81.2，略微领先于两个 GPT-OSS 变体，并与 Qwen3-Next-80B-A3B-Thinking 的 81.3 持平。在文档识别和理解（OmniDocBench v1.5）方面，它以 87.7 领先群雄。

分层架构适配各种场景

Qwen 3.5 小模型系列采用清晰的分层策略设计：

0.8B 和 2B 模型：针对速度和最小资源消耗进行优化，适用于边缘设备、设备端推理和延迟敏感的应用
4B 模型：定位为轻量级 AI 智能体的多功能多模态基础模型——在这一尺寸上提供此前鲜有模型能够实现的能力与体积平衡
9B 模型：该系列的旗舰紧凑模型，提供即使在一年前在这个参数量级上也无法想象的性能

所有模型都基于 Qwen3.5 基础架构构建，该架构具有原生多模态支持、改进的模型架构，以及通过强化学习进行扩展——与前沿规模模型中实现重大能力提升的训练方法相同。

马斯克点赞

这次发布引起了科技界意外角落的关注。埃隆·马斯克——最近几个月对 OpenAI 和 Anthropic 颇有微词，经常质疑其模型的能力或方向——在 X 上对 Qwen 3.5 小模型系列给出了简洁的 endorsement：「智能密度令人印象深刻。」

这条评论虽然简短，但分量十足。「智能密度」——能力与模型大小的比率——正是阿里巴巴 Qwen 团队希望通过此次发布展示的。来自一个很少错过质疑竞争对手 AI 进展机会的人，这种赞扬是更广泛 AI 社区如何接受这些结果的一个重要信号。

但也有人对这些说法持怀疑态度。Anthropic 的 Dario Amodei 最近表示，中国模型被定制为在基准测试中表现良好，但在现实世界中并不那么令人印象深刻。

开源的战略考量

在指令调优变体之外发布基础模型，是阿里巴巴深化 Qwen 开源生态系统的深思熟虑之举。基础模型为研究人员和开发者提供了原始基础，用于针对专门任务进行微调、构建专有应用或进行学术工作——而不受指令调优行为的约束。

更广泛的含义很明确：开源与闭源专有模型之间的差距继续缩小，而中国的 AI 实验室正在推动这一融合中发挥核心作用。对于评估 AI 部署的企业——尤其是那些有成本、延迟或数据主权限制的企业——Qwen 3.5 小模型系列代表了一个引人注目的新选择。以极小计算成本实现前沿级推理不再是理论承诺，而是基准测试结果。

要点总结

阿里巴巴发布 Qwen 3.5 小模型系列（0.8B/2B/4B/9B）
Qwen3.5-9B 在多项基准测试中超越 GPT-OSS-120B
埃隆·马斯克点赞：「智能密度令人印象深刻」
开源模型与闭源模型的差距持续缩小