人工智能界的秘密王者：阿里巴巴的Qwen3.5如何与OpenAI和谷歌展开激烈竞争

Konrad Wolfenstein

5个月前

人工智能界的秘密王者：阿里巴巴的Qwen3.5如何与OpenAI和谷歌展开激烈竞争

AI 幕后王者：阿里巴巴的 Qwen3.5 如何挑战 OpenAI 和谷歌的地位——图片来源：Xpert.Digital

免费而非付费：中国针对 ChatGPT 等公司的巧妙开源举措.

7亿次下载：Qwen AI 的悄然革命，却被所有人忽视

走出阴影：Qwen 如何成为主导平台

长期以来，OpenAI 和谷歌一直被视为人工智能领域无可争议的霸主，但一场根本性的范式转变正在幕后悄然发生。随着 Qwen3.5 模型家族的发布，中国科技巨头阿里巴巴不仅挑战了西方老牌企业的统治地位，更彻底重塑了人工智能领域的游戏规则。通过彻底的架构重构，Qwen3.5 解决了传统 Transformer 模型资源占用过高的问题，并以大幅降低的计算量实现了前所未有的性能。这一策略既简单又激进：免费提供功能强大、原生支持多模态的开源模型——即使是精简版，在本地硬件上的性能也丝毫不逊色于庞大的商业系统。此举远非一次简单的技术升级，而是一场旨在冲击全球人工智能市场利润空间的战略性地缘政治博弈，同时也开启了面向大众市场的自主人工智能代理（“智能体人工智能”）时代。详细的分析表明，阿里巴巴是如何取得这一成就的，以及这些基准数据对行业未来究竟意味着什么。.

与此相关：

中国在人工智能领域的开源攻势：自由软件如何摧毁硅谷价值数十亿美元的产业

阿里巴巴的静默革命：Qwen3.5家族如何重塑人工智能世界秩序

中国对开源软件的攻击击中了 OpenAI 和谷歌最脆弱的地方——它们的架构。

2025年4月，阿里巴巴发布Qwen3模型系列时，西方科技媒体的反应较为冷淡。他们一致认为，Qwen固然强大，但终究只是竞争日益激烈的市场中众多模型之一。然而，这种冷静的评价忽略了Qwen已不再是小众项目，而是正在成为全球应用最广泛的开源人工智能平台。2026年1月，Qwen团队宣布其在Hugging Face上的下载量已达7亿次，甚至超越了多年来一直被公认为开源语言模型标杆的Meta Llama。数据本身就足以说明一切：2025年12月，Qwen的月下载量超过了包括Meta、DeepSeek、OpenAI、Mistral和Nvidia在内的其他八款最热门模型下载量的总和。.

这种受欢迎程度并非偶然。这些数据反映了阿里巴巴自2023年以来一直奉行的一项战略决策：比竞争对手更早、更频繁地发布Qwen模型，并提供更多衍生版本。迄今为止，阿里巴巴已将Qwen套件中的近400个模型开源，并生成了超过18万个衍生版本。就连顶尖的研究团队也依赖Qwen：人工智能先驱李飞飞的团队利用相对有限的资源，基于Qwen训练了其备受赞誉的s1推理模型。中国建模实验室DeepSeek在2025年初凭借R1模型引起全球轰动，该实验室已发布了六个基于社区的模型——其中四个基于Qwen。.

在开源人工智能社区最关键的指标中，Qwen 已经占据了市场研究人员眼中几乎不可撼动的网络效应地位：基于 Qwen 进行开发的人可以受益于庞大的衍生模型生态系统、微调、优化和社区支持。而与 Qwen 竞争的人则同时面临着网络效应的强大驱动力。这种结构性优势构成了评估 Qwen3.5 模型系列的基础。.

建筑设计上的大胆尝试：Qwen3.5 的思维方式为何与其前代产品截然不同

Qwen3.5 系列与其前代产品之间的关键区别并非在于参数数量的简单增加，而在于架构范式的根本性转变。经典的 Transformer 模型——从 GPT-4 到 Llama 再到最初的 Qwen3——都依赖于所谓的自注意力机制，而该机制的计算复杂度呈二次方增长。这意味着上下文长度翻倍，计算量就会翻四倍。这正是语言模型在处理长文档、庞大的代码库或长达数小时的对话历史记录时资源消耗巨大的瓶颈所在。.

Qwen并没有像DeepSeek的Multi-Head Latent Attention那样通过渐进式优化来解决这个问题，而是通过更彻底的架构重构来实现的。新架构的核心是混合专家结构：每四个Transformer模块中，有三个被门控Delta网络（Gated Delta Networks）取代——这是一种基于理论论文“Gated Delta Networks: Improving Mamba2 with Delta Rule”的线性注意力机制变体。只有每四个模块中保留一个经典的全注意力层，用于处理精确任务。最终的结果是计算复杂度随上下文长度线性增长——这与经典Transformer的二次方增长截然不同。.

这项决策意义重大。实际上，线性扩展意味着在相同的计算能力下，该模型可以处理更长的文本，并且比同等智能的密集模型更快地生成词元。通过阿里云托管的 Qwen3.5-Plus 版本支持一百万个词元的上下文窗口——而就在两年前，这种容量还仅限于像 Claude 的 Constitutional AI 这样的特殊架构方法。同时，混合架构大幅降低了显存需求：一个经典的 4000 亿参数密集模型需要超过 800 GB 的 GPU 内存，而 Qwen3.5-397B-A17B 在量化系统上仅需 48 到 96 GB 的显存。.

借助“托管人工智能”（人工智能）实现数字化转型的新维度——平台及B2B解决方案 | Xpert咨询

“托管式人工智能”开启数字化转型新篇章——平台及B2B解决方案 | Xpert Consulting - 图片来源：Xpert.Digital

在这里，您将了解到您的公司如何快速、安全地实施定制化的人工智能解决方案，且无需承担过高的准入门槛。.

托管式人工智能平台是您实现人工智能的全方位、无忧解决方案。您无需处理复杂的技术、昂贵的基础设施和漫长的开发流程，即可从专业合作伙伴处获得根据您的需求量身定制的现成解决方案——通常只需几天时间。.

主要优势一览：

⚡ 快速实施：从构思到可立即使用的应用，只需几天而非几个月。我们提供切实可行的解决方案，创造即时附加值。.

🔒 最高数据安全保障：您的敏感数据始终由您掌控。我们保证安全合规地处理您的数据，绝不与任何第三方共享。.

💸 无财务风险：您只需为结果付费。完全无需前期投入大量资金用于硬件、软件或人员。.

🎯 专注于您的核心业务：集中精力做好您最擅长的事情。我们将负责您人工智能解决方案的全部技术实施、运营和维护。.

📈面向未来且可扩展：您的AI将与您一同成长。我们确保持续优化和可扩展性，并灵活调整模型以适应新的需求。.

更多信息请点击这里：

托管式人工智能解决方案——工业人工智能服务：服务业、工业和机械工程领域保持竞争力的关键

中国新一代人工智能产品在规模上远超谷歌和OpenAI。

该模型系列的烟火：从3970亿到8亿参数

Qwen3.5 系列的发布策略遵循着精心设计的节奏。旗舰型号 Qwen3.5-397B-A17B 在春节前夕率先发布：总参数量高达 3970 亿，而每个代币仅激活 170 亿个参数。这种稀疏的混合专家架构在首次实际测试中表现惊艳，不到 5% 的激活率意味着，尽管模型规模庞大，但其延迟却与规模小得多的模型相当。.

随后，真正的亮点接踵而至：Qwen3.5-122B-A10B 和 Qwen3.5-35B-A3B 作为高性能应用的 SMoE 模型，以及面向注重单任务质量而非纯粹推理速度的用户的全能型模型——密集型 Qwen3.5-27B。首批社区评估结果令人惊讶：尽管 27B 模型的参数量小于 SMoE 变体，但它在众多基准测试中却取得了更优异的成绩——这表明稀疏架构的更复杂的训练过程尚未完全优化，仍有很大的提升空间。.

然而，真正引起轰动的是随后发布的几款小型模型：Qwen3.5-9B、Qwen3.5-4B、Qwen3.5-2B 和 Qwen3.5-0.8B。这些模型专为在标准计算机上使用而设计，其性能密度在紧凑型语言模型的历史上几乎是前所未有的。Qwen3.5-9B 在测试学术研究生水平推理能力的 GPQA Diamond 基准测试中获得了 81.7 分，超过了 OpenAI 的 GPT-oss-120B（80.1 分），而 GPT-oss-120B 的参数数量是它的十三倍多。在视觉推理基准测试 MMMU-Pro 中，9B 模型获得了 70.1 分，而 Gemini 2.5 Flash-Lite 的得分为 59.7 分。4B 模型也引起了轰动：在 Video-MME（带字幕）测试中，它获得了 83.5 分，远超谷歌的 74.6 分。.

与此相关：

人工智能竞赛：阿里巴巴发布全新旗舰机型，向竞争对手施压——研究

多模态作为标准：VL 后缀的结束

Qwen 3.5 系列中一个具有重要战略意义的象征性举措是移除了模型名称中的缩写“VL”。此前，“VL”（视觉语言）用于指代那些能够处理图像的模型——这项功能一直被视为附加特性。而在 3.5 版本中，所有模型无一例外地都原生支持多模态：文本、图像和视频不再通过下游适配器进行处理，而是从一开始就通过融合训练进行集成。.

这一举措并非仅仅是表面功夫，它标志着Qwen的战略定位发生了转变：Qwen不再将多模态视为特定模型变体的高级功能，而是将其视为所有现代语言模型的基本要求。采用早期融合（Early Fusion）技术意味着图像和语言理解是在一个共享的表征空间中学习的——其优势在于模型能够将视觉和语言知识深度关联起来，而不仅仅是表面地组合它们。此外，Qwen 3.5还支持201种语言和方言，而上一代产品仅支持119种。.

代码中的地缘政治：中国的开源攻势对全球人工智能市场意味着什么

在这一技术进步的背后，隐藏着一个常被西方媒体忽视的地缘政治层面。2025年和2026年，中国人工智能产业采取了一种可被称作“开源抢占市场”的策略：性能堪比最昂贵商业供应商的模型被免费发布，并附带允许商业用途的许可。其结果是，OpenAI、Anthropic和谷歌等公司旗舰产品所收取的溢价被系统性地削弱。.

阿里巴巴明确将Qwen3.5定位为GPT-5.2和Claude 4.5 Opus的竞争对手。在内部基准测试中，Qwen3.5在IFBench（一项衡量指令执行能力的测试）上的表现优于这两个模型。在HMMT推理基准测试中，Qwen3.5超越了Claude 4.5 Opus，但落后于GPT-5.2。这种微妙的性能表现是其典型特征：Qwen3.5并非在任何单一类别中都绝对领先，但它在各个方面都具有竞争力——而且所有这一切都基于完全开源的源代码。.

市场对此的反应已经显现。开发者，尤其是资源敏感型企业的开发者，正转向Qwen衍生产品，因为在自有硬件上进行深度推理的总拥有成本远低于商业供应商的API费用。对于希望扩展AI解决方案但又不想按代币付费的B2B客户而言，这是一个至关重要的优势。中国开源模型对市场施加的价格压力已经促使OpenAI推出更经济实惠的产品线，例如GPT-5 mini——这正是对Qwen竞争的直接回应。.

抛开迷思，看清基准：数字的真实含义

对 Qwen3.5 基准测试结果进行严肃评估需要保持客观冷静。阿里巴巴将其性能对比数据标注为“自行报告”——CNBC 也明确指出了这一点，因此需要进行独立验证。此外，基准测试并非中立的衡量标准：模型可能预先使用类似基准测试的数据进行训练，导致某些测试格式出现过拟合，而实际性能却并未得到任何提升。发布后几周内由社区驱动的测试结果则呈现出更为复杂但总体令人印象深刻的景象。.

当应用于需要主动推理且无法仅通过事实检索解决的基准测试时，结果尤为稳健。GPQA Diamond 基准测试提出了生物学、物理学和化学领域的博士级问题，被认为特别难以被操纵。根据现有研究，Qwen3.5-9B 在此测试中超越了拥有 1200 亿参数的模型，这并非测量误差所致，而是新架构与更高质量训练数据相结合所带来的效率提升的体现。Qwen 采用了 FP8 流水线和异步强化学习框架进行训练——这些技术决策提高了数据效率并使训练更加稳定。.

与此相关：

阿里巴巴的Qwen 3人工智能模型：人工智能发展的新标杆及其对全球技术市场的影响

智能体人工智能和Qwen平台的下一阶段发展

阿里巴巴将Qwen3.5定位为“智能体AI时代”的基础架构，而不仅仅是另一个聊天模型。这一说法得到了大量技术证据的支持：强化学习训练已扩展到数百万个智能体环境，并能处理日益复杂的任务分布——这种方法侧重于真实的、多阶段的任务执行，而非静态的知识复现。Qwen3.5-Plus通过阿里云提供原生工具使用功能，并配备自适应工具使用系统，使智能体能够独立访问外部API、数据库和搜索查询。.

拥有170亿个活跃参数的语言模型能够以极具竞争力的质量处理这些任务，这标志着基于代理的AI应用经济模式的根本性转变。以往的方法需要庞大且昂贵的模型作为代理的大脑，这显著推高了长时间自主任务的运行成本。Qwen3.5-9B可在配备单个高端GPU的本地硬件上运行，使更广泛的中端市场和没有云预算的开发者也能使用基于代理的AI系统。这种普及化的趋势有望显著加速AI代理在中型企业中的应用。.

咨询 - 规划 - 实施