网站图标 Xpert.Digital

DeepSeek-R1-0528:DeepSeek 更新使中国人工智能模型重新与西方行业领导者并驾齐驱

DeepSeek-R1-0528:DeepSeek 更新使中国人工智能模型重新与西方行业领导者并驾齐驱

DeepSeek-R1-0528:DeepSeek 更新使中国人工智能模型重新与西方行业领先者并驾齐驱——图片来源:Xpert.Digital

开源人工智能已达极限:DeepSeek 的光芒盖过了 OpenAI 和 Google

从第60名跃升至第68名:DeepSeek助力中国人工智能重回巅峰

中国人工智能初创公司DeepSeek于2025年5月28日发布了DeepSeek-R1-0528,标志着其发展历程中的一个重要里程碑,并重新定义了全球人工智能格局。此次开源推理模型的更新显著提升了性能,使DeepSeek首次与OpenAI的o3和Google Gemini 2.5 Pro并驾齐驱。尤其值得注意的是,如此卓越的性能是以远低于同类产品的成本实现的,并且模型权重完全开放,这引发了人们对专有人工智能系统未来走向的根本性思考。独立评级平台Artificial Analysis给新模型打出了68分——从之前的60分跃升至68分,这一分数与OpenAI o1和o3之间的性能差距相当。.

与此相关:

更新及其技术改进

DeepSeek-R1-0528 代表着一项重大改进,它通过算法优化和在训练后阶段更有效地利用计算资源,在不改变底层架构的前提下,显著提升了性能。此次更新主要着眼于增强推理能力,DeepSeek 表示,这能够实现“更深入的思考过程”。AIME 2025 数学测试就是一个令人印象深刻的改进例证,其准确率从 70% 提升至 87.5%。与此同时,每道题的平均词元数也从 12,000 个增加到 23,000 个,表明​​处理能力得到了更强大的提升。.

除了推理能力的提升,此次更新还引入了多项重要的新功能,包括 JSON 输出和函数调用、优化的用户界面以及减少的幻觉。这些改进显著提升了模型的实用性,并大幅扩展了其应用范围。可用性保持不变:现有 API 用户将自动收到更新,而模型权重将继续在 Hugging Face 上以 MIT 开源许可证发布。.

基准性能和性能比较

DeepSeek-R1-0528 的基准测试结果显示,其在所有评估类别中均取得了显著提升。在数学任务方面,AIME-2024 的得分从 79.8% 提升至 91.4%,HMMT-2025 的得分从 41.7% 提升至 79.4%,CNMO-2024 的得分从 78.8% 提升至 86.9%。这些结果表明,该模型已成为全球最强大的数学问题求解人工智能系统之一。.

DeepSeek-R1-0528 在编程基准测试中也取得了显著进步。LiveCodeBench 的得分从 63.5% 提升至 73.3%,Aider-Polyglot 从 53.3% 提升至 71.6%,SWE Verified 从 49.2% 提升至 57.6%。Codeforces 的评分从 1530 分攀升至 1930 分,使其跻身顶级算法问题求解器之列。与竞争模型相比,DeepSeek-R1 在 SWE Verified 测试中取得了 49.2% 的得分,略高于 OpenAI 的 o1-1217(48.9%);而在 Codeforces 测试中,其得分达到 96.3%,Elo 评分为 2029 分,与 OpenAI 的领先模型非常接近。.

通用知识和逻辑测试证实了整体性能的提升:GPQA-Diamond 的准确率从 71.5% 提升至 81.0%,Humanity's Last Exam 的准确率从 8.5% 提升至 17.7%,MMLU-Pro 的准确率从 84.0% 提升至 85.0%,MMLU-Redux 的准确率从 92.9% 提升至 93.4%。只有 OpenAI 的 SimpleQA 的准确率略有下降,从 30.1% 降至 27.8%。这些全面的改进表明,DeepSeek-R1-0528 不仅在特定领域具有竞争力,而且在所有认知任务中都表现出色。.

技术架构与创新

DeepSeek-R1-0528 的技术基础基于复杂的混合专家(MoE)架构,该架构包含 6710 亿个参数中的 370 亿个活跃参数,上下文长度为 128,000 个词元。该模型实现了先进的强化学习,从而具备自验证、多阶段反思和类人推理能力。这种架构使模型能够通过迭代思维过程处理复杂的推理任务,这使其区别于传统的语言模型。.

一项特别具有创新性的方面是开发了一种精简版模型 DeepSeek-R1-0528-Qwen3-8B。该模型通过提炼 DeepSeek-R1-0528 的思维过程,并将其应用于训练后的 Qwen3-8B-Base 模型。这个更小的版本在显著降低资源需求的同时,实现了令人印象深刻的性能,并且可以在配备 8-12 GB 显存的 GPU 上运行。在 AIME 2024 测试中,该模型在开源模型中取得了最先进的性能,比 Qwen3-8B 提升了 10%,并且与 Qwen3-235B-Thinking 的性能相当。.

开发方法表明,DeepSeek 越来越依赖于强化学习的后训练,这导致评估期间的令牌消耗量增加了 40%,从 7100 万个令牌增加到 9900 万个令牌。这表明该模型能够在无需根本性架构变更的情况下生成更长、更深入的答案。.

市场地位和竞争格局

DeepSeek-R1-0528 正在成为西方科技公司领先专有模型的有力竞争对手。根据 Artificial Analysis 的数据,该模型得分 68 分,与谷歌的 Gemini 2.5 Pro 不相上下,并领先于 xAI 的 Grok 3 mini、Meta 的 Llama 4 Maverick 和英伟达的 Nemotron Ultra 等模型。在代码方面,DeepSeek-R1-0528 的表现略逊于 OpenAI 的 o4-mini 和 o3。.

此次更新的发布对全球人工智能格局产生了重大影响。DeepSeek-R1 于 2025 年 1 月首次发布,已导致中国以外地区的科技股暴跌,并挑战了人工智能规模化需要庞大计算能力和投资的传统观念。西方竞争对手迅速做出反应:谷歌推出了 Gemini 的折扣价,而 OpenAI 则降低了价格,并推出了对计算能力要求更低的 o3 Mini 型号。.

有趣的是,EQBench 的文本风格分析表明,DeepSeek-R1 的风格受谷歌的影响比受 OpenAI 的影响更大,这表明其开发过程中可能使用了更多合成的 Gemini 输出结果。这一观察结果凸显了不同人工智能开发者之间复杂的相互影响和技术转移。.

成本效益和可用性

DeepSeek-R1-0528 的一个关键竞争优势在于其卓越的成本效益。其定价结构远优于 OpenAI:缓存命中时,输入令牌每百万个令牌仅需 0.14 美元,缓存未命中时每百万个令牌仅需 0.55 美元;而输出令牌每百万个令牌仅需 2.19 美元。相比之下,OpenAI o1 的输入令牌每百万个令牌收费 15 美元,输出令牌每百万个令牌收费 60 美元,因此 DeepSeek-R1 的价格比 OpenAI 低 90% 到 95%。.

微软 Azure 也以极具竞争力的价格提供 DeepSeek-R1:全球版每 1000 个输入令牌的价格为 0.00135 美元,每 1000 个输出令牌的价格为 0.0054 美元,而区域版的价格略高。这种定价模式对于希望利用高质量 AI 功能但又不想承担专有解决方案高昂成本的公司和开发人员来说,尤其具有吸引力。.

该模型以 MIT 许可证开源发布,允许商业用途和修改,无需支付许可费。开发者既可以在本地运行该模型,也可以通过各种 API 使用它,从而获得更大的灵活性和对实现的控制权。对于资源有限的用户,我们提供了一个精简版,包含 80 亿个参数,可在配备 24 GB 内存的消费级硬件上运行。.

与此相关:

中国人工智能的追赶:DeepSeek的成功意味着什么

DeepSeek-R1-0528 标志着全球人工智能发展的一个转折点,它证明,即使受到美国出口限制,中国企业也能开发出与西方顶尖系统相媲美的模型。此次更新证明,通过有效运用训练后优化和强化学习,无需进行根本性的架构变革,即可显著提升性能。卓越的性能、大幅降低的成本以及开源特性,从根本上挑战了人工智能行业现有的商业模式。.

西方竞争对手对DeepSeek成功所作出的反应已初见端倪:OpenAI和谷歌纷纷降价,并开发出资源效率更高的模型。随着原计划于2025年5月发布的DeepSeek-R2的推出,这种竞争压力可能会进一步加剧。DeepSeek-R1-0528的成功案例表明,人工智能领域的创新并不一定需要巨额投资和计算资源,巧妙的算法和高效的开发方法同样可以实现。.

与此相关:

 

您的人工智能转型、人工智能集成和人工智能平台行业专家

☑️ 我们的业务语言是英语或德语。

☑️ 新增:用您的母语进行通信!

 

Konrad Wolfenstein

我和我的团队很乐意为您提供私人顾问服务。.

您可以通过填写此处的联系表格联系我wolfenstein@xpert.digital,或者直接致电+49 7348 4088 965。我的邮箱地址是

我期待着我们的合作项目。.

 

 

☑️ 为中小企业提供战略、咨询、规划和实施方面的支持

☑️ 人工智能战略的制定或调整

☑️ 先锋业务发展

离开移动版